Data Clean Room—Configurando serviços de nuvem

Premium

Visão geral: configure um ou mais data warehouses (BigQuery, Snowflake) e/ou buckets de armazenamento em nuvem (Amazon S3, GCS) para compartilhar dados com o Data Clean Room e receber relatórios.

Visão geral

A preparação para usar o Data Clean Room (DCR) envolve a configuração de:

  • Os serviços/locais de nuvem dos quais o DCR lê dados primários de seus sistemas (fontes personalizadas). Esses locais são usados para criar conexões de entrada.
  • Os serviços de nuvem/locais para os quais o DCR entrega relatórios após o processamento. Esses locais são usados para criar conexões de saída.

Criar uma conexão de entrada ou saída é um processo de 2 etapas:

  • Etapa #1 – Use as interfaces de seus serviços de nuvem selecionados para prepará-los para uso com o DCR (este artigo).
  • Etapa #2 – Use a plataforma da AppsFlyer para conectá-los ao DCR. (Consulte Data Clean Room—Trabalhando com conexões).

 Observação

Consulte Data Clean Room—Trabalhando com fontes para obter informações completas sobre os requisitos de dados de origem:

  • Formato de dados (para todas as fontes)
  • Colunas da tabela (para origens em data warehouses)
  • Nome e formato do arquivo (para fontes em buckets de armazenamento em nuvem)

Serviços de nuvem compatíveis

Dois tipos de serviços em nuvem são suportados para conexões de entrada e saída para o DCR:

  • Data warehouses: BigQuery e Snowflake
  • Buckets de armazenamento em nuvem: Amazon S3 (AWS) e GCS

Você pode usar uma ou qualquer combinação desses serviços para conexões de entrada e saída.

 Importante!

  • Se você estiver usando várias fontes personalizadas para um único relatório, elas devem estar localizadas em buckets de armazenamento em nuvem.
  • É muito comum usar o mesmo bucket de armazenamento em nuvem no Amazon S3 ou GCS para conexões de entrada e saída. Certifique-se de seguir as instruções especiais para essa configuração.

Configurando serviços de nuvem para conexões de entrada

Prepare seus serviços de nuvem selecionados para uso com conexões de entrada DCR de acordo com as instruções nas abas a seguir.

Data warehouses – BigQuery e Snowflake

BigQuery

Observação: o procedimento a seguir deve ser realizado pelo administrador do Google Cloud.

Para criar um conjunto de dados e conceder as permissões DCR: 

  1. Faça login no console do Google Cloud.
  2. Acesse a página do BigQuery.
  3. Em um projeto novo ou existente do Google Cloud, crie um conjunto de dados para uso exclusivo do DCR:
    1. No painel do lado esquerdo, clique no botão Exibir ações BQ_view_actions_button.png à direita do ID do projeto.
    2. Selecione Criar conjunto de dados.

      BQ_create_dataset.png

    3. No painel que se abre do lado direito, insira o nome do conjunto de dados e selecione outras opções conforme necessário.
      • Você pode usar qualquer nome que lhe agrade – usando apenas letras, números e sublinhados (_).
        • Recomendado: use um nome que indique que o conjunto de dados está sendo usado para uma conexão de entrada.
      • É altamente recomendável NÃO usar a opção Ativar expiração de tabela, pois o DCR não conseguiria ler as fontes após a expiração das tabelas.
    4. Clique no botão BQ_create_dataset_button.png.

  4. Conceda as permissões DCR ao conjunto de dados:
    1. No painel do lado esquerdo, clique no botão Exibir ações BQ_view_actions_button.png à direita do conjunto de dados que você criou.
    2. Selecione Compartilhar.
    3. No painel que se abre do lado direito, clique no botão BQ_add_principal_button.png.
    4. Na seção Adicionar principais, insira a seguinte conta no campo Novos principais:
      appsflyer-dcr@dcr-report.iam.gserviceaccount.com
    5. Na seção Atribuir funções, selecione BigQuery > Visualizador de dados do BigQuery.

      BQ_data_viewer.png

    6. Clique em Salvar.
    7. Clique em FECHAR para fechar o painel do lado direito.

Snowflake

Observação: o procedimento a seguir deve ser executado por um administrador da conta do Snowflake.

Para criar um compartilhamento privado para uso do DCR:

  1. Faça login na conta do Snowflake que contém os dados que você deseja compartilhar com o DCR.
  2. Mude sua função para Accountadmin.
  3. No painel do lado esquerdo, selecione Compartilhamento privado.
  4. Na página que se abre, selecione a aba Compartilhado por sua conta .

    snowflake_private_sharing.png

  5. Clique no botão CompartilharNa lista que se abre, selecione Criar um compartilhamento direto.

    snowflake_create_direct_share.png

  6. Selecione as tabelas e/ou exibições que deseja compartilhar com o DCR e clique em Concluído.
  7. De acordo com suas necessidades, altere o Identificador de compartilhamento seguro e adicione uma descrição opcional.
  8. No campo Adicionar contas na sua região por nome, insira uma das seguintes contas do Snowflake da AppsFlyer, de acordo com a região da sua conta do Snowflake:
    Região Conta da AppsFlyer
    EU West (eu-west-1) QL63117
    US East - N. Virginia (us-east-1) MWB70410
    US East - Ohio (us-east-2) BM15378
  9. Clique no botão Criar compartilhamento

Buckets de armazenamento em nuvem – Amazon S3 e GCS

Você pode usar um ou mais buckets para fazer upload de dados para o DCR (no Amazon S3, GCS ou ambos). No entanto, na maioria dos casos, a estrutura mais fácil de gerenciar inclui um único bucket em um único serviço de nuvem.

  • Você pode configurar o mesmo bucket para uso com conexões de entrada e saída seguindo estas instruções.

Os seguintes requisitos são relevantes para os buckets em ambos os serviços em cloud:

  • Uso: o bucket deve ser para uso exclusivo do Data Clean Room da AppsFlyer. Em outras palavras, nenhum outro serviço pode escrever dados no bucket.
  • Permissões: o serviço AppsFlyer DCR deve receber permissões do bucket. Veja instruções para conceder essas permissões nas abas para cada serviço em nuvem abaixo.
  • Nome: o nome do bucket deve começar com af-dcr- ou af-datalocker-
    • Exemplo: af-dcr-example-bucket
  • Requisitos de nomenclatura do DCR: os seguintes requisitos de nomenclatura se aplicam a todas as entidades de dados DCR (buckets, pastas e arquivos):
    • Comprimento máximo: 200 caracteres
    • Caracteres válidos:
      • letras (A-Z, a-z)
      • números (0-9), não pode ser o primeiro caractere de um nome
      • hifens (-), não pode ser o primeiro caractere de um nome
      • Caracteres inválidos:
        • espaços
        • todos os outros símbolos ou caracteres especiais
      • Caracteres utilizados apenas para fins especiais:
          • sinais de igual (=), somente quando necessário em datas e nomenclaturas das pastas de versão
          • sublinhado (_), somente quando utilizado para identificar as partes de arquivos GZIP multipartes ou para nomear _SUCCESS files
          • pontos (.), somente diretamente antes das extensões de nomes de arquivo (.csv, .gzip)

Amazon S3

Observação: o seguinte procedimento deve ser realizado por seu administrador AWS.

Para criar um bucket e conceder permissões da AppsFlyer: 

  1. Faça login no console da AWS.
  2. Vá para o serviço S3.
  3. Crie o bucket:
    1. Clique em Criar bucket.
    2. Complete o Nome do bucket, começando com af-dcr- ou af-datalocker- e seguido pelo seu texto (de acordo com os requisitos de nomenclatura DCR acima).
    3. Clique em Criar bucket.
  4. Conceda permissões de bucket à AppsFlyer:
    1. Selecione o bucket que você criou. 
    2. Acesse a aba Permissões
    3. Na seção Política do bucket, clique em Editar.
      A janela Editar política do bucket é aberta.
    4. Cole o seguinte code snippet na janela.
      {
        "Version": "2012-10-17",
        "Statement": [
          {
            "Sid": "AF-DCR-DL",
            "Effect": "Allow",
            "Principal": {
              "AWS": [         "arn:aws:iam::195229424603:user/product=dcr-reporter__envtype=prod__ns=default",   "arn:aws:iam::195229424603:user/product=datalocker__envtype=prod__ns=default"
              ]
            },
            "Action": [
              "s3:GetObject",
              "s3:ListBucket",
              "s3:DeleteObject",
              "s3:PutObject"
            ],
            "Resource": [
              "arn:aws:s3:::af-dcr-mybucket",
              "arn:aws:s3:::af-dcr-mybucket/*"
            ]
          }
        ]
      }
      
  5. No code snippet, substitua af-dcr-mybucket (nas 2 linhas em que ele aparece) pelo nome do bucket que você criou.
    Atenção! Ao substituir o nome do bucket no snippet, certifique-se de não escrever /* sobre a segunda linha em que o nome do bucket aparece.

  6. Clique em Salvar alterações.

GCS

Observação: o procedimento a seguir deve ser realizado pelo administrador do Google Cloud.

Para criar um bucket e conceder permissões da AppsFlyer: 

  1. Faça login no console do GCS.
  2. Vá para a página do Cloud Storage Browser.
  3. Crie o bucket:
    1. Clique em Criar bucket.
    2. Insira as informações do bucket na página Criar um bucket . Inclua o nome do bucket, começando com af-dcr- ou af-datalocker- e seguido pelo seu texto (de acordo com os requisitos de nomenclatura DCR acima).
    3. Clique em Continuar.
    4. Clique em Criar.
  4. Conceda permissões de bucket à AppsFlyer:
    1. Selecione o bucket que você criou. 
    2. Acesse a aba Permissões
    3. Na seção Permissões, clique em + Adicionar.
      A janela Adicionar membros abre.
    4. Na caixa Novos membros, insira a seguinte conta:
      appsflyer-dcr@dcr-report.iam.gserviceaccount.com
    5. Na lista Função, selecione Armazenamento em nuvem > Administração do armazenamento.

      dcr_gcs_permissions.png

    6. Clique em Salvar.

Configurando serviços de nuvem para conexões de saída

O DCR entrega relatórios para seus serviços de nuvem selecionados usando o Data Locker da AppsFlyer.

  • Observação: para receber relatórios do DCR não é necessário uma assinatura premium do Data Locker. Se você estiver interessado em receber outros relatórios da AppsFlyer por meio do Data Locker, entre em contato com seu CSM ou envie um e-mail para hello@appsflyer.com.

Seus relatórios DCR podem ser entregues em um ou mais locais em seus serviços de nuvem (independentemente de você usar ou não os mesmos serviços para conexões de entrada). Prepare-os para uso com conexões de saída de acordo com as instruções nas abas a seguir.

Data warehouses – BigQuery e Snowflake

BigQuery

Observação: o procedimento a seguir deve ser realizado pelo administrador do Google Cloud.

Para criar um conjunto de dados e conceder permissões do Data Locker: 

  1. Faça login no console do Google Cloud.
  2. Acesse a página do BigQuery.
  3. Em um projeto novo ou existente do Google Cloud, crie um conjunto de dados para uso exclusivo do Data Locker:
    1. No painel do lado esquerdo, clique no botão Exibir ações BQ_view_actions_button.png à direita do ID do projeto.
    2. Selecione Criar conjunto de dados.

      BQ_create_dataset.png

    3. No painel que se abre do lado direito, insira o nome do conjunto de dados e selecione outras opções conforme necessário.
      • Você pode usar qualquer nome que lhe agrade – usando apenas letras, números e sublinhados (_).
        • Recomendado: use um nome que indique que o conjunto de dados está sendo usado para uma conexão de saída.
      • É altamente recomendável NÃO usar a opção Ativar expiração de tabela, pois o Data Locker não conseguiria gravar relatórios no conjunto de dados após a expiração das tabelas.
    4. Clique no botão BQ_create_dataset_button.png.

  4. Conceda permissões do Data Locker ao conjunto de dados:
    1. No painel do lado esquerdo, clique no botão Exibir ações BQ_view_actions_button.png à direita do conjunto de dados que você criou.
    2. Selecione Compartilhar.
    3. No painel que se abre do lado direito, clique no botão BQ_add_principal_button.png.
    4. Na seção Adicionar principais, insira a seguinte conta no campo Novos principais:
      datalocker-bq-admin-prod@datalocker-bq-prod.iam.gserviceaccount.com
    5. Na seção Atribuir funções, selecione BigQuery > Editor de dados do BigQuery.

      BQ_data_editor.png

    6. Clique em Salvar.
    7. Clique em FECHAR para fechar o painel do lado direito.

Snowflake

O procedimento para preparar o Snowflake para conexões de saída é concluído em combinação com o procedimento para criar a própria conexão de saída.

Buckets de armazenamento em nuvem – Amazon S3 e GCS

O procedimento para preparar buckets de armazenamento em nuvem para conexões de saída é muito semelhante ao de prepará-los para conexões de entrada (incluindo as instruções relevantes para ambos os serviços de armazenamento em nuvem).

As instruções nas abas abaixo se aplicam quando você usa um bucket apenas para conexões de saída.

Amazon S3

Siga as instruções para criar um bucket do Amazon S3 para conexões de entrada (sem alterações nesse procedimento).

GCS

Siga as instruções para criar um bucket GCS para conexões de entrada. Na etapa 4 desse procedimento, insira a seguinte conta na caixa Novos membros:
af-data-delivery@af-raw-data.iam.gserviceaccount.com

Configurando o mesmo bucket de armazenamento em nuvem para conexões de entrada e saída

Conforme mencionado anteriormente, é comum usar o mesmo bucket no Amazon S3 ou GCS para conexões de entrada e saída.

As instruções para esta configuração variam apenas ligeiramente das instruções para conexões de entrada. Eles diferem, no entanto, dependendo se você está: 

  • criar um novo bucket para uso com conexões de entrada e saída DCR; ou
  • modificando um bucket usado anteriormente apenas para Data Locker para um agora usado para conexões DCR de entrada e saída

As instruções para ambos os cenários estão incluídas nas abas abaixo:

Amazon S3

Criando um novo bucket para conexões de entrada/saída

Siga as instruções para criar um bucket do Amazon S3 para conexões de entrada (sem alterações nesse procedimento).

Modificando um bucket existente usado anteriormente apenas para o Data Locker

A modificação de um bucket existente que você usou anteriormente apenas para o Data Locker requer a alteração das permissões do bucket (para permitir o acesso tanto pelo DCR quanto pelo Data Locker).

Para modificar as permissões do bucket:

  1. Faça login no console da AWS.
  2. Vá para o serviço S3.
  3. Selecione o bucket usado anteriormente apenas para o Data Locker. 
  4. Acesse a aba Permissões
  5. Na seção Política do bucket, clique em Editar.
    A janela Editar política do bucket é aberta.
  6. Substitua o conteúdo da janela pelo seguinte trecho de código:
    {
      "Version": "2012-10-17",
      "Statement": [
        {
          "Sid": "AF-DCR-DL",
          "Effect": "Allow",
          "Principal": {
            "AWS": [         "arn:aws:iam::195229424603:user/product=dcr-reporter__envtype=prod__ns=default",   "arn:aws:iam::195229424603:user/product=datalocker__envtype=prod__ns=default"
            ]
          },
          "Action": [
            "s3:GetObject",
            "s3:ListBucket",
            "s3:DeleteObject",
            "s3:PutObject"
          ],
          "Resource": [
            "arn:aws:s3:::af-dcr-mybucket",
            "arn:aws:s3:::af-dcr-mybucket/*"
          ]
        }
      ]
    }
    
    • No code snippet, substitua af-dcr-mybucket (nas 2 linhas em que ele aparece) pelo nome do bucket que você criou.
    • Atenção! Ao substituir o nome do bucket no snippet, certifique-se de não escrever /* sobre a segunda linha em que o nome do bucket aparece.
  7. Clique em Salvar alterações.

GCS

Criando um novo bucket para conexões de entrada/saída

Siga as instruções para criar um bucket GCS para conexões de entrada. Modifique a etapa 4 desse procedimento para inserir as 2 contas a seguir na caixa Novos membros :
appsflyer-dcr@dcr-report.iam.gserviceaccount.com
af-data-delivery@af-raw-data.iam.gserviceaccount.com

Modificando um bucket existente usado anteriormente apenas para o Data Locker

A modificação de um bucket existente que você usou anteriormente apenas para o Data Locker requer a alteração das permissões do bucket (para permitir o acesso tanto pelo DCR quanto pelo Data Locker).

Para modificar as permissões do bucket:

  1. Faça login no console do GCS.
  2. Vá para a página do Cloud Storage Browser.
  3. Selecione o bucket usado anteriormente apenas para o Data Locker. 
  4. Acesse a aba Permissões.
  5. Na seção de permissões, clique em + Adicionar.
    A janela Adicionar membros abre.
  6. Na caixa Novos membros, insira a seguinte conta:
    appsflyer-dcr@dcr-report.iam.gserviceaccount.com
  7. Na lista Função, selecione Armazenamento em nuvem > Administração do armazenamento.

    dcr_gcs_permissions.png

  8. Clique em Salvar.