Data Clean Room: configuración de servicios en la nube

Premium

De un vistazo: Configura uno o más almacenes de datos (BigQuery, Snowflake) y/o buckets de almacenamiento en la nube (Amazon S3, GCS) para compartir datos con Data Clean Room y recibir reportes.

Información general

La preparación para usar Data Clean Room (DCR) implica configurar:

  • Los servicios/ubicaciones en la nube desde los que DCR lee los datos de origen de tus sistemas (fuentes personalizadas). Estas ubicaciones se utilizan para crear conexiones entrantes.
  • Los servicios/ubicaciones en la nube a los que DCR entrega los reportes después del procesamiento. Estas ubicaciones se utilizan para crear conexiones salientes.

Crear una conexión entrante o saliente es un proceso de 2 pasos:

  • Paso 1: Usa las interfaces de tus servicios en la nube seleccionados para prepararlos para su uso con DCR (este artículo).
  • Paso 2: Usa la plataforma AppsFlyer para conectarlos a DCR. (Consulta Data Clean Room: trabajar con conexiones).

 Nota

Consulta Data Clean Room: trabajar con fuentes para obtener información detallada sobre los requisitos de los datos de origen:

  • Formato de los datos (para todas las fuentes)
  • Columnas de la tabla (para fuentes en almacenes de datos)
  • Nombre y formato del archivo (para fuentes en buckets de almacenamiento en la nube)

Servicios en la nube compatibles

Se admiten dos tipos de servicios en la nube para las conexiones entrantes y salientes a DCR:

  • Almacenes de datos: BigQuery y Snowflake
  • Buckets de almacenamiento en la nube: Amazon S3 (AWS) y GCS

Puedes usar uno o cualquier combinación de estos servicios para conexiones entrantes y salientes.

 ¡Importante!

  • Si vas a utilizar varias fuentes personalizadas para un solo reporte, deben ubicarse en buckets de almacenamiento en la nube.
  • Es muy común usar el mismo bucket de almacenamiento en la nube en Amazon S3 o GCS tanto para conexiones entrantes como salientes. Asegúrate de seguir las instrucciones específicas para esa configuración.

Configuración de servicios en la nube para conexiones entrantes

Prepara tus servicios en la nube seleccionados para su uso con conexiones entrantes de DCR, de acuerdo con las instrucciones de las siguientes pestañas.

Almacenes de datos: BigQuery y Snowflake

BigQuery

Nota: El siguiente procedimiento debe ser realizado por tu administrador de Google Cloud.

Para crear un conjunto de datos y otorgar permisos a DCR: 

  1. Inicia sesión en tu consola de Google Cloud.
  2. Ve a la página de BigQuery.
  3. En un proyecto nuevo o existente de Google Cloud, crea un conjunto de datos para el uso exclusivo de DCR:
    1. En el panel izquierdo, haz clic en el botón View actions (Ver acciones) BQ_view_actions_button.png a la derecha del ID del proyecto.
    2. Selecciona Create dataset (Crear conjunto de datos).

      BQ_create_dataset.png

    3. En el panel que se abre en el lado derecho, introduce el nombre del conjunto de datos y selecciona otras opciones según tus necesidades.
      • Puedes usar el nombre que más te convenga, usando solo letras, números y guiones bajos (_).
        • Recomendado: Utiliza un nombre que indique que el conjunto de datos se está utilizando para una conexión entrante.
      • Se recomienda encarecidamente NO usar la opción Enable table expiration (Habilitar caducidad de tabla), ya que DCR no sería capaz de leer las fuentes después de que caduquen las tablas.
    4. Haz clic en el botón BQ_create_dataset_button.png.

  4. Otorga los permisos de DCR al conjunto de datos:
    1. En el panel izquierdo, haz clic en el botón View actions (Ver acciones) BQ_view_actions_button.png a la derecha del conjunto de datos que creaste.
    2. Selecciona Share (Compartir).
    3. En el panel que se abre en el lado derecho, haz clic en el botón BQ_add_principal_button.png.
    4. En la sección Add principals (Agregar principales), introduce la siguiente cuenta en el campo New principals (Nuevos principales):
      appsflyer-dcr@dcr-report.iam.gserviceaccount.com
    5. En la sección Assign roles (Asignar roles), selecciona BigQuery > BigQuery Data Viewer (Visualizador de datos de BigQuery).

      BQ_data_viewer.png

    6. Haz clic en Guardar.
    7. Haz clic en CLOSE (CERRAR) para cerrar el panel del lado derecho.

Snowflake

Nota: El siguiente procedimiento debe ser realizado por un administrador de cuenta de Snowflake.

Para crear un recurso compartido privado para su uso por parte de DCR:

  1. Inicia sesión en la cuenta de Snowflake que contiene los datos que deseas compartir con DCR.
  2. Cambia tu rol a Accountadmin (Administrador de cuenta).
  3. En el panel izquierdo, selecciona Private Sharing (Compartir en privado).
  4. En la página que se abre, selecciona la pestaña Shared By Your Account (Compartido por tu cuenta).

    snowflake_private_sharing.png

  5. Haz clic en el botón Share (Compartir)En la lista que se abre, selecciona Create a Direct Share (Crear una compartición directa).

    snowflake_create_direct_share.png

  6. Selecciona las tablas y/o vistas que desees compartir con DCR y, a continuación, haz clic en Done (Listo).
  7. Según tus necesidades, cambia el Secure Share Identifier (Identificador de compartición segura) y agrega una descripción opcional.
  8. En el campo Add accounts in your region by name (Agrega cuentas en tu región por nombre), introduce una de las siguientes cuentas de Snowflake de AppsFlyer, según la región de tu cuenta de Snowflake:
    Región Cuenta de AppsFlyer
    EU West (eu-west-1) QL63117
    US East - N. Virginia (us-east-1) MWB70410
    US East - Ohio (us-east-2) BM15378
  9. Haz clic en el botón Create Share (Crear compartición)

Buckets de almacenamiento en la nube: Amazon S3 y GCS

Puedes utilizar uno o más buckets para cargar datos en DCR (en Amazon S3, GCS o ambos). Sin embargo, en la mayoría de los casos, la estructura más fácil de administrar incluye un solo bucket en un solo servicio en la nube.

  • Puedes configurar el mismo bucket para su uso con conexiones entrantes y salientes siguiendo estas instrucciones.

Los siguientes requisitos son relevantes para los buckets de ambos servicios en la nube:

  • Uso: el bucket debe ser para uso exclusivo de Data Clean Room de AppsFlyer. En otras palabras, ningún otro servicio puede escribir datos en el bucket.
  • Permisos: el servicio DCR de AppsFlyer debe tener permisos de bucket. Consulta las instrucciones para otorgar estos permisos en las pestañas de cada servicio en la nube a continuación.
  • Nombre: el nombre del bucket debe comenzar por af-dcr- o af-datalocker-.
    • Ejemplo: af-dcr-example-bucket
  • Requisitos de nomenclatura de DCR: los siguientes requisitos de nomenclatura se aplican a todas las entidades de datos de DCR (buckets, carpetas y archivos):
    • Longitud máxima: 200 caracteres
    • Caracteres válidos:
      • letras (A-Z, a-z)
      • números (0-9), no pueden ser el primer carácter de un nombre
      • guiones (-), no pueden ser el primer carácter de un nombre
      • Caracteres inválidos:
        • espacios
        • todos los demás símbolos o caracteres especiales
      • Caracteres utilizados solo con fines especiales:

Amazon S3

Nota: El administrador de AWS debe llevar a cabo el siguiente procedimiento.

Para crear un bucket y otorgar permisos a AppsFlyer: 

  1. Inicia sesión en la consola de AWS.
  2. Ve al servicio S3.
  3. Crea el bucket:
    1. Haz clic en Crear bucket.
    2. Completa el Bucket name (Nombre del bucket), que debe comenzar con af-dcr- o af-datalocker-, y seguido de tu texto (de acuerdo con los requisitos de nomenclatura de DCR anteriores).
    3. Haz clic en Crear bucket.
  4. Otorga permisos de bucket a AppsFlyer:
    1. Selecciona el bucket que creaste. 
    2. Ve a la pestaña Permisos
    3. En la sección Política del bucket, haz clic en Editar.
      Se abre la ventana Editar política de bucket.
    4. Pega el siguiente fragmento de código en la ventana.
      {
        "Version": "2012-10-17",
        "Statement": [
          {
            "Sid": "AF-DCR-DL",
            "Effect": "Allow",
            "Principal": {
              "AWS": [         "arn:aws:iam::195229424603:user/product=dcr-reporter__envtype=prod__ns=default",   "arn:aws:iam::195229424603:user/product=datalocker__envtype=prod__ns=default"
              ]
            },
            "Action": [
              "s3:GetObject",
              "s3:ListBucket",
              "s3:DeleteObject",
              "s3:PutObject"
            ],
            "Resource": [
              "arn:aws:s3:::af-dcr-mybucket",
              "arn:aws:s3:::af-dcr-mybucket/*"
            ]
          }
        ]
      }
      
  5. En el fragmento, reemplaza af-dcr-mybucket (en las 2 líneas en las que aparece) con el nombre del bucket que creaste.
    Precaución: Cuando sustituyas el nombre del bucket en el fragmento, asegúrate de no sobrescribir /* en la segunda línea en la que aparece el nombre del bucket.

  6. Haz clic en Guardar cambios.

GCS

Nota: El siguiente procedimiento debe ser realizado por tu administrador de Google Cloud.

Para crear un bucket y otorgar permisos a AppsFlyer: 

  1. Inicia sesión en tu consola de GCS.
  2. Ve a la página de Cloud Storage Browser.
  3. Crea el bucket:
    1. Haz clic en Create bucket (Crear bucket).
    2. Introduce la información de tu bucket en la página Create a bucket (Crear un bucket). Incluye el nombre del bucket, que debe comenzar con af-dcr- o af-datalocker-, y seguido de tu texto (de acuerdo con los requisitos de nomenclatura de DCR anteriores).
    3. Haz clic en Continue (Continuar).
    4. Haz clic en Create (Crear).
  4. Otorga permisos de bucket a AppsFlyer:
    1. Selecciona el bucket que creaste. 
    2. Ve a la pestaña Permisos
    3. En la sección Permissions (Permisos), haz clic en + Add (Agregar).
      Se abre la ventana Add members (Agregar miembros).
    4. En el cuadro New members (Nuevos miembros), introduce la siguiente cuenta:
      appsflyer-dcr@dcr-report.iam.gserviceaccount.com
    5. En la lista Role (Rol), selecciona Cloud Storage (Almacenamiento en la nube) > Storage Admin (Administrador de almacenamiento).

      dcr_gcs_permissions.png

    6. Haz clic en Guardar.

Configuración de servicios en la nube para conexiones salientes

DCR entrega reportes a tus servicios en la nube seleccionados utilizando AppsFlyer Data Locker.

  • Nota: Recibir reportes de DCR no requiere una suscripción Premium a Data Locker. Si estás interesado en recibir otros reportes de AppsFlyer a través de Data Locker, comunícate con tu CSM o envía un correo electrónico a hello@appsflyer.com.

Tus reportes de DCR se pueden entregar a una o más ubicaciones de tus servicios en la nube (independientemente de que utilices o no los mismos servicios para las conexiones entrantes). Prepáralos para su uso con conexiones salientes de acuerdo con las instrucciones de las siguientes pestañas.

Almacenes de datos: BigQuery y Snowflake

BigQuery

Nota: El siguiente procedimiento debe ser realizado por tu administrador de Google Cloud.

Para crear un conjunto de datos y otorgar permisos a Data Locker: 

  1. Inicia sesión en tu consola de Google Cloud.
  2. Ve a la página de BigQuery.
  3. En un proyecto nuevo o existente de Google Cloud, crea un conjunto de datos para el uso exclusivo de Data Locker:
    1. En el panel izquierdo, haz clic en el botón View actions (Ver acciones) BQ_view_actions_button.png a la derecha del ID del proyecto.
    2. Selecciona Create dataset (Crear conjunto de datos).

      BQ_create_dataset.png

    3. En el panel que se abre en el lado derecho, introduce el nombre del conjunto de datos y selecciona otras opciones según tus necesidades.
      • Puedes usar el nombre que más te convenga, usando solo letras, números y guiones bajos (_).
        • Recomendado: Utiliza un nombre que indique que el conjunto de datos se está utilizando para una conexión saliente.
      • Se recomienda encarecidamente NO usar la opción Enable table expiration (Habilitar caducidad de tabla), ya que Data Locker no sería capaz de escribir los reportes en el conjunto de datos después de que caduquen las tablas.
    4. Haz clic en el botón BQ_create_dataset_button.png.

  4. Otorgar permisos de Data Locker al conjunto de datos:
    1. En el panel izquierdo, haz clic en el botón View actions (Ver acciones) BQ_view_actions_button.png a la derecha del conjunto de datos que creaste.
    2. Selecciona Share (Compartir).
    3. En el panel que se abre en el lado derecho, haz clic en el botón BQ_add_principal_button.png.
    4. En la sección Add principals (Agregar principales), introduce la siguiente cuenta en el campo New principals (Nuevos principales):
      datalocker-bq-admin-prod@datalocker-bq-prod.iam.gserviceaccount.com
    5. En la sección Assign roles (Asignar roles), selecciona BigQuery > BigQuery Data Editor (Editor de datos de BigQuery).

      BQ_data_editor.png

    6. Haz clic en Guardar.
    7. Haz clic en CLOSE (CERRAR) para cerrar el panel del lado derecho.

Snowflake

El procedimiento para preparar Snowflake para conexiones salientes se completa en combinación con el procedimiento para crear la propia conexión saliente.

Buckets de almacenamiento en la nube: Amazon S3 y GCS

El procedimiento para preparar buckets de almacenamiento en la nube para conexiones salientes es muy similar al de preparación para conexiones entrantes (incluyendo las instrucciones relevantes para ambos servicios de almacenamiento en la nube).

Las instrucciones de las pestañas a continuación se aplican cuando estás utilizando un bucket solo para conexiones salientes.

Amazon S3

Sigue las instrucciones para crear un bucket de Amazon S3 para conexiones entrantes (sin cambios en ese procedimiento).

GCS

Sigue las instrucciones para crear un bucket de GCS para conexiones entrantes. En el paso 4 de ese procedimiento, introduce la siguiente cuenta en la casilla New members (Nuevos miembros):
af-data-delivery@af-raw-data.iam.gserviceaccount.com

Configuración del mismo bucket de almacenamiento en la nube para conexiones entrantes y salientes

Como se mencionó anteriormente, es común usar el mismo bucket en Amazon S3 o GCS para las conexiones entrantes y salientes.

Las instrucciones para esta configuración varían solo ligeramente de las instrucciones para las conexiones entrantes. Sin embargo, difieren en función de si vas a: 

  • crear un nuevo bucket para su uso con conexiones entrantes y salientes de DCR; o
  • modificar un bucket previamente usado solo para Data Locker a uno que ahora se usa para conexiones de DCR entrantes y salientes

Las instrucciones para ambos escenarios se incluyen en las pestañas a continuación:

Amazon S3

Creación de un nuevo bucket para conexiones entrantes/salientes

Sigue las instrucciones para crear un bucket de Amazon S3 para conexiones entrantes (sin cambios en ese procedimiento).

Modificación de un bucket existente que se usaba anteriormente solo para Data Locker

Modificar un bucket existente que anteriormente usaste solo para Data Locker requiere cambiar los permisos del bucket (para permitir el acceso tanto por DCR como por Data Locker).

Para modificar los permisos de bucket:

  1. Inicia sesión en la consola de AWS.
  2. Ve al servicio S3.
  3. Selecciona el bucket usado anteriormente solo para Data Locker. 
  4. Ve a la pestaña Permisos
  5. En la sección Política del bucket, haz clic en Editar.
    Se abre la ventana Editar política de bucket.
  6. Reemplaza el contenido de la ventana con el siguiente fragmento de código:
    {
      "Version": "2012-10-17",
      "Statement": [
        {
          "Sid": "AF-DCR-DL",
          "Effect": "Allow",
          "Principal": {
            "AWS": [         "arn:aws:iam::195229424603:user/product=dcr-reporter__envtype=prod__ns=default",   "arn:aws:iam::195229424603:user/product=datalocker__envtype=prod__ns=default"
            ]
          },
          "Action": [
            "s3:GetObject",
            "s3:ListBucket",
            "s3:DeleteObject",
            "s3:PutObject"
          ],
          "Resource": [
            "arn:aws:s3:::af-dcr-mybucket",
            "arn:aws:s3:::af-dcr-mybucket/*"
          ]
        }
      ]
    }
    
    • En el fragmento, reemplaza af-dcr-mybucket (en las 2 líneas en las que aparece) con el nombre del bucket que creaste.
    • Precaución: Cuando sustituyas el nombre del bucket en el fragmento, asegúrate de no sobrescribir /* en la segunda línea en la que aparece el nombre del bucket.
  7. Haz clic en Guardar cambios.

GCS

Creación de un nuevo bucket para conexiones entrantes/salientes

Sigue las instrucciones para crear un bucket de GCS para conexiones entrantes. Modifica el paso 4 de ese procedimiento para introducir las siguientes 2 cuentas en la casilla New members (Nuevos miembros):
appsflyer-dcr@dcr-report.iam.gserviceaccount.com
af-data-delivery@af-raw-data.iam.gserviceaccount.com

Modificación de un bucket existente que se usaba anteriormente solo para Data Locker

Modificar un bucket existente que anteriormente usaste solo para Data Locker requiere cambiar los permisos del bucket (para permitir el acceso tanto por DCR como por Data Locker).

Para modificar los permisos de bucket:

  1. Inicia sesión en tu consola de GCS.
  2. Ve a la página de Cloud Storage Browser.
  3. Selecciona el bucket usado anteriormente solo para Data Locker. 
  4. Ve a la pestaña Permisos.
  5. En la sección de permisos, haz clic en + Add (Agregar).
    Se abre la ventana Add members (Agregar miembros).
  6. En el cuadro New members (Nuevos miembros), introduce la siguiente cuenta:
    appsflyer-dcr@dcr-report.iam.gserviceaccount.com
  7. En la lista Role (Rol), selecciona Cloud Storage (Almacenamiento en la nube) > Storage Admin (Administrador de almacenamiento).

    dcr_gcs_permissions.png

  8. Haz clic en Guardar.