Uso de Data Locker: raw data depositado en un bucket S3

De un vistazo: Data Locker deposita raw data en un bucket S3 de AWS casi en tiempo real (6 horas de demora). El volumen de datos es ilimitado. La retención de datos es de 30 días. 

Data Locker

Características principales de Data Locker

  • Aplicaciones: admite varias aplicaciones que pueden agregarse automáticamente a medida que agregas aplicaciones.
  • Simplicidad: los datos se depositan en un bucket de Amazon S3, el cual administra los requisitos de almacenamiento.
  • Confiabilidad: los datos se almacenan en AWS, lo que garantiza la persistencia de los datos.
  • Flexibilidad: elige qué datos deseas incluir en los reportes por campo y evento in-app.
  • Granularidad: los datos se segmentan en tipos de reportes, días y horas.
  • Accesibilidad: se pueden extraer datos cuando sea necesario.
  • Actualización de los datos: 6
    horas de demora o diaria según el tipo de reporte.  El tiempo de demora es el mismo (6 horas) independientemente de la zona horaria específica de la aplicación. 
Categoría Tipo de reporte (tema) Actualización de los datos* Orgánico* No orgánico*
La adquisición de usuarios Clics Demora de 6 horas - ✓+
Retargeting clicks_retargeting Demora de 6 horas - ✓+
La adquisición de usuarios Impresiones Demora de 6 horas - ✓+
Retargeting impressions_retargeting Demora de 6 horas - ✓+
La adquisición de usuarios Instalaciones Demora de 6 horas
La adquisición de usuarios inapps Demora de 6 horas
La adquisición de usuarios attributed_ad_revenue Daily* -
La adquisición de usuarios organic_ad_revenue Daily* -
Retargeting retargeting_ad_revenue Daily* -
Retargeting conversions_retargeting Demora de 6 horas -
Retargeting inapps_retargeting Demora de 6 horas -
Retargeting retargeting_sessions Demora de 6 horas - ✓+
La adquisición de usuarios Sesiones Demora de 6 horas ✓+ ✓+
La adquisición de usuarios Desinstalar Demora de 6 horas -
La adquisición de usuarios organic_uninstalls Diario ✓+ -
Protect360 blocked_installs Demora de 6 horas -
Protect360 blocked_inapps Demora de 6 horas -
Protect360 blocked_clicks Demora de 6 horas -
Protect360 [FF] post_attribution_installs Diario -
People-Based Attribution web_events Diario ✓+ ✓+
People-Based Attribution web_touch_points  Diario ✓+ ✓+
People-Based Attribution [FF] web_to_app Diario ✓+ ✓+
People-Based Attribution [FF] conversion-paths Diario ✓+ ✓+

* Referencia para las abreviaturas

✓+ Reportes exclusivos de Data Locker

[FF] Report fields are fixed by Appsflyer.  They are not related to the fields selected for inclusion in reports.

Demora de 6 horas: los datos se separan en carpetas de horas de llegada. Esa es la hora en que se depositó el evento en Data Locker. Algunas carpetas de Data Locker se escriben unas seis horas después de la hora del evento real para eventos en tiempo real. Hay 24 carpetas, una para cada hora del día, de 0 a 23, y una carpeta adicional para los datos que llegan tarde. El tiempo de demora es el mismo independientemente de la zona horaria específica de la aplicación.

Daily: Reports having a data freshness rate of daily are written to the h=23 folder. These reports are typically available at 06:00-12:00 UTC in the h=23 folder of the preceding day. For example, the report for data generated during Monday is in the Monday H=23 folder. The data is available after 06:00 UTC on Tuesday.

Daily*: Ad revenue data is available after 2 days, meaning that data generated during Monday, becomes available in the Monday H=23 folder after 06:00 UTC on Wednesday.

Tipos de reportes disponibles en Data Locker

Segmentación de datos

DataLockerFolders_us-en.png

Los datos en el bucket se segmentan en carpetas de la siguiente manera:

  • t=topic (tema)
  • dt=date (fecha)
  • h=hour (hora)

Esto significa que para cada tipo de reporte, en un día determinado, los datos se separan en carpetas separadas por hora de llegada y no por la hora del evento de datos. Por ejemplo, ../t=installs/dt=2019-01-17/ contiene 25 carpetas.

Para comprender la estructura de carpetas y cómo funciona la segmentación por hora, consulta el formato y la estructura de carpetas.

Implementación de Data Locker

Configuración de Data Locker

Requisito previo: El administrador necesita configurar Data Locker. Los miembros del equipo pueden ver la configuración. 

AppsFlyerAdmin_us-en.png Para configurar Data Locker:

  1. En Appsflyer, accede a Integración > Data Locker.
  2. Selecciona una o más o todas las aplicaciones.  Selecciona todas para incluir automáticamente las aplicaciones que agregues en el futuro.
  3. Haz clic en Aplicar
  4. (opcional) Fuentes de medios (predeterminada = All. Significa que las fuentes de medios que agregues en el futuro se agregan automáticamente): Selecciona una o más Fuentes de medios para incluir en los reportes. 
  5. Haz clic en Aplicar
  6. Selecciona uno o más tipos de reportes.
  7. [opcional] Eventos in-app (predeterminada = All. Significa que los eventos in-app que se agreguen en el futuro se agregan automáticamente.): Selecciona los eventos in-app a incluir. Si tienes más de 100 tipos de eventos in-app, no puedes buscarlos. Ingresa sus nombres con precisión para seleccionarlos.  
  8. Haz clic en Aplicar
  9. [optional] Fields (default=All): Select the fields to include in the reports. Note: We add fields from time to time take this into account in your data import process..
  10. Haz clic en Crear bucket.

Credenciales del bucket

Una vez que se guarda la configuración, se crea un bucket de AWS exclusivo. Los detalles del bucket aparecen en la esquina superior derecha de la pantalla. Incluyen el Nombre del bucket, Carpeta de inicio y credenciales para acceder a los datos.

data-credentials.png

  • Se puede acceder al bucket utilizando las credenciales.
  • Se audita el acceso al bucket. 
  • El propietario del bucket es AppsFlyer. Tenemos permiso de lectura y escritura.
  • El propietario de la aplicación tiene permiso de lectura. 

Disponibilidad de datos

  • Los datos se actualizan cada hora después de un retraso de seis horas.
  • Cada archivo incluye las aplicaciones seleccionadas 
  • Retención: los archivos y las carpetas están disponibles durante 30 días. Después de 30 días, los datos se eliminan.

Formato y estructura de las carpetas

  • La estructura de la carpeta es: af-ext-reports/<Home Folder>/data-locker-hourly/t=<event-type>/dt=<date YYYY-MM-dd>/h=<Hour h>
  • La Carpeta de inicio es la Carpeta de inicio que aparece en la ventana Credenciales (consulta las instrucciones de configuración en la sección anterior) 
  • Por ejemplo, para la fecha 2016-08-12 el reporte relevante aparece en: s3://af-ext-reports/12345678911-acc-1abc234/data-locker-hourly/t=installs/dt=2016-08-12/
  • La carpeta dt=yyyy-mm-dd se divide en 25 carpetas por hora. Estas carpetas representan la hora de llegada del evento, no la hora del evento en sí. Las carpetas se denominan h=0, h=1, h=2, etc., hasta h=23, and h=late (tarde). Por ejemplo, la carpeta h=0 contiene los eventos que llegan entre las 00:00 y la 01:00, de la misma manera, la carpeta h=20 contiene los eventos que llegan entre las 20:00 y las 21:00.
  • En cada carpeta:

    • Los datos pueden dividirse en varios archivos para evitar archivos grandes.  Los archivos se denominan: part-00000, part-00001, part-00002, y así sucesivamente. Puede haber hasta 1000 archivos. Es posible que aumentemos este número máximo en el futuro sin previo aviso.

    • El último archivo que se escribe siempre es un archivo vacío llamado _SUCCESS. Este archivo es un indicador que señala que no se escribirán más datos en la carpeta. Por lo tanto, no leas datos en una carpeta antes de verificar que el archivo _SUCCESS  existe. Nota: El indicador _SUCCESS también se escribe en los casos en que no hay datos para escribir en la carpeta. 

Carpeta Late

La carpeta Late contiene eventos del día anterior que llegaron después de las 00:00 UTC +0 (medianoche) medianoche y hasta las 02:00 UTC +0. También contiene el indicador _SUCCESS como se describe en la sección anterior. Los procesos automatizados deben buscar datos en la carpeta Late como se hace para todas las demás carpetas del día. 

 Ejemplo

AppsFlyer recibe un evento el 21 de enero a la 1:15 a. m. El evento tiene una marca de tiempo del 20 de enero a las 18:45. Debido a que este evento llegó tarde, se colocará en la carpeta late dentro de la carpeta /dt=2019-20-01/ h=late.

Formato y estructura de archivos

  • Los archivos de Data Locker se basan en Reportes de raw data V5 (ver: Reportes de raw data V5).
  • El archivo de datos real está en formato CSV pero no tiene extensión de archivo.
  • Los archivos de reportes se comprimen en formato .gz (para que el proceso de descarga sea eficiente).
  • Cada archivo tiene una fila de encabezado.
  • Los valores que tienen una coma están contenidos por comillas dobles `"`, por ejemplo `"iPhone6,1"`.

Recuperar datos de Data Locker

AppsFlyer crea un principio de AWS (ARN en términos de Amazon) y genera credenciales para ese principio. Luego se establece una política que permite que el principio explore y recupere archivos del bucket.

Puedes acceder al bucket utilizando las herramientas de línea de comandos de AWS y la mayoría de los clientes FTP. Para usar estas herramientas, recupera las credenciales, la clave de acceso de AWS y la clave secreta de AWS, desde la sección Credenciales.

Se puede acceder a los datos utilizando las siguientes herramientas, entre otras:

AWS CLI

Antes de comenzar:

  • Instala AWS CLI en tu computadora.
  • En AppsFlyer, accede a Data Locker, recupera la información incluida en el panel de credenciales, ya que es necesaria para realizar este procedimiento. 

Para usar AWS CLI:

  1. Open the terminal. To do so in Windows, <Windows>+<R>, click OK.
    The command line window opens.
  2. Ingresa aws configure
  3. Ingresa la clave de acceso de AWS tal como aparece en el panel de credenciales.
  4. Ingresa tu clave secreta de AWS tal como aparece en el panel de credenciales.
  5. Ingresa eu-west-1
  6. Presiona Entrar (Ninguno)

Usa los comandos de CLI que siguen según sea necesario.

En los siguientes comandos, se puede encontrar el valor de {home-folder}

Para enumerar carpetas en tu bucket

aws s3 ls s3://af-ext-reports/{home-folder}/data-locker-hourly/

Enumeración de archivos y carpetas

Hay tres tipos de carpetas en tu bucket de Data Locker:

  • Tipo de reporte t=
  • Fecha dt=
  • Hora h=

Para enumerar todos los reportes de un tipo de reporte específico:

aws s3 ls s3://af-ext-reports/{home-folder}/data-locker-hourly/t=installs/

Para enumerar todos los reportes de un tipo de reporte específico para un día específico:

aws s3 ls s3://af-ext-reports/{home-folder}/data-locker-hourly/t=installs/dt=2019-01-17

Para enumerar todos los reportes de un tipo de reporte específico en un hora específica para un día específico:

aws s3 ls s3://af-ext-reports/{home-folder}/data-locker-hourly/t=installs/dt=2019-01-17/h=23

Para descargar archivos para una fecha específica:

aws s3 cp s3://af-ext-reports/<home-folder>/data-locker-hourly/t=installs/dt=2020-08-01/h=9/part-00000.gz ~/Downloads/

Cyber Duck

Antes de comenzar:

  • Instala el cliente Cyber Duck.
  • En AppsFlyer, accede a Data Locker y recupera la información incluida en el panel de credenciales. Necesitarás esta información cuando configures Cyber Duck. 

Para configurar Cyber Duck:

  1. En Cyber Duck, haz clic en Acción.
  2. Selecciona Marcador nuevo. Se abre la ventana.
  3. En el primer campo, (marcado como [1] en la captura de pantalla a continuación), selecciona Amazon S3.

    DataDuckSmall2.png

  4. Completa los campos de la siguiente manera:
    • Apodo: texto libre
    • Servidor: s3.amazonaws.com
    • ID de clave de acceso: copia la clave de acceso de AWS tal como aparece en el panel de credenciales en AppsFlyer.
    • ID de clave secreta: copia la clave de acceso de AWS tal como aparece en el panel de credenciales en AppsFlyer.
    • Ruta: {Bucket Name}/{Home Folder} Por ejemplo: af-ext-reports/1234-abc-ffffffff
  5. Cierra la ventana, para hacerlo, usa la X en la esquina superior derecha de la ventana.
  6. Select the connection.
    The data directories are displayed.

Navegador Amazon S3

Antes de comenzar:

  • Instala el navegador Amazon S3.
  • En AppsFlyer, accede a Data Locker, recupera la información incluida en el panel de credenciales, ya que es necesaria para realizar este procedimiento. 

Para configurar el navegador Amazon S3:

  1. In the S3 browser, Click Accounts > Add New Account.
    The Add New Account window opens.

    mceclip0.png

  2. Completa los campos de la siguiente manera:
    • Nombre de cuenta: texto libre. 
    • ID de clave de acceso: copia la clave de acceso de AWS tal como aparece en el panel de credenciales. 
    • Clave secreta de acceso: copia la clave secreta del bucket tal como aparece en el panel de credenciales.
    • Selecciona Cifrar claves de acceso con una contraseña e ingresa una contraseña. Anota esta contraseña.
    • Selecciona Usar transferencia segura.
  3.  Haz clic en Guardar cambios.
  4. Click Buckets > Add External Bucket.
    The Add External Bucket window opens.

    mceclip2.png

  5. Ingresa el Nombre del bucket.El nombre del bucket tiene el siguiente formato: {Bucket Name}/{Home Folder}. Los valores necesarios para el nombre del bucket y la carpeta de inicio aparecen en la ventana de credenciales. 
  6. Click Add External bucket.
    The bucket is created and displays in the left panel of the window.
    You can now access the Data Locker files. 

Carpetas y formato de los reportes

Usar reportes como fuentes de datos

Puedes usar los datos de los reportes y agregarlos a tus propias bases de datos. Para extraer los datos y agregarlos a tus bases de datos, debes conocer el formato del reporte. Los reportes de Data Locker se basan en reportes de raw data. Sin embargo, el formato del reporte final depende de los campos que elijas incluir.

Formato de reportes

Los campos disponibles en Data Locker se enumeran en el diccionario de campo de datos V5.0

 Consejo

Los reportes contienen datos que puedes utilizar para la optimización de la campaña y el retargeting.

Reportes por hora

Data Locker separa los datos en carpetas por hora. La carpeta por hora representa la hora de procesamiento y no la hora en que ocurrió el evento. Los datos se escriben en Data Locker dentro de las seis horas posteriores al procesamiento. 

 Ejemplo

AppsFlyer recibe datos por actividad entre las 14:00 y las 15:00 el 17 de enero de 2019. En algún momento después de las 15:00, AppsFlyer comienza a procesar los datos. Debido al procesamiento, los datos no se escriben en Data Locker de inmediato. Por lo tanto, los datos en la carpeta /t=installs/dt=2019-17-01/h=14 no están disponibles el 17 de enero de 2019 a las 15:00, sino seis horas más tarde.

Creación de carpetas por hora

En los casos en que no hay datos para una hora específica, Data Locker crea una carpeta para esa hora. Esto es para indicarte que no había datos en esa hora. La carpeta contendrá un archivo _SUCCESS que indica que AppsFlyer ha completado la escritura en esta carpeta. Al diseñar procesos automatizados, esto debe tenerse en cuenta, es decir, diseñar tus procesos de recuperación de datos para que puedan manejar carpetas por hora vacías.

Zona horaria y moneda

La configuración de la zona horaria y moneda específicas de la aplicación no afecta los datos en Data Locker.

Zona horaria: los reportes de Data Locker usan la zona horaria UTC.

Moneda: el campo event_revenue_usd está en USD. 

Rasgos y limitaciones

Características
Característica Observaciones 
Redes de publicidad No apto para el uso por parte de redes de publicidad. 
Agencias No apto para el uso por parte de agencias.
Zona horaria específica de la aplicación No corresponde. Las carpetas de Data Locker se dividen en horas usando UTC. Los eventos reales contienen horarios en UTC. Convierte los horarios a cualquier otra zona horaria según sea necesario. Independientemente de la zona horaria de tu aplicación, el lapso desde que ocurre el evento hasta que se registra en Data Locker sigue siendo el mismo, es decir, 6 horas. 
Divisa específica de la aplicación  No se admite
Limitaciones de tamaño No correponde
Actualización de los datos Los archivos se actualizan cada hora con un retraso de seis horas desde la hora del evento.
Historial de datos No se admite. Los datos del evento se envían después de configurar Data Locker. Si necesitas datos históricos, utiliza la Pull API. 
Acceso de miembros del equipo Los miembros del equipo no pueden configurar Data Locker. 
Aplicación única/múltiples aplicaciones Admite múltiples aplicaciones. Data Locker está a nivel cuenta

Resolución de Problemas

  • Síntoma: no se pueden recuperar datos con AWS CLI
  • Mensaje de errorSe produjo un error (AccessDenied) al solicitar la operación ListObjectsV2 operation: Acceso denegado
  • Causa: las credenciales de AWS que se utilizan no son las credenciales correctas para el bucket de AppsFlyer. Esto puede ser causado por tener credenciales múltiples o inválidas en tu máquina. 
  • Solución:
    1. Utiliza un método diferente, como Cyber Duck para acceder al bucket, es decir, que no sea CLI. Haz esto para verificar que las credenciales que estás utilizando funcionen. Si puedes conectarte con Cyber Duck, esto indica un problema con la caché de credenciales. 
    2. Refresh the AWS credentials cache.
      Screenshot from AWS`mceclip0.png 
¿Fue útil este artículo?