数据净室——数据源使用指南

高阶付费

概要:本文说明了自定义数据源文件的设置方式。您可以与数据净室(DCR)共享数据源,将其与归因数据进行匹配,并生成DCR报告。

简介

大部分DCR报告的目的是将您的归因数据指定来源的数据进行匹配。本文将为您详细解释如何在DCR中使用自定义数据源,包括:

 前期准备

创建自定义数据源之前,请先完成以下工作:

  • 【必须完成】设置云存储工具,供DCR获取相关数据。AppsFlyer支持以下两种云存储工具:
    • 数据仓库BigQuery和Snowflake
    • 云端数据存储桶:Amazon S3(AWS)和GCS
  • 【可选】在AppsFlyer平台中创建数据连接,将相关的云存储工具连接到DCR。
    • 如果您前期未设置数据连接,则会在创建自定义数据源时收到弹窗提示,指引您设置连接。

自定义来源数据必须具备的条件

自定义数据源必须具备以下条件,否则在创建数据源和处理数据、生成报告的过程中可能会出现错误。

数据格式(适用于所有数据源)

自定义来源的数据必须符合以下要求:

  • 日期与时间:
    • 格式:yyyy-MMM-dd hh:mm:ss2023-APR-18 15:30:35
    • 时区:UTC
  • 数值:小数点后最多2位
  • 字符串长度:最多256个字符
  • 字符限制:
    • 字段名称(列标题):不可使用空格或特殊字符
    • 所有其他数据:无限制(所有字符皆可用)

表格栏位(仅适用于数据仓库中的数据源)

除了用于匹配的数据以外,BigQuery或Snowflake中的表格还必须包含2各额外的栏位,一个用于说明日期,另一个用于说明版本

  • 日期:
    • 列标题:dt
    • 数据类型:日期
    • 数据格式:yyyy-mm-dd(2023-04-18
    • 其他注意事项:BigQuery中的表格必须按此列分区
  • 版本:
    • 列标题:v
    • 数据类型:字符串
    • 数据格式:数字(如12310
    • 重要提示!每次DCR检测到此列中出现新值时都会触发新版本报告的生成。为了确保报告的完整性,请务必在该列的值发生变化时向表格中填充完整的一组数据。

文件名称和格式(仅适用于云存储桶中的数据源)

存储在Amazon S3或GCS中的数据文件必须符合以下名称和格式要求:

  • 文件名称必须符合DCR的命名规则
  • 必须为CSV或GZIP格式。
    • GZIP压缩文件中的文件必须为CSV格式。
  • 每个数据文件夹下的数据源文件数量:
    • CSV:最多1个
    • GZIP: 最多1个不分卷的压缩文件。如需使用分卷的GZIP文件,需按以下方式命名:filename_part01.gzipfilename_part02.gzip,以此类推。

创建数据源

下文介绍了数据源创建流程中涉及的所有步骤。我们把这些步骤分在单独的标签中,以便查阅。

请按以下步骤创建数据源:

#1:为数据源命名

  1. 进入数据净室中的数据源选项卡
  2. 点击+ 新数据源按钮。
    界面打开新数据源页面。
  3. 在左上角输入该数据源的名称。
    • 数据源名称用于标识出DCR所使用的数据源。您可以使用任何名称来命名相关数据源,无需与其中的文件名称保持一致。
    • 重要提示!切勿使用已经存在的其他数据源名称来命名,否则无法保存该数据源
    • 数据源名称要求:
      • 长度:2-80个字符
      • 有效字符:
        • 字母(A-Z、a-z)
        • 数字(0-9)不能作为名称中的第一个字符;
      • 无效字符:
        • 空格
        • 所有其他符号和特殊字符

#2:指定数据源位置

请按以下方式指定数据源位置:

  1. 选择数据连接,在其中创建相关数据源。
    • 如果您的账户中没有设置连接,界面会打开创建新数据连接的对话框。请按照对话框中的指引说明创建数据连接。
    • 如果您已有现行的数据连接,但想要使用新的数据连接,请点击dcr_new_connection_button.png按钮,界面会打开添加数据连接的对话框。请按照对话框中的指引说明创建数据连接。
  2. 根据您使用的数据源按下文中的相关说明继续进行设置。

BigQuery中的数据源位置

设置BigQuery数据源位置的方法如下:

  1. 选择数据表所在的数据集。
  2. 选择相关数据所在的表格。

创建数据连接时供您完成上述选择的列表包含您指定的BigQuery项目中可用的数据集和表格。

Snowflake中的数据源位置

设置Snowflake数据源位置的方法如下:

  1. 选择相关数据所在的共享位置(share)。
  2. 选择数据表所在的模式(schema)。
  3. 选择相关数据所在的表格。

创建数据连接时供您完成上述选择的列表包含您指定的Snowflake账户中可用的共享位置(share)、模式(schema)和表格。

云端存储桶中的数据源位置

Amazon S3或GCS中的数据源位置信息包括数据连接中指定的云存储桶以及相关文件的文件夹路径(DCR会根据该路径在数据更新时读取文件)。

数据连接设置完毕后,AppsFlyer就能自动生成文件夹路径,完成数据源创建流程中的必要环节。

  • 允许AppsFlyer自动生成文件夹可简化该流程。您也可以手动创建这些文件夹,详情请见此文档

如果您选择让AppsFlyer生成相关文件夹,则仅需为数据源文件夹命名(即用于接收数据的顶层文件夹)。您也可以将数据源文件夹置于名为input(输入)的母文件夹下。

设置云端存储桶中的数据源位置时,请输入数据源文件夹的名称。

  • 默认情况下,数据源文件夹名称应符合以下条件:
    • 以您指定的数据源名称为基础。您可以根据需求更改文件夹名称,但必须符合DCR命名要求
    • 通过文件夹名称可看出该文件夹位于input母文件夹下。“input”文件夹是所有DCR数据源的母文件夹。
      • input不是必须配置的文件夹,您可以将其移除或重新命名,但必须符合DCR命名要求
      • 虽然不是必要配置,但仍建议您设置input文件夹(也可以以其他名称命名)。尤其是使用同一个云端存储桶上传(输入)和接收(输出)数据文件时,更需要设置该文件夹。

 注意事项!

如果您选择手动创建该文件夹路径,请确保您在数据源位置部分输入的数据连接路径与您手动创建的路径一致。

#3:设置数据源结构

对于您与DCR共享的所有数据源,您需要让AppsFlyer了解其中各字段的使用方式,这样AppsFlyer才能创建相应的报告。请完成以下操作,定义数据源结构:

  • 加载数据源字段
  • 对每个字段(即列)分类,可选的字段类型有以下几种:
    • 标识符:可标识出独立用户的字段(如CUID、AppsFlyer ID等)。
      • 标识符在DCR场景中的主要目的是将数据源串联起来,从而完成用户级数据的匹配。
    • 维度:您对应用用户分类时使用的特征信息(如地理位置、激活日期、广告系列等)。
    • 指标:有关某应用用户的数值型数据(如收入、应用打开次数、LTV等)
      • 标识为“指标”的字段仅可包含数值

加载数据源字段

请使用下文中相关的说明加载数据源字段:

数据仓库中的数据源

如需加载数据仓库(BigQuery或Snowflake)中的数据源字段,请点击dcr_load_fields_from_source.png按钮。

 注意事项!

如果您选择的数据表中不包含必要的日期和版本数据,就会收到报错消息。

云端存储桶中的数据源

如需加载云端存储桶(Amazon S3或GCS)中的数据源字段,必须先上传一个数据源文件样本。

请使用以下任一方式设置数据源结构:

  • 您可以上传本地的数据源文件样本。
    • 使用此方式时,AppsFlyer总是会自动创建数据源文件夹路径。

                                                                - 或 -

  • 您也可以直接从数据连接侧上传数据源文件样本。
    • 使用此方式时,还必须完成以下任一操作:
      • 允许AppsFlyer自动创建数据源文件夹结构;或
      • 手动创建数据源文件夹结构

请根据实际需求按下方相关标签中的说明上传数据源文件样本:

本地文件 数据连接(自动创建) 数据连接(手动创建)
  1. 点击数据源结构部分的DCR_load_fields_from_file.png按钮。
  2. 在界面新开的窗口中选择上传本地文件
  3. 选择您要上传的文件格式(CSV或GZIP),然后点击OK。

字段分类

字段加载完毕后,AppsFlyer会解析该文件,并在可用字段列表中列出其中的所有字段(列)。

请按以下步骤对字段进行分类:

  1. 在左侧的可用字段列表中选择一个或多个字段,然后使用页面中间的按钮将各字段分为标识符、维度或指标
    • 完成字段分类后,相关字段会出现在页面右侧的分类列表中。
    • 您可以使用搜索栏搜索列表中的字段
    • 如需从某个分类中移除一个字段,请在相关分类列表中选择要移除的字段,并点击移除按钮,该字段就会重新回到可用字段列表中。
  2. 重复上述流程,为DCR报告中需要包含的每个字段都进行分类。
    • 您不必为可用字段列表中的所有字段都进行分类,但只有分过类的字段才会出现在DCR报告中。
  3. 如果您在保存该数据源之前对其进行了修改,并且需要使用修改后的数据中的字段,请点击可用字段列表底部的“重新加载字段”。
    • 请注意:重新加载数据源后,可用字段列表中的字段名称会被覆盖。之前已经分过类的字段仍会保留在相应的标识符维度指标列表中。
    • 如果重新加载后的数据中不再包含之前已分类的字段,该字段仍会出现在相关的分类列表中,但会以错误图标标记出来。

 注意

如果您在保存该数据源后,发现还需要使用其他尚未分类的字段,可以通过修改数据源结构来达成该目的。

#4::保存数据源

请按以下方式保存数据源:
  1. 【可选】点击DCR_test_source.png,检查格式是否有误、数据源字段是否有效。
  2. 点击保存,保存该数据源。

    数据源创建完毕,界面弹出确认消息。

    • 如果您从本地上传数据源文件,则在保存数据源时系统会触发文件夹结构的自动生成,且界面会弹出确认消息,展示该数据源文件夹的链接。

    在数据净室的数据源选项卡中,现有数据源的完整列表下会显示新的数据源。

更新数据以触发报告处理流程

每当您需要让AppsFlyer处理数据源文件,并基于其中的信息产出报告时,可以在数据源文件夹下的子文件夹中上传新版本的文件,这些子文件夹的嵌套结构用于标识出日期和版本号(此外还需要一个子文件夹,为AppsFlyer标识出数据所在位置)。

AppsFlyer会反复查找当天和2天前的数据源文件更新版本,且每次检测到数据源文件(包括_SUCCESS文件,详见下文说明)更新后,就会触发新版本报告的生成。

分日期和版本的子文件夹

嵌套式子文件夹的结构如下:

  • 在数据源文件夹中 --> 每个日期占用1个子文件夹(即“日期文件夹”)
    • 格式: dt=yyyy-mm-dd/
    • 示例:dt=2022-12-15/
  • 每个日期文件夹中 --> 当日的每个数据版本占用一个子文件夹(即“版本文件夹”)
    • 格式: v=n/
    • 示例: v=1/
    • 请注意:即使您每天只上传一次数据文件,也需要设置版本文件夹。
  • 每个版本文件夹中 --> 包含1个用于标识数据所在位置的子文件夹(即“数据文件夹”)
    • 格式: data/
    • 数据文件夹是数据源文件上传的位置。

一般情况下可使用API或其他程序化工具,在每次上传数据源文件时自动创建日期/版本/数据文件夹。其他相关信息请见相关云服务平台的API参考信息:AWS, GCS

_SUCCESS文件

数据源文件成功上传到相应的数据文件夹后,须向版本文件夹中上传一个名为 _SUCCESS的空文件,用于通知AppsFlyer有新文件需要处理。一般可使用API脚本自动生成并上传该文件。

重要提示_SUCCESS文件必须上传到数据文件夹外层的版本文件夹。

_SUCCESS文件的命名要求:

  • 必须全部为大写字母
  • 必须以下划线(_)开头
  • 不能带有扩展名

对于分卷式GZIP文件:

  • 针对所有分卷仅可上传一个_SUCCESS文件。
  • _SUCCESS文件须在所有分卷上传完毕后方可上传。

示例(文件上传完毕后)

2天内的数据源文件上传完毕(且以程序化方式创建日期/版本/数据文件夹和_SUCCESS文件)后的存储桶/文件夹结构如下:

dcr_file_structure_after_uploads.png

现有数据源的使用方式

现有数据源的使用方式有很多种,您可以根据自己的实际需求选用。您需要从数据净室的数据源选项卡中发起相关流程:

修改数据源名称

请按以下方式修改数据源名称:

  1. 进入数据净室中的数据源选项卡
  2. 将鼠标悬停在数据源列表中您需要修改的那一行。
  3. 点击该行右侧的编辑按钮edit_button.png
  4. 编辑数据源页面中修改该数据源的名称。
  5. 点击保存按钮,用新名称保存该数据源,或点击取消按钮,撤销您所做的更改。

修改数据源结构

请按以下方式修改数据源结构:

  1. 进入数据净室中的数据源选项卡
  2. 将鼠标悬停在数据源列表中您需要修改的那一行。
  3. 点击该行右侧的编辑按钮edit_button.png
  4. 编辑数据源页面中,之前已经分过类的字段会出现在页面右侧的对应分类列表(标识符、维度或指标)下。
  5. 您可以改变已分类字段的类别,无需再次从数据源文件中重新加载字段。具体方法如下:
    1. 首先,请在相关类别列表中选择要移除的字段,并点击移除按钮,该字段会重新回到可用字段列表中。
    2. 然后在可用字段列表中选择该字段,并使用页面中间的分类按钮将该字段标记为标识符、维度或指标。
  6. 如需使用数据源文件中尚未分类的字段,必须从相关数据源位置或本地文件重新加载这些字段。请点击可用字段列表底部的重新加载字段,然后选择加载方式。
  7. AppsFlyer会解析该文件,并在可用字段列表中列出所有未分类的字段(列)。
    • 之前已分类的字段会显示在页面右侧的相关分类列表中(即标识符、维度或指标)。
    • 如果重新加载后的数据源文件中不再包含之前已分类的字段,该字段仍会出现在相关的分类列表中,但会以错误图标标记出来。
  8. 在左侧的可用字段列表中选择一个或多个字段,然后使用页面中间的按钮将各字段分为标识符、维度或指标。
  9. 完成必要的更改后,请点击保存按钮,使用更新后的结构保存该数据源,或点击取消按钮,撤销您所做的更改。

 注意事项!

更新数据源结构后,请务必对使用该数据源的报告做出相应的更改:

  • 已移除的、未分类的、或已变更分类的字段会自动从相关报告中移除。
  • 新增字段或新近完成分类的字段不会自动出现在现有报告中。如需在报告中看到这些字段,您必须先将其添加到报告定义。

删除数据源

  1. 进入数据净室中的数据源选项卡
  2. 将鼠标悬停在数据源列表中您需要删除的那一行。
  3. 点击该行右侧的删除按钮delete_button.png
  4. 在弹窗中确认您要删除该数据源。
    • 如果有报告正在使用该数据源,则无法将其删除。发生这种情况时,界面会弹出消息,列出正在使用该数据源的报告。您可以完成以下任一操作,以删除该数据源:
      • 删除正在使用该数据源的报告,或
      • 从这些报告的定义中移除与该数据源相关的字段。

其他参考信息

手动创建存储桶文件夹结构(仅在选择手动操作时适用)

一般情况下,最简便的方法是让AppsFlyer自动生成必要的文件夹结构,从而完成数据源创建流程。但如果您想要手动创建这些文件夹,可以按下问说明进行操作。

创建一个DCR密钥文件夹

为了提升安全性,存储桶下的直属文件夹(即“DCR密钥文件夹”)的名称必须以您账户下的8字符(字母加数字)DCR密钥来命名(如01bcc5fb)。请注意,这是DCR专属密钥,独立于您AppsFlyer账户下的任何其他密码或密钥。

DCR密钥文件夹一般需要通过云服务平台的界面手动创建。

如需获取您账户的DCR密钥,请点击DCR主页面顶部的DCR密钥按钮。

dcr_key_button.png

创建DCR密钥文件夹后,您的存储桶/文件夹结构如下:

dcr_file_structure_dcr_key_folder.png

顶层输入型文件夹

创建顶层输入型文件夹时最好将其直接置于DCR密钥文件夹下一层。该文件夹专用于向DCR上传文件。

顶层输入型文件夹一般需要您在自己选用的云服务平台中手动创建。

  • 如果您使用同一个存储桶上传(输入)和接收(输出)数据文件,则更需要完成上述设置。
  • 您可以用任意的名称为该文件夹命名,但必须符合DCR命名要求。为了便于识别,建议在名称中使用input/

创建顶层输入型文件夹后,您的存储桶/文件夹架构入下:

dcr_file_structure_input_folder.png

为各数据源设置第二层文件夹

您可以定期向DCR上传不同来源的数据文件。这时,您需要为每个数据源分配一个单独的文件夹(即“数据源文件夹”)。

举例来说,假设您需要每天向DCR上传2个文件夹:BI-data.csvCRM-data.gzip,就必须为这两个数据源分别设置单独的文件夹。您可以将这两个文件夹分别命名为BI-data/CRM-data/

数据源文件夹一般需要您在自己选用的云服务平台中手动创建。

上述2个数据源文件夹创建完毕后,您的存储桶/文件夹结构如下:

dcr_file_structure_source_folders.png

必须在每次数据源发生更新时在各个数据源文件夹下按日期和版本创建子文件夹。