Data Locker: настройка хранилища

Краткий обзор. Потоковая передача данных из Data Locker в ваше хранилище в AWS или GCS. Интегрируйте GCS с BigQuery и Google Data Studio.  [бета] Настройте подключение к Snowflake.

Настройте передачу данных из Data Locker в свое хранилище

Материал по теме: Data Locker

Data Locker позволяет передавать данные в выбранное хранилище, принадлежащее вам. Настройте хранилище, используя одну из следующих процедур. 

Хранилище GCS

  • Процедуру, описанную в этом разделе, должен выполнить ваш администратор Google Cloud.
  • Вы можете удалить файлы из Data Locker через 25 и более часов после их записи. Не удаляйте файлы до истечения этого времени.

Информация для администратора GCS

Data Locker — это решение AppsFlyer для потоковой передачи данных в хранилище.

Требования

  • Создайте корзину в GCS исключительно для хранения данных Data Locker. Т. е. никакие другие сервисы не должны записывать данные в эту корзину.
  • Задайте название корзины, например, af-datalocker (рекомендуется).
  • Предоставьте Data Locker необходимые разрешения, используя следующую процедуру.

Чтобы предоставить разрешения Data Locker:

В этой процедуре замените data-locker-example на имя корзины, которую вы ранее создали для Data Locker. 

  1. Войдите в консоль GCS.
  2. Перейдите в хранилище Storage > Storage browser.

    mceclip0.png

  3. Выберите корзину, которую вы создали ранее, например data-locker-example.
  4. Перейдите на вкладку Permissions (Разрешения). 
  5. Нажмите + Add (Добавить).
    Откроется окно Add members (Добавить пользователей).
  6. Заполните поля следующим образом:
    1. New members, вставьте следующий фрагмент.
      af-data-delivery@af-raw-data.iam.gserviceaccount.com
    2. Выберите роль: Cloud storage > Storage Object Admin (Администратор объектов хранилища). 

      mceclip0.png

  7. Нажмите кнопку Сохранить

Хранилище AWS

  • Процедуру, описанную в этом разделе, должен выполнить ваш администратор AWS.
  • Вы можете удалить файлы из Data Locker через 25 и более часов после их записи. Не удаляйте файлы до истечения этого времени. 

Информация для администратора AWS

Data Locker — это решение AppsFlyer для потоковой передачи данных в хранилище.

Требования

  • Создайте корзину с именем af-datalocker-моякорзина. Префикс "af-datalocker-" обязателен. Вместо заполнителя "моякорзина" можно указать любое текстовое значение.
  • Рекомендуем использовать формат "af-datalocker-гггг-мм-дд-чч-мм-произвольный-текст". Где "гггг-мм-дд-чч-мм" — это текущие дата и время, а "произвольный-текст" — нужное вам название, как показано на следующем рисунке.

Пользовательский интерфейс в консоли AWS

MyBucket.jpg

После создания корзины предоставьте AppsFlyer необходимые разрешения, используя следующую процедуру. 

Чтобы создать корзину и предоставить разрешения AppsFlyer: 

  1. Войдите в консоль AWS.
  2. Откройте сервис S3.
  3. Чтобы создать корзину:
    1. Нажмите Create bucket (Создать корзину).
    2. Заполните поле Bucket name (Название корзины) следующим образом: начните с префикса af-datalocker-, затем добавьте оставшуюся часть, как описано выше.
    3. Нажмите Создать корзину.
  4. Чтобы предоставить разрешения AppsFlyer:
    1. Выберите корзину. 
    2. Перейдите на вкладку Permissions (Разрешения). 
    3. В разделе Bucket policy (Политика корзины) нажмите Edit (Редактировать). 
      Откроется окно политики корзины.
    4. Вставьте в это окно следующий фрагмент кода.
      {
        "Version": "2012-10-17",
        "Statement": [
          {
            "Sid": "AF_DataLocker_Direct",
            "Effect": "Allow",
            "Principal": {
              "AWS": "arn:aws:iam::195229424603:user/product=datalocker__envtype=prod__ns=default"
            },
            "Action": [
              "s3:GetObject",
              "s3:ListBucket",
              "s3:DeleteObject",
              "s3:PutObject"
            ],
            "Resource": [
              "arn:aws:s3:::af-datalocker-my-bucket",
              "arn:aws:s3:::af-datalocker-my-bucket/*"
            ]
          }
        ]
      }
      
  5. В этом коде замените af-data-locker-my-bucket на название созданной вами корзины.

  6. Выберите Сохранить изменения.

  7. Выполните процедуру настройки Data Locker.

Базовое руководство по подключению BigQuery и Google Data Studio к Data Locker

В следующих разделах представлено базовое руководство по подключению GCS Data Locker к BigQuery и Google Data Studio. Их цель — показать, что эти инструменты подключаются быстро и легко. AppsFlyer не предоставляет услуги поддержки в отношении BigQuery и Google Data Studio. 

Подключение корзины GCS Data Locker к BigQuery

В этом разделе представлена пошаговая инструкция по импорту данных из Data Locker в BigQuery. 

Материал по теме: Начало работы с Google Cloud Console

Чтобы загрузить отчет об установках из корзины GCS Data Locker в BigQuery, выполните следующие действия.


Необходимые условия 

  • Настроить Data Locker и выбрать в качестве хранилища GCS. 
  • Иметь разрешения в Google Cloud, необходимые для настройки набора данных. 


Шаг 1. Создайте набор данных BigQuery

  1. Из консоли Google Cloud Platform перейдите в BigQuery.
  2. Создайте новый проект или используйте существующий.
  3. В проекте нажмите CREATE DATASET (Создать набор данных).

    GCSCreateDataSEt_1_.png

  4. Присвойте набору данных подходящий идентификатор.
  5. Задайте значения других необходимых параметров. 


Шаг 2. Подключите таблицу BigQuery к Data Locker

  1. В наборе данных нажмите CREATE TABLE (Создать таблицу).

    GCScreateTable.png

  2. Задайте источник следующим образом:
    1. Create table from (Создать таблицу из): Google Cloud Storage
    2. Select file from GCS bucket (Выбрать файл из корзины GCS): выберите отчет из вашей корзины. Например, t=installs. 
    3. Используйте символ подстановки *.gz, чтобы получать данные из всех подпапок в папке t=installs.
    4. В поле File format (Формат файла) задайте значение CSV.
    5. Выберите существующий проект или введите имя нового.
    6. В поле Table type (Тип таблицы) задайте значение Native table (Нативная таблица).

 

Шаг 3. Все готово для запроса данных

Данные загружаются в BigQuery автоматически.

Отображение данных Data Locker в Google Data Studio

Вы можете подключить Google Data Studio к своим данным Data Locker. Для этого подключите Data Locker к BigQuery, как описано в предыдущем разделе. 

Необходимые условия

  • Подключение Data Locker к BigQuery. 

Чтобы настроить отображение данных из Data Locker в Google Data Studio:

  1. Создайте отчет в Google Data Studio.
  2. Выберите BigQuery в качестве источника данных.

    DataStudio.png

  3. Выберите проект и таблицы в отчете Google Data Studio и приступайте к анализу данных.

Коннекторы

Snowflake

Опция Snowflake в настоящее время доступна в виде бета-версии. 

Подключите Data Locker к своему аккаунту Snowflake. Данные будут отправляться в Snowflake и останутся доступны в выбранном вами облачном хранилище. Чтобы принять участие в бета-тестировании коннектора Snowflake, обратитесь к своемуменеджеру.

Примечания для разработчиков решений бизнес-аналитики

  • Частота обновления данных такая же, как у данных, поступающих в корзину. 
  • Структура таблицы и столбцов с данными такие же, как у данных, доступных в корзине Data Locker. 
  • По мере добавления строк в общую папку Snowflake заполняется столбец _ingestion_time. Чтобы обеспечить уникальность строк и не допустить многократный импорт одной и той же строки:
    1. Сохраните max_ingestion_time для каждой импортируемой таблицы.
    2. При каждом запуске процесса импорта загружать только те строки, у которых _ingestion_time > max_ingestion_time

Чтобы подключить Snowflake к Data Locker, выполните указанные ниже действия. 

Процедура для коннектора Snowflake

Чтобы узнать регион и идентификатор аккаунта Snowflake:

  1. В Snowflake войдите в свой аккаунт Snowflake.
  2. В строке меню выберите свое имя.
    Появятся регион и идентификатор аккаунта.

    SnowflakeAccountId.png

  3. Отправьте идентификатор аккаунта и регион Snowflake своему менеджеру в AppsFlyer и попросите его активировать Snowflake в вашем Data Locker. 

Чтобы подключить Data Locker к Snowflake:

  1. В AppsFlyer перейдите в раздел Integration (Интеграция) > Data Locker.
  2. Выберите Snowflake.
  3. Заполните поля Snowflake account ID (Идентификатор аккаунта Snowflake) и Snowflake region (Регион Snowflake), используя данные, полученные из Snowflake. 
  4. Нажмите кнопку Сохранить.

Чтобы создать базу данных из общей папки Snowflake:

  1. В Snowflake войдите в свой аккаунт Snowflake.
  2. Смените роль на Accountadmin (Админстратор аккаунта). См. раздел Создание базы данных из общей папки.
  3. Выберите Shares (Общие папки).
  4. Выберите общую папку AppsFlyer. Например, APPSFLYER_ACC_XXX_DATA_LOCKER. 
  5. Нажмите Create Database from Secure Share (Создать базу данных из защищенной общей папки) и заполните необходимые поля. Внимание! Обязательно загрузите данные из общей базы в свои таблицы, поскольку срок их доступности в базе данных ограничен (в настоящее время — 14 днями).  
  6. В базе данных отображаются импортированные таблицы. Названия и структура таблиц аналогичны используемым в корзинах Data Locker.
Была ли эта статья полезной?