Как устроено API в AppMetrica

Ефим Пышнограев

Вы узнаете:

› как устроена крупная система аналитики

› какие проблемы возникают при построении отчетов

› как выглядит Reporting API и зачем он нужен

Цели доклада

› Система мобильной аналитики

› На рынке с 2013 года

› Более 4 тыс. активных приложений

› Мы установлены более чем на 250 млн. устройств

› Более 12 млрд. событий в сутки

О сервисе

Архитектура сервиса

Пользователь

Разработчик Java backend

Приложение с SDK

Веб интерфейс

Ядро (C++)

ClickHouse

Агрегированные данные

Что хорошо

〉Все данные есть, отчет строится мгновенно

Что плохо

〉Только предопределенные отчеты

Хранение данных

Сырые данные

〉Можно построить отчет произвольной сложности

〉Скорость агрегации становится критичной

Таблица фактов в ClickHouse

› Open source column-oriented DBMS

› Запросы на диалекте SQL

› 48 машин

› 490 Tb сжатых данных

Вспомогательная информация в MySQL

Хранение данных

› Каждый хост реплицирован в разных ДЦ

› Весь кластер разделен на партиции

› Данные одного приложения находятся на одной партиции

Устройство кластера ClickHouse

ClickHouse поддерживает таблицы с движком Distributed

Запрос в локальную таблицу:

SELECT count() FROM events

Запрос в распределенную таблицу:

SELECT count() FROM events_partition

Локальные и распределенные таблицы

~140 столбцов

Пример таблицы фактов

Date AppID DeviceID AppPlatform CountryID …

2017-06-01 46 268927106 android 6

2017-06-01 46 1292856823 android 43

2017-06-01 87 5341985450 iOS 0

2017-06-02 22 876028365 windows 43

Раньше:

› Одна таблица events со столбцом EventType

Сейчас:

Таблица под каждый тип события

› Общие события

› Клиентские события

› Атрибуция — клики и установки

› Рассылки push уведомлений

Эволюция хранения данных

Используется интерфейсом и клиентами напрямую

Формат языка запросов должен позволять

› Покрывать большинство полезных отчетов

› Скрывать сложность SQL запросов

› Скрывать реальную модель данных

› Эффективно использовать ClickHouse

Язык запросов

› Написано на Java

› 6 машин в 3 ДЦ

› Более 200 тыс. запросов в сутки

› Каждый запрос обрабатывает в среднем 100 млн. строк

Reporting API

Пример отчета

Количество пользователей приложения с системами iOS и Android с февраля по май 2017 года 13

February March April May

iOS Android

Количество пользователей

SELECT

uniq(DeviceID) AS users

FROM events_partition

WHERE AppID = 46 AND (Date BETWEEN toDate(‘2017-06-01’) AND toDate(‘2017-06-07’))

id date1 date2 metrics

46 2017-06-01 2017-06-07 e:users

Количество пользователей и событий

SELECT

uniq(DeviceID) AS users,

count() AS events

id date1 date2 metrics

46 2017-06-01 2017-06-07 e:users,e:events

Пользователи по странам

SELECT

CountryID AS country,

GROUP BY country

metrics dimensions

e:users e:country

Пользователи с ОС Android по странам

SELECT

CountryID AS country,

AND AppPlatform = 'android'

GROUP BY country

metrics dimensions filters

e:users e:country os == ‘android’

1. Запрос отправляется на произвольный хост партиции

2. Хост отправляет запрос на все локальные таблицы партиции

3. Все хосты возвращают частичные агрегаты из своих локальных данных

4. Первый хост соединяет эти агрегаты и возвращает результат

Запрос в одну распределенную таблицу

Java backend

› Партиция линейно масштабируется

› Работают очень эффективно

› Нельзя строить сложные сегменты

Запрос в одну распределенную таблицу

Пользователи, получившие рассылку

SELECT CountryID AS country, uniq(DeviceID) AS users FROM events_partition WHERE AppID = 46 AND (Date BETWEEN toDate(‘2017-06-01’) AND toDate(‘2017-06-07’)) AND AppPlatform = 'android' AND DeviceID GLOBAL IN ( SELECT DeviceID FROM push_campaigns_partition WHERE AppID = 46 AND (Date BETWEEN toDate(‘2017-06-01’) AND toDate(‘2017-06-07’))

AND CampaignID = 888 ) GROUP BY country

e:users e:country os == ‘android’ and exists pc:device with (campaign == ‘BlackFriday’)

1. Запрос отправляется на произвольный хост нужной партиции

2-3. Хост вычисляет внутренний подзапрос в распределенную таблицу

4. Отправляет внешний запрос на все хосты вместе с результатом подзапроса

5-6. Получает частичные агрегаты и соединяет их. Возвращает результат

Запрос с GLOBAL IN

Java backend

› При расширении кластера загружается сеть

› Работают менее эффективно

› Можно строить сегменты любой сложности

Запрос с GLOBAL IN

Локальность данных по DeviceID

SELECT CountryID AS country, uniq(DeviceID) AS users FROM events_partition WHERE AppID = 46 AND (Date BETWEEN toDate(‘2017-06-01’) AND toDate(‘2017-06-07’)) AND AppPlatform = 'android' AND DeviceID IN ( SELECT DeviceID FROM push_campaigns WHERE AppID = 46 AND (Date BETWEEN toDate(‘2017-06-01’) AND toDate(‘2017-06-07’))

AND CampaignID = 888 ) GROUP BY country

e:users e:country os == ‘android’ and exists pc:device with (campaign == ‘BlackFriday’)

› Замена глобальных IN и JOIN на локальные ускоряет запросы и разгружает сеть

› Имеет смысл если почти все наши IN и JOIN происходят по полю DeviceID

› Но при этом нужно уметь делать перешардирование

Локальность данных по DeviceID

Что делать если крупное приложение хочет посмотреть сложный отчет за несколько лет?

› Движок таблицы MergeTree поддерживает семплирование

› Ключ семплирования должен быть равномерно распределен

Запросы без семплирования и с семплированием

SELECT count() FROM events

SELECT count() * 10 FROM events SAMPLE 1/10

Семплирование в отчетах

SELECT count() * 3 FROM events WHERE DeviceID % 3 = 0

SELECT count() * 3 FROM events SAMPLE 1/3

› Ключ семплирования должен быть одинаковым во всех таблицах

› Ключ должен быть привязан к столбцу, по которому делается IN

SELECT count() * 10

FROM events

SAMPLE 1/10

WHERE DeviceID IN (

SELECT DeviceID

FROM push_campaigns

SAMPLE 1/10

Адаптивное семплирование

SELECT

uniq(DeviceID) * (42/13) AS users

SAMPLE 13/42

accuracy metrics

medium e:users

› Оценить сколько строк будет обработано запросом

› Выставить коэффициент семплирования так, чтобы обработанных строк стало не больше N

› Делать это быстро

Адаптивное семплирование

Если запрос не помещается в память

SELECT … FROM events GROUP BY DeviceID

SELECT … FROM events SAMPLE 1/3 OFFSET 0 GROUP BY DeviceID

SELECT … FROM events SAMPLE 1/3 OFFSET 1/3 GROUP BY DeviceID

SELECT … FROM events SAMPLE 1/3 OFFSET 2/3 GROUP BY DeviceID

Разбиение запроса на части

› Мы храним данные в ClickHouse и строим отчеты на лету

› Мы сделали свой DSL для описания отчетов

› Не все отчеты можно выразить через Reporting API

› Есть возможность выгрузки сырых логов

Заключение

Ефим Пышнограев Разработчик

badgersow

graev@yandex-team.ru

Спасибо за внимание!

Как устроено API в AppMetrica

Mobile

Transcript of Как устроено API в AppMetrica

Sistem Pemadam Api dan Pengindera Api

API 570 & API 574

AppMetrica - аналитика мобильного приложения

API REST conceptos (Rails-api)

ЕДИНЫМ ХЛЕБОМ, МОЛОКОМ И МЯСОМfeb56.ru/assets/files/feb 218.pdfограждения, более 10 км новой системы освещения, устроено

Неумывакин ИП. – Кедровое масло Мифы и реальность · И не для того так устроено, чтобы мы никогда не

Banking APIとAPIエコシステム

Семинар "Продвижение в соцсетях. Как всё устроено" в благотворительном

REST API 4_Rest API.pdf · 2018. 2. 7. · Google Maps Geocoding API Google Maps Geolocation API Google Maps Roads API Google Maps Time Zone API Google Places API Web Service Client

Как устроено обучение на ЛШ?

Web API Youtube API

MindConnect A-pTEìJll REST ful API MindConnect API ... · MindConnect A-pTEìJll REST ful API MindConnect API, RESTful API MindSphere RESTful API (REST), HTTP web MindSphere RESTful

Koala API V3.1 - megvii.nvk.co.th API V3.1（English... · 7/25/2019 Koala API V3.1.0 Koala API V3.1.0 Online- Permissions Interface Logout [api] Basic information Path: /api/v2/auth

api - API - HNB

ГЛАВА 1. Десять важных предупреждений4 ЭЛЕКТРИЧЕСТВО ШАГ ЗА ШАГОМ но знать, как всё это устроено и как

Oleg Dorozhok - Yandex. AppMetrica - free analytic platform for mobile apps.

API 570_05 API 574.pdf

Аналитика мобильного проекта — проверяй и доверяй / Александр Лукин (Yandex AppMetrica)

Pembuatan Izin API LOKAL/ API PMA

MBLT16: Alexander Lukin, AppMetrica