Александр Петров — Data-Centric Alliance — ICBDA 2015

8
datacentric.ru Технологии кластеризация сайтов при сборе и анализе пользовательских данных Александр Петров Head of R&D

Transcript of Александр Петров — Data-Centric Alliance — ICBDA 2015

datacentric.ru

Технологии кластеризация сайтов при сборе и анализе пользовательских данных

Александр ПетровHead of R&D

Задача сегментации пользователей

1 Реклама и маркетинг требуют персонификации общения с клиентом. Для этого нужно уметь определять характеристики пользователя (его пол, возраст, интересы, намерения, особенности характера).

2 Разные рекламодатели требуют разных аудиторных сегментов. Много, быстро и эффективно.

Нужен способ быстро создавать качественные аудиторные сегменты.

Способы определения паттернов поведения

Экспертный• “эксперт” определяет на какие URL должен сходить

пользователь чтобы попасть в сегмент.

Семантический анализ • Робот классифицирует страницы на принадлежность к той или

иной тематике, в дальнейшем размечаем пользователя на основе определенных тематик страниц.

• http://habrahabr.ru/company/dca/blog/261677/

Look-a-like• Имея выборку пользователей которые точно принадлежат

целевому классу пытаемся при помощи машинного определить принадлежность к данному классу.

• http://habrahabr.ru/company/dca/blog/263729/

Автоматическое выявление паттернов поведения

Граф аффинитивностей сайтов

На сайты схожей тематики и направления часто заходят вместе.

Аффинитивность аудиторий двух сайтов – мера близости множеств посетителей этих сайтов. Показывает во сколько раз повышается вероятность того что человек посетит сайт B если мы знаем что он посетил сайт A.

Интернет можно представить в виде полного графа сайтов, где вес ребра – аффинитивность аудиторий сайтов.

Кластеризация графа аффинитивностей

Кластиризовав граф аффинитивностей получим группы сайтов, на которые часто заходят вместе.

Алгоритмы кластеризации:• K-medoids• Марковская кластеризация• Louvain

РезультатыСоздание сегментов без участия эксперта.

+30% к качеству прогноза охвата аудитории.Сегменты, основанные на автоматически выявленных паттернах, оказались хорошими фичами для машинного обучения.

х1,5раза

увеличилось количество кликов при сохранении цены.На примере одной из рекламных кампаний для автомобильного бренда.

!

Читайте нас на Habrahabr

habrahabr.ru/company/dca/

БОЛЬШИЕ ДАННЫЕДЛЯ БОЛЬШОГО ДЕЛА

Спасибо

[email protected]