Настоящее и будущее рекомендательных систем
Михаил Ройзнер
amazon.com 3
foursquare.com 4
facebook.com 5
Ты помнишь, как всё начиналось…
7
Netflix Prize
〉 2006–2009
〉 100 млн оценок
〉 Задача: улучшить качество предсказания оценки пользователя на 10%
〉 $1 000 000
netflixprize.com 8
Похожим пользователям — похожие фильмы
9
Похожим пользователям — похожие фильмы
9
Стражигалактики
Вася ?
Похожим пользователям — похожие фильмы
9
Стражигалактики
Вася ?
Катя
Люди Икс
Мстители Железный человек
Капитан Америка
Света
Маша
Петя
4
3
5
5
4
4
5
4
5
4
4
4
4
4
5
5
5
4
3 5
Похожим пользователям — похожие фильмы
9
Стражигалактики
Вася
Катя
Люди Икс
Мстители Железный человек
Капитан Америка
Света
Маша
Петя
4
3
5
5
4
4
5
4
5
4
4
4
4
4
5
5
5
4
3 5 4.6
Singular Value Decomposition (SVD)
10
≈Use
rs
Movies
×Use
rs
Movies
d
d
U IR
Композиции алгоритмов
11
User-based Item-based SVD RBM
X
k
↵kfk
netflixprize.com 12
netflixprize.com 12
netflixprize.com 12
Выводы из Netflix Prize
13
Выводы из Netflix Prize
〉 Новые методы, такие как SVD и RBM, работают лучше стандартных корреляционных моделей.
13
Выводы из Netflix Prize
〉 Новые методы, такие как SVD и RBM, работают лучше стандартных корреляционных моделей.
〉 Алгоритмы можно объединять в композиции.
13
Выводы из Netflix Prize
〉 Новые методы, такие как SVD и RBM, работают лучше стандартных корреляционных моделей.
〉 Алгоритмы можно объединять в композиции.
〉 Самые точные методы оказались слишком сложны для масштабирования и внедрения.
13
Выводы из Netflix Prize
〉 Новые методы, такие как SVD и RBM, работают лучше стандартных корреляционных моделей.
〉 Алгоритмы можно объединять в композиции.
〉 Самые точные методы оказались слишком сложны для масштабирования и внедрения.
〉 Качество рекомендаций зависит не только от качества предсказания оценок, но и от других характеристик.
13
Качество рекомендаций
RMSE
Метрика
http://research.microsoft.com/pubs/115396/evaluationmetrics.tr.pdf 15
RMSE
Метрика
http://research.microsoft.com/pubs/115396/evaluationmetrics.tr.pdf 15
RMSE
Метрика
http://research.microsoft.com/pubs/115396/evaluationmetrics.tr.pdf 15
NDCG Precision/Recall
Оригинальность
Властелин колец
16
Крестный отецМатрица
Разнообразие
iPhone 6 Black 64Gb
17
iPhone 6 Silver 64GbiPhone 6 Black 16Gb
Новизна
Doom
18
Age of EmpiresCarmagedon
Доверие
19
Три неизвестных альбома
Объяснение рекомендаций
SVD помогает объяснять рекомендации
22
sim(i1, i2) = cos↵ =
hi1, i2iki1kki2k
sim(i1, i2) = cos↵ =
hi1, i2iki1kki2k
sim(i1, i2) = cos↵ =
hi1, i2iki1kki2k
sim(i1, i2) = cos↵ =
hi1, i2iki1kki2k
item 1
item 2
Метаинформация
Pandora
〉Music Genome Project
〉 450 атрибутов треков
〉 20–30 минут на один трек
24
István Pilászy, Domonkos Tikk, 2009 http://dl.acm.org/citation.cfm?id=1639731
Recommending New Movies: Even a Few Ratings Are More Valuable Than Metadata
Метаинформация в SVD
26
items
user
sta
gs
pseu
do-u
sers
Контекст
Контекстные рекомендации
28
Контекстные рекомендации
28
Время суток
Контекстные рекомендации
Местоположение
28
Время суток
Контекстные рекомендации
Местоположение
28
ПогодаВремя суток
Контекст в SVD — тензорные разложения
29
Use
rs
ItemsContex
t
Контекст в SVD — тензорные разложения
29
Use
rs
ItemsContex
tU
I
C
dd
Context
Items
Use
rs
d
Контекст в SVD — тензорные разложения
29
Use
rs
ItemsContex
tbruic =
dX
k=1
ukikckU
I
C
dd
Context
Items
Use
rs
d
Дополнительные источники данных
Spotify
〉 Анализ аудиосигнала треков
〉 Извлечение атрибутов с помощью свёрточных нейронных сетей
http://benanne.github.io/2014/08/05/spotify-cnns.html 31
eBay
〉Фотографии из блогов о моде
〉 Распознавание предметов одежды
〉Модель сочетаемости одежды по её характеристикам
http://arxiv.org/abs/1401.1778 32
eBay
〉Фотографии из блогов о моде
〉 Распознавание предметов одежды
〉Модель сочетаемости одежды по её характеристикам
http://arxiv.org/abs/1401.1778 32
YouTube
〉 Тематическое моделирование по текстовым данным
〉 Поисковые запросы, описания роликов, комментарии
〉 Вовлеченность пользователей увеличилась на 80%
http://dl.acm.org/citation.cfm?id=2623344 33
YouTube
〉 Тематическое моделирование по текстовым данным
〉 Поисковые запросы, описания роликов, комментарии
〉 Вовлеченность пользователей увеличилась на 80%
http://dl.acm.org/citation.cfm?id=2623344 33
Внешние и внутренние данные в одной модели
34
items
user
s
words
item
s
1 1 1
1 11
1 11
Внешние и внутренние данные в одной модели
34
items
user
s
words
item
s
1 1 1
1 11
1 11
SVD
Внешние и внутренние данные в одной модели
34
items
user
s
words
item
s
1 1 1
1 11
1 11
SVD LDA
Внешние и внутренние данные в одной модели
34
items
user
s
words
item
s
1 1 1
1 11
1 11
SVD LDA
Будущее рекомендаций
Знания о пользователях
36
Знания о пользователях
36
Социальные сети
Знания о пользователях
Телефоны
36
Социальные сети
Знания о пользователях
Телефоны
36
Носимые устройстваСоциальные сети
Идеальные рекомендации
37
Идеальные рекомендации
37
Точные
Идеальные рекомендации
37
Точные Понятные
Идеальные рекомендации
37
Точные Понятные Полезные
Спасибо!
Михаил Ройзнер
Руководитель группы разработки рекомендательных систем
Контакты
@mroizner