Андрей Купавский «Ретвит-каскады: предсказываем...
description
Transcript of Андрей Купавский «Ретвит-каскады: предсказываем...
![Page 1: Андрей Купавский «Ретвит-каскады: предсказываем популярность контента в социальных сетях»](https://reader034.fdocument.pub/reader034/viewer/2022042614/557ec7fdd8b42ae27f8b47cb/html5/thumbnails/1.jpg)
Ретвит-каскады: предсказываем популярность контента в социальных сетях
Андрей Купавский
Исследователь, группа теории
![Page 2: Андрей Купавский «Ретвит-каскады: предсказываем популярность контента в социальных сетях»](https://reader034.fdocument.pub/reader034/viewer/2022042614/557ec7fdd8b42ae27f8b47cb/html5/thumbnails/2.jpg)
Содержание доклада
1. Зачем?
2. Каскады в Твиттере
3. Модели распространения информации
4. Модель, которая нам подошла =)
5. Рекламная стратегия
![Page 3: Андрей Купавский «Ретвит-каскады: предсказываем популярность контента в социальных сетях»](https://reader034.fdocument.pub/reader034/viewer/2022042614/557ec7fdd8b42ae27f8b47cb/html5/thumbnails/3.jpg)
Социология
![Page 4: Андрей Купавский «Ретвит-каскады: предсказываем популярность контента в социальных сетях»](https://reader034.fdocument.pub/reader034/viewer/2022042614/557ec7fdd8b42ae27f8b47cb/html5/thumbnails/4.jpg)
Отслеживание мнения о брендах
![Page 5: Андрей Купавский «Ретвит-каскады: предсказываем популярность контента в социальных сетях»](https://reader034.fdocument.pub/reader034/viewer/2022042614/557ec7fdd8b42ae27f8b47cb/html5/thumbnails/5.jpg)
Персонализация сервисов
![Page 6: Андрей Купавский «Ретвит-каскады: предсказываем популярность контента в социальных сетях»](https://reader034.fdocument.pub/reader034/viewer/2022042614/557ec7fdd8b42ae27f8b47cb/html5/thumbnails/6.jpg)
Зачем предсказывать популярность
контента?
1. Реклама, продвижение брендов
2. Социальный журнализм
3. Улучшение качества и свежести выдачи
![Page 7: Андрей Купавский «Ретвит-каскады: предсказываем популярность контента в социальных сетях»](https://reader034.fdocument.pub/reader034/viewer/2022042614/557ec7fdd8b42ae27f8b47cb/html5/thumbnails/7.jpg)
Твиттер
• 500 млн. пользователей
• 150 млн. пользователей активны раз в месяц
• 340 млн сообщений в день
• теория 4-х рукопожатий
• среднее количество читателей – 150
• у 80% пользователей менее 50 читателей
![Page 8: Андрей Купавский «Ретвит-каскады: предсказываем популярность контента в социальных сетях»](https://reader034.fdocument.pub/reader034/viewer/2022042614/557ec7fdd8b42ae27f8b47cb/html5/thumbnails/8.jpg)
Авторитетность пользователей
• Из топ-20 пользователей по числу читателей только
четверо есть в топе по числу ретвитов
• Практически отсутствует корреляция (0.1) между
списками топ-10% по этим ранжированиям
![Page 9: Андрей Купавский «Ретвит-каскады: предсказываем популярность контента в социальных сетях»](https://reader034.fdocument.pub/reader034/viewer/2022042614/557ec7fdd8b42ae27f8b47cb/html5/thumbnails/9.jpg)
Ретвит-каскады
![Page 10: Андрей Купавский «Ретвит-каскады: предсказываем популярность контента в социальных сетях»](https://reader034.fdocument.pub/reader034/viewer/2022042614/557ec7fdd8b42ae27f8b47cb/html5/thumbnails/10.jpg)
Ретвит-каскады
![Page 11: Андрей Купавский «Ретвит-каскады: предсказываем популярность контента в социальных сетях»](https://reader034.fdocument.pub/reader034/viewer/2022042614/557ec7fdd8b42ae27f8b47cb/html5/thumbnails/11.jpg)
Ретвит-каскады
![Page 12: Андрей Купавский «Ретвит-каскады: предсказываем популярность контента в социальных сетях»](https://reader034.fdocument.pub/reader034/viewer/2022042614/557ec7fdd8b42ae27f8b47cb/html5/thumbnails/12.jpg)
Ретвит-каскады
![Page 13: Андрей Купавский «Ретвит-каскады: предсказываем популярность контента в социальных сетях»](https://reader034.fdocument.pub/reader034/viewer/2022042614/557ec7fdd8b42ae27f8b47cb/html5/thumbnails/13.jpg)
Ретвит-каскады
• ретвиты получает 5-6 % всех сообщений
• ретвиты составляют около 15 % сообщений
• за первый час происходит 90 % всех ретвитов
![Page 14: Андрей Купавский «Ретвит-каскады: предсказываем популярность контента в социальных сетях»](https://reader034.fdocument.pub/reader034/viewer/2022042614/557ec7fdd8b42ae27f8b47cb/html5/thumbnails/14.jpg)
Ретвит-каскады
• Лента среднего пользователя наполовину состоит
из сообщений, написанных топ-20000
пользователями по числу читателей
• Популярность распределена в соответствии со
степенным законом
![Page 15: Андрей Купавский «Ретвит-каскады: предсказываем популярность контента в социальных сетях»](https://reader034.fdocument.pub/reader034/viewer/2022042614/557ec7fdd8b42ae27f8b47cb/html5/thumbnails/15.jpg)
Распределение популярности
![Page 16: Андрей Купавский «Ретвит-каскады: предсказываем популярность контента в социальных сетях»](https://reader034.fdocument.pub/reader034/viewer/2022042614/557ec7fdd8b42ae27f8b47cb/html5/thumbnails/16.jpg)
Модели распространения информации
1. Эпидемиологические
2. Линейная модель влияния
3. Машинное обучение
![Page 17: Андрей Купавский «Ретвит-каскады: предсказываем популярность контента в социальных сетях»](https://reader034.fdocument.pub/reader034/viewer/2022042614/557ec7fdd8b42ae27f8b47cb/html5/thumbnails/17.jpg)
Эпидемиологическая модель
![Page 18: Андрей Купавский «Ретвит-каскады: предсказываем популярность контента в социальных сетях»](https://reader034.fdocument.pub/reader034/viewer/2022042614/557ec7fdd8b42ae27f8b47cb/html5/thumbnails/18.jpg)
Эпидемиологическая модель
![Page 19: Андрей Купавский «Ретвит-каскады: предсказываем популярность контента в социальных сетях»](https://reader034.fdocument.pub/reader034/viewer/2022042614/557ec7fdd8b42ae27f8b47cb/html5/thumbnails/19.jpg)
Модификации модели
• Вероятность заражения может зависеть от
времени.
• Вероятность заражения может зависеть от
пользователя.
• Вероятность заражения во второй раз может
быть ненулевой.
![Page 20: Андрей Купавский «Ретвит-каскады: предсказываем популярность контента в социальных сетях»](https://reader034.fdocument.pub/reader034/viewer/2022042614/557ec7fdd8b42ae27f8b47cb/html5/thumbnails/20.jpg)
Анализ
+ :
• простота
• имеет физический смысл
– :
• слишком мало или слишком много параметров
• нужно обрабатывать данные о структуре сети
• подбор параметров?
• зависимость от контента?
![Page 21: Андрей Купавский «Ретвит-каскады: предсказываем популярность контента в социальных сетях»](https://reader034.fdocument.pub/reader034/viewer/2022042614/557ec7fdd8b42ae27f8b47cb/html5/thumbnails/21.jpg)
Анализ
• Математическая модель, подходит для
качественного анализа распространения
• Слабо применима на практике
![Page 22: Андрей Купавский «Ретвит-каскады: предсказываем популярность контента в социальных сетях»](https://reader034.fdocument.pub/reader034/viewer/2022042614/557ec7fdd8b42ae27f8b47cb/html5/thumbnails/22.jpg)
Линейная модель влияния
![Page 23: Андрей Купавский «Ретвит-каскады: предсказываем популярность контента в социальных сетях»](https://reader034.fdocument.pub/reader034/viewer/2022042614/557ec7fdd8b42ae27f8b47cb/html5/thumbnails/23.jpg)
Линейная модель влияния
• Зная распространение на момент i, предсказываем
объем на момент i+1
• Фиксированные источники с функцией
влиятельности, зависящей от времени
• Объем – сумма влиятельностей зараженных до
этого источников
![Page 24: Андрей Купавский «Ретвит-каскады: предсказываем популярность контента в социальных сетях»](https://reader034.fdocument.pub/reader034/viewer/2022042614/557ec7fdd8b42ae27f8b47cb/html5/thumbnails/24.jpg)
Анализ
+ :
• влияние источников явно вычисляется
• влияние зависит от времени
• не требуется структура сети
– :
• фиксированные источники
• вычислительная сложность
• не учитывается структура сети
• предсказание только на следующий момент
![Page 25: Андрей Купавский «Ретвит-каскады: предсказываем популярность контента в социальных сетях»](https://reader034.fdocument.pub/reader034/viewer/2022042614/557ec7fdd8b42ae27f8b47cb/html5/thumbnails/25.jpg)
Анализ
• Подходит для моделирования распространения в
блогах и СМИ
• Для нашей задачи не очень подходит: мало
источников, краткосрочное предсказание
![Page 26: Андрей Купавский «Ретвит-каскады: предсказываем популярность контента в социальных сетях»](https://reader034.fdocument.pub/reader034/viewer/2022042614/557ec7fdd8b42ae27f8b47cb/html5/thumbnails/26.jpg)
Машинное обучение
• Есть целевая функция
• Есть обучающая выборка, на ней вычисляются
факторы
• Алгоритм оптимальным образом разбивает твиты
на классы. В каждом классе предсказанная
популярность постоянна
![Page 27: Андрей Купавский «Ретвит-каскады: предсказываем популярность контента в социальных сетях»](https://reader034.fdocument.pub/reader034/viewer/2022042614/557ec7fdd8b42ae27f8b47cb/html5/thumbnails/27.jpg)
Машинное обучение
![Page 28: Андрей Купавский «Ретвит-каскады: предсказываем популярность контента в социальных сетях»](https://reader034.fdocument.pub/reader034/viewer/2022042614/557ec7fdd8b42ae27f8b47cb/html5/thumbnails/28.jpg)
Анализ
+ :
• малая вычислительная сложность
• дают хороший результат
• можно улучшать за счет новых факторов
– :
• отсутствие физической модели
• непонятно, как именно распространяется
сообщение
![Page 29: Андрей Купавский «Ретвит-каскады: предсказываем популярность контента в социальных сетях»](https://reader034.fdocument.pub/reader034/viewer/2022042614/557ec7fdd8b42ae27f8b47cb/html5/thumbnails/29.jpg)
Машинное обучение
1. Факторы
2. Экспериментальные результаты
3. Важность факторов
![Page 30: Андрей Купавский «Ретвит-каскады: предсказываем популярность контента в социальных сетях»](https://reader034.fdocument.pub/reader034/viewer/2022042614/557ec7fdd8b42ae27f8b47cb/html5/thumbnails/30.jpg)
Социальные факторы
• Число читателей
• Число читаемых
• Среднее число ретвитов
• Дата создания аккаунта
• …
![Page 31: Андрей Купавский «Ретвит-каскады: предсказываем популярность контента в социальных сетях»](https://reader034.fdocument.pub/reader034/viewer/2022042614/557ec7fdd8b42ae27f8b47cb/html5/thumbnails/31.jpg)
Контентные факторы
• Длина сообщения
• Наличие хештегов
• Наличие ссылок
• Является ли сообщение ответом
• Настроение
• …
![Page 32: Андрей Купавский «Ретвит-каскады: предсказываем популярность контента в социальных сетях»](https://reader034.fdocument.pub/reader034/viewer/2022042614/557ec7fdd8b42ae27f8b47cb/html5/thumbnails/32.jpg)
Начальное распространение
• Число ретвитов за начальный период
• Авторитетность пользователей, сделавших ретвит
• …
![Page 33: Андрей Купавский «Ретвит-каскады: предсказываем популярность контента в социальных сетях»](https://reader034.fdocument.pub/reader034/viewer/2022042614/557ec7fdd8b42ae27f8b47cb/html5/thumbnails/33.jpg)
Экспериментальные результаты
• Предсказание точнее на короткие промежутки
• Предсказание на 20-30% точнее с данными за
первые 30 секунд
• Текстовые факторы почти не играют роли
• Предсказанное число ретвитов отличается от
реального в 2-3 раза.
![Page 34: Андрей Купавский «Ретвит-каскады: предсказываем популярность контента в социальных сетях»](https://reader034.fdocument.pub/reader034/viewer/2022042614/557ec7fdd8b42ae27f8b47cb/html5/thumbnails/34.jpg)
Важность факторов
![Page 35: Андрей Купавский «Ретвит-каскады: предсказываем популярность контента в социальных сетях»](https://reader034.fdocument.pub/reader034/viewer/2022042614/557ec7fdd8b42ae27f8b47cb/html5/thumbnails/35.jpg)
Важность факторов
• Популярность твита в первую очередь зависит от
авторитетности пользователя
• Начальное распространение определяет, насколько
удачен этот твит для пользователя
![Page 36: Андрей Купавский «Ретвит-каскады: предсказываем популярность контента в социальных сетях»](https://reader034.fdocument.pub/reader034/viewer/2022042614/557ec7fdd8b42ae27f8b47cb/html5/thumbnails/36.jpg)
Модель рекламной стратегии
![Page 37: Андрей Купавский «Ретвит-каскады: предсказываем популярность контента в социальных сетях»](https://reader034.fdocument.pub/reader034/viewer/2022042614/557ec7fdd8b42ae27f8b47cb/html5/thumbnails/37.jpg)
Модель рекламной стратегии
• Линейная стоимость сообщения
• Цель – набрать как можно больше ретвитов
![Page 38: Андрей Купавский «Ретвит-каскады: предсказываем популярность контента в социальных сетях»](https://reader034.fdocument.pub/reader034/viewer/2022042614/557ec7fdd8b42ae27f8b47cb/html5/thumbnails/38.jpg)
Анализ
• Пусть стоимость одного читателя – 10 копеек
• При a = 10 рублей наиболее эффективны
пользователи, получающие менее одного ретвита
• Даже при а = 1000 рублей оптимальны
пользователи, получающие по несколько ретвитов
![Page 39: Андрей Купавский «Ретвит-каскады: предсказываем популярность контента в социальных сетях»](https://reader034.fdocument.pub/reader034/viewer/2022042614/557ec7fdd8b42ae27f8b47cb/html5/thumbnails/39.jpg)
Дальнейшие исследования
• Предсказание других характеристик: клики по
ссылкам, просмотры видео и т.п.
• Учитывать контекст, тренды
• Применение в различных сервисах Яндекса
![Page 40: Андрей Купавский «Ретвит-каскады: предсказываем популярность контента в социальных сетях»](https://reader034.fdocument.pub/reader034/viewer/2022042614/557ec7fdd8b42ae27f8b47cb/html5/thumbnails/40.jpg)
Л и т е р а т у р а
• E. Bakshy et. al., “Identifying 'Influencers' on Twitter”,
WWW'11
• A. Kupavskii et. al., “Prediction of Retweet Cascade
Size over Time”, CIKM'12
• H. Kwak et. al., “What is Twitter, a Social Network or a
News Media?”, WWW'10
• G.V. Steeg, R. Ghosh, K. Lerman, “What Stops Social
Epidemics?”, ICWSM’11
• J. Yang, J. Leskovec, “Modeling Information Diffusion
in Implicit Networks”, IEEE'10