Ageev
-
Upload
nlpseminar -
Category
Education
-
view
943 -
download
1
description
Transcript of Ageev
Игровой подход к анализу поведения
пользователя интернет-поисковой
системы
Михаил Агеев
НИВЦ МГУ им. М.В.Ломоносова
Лаборатория анализа информационных
ресурсов НИВЦ МГУ
• Решения
– Информационно-аналитические системы
– Отдельные алгоритмы, модули
– Университетская информационная система РОССИЯ
• Технологии
– Классификация документов, кластеризация сообщений, построение аннотаций, поиск
документов по запросу
– Формирование онтологий предметной области, выделение сущностей и связей на основе
корпуса текстов
– Анализ логов, определение характеристик и интересов пользователей
– Data mining, применение методов машинного обучения
• Заказчики
– Правовая система Гарант
– Портал Рамблер
– Центральный Банк РФ
– Государственная Дума РФ
– НИИ Восход
– ...
2
3
Моделирование успешного поиска
«Классика»
• Cranfield paradigm (1960’s, TREC, CLEF, ROMIP …)• Модель: «успешный поиск = релевантный документ»
– запрос → список результатов; отношение релевантности для парызапрос-документ; ad-hoc метрики как функция от позицийрелевантных документов
• Pros:– Сравнение систем по метрикам качества
– Переиспользуемая коллекция
– Простая модель, (относительно) понятные метрики• Cons:
– «Запрос ≠ Intent»; «Relevant ≠ Search Success»; Interaction– Информационные потребности зависят от времени и пользователя; коллекция меняется со временем
– Интерфейс, сниппеты, подсказки, подсветка найденного– Sampling, tail queries; толкование запроса; согласованность оценки– Оценка стоит дорого
4
Цель: моделирование успешного
поиска
• Понимание поведения на основе анализа логов
• Оценка эффективности поисковых систем
• Определение успешности поисковой сессии, оценкаудовлетворенности пользователя
• Улучшение поисковой системы
User Behaviorip timestamp r76.14.23.241 [21/Dec/2010:22:56:4776.14.23.241 [21/Dec/2010:22:57:3676.14.23.241 [21/Dec/2010:22:57:5559.182.115.47 [21/Dec/2010:22:57:5976.14.23.241 [21/Dec/2010:22:58:3676.14.23.241 [21/Dec/2010:22:59:5576.14.23.241 [21/Dec/2010:23:01:00
Logs
Behavior Model
Search
Engine
Quality
55
Ключевые вопросы
• Каковыхарактеристикиопыта успешныхпользователей?
• Чем отличаютсясложные для поискавопросы от простых?
• Как по поведениюпользователяопределитьуспешностьпоисковой сессии? Hard Question Easy Question
Low-success
Searcher
Advanced
Searcher
Sessio
n Suc
cess
66
Задачи
• Собрать реальные данные взаимодействияпользователей и поисковой системы с известнымипоисковыми потребностями и критерием успешностисессии
• Предсказать успешность поиска на основе логоввзаимодействия
77
План
• Введение
• Игра для сбора данных
• Предсказание успешности поисковой сессии
• Эксперименты
• Выводы
88
UFindIt: A Game With a Purpose
• Сбор данных о поведении пользователя– Цель поиска задана – найти ответ на вопрос
– Игрок находит ответ и URL, его подтверждающий
– Ответ проверяется модераторами
– http://ir-ub.mathcs.emory.edu:8100/
99
Откуда взять пользователей
• Amazon Mechanical Turk– HIT = игра из 10 вопросов
• Мотивация игрока
– Гарантированная оплата за игру
– Бонусы для 25% лучших игроков
– Соревнование! Азарт! • Проверка данных
– ReCaptcha– Автоматическая проверка выполнения
правил игры
• Использование нашего proxy• URL ответа посещен (в логе)• Ненулевое количество запросов и кликов
• Игрок должен ответить на тривиальные вопросы
– Ручная проверка правильности ответов и логов
Worker (optional) feedback:• "That was pretty interesting and worked well. I felt like I was able to get answers to most of the questions pretty easily."
• "Little confusing at first… search engines were not very helpful on most without some in depth searching"
1010
Задачи игры: поиск ответа на вопрос в интернете
• Источники: community question answering sites– Wiki.answers.com
– Yahoo! Answers
• Хороший вопрос должен
быть
– Не слишком простым
(unanswered)
– Иметь простой, короткийответ
– Иметь ответ в интернете
Example Questions:• How many Swedes speak English as a percentage?
• When the jominy test was invented?• Which metals float on water?• What is oxygen partial pressure at 5000 feet?
• How many Argentine soldiers died in falklands islands war?
• What ingredients in cough medicine make you hallucinate?
• How do you say welcome in kashmiri?• Am I allowed to carry a parachute onboard as a hand luggage?
• What animal is smaller than a bear but it eats a plant called bearberry?
1111
Протоколирование: Proxy + JavaScript
• HTTP reverse proxy– Пользователь использует привычный интерфейс поиска
– HTML-ссылки преобразуются на лету
– Apache httpd modules: mod_proxy_http, mod_proxy_html, mod_sed, mod_cache, mod_log_config
1212
Статистика по собранным данным
• Участники: Mechanical Turk– 159 участников, 20% отфильтрованы (из-за нарушенийправил)
– $1 за игру, +$1 бонус лучшим игрокам 25% (всего $250)
• Данные
– 40 вопросов в 4-х играх
– 1,487 сессий, 4,382 запросов, 14,676 кликов– 87% A+, 65% A+V+
• Все коды и данные доступны Open Source– http://ir-ub.mathcs.emory.edu/uFindIt/
1313
План
• Введение
• Игра для сбора данных
• Предсказание успешности поисковой сессии
• Эксперименты
• Выводы
1414
Предсказание успешности сессии
• Метод машинного обучения
– Input: лог для отдельной поисковой сессии(запросы, клики, движения мыши, scrolling)
– Output: флаг «поисковая сессия успешна»?• 4 определения успешности – QRAV model
• Baseline: Markov Model + Time distribution [Hassan et al. WSDM 2010], 2 фактора
– STATE ∈ { QUERY, R1, R>1, END }– Time delta ∆t
• Наш подход: Conditional Random Fields (CRF)– 18 факторов, извлекаемых из логов
1515
Conditional Random Fields (CRF)
• Расширяет модель цепи Маркова дополнительными факторами
• 18 факторов, численные факторы дискретизированы
• Реализация CRF: Mallet
+Labels
(sessionsuccess)
+ + + +
Query1 Result1 Result2 Query2 Result3
Features
∆t≤10s=TrueQWL≤3=TrueQwiki=False...
Features
∆t≤10s=TrueRwiki =FalseCntQ≤3=True...
Features
∆t≤10s=FalseRwiki =FalseCntQ≤3=True...
Features
∆t≤10s=TrueRwiki =TrueCntQ≤3=True...
Features
∆t≤10s=TruQWL≤3=FalQwiki=True...
Observations
1616
Факторы из логов (I)
Markov Model Features
state Type of visited page { QUERY, R1, R>1, END }
∆t Time delta between previous state and current state
Query Features
Qengine One of {google, bing, yahoo}
Qabandoned True if there no clicks for the query
QWL Query word length
QADV True if the query use advanced query syntax
QDT Query Deliberation Time
1717
Факторы из логов (II)
Non-SERP Page Features
Rwiki True if visited page is on wikipedia.org
RQ_serp_pos Position of SERP click
Rtrail Length of trail from search engine result page
refserp, refstart Features from HTTP Referer header, could catch some patterns of non-linear browsing, when user uses several browser tabs
Session-level Aggregates
CntQ, CntR Count of queries and pages in the session
1818
План
• Введение
• Игра для сбора данных
• Предсказание успешности поисковой сессии
• Эксперименты
• Выводы
1919
Анализ поведения успешных
пользователей
Успешные пользователи
по сравнению с менее
успешными:
Задают более короткие вопросы
Быстрее анализируют
результаты и кликают на
документы
Чаще используют
расширенный язык запросов
Задают больше запросов на
каждый вопрос, просматривают
больше страниц на запрос, уходят дальше от SERP
2020
QRAV: Query-Result-Answer-Verification модель
успешной сессии
• Q: пользователь должен правильно понять вопрос исформулировать запрос
Q+=“Good Query”если SERP содержит хорошийURL
• R: пользователь должен выбрать правильный URL наSERP
R+=“Good URL” если документ содержитправильный ответ
• A: пользователь должен найти ответ внутри документаA+=“ Answer is Found”
• V: проверка правильности ответаV+=“ Answer is verified and correct”
Search Success
2121
Разные определения успешности
поисковой сессии
• Q+R+A+V+: Найденправильный ответ
[TREC QA track]
• Q+R+A+V?: Пользовательнашел некоторый ответ и
верит, что его ответ
правильный; пользовательудовлетворен, хотя ответможет быть неправильным
[Aula et al. CHI 2010]
• Q+R+A?V?: Пользователь нашел хороший документ и посмотрел его (но не
обязательно нашел в нем ответ) – [Hassan et al. WSDM 2010]
• Q?RL+A?V?: Пользователь нашел хороший документ и остановил свой выбор на
нем (просмотрел последним в сессии), после этого пользователь
(предположительно) удовлетворен [Dupret et al., WSDM 2010]
R-
Q+
Q-
R+ A+
A-
V+
V-Question
2222
Детальный анализ по QRAV
• Что делает вопрос трудным для поиска?– Трудно сформулировать правильный запрос Q+?– Трудно выбрать правильный документ на SERPR+?– Трудно найти ответ в документе A+?– Выбрать правильный ответ из нескольких возможных V+?
• Оцениваем R+, и Q+ из данных:– R+ = “этот URL был отправлен одним из пользователей исодержал правильный ответ”
– Q+ = “SERP этого запроса содержал R+ ”• Оценка значимости различных характеристик опыта
пользователей, например– Слабые пользователи находят правильный запрос в 87% сессий, сильные в 95%
– Для слабых пользователей лишь 42% хороших запросовприводили к нахождению правильного ответа, для сильныхпользователей - 89%
2323
Анализ диаграммы состояний: успешные и слабые пользователи
• Обе группы пользователей
легко формулируют
хороший запрос
• LOW труднее находятправильный документ на
SERP
• LOW часто зацикливаются
на анализе нерелевантных
документов и не могут
переформулировать запрос
• HIGH быстро переходят от
анализа нерелевантных
результатов к правильной
переформулировке запроса, либо по ссылкам к
релевантному документу
R-
0.20
Q+
Q-
R+ A+
A-
V+
V-0.21
0.79
0.910.43
1.00.10
0.23
0.42 0.46
HIGHusers
0.13
0.42
0.14
0.12
0.19
0.48
0.120.2
40.17
Question
R-
0.25
Q+
Q-
R+ A+
A-
V+
V-0.22
0.78
0.460.45
1.00.10
0.27
0.48 0.53
0.10
0.32
0.14
0.17
0.38
0.28
Question
LOWusers
0.540.15
2424
Анализ диаграммы состояний: сложные и простые вопросы
• Difficult question: “When the jominy test was invented?”(8/44 V+)
• Easy question: “What is the highest peak in western hemisphere?”(39/41 V+)
R-
0.11
Q+
Q-
R+ A+
A-
V+
V-0.98
0.02
0.360.46
1.00.10
0.23
0.41 0.47
Difficultquestion
0.53
0.39
0.38
0.15
0.120.3
2
Question
R-
0.15
Q+
Q-
R+ A+ V+
V-0.02
0.98
0.950.50
0.30
0.41 0.36
0.50
0.50
0.16
0.72
0.15
Question
Easyquestion
0.05
0.64
0.26
A- 1.00.18
0.39
2525
Предсказание успешности сессии
• CRF предсказывает лучше для всех определений успешности
2626
Предсказание успешности поиска на
реальных данных
• Цель: предсказать успешностьпоиска для реальныхпользователей университетскойбиблиотеки
• Данные: – Логи собраны при помощи
плагина к Firefox в библиотекеуниверситета Emory
– 16,693 сессий собрано
– 175 сессий вручную оценено пошкале «успешная/неуспешная»• 43% “невозможно оценить” – удалены
• 51% “успешные”• 49% “неуспешные”
• Алгоритм: CRF, обученный на данных игры:– Все факторы кроме refserp, refstart, RQ_serp_pos
– Метка успешности при обучении: • Q+R+A?V? – “Найден релевантный документ”• Q?RL
+A?V? – “Релевантный документ найден, и просмотрен последним в сессии”
2727
Предсказание успешности поиска на
реальных данных: результаты
• CRF существенно лучше, чем предсказание
«наугад»
• Собранные в игре данные и предложенный
алгоритм применимы для предсказания
успешности поиска на реальных данных
2828
Выводы
• Модель сбора данных о поведении пользователей– Четкое определение информационной потребности
– Заданные границы сессий
– Дешево ($0.15 за сессию)– Более подробные данные о поведении, чем click log
• Иерархическая модель успешной поисковой сессии– Обобщение предыдущих моделей
– Более строгое определение успешной сессии
• Характеристики успешных пользователей– Анализ переходов внутри модели QRAV
• Предсказание успешности сессии для разныхопределений успеха– Новая модель на основе CRF превосходит известную
MML+Time