Ageev

28
Игровой подход к анализу поведения пользователя интернет-поисковой системы Михаил Агеев НИВЦ МГУ им. М.В.Ломоносова

description

Выступление Михаила Агеева на AINL

Transcript of Ageev

Page 1: Ageev

Игровой подход к анализу поведения

пользователя интернет-поисковой

системы

Михаил Агеев

НИВЦ МГУ им. М.В.Ломоносова

Page 2: Ageev

Лаборатория анализа информационных

ресурсов НИВЦ МГУ

• Решения

– Информационно-аналитические системы

– Отдельные алгоритмы, модули

– Университетская информационная система РОССИЯ

• Технологии

– Классификация документов, кластеризация сообщений, построение аннотаций, поиск

документов по запросу

– Формирование онтологий предметной области, выделение сущностей и связей на основе

корпуса текстов

– Анализ логов, определение характеристик и интересов пользователей

– Data mining, применение методов машинного обучения

• Заказчики

– Правовая система Гарант

– Портал Рамблер

– Центральный Банк РФ

– Государственная Дума РФ

– НИИ Восход

– ...

2

Page 3: Ageev

3

Моделирование успешного поиска

«Классика»

• Cranfield paradigm (1960’s, TREC, CLEF, ROMIP …)• Модель: «успешный поиск = релевантный документ»

– запрос → список результатов; отношение релевантности для парызапрос-документ; ad-hoc метрики как функция от позицийрелевантных документов

• Pros:– Сравнение систем по метрикам качества

– Переиспользуемая коллекция

– Простая модель, (относительно) понятные метрики• Cons:

– «Запрос ≠ Intent»; «Relevant ≠ Search Success»; Interaction– Информационные потребности зависят от времени и пользователя; коллекция меняется со временем

– Интерфейс, сниппеты, подсказки, подсветка найденного– Sampling, tail queries; толкование запроса; согласованность оценки– Оценка стоит дорого

Page 4: Ageev

4

Цель: моделирование успешного

поиска

• Понимание поведения на основе анализа логов

• Оценка эффективности поисковых систем

• Определение успешности поисковой сессии, оценкаудовлетворенности пользователя

• Улучшение поисковой системы

User Behaviorip timestamp r76.14.23.241 [21/Dec/2010:22:56:4776.14.23.241 [21/Dec/2010:22:57:3676.14.23.241 [21/Dec/2010:22:57:5559.182.115.47 [21/Dec/2010:22:57:5976.14.23.241 [21/Dec/2010:22:58:3676.14.23.241 [21/Dec/2010:22:59:5576.14.23.241 [21/Dec/2010:23:01:00

Logs

Behavior Model

Search

Engine

Quality

Page 5: Ageev

55

Ключевые вопросы

• Каковыхарактеристикиопыта успешныхпользователей?

• Чем отличаютсясложные для поискавопросы от простых?

• Как по поведениюпользователяопределитьуспешностьпоисковой сессии? Hard Question Easy Question

Low-success

Searcher

Advanced

Searcher

Sessio

n Suc

cess

Page 6: Ageev

66

Задачи

• Собрать реальные данные взаимодействияпользователей и поисковой системы с известнымипоисковыми потребностями и критерием успешностисессии

• Предсказать успешность поиска на основе логоввзаимодействия

Page 7: Ageev

77

План

• Введение

• Игра для сбора данных

• Предсказание успешности поисковой сессии

• Эксперименты

• Выводы

Page 8: Ageev

88

UFindIt: A Game With a Purpose

• Сбор данных о поведении пользователя– Цель поиска задана – найти ответ на вопрос

– Игрок находит ответ и URL, его подтверждающий

– Ответ проверяется модераторами

– http://ir-ub.mathcs.emory.edu:8100/

Page 9: Ageev

99

Откуда взять пользователей

• Amazon Mechanical Turk– HIT = игра из 10 вопросов

• Мотивация игрока

– Гарантированная оплата за игру

– Бонусы для 25% лучших игроков

– Соревнование! Азарт! • Проверка данных

– ReCaptcha– Автоматическая проверка выполнения

правил игры

• Использование нашего proxy• URL ответа посещен (в логе)• Ненулевое количество запросов и кликов

• Игрок должен ответить на тривиальные вопросы

– Ручная проверка правильности ответов и логов

Worker (optional) feedback:• "That was pretty interesting and worked well. I felt like I was able to get answers to most of the questions pretty easily."

• "Little confusing at first… search engines were not very helpful on most without some in depth searching"

Page 10: Ageev

1010

Задачи игры: поиск ответа на вопрос в интернете

• Источники: community question answering sites– Wiki.answers.com

– Yahoo! Answers

• Хороший вопрос должен

быть

– Не слишком простым

(unanswered)

– Иметь простой, короткийответ

– Иметь ответ в интернете

Example Questions:• How many Swedes speak English as a percentage?

• When the jominy test was invented?• Which metals float on water?• What is oxygen partial pressure at 5000 feet?

• How many Argentine soldiers died in falklands islands war?

• What ingredients in cough medicine make you hallucinate?

• How do you say welcome in kashmiri?• Am I allowed to carry a parachute onboard as a hand luggage?

• What animal is smaller than a bear but it eats a plant called bearberry?

Page 11: Ageev

1111

Протоколирование: Proxy + JavaScript

• HTTP reverse proxy– Пользователь использует привычный интерфейс поиска

– HTML-ссылки преобразуются на лету

– Apache httpd modules: mod_proxy_http, mod_proxy_html, mod_sed, mod_cache, mod_log_config

Page 12: Ageev

1212

Статистика по собранным данным

• Участники: Mechanical Turk– 159 участников, 20% отфильтрованы (из-за нарушенийправил)

– $1 за игру, +$1 бонус лучшим игрокам 25% (всего $250)

• Данные

– 40 вопросов в 4-х играх

– 1,487 сессий, 4,382 запросов, 14,676 кликов– 87% A+, 65% A+V+

• Все коды и данные доступны Open Source– http://ir-ub.mathcs.emory.edu/uFindIt/

Page 13: Ageev

1313

План

• Введение

• Игра для сбора данных

• Предсказание успешности поисковой сессии

• Эксперименты

• Выводы

Page 14: Ageev

1414

Предсказание успешности сессии

• Метод машинного обучения

– Input: лог для отдельной поисковой сессии(запросы, клики, движения мыши, scrolling)

– Output: флаг «поисковая сессия успешна»?• 4 определения успешности – QRAV model

• Baseline: Markov Model + Time distribution [Hassan et al. WSDM 2010], 2 фактора

– STATE ∈ { QUERY, R1, R>1, END }– Time delta ∆t

• Наш подход: Conditional Random Fields (CRF)– 18 факторов, извлекаемых из логов

Page 15: Ageev

1515

Conditional Random Fields (CRF)

• Расширяет модель цепи Маркова дополнительными факторами

• 18 факторов, численные факторы дискретизированы

• Реализация CRF: Mallet

+Labels

(sessionsuccess)

+ + + +

Query1 Result1 Result2 Query2 Result3

Features

∆t≤10s=TrueQWL≤3=TrueQwiki=False...

Features

∆t≤10s=TrueRwiki =FalseCntQ≤3=True...

Features

∆t≤10s=FalseRwiki =FalseCntQ≤3=True...

Features

∆t≤10s=TrueRwiki =TrueCntQ≤3=True...

Features

∆t≤10s=TruQWL≤3=FalQwiki=True...

Observations

Page 16: Ageev

1616

Факторы из логов (I)

Markov Model Features

state Type of visited page { QUERY, R1, R>1, END }

∆t Time delta between previous state and current state

Query Features

Qengine One of {google, bing, yahoo}

Qabandoned True if there no clicks for the query

QWL Query word length

QADV True if the query use advanced query syntax

QDT Query Deliberation Time

Page 17: Ageev

1717

Факторы из логов (II)

Non-SERP Page Features

Rwiki True if visited page is on wikipedia.org

RQ_serp_pos Position of SERP click

Rtrail Length of trail from search engine result page

refserp, refstart Features from HTTP Referer header, could catch some patterns of non-linear browsing, when user uses several browser tabs

Session-level Aggregates

CntQ, CntR Count of queries and pages in the session

Page 18: Ageev

1818

План

• Введение

• Игра для сбора данных

• Предсказание успешности поисковой сессии

• Эксперименты

• Выводы

Page 19: Ageev

1919

Анализ поведения успешных

пользователей

Успешные пользователи

по сравнению с менее

успешными:

Задают более короткие вопросы

Быстрее анализируют

результаты и кликают на

документы

Чаще используют

расширенный язык запросов

Задают больше запросов на

каждый вопрос, просматривают

больше страниц на запрос, уходят дальше от SERP

Page 20: Ageev

2020

QRAV: Query-Result-Answer-Verification модель

успешной сессии

• Q: пользователь должен правильно понять вопрос исформулировать запрос

Q+=“Good Query”если SERP содержит хорошийURL

• R: пользователь должен выбрать правильный URL наSERP

R+=“Good URL” если документ содержитправильный ответ

• A: пользователь должен найти ответ внутри документаA+=“ Answer is Found”

• V: проверка правильности ответаV+=“ Answer is verified and correct”

Search Success

Page 21: Ageev

2121

Разные определения успешности

поисковой сессии

• Q+R+A+V+: Найденправильный ответ

[TREC QA track]

• Q+R+A+V?: Пользовательнашел некоторый ответ и

верит, что его ответ

правильный; пользовательудовлетворен, хотя ответможет быть неправильным

[Aula et al. CHI 2010]

• Q+R+A?V?: Пользователь нашел хороший документ и посмотрел его (но не

обязательно нашел в нем ответ) – [Hassan et al. WSDM 2010]

• Q?RL+A?V?: Пользователь нашел хороший документ и остановил свой выбор на

нем (просмотрел последним в сессии), после этого пользователь

(предположительно) удовлетворен [Dupret et al., WSDM 2010]

R-

Q+

Q-

R+ A+

A-

V+

V-Question

Page 22: Ageev

2222

Детальный анализ по QRAV

• Что делает вопрос трудным для поиска?– Трудно сформулировать правильный запрос Q+?– Трудно выбрать правильный документ на SERPR+?– Трудно найти ответ в документе A+?– Выбрать правильный ответ из нескольких возможных V+?

• Оцениваем R+, и Q+ из данных:– R+ = “этот URL был отправлен одним из пользователей исодержал правильный ответ”

– Q+ = “SERP этого запроса содержал R+ ”• Оценка значимости различных характеристик опыта

пользователей, например– Слабые пользователи находят правильный запрос в 87% сессий, сильные в 95%

– Для слабых пользователей лишь 42% хороших запросовприводили к нахождению правильного ответа, для сильныхпользователей - 89%

Page 23: Ageev

2323

Анализ диаграммы состояний: успешные и слабые пользователи

• Обе группы пользователей

легко формулируют

хороший запрос

• LOW труднее находятправильный документ на

SERP

• LOW часто зацикливаются

на анализе нерелевантных

документов и не могут

переформулировать запрос

• HIGH быстро переходят от

анализа нерелевантных

результатов к правильной

переформулировке запроса, либо по ссылкам к

релевантному документу

R-

0.20

Q+

Q-

R+ A+

A-

V+

V-0.21

0.79

0.910.43

1.00.10

0.23

0.42 0.46

HIGHusers

0.13

0.42

0.14

0.12

0.19

0.48

0.120.2

40.17

Question

R-

0.25

Q+

Q-

R+ A+

A-

V+

V-0.22

0.78

0.460.45

1.00.10

0.27

0.48 0.53

0.10

0.32

0.14

0.17

0.38

0.28

Question

LOWusers

0.540.15

Page 24: Ageev

2424

Анализ диаграммы состояний: сложные и простые вопросы

• Difficult question: “When the jominy test was invented?”(8/44 V+)

• Easy question: “What is the highest peak in western hemisphere?”(39/41 V+)

R-

0.11

Q+

Q-

R+ A+

A-

V+

V-0.98

0.02

0.360.46

1.00.10

0.23

0.41 0.47

Difficultquestion

0.53

0.39

0.38

0.15

0.120.3

2

Question

R-

0.15

Q+

Q-

R+ A+ V+

V-0.02

0.98

0.950.50

0.30

0.41 0.36

0.50

0.50

0.16

0.72

0.15

Question

Easyquestion

0.05

0.64

0.26

A- 1.00.18

0.39

Page 25: Ageev

2525

Предсказание успешности сессии

• CRF предсказывает лучше для всех определений успешности

Page 26: Ageev

2626

Предсказание успешности поиска на

реальных данных

• Цель: предсказать успешностьпоиска для реальныхпользователей университетскойбиблиотеки

• Данные: – Логи собраны при помощи

плагина к Firefox в библиотекеуниверситета Emory

– 16,693 сессий собрано

– 175 сессий вручную оценено пошкале «успешная/неуспешная»• 43% “невозможно оценить” – удалены

• 51% “успешные”• 49% “неуспешные”

• Алгоритм: CRF, обученный на данных игры:– Все факторы кроме refserp, refstart, RQ_serp_pos

– Метка успешности при обучении: • Q+R+A?V? – “Найден релевантный документ”• Q?RL

+A?V? – “Релевантный документ найден, и просмотрен последним в сессии”

Page 27: Ageev

2727

Предсказание успешности поиска на

реальных данных: результаты

• CRF существенно лучше, чем предсказание

«наугад»

• Собранные в игре данные и предложенный

алгоритм применимы для предсказания

успешности поиска на реальных данных

Page 28: Ageev

2828

Выводы

• Модель сбора данных о поведении пользователей– Четкое определение информационной потребности

– Заданные границы сессий

– Дешево ($0.15 за сессию)– Более подробные данные о поведении, чем click log

• Иерархическая модель успешной поисковой сессии– Обобщение предыдущих моделей

– Более строгое определение успешной сессии

• Характеристики успешных пользователей– Анализ переходов внутри модели QRAV

• Предсказание успешности сессии для разныхопределений успеха– Новая модель на основе CRF превосходит известную

MML+Time