Ageev

Игровой подход к анализу поведения

пользователя интернет-поисковой

системы

Михаил Агеев

НИВЦ МГУ им. М.В.Ломоносова

Лаборатория анализа информационных

ресурсов НИВЦ МГУ

• Решения

– Информационно-аналитические системы

– Отдельные алгоритмы, модули

– Университетская информационная система РОССИЯ

• Технологии

– Классификация документов, кластеризация сообщений, построение аннотаций, поиск

документов по запросу

– Формирование онтологий предметной области, выделение сущностей и связей на основе

корпуса текстов

– Анализ логов, определение характеристик и интересов пользователей

– Data mining, применение методов машинного обучения

• Заказчики

– Правовая система Гарант

– Портал Рамблер

– Центральный Банк РФ

– Государственная Дума РФ

– НИИ Восход

– ...

2

3

Моделирование успешного поиска

«Классика»

• Cranfield paradigm (1960’s, TREC, CLEF, ROMIP …)• Модель: «успешный поиск = релевантный документ»

– запрос → список результатов; отношение релевантности для парызапрос-документ; ad-hoc метрики как функция от позицийрелевантных документов

• Pros:– Сравнение систем по метрикам качества

– Переиспользуемая коллекция

– Простая модель, (относительно) понятные метрики• Cons:

– «Запрос ≠ Intent»; «Relevant ≠ Search Success»; Interaction– Информационные потребности зависят от времени и пользователя; коллекция меняется со временем

– Интерфейс, сниппеты, подсказки, подсветка найденного– Sampling, tail queries; толкование запроса; согласованность оценки– Оценка стоит дорого

4

Цель: моделирование успешного

поиска

• Понимание поведения на основе анализа логов

• Оценка эффективности поисковых систем

• Определение успешности поисковой сессии, оценкаудовлетворенности пользователя

• Улучшение поисковой системы

User Behaviorip timestamp r76.14.23.241 [21/Dec/2010:22:56:4776.14.23.241 [21/Dec/2010:22:57:3676.14.23.241 [21/Dec/2010:22:57:5559.182.115.47 [21/Dec/2010:22:57:5976.14.23.241 [21/Dec/2010:22:58:3676.14.23.241 [21/Dec/2010:22:59:5576.14.23.241 [21/Dec/2010:23:01:00

Logs

Behavior Model

Search

Engine

Quality

55

Ключевые вопросы

• Каковыхарактеристикиопыта успешныхпользователей?

• Чем отличаютсясложные для поискавопросы от простых?

• Как по поведениюпользователяопределитьуспешностьпоисковой сессии? Hard Question Easy Question

Low-success

Searcher

Advanced

Searcher

Sessio

n Suc

cess

66

Задачи

• Собрать реальные данные взаимодействияпользователей и поисковой системы с известнымипоисковыми потребностями и критерием успешностисессии

• Предсказать успешность поиска на основе логоввзаимодействия

77

План

• Введение

• Игра для сбора данных

• Предсказание успешности поисковой сессии

• Эксперименты

• Выводы

88

UFindIt: A Game With a Purpose

• Сбор данных о поведении пользователя– Цель поиска задана – найти ответ на вопрос

– Игрок находит ответ и URL, его подтверждающий

– Ответ проверяется модераторами

– http://ir-ub.mathcs.emory.edu:8100/

99

Откуда взять пользователей

• Amazon Mechanical Turk– HIT = игра из 10 вопросов

• Мотивация игрока

– Гарантированная оплата за игру

– Бонусы для 25% лучших игроков

– Соревнование! Азарт! • Проверка данных

– ReCaptcha– Автоматическая проверка выполнения

правил игры

• Использование нашего proxy• URL ответа посещен (в логе)• Ненулевое количество запросов и кликов

• Игрок должен ответить на тривиальные вопросы

– Ручная проверка правильности ответов и логов

Worker (optional) feedback:• "That was pretty interesting and worked well. I felt like I was able to get answers to most of the questions pretty easily."

• "Little confusing at first… search engines were not very helpful on most without some in depth searching"

1010

Задачи игры: поиск ответа на вопрос в интернете

• Источники: community question answering sites– Wiki.answers.com

– Yahoo! Answers

• Хороший вопрос должен

быть

– Не слишком простым

(unanswered)

– Иметь простой, короткийответ

– Иметь ответ в интернете

Example Questions:• How many Swedes speak English as a percentage?

• When the jominy test was invented?• Which metals float on water?• What is oxygen partial pressure at 5000 feet?

• How many Argentine soldiers died in falklands islands war?

• What ingredients in cough medicine make you hallucinate?

• How do you say welcome in kashmiri?• Am I allowed to carry a parachute onboard as a hand luggage?

• What animal is smaller than a bear but it eats a plant called bearberry?

1111

Протоколирование: Proxy + JavaScript

• HTTP reverse proxy– Пользователь использует привычный интерфейс поиска

– HTML-ссылки преобразуются на лету

– Apache httpd modules: mod_proxy_http, mod_proxy_html, mod_sed, mod_cache, mod_log_config

1212

Статистика по собранным данным

• Участники: Mechanical Turk– 159 участников, 20% отфильтрованы (из-за нарушенийправил)

– $1 за игру, +$1 бонус лучшим игрокам 25% (всего $250)

• Данные

– 40 вопросов в 4-х играх

– 1,487 сессий, 4,382 запросов, 14,676 кликов– 87% A+, 65% A+V+

• Все коды и данные доступны Open Source– http://ir-ub.mathcs.emory.edu/uFindIt/

1313

План





• Выводы

1414

Предсказание успешности сессии

• Метод машинного обучения

– Input: лог для отдельной поисковой сессии(запросы, клики, движения мыши, scrolling)

– Output: флаг «поисковая сессия успешна»?• 4 определения успешности – QRAV model

• Baseline: Markov Model + Time distribution [Hassan et al. WSDM 2010], 2 фактора

– STATE ∈ { QUERY, R1, R>1, END }– Time delta ∆t

• Наш подход: Conditional Random Fields (CRF)– 18 факторов, извлекаемых из логов

1515

Conditional Random Fields (CRF)

• Расширяет модель цепи Маркова дополнительными факторами

• 18 факторов, численные факторы дискретизированы

• Реализация CRF: Mallet

+Labels

(sessionsuccess)

+ + + +

Query1 Result1 Result2 Query2 Result3

Features

∆t≤10s=TrueQWL≤3=TrueQwiki=False...

Features

∆t≤10s=TrueRwiki =FalseCntQ≤3=True...

Features

∆t≤10s=FalseRwiki =FalseCntQ≤3=True...

Features

∆t≤10s=TrueRwiki =TrueCntQ≤3=True...

Features

∆t≤10s=TruQWL≤3=FalQwiki=True...

Observations

1616

Факторы из логов (I)

Markov Model Features

state Type of visited page { QUERY, R1, R>1, END }

∆t Time delta between previous state and current state

Query Features

Qengine One of {google, bing, yahoo}

Qabandoned True if there no clicks for the query

QWL Query word length

QADV True if the query use advanced query syntax

QDT Query Deliberation Time

1717

Факторы из логов (II)

Non-SERP Page Features

Rwiki True if visited page is on wikipedia.org

RQ_serp_pos Position of SERP click

Rtrail Length of trail from search engine result page

refserp, refstart Features from HTTP Referer header, could catch some patterns of non-linear browsing, when user uses several browser tabs

Session-level Aggregates

CntQ, CntR Count of queries and pages in the session

1818

План





• Выводы

1919

Анализ поведения успешных

пользователей

Успешные пользователи

по сравнению с менее

успешными:

Задают более короткие вопросы

Быстрее анализируют

результаты и кликают на

документы

Чаще используют

расширенный язык запросов

Задают больше запросов на

каждый вопрос, просматривают

больше страниц на запрос, уходят дальше от SERP

2020

QRAV: Query-Result-Answer-Verification модель

успешной сессии

• Q: пользователь должен правильно понять вопрос исформулировать запрос

Q+=“Good Query”если SERP содержит хорошийURL

• R: пользователь должен выбрать правильный URL наSERP

R+=“Good URL” если документ содержитправильный ответ

• A: пользователь должен найти ответ внутри документаA+=“ Answer is Found”

• V: проверка правильности ответаV+=“ Answer is verified and correct”

Search Success

2121

Разные определения успешности

поисковой сессии

• Q+R+A+V+: Найденправильный ответ

[TREC QA track]

• Q+R+A+V?: Пользовательнашел некоторый ответ и

верит, что его ответ

правильный; пользовательудовлетворен, хотя ответможет быть неправильным

[Aula et al. CHI 2010]

• Q+R+A?V?: Пользователь нашел хороший документ и посмотрел его (но не

обязательно нашел в нем ответ) – [Hassan et al. WSDM 2010]

• Q?RL+A?V?: Пользователь нашел хороший документ и остановил свой выбор на

нем (просмотрел последним в сессии), после этого пользователь

(предположительно) удовлетворен [Dupret et al., WSDM 2010]

R-

Q+

Q-

R+ A+

A-

V+

V-Question

2222

Детальный анализ по QRAV

• Что делает вопрос трудным для поиска?– Трудно сформулировать правильный запрос Q+?– Трудно выбрать правильный документ на SERPR+?– Трудно найти ответ в документе A+?– Выбрать правильный ответ из нескольких возможных V+?

• Оцениваем R+, и Q+ из данных:– R+ = “этот URL был отправлен одним из пользователей исодержал правильный ответ”

– Q+ = “SERP этого запроса содержал R+ ”• Оценка значимости различных характеристик опыта

пользователей, например– Слабые пользователи находят правильный запрос в 87% сессий, сильные в 95%

– Для слабых пользователей лишь 42% хороших запросовприводили к нахождению правильного ответа, для сильныхпользователей - 89%

2323

Анализ диаграммы состояний: успешные и слабые пользователи

• Обе группы пользователей

легко формулируют

хороший запрос

• LOW труднее находятправильный документ на

SERP

• LOW часто зацикливаются

на анализе нерелевантных

документов и не могут

переформулировать запрос

• HIGH быстро переходят от

анализа нерелевантных

результатов к правильной

переформулировке запроса, либо по ссылкам к

релевантному документу

R-

0.20

Q+

Q-

R+ A+

A-

V+

V-0.21

0.79

0.910.43

1.00.10

0.23

0.42 0.46

HIGHusers

0.13

0.42

0.14

0.12

0.19

0.48

0.120.2

40.17

Question

R-

0.25

Q+

Q-

R+ A+

A-

V+

V-0.22

0.78

0.460.45

1.00.10

0.27

0.48 0.53

0.10

0.32

0.14

0.17

0.38

0.28

Question

LOWusers

0.540.15

2424

Анализ диаграммы состояний: сложные и простые вопросы

• Difficult question: “When the jominy test was invented?”(8/44 V+)

• Easy question: “What is the highest peak in western hemisphere?”(39/41 V+)

R-

0.11

Q+

Q-

R+ A+

A-

V+

V-0.98

0.02

0.360.46

1.00.10

0.23

0.41 0.47

Difficultquestion

0.53

0.39

0.38

0.15

0.120.3

2

Question

R-

0.15

Q+

Q-

R+ A+ V+

V-0.02

0.98

0.950.50

0.30

0.41 0.36

0.50

0.50

0.16

0.72

0.15

Question

Easyquestion

0.05

0.64

0.26

A- 1.00.18

0.39

2525

Предсказание успешности сессии

• CRF предсказывает лучше для всех определений успешности

2626

Предсказание успешности поиска на

реальных данных

• Цель: предсказать успешностьпоиска для реальныхпользователей университетскойбиблиотеки

• Данные: – Логи собраны при помощи

плагина к Firefox в библиотекеуниверситета Emory

– 16,693 сессий собрано

– 175 сессий вручную оценено пошкале «успешная/неуспешная»• 43% “невозможно оценить” – удалены

• 51% “успешные”• 49% “неуспешные”

• Алгоритм: CRF, обученный на данных игры:– Все факторы кроме refserp, refstart, RQ_serp_pos

– Метка успешности при обучении: • Q+R+A?V? – “Найден релевантный документ”• Q?RL

+A?V? – “Релевантный документ найден, и просмотрен последним в сессии”

2727

Предсказание успешности поиска на

реальных данных: результаты

• CRF существенно лучше, чем предсказание

«наугад»

• Собранные в игре данные и предложенный

алгоритм применимы для предсказания

успешности поиска на реальных данных

2828

Выводы

• Модель сбора данных о поведении пользователей– Четкое определение информационной потребности

– Заданные границы сессий

– Дешево ($0.15 за сессию)– Более подробные данные о поведении, чем click log

• Иерархическая модель успешной поисковой сессии– Обобщение предыдущих моделей

– Более строгое определение успешной сессии

• Характеристики успешных пользователей– Анализ переходов внутри модели QRAV

• Предсказание успешности сессии для разныхопределений успеха– Новая модель на основе CRF превосходит известную

MML+Time

Ageev

Education

Transcript of Ageev