Сравнение методов оценки качества поиска — Роман...

44
1

description

Краткая история возникновения задачи оценки качества, маркер. Понятие релевантности, метрики Average Precision, DCG, nDCG и т.д. Интересные факты об экспертной оценке запросов и документов. Время до результата, параллельное сравнение выдач. Позапросные кликовые метрики (abandonment rate, время до клика и т.п.). Смешивание результатов, team-draft-interleaving. Другие характеристики поведения пользователя (время отсутствия).

Transcript of Сравнение методов оценки качества поиска — Роман...

Page 1: Сравнение методов оценки качества поиска — Роман Поборчий, Яндекс

1

Page 2: Сравнение методов оценки качества поиска — Роман Поборчий, Яндекс

2

Disclaimer: чего сегодня не будет

• Цифр сравнения Яндекса с Google, Поиск@Mail.ru, Спутником

• Точной информации о том, какие именно из указанных методов применяются в Яндексе

• За что забанили мой сайт?!

Page 3: Сравнение методов оценки качества поиска — Роман Поборчий, Яндекс

3

Действия пользователя

Как мы их понимаем

Page 4: Сравнение методов оценки качества поиска — Роман Поборчий, Яндекс

4

Иерархия примерно такая

Задача

Инфопотребность

ЗапросСпланировать

отпуск

Узнать о достопримечательностях [сидней киты]

Page 5: Сравнение методов оценки качества поиска — Роман Поборчий, Яндекс

5

Экспертная оценка

Cranfield и все-все-все

Page 6: Сравнение методов оценки качества поиска — Роман Поборчий, Яндекс

6

Идеальная картинка

• Пусть есть набор запросов Q• Пусть есть две поисковые системы• Пусть мы можем сопоставить выдаче системы S по запросу q число (значение метрики)• Тогда можно усреднить метрику по всем q Q• Выборки связанные, все удобно

Page 7: Сравнение методов оценки качества поиска — Роман Поборчий, Яндекс

7

Как все начиналось

• Cyril Cleverdon, College of Aeronautics, Cranfield, 1957 (!)• Решал задачу поиска статей по заданной теме• Создал тестовую коллекцию документов (1100)• Сравнивал точность и полноту поисковых алгоритмов

Page 8: Сравнение методов оценки качества поиска — Роман Поборчий, Яндекс

8

Точность и полнота

Наш лось Не наш лосьРелевантно a(true positive) b(false negative)Нерелевантно c(false positive) d(true negative)

Точность (precision) = a / (a + c)Полнота (recall) = a / (a + b)

Page 9: Сравнение методов оценки качества поиска — Роман Поборчий, Яндекс

9

В Интернете все чуть-чуть иначе

• Документов много (все не оценишь ;-)• Разных запросов тоже много• Пользователь просматривает не все, что нашлось

Page 10: Сравнение методов оценки качества поиска — Роман Поборчий, Яндекс

10

Кстати о пользователе

Модельный пользователь ведет себя так:• Просматривает выдачу сверху вниз• Открывает каждый документ• Останавливается, когда нашел ответ или устал

Page 11: Сравнение методов оценки качества поиска — Роман Поборчий, Яндекс

11

Так вот, про точность (1 запрос)

Precision@n=

Rel

Rel

Rel

Irrel

Irrel

Irrel

Irrel

Rel

Rel

Rel

Precision@5 = 0.6 для обеих выдач; хорошо ли это?Хочется учесть позиции документов.

Page 12: Сравнение методов оценки качества поиска — Роман Поборчий, Яндекс

12

Бинарна ли релевантность?

Пусть запрос [в контакте] и есть 3 документа:• http://vk.com• Статья об отставке Павла Дурова• Контакты фирмы по доставке пиццы

Page 13: Сравнение методов оценки качества поиска — Роман Поборчий, Яндекс

13

Бинарна ли релевантность?

Пусть запрос [макроэкономические показатели канады 2000 2010] и есть 3 документа:• ВВП Канады за1999-2013• ВВП, ВНД ,<другие непонятные экономические буквы> Канады за 2000-2006• ВВП, ВНД ,<другие непонятные экономические буквы> Канады за 2000-2012

Page 14: Сравнение методов оценки качества поиска — Роман Поборчий, Яндекс

14

Discounted Cumulated Gain

DCG

• Gain зависит от уровня релевантности• Подбирать значения Gain’ов – целая отдельная

наука• В знаменатель можно ставить тоже не логарифм

Page 15: Сравнение методов оценки качества поиска — Роман Поборчий, Яндекс

15

Рассмотрим сложные запросы

[символика молочной продукции советских лет фото]

Page 16: Сравнение методов оценки качества поиска — Роман Поборчий, Яндекс

16

nDCG: равные права для запросов

Плохой

Так себе

Хороший

Отличный

Хороший

Отличный

Хороший

Хороший

Так себе

Плохой

Результат по запросу q Идеальный результат

Свойства:• [0, 1]• Видит потери на “слабых” запросах

Page 17: Сравнение методов оценки качества поиска — Роман Поборчий, Яндекс

17

Кроме релевантности

В вычислении Gain’ов могут участвовать: • Популярность ресурса• Тематичность ресурса• Наличие на странице рекламы• …

Page 18: Сравнение методов оценки качества поиска — Роман Поборчий, Яндекс

18

Работа экспертов

А идеальны ли они?

Page 19: Сравнение методов оценки качества поиска — Роман Поборчий, Яндекс

19

Вводные

• Тысячи запросов, десятки тысяч документов• Качество оценок надо синхронизировать

Page 20: Сравнение методов оценки качества поиска — Роман Поборчий, Яндекс

20

Эксперты тоже ошибаются

Можно моделировать систематические ошибки• Случайные оценки• Оптимистичные оценки• Пессимистичные оценки• Хорошие в начале работы, плохие в конце

Пессимисты рулят!

Page 21: Сравнение методов оценки качества поиска — Роман Поборчий, Яндекс

21

Пример сложной темы

Кто автор хода 9.h3?

Page 22: Сравнение методов оценки качества поиска — Роман Поборчий, Яндекс

22

Если не хватает знаний

• Оценки чаще завышаются• Релевантным кажется документ, который объясняет смысл запроса, а не отвечает на него• Релевантность документа чаще оценивают по наличию слов запроса

Page 23: Сравнение методов оценки качества поиска — Роман Поборчий, Яндекс

23

Неучтенное

Все гораздо, гораздо хуже

Page 24: Сравнение методов оценки качества поиска — Роман Поборчий, Яндекс

24

Как выбирать запросы для оценки?

ГоловаТорс Хвост

в контакте

порно

риф

кутузов скажите пожалуста а лена и виктор михалыч в следущем сезоне будут

вместе или это мои пустые надежды

Page 25: Сравнение методов оценки качества поиска — Роман Поборчий, Яндекс

25

Запросы могут значить разное

Наполеон – это торт или император?

Page 26: Сравнение методов оценки качества поиска — Роман Поборчий, Яндекс

26

А еще есть

• Персонализация• Новости• Запросы-однодневки• Дубли

Page 27: Сравнение методов оценки качества поиска — Роман Поборчий, Яндекс

27

Эксперименты

Что нам скажут пользователи?

Page 28: Сравнение методов оценки качества поиска — Роман Поборчий, Яндекс

28

Запустим в полет сразу два поиска

Контрольная группа Экспериментальная группа

На какие бы показатели посмотреть?

Page 29: Сравнение методов оценки качества поиска — Роман Поборчий, Яндекс

29

Показателей довольно много

Название ЛучшеНекликнутые выдачи ↓Запросы с переформулировками ↓Запросы на сессию ↓Клики на запрос ↑Клики @ 1 ↑pSkip ↓Доля кликов длиннее n секунд ↑Позиция первого клика ↓Время до первого клика ↓Время до последнего клика ↓

Page 30: Сравнение методов оценки качества поиска — Роман Поборчий, Яндекс

30

Трудности со статистикой

в контактеодноклассникипорномой миригры для девочек

• Запросы и пользователи не все одинаковые

Page 31: Сравнение методов оценки качества поиска — Роман Поборчий, Яндекс

31

Работает ли оно вообще?

• Сделать поиск A > B• Проверить метрику• Проблема: как проверить, что A > B?• Не улучшим, а испортим!

Результат1

Результат2

Результат3

Результат4

Результат5

Результат6

Результат7

Результат8

Результат9

Результат10

Page 32: Сравнение методов оценки качества поиска — Роман Поборчий, Яндекс

32

Хорошие некликнутые

US JP CN0.00

20.00

40.00

60.00

80.00

100.00

120.00

nomaybeyes

Подумаем о телефоне в сниппете…

Page 33: Сравнение методов оценки качества поиска — Роман Поборчий, Яндекс

33

И еще немного о сниппетах

Результат1

Результат2

Результат3

Результат1

Результат2

Результат3

Результат4

Результат5

Page 34: Сравнение методов оценки качества поиска — Роман Поборчий, Яндекс

34

Balanced Interleaving

ABCDEJ

FACGHJ

AFBCDG

Ура! Полное пересечение запросов!

Page 35: Сравнение методов оценки качества поиска — Роман Поборчий, Яндекс

35

Team-Draft Interleaving

ABCDEJ

FACGHJ

AFCBGD

Page 36: Сравнение методов оценки качества поиска — Роман Поборчий, Яндекс

36

Поднимем уровень абстракции

Нет, это не просто бла-бла

Page 37: Сравнение методов оценки качества поиска — Роман Поборчий, Яндекс

37

Вспомним о пользователе

Задача

Инфопотребность

Запрос

Page 38: Сравнение методов оценки качества поиска — Роман Поборчий, Яндекс

38

Есть еще сигналы

Вот есть такая полезная штука:

Те, кто ею пользуются, говорят нам о своем недовольстве.

Page 39: Сравнение методов оценки качества поиска — Роман Поборчий, Яндекс

39

А можно замерять лояльность

Вася

Марина

Коля

Можно заметить, что периоды отсутствия на поиске у них разные

Page 40: Сравнение методов оценки качества поиска — Роман Поборчий, Яндекс

40

Знание – сила!

Список литературы

Page 41: Сравнение методов оценки качества поиска — Роман Поборчий, Яндекс

41

Для понимания истории

Cleverdon

The Cranfield Tests on Index Language Devices

Mizzaro

Relevance: the Whole History

Jarvelin, J. Kekalainen

Cumulated Gain-Based Evaluation of IR Techniques

Page 42: Сравнение методов оценки качества поиска — Роман Поборчий, Яндекс

42

Об экспертной оценке

Caterette, Soboroff

The Effect of Assessor Errors on IR System Evaluation

Bailey, Craswell, Soboroff, Thomas, de Vries, Yilmaz

Relevance Assessment: Are Judges Exchangeable and Does it Matter.

Kazai, Craswell, Yilmaz, Tahaghoghi

An Analysis of Systematic Judging Errors in Information Retrieval.

Page 43: Сравнение методов оценки качества поиска — Роман Поборчий, Яндекс

43

Эксперименты на пользователях

Chapelle, Joachims, Radlinski, Yue

Large-Scale Validation and Analysis of Interleaved Search Evaluation

Li, Huffman, Tokuda

Good Abandonment in Mobile and PC Internet Search

Chakraborty, Radlinski, Shokouhi, Baecke

On Correlation of Absence Time and Search Effectiveness

Page 44: Сравнение методов оценки качества поиска — Роман Поборчий, Яндекс

44

Спасибо за внимание!