Сравнение методов оценки качества поиска — Роман...
description
Transcript of Сравнение методов оценки качества поиска — Роман...
1
2
Disclaimer: чего сегодня не будет
• Цифр сравнения Яндекса с Google, Поиск@Mail.ru, Спутником
• Точной информации о том, какие именно из указанных методов применяются в Яндексе
• За что забанили мой сайт?!
3
Действия пользователя
Как мы их понимаем
4
Иерархия примерно такая
Задача
Инфопотребность
ЗапросСпланировать
отпуск
Узнать о достопримечательностях [сидней киты]
5
Экспертная оценка
Cranfield и все-все-все
6
Идеальная картинка
• Пусть есть набор запросов Q• Пусть есть две поисковые системы• Пусть мы можем сопоставить выдаче системы S по запросу q число (значение метрики)• Тогда можно усреднить метрику по всем q Q• Выборки связанные, все удобно
7
Как все начиналось
• Cyril Cleverdon, College of Aeronautics, Cranfield, 1957 (!)• Решал задачу поиска статей по заданной теме• Создал тестовую коллекцию документов (1100)• Сравнивал точность и полноту поисковых алгоритмов
8
Точность и полнота
Наш лось Не наш лосьРелевантно a(true positive) b(false negative)Нерелевантно c(false positive) d(true negative)
Точность (precision) = a / (a + c)Полнота (recall) = a / (a + b)
9
В Интернете все чуть-чуть иначе
• Документов много (все не оценишь ;-)• Разных запросов тоже много• Пользователь просматривает не все, что нашлось
10
Кстати о пользователе
Модельный пользователь ведет себя так:• Просматривает выдачу сверху вниз• Открывает каждый документ• Останавливается, когда нашел ответ или устал
11
Так вот, про точность (1 запрос)
Precision@n=
Rel
Rel
Rel
Irrel
Irrel
Irrel
Irrel
Rel
Rel
Rel
Precision@5 = 0.6 для обеих выдач; хорошо ли это?Хочется учесть позиции документов.
12
Бинарна ли релевантность?
Пусть запрос [в контакте] и есть 3 документа:• http://vk.com• Статья об отставке Павла Дурова• Контакты фирмы по доставке пиццы
13
Бинарна ли релевантность?
Пусть запрос [макроэкономические показатели канады 2000 2010] и есть 3 документа:• ВВП Канады за1999-2013• ВВП, ВНД ,<другие непонятные экономические буквы> Канады за 2000-2006• ВВП, ВНД ,<другие непонятные экономические буквы> Канады за 2000-2012
14
Discounted Cumulated Gain
DCG
• Gain зависит от уровня релевантности• Подбирать значения Gain’ов – целая отдельная
наука• В знаменатель можно ставить тоже не логарифм
15
Рассмотрим сложные запросы
[символика молочной продукции советских лет фото]
16
nDCG: равные права для запросов
Плохой
Так себе
Хороший
Отличный
Хороший
Отличный
Хороший
Хороший
Так себе
Плохой
Результат по запросу q Идеальный результат
Свойства:• [0, 1]• Видит потери на “слабых” запросах
17
Кроме релевантности
В вычислении Gain’ов могут участвовать: • Популярность ресурса• Тематичность ресурса• Наличие на странице рекламы• …
18
Работа экспертов
А идеальны ли они?
19
Вводные
• Тысячи запросов, десятки тысяч документов• Качество оценок надо синхронизировать
20
Эксперты тоже ошибаются
Можно моделировать систематические ошибки• Случайные оценки• Оптимистичные оценки• Пессимистичные оценки• Хорошие в начале работы, плохие в конце
Пессимисты рулят!
21
Пример сложной темы
Кто автор хода 9.h3?
22
Если не хватает знаний
• Оценки чаще завышаются• Релевантным кажется документ, который объясняет смысл запроса, а не отвечает на него• Релевантность документа чаще оценивают по наличию слов запроса
23
Неучтенное
Все гораздо, гораздо хуже
24
Как выбирать запросы для оценки?
ГоловаТорс Хвост
в контакте
порно
риф
кутузов скажите пожалуста а лена и виктор михалыч в следущем сезоне будут
вместе или это мои пустые надежды
25
Запросы могут значить разное
Наполеон – это торт или император?
26
А еще есть
• Персонализация• Новости• Запросы-однодневки• Дубли
27
Эксперименты
Что нам скажут пользователи?
28
Запустим в полет сразу два поиска
Контрольная группа Экспериментальная группа
На какие бы показатели посмотреть?
29
Показателей довольно много
Название ЛучшеНекликнутые выдачи ↓Запросы с переформулировками ↓Запросы на сессию ↓Клики на запрос ↑Клики @ 1 ↑pSkip ↓Доля кликов длиннее n секунд ↑Позиция первого клика ↓Время до первого клика ↓Время до последнего клика ↓
30
Трудности со статистикой
в контактеодноклассникипорномой миригры для девочек
• Запросы и пользователи не все одинаковые
31
Работает ли оно вообще?
• Сделать поиск A > B• Проверить метрику• Проблема: как проверить, что A > B?• Не улучшим, а испортим!
Результат1
Результат2
Результат3
Результат4
Результат5
Результат6
Результат7
Результат8
Результат9
Результат10
32
Хорошие некликнутые
US JP CN0.00
20.00
40.00
60.00
80.00
100.00
120.00
nomaybeyes
Подумаем о телефоне в сниппете…
33
И еще немного о сниппетах
Результат1
Результат2
Результат3
Результат1
Результат2
Результат3
Результат4
Результат5
34
Balanced Interleaving
ABCDEJ
FACGHJ
AFBCDG
Ура! Полное пересечение запросов!
35
Team-Draft Interleaving
ABCDEJ
FACGHJ
AFCBGD
36
Поднимем уровень абстракции
Нет, это не просто бла-бла
37
Вспомним о пользователе
Задача
Инфопотребность
Запрос
38
Есть еще сигналы
Вот есть такая полезная штука:
Те, кто ею пользуются, говорят нам о своем недовольстве.
39
А можно замерять лояльность
Вася
Марина
Коля
Можно заметить, что периоды отсутствия на поиске у них разные
40
Знание – сила!
Список литературы
41
Для понимания истории
Cleverdon
The Cranfield Tests on Index Language Devices
Mizzaro
Relevance: the Whole History
Jarvelin, J. Kekalainen
Cumulated Gain-Based Evaluation of IR Techniques
42
Об экспертной оценке
Caterette, Soboroff
The Effect of Assessor Errors on IR System Evaluation
Bailey, Craswell, Soboroff, Thomas, de Vries, Yilmaz
Relevance Assessment: Are Judges Exchangeable and Does it Matter.
Kazai, Craswell, Yilmaz, Tahaghoghi
An Analysis of Systematic Judging Errors in Information Retrieval.
43
Эксперименты на пользователях
Chapelle, Joachims, Radlinski, Yue
Large-Scale Validation and Analysis of Interleaved Search Evaluation
Li, Huffman, Tokuda
Good Abandonment in Mobile and PC Internet Search
Chakraborty, Radlinski, Shokouhi, Baecke
On Correlation of Absence Time and Search Effectiveness
44
Спасибо за внимание!