Машинное обучение в ранжировании поиска
description
Transcript of Машинное обучение в ранжировании поиска
![Page 1: Машинное обучение в ранжировании поиска](https://reader034.fdocument.pub/reader034/viewer/2022042606/54bb067b4a7959d5478b4628/html5/thumbnails/1.jpg)
Машинное обучение в ранжировании поиска
![Page 2: Машинное обучение в ранжировании поиска](https://reader034.fdocument.pub/reader034/viewer/2022042606/54bb067b4a7959d5478b4628/html5/thumbnails/2.jpg)
У нас есть свой поиск!
• Веб• Картинки• Видео• Новости• Обсуждения• Ответы• Словари
![Page 3: Машинное обучение в ранжировании поиска](https://reader034.fdocument.pub/reader034/viewer/2022042606/54bb067b4a7959d5478b4628/html5/thumbnails/3.jpg)
Поисковый кластер
Архитектура
Фетчеры
HDFSТаблица документов10 миллиардов документов, один петабайт
ФронтендыМашинное обучение
Оценка качества
Индексаторы
Вычислительныйкластер
![Page 4: Машинное обучение в ранжировании поиска](https://reader034.fdocument.pub/reader034/viewer/2022042606/54bb067b4a7959d5478b4628/html5/thumbnails/4.jpg)
Анализ запроса
![Page 5: Машинное обучение в ранжировании поиска](https://reader034.fdocument.pub/reader034/viewer/2022042606/54bb067b4a7959d5478b4628/html5/thumbnails/5.jpg)
Оценка страницы
Обязательно 4Точный ответ 3Полезно 2Малополезно 1Не по теме 0Нельзя оценить
![Page 6: Машинное обучение в ранжировании поиска](https://reader034.fdocument.pub/reader034/viewer/2022042606/54bb067b4a7959d5478b4628/html5/thumbnails/6.jpg)
Оценка качества поиска
№ Оценка CG DCG1 Точный ответ 3 32 Точный ответ 3 33 Полезно 2 1,264 Точный ответ 3 1,55 Полезно 2 0,866 Малополезно 1 0,387 Полезно 2 0,718 Малополезно 1 0,33
Итого 17 11,04
![Page 7: Машинное обучение в ранжировании поиска](https://reader034.fdocument.pub/reader034/viewer/2022042606/54bb067b4a7959d5478b4628/html5/thumbnails/7.jpg)
Общий набор оценок
Запрос Документ Оценка
специальная мышца ёжика http://digest-news.ru/833-Zachemezhikuigolki-Interesniefakti.html
1
одноклассники http://www.odnoklassniki.ru/ 4
… … …
tf tf*idf иц … … … … Оценка
4 12 8 4 3 7 … 1
… … … … … … … …
Извлечение факторов
![Page 8: Машинное обучение в ранжировании поиска](https://reader034.fdocument.pub/reader034/viewer/2022042606/54bb067b4a7959d5478b4628/html5/thumbnails/8.jpg)
Задача ранжирования
Сотни факторов
Обучение Проверка
500тысяч
300тысяч
Цель – максимум NDCG на проверочной выборке
![Page 9: Машинное обучение в ранжировании поиска](https://reader034.fdocument.pub/reader034/viewer/2022042606/54bb067b4a7959d5478b4628/html5/thumbnails/9.jpg)
Фильтрация оценок
![Page 10: Машинное обучение в ранжировании поиска](https://reader034.fdocument.pub/reader034/viewer/2022042606/54bb067b4a7959d5478b4628/html5/thumbnails/10.jpg)
Как получаем выдачу?
• Релевантность документа. • Сравнение двух
документов. • Всю десятку сразу.
Фактор-1Ф
акто
р-2
Если бы факторов было мало,то можно было бы делать так:
![Page 11: Машинное обучение в ранжировании поиска](https://reader034.fdocument.pub/reader034/viewer/2022042606/54bb067b4a7959d5478b4628/html5/thumbnails/11.jpg)
Многомерность
ε = 0,13
εоб
ъём
![Page 12: Машинное обучение в ранжировании поиска](https://reader034.fdocument.pub/reader034/viewer/2022042606/54bb067b4a7959d5478b4628/html5/thumbnails/12.jpg)
Деревья решений
F7
F3F7 > 2
F3 > 2F3 > 1
2 1 4 3
Есть проблема переобучения.Нужны ограничения на размер и вид деревьев.
![Page 13: Машинное обучение в ранжировании поиска](https://reader034.fdocument.pub/reader034/viewer/2022042606/54bb067b4a7959d5478b4628/html5/thumbnails/13.jpg)
Бустинг
F5 > 7
F3 > 11F7 > 1
3
2
3
Результат: 3
![Page 14: Машинное обучение в ранжировании поиска](https://reader034.fdocument.pub/reader034/viewer/2022042606/54bb067b4a7959d5478b4628/html5/thumbnails/14.jpg)
Бэггинг
1 2 3 4 5 6 7 8 9 10Обучающее множество:
1 3 5 7 9 10Подмножество #1
2 3 6 7 8 9Подмножество #21 2 3 8 9 10Подмножество #3
Создаём случайные подмножества:
Каждый раз обучаемся на одном из подмножеств.
![Page 15: Машинное обучение в ранжировании поиска](https://reader034.fdocument.pub/reader034/viewer/2022042606/54bb067b4a7959d5478b4628/html5/thumbnails/15.jpg)
Что в итоге
Поиск
Асессоры Машинное обучениеИнструкция Алгоритмы
И не только ранжирование:• Разбиение на предложения.• Детектор порнографии. • Антиспам.