002умнов

59
. . . . . . Машинное обучение в Поиске и других задачах Умнов Алексей

Transcript of 002умнов

Page 1: 002умнов

. . . . . .

Машинное обучение в Поиске идругих задачах

Умнов Алексей

Page 2: 002умнов

. . . . . .

Введение

Page 3: 002умнов

. . . . . .

Поиск в интернете

..........

мама

.

рама

.

мыть

.

мыть

Page 4: 002умнов

. . . . . .

Поиск в интернете

..........

мама

.

рама

.

мыть

.

мыть

Page 5: 002умнов

. . . . . .

Ранжирование

.........

Page 6: 002умнов

. . . . . .

Примеры задач машинногообучения

Page 7: 002умнов

. . . . . .

Фильтрация спама

Дано:Электронное письмо

Адрес отправителяТема письмаТекст письмаФайлы письма

Необходимо:Определить, является ли данное письмо спамом.

Page 8: 002умнов

. . . . . .

Фильтрация спама

Дано:Электронное письмо

Адрес отправителяТема письмаТекст письмаФайлы письма

Необходимо:Определить, является ли данное письмо спамом.

Page 9: 002умнов

. . . . . .

Фильтрация спама

Дано:Электронное письмо

Адрес отправителяТема письмаТекст письмаФайлы письма

Необходимо:Определить, является ли данное письмо спамом.

Page 10: 002умнов

. . . . . .

Фильтрация спама

Дано:Электронное письмо

Адрес отправителяТема письмаТекст письмаФайлы письма

Необходимо:Определить, является ли данное письмо спамом.

Page 11: 002умнов

. . . . . .

Медицинская диагностика

Дано:Пациент

Общие данныепол, возрастРезультаты обследованийтемпература, пульсСимптомыналичие головной боли

Необходимо:Определить, болен ли пациент болезнью X.

Page 12: 002умнов

. . . . . .

Медицинская диагностика

Дано:Пациент

Общие данныепол, возрастРезультаты обследованийтемпература, пульсСимптомыналичие головной боли

Необходимо:Определить, болен ли пациент болезнью X.

Page 13: 002умнов

. . . . . .

Медицинская диагностика

Дано:Пациент

Общие данныепол, возрастРезультаты обследованийтемпература, пульсСимптомыналичие головной боли

Необходимо:Определить, болен ли пациент болезнью X.

Page 14: 002умнов

. . . . . .

Медицинская диагностика

Дано:Пациент

Общие данныепол, возрастРезультаты обследованийтемпература, пульсСимптомыналичие головной боли

Необходимо:Определить, болен ли пациент болезнью X.

Page 15: 002умнов

. . . . . .

Особенности задач

Что общего у этих задач?

Существует «скрытый» алгоритм их решения.

Человека можно научить их решатьАлгоритм решения невозможно строгосформулировать

Page 16: 002умнов

. . . . . .

Особенности задач

Что общего у этих задач?

Существует «скрытый» алгоритм их решения.

Человека можно научить их решать

Алгоритм решения невозможно строгосформулировать

Page 17: 002умнов

. . . . . .

Особенности задач

Что общего у этих задач?

Существует «скрытый» алгоритм их решения.

Человека можно научить их решатьАлгоритм решения невозможно строгосформулировать

Page 18: 002умнов

. . . . . .

Особенности задач

Необходимо решать задачу в большихобъемах

Человек решает задачу медленноНужно использовать машиныАлгоритма решения нетЕсть примеры решения

Машинное обучение —«обучение» программ напримерах.

Page 19: 002умнов

. . . . . .

Особенности задач

Необходимо решать задачу в большихобъемахЧеловек решает задачу медленно

Нужно использовать машиныАлгоритма решения нетЕсть примеры решения

Машинное обучение —«обучение» программ напримерах.

Page 20: 002умнов

. . . . . .

Особенности задач

Необходимо решать задачу в большихобъемахЧеловек решает задачу медленноНужно использовать машины

Алгоритма решения нетЕсть примеры решения

Машинное обучение —«обучение» программ напримерах.

Page 21: 002умнов

. . . . . .

Особенности задач

Необходимо решать задачу в большихобъемахЧеловек решает задачу медленноНужно использовать машиныАлгоритма решения нет

Есть примеры решения

Машинное обучение —«обучение» программ напримерах.

Page 22: 002умнов

. . . . . .

Особенности задач

Необходимо решать задачу в большихобъемахЧеловек решает задачу медленноНужно использовать машиныАлгоритма решения нетЕсть примеры решения

Машинное обучение —«обучение» программ напримерах.

Page 23: 002умнов

. . . . . .

Особенности задач

Необходимо решать задачу в большихобъемахЧеловек решает задачу медленноНужно использовать машиныАлгоритма решения нетЕсть примеры решения

Машинное обучение —«обучение» программ напримерах.

Page 24: 002умнов

. . . . . .

Задача машинного обучения

Page 25: 002умнов

. . . . . .

Математическая формулировка

X —множество объектов, Y —множествоответов.

a∗ : X→ Y — неизвестный алгоритм.

Обучающая выборка T = {xi, yi}li=1, гдеyi = a∗(xi)—множество объектов и известныхна них ответов

Задача обучения — по выборке T построитьалгоритм a : X→ Y, который бы как можнолучше приближал a∗

Page 26: 002умнов

. . . . . .

Математическая формулировка

X —множество объектов, Y —множествоответов.

a∗ : X→ Y — неизвестный алгоритм.

Обучающая выборка T = {xi, yi}li=1, гдеyi = a∗(xi)—множество объектов и известныхна них ответов

Задача обучения — по выборке T построитьалгоритм a : X→ Y, который бы как можнолучше приближал a∗

Page 27: 002умнов

. . . . . .

Математическая формулировка

X —множество объектов, Y —множествоответов.

a∗ : X→ Y — неизвестный алгоритм.

Обучающая выборка T = {xi, yi}li=1, гдеyi = a∗(xi)—множество объектов и известныхна них ответов

Задача обучения — по выборке T построитьалгоритм a : X→ Y, который бы как можнолучше приближал a∗

Page 28: 002умнов

. . . . . .

Математическая формулировка

X —множество объектов, Y —множествоответов.

a∗ : X→ Y — неизвестный алгоритм.

Обучающая выборка T = {xi, yi}li=1, гдеyi = a∗(xi)—множество объектов и известныхна них ответов

Задача обучения — по выборке T построитьалгоритм a : X→ Y, который бы как можнолучше приближал a∗

Page 29: 002умнов

. . . . . .

Математическая формулировка

Признаки объектов

Признак — численная характеристика объектаОтображение f : X→ Df.Df — пространство значений.

Примеры Df:

Df = {0, 1}— бинарный признак.«есть ли в тексте письма слово “банк”»,«наблюдается ли у пациента жар».Df = R— количественный признак.Длина письма, возраст пациента.

Page 30: 002умнов

. . . . . .

Математическая формулировка

Признаки объектов

Признак — численная характеристика объектаОтображение f : X→ Df.Df — пространство значений.

Примеры Df:

Df = {0, 1}— бинарный признак.«есть ли в тексте письма слово “банк”»,«наблюдается ли у пациента жар».Df = R— количественный признак.Длина письма, возраст пациента.

Page 31: 002умнов

. . . . . .

Математическая формулировкаПостроение признаков не входит в задачумашинного обучения.

Машинное обучение: построение алгоритма a пообучающей выборке T и признакам объектовf1, . . . , fn.

Матрица признаков обучающей выборки

F = ‖fi(xj)‖i=1,...,nj=1,...,l

=

f1(x1) . . . fn(x1). . . . . . . . .

f1(xl) . . . fn(xl)

(f1(x), . . . , fn(x)

)— вектор признаков объекта

Page 32: 002умнов

. . . . . .

Математическая формулировкаПостроение признаков не входит в задачумашинного обучения.

Машинное обучение: построение алгоритма a пообучающей выборке T и признакам объектовf1, . . . , fn.

Матрица признаков обучающей выборки

F = ‖fi(xj)‖i=1,...,nj=1,...,l

=

f1(x1) . . . fn(x1). . . . . . . . .

f1(xl) . . . fn(xl)

(f1(x), . . . , fn(x)

)— вектор признаков объекта

Page 33: 002умнов

. . . . . .

Математическая формулировкаПостроение признаков не входит в задачумашинного обучения.

Машинное обучение: построение алгоритма a пообучающей выборке T и признакам объектовf1, . . . , fn.

Матрица признаков обучающей выборки

F = ‖fi(xj)‖i=1,...,nj=1,...,l

=

f1(x1) . . . fn(x1). . . . . . . . .

f1(xl) . . . fn(xl)

(f1(x), . . . , fn(x)

)— вектор признаков объекта

Page 34: 002умнов

. . . . . .

Стадии машинного обучения

ОбучениеПостроение алгоритма a по обучающей выборке.

ПрименениеИспользование алгоритма a для полученияответов на неизвестных объектах.

Page 35: 002умнов

. . . . . .

Примеры методов машинногообучения

Page 36: 002умнов

. . . . . .

Для простоты будем считать, что

Y = R

Dfi = R для всех i

Page 37: 002умнов

. . . . . .

Линейная регрессияРассматриваем линейные комбинации признаков

a(α, x) =n∑

i=1

αifi(x),

α = (α1, . . . , αn)— неизвестные коэффициенты.

Минимизация квадратичной ошибки

Q(α) =l∑

j=1

‖a(α, xj) − yj‖2

Q(α)→ minα

Page 38: 002умнов

. . . . . .

Линейная регрессияРассматриваем линейные комбинации признаков

a(α, x) =n∑

i=1

αifi(x),

α = (α1, . . . , αn)— неизвестные коэффициенты.

Минимизация квадратичной ошибки

Q(α) =l∑

j=1

‖a(α, xj) − yj‖2

Q(α)→ minα

Page 39: 002умнов

. . . . . .

Линейная регрессияВ матричной форме

F =

f1(x1) . . . fn(x1). . . . . . . . .

f1(xl) . . . fn(xl)

Q(α) = ‖Fα − y‖2

Минимизируем

∂Q∂α

= 2FT(Fα − y) = 0

α̂ =(FTF)−1

FTy

Page 40: 002умнов

. . . . . .

Линейная регрессияВ матричной форме

F =

f1(x1) . . . fn(x1). . . . . . . . .

f1(xl) . . . fn(xl)

Q(α) = ‖Fα − y‖2

Минимизируем

∂Q∂α

= 2FT(Fα − y) = 0

α̂ =(FTF)−1

FTy

Page 41: 002умнов

. . . . . .

Линейная регрессия

X

Y

Page 42: 002умнов

. . . . . .

Линейная регрессия

X

Y

Page 43: 002умнов

. . . . . .

Линейная регрессия

Общая схема

ОбучениеВычисление коэффициентов

α̂ =(FTF)−1

FTy

Применение

a(α̂, x) =n∑

i=1

αifi(x)

Page 44: 002умнов

. . . . . .

Метод ближайшего соседа

Метрика на объектах

ρ : X × X→ RНапример евклидово расстояние междувекторами признаков

ρ(x, y) =

n∑i=1

(fi(x) − fi(y)

)212

Page 45: 002умнов

. . . . . .

Метод ближайшего соседа

a(x) = yk, где k = argminj=1,...,l

ρ(xj, x)

xk —«ближайший сосед», yk — известный ответна нем.

Page 46: 002умнов

. . . . . .

Метод ближайшего соседа

f1

f2

Page 47: 002умнов

. . . . . .

Метод ближайшего соседа

f1

f2

Page 48: 002умнов

. . . . . .

Метод ближайшего соседа

f1

f2

Page 49: 002умнов

. . . . . .

Метод ближайшего соседа

Общая схема

ОбучениеЗапомнить всю обучающую выборку.

ПрименениеДля данного x найти ближайшего соседа xk вобучающей выборке и выдать в качестве ответаyk.

Page 50: 002умнов

. . . . . .

Машинное обучение иранжирование

Page 51: 002умнов

. . . . . .

Ранжирование страниц

Дано:

Запрос пользователяСписок результатов

Необходимо:Упорядочить страницы…в соответствии с их релевантностью

релевантность (запрос, результат)

Page 52: 002умнов

. . . . . .

Ранжирование страниц

Дано:

Запрос пользователяСписок результатов

Необходимо:Упорядочить страницы

…в соответствии с их релевантностью

релевантность (запрос, результат)

Page 53: 002умнов

. . . . . .

Ранжирование страниц

Дано:

Запрос пользователяСписок результатов

Необходимо:Упорядочить страницы…в соответствии с их релевантностью

релевантность (запрос, результат)

Page 54: 002умнов

. . . . . .

Ранжирование страниц

Дано:

Запрос пользователяСписок результатов

Необходимо:Упорядочить страницы…в соответствии с их релевантностью

релевантность (запрос, результат)

Page 55: 002умнов

. . . . . .

Оценка релевантности

Численные методы — БольшаяСоветская Энциклопедия Отлично

Математический анализ —Википедия Плохо

Реферат: Численные методылинейной алгебры Нормально

Page 56: 002умнов

. . . . . .

Ранжирование страниц

Объекты — пары (запрос, страница)

Обучающая выборка —оценка релевантностис помощью ассессоров

Признаки

ТекстовыеПользовательскиеСтатические

Предсказание релевантности.

Page 57: 002умнов

. . . . . .

Ранжирование страниц

Объекты — пары (запрос, страница)

Обучающая выборка —оценка релевантностис помощью ассессоров

Признаки

ТекстовыеПользовательскиеСтатические

Предсказание релевантности.

Page 58: 002умнов

. . . . . .

Ранжирование страниц

Объекты — пары (запрос, страница)

Обучающая выборка —оценка релевантностис помощью ассессоров

Признаки

ТекстовыеПользовательскиеСтатические

Предсказание релевантности.

Page 59: 002умнов

. . . . . .

Конец

Вопросы?

Дополнительные материалы1. Сайт www.MachineLearning.ru

К. В. Воронцов. Машинное обучение, курслекций.

2. К. Маннинг, П. Рагван, Х. Шютце.Введение в информационный поиск.