Now You've Got My Attention! Integrating Listening Tools & Apps
001умнов
-
Upload
alexandra-kaminskaya -
Category
Education
-
view
103 -
download
0
description
Transcript of 001умнов
. . . . . .
Машинное обучение в Поиске идругих задачах
Умнов Алексей
. . . . . .
Введение
. . . . . .
Поиск в интернете
..........
мама
.
рама
.
мыть
.
мыть
. . . . . .
Поиск в интернете
..........
мама
.
рама
.
мыть
.
мыть
. . . . . .
Ранжирование
.........
. . . . . .
Примеры задач машинногообучения
. . . . . .
Фильтрация спама
Дано:Электронное письмо
Адрес отправителяТема письмаТекст письмаФайлы письма
Необходимо:Определить, является ли данное письмо спамом.
. . . . . .
Фильтрация спама
Дано:Электронное письмо
Адрес отправителяТема письмаТекст письмаФайлы письма
Необходимо:Определить, является ли данное письмо спамом.
. . . . . .
Фильтрация спама
Дано:Электронное письмо
Адрес отправителяТема письмаТекст письмаФайлы письма
Необходимо:Определить, является ли данное письмо спамом.
. . . . . .
Фильтрация спама
Дано:Электронное письмо
Адрес отправителяТема письмаТекст письмаФайлы письма
Необходимо:Определить, является ли данное письмо спамом.
. . . . . .
Медицинская диагностика
Дано:Пациент
Общие данныепол, возрастРезультаты обследованийтемпература, пульсСимптомыналичие головной боли
Необходимо:Определить, болен ли пациент болезнью X.
. . . . . .
Медицинская диагностика
Дано:Пациент
Общие данныепол, возрастРезультаты обследованийтемпература, пульсСимптомыналичие головной боли
Необходимо:Определить, болен ли пациент болезнью X.
. . . . . .
Медицинская диагностика
Дано:Пациент
Общие данныепол, возрастРезультаты обследованийтемпература, пульсСимптомыналичие головной боли
Необходимо:Определить, болен ли пациент болезнью X.
. . . . . .
Медицинская диагностика
Дано:Пациент
Общие данныепол, возрастРезультаты обследованийтемпература, пульсСимптомыналичие головной боли
Необходимо:Определить, болен ли пациент болезнью X.
. . . . . .
Особенности задач
Что общего у этих задач?
Существует «скрытый» алгоритм их решения.
Человека можно научить их решатьАлгоритм решения невозможно строгосформулировать
. . . . . .
Особенности задач
Что общего у этих задач?
Существует «скрытый» алгоритм их решения.
Человека можно научить их решать
Алгоритм решения невозможно строгосформулировать
. . . . . .
Особенности задач
Что общего у этих задач?
Существует «скрытый» алгоритм их решения.
Человека можно научить их решатьАлгоритм решения невозможно строгосформулировать
. . . . . .
Особенности задач
Необходимо решать задачу в большихобъемах
Человек решает задачу медленноНужно использовать машиныАлгоритма решения нетЕсть примеры решения
Машинное обучение —«обучение» программ напримерах.
. . . . . .
Особенности задач
Необходимо решать задачу в большихобъемахЧеловек решает задачу медленно
Нужно использовать машиныАлгоритма решения нетЕсть примеры решения
Машинное обучение —«обучение» программ напримерах.
. . . . . .
Особенности задач
Необходимо решать задачу в большихобъемахЧеловек решает задачу медленноНужно использовать машины
Алгоритма решения нетЕсть примеры решения
Машинное обучение —«обучение» программ напримерах.
. . . . . .
Особенности задач
Необходимо решать задачу в большихобъемахЧеловек решает задачу медленноНужно использовать машиныАлгоритма решения нет
Есть примеры решения
Машинное обучение —«обучение» программ напримерах.
. . . . . .
Особенности задач
Необходимо решать задачу в большихобъемахЧеловек решает задачу медленноНужно использовать машиныАлгоритма решения нетЕсть примеры решения
Машинное обучение —«обучение» программ напримерах.
. . . . . .
Особенности задач
Необходимо решать задачу в большихобъемахЧеловек решает задачу медленноНужно использовать машиныАлгоритма решения нетЕсть примеры решения
Машинное обучение —«обучение» программ напримерах.
. . . . . .
Задача машинного обучения
. . . . . .
Математическая формулировка
X —множество объектов, Y —множествоответов.
a∗ : X→ Y — неизвестный алгоритм.
Обучающая выборка T = {xi, yi}li=1, гдеyi = a∗(xi)—множество объектов и известныхна них ответов
Задача обучения — по выборке T построитьалгоритм a : X→ Y, который бы как можнолучше приближал a∗
. . . . . .
Математическая формулировка
X —множество объектов, Y —множествоответов.
a∗ : X→ Y — неизвестный алгоритм.
Обучающая выборка T = {xi, yi}li=1, гдеyi = a∗(xi)—множество объектов и известныхна них ответов
Задача обучения — по выборке T построитьалгоритм a : X→ Y, который бы как можнолучше приближал a∗
. . . . . .
Математическая формулировка
X —множество объектов, Y —множествоответов.
a∗ : X→ Y — неизвестный алгоритм.
Обучающая выборка T = {xi, yi}li=1, гдеyi = a∗(xi)—множество объектов и известныхна них ответов
Задача обучения — по выборке T построитьалгоритм a : X→ Y, который бы как можнолучше приближал a∗
. . . . . .
Математическая формулировка
X —множество объектов, Y —множествоответов.
a∗ : X→ Y — неизвестный алгоритм.
Обучающая выборка T = {xi, yi}li=1, гдеyi = a∗(xi)—множество объектов и известныхна них ответов
Задача обучения — по выборке T построитьалгоритм a : X→ Y, который бы как можнолучше приближал a∗
. . . . . .
Математическая формулировка
Признаки объектов
Признак — численная характеристика объектаОтображение f : X→ Df.Df — пространство значений.
Примеры Df:
Df = {0, 1}— бинарный признак.«есть ли в тексте письма слово “банк”»,«наблюдается ли у пациента жар».Df = R— количественный признак.Длина письма, возраст пациента.
. . . . . .
Математическая формулировка
Признаки объектов
Признак — численная характеристика объектаОтображение f : X→ Df.Df — пространство значений.
Примеры Df:
Df = {0, 1}— бинарный признак.«есть ли в тексте письма слово “банк”»,«наблюдается ли у пациента жар».Df = R— количественный признак.Длина письма, возраст пациента.
. . . . . .
Математическая формулировкаПостроение признаков не входит в задачумашинного обучения.
Машинное обучение: построение алгоритма a пообучающей выборке T и признакам объектовf1, . . . , fn.
Матрица признаков обучающей выборки
F = ‖fi(xj)‖i=1,...,nj=1,...,l
=
f1(x1) . . . fn(x1). . . . . . . . .
f1(xl) . . . fn(xl)
(f1(x), . . . , fn(x)
)— вектор признаков объекта
. . . . . .
Математическая формулировкаПостроение признаков не входит в задачумашинного обучения.
Машинное обучение: построение алгоритма a пообучающей выборке T и признакам объектовf1, . . . , fn.
Матрица признаков обучающей выборки
F = ‖fi(xj)‖i=1,...,nj=1,...,l
=
f1(x1) . . . fn(x1). . . . . . . . .
f1(xl) . . . fn(xl)
(f1(x), . . . , fn(x)
)— вектор признаков объекта
. . . . . .
Математическая формулировкаПостроение признаков не входит в задачумашинного обучения.
Машинное обучение: построение алгоритма a пообучающей выборке T и признакам объектовf1, . . . , fn.
Матрица признаков обучающей выборки
F = ‖fi(xj)‖i=1,...,nj=1,...,l
=
f1(x1) . . . fn(x1). . . . . . . . .
f1(xl) . . . fn(xl)
(f1(x), . . . , fn(x)
)— вектор признаков объекта
. . . . . .
Стадии машинного обучения
ОбучениеПостроение алгоритма a по обучающей выборке.
ПрименениеИспользование алгоритма a для полученияответов на неизвестных объектах.
. . . . . .
Примеры методов машинногообучения
. . . . . .
Для простоты будем считать, что
Y = R
Dfi = R для всех i
. . . . . .
Линейная регрессияРассматриваем линейные комбинации признаков
a(α, x) =n∑
i=1
αifi(x),
α = (α1, . . . , αn)— неизвестные коэффициенты.
Минимизация квадратичной ошибки
Q(α) =l∑
j=1
‖a(α, xj) − yj‖2
Q(α)→ minα
. . . . . .
Линейная регрессияРассматриваем линейные комбинации признаков
a(α, x) =n∑
i=1
αifi(x),
α = (α1, . . . , αn)— неизвестные коэффициенты.
Минимизация квадратичной ошибки
Q(α) =l∑
j=1
‖a(α, xj) − yj‖2
Q(α)→ minα
. . . . . .
Линейная регрессияВ матричной форме
F =
f1(x1) . . . fn(x1). . . . . . . . .
f1(xl) . . . fn(xl)
Q(α) = ‖Fα − y‖2
Минимизируем
∂Q∂α
= 2FT(Fα − y) = 0
α̂ =(FTF)−1
FTy
. . . . . .
Линейная регрессияВ матричной форме
F =
f1(x1) . . . fn(x1). . . . . . . . .
f1(xl) . . . fn(xl)
Q(α) = ‖Fα − y‖2
Минимизируем
∂Q∂α
= 2FT(Fα − y) = 0
α̂ =(FTF)−1
FTy
. . . . . .
Линейная регрессия
X
Y
. . . . . .
Линейная регрессия
X
Y
. . . . . .
Линейная регрессия
Общая схема
ОбучениеВычисление коэффициентов
α̂ =(FTF)−1
FTy
Применение
a(α̂, x) =n∑
i=1
αifi(x)
. . . . . .
Метод ближайшего соседа
Метрика на объектах
ρ : X × X→ RНапример евклидово расстояние междувекторами признаков
ρ(x, y) =
n∑i=1
(fi(x) − fi(y)
)212
. . . . . .
Метод ближайшего соседа
a(x) = yk, где k = argminj=1,...,l
ρ(xj, x)
xk —«ближайший сосед», yk — известный ответна нем.
. . . . . .
Метод ближайшего соседа
f1
f2
. . . . . .
Метод ближайшего соседа
f1
f2
. . . . . .
Метод ближайшего соседа
f1
f2
. . . . . .
Метод ближайшего соседа
Общая схема
ОбучениеЗапомнить всю обучающую выборку.
ПрименениеДля данного x найти ближайшего соседа xk вобучающей выборке и выдать в качестве ответаyk.
. . . . . .
Машинное обучение иранжирование
. . . . . .
Ранжирование страниц
Дано:
Запрос пользователяСписок результатов
Необходимо:Упорядочить страницы…в соответствии с их релевантностью
релевантность (запрос, результат)
. . . . . .
Ранжирование страниц
Дано:
Запрос пользователяСписок результатов
Необходимо:Упорядочить страницы
…в соответствии с их релевантностью
релевантность (запрос, результат)
. . . . . .
Ранжирование страниц
Дано:
Запрос пользователяСписок результатов
Необходимо:Упорядочить страницы…в соответствии с их релевантностью
релевантность (запрос, результат)
. . . . . .
Ранжирование страниц
Дано:
Запрос пользователяСписок результатов
Необходимо:Упорядочить страницы…в соответствии с их релевантностью
релевантность (запрос, результат)
. . . . . .
Оценка релевантности
Численные методы — БольшаяСоветская Энциклопедия Отлично
Математический анализ —Википедия Плохо
Реферат: Численные методылинейной алгебры Нормально
. . . . . .
Ранжирование страниц
Объекты — пары (запрос, страница)
Обучающая выборка —оценка релевантностис помощью ассессоров
Признаки
ТекстовыеПользовательскиеСтатические
Предсказание релевантности.
. . . . . .
Ранжирование страниц
Объекты — пары (запрос, страница)
Обучающая выборка —оценка релевантностис помощью ассессоров
Признаки
ТекстовыеПользовательскиеСтатические
Предсказание релевантности.
. . . . . .
Ранжирование страниц
Объекты — пары (запрос, страница)
Обучающая выборка —оценка релевантностис помощью ассессоров
Признаки
ТекстовыеПользовательскиеСтатические
Предсказание релевантности.
. . . . . .
Конец
Вопросы?
Дополнительные материалы1. Сайт www.MachineLearning.ru
К. В. Воронцов. Машинное обучение, курслекций.
2. К. Маннинг, П. Рагван, Х. Шютце.Введение в информационный поиск.