К.В. Воронцов "Метрические методы классификации"
description
Transcript of К.В. Воронцов "Метрические методы классификации"
Метрические алгоритмы классификацииОтбор эталонов и оптимизация метрики
Профиль компактности и скользящий контроль
Метрические методы классификации
К. В. Воронцов[email protected]
Этот курс доступен на странице вики-ресурсаhttp://www.MachineLearning.ru/wiki
«Машинное обучение (курс лекций, К.В.Воронцов)»
март 2011
К. В. Воронцов (www.ccas.ru/voron) Метрические методы классификации 1 / 31
Метрические алгоритмы классификацииОтбор эталонов и оптимизация метрики
Профиль компактности и скользящий контроль
Содержание
1 Метрические алгоритмы классификацииГипотеза компактностиМетод ближайших соседей и его обобщенияСнова метод парзеновского окнаМетод потенциальных функций
2 Отбор эталонов и оптимизация метрикиПонятие отступаАлгоритм отбора эталонных объектов STOLPПонятие конкурентного сходстваПростой жадный алгоритм оптимизации метрики
3 Профиль компактности и скользящий контрольПолный скользящий контроль CCVПонятие профиля компактностиОтбор эталонов по функционалу CCV
К. В. Воронцов (www.ccas.ru/voron) Метрические методы классификации 2 / 31
Метрические алгоритмы классификацииОтбор эталонов и оптимизация метрики
Профиль компактности и скользящий контроль
Гипотеза компактностиМетод ближайших соседей и его обобщенияСнова метод парзеновского окнаМетод потенциальных функций
Гипотеза компактности
Задача классификации:X — объекты, Y — ответы (идентификаторы классов);X ℓ = (xi , yi )
ℓi=1 — обучающая выборка;
Гипотеза компактности:Схожие объекты, как правило, лежат в одном классе.
Формализация понятия «сходства»:Задана функция расстояния ρ : X × X → [0,∞).
Например, евклидово расстояние:
ρ(u, xi ) =
( n∑
j=1
∣∣uj − x
ji
∣∣2)1/2
,
где u = (u1, . . . , un), xi = (x1i , . . . , xni ) — признаковые описания
объектов.
К. В. Воронцов (www.ccas.ru/voron) Метрические методы классификации 3 / 31
Метрические алгоритмы классификацииОтбор эталонов и оптимизация метрики
Профиль компактности и скользящий контроль
Гипотеза компактностиМетод ближайших соседей и его обобщенияСнова метод парзеновского окнаМетод потенциальных функций
Пример: задача классификации цветков ириса [Фишер, 1936]
n = 4 признака, |Y | = 3 класса, длина выборки ℓ = 150.
длина чашелистика
567
ширина чашелистика длина лепестка ширина лепестка
2
3
4
2
4
6
5 6 7
0
1
2
2.0 2.5 3.0 3.5 4.0 1 2 3 4 5 6 0.5 1.0 1.5 2.0 2.5
Iris-setosa Iris-versicolor Iris-virginica
К. В. Воронцов (www.ccas.ru/voron) Метрические методы классификации 4 / 31
Метрические алгоритмы классификацииОтбор эталонов и оптимизация метрики
Профиль компактности и скользящий контроль
Гипотеза компактностиМетод ближайших соседей и его обобщенияСнова метод парзеновского окнаМетод потенциальных функций
Обобщённый метрический классификатор
Для произвольного u ∈ X отсортируем объекты x1, . . . , xℓ:
ρ(u, x(1)u ) 6 ρ(u, x
(2)u ) 6 · · · 6 ρ(u, x
(ℓ)u ),
x(i)u — i-й сосед объекта u среди x1, . . . , xℓ;
y(i)u — ответ на i-м соседе объекта u.
Метрический алгоритм классификации:
a(u;X ℓ) = argmaxy∈Y
ℓ∑
i=1
[y(i)u = y
]w(i , u)
︸ ︷︷ ︸
Γy (u,X ℓ)
,
w(i , u) — вес (степень важности) i-го соседа объекта u,неотрицателен, не возрастает по i .
Γy (u,Xℓ) — оценка близости объекта u к классу y .
К. В. Воронцов (www.ccas.ru/voron) Метрические методы классификации 5 / 31
Метрические алгоритмы классификацииОтбор эталонов и оптимизация метрики
Профиль компактности и скользящий контроль
Гипотеза компактностиМетод ближайших соседей и его обобщенияСнова метод парзеновского окнаМетод потенциальных функций
Метод ближайшего соседа
w(i , u) = [i=1].
Преимущества:
простота реализации;
интерпретируемость решений,вывод на основе прецедентов (case-based reasoning, CBR)
Недостатки:
неустойчивость к погрешностям (шуму, выбросам);
отсутствие настраиваемых параметров;
низкое качество классификации;
приходится хранить всю выборку целиком.
К. В. Воронцов (www.ccas.ru/voron) Метрические методы классификации 6 / 31
Метрические алгоритмы классификацииОтбор эталонов и оптимизация метрики
Профиль компактности и скользящий контроль
Гипотеза компактностиМетод ближайших соседей и его обобщенияСнова метод парзеновского окнаМетод потенциальных функций
Метод k ближайших соседей
w(i , u) = [i 6 k].
Преимущества:
менее чувствителен к шуму;
появился параметр k .
Оптимизация числа соседей k:функционал скользящего контроля leave-one-out
LOO(k ,X ℓ) =ℓ∑
i=1
[
a(xi ;X
ℓ\xi, k)6= yi
]
→ mink
.
Проблема:
неоднозначность классификациипри Γy (u,X
ℓ) = Γs(u,Xℓ), y 6= s.
К. В. Воронцов (www.ccas.ru/voron) Метрические методы классификации 7 / 31
Метрические алгоритмы классификацииОтбор эталонов и оптимизация метрики
Профиль компактности и скользящий контроль
Гипотеза компактностиМетод ближайших соседей и его обобщенияСнова метод парзеновского окнаМетод потенциальных функций
Пример зависимости LOO(k)
Пример. Задача UCI: Breast Cancer (Wisconsin)
0 20 40 60 80 100 120 140 160 180 200 220 240 260 280 300 320 340 360 380 400
0
0.01
0.02
0.03
0.04
0.05
0.06
0.07
0.08
0.09
0.10
0.11
0.12
число соседей k
частота ошибок на обучении и контроле (исключая и не исключая себя)
— смещённое число ошибок, когда объект учитывается как сосед самого себя
— несмещённое число ошибок LOO
В реальных задачах минимум редко бывает при k = 1.
К. В. Воронцов (www.ccas.ru/voron) Метрические методы классификации 8 / 31
Метрические алгоритмы классификацииОтбор эталонов и оптимизация метрики
Профиль компактности и скользящий контроль
Гипотеза компактностиМетод ближайших соседей и его обобщенияСнова метод парзеновского окнаМетод потенциальных функций
Метод k взвешенных ближайших соседей
w(i , u) = [i 6 k]wi ,где wi — вес, зависящий только от номера соседа;
Возможные эвристики:wi =
k+1−ik
— линейное убывающие веса;wi = qi — экспоненциально убывающие веса, 0 < q < 1;
Проблемы:
как более обоснованно задать веса?
возможно, было бы лучше, если бы вес w(i , u)зависел не от порядкового номера соседа i ,
а от расстояния до него ρ(u, x(i)u ).
К. В. Воронцов (www.ccas.ru/voron) Метрические методы классификации 9 / 31
Метрические алгоритмы классификацииОтбор эталонов и оптимизация метрики
Профиль компактности и скользящий контроль
Гипотеза компактностиМетод ближайших соседей и его обобщенияСнова метод парзеновского окнаМетод потенциальных функций
Снова метод парзеновского окна
w(i , u) = K(ρ(u,x
(i)u )
h
)
,
где K (r) — ядро, невозрастающее, положительное на [0, 1].
Метод парзеновского окна фиксированной ширины:
a(u;X ℓ, h,K ) = argmaxy∈Y
ℓ∑
i=1
[y(i)u = y ] K
(
ρ(u, x(i)u )
h
)
︸ ︷︷ ︸
w(i ,u)
.
Метод парзеновского окна переменной ширины:
a(u;X ℓ, k ,K ) = argmaxy∈Y
ℓ∑
i=1
[y(i)u = y ] K
(
ρ(u, x(i)u )
ρ(u, x(k+1)u )
)
︸ ︷︷ ︸
w(i ,u)
.
К. В. Воронцов (www.ccas.ru/voron) Метрические методы классификации 10 / 31
Метрические алгоритмы классификацииОтбор эталонов и оптимизация метрики
Профиль компактности и скользящий контроль
Гипотеза компактностиМетод ближайших соседей и его обобщенияСнова метод парзеновского окнаМетод потенциальных функций
Метод парзеновского окна
Пример: классификация двумерной выборки.
-1.5 -1.0 -0.5 0 0.5 1.0 1.5 2.0 2.5 3.0 3.5
-2.0
-1.5
-1.0
-0.5
0
0.5
1.0
1.5
2.0
2.5
3.0
3.5
4.0
К. В. Воронцов (www.ccas.ru/voron) Метрические методы классификации 11 / 31
Метрические алгоритмы классификацииОтбор эталонов и оптимизация метрики
Профиль компактности и скользящий контроль
Гипотеза компактностиМетод ближайших соседей и его обобщенияСнова метод парзеновского окнаМетод потенциальных функций
Метод потенциальных функций
w(i , u) = γ(i)u K
(ρ(u,x
(i)u )
h(i)u
)
Более простая запись:
a(u;X ℓ) = argmaxy∈Y
ℓ∑
i=1
[yi = y ] γi K
(ρ(u, xi )
hi
)
,
где γi — веса объектов, γi > 0, hi > 0.
Физическая аналогия:γi — величина «заряда» в точке xi ;hi — «радиус действия» потенциала с центром в точке xi ;yi — знак «заряда» (предполагается, что Y = −1,+1);в электростатике K (r) = 1
rили 1
r+a.
К. В. Воронцов (www.ccas.ru/voron) Метрические методы классификации 12 / 31
Метрические алгоритмы классификацииОтбор эталонов и оптимизация метрики
Профиль компактности и скользящий контроль
Гипотеза компактностиМетод ближайших соседей и его обобщенияСнова метод парзеновского окнаМетод потенциальных функций
Алгоритм настройки весов объектов
Простой эвристический алгоритм настройки γi .
Вход:X ℓ — обучающая выборка;
Выход:Коэффициенты γi , i = 1, . . . , ℓ;
1: Инициализация: γi = 0 для всех i = 1, . . . , ℓ;2: повторять3: выбрать объект xi ∈ X ℓ;4: если a(xi ) 6= yi то5: γi := γi + 1;6: пока число ошибок на выборке Q(a,X ℓ) > ε.
К. В. Воронцов (www.ccas.ru/voron) Метрические методы классификации 13 / 31
Метрические алгоритмы классификацииОтбор эталонов и оптимизация метрики
Профиль компактности и скользящий контроль
Гипотеза компактностиМетод ближайших соседей и его обобщенияСнова метод парзеновского окнаМетод потенциальных функций
Анализ преимуществ и недостатков
Преимущества:
простота реализации;
не надо хранить выборку (потоковый алгоритм обучения);
разреженность: не все обучающие объекты учитываются.
Недостатки:
медленная сходимость;
результат обучения зависит от порядка просмотра объектов;
слишком грубо настраиваются веса γi ;
вообще не настраиваются параметры hi ;
вообще не настраиваются центры потенциалов;
может, некоторые γi можно было бы обнулить?
Вывод: EM-RBF, конечно, круче...К. В. Воронцов (www.ccas.ru/voron) Метрические методы классификации 14 / 31
Метрические алгоритмы классификацииОтбор эталонов и оптимизация метрики
Профиль компактности и скользящий контроль
Понятие отступаАлгоритм отбора эталонных объектов STOLPПонятие конкурентного сходстваПростой жадный алгоритм оптимизации метрики
Понятие отступа
Рассмотрим классификатор a : X → Y вида
a(u) = argmaxy∈Y
Γy (u), u ∈ X .
Отступом (margin) объекта xi ∈ X ℓ относительноклассификатора a(u) называется величина
M(xi ) = Γyi (xi )− maxy∈Y \yi
Γy (xi ).
Отступ показывает степень типичности объекта:чем больше M(xi ), тем «глубже» xi в своём классе;
M(xi ) < 0 ⇔ a(xi ) 6= yi ;
К. В. Воронцов (www.ccas.ru/voron) Метрические методы классификации 15 / 31
Метрические алгоритмы классификацииОтбор эталонов и оптимизация метрики
Профиль компактности и скользящий контроль
Понятие отступаАлгоритм отбора эталонных объектов STOLPПонятие конкурентного сходстваПростой жадный алгоритм оптимизации метрики
Типы объектов, в зависимости от отступа
Э — эталонные (можно оставить только их);Н — неинформативные (можно удалить из выборки);П — пограничные (их классификация неустойчива);О — ошибочные (причина ошибки — плохая модель);Ш — шумовые (причина ошибки — плохие данные).
0 10 20 30 40 50 60 70 80 90 100 110 120 130 140 150 160 170 180 190 200
-0,6
-0,4
-0,2
0
0,2
0,4
0,6
0,8
i
Margin
! " # $
К. В. Воронцов (www.ccas.ru/voron) Метрические методы классификации 16 / 31
Метрические алгоритмы классификацииОтбор эталонов и оптимизация метрики
Профиль компактности и скользящий контроль
Понятие отступаАлгоритм отбора эталонных объектов STOLPПонятие конкурентного сходстваПростой жадный алгоритм оптимизации метрики
Типы объектов, в зависимости от отступа
эталонные (можно оставить только их);
неинформативные (можно удалить из выборки);
пограничные (их классификация неустойчива);
ошибочные (причина ошибки — плохая модель);
шумовые (причина ошибки — плохие данные).
Идея: шумовые и неинформативные удалить из выборки.
Алгоритм STOLP: основная идея
исключить выбросы;
найти по одному эталону в каждом классе;
добавлять эталоны, пока есть отрицательные отступы;
К. В. Воронцов (www.ccas.ru/voron) Метрические методы классификации 17 / 31
Метрические алгоритмы классификацииОтбор эталонов и оптимизация метрики
Профиль компактности и скользящий контроль
Понятие отступаАлгоритм отбора эталонных объектов STOLPПонятие конкурентного сходстваПростой жадный алгоритм оптимизации метрики
Алгоритм STOLP
Вход:X ℓ — обучающая выборка;δ — порог фильтрации выбросов;ℓ0 — допустимая доля ошибок;
Выход:Множество опорных объектов Ω ⊆ X ℓ;
Классификатор будет иметь вид:
a(u; Ω) = argmaxy∈Y
∑
xi∈Ω
[y(i)u = y
]w(i , u),
x(i)u — i-й сосед объекта u среди Ω;
y(i)u — ответ на i-м соседе объекта u;w(i , u) — произвольная функция веса i-го соседа.
К. В. Воронцов (www.ccas.ru/voron) Метрические методы классификации 18 / 31
Метрические алгоритмы классификацииОтбор эталонов и оптимизация метрики
Профиль компактности и скользящий контроль
Понятие отступаАлгоритм отбора эталонных объектов STOLPПонятие конкурентного сходстваПростой жадный алгоритм оптимизации метрики
Алгоритм STOLP
1: для всех xi ∈ X ℓ проверить, является ли xi выбросом:2: если M(xi ,X
ℓ) < δ то3: X ℓ−1 := X ℓ \ xi; ℓ := ℓ− 1;4: Инициализация: взять по одному эталону от каждого класса:
Ω :=arg max
xi∈X ℓy
M(xi ,Xℓ)∣∣ y ∈ Y
;
5: пока Ω 6= X ℓ;6: Выделить множество объектов с ошибкой a(u; Ω):
E := xi ∈ X ℓ \ Ω : M(xi ,Ω) < 0;7: если |E | < ℓ0 то8: выход;9: Присоединить к Ω объект с наименьшим отступом:
xi := argminx∈E
M(x ,Ω); Ω := Ω ∪ xi;
К. В. Воронцов (www.ccas.ru/voron) Метрические методы классификации 19 / 31
Метрические алгоритмы классификацииОтбор эталонов и оптимизация метрики
Профиль компактности и скользящий контроль
Понятие отступаАлгоритм отбора эталонных объектов STOLPПонятие конкурентного сходстваПростой жадный алгоритм оптимизации метрики
Алгоритм STOLP: преимущества и недостатки
Преимущества отбора эталонов:
сокращается число хранимых объектов;
сокращается время классификации;
объекты распределяются по величине отступов;
Недостатки алгоритма STOLP:
необходимость задавать параметр δ;
относительно низкая эффективность O(|Ω|2ℓ).
Другие методы отбора:
стратегия последовательного удаления не-эталонов;
минимизация полного скользящего контроля (CCV);
FRiS-STOLP на основе оценок конкурентного сходства.
К. В. Воронцов (www.ccas.ru/voron) Метрические методы классификации 20 / 31
Метрические алгоритмы классификацииОтбор эталонов и оптимизация метрики
Профиль компактности и скользящий контроль
Понятие отступаАлгоритм отбора эталонных объектов STOLPПонятие конкурентного сходстваПростой жадный алгоритм оптимизации метрики
Оценка близости i-го объекта к своему классу
Среднее расстояние до k ближайших объектов...ri = r(xi , yi ) — из своего класса;ri = r(xi , yi ) — из всех остальных классов;
Функция конкурентного сходства(function of rival similarity, FRiS-функция)
di =ri − ri
ri + ri≈
+1, объект близок к своим;
0, объект пограничный;
−1, объект близок к чужим;
Назовём di благонадёжностью объекта xi .Как и отступ, di — это характеристика типичности объектаотносительно выборки.Преимущество — di величина безразмерная и нормированная.
К. В. Воронцов (www.ccas.ru/voron) Метрические методы классификации 21 / 31
Метрические алгоритмы классификацииОтбор эталонов и оптимизация метрики
Профиль компактности и скользящий контроль
Понятие отступаАлгоритм отбора эталонных объектов STOLPПонятие конкурентного сходстваПростой жадный алгоритм оптимизации метрики
Благонадёжность выборки
Суммарная благонадёжность выборки характеризует то,насколько функция расстояния ρ подходит для данной задачи
D(ρ) =ℓ∑
i=1
di =ℓ∑
i=1
ri − ri
ri + ri
0 20 40 60 80 100 120 140 160 180 200
-0.6
-0.4
-0.2
0
0.2
0.4
0.6
0.8
i
распределение объектов по благонадёжности di
К. В. Воронцов (www.ccas.ru/voron) Метрические методы классификации 22 / 31
Метрические алгоритмы классификацииОтбор эталонов и оптимизация метрики
Профиль компактности и скользящий контроль
Понятие отступаАлгоритм отбора эталонных объектов STOLPПонятие конкурентного сходстваПростой жадный алгоритм оптимизации метрики
Жадное добавление признаков
1. А вдруг одного признака уже достаточно?Расстояние по j-му признаку: ρj(u, xi ) =
∣∣uj − x
ji
∣∣.
Выберем наиболее благонадёжное расстояние: D(ρj) → maxj
.
2. Пусть уже есть расстояние ρ.Попробуем добавить к нему ещё один признак j .
ρjt(u, xi ) = (1− t) · ρ(u, xi ) + t · ρj(u, xi ).
Найдём t ∈ [0, 1] и признак j , при которых благонадёжностьD(ρjt) максимальна (два вложенных цикла перебора).
3. Будем добавлять признаки до тех пор,пока благонадёжность D(ρjt) увеличивается.
К. В. Воронцов (www.ccas.ru/voron) Метрические методы классификации 23 / 31
Метрические алгоритмы классификацииОтбор эталонов и оптимизация метрики
Профиль компактности и скользящий контроль
Полный скользящий контроль CCVПонятие профиля компактностиОтбор эталонов по функционалу CCV
Полный скользящий контроль CCV
Функционал полного скользящего контроля(complete cross-validation, CCV):
CCV(X L) =1
C ℓL
∑
X ℓ⊔X q
1
q
∑
xi∈X q
[a(xi ,X
ℓ) 6= yi],
где X ℓ ⊔ X q — все C ℓL разбиений выборки X L на обучающую
подвыборку X ℓ и контрольную X q.
Замечание 1. При q = 1 имеем: CCV(X L) = LOO(X L).
Замечание 2. CCV характеризует лишь среднюю частотуошибок, но не учитывает её разброс.
К. В. Воронцов (www.ccas.ru/voron) Метрические методы классификации 24 / 31
Метрические алгоритмы классификацииОтбор эталонов и оптимизация метрики
Профиль компактности и скользящий контроль
Полный скользящий контроль CCVПонятие профиля компактностиОтбор эталонов по функционалу CCV
Понятие профиля компактности
Определение
Профиль компактности выборки X L — это функция доли
объектов xi , у которых m-й сосед x(m)i лежит в другом классе:
K (m,X L) =1
L
L∑
i=1
[yi 6= y
(m)i
]; m = 1, . . . , L− 1,
где x(m)i — m-й сосед объекта xi среди X L;
y(m)i — ответ на m-м соседе объекта xi .
Теорема (точное выражение CCV для метода 1NN)
CCV(X L) =k∑
m=1
K (m,X L)C ℓ−1L−1−m
C ℓL−1
.
К. В. Воронцов (www.ccas.ru/voron) Метрические методы классификации 25 / 31
Метрические алгоритмы классификацииОтбор эталонов и оптимизация метрики
Профиль компактности и скользящий контроль
Полный скользящий контроль CCVПонятие профиля компактностиОтбор эталонов по функционалу CCV
Профили компактности для серии модельных задач
0 0.2 0.4 0.6 0.8 1.0
0
0.2
0.4
0.6
0.8
1.0
0 50 100 150 200
0
0.2
0.4
0.6
0.8
1.0
0 50 100 150 200
0
0.1
0.2
0.3
0.4
0.5
0.6
0 0.2 0.4 0.6 0.8 1.0
0 50 100 150 200
0 50 100 150 200
0 0.2 0.4 0.6 0.8 1.0
0 50 100 150 200
0 50 100 150 200
0 0.2 0.4 0.6 0.8 1.0
0 50 100 150 200
0 50 100 150 200
средний ряд: профили компактности,нижний ряд: зависимость CCV от длины контроля q.
К. В. Воронцов (www.ccas.ru/voron) Метрические методы классификации 26 / 31
Метрические алгоритмы классификацииОтбор эталонов и оптимизация метрики
Профиль компактности и скользящий контроль
Полный скользящий контроль CCVПонятие профиля компактностиОтбор эталонов по функционалу CCV
Свойства профиля компактности и оценки CCVВыводы
K (m,X L) является формальным выражением гипотезыкомпактности, связывая её с качеством классификации.
CCV практически не зависит от длины контроля q.
Для минимизации CCV важен только начальный участок
профиля, т. к.C ℓ−1L−1−m
C ℓ
L−1
→ 0 экспоненциально по m.
Минимизация CCV приводит к эффективному отборуэталонных объектов, без переобучения.
К. В. Воронцов (www.ccas.ru/voron) Метрические методы классификации 27 / 31
Метрические алгоритмы классификацииОтбор эталонов и оптимизация метрики
Профиль компактности и скользящий контроль
Полный скользящий контроль CCVПонятие профиля компактностиОтбор эталонов по функционалу CCV
Модельные данные
8 9 10 11 12 13 14 15 16 17 18
7
8
9
10
11
12
13
Модельная задача классификации: 1000 объектов.Алгоритм 1NN
К. В. Воронцов (www.ccas.ru/voron) Метрические методы классификации 28 / 31
Метрические алгоритмы классификацииОтбор эталонов и оптимизация метрики
Профиль компактности и скользящий контроль
Полный скользящий контроль CCVПонятие профиля компактностиОтбор эталонов по функционалу CCV
Последовательный отсев не-эталонных объектов
эталонные кл.1
шумовые кл.1
неинформативные кл.1
эталонные кл.2
шумовые кл.2
неинформативные кл.2
8 9 10 11 12 13 14 15 16 17 18
7
8
9
10
11
12
13
К. В. Воронцов (www.ccas.ru/voron) Метрические методы классификации 29 / 31
Метрические алгоритмы классификацииОтбор эталонов и оптимизация метрики
Профиль компактности и скользящий контроль
Полный скользящий контроль CCVПонятие профиля компактностиОтбор эталонов по функционалу CCV
Последовательный отсев не-эталонных объектов
функционал CCV на обучении частота ошибок на тесте
[0-60]0 10 20 30 40 50
[980-1000]980 990
0
0.05
0.10
0.15
0.20
0.25
0.30
0.35
0.40
0.45
0.50
Зависимость CCV от числа удаленных неэталонных объектов.
К. В. Воронцов (www.ccas.ru/voron) Метрические методы классификации 30 / 31
Метрические алгоритмы классификацииОтбор эталонов и оптимизация метрики
Профиль компактности и скользящий контроль
Резюме в конце лекции
Метрические классификаторы — одни из самых простых.Качество классификации определяется качеством метрики.
Что можно обучать:— число ближайших соседей k ;— набор эталонов (prototype selection);— как вариант — веса объектов;— метрику (distance learning, similarity learning);— как частный случай — веса признаков.
Распределение отступов делит объекты на эталонные,неинформативные, пограничные, ошибки и выбросы.
Профиль компактности выборки позволяет судить о том,насколько удачно метрика подобрана под задачу.
К. В. Воронцов (www.ccas.ru/voron) Метрические методы классификации 31 / 31