Машинное обучение 1, осень 2015: Линейные модели: compressed...
Transcript of Машинное обучение 1, осень 2015: Линейные модели: compressed...
Линейные модели: жатые чувства
И. Куралёнок, Н. Поваров
Яндекс
СПб, 2015
И. Кураленок, Н. Поваров, Яндекс Санкт-Петербург, 2015 Стр. 1 из 20
План
1 Постановка задачи восстановления сигналаПримерРазложение сигнала в Фурье и постановка в нахождениикоэффициентов
2 LASSO для восстановления сигналаТеорема о качестве восстановленного сигнала (Candes et al.2006)Стабильность решения: RIP, RRfND (Candes et al. 2006)LASSO persistency theorem (Bickel et al., 2009)
И. Кураленок, Н. Поваров, Яндекс Санкт-Петербург, 2015 Стр. 1 из 20
Пример
Сергей Юрьевич любит смотреть телевизор ирассуждать. Есть мнение, что в основном потелевизору "льют воду". Надо понять как часто надообращать внимание на то, что проиходит на экране,чтобы не упустить "нить".
И. Кураленок, Н. Поваров, Яндекс Санкт-Петербург, 2015 Стр. 2 из 20
Пример: постановка задачи
В телевизоре хотят сказать x0 (β∗)
Говорят много (n), но информации там мало (k)
Матрица A (X ) — язык передачи
y 0 (y) — то, что мы видим
⇒ Хотим устроить язык передачи так, чтобы минимизировать количествонаблюдений, для восстановления β как можно ближе к правде β∗Картинка из Tutorial ICML2010 by Irina Rish & Genady Grabarnik
И. Кураленок, Н. Поваров, Яндекс Санкт-Петербург, 2015 Стр. 3 из 20
Restricted isometry property
Пусть A — матрица m × n, 1 ≤ s ≤ n. Если существуетδs , такая что:
(1− δs)‖y‖22 ≤ ‖Asy‖22 ≤ (1 + δs)‖y‖22
для любой подматрицы As , состоящей из s столбцовматрицы A, и ∀y . Тогда матрица A удовлетворяетs-ограниченным изометрическим свойством(s-Restricted Isometry Property).
И. Кураленок, Н. Поваров, Яндекс Санкт-Петербург, 2015 Стр. 4 из 20
Решение точной задачи
Если язык (матрица A) устроен “правильно” (удовлетворяетk-RIP), то решение:
minx :y0=Ax
‖x‖1
восстановит загаданный x0. Или в наших обозначениях:
β∗ = minβ:y=Xβ
‖β‖1
И. Кураленок, Н. Поваров, Яндекс Санкт-Петербург, 2015 Стр. 5 из 20
Сюрприз compressed sensing
y = Xβ + ε
Если компоненты матрицы X независимые, одинаковораспределенные, нормальные, то β можно восстановить точно сбольшой вероятностью:
из O(klog( nk
)) измерений;
решив оптимизацию
argminβ ‖β‖1‖y − Xβ‖ < ε
⇒ где-то мы уже такое видели
И. Кураленок, Н. Поваров, Яндекс Санкт-Петербург, 2015 Стр. 6 из 20
Линейная регрессия vs. восстановлениесигнала
Решают одну и ту же задачуОдни и те же алгоритмыУчиться сложнее:
нету влияния на построение матрицы X ;в частности нет гарантий на свойства матрицы X ;наличие в β большого количество нулей – лишь нашепредположение.
И. Кураленок, Н. Поваров, Яндекс Санкт-Петербург, 2015 Стр. 7 из 20
Постановка в терминах RFP IБудем рассматривать множество возможных наблюдений какось времени, тогда можно рассматривать передачу информациио загаданном β∗ как моделирование сигнала через разложение вФурье. При этом, для простоты, будем считать, что количествовозможных наблюдений совпадает с размерностью вектора β∗, вэтом случае мы можем рассматривать преобразование каклинейную систему DFT:
z = Fβ∗zω =
∑nt=0 βte
−2πiωtn
Возвращаясь к примеру, для Сергея Юрьевича, если он смотрелдо конца, и все хорошо понимал, ситуация выглядит как-то так:
β = F−1Fβ∗ =1nF∗Fβ∗ = β∗
И. Кураленок, Н. Поваров, Яндекс Санкт-Петербург, 2015 Стр. 8 из 20
План
1 Постановка задачи восстановления сигналаПримерРазложение сигнала в Фурье и постановка в нахождениикоэффициентов
2 LASSO для восстановления сигналаТеорема о качестве восстановленного сигнала (Candes et al.2006)Стабильность решения: RIP, RRfND (Candes et al. 2006)LASSO persistency theorem (Bickel et al., 2009)
И. Кураленок, Н. Поваров, Яндекс Санкт-Петербург, 2015 Стр. 8 из 20
Постановка в терминах RFP II
arg minβ ‖β‖1‖y − Xβ‖ < ε
В новых обозначениях:
arg minβ ‖β‖1‖(Fβ)Ω − (Fβ∗)Ω‖ < ε
где Ω — множество моментов наблюдения.
И. Кураленок, Н. Поваров, Яндекс Санкт-Петербург, 2015 Стр. 9 из 20
LASSO для восстановления сигнала
Для начала решим задачу в которой наблюденияточные:
z = (Fβ∗)k , k ∈ Ω
При этом будем решать
arg minβ ‖β‖1(Fβ)k = (Fβ∗)k , k ∈ Ω
с равными размерностями β∗ и Fβ∗. Оказывается, чтоF−1F — RIP. Так что β = β∗.
И. Кураленок, Н. Поваров, Яндекс Санкт-Петербург, 2015 Стр. 10 из 20
Теорема о качестве восстановленногосигнала для RFP
Theorem (Candes et al. (2006))– β ∈ Cn, |i ∈ Zn|β∗i 6= 0| = S
– Ω ⊂ Zn — одно из равновероятных множествфиксированного размера |Ω|
– зафиксируем точность B
⇒ c вероятностью P ≥ 1− O(n−B) мы можем точновосстановить β = β∗, если:
|Ω| ≥ C′
BS log n
где C′
B ' 23(B + 1)
И. Кураленок, Н. Поваров, Яндекс Санкт-Петербург, 2015 Стр. 11 из 20
Выводы из теоремы
Теорема рассказывает о свойствах случайной DFTпроекцииЗагаданный вектор β∗ может быть восстановлен:
с высокой вероятностьюиспользуя LASSOколичество наблюдений пропорционально количествуненулей в “загаданном” сигнале
И. Кураленок, Н. Поваров, Яндекс Санкт-Петербург, 2015 Стр. 12 из 20
Упрощение рандома
В теореме Ω равномерно распределена по всеммножествам фиксированного размера. Такое сложногенерировать. Значительно прощеΩ′
: ∀j ∈ Zn,P(j ∈ Ω) = τ .⇒ Для таких проекций вероятность восстановитьсигнал примерно такая же.
И. Кураленок, Н. Поваров, Яндекс Санкт-Петербург, 2015 Стр. 13 из 20
Стабильно ли решение?Интересны два вида “стабильности”:
стабильность: маленькие изменения в решении при маломизменении в наблюдениях (изменения взагаданном);
робастность: устойчивость к шуму в данных (неточно померялиотлик y).
Если мы уже решили проблему построения T (множествазагаданных ненулей), то решение стабильно:
β = (F∗T ,ΩFT ,Ω)−1F∗T ,Ωy
Из доказательства теоремы о восстановлении сигналаF∗T ,ΩFT ,Ω δE c высокой вероятностью при условии на Ω. Авот с робастностью все сложнее...
И. Кураленок, Н. Поваров, Яндекс Санкт-Петербург, 2015 Стр. 14 из 20
Можно ли как-то подругому построитьX ?
Пока Сергей Юрьевич получал закодированный вФурье сигнал и раскодировал его обратным Фурье. Ачто, если кодировани и раскодирование сигналапроисходит как-то иначе. Положим, что так:
β = Φ−1Φβ∗ = ΨΦβ∗
Будем рассматривать ортонормированные Φ,Ψ
И. Кураленок, Н. Поваров, Яндекс Санкт-Петербург, 2015 Стр. 15 из 20
Когерентность базисов
DefinitionДля пары ортонормированных базисов назовем
µ(Φ,Ψ) =√nmax
i ,j|(φi , ψj)|
когерентностью.
Заметим, что 1 ≤ µ(Φ,Ψ) ≤√n
В случае Фурье получается экстремально хороший случай:µ(DFT , IDFT ) = 1
И. Кураленок, Н. Поваров, Яндекс Санкт-Петербург, 2015 Стр. 16 из 20
Теорема о качестве восстановленногосигнала для произвольных базисов
Theorem (Candes and Romberg (2006))Для фиксированной δ > 0 и β∗ ∈ Rn, |i |β∗i 6= 0| < S . ВыберемΩ точек для наблюдения равномерно из Zn без повторений. Если
|Ω| ≥ Cµ2(Φ,Ψ)S logn
δ
тогда решение LASSO:
β = argminβ∈Rn ‖β‖1(Φβ)Ω = (Ψβ∗)Ω
восстановит β = β∗ с вероятностью 1− δ
И. Кураленок, Н. Поваров, Яндекс Санкт-Петербург, 2015 Стр. 17 из 20
Возвращаемся к случаю шумныхнаблюдений
Воспользовавшись построенной теорией для точныхнаблюдений, введем ряд дополнительных ограничений:
1 Вводим ограничение на модельную матрицу, что она k-RIP
2 В введенных условиях получаем ограничение наробастность в рамках восстановления сигнала
3 Переходим от когерентности к условиям на собственныечисла модельной матрицы
И. Кураленок, Н. Поваров, Яндекс Санкт-Петербург, 2015 Стр. 18 из 20
LASSO persistency theorem
Во введенных условиях оказывается, что (LASSOpersistency theorem, Bickel et al., 2009):
‖β − β∗‖ ≤ O
(√log nm
)
Ура, мы научились измерять смещение β взависимости от условий задачи. К сожалению в оченьжестких условиях.
И. Кураленок, Н. Поваров, Яндекс Санкт-Петербург, 2015 Стр. 19 из 20
Что мы узнали про CS1 Можно ставить задачу по восстановлению сигнала
2 Для решения задачи нам понадобится рандомно выбиратьточки наблюдения
3 Оказывается, что решать подобные задачи нужно тем жесамым LASSO
4 Эффективность решения зависит от того, как построить“язык передачи информации”
5 Одним из самых хороших универсальных языков (cминимально возможной когерентностью) являетсяDFT/IDFT
6 C помощью механизма CS можно доказать устойчивостьрешения LASSO
И. Кураленок, Н. Поваров, Яндекс Санкт-Петербург, 2015 Стр. 20 из 20