Машинное обучение 1, осень 2015: Линейные модели: compressed...

22
Линейные модели: жатые чувства И. Куралёнок, Н. Поваров Яндекс СПб, 2015 И. Кураленок, Н. Поваров, Яндекс Санкт-Петербург, 2015 Стр. 1 из 20

Transcript of Машинное обучение 1, осень 2015: Линейные модели: compressed...

Линейные модели: жатые чувства

И. Куралёнок, Н. Поваров

Яндекс

СПб, 2015

И. Кураленок, Н. Поваров, Яндекс Санкт-Петербург, 2015 Стр. 1 из 20

План

1 Постановка задачи восстановления сигналаПримерРазложение сигнала в Фурье и постановка в нахождениикоэффициентов

2 LASSO для восстановления сигналаТеорема о качестве восстановленного сигнала (Candes et al.2006)Стабильность решения: RIP, RRfND (Candes et al. 2006)LASSO persistency theorem (Bickel et al., 2009)

И. Кураленок, Н. Поваров, Яндекс Санкт-Петербург, 2015 Стр. 1 из 20

Пример

Сергей Юрьевич любит смотреть телевизор ирассуждать. Есть мнение, что в основном потелевизору "льют воду". Надо понять как часто надообращать внимание на то, что проиходит на экране,чтобы не упустить "нить".

И. Кураленок, Н. Поваров, Яндекс Санкт-Петербург, 2015 Стр. 2 из 20

Пример: постановка задачи

В телевизоре хотят сказать x0 (β∗)

Говорят много (n), но информации там мало (k)

Матрица A (X ) — язык передачи

y 0 (y) — то, что мы видим

⇒ Хотим устроить язык передачи так, чтобы минимизировать количествонаблюдений, для восстановления β как можно ближе к правде β∗Картинка из Tutorial ICML2010 by Irina Rish & Genady Grabarnik

И. Кураленок, Н. Поваров, Яндекс Санкт-Петербург, 2015 Стр. 3 из 20

Restricted isometry property

Пусть A — матрица m × n, 1 ≤ s ≤ n. Если существуетδs , такая что:

(1− δs)‖y‖22 ≤ ‖Asy‖22 ≤ (1 + δs)‖y‖22

для любой подматрицы As , состоящей из s столбцовматрицы A, и ∀y . Тогда матрица A удовлетворяетs-ограниченным изометрическим свойством(s-Restricted Isometry Property).

И. Кураленок, Н. Поваров, Яндекс Санкт-Петербург, 2015 Стр. 4 из 20

Решение точной задачи

Если язык (матрица A) устроен “правильно” (удовлетворяетk-RIP), то решение:

minx :y0=Ax

‖x‖1

восстановит загаданный x0. Или в наших обозначениях:

β∗ = minβ:y=Xβ

‖β‖1

И. Кураленок, Н. Поваров, Яндекс Санкт-Петербург, 2015 Стр. 5 из 20

Сюрприз compressed sensing

y = Xβ + ε

Если компоненты матрицы X независимые, одинаковораспределенные, нормальные, то β можно восстановить точно сбольшой вероятностью:

из O(klog( nk

)) измерений;

решив оптимизацию

argminβ ‖β‖1‖y − Xβ‖ < ε

⇒ где-то мы уже такое видели

И. Кураленок, Н. Поваров, Яндекс Санкт-Петербург, 2015 Стр. 6 из 20

Линейная регрессия vs. восстановлениесигнала

Решают одну и ту же задачуОдни и те же алгоритмыУчиться сложнее:

нету влияния на построение матрицы X ;в частности нет гарантий на свойства матрицы X ;наличие в β большого количество нулей – лишь нашепредположение.

И. Кураленок, Н. Поваров, Яндекс Санкт-Петербург, 2015 Стр. 7 из 20

Постановка в терминах RFP IБудем рассматривать множество возможных наблюдений какось времени, тогда можно рассматривать передачу информациио загаданном β∗ как моделирование сигнала через разложение вФурье. При этом, для простоты, будем считать, что количествовозможных наблюдений совпадает с размерностью вектора β∗, вэтом случае мы можем рассматривать преобразование каклинейную систему DFT:

z = Fβ∗zω =

∑nt=0 βte

−2πiωtn

Возвращаясь к примеру, для Сергея Юрьевича, если он смотрелдо конца, и все хорошо понимал, ситуация выглядит как-то так:

β = F−1Fβ∗ =1nF∗Fβ∗ = β∗

И. Кураленок, Н. Поваров, Яндекс Санкт-Петербург, 2015 Стр. 8 из 20

План

1 Постановка задачи восстановления сигналаПримерРазложение сигнала в Фурье и постановка в нахождениикоэффициентов

2 LASSO для восстановления сигналаТеорема о качестве восстановленного сигнала (Candes et al.2006)Стабильность решения: RIP, RRfND (Candes et al. 2006)LASSO persistency theorem (Bickel et al., 2009)

И. Кураленок, Н. Поваров, Яндекс Санкт-Петербург, 2015 Стр. 8 из 20

Постановка в терминах RFP II

arg minβ ‖β‖1‖y − Xβ‖ < ε

В новых обозначениях:

arg minβ ‖β‖1‖(Fβ)Ω − (Fβ∗)Ω‖ < ε

где Ω — множество моментов наблюдения.

И. Кураленок, Н. Поваров, Яндекс Санкт-Петербург, 2015 Стр. 9 из 20

LASSO для восстановления сигнала

Для начала решим задачу в которой наблюденияточные:

z = (Fβ∗)k , k ∈ Ω

При этом будем решать

arg minβ ‖β‖1(Fβ)k = (Fβ∗)k , k ∈ Ω

с равными размерностями β∗ и Fβ∗. Оказывается, чтоF−1F — RIP. Так что β = β∗.

И. Кураленок, Н. Поваров, Яндекс Санкт-Петербург, 2015 Стр. 10 из 20

Теорема о качестве восстановленногосигнала для RFP

Theorem (Candes et al. (2006))– β ∈ Cn, |i ∈ Zn|β∗i 6= 0| = S

– Ω ⊂ Zn — одно из равновероятных множествфиксированного размера |Ω|

– зафиксируем точность B

⇒ c вероятностью P ≥ 1− O(n−B) мы можем точновосстановить β = β∗, если:

|Ω| ≥ C′

BS log n

где C′

B ' 23(B + 1)

И. Кураленок, Н. Поваров, Яндекс Санкт-Петербург, 2015 Стр. 11 из 20

Выводы из теоремы

Теорема рассказывает о свойствах случайной DFTпроекцииЗагаданный вектор β∗ может быть восстановлен:

с высокой вероятностьюиспользуя LASSOколичество наблюдений пропорционально количествуненулей в “загаданном” сигнале

И. Кураленок, Н. Поваров, Яндекс Санкт-Петербург, 2015 Стр. 12 из 20

Упрощение рандома

В теореме Ω равномерно распределена по всеммножествам фиксированного размера. Такое сложногенерировать. Значительно прощеΩ′

: ∀j ∈ Zn,P(j ∈ Ω) = τ .⇒ Для таких проекций вероятность восстановитьсигнал примерно такая же.

И. Кураленок, Н. Поваров, Яндекс Санкт-Петербург, 2015 Стр. 13 из 20

Стабильно ли решение?Интересны два вида “стабильности”:

стабильность: маленькие изменения в решении при маломизменении в наблюдениях (изменения взагаданном);

робастность: устойчивость к шуму в данных (неточно померялиотлик y).

Если мы уже решили проблему построения T (множествазагаданных ненулей), то решение стабильно:

β = (F∗T ,ΩFT ,Ω)−1F∗T ,Ωy

Из доказательства теоремы о восстановлении сигналаF∗T ,ΩFT ,Ω δE c высокой вероятностью при условии на Ω. Авот с робастностью все сложнее...

И. Кураленок, Н. Поваров, Яндекс Санкт-Петербург, 2015 Стр. 14 из 20

Можно ли как-то подругому построитьX ?

Пока Сергей Юрьевич получал закодированный вФурье сигнал и раскодировал его обратным Фурье. Ачто, если кодировани и раскодирование сигналапроисходит как-то иначе. Положим, что так:

β = Φ−1Φβ∗ = ΨΦβ∗

Будем рассматривать ортонормированные Φ,Ψ

И. Кураленок, Н. Поваров, Яндекс Санкт-Петербург, 2015 Стр. 15 из 20

Когерентность базисов

DefinitionДля пары ортонормированных базисов назовем

µ(Φ,Ψ) =√nmax

i ,j|(φi , ψj)|

когерентностью.

Заметим, что 1 ≤ µ(Φ,Ψ) ≤√n

В случае Фурье получается экстремально хороший случай:µ(DFT , IDFT ) = 1

И. Кураленок, Н. Поваров, Яндекс Санкт-Петербург, 2015 Стр. 16 из 20

Теорема о качестве восстановленногосигнала для произвольных базисов

Theorem (Candes and Romberg (2006))Для фиксированной δ > 0 и β∗ ∈ Rn, |i |β∗i 6= 0| < S . ВыберемΩ точек для наблюдения равномерно из Zn без повторений. Если

|Ω| ≥ Cµ2(Φ,Ψ)S logn

δ

тогда решение LASSO:

β = argminβ∈Rn ‖β‖1(Φβ)Ω = (Ψβ∗)Ω

восстановит β = β∗ с вероятностью 1− δ

И. Кураленок, Н. Поваров, Яндекс Санкт-Петербург, 2015 Стр. 17 из 20

Возвращаемся к случаю шумныхнаблюдений

Воспользовавшись построенной теорией для точныхнаблюдений, введем ряд дополнительных ограничений:

1 Вводим ограничение на модельную матрицу, что она k-RIP

2 В введенных условиях получаем ограничение наробастность в рамках восстановления сигнала

3 Переходим от когерентности к условиям на собственныечисла модельной матрицы

И. Кураленок, Н. Поваров, Яндекс Санкт-Петербург, 2015 Стр. 18 из 20

LASSO persistency theorem

Во введенных условиях оказывается, что (LASSOpersistency theorem, Bickel et al., 2009):

‖β − β∗‖ ≤ O

(√log nm

)

Ура, мы научились измерять смещение β взависимости от условий задачи. К сожалению в оченьжестких условиях.

И. Кураленок, Н. Поваров, Яндекс Санкт-Петербург, 2015 Стр. 19 из 20

Что мы узнали про CS1 Можно ставить задачу по восстановлению сигнала

2 Для решения задачи нам понадобится рандомно выбиратьточки наблюдения

3 Оказывается, что решать подобные задачи нужно тем жесамым LASSO

4 Эффективность решения зависит от того, как построить“язык передачи информации”

5 Одним из самых хороших универсальных языков (cминимально возможной когерентностью) являетсяDFT/IDFT

6 C помощью механизма CS можно доказать устойчивостьрешения LASSO

И. Кураленок, Н. Поваров, Яндекс Санкт-Петербург, 2015 Стр. 20 из 20