PRML§12-連続潜在変数

49
PRML読書会@KMC 12章 連続潜在変数 @taki0313 2011/05/22 PRMl読書会@KMC-12章:連続潜在変数

description

読書会で使ったスライド

Transcript of PRML§12-連続潜在変数

Page 1: PRML§12-連続潜在変数

PRML読書会@KMC

12章 連続潜在変数

@taki0313

2011/05/22

PRMl読書会@KMC-12章:連続潜在変数

Page 2: PRML§12-連続潜在変数

お品書き

♣ 12.1 主成分分析(PCA)

♣ 12.2 確率的主成分分析(PPCA)

♣ 12.3 カーネル主成分分析(kPCA)

♣ 12.4 非線形潜在変数モデル

どうみても主成分分析の章です,ありがt(ry

PRMl読書会@KMC-12章:連続潜在変数

Page 3: PRML§12-連続潜在変数

背景とか,そういう感じのこと

- 主成分分析自体の背景

– データは完全に自由なわけではない低次元の多様体の周辺に存在する

- この章は8章から始まってる潜在変数関係の話の最後です

- 線形ガウスモデル(8.1.4)を利用する

– 主成分分析(PCA)などの定式化が導かれる

PRMl読書会@KMC-12章:連続潜在変数 3/21

Page 4: PRML§12-連続潜在変数

§12.1 主成分分析

- 主成分分析(PCA; Principal Component Analysis) / KL変換

– 機械学習系の研究テーマの柱の1つ– 第4回IBISML研究会では...

確率的主成分分析における自動次元選択について

複数情報源に対する主成分分析

PRMl読書会@KMC-12章:連続潜在変数 4/21

Page 5: PRML§12-連続潜在変数

§12.1 主成分分析

- 主成分分析(PCA; Principal Component Analysis) / KL変換

– 機械学習系の研究テーマの柱の1つ– 第4回IBISML研究会では...

確率的主成分分析における自動次元選択について

複数情報源に対する主成分分析

主部分空間とよばれる低次元の線形空間への写像(直交射影)

x2

x1

xn

xn

u1

- 元の空間 2次元(平面) - D=2

- 部分空間 1次元(直線) - M=1

PRMl読書会@KMC-12章:連続潜在変数 4/21

Page 6: PRML§12-連続潜在変数

§12.1.1 分散最大化による定式化

x2

x1

xn

xn

u1

- 元の空間 2次元(平面) - D=2

- 部分空間 1次元(直線) - M=1

- D>Mで,→の射影

- データをu1方向へ射影する: xn → (u1, xn)

PRMl読書会@KMC-12章:連続潜在変数 5/21

Page 7: PRML§12-連続潜在変数

§12.1.1 分散最大化による定式化

x2

x1

xn

xn

u1

- 元の空間 2次元(平面) - D=2

- 部分空間 1次元(直線) - M=1

- D>Mで,→の射影

- データをu1方向へ射影する: xn → (u1, xn)

平均 (u1, x) = (u1,1N

∑Nn=1 xn)

分散 (u1,Su1),S = 1N

∑nn=1(xn − x)(xn − x)T

PRMl読書会@KMC-12章:連続潜在変数 5/21

Page 8: PRML§12-連続潜在変数

§12.1.1 分散最大化による定式化

x2

x1

xn

xn

u1

- 元の空間 2次元(平面) - D=2

- 部分空間 1次元(直線) - M=1

- D>Mで,→の射影

- データをu1方向へ射影する: xn → (u1, xn)

平均 (u1, x) = (u1,1N

∑Nn=1 xn)

分散 (u1,Su1),S = 1N

∑nn=1(xn − x)(xn − x)T

- 分散の最大化 - 条件は(u1, u1) = 1: 向きだけSu1 = λ1u1 - Sの固有値λ1と固有ベクトルu1分散最大化のためにはλ1は大きい方を選ぶ

PRMl読書会@KMC-12章:連続潜在変数 5/21

Page 9: PRML§12-連続潜在変数

§12.1.2 誤差最小化による定式化

- 正規直交基底 ui, i = 1, 2, ...D より, xn =∑D

i=1αniui(xn, uj) = αnj → xn =

∑Di=1(xn, ui)ui

PRMl読書会@KMC-12章:連続潜在変数 6/21

Page 10: PRML§12-連続潜在変数

§12.1.2 誤差最小化による定式化

- 正規直交基底 ui, i = 1, 2, ...D より, xn =∑D

i=1αniui(xn, uj) = αnj → xn =

∑Di=1(xn, ui)ui

- 次元を削減するためにD次元のうち,M < D次元だけを使うxn → xn =

∑Mi=1 zniui +

∑Di=M+1 biui

歪み度 J = 1N

∑||xn − x ||2 → minimize

zni = (xn, ui) i = 1, ... ,M, bi = (x , ui) i = 1, ... ,M

PRMl読書会@KMC-12章:連続潜在変数 6/21

Page 11: PRML§12-連続潜在変数

§12.1.2 誤差最小化による定式化

- 正規直交基底 ui, i = 1, 2, ...D より, xn =∑D

i=1αniui(xn, uj) = αnj → xn =

∑Di=1(xn, ui)ui

- 次元を削減するためにD次元のうち,M < D次元だけを使うxn → xn =

∑Mi=1 zniui +

∑Di=M+1 biui

歪み度 J = 1N

∑||xn − x ||2 → minimize

zni = (xn, ui) i = 1, ... ,M, bi = (x , ui) i = 1, ... ,M

- xn − xn =∑D

i=M+1(xn − x , ui)uiなので

J = 1N

∑Nn=1

∑Di=M+1(xn, ui)− (x , ui)2 を最小化する

J =∑D

i=M+1(ui , Sui) 変形した§12.1.1の逆を行う → 小さい固有値の方からD-M個

- 小さい固有値の部分は近似しちゃってもいいよ!

PRMl読書会@KMC-12章:連続潜在変数 6/21

Page 12: PRML§12-連続潜在変数

§12.1.1-2 は似たようなことを言ってる

- 上手く近似するために,大きい方から選ぼう

- 近似しても影響ないように,小さい方を切ろう

Mean λ1 = 3.4 · 105

λ2 = 2.8 · 105

λ3 = 2.4 · 105

λ4 = 1.6 · 105

Original M = 1 M = 10 M = 50 M = 250

PRMl読書会@KMC-12章:連続潜在変数 6/21

Page 13: PRML§12-連続潜在変数

§12.1.3 主成分分析の応用

- 誤差最小化の時の式をこねこね

xn = x +∑M

i=1((xn, ui)− (x , ui))ui ← x =∑D

i=1(x , ui)ui

データの圧縮法を表現している (D→M)

PRMl読書会@KMC-12章:連続潜在変数 7/21

Page 14: PRML§12-連続潜在変数

§12.1.3 主成分分析の応用

- 誤差最小化の時の式をこねこね

xn = x +∑M

i=1((xn, ui)− (x , ui))ui ← x =∑D

i=1(x , ui)ui

データの圧縮法を表現している (D→M)

- 簡単な標準化(正規化?) - 平均0,分散1にする

- PCAはより完全な(本格的な)正規化が可能 - 平均0,共分散Iにする白色化(whitening) / 球状化(sphereing)yn = L−

12UT (xn − x)

PRMl読書会@KMC-12章:連続潜在変数 7/21

Page 15: PRML§12-連続潜在変数

§12.1.4 高次元データに対する主成分分析

- データ数NのD次元データをM次元に射影する (M < D)

- (?)N点は高々N − 1次元の線形の部分空間を定義するから...N − 1 < Mはダメ(意味がないらしい)対応する固有値が0になることに対応するらしい(足りない分)固有ベクトルとか求めてO(D3)

PRMl読書会@KMC-12章:連続潜在変数 8/21

Page 16: PRML§12-連続潜在変数

§12.1.4 高次元データに対する主成分分析

- データ数NのD次元データをM次元に射影する (M < D)

- (?)N点は高々N − 1次元の線形の部分空間を定義するから...N − 1 < Mはダメ(意味がないらしい)対応する固有値が0になることに対応するらしい(足りない分)固有ベクトルとか求めてO(D3)

- XT =((x1 − x) (x2 − x) ... (xN − x)

): NxD行列

S = 1NX

TX→ 1

NXTXui = λiui, i = 1, 2, ...

→ 1NXX

T (Xui) = λ(Xui), vi = Xuiとする→ 1

NXXTvi = λivi

- 元の共分散行列と同じ固有値λiを持ち,D → N, O(N3)

PRMl読書会@KMC-12章:連続潜在変数 8/21

Page 17: PRML§12-連続潜在変数

§12.1.3-4. 応用とか

- 可視化への応用

2 4 6

40

50

60

70

80

90

100

−2 0 2

−2

0

2

−2 0 2

−2

0

2

−5 0 5−2

−1.5

−1

−0.5

0

0.5

1

1.5

PRMl読書会@KMC-12章:連続潜在変数 8/21

Page 18: PRML§12-連続潜在変数

§12.2 確率的主成分分析(1)

- 主成分分析 x ベイズ = 確率的主成分分析(PPCA)

制約付きのガウス分布に基づく確率的取り扱いをするので,ベイズの定理/EM法が使える生成モデルとして利用できるその他にもいいこといっぱい(?)

- データ→主成分を探す 裏に隠れ変数がある→データ

p(z) = N (z | 0, I )p(x |z) = N (x |Wz + µ,σ2I )§8.1.4: 線形ガウスモデルの例(全部ガウス!)周辺確率 p(x) =

∫p(x |z)p(z)dz

PRMl読書会@KMC-12章:連続潜在変数 9/21

Page 19: PRML§12-連続潜在変数

§12.2 確率的主成分分析(2)

- 生成モデル的な扱い1. 潜在変数の値zを一つ選ぶ2. zで条件付けしつつ,観測変数xをサンプリングする3. D次元観測変数x-M次元潜在変数z+線形変換+ノイズ

z

p(z)

z

x2

x1

µ

p(x|z)

z|w|

wx2

x1

µ

p(x)

- N (x |Wz + µ,σ2I ), p(x)の等高線

PRMl読書会@KMC-12章:連続潜在変数 10/21

Page 20: PRML§12-連続潜在変数

§12.2 確率的主成分分析(2)

- 生成モデル的な扱い1. 潜在変数の値zを一つ選ぶ2. zで条件付けしつつ,観測変数xをサンプリングする3. D次元観測変数x-M次元潜在変数z+線形変換+ノイズ

- 設定: 裏に主成分(に対応する隠れ変数があるんじゃね?)

p(z) = N (z | 0, I ), p(x |z) = N (x |Wz + µ,σ2I )p(x) =

∫p(x |z)p(z)dz, これらをごにょごにょして処理する

- ガウス分布同士の積なので - E[x ] = µ,Cov[x ] = WW T + σ2I

- 生成モデルから考えて x = Wz + µ + ϵ → 計算でも同じ

- p291. 直感的には... → 意味不明

PRMl読書会@KMC-12章:連続潜在変数 10/21

Page 21: PRML§12-連続潜在変数

§12.2 確率的主成分分析(2)

- 設定: 裏に主成分(に対応する隠れ変数があるんじゃね?)

p(z) = N (z | 0, I )p(x |z) = N (x |Wz + µ,σ2I )p(x) =

∫p(x |z)p(z)dz = N (x | µ,C )

E[x ] = µCov[x ] = WW T + σ2I

- Wは直交行列Rに関して回転不変(冗長) - W = WRWW T = WW T,

- 逆行列 C−1 = σ−2I − σ−2WM−1W T ,M = W TW + σ2I

- 事後分布p(z | x) = N (z | M−1W T (x − µ),σ2M−1)

PRMl読書会@KMC-12章:連続潜在変数 10/21

Page 22: PRML§12-連続潜在変数

§12.2.1 最尤法による主成分分析

- 例によってデータの集合X = x1, ... , xN + 最尤法

ln p(X | µ,W ,σ2) =

N∑i=1

ln p(xn |W ,µ,σ2)

= −ND2

ln(2π)− N

2ln |C | − 1

2

D∑n=1

(xn − µ)C−1(xn − µ)T

- µでの微分=0より,µ = xになる - 今までのガウス分布の推定と同じ

ln p(X | µ,W ,σ2) = −N2D ln(2π) + ln |C | + Tr (C−1S)

- σ,Wについてはもっと複雑

PRMl読書会@KMC-12章:連続潜在変数 11/21

Page 23: PRML§12-連続潜在変数

§12.2.1 最尤法による主成分分析

- WML = UM(LM − σ2I )1/2R

Rは直交行列,UMはDxM行列-列ベクトルがSの固有ベクトルLM対応する固有値の対角行列M個の固有ベクトルを上位M個取ってくると(尤度)最大化されるこのときWが通常の主成分分析の主部分空間を成す

(√λ1 − σ2u1

)(u1 u2

)(√λ1 − σ2 00

√λ2 − σ2

)=

(√λ1 − σ2u1 0

0√λ2 − σ2u2

)

PRMl読書会@KMC-12章:連続潜在変数 11/21

Page 24: PRML§12-連続潜在変数

§12.2.1 最尤法による主成分分析

- σ2ML =

1D−M

∑Di=M+1 λi

下位の切り捨てられた分の分散を表す

- 主成分分析は固有ベクトルの方向に分散λiを与えるλi − σ2: 潜在変数空間の分布→Wの空間へ射影するσ2: ノイズ

- お話略

PRMl読書会@KMC-12章:連続潜在変数 11/21

Page 25: PRML§12-連続潜在変数

§12.2.1 最尤法による主成分分析

- 共分散行列: C = WW T + σ2I

- (v , v ) = 1の向きを考える(v , v ) = 1の向きには,分散λi = (v ,Cv )を与えるvは主部分空間以外の固有ベクトルの一次結合とする(v ,U) = 0 → (v ,Cv ) = σ2

主部分空間に直交する方向でのノイズ

- v = uiを考える - (v ,Cv ) = λi − σ2 + σ2 = λi

PRMl読書会@KMC-12章:連続潜在変数 11/21

Page 26: PRML§12-連続潜在変数

§12.2.1 最尤法による主成分分析

- 最尤法によるモデルの構築の手法共分散行列の固有値と固有ベクトルを利用する→W ,σ2を求める

- 仮にM = Dのとき(圧縮しないとき)UM = U, LM = L, C = S

- PCAの定式化とPPCAの定式化は結局同じようなもんp(z |x)の方向で圧縮操作を考えるE[z |x ] = M−1W T

ML(x − x), M = W TW + σ2Iσ2 → 0のとき(W T

MLWML)−1W T

ML(x − x)主部分空間への射影になるらしい(演習12.11)

- パラメータ数について

PRMl読書会@KMC-12章:連続潜在変数 11/21

Page 27: PRML§12-連続潜在変数

§12.2.2 EMアルゴリズムによる主成分分析

- EM法の扱い(完全データと不完全データ...)ln p(X ,Z |µ,W ,σ2) =

∑Nn=1ln p(xn|zn) + ln p(zn)

p(xn|zn)とp(zn)を実際に代入してガリガリ...式ぇ...

- Eステップ - 古いパラメータで期待値を計算E[zn] = M−1W T (xn − x)E[znz

Tn ] = σ2M−1 + E[zn]E[zn]

T

- Mステップ - 最大化する(C.24 とかいろいろ使うらしい)Wnew = [

∑(xn − x)E[zn]

T ][∑

E[znzTn ]]

−1

σ2ML ぇ...

PRMl読書会@KMC-12章:連続潜在変数 12/21

Page 28: PRML§12-連続潜在変数

§12.2.2 EMアルゴリズムによる主成分分析

- EM法の利点がそのまま適応される - 反復処理

- 実は計算効率が良く,σ2 → 0のとき,処理が簡単化

E[znzTn ]の計算が不要, データ行列X,Ω =

(... E[zn] ...

)Eステップ: Ω = (W T

oldWold)−1W T

oldXT

Mステップ: Wnew = XTΩT (ΩΩT )−1

PRMl読書会@KMC-12章:連続潜在変数 13/21

Page 29: PRML§12-連続潜在変数

§12.2.2 EMアルゴリズムによる主成分分析

1. 完全データの対数尤度を書き下した2. 古いパラメータの値で潜在変数の事後分布の期待値を求める3. 完全データに対する期待対数尤度の最大化→パラメータ

(a)

−2 0 2

−2

0

2 (b)

−2 0 2

−2

0

2 (c)

−2 0 2

−2

0

2

(d)

−2 0 2

−2

0

2 (e)

−2 0 2

−2

0

2 (f)

−2 0 2

−2

0

2

PRMl読書会@KMC-12章:連続潜在変数 13/21

Page 30: PRML§12-連続潜在変数

§12.2.2 EMアルゴリズムによる主成分分析(a)

−2 0 2

−2

0

2 (b)

−2 0 2

−2

0

2 (c)

−2 0 2

−2

0

2

(d)

−2 0 2

−2

0

2 (e)

−2 0 2

−2

0

2 (f)

−2 0 2

−2

0

2

バネの一端を各データ点に固定し,他点を主部分空間に付ける

Eステップ: 棒を固定して,ばねの取り付け点をずらしエネルギーの最小化

Mステップ: ばねを固定し,棒をエネルギー最低の状態に動くようにする

PRMl読書会@KMC-12章:連続潜在変数 13/21

Page 31: PRML§12-連続潜在変数

§12.2.3 ベイズ的主成分分析

- 今まではMを決めてた可視化ならM=2だし,固有値がはっきり分かれるならそのあたり

- ベイズ的取り扱いをしたのでMが決まるはずだ例えば交差確認法ベイズ的取り扱いでモデル選択する

- モデルのパラメータµ,W ,σ2を消す → 難しい

- エビデンス近似に基づく手法Wの列ベクトルにパラメータαiを入れるαiの値を周辺尤度関数の最大化で見い出す有限のαiの数が有効な主部分空間の次元

PRMl読書会@KMC-12章:連続潜在変数 14/21

Page 32: PRML§12-連続潜在変数

§12.2.3 ベイズ的主成分分析

- 通常の確率的主成分分析との比較

10次元データのうち,3次元が他の7次元より大きい分散を持つ

左: 普通の確率的主成分分析 + 最尤解

右: ハイパーパラメータを入れたベイズ的主成分分析

PRMl読書会@KMC-12章:連続潜在変数 14/21

Page 33: PRML§12-連続潜在変数

§12.2.3 ベイズ的主成分分析

- ベイズ的主成分分析 + ギブスサンプリング

0

5

10

0

5

10

0

5

10

D=4→M=3.データはある1方向だけ大きい分散を持つ

lnαiのプロット.1つだけ有限の小さい値を持つ.

PRMl読書会@KMC-12章:連続潜在変数 14/21

Page 34: PRML§12-連続潜在変数

§12.2.4 因子分析

- 観測変数xの条件付き分布の共分散が非等方的で対角的Ψ

- p(x |z) = N (x |Wz + µ,Ψ)

Ψ: 観測変数の座標毎に独立な分散を表現Wの列ベクトルに変数間の共分散が入っている

- このときp(x) = N (x |µ,C ),C = WW T + Ψ

- 閉じた解にならないので反復的に解く...

Eステップ & Mステップ(略)個人的に思うこと→EM法をPPCAに導入しておくと似た枠組みで因子分析と一緒に扱える(形も似てるし)いろんな所にベイズの取り扱いを入れるのはそれらの分野の道具で無理矢理解くためだということか

PRMl読書会@KMC-12章:連続潜在変数 15/21

Page 35: PRML§12-連続潜在変数

§12.3 カーネル主成分分析

- 主成分分析 x カーネル関数 = カーネル主成分分析(kPCA)

- データxnは最初から中心化されてるとする - S = 1N

∑Nn=1 xnx

Tn

- xnを特徴空間へ射影してϕ(xn)とする - C = 1N

∑Nn=1 ϕ(xn)ϕ(xn)

T

x1

x2

ϕ2

ϕ1v1

PRMl読書会@KMC-12章:連続潜在変数 16/21

Page 36: PRML§12-連続潜在変数

§12.3 カーネル主成分分析

- Cの固有値...を,Sと同じように行っていく

Cvi = λivi より 1N

∑Nn=1 ϕ(xn)(ϕ(xn), vi) = λivi

よってλi > 0を仮定して vi =∑N

n=1 ainϕ(xn)

- viの展開を固有ベクトルの方程式に戻す1N

∑Nn=1 ϕ(xn)ϕ(xn)

T∑N

n=1 ainϕ(xn) = λi

∑Nn=1 ainϕ(xn)

- 1N

∑Nn=1 ϕ(xn)ϕ(xn)

T∑N

n=1 ainϕ(xn) = λi

∑Nn=1 ainϕ(xn)

- 両辺にϕ(xl)Tを掛け,カーネル関数k(xn, xm) = (ϕ(xn),ϕ(xm))を使う

1N

∑Kn=1 k(xl , xn)

∑Nm=1 aimk(xn, xm) = λi

∑Nn=1 aink(xl , xn)

- 行列表記らしい: K 2ai = λiNKai

PRMl読書会@KMC-12章:連続潜在変数 16/21

Page 37: PRML§12-連続潜在変数

§12.3 カーネル主成分分析

- 行列表記らしい: K 2ai = λiNKai

aiは次元列ベクトル, 各要素ain.Kai = λiNaiの固有方程式を解く規格化条件: 1 = (vi , vi) =

∑Nn=1

∑Nm=1 ainaim(ϕ(xn),ϕ(xm))

= (ai ,Kai) = λiN(ai , ai)

- 点xの固有ベクトルiの上への射影 - カーネル関数で求まる

yi(x) = (ϕ(x), vi) =∑N

n=1 aink(x , xn)

カーネル主成分分析 NxN行列Kの固有値分解

カーネル法のアイデア (xi , xj) 7→ (ϕ(xi),ϕ(xj))

PRMl読書会@KMC-12章:連続潜在変数 16/21

Page 38: PRML§12-連続潜在変数

§12.3 カーネル主成分分析

- 補足: 写像されたデータ集合ϕ(xn)の平均が0ではない平均を引く(中心化?)の操作もϕ, kを使って定式化したい

- ϕ(xn) = ϕ(xn)− 1N

∑Nl=1 ϕ(xl)

- ˜Knm = (ϕ(xn), ϕ(xm))...

- K = K − 1NK − K1N + 1NK1N

1Nはすべての要素が 1Nである行列

- 通常の主成分分析(PCA)はk(xn, xm) = (xn, xm)で再現

PRMl読書会@KMC-12章:連続潜在変数 16/21

Page 39: PRML§12-連続潜在変数

§12.3 カーネル主成分分析

PRMl読書会@KMC-12章:連続潜在変数 16/21

Page 40: PRML§12-連続潜在変数

§12.4 非線形潜在変数モデル

- §12.1-12.3 線形ガウス分布に基づくモデル

- §12.4 非ガウス的 or 非線形 or その両方に拡張する

- 非ガウス と 非線形の関係ガウス分布 + 非線形の変数変換 → 一般的な分布 らしい

- ここからお話だけだよ

PRMl読書会@KMC-12章:連続潜在変数 17/21

Page 41: PRML§12-連続潜在変数

§12.4.1 独立成分分析

- 独立成分分析(ICA; Independent Component Analysis)潜在変数の分布がp(z) =

∏Mj=1 p(zj)に分解されてる

e.g. 未知音源分離

- (線形の)主成分分析,因子分析では回転不変性がある

W = WRと回転させても同じ結果になる分離とかできないし…

PRMl読書会@KMC-12章:連続潜在変数 18/21

Page 42: PRML§12-連続潜在変数

§12.4.2 自己連想ニューラルネットワーク

- D個の入出力ユニット,M個の隠れユニットの多層パーセプトロン

x1

xD

z1

zM

x1

xD

inputs outputs

- 自分自身に写像しようとする自己連想写像

- D > Mなので,一般には完全に再現できないから…E (w ) = 1

2

∑Nn=1 ||y (xn,w )− xn||2を最小化

PRMl読書会@KMC-12章:連続潜在変数 19/21

Page 43: PRML§12-連続潜在変数

§12.4.2 自己連想ニューラルネットワーク

- 隠れユニットが線形の活性化関数を持つとき大局的な最適化を持ち,主成分分析と一致する

- 非線形の隠れユニットを使っても一緒

- 追加の隠れ層が使える場合

x1

xD

x1

xD

inputs outputs

F1 F2

non-linear

PRMl読書会@KMC-12章:連続潜在変数 19/21

Page 44: PRML§12-連続潜在変数

§12.4.2 自己連想ニューラルネットワーク

- 追加の隠れ層が使える場合: 2つの写像F1,F2の適用と見る

- D次元→M次元部分空間への写像 & M次元部分空間→D次元

x1

x2

x3

x1

x2

x3

z1

z2F1

F2

S

- 非線形の主成分分析を行える

- 誤差関数の最小化問題に変わる

PRMl読書会@KMC-12章:連続潜在変数 19/21

Page 45: PRML§12-連続潜在変数

§12.4.3 非線形多様体のモデル化

- 高次元データはより低次の非線形多様体に対応する要するにたくさんの次元の数ほど自由度がない

1. 区分線形近似を組合せた多様体の表現各部分で共通のコスト関数の最適化しつつ処理

2. 確率的主成分分析を混合する + EM

3. ベイズ的主成分分析 + 変分推論

4. 線形モデル→非線形モデル通常のPCA(線形部分空間)→非線形の曲面上に射影主成分曲線,主成分曲面,主成分超曲面… → むずい

PRMl読書会@KMC-12章:連続潜在変数 20/21

Page 46: PRML§12-連続潜在変数

§12.4.3 非線形多様体のモデル化

- 可視化手法としてのPCA多次元尺度構成法(MDS)-- 2個のデータ点間の距離をなるべく保存するように距離行列の固有ベクトルを求めることで低次元射影を見出す非計量多次元尺度構成法(nonmetric MDS)-- 距離行列→類似度行列

- ノンパラメトリックな次元削減と可視化局所線形埋め込み(LLE)等長特徴写像(isomap)

PRMl読書会@KMC-12章:連続潜在変数 20/21

Page 47: PRML§12-連続潜在変数

§12.4.3 非線形多様体のモデル化

- 潜在特性モデル潜在変数が連続,観測変数が離散の場合上手く周辺化できなくなって,対策が必要らしい

- 密度ネットワークガウス分布+非線形変換で任意の分布を構成できる性質非線形性 ∼ 多層ニューラルネットワーク潜在変数の周辺化ができない ∼ サンプリング

- 非線形関数の制限+潜在変数の分布を適切に選択学習効率と非線形性を両立するGTM 格子状に配置された有限個のデルタ関数で定義される潜在変数の分布を用いる.非線形写像は線形回帰モデル.

PRMl読書会@KMC-12章:連続潜在変数 20/21

Page 48: PRML§12-連続潜在変数

§12.4.3 非線形多様体のモデル化

- PCAによる可視化(左) / GTMによる可視化(右)

- GTMは自己組織化マップ(SOM)の確率化版

PRMl読書会@KMC-12章:連続潜在変数 20/21

Page 49: PRML§12-連続潜在変数

まとめ

- §12.1 PCAは主部分空間への写像: データ→部分空間

- §12.2 PPCAによる確率的な扱い潜在変数→データ尤度,EM法などが応用できる

- §12.3 kPCA - (x , y ) 7→ (ϕ(x),ϕ(y ))

- §12.4 いろいろ話題がありますね(棒

まだまだ最新の研究がされてます(おわり)

PRMl読書会@KMC-12章:連続潜在変数 21/21