統計的学習の基礎6章前半 #カステラ本

統計的学習の基礎:6-1~6-4カーネル平滑化法

@siero533520161004@Yahoo!

統計的学習の基礎読書会#1

カーネル平滑化?

領域Rp上で回帰関数f(X)を柔軟に推定できるよう、着目する点x0に近い観測点だけを使って、f^(X)がRp上で滑らかになるようにモデルを作る（局所的に上手く当てはまるようにする）。


領域Rp上で回帰関数f(X)を柔軟に推定できるよう、着目する点x0に近い観測点だけを使って、f^(X)がRp上で滑らかになるようにモデルを作る（局所的に上手く当てはまるようにする）。観測点xiにｘ0からの距離に基づく重みを付与する重み関数であるカーネル Kλ(x0,xi)を介して局所重み付けが実現される。トレーニングはほぼ不要。訓練データから決めるパラメータはλだけ。


領域Rp上で回帰関数f(X)を柔軟に推定できるよう、着目する点x0に近い観測点だけを使って、f^(X)がRp上で滑らかになるようにモデルを作る（局所的に上手く当てはまるようにする）。観測点xiにｘ0からの距離に基づく重みを付与する重み関数であるカーネル Kλ(x0,xi)を介して局所重み付けが実現される。トレーニングはほぼ不要。訓練データから決めるパラメータはλだけ。この章でのカーネルは局所回帰に特化したもので、サポートベクターマシンみたいな高次元特徴空間での内積を計算するカーネルとはちょっと違う（関係はしている？→7章で詳細)


領域Rp上で回帰関数f(X)を柔軟に推定できるよう、着目する点x0に近い観測点だけを使って、f^(X)がRp上で滑らかになるようにモデルを作る（局所的に上手く当てはまるようにする）。観測点xiにｘ0からの距離に基づく重みを付与する重み関数であるカーネル Kλ(x0,xi)を介して局所重み付けが実現される。トレーニングはほぼ不要。訓練データから決めるパラメータはλだけ。この章でのカーネルは局所回帰に特化したもので、サポートベクターマシンみたいな高次元特徴空間での内積を計算するカーネルとはちょっと違う（関係はしている？→7章で詳細)こんなのがどこかにあったような？

1次元カーネル平滑化手法(KNNカーネル)着目する点x0に近い観測点だけを使って、f^(X)がRp上で滑らかになるようにモデルを作る。→2章のKNN:f^(X)=Ave(yi|xi∈Nk(x))を推定値にした場合

近傍カーネルではf^(x)がｘにおいて不連続なので予測値が波打っている

拡大

1次元カーネル平滑化手法

予測値が波打つような不連続なのは見栄えが良くないので避けたい→近傍に含まれる全ての点に対し、等しく重みをつけているのがよくない→着目点からの距離に応じて重みが減少すれば良い感じになるナダラヤ=ワトソン重み付きカーネル


ナダラヤ=ワトソン重み付きカーネル今回はカーネルKλ(x0,xi)にイパネクニコフ2次カーネルを使う

! = !!(!! , !!)!!!!!!

!!(!! , !!)!!!!

D(t)=

34 1− !! ! ≤ 1��

0その他の場合

!! !! , ! = ! !− !!λ

! = !− !!λ

1次元カーネル平滑化手法 (ナダラヤ=ワトソンカーネル）

着目する点x0に近い観測点だけを使って、f^(X)がRp上で滑らかになるようにモデルを作る。

→ナダラヤ=ワトソンカーネルの場合(イパネクニコフ:λ=0.2)

ナダラヤ=ワトソンカーネルだとスムーズな線になっている

拡大


ナダラヤ=ワトソン重み付きカーネル今回はカーネルKλ(x0,xi)にイパネクニコフ2次カーネルを使う

! = !!(!! , !!)!!!!!!

!!(!! , !!)!!!!

D(t)=

34 1− !! ! ≤ 1��

0その他の場合

!! !! , ! = ! !− !!λ

! = !− !!λ

その他のカーネル

ナダラヤ=ワトソン重み付きカーネル矩形3次カーネルガウス密度関数

! = !!(!! , !!)!!!!!!

!!(!! , !!)!!!!

D(t)=

0その他の場合

!! !! , ! = ! !− !!λ

! = !− !!λ

1− ! ! ! ! ≤ 1 ��

D(t)=φ(t):標準偏差が窓幅と同じ役割を示す

その他のカーネル

ElementsofStaRsRcalLearning(secondediRon):Fig.6.2HasRe,TibshiraniandFriedman(2009)

矩形3次カーネルは台の境界で連続導関数を持つガウスカーネルは連続微分可能・無限の台を持つ

注意点

平滑化パラメータλの決定

λ大きい→分散が小さくなり、バイアスが大きくなるカーネルの基準幅（定数hλ(x)）

推定値のバイアスを一定に抑える傾向があるが、分散は局所的な密度に反比例する。近傍窓の場合はこの逆同じxiに複数のデータが有るときは間引いたり平均したり重み付けをしたりするが、重みの付け方は難しいデータの境界部ではカーネルの基準幅ないの近傍点の数が減ったり、近傍点の入る領域が増えたりするので注意

局所重み付け回帰(LOESS)

ナダラヤ=ワトソン LOESS

局所重み付け回帰(LOESS)

ナダラヤ=ワトソン LOESS

領域の境界上や近傍にバイアス問題を含んでいるここでは近傍に含まれる観測値の殆どが着目点より大きい平均値を持つので上向きのバイアスを持つ

LOESSだとバイアスが1次まで除去される

局所重み付け回帰(LOESS):推定値

局所重み付け回帰ではそれぞれの着目点x0において別々に重み付き小2乗誤差問題を解く

この時推定値はこのモデルは領域のすべてのデータを使って線形モデルを当てはめるが、単一の点x0を評価するためだけに使っている

min!(!!),!(!!)

!! !! , !! [!! − α !! − β !! !!]!!

!!!

! !! = α !! + β !! !!

ベクトル値関数をb(x)T=(1,x)第i行がでb(x)TであるN×2の回帰行列=B第i対角要素がKλ(x0,xi)であるN×Nの対角行列=W(x0)

とすると、先程の推定値

はの様に書ける

重みli(x0)は重み付きカーネルと小二乗法を組み合わせたもので等価カーネルと呼ばれる

局所重み付け回帰(LOESS):等価カーネル

! !! = ! !! ! !!! !! ! !!!!! !! !

= !! !! !!!

!!!

! !! = α !! + β !! !!

（推定値がyiに対し線形,li(x0)が重み）

局所重み付け回帰(LOESS):カーネルの自動手直し


緑:局所回帰に対する等価カーネル黄色ナダラヤ＝ワトソン局所平均に対する等価カーネル

ナダラヤ＝ワトソンだと重みが対称になっているが、局所回帰の場合は非対称性に起因するバイアスを修正するように重みを改良

局所重み付け回帰(LOESS):推定値の期待値

!! !! = !! !! !(!!)!

!!!

= !(!!) !! !!!

!!!+ !!(!!) !! − !!

!

!!!!! !! + !

!!(!!)2 !! − !! !!! !! + !

!

!!!

残差項Rはfの3次またはそれ以上の導関数を含む滑らかさについての過程が適切なら通常は小さい値になる局所線形回帰では=1,=0なので、第2項まではf(x0)と一緒

バイアスは-f(x0)なので、バイアスはfの展開の2次以上に依存

局所回帰の線形性と真の関数fのx0周りの級数展開から推定値の期待値について考える

!! − !!!

!!!!! !! !! − !! !!! !! + !

!

!!!

!! !! = !! !! !(!!)!

!!!

局所重み付け回帰(LOESS):多項式の場合

LOESS1次 LOESS2次


局所2次回期だと個々のバイアスを修正できる（分散は増加する）

次数に関してバイアス=バリアンストレードオフがあるので末端部分などでの分散が大きくなりやすい

LOESS1次 LOESS2次


min!(!!),!(!!)

!! !! , !! [!! − α !! − β !! !!]!!

!!! LOESS1次

LOESSd次min

!(!!),!(!!),!!!,…,!!! !! , !! [!! − α !! − β! !! !!!

!

!!!]!!

!!!

LOESS1次 LOESS2次

局所重み付け回帰(LOESS):多項式まとめ

局所線形当てはめは分散を大きくしすぎることなくバイアスを減らせる2次当てはめだと境界のバイアスを減らさないが分散を大きく増加させる2次当てはめは多くの場合領域内部の関数の湾曲に起因するバイアスを上手く減らせる漸近解析より、奇数次数の多項式が偶数のそれより支配的であることが期待されるMSEが境界の影響に支配されるため（？）

カーネル幅の選択

カーネル幅色々

イパネクニコフ,矩形3次:台領域の半径

ガウスカーネル:標準偏差

k近傍:kの数窓の幅が変わると？

窓が狭い:推定値がx0に近い少数のyiの平均になり、分散は対応するyiの分散より相対的に大きくなる推定値の期待値がf(x0)に近づくのでバイアスは小さくなる

窓が広い:上記の逆

多次元における局所回帰

カーネル平滑化,局所回帰はより高次元へ自然に一般化されるナダラヤ=ワトソンカーネル平滑化p次元カーネルによって与えられる重みを局所的に一定値に割り当て局所線形回帰p次元カーネルによって与えられる重みで重み付けされた

小2乗法により,Xの空間において局所的に超平面を割り当て


b(X)をXに含まれる大次数dの多項式ベクトルとする

d=1,p=2のときb(X)=(1,X1,X2),d=2のときb(X)=(1,X1,X2,X12,X22,X1,X2)d=0のときb(X)=1

それぞれのx0∈Rpにおいてを解いての当てはめを得る

min!(!!)

!! !! , !! (!! − ! !! !β !! )!!

!!!

! !! = ! !! !β !!


!! !! , ! = ! !− !!λ

このカーネルはイパネクニコフや矩形3次みたいな動径関数になるll・llはユークリッドノルムユークリッドノルムは座標の単位に依存するので、平滑化に先立ち変数の標準化をしておくと良い

多次元における局所回帰:図示

galaxyデータの局所解析幅＝15%とした散布図などは大まかな傾向見るには良いが、条件ごとに図を用意するほうが良いかも？

多次元における局所回帰:図示


条件ごとに図を用意した図

ElemStatLearnpakageにデータはあるものの記述の条件がイマイチ不明…

多次元における局所回帰:問題点

1次元平滑化のとき境界での当てはめに問題があった多次元のとき境界上の各点の比率が大きくなるのでより大きな問題にこのため3次元よりもはるかに次元が高い場合、局所回帰はあまり有用ではなくなってしまう次元数pに対して指数的に総標本数が増えないと…

多次元における構造化局所回帰

次元数pに対して指数的に総標本数が増えないと局所回帰はあまり役に立たないので、何らかの内部構造を仮定して次元削減的なことをするとうまくいく事がある

→構造化局所回帰その中でも

構造化カーネル,構造化回帰関数がカーネル法に直接関連するアプローチとして知られている

多次元における構造化局所回帰:構造化カーネル

カーネルを修正し、半正定値行列Aを異なる座標の重み付けに使うと良い半正定値行列Aに適切な制約を課すと、幾つかの座標や方向をまるごと取り除いたり、寄与を小さくできる

ex.Aが対角行列ならAjj要素の大きさを変えることで予測変数Xjの影響を変えることができる予測変数が多数あり、かつそれらの相関が強い時など

その他射影追跡回帰などは11章で

!!,! !! , ! = ! ! − !! !! ! − !!λ

多次元における構造化局所回帰:構造化回帰関数

任意の相互作用が存在しうる回帰関数E(Y|X)=f(X1,X2,...,Xp)を当てはめることを試みる下記のような分散分析の形を分解を考えるこの中の高次の項を幾つか取り除くことで構造を導入ex.加法的モデルなら主要項だけを仮定し、2次のモデルの場合は高々2次の交互作用をもつ項を含むようにする等→9章で詳細

! !! ,!! ,… ,!! = α+ !! !!!

+ !!" !! ,!!!!!

+��

多次元における構造化局所回帰:構造化回帰関数

これら構造化モデルの中でも係数変化モデルは特に重要な具体例

Xに含まれる予測変数をp個の集合(X1,X2,...Xq)(q<p)と残りの変数をベクトルZにまとめたものに分割したとする

このとき条件付き線形モデル

を仮定する

これは線形モデルだがそれぞれの係数はZによって異なっており、これを局所重み付き小2乗法に当てはめるもの

! ! = α ! + β Z !! +��+ β! ! !!

min!(!!),!(!!)

!! !! , !! (!! − α !! − !!!β !!! −��− !!!β! !!! )!

!

!!!

多次元における構造化局所回帰:構造化回帰関数(作図)


大動脈の直径データElemStatLearnpackageに含まれず？



加齢とともに大動脈は太くなるが、性別や動脈の深度で長さが変わると予想し、男女でモデルを分けて作った



確かに年齢とともに太くなっているが、その傾向は大動脈に沿った距離とともに弱まる

まとめ

局所重み付き回帰だとに一手間加えたり、カーネル平滑化だとのDの中身を入れ替えることで色々調節できるよ

min!(!!),!(!!)

!! !! , !! [!! − α !! − β !! !!]!!

!!!

!! !! , ! = ! !− !!λ

参考資料

ナダラヤ・ワトソン推定量を用いたノンパラメトリック回帰hhp://www.math.hc.keio.ac.jp/itoseminar/index.php?%B1%CA%B0%E6%A1%A6%A5%CE%A5%F3%A5%D1%A5%E9%A5%E1%A5%C8%A5%EA%A5%C3%A5%AF%B2%F3%B5%A2%A1%C1NW%BF%E4%C4%EA%CE%CC%A1%C1カーネル平滑化のメモhhp://entertainment-lab.blogspot.jp/2010/08/blog-post.htmlコンパクト性、開被覆hhp://d.hatena.ne.jp/Zellij/20120515/p1

統計的学習の基礎6章前半 #カステラ本

Data & Analytics

Transcript of 統計的学習の基礎6章前半 #カステラ本