Tokyor45 カーネル多変量解析第2章 カーネル多変量解析の仕組み

Post on 19-Jul-2015

5.009 views 3 download

Transcript of Tokyor45 カーネル多変量解析第2章 カーネル多変量解析の仕組み

カーネル多変量解析第2章  カーネル多変量解析の仕組み

里  洋平(@yokkuns)

yokkuns0511@gmail.com

第45回TokyoR  

Copyright  DATUM  STUDIO  Co.,  Ltd  All  Rights  Reserved

 カーネルで画像検索

Copyright  DATUM  STUDIO  Co.,  Ltd  All  Rights  Reserved

 過去のカーネルに関係する発表

Copyright  DATUM  STUDIO  Co.,  Ltd  All  Rights  Reserved

 過去のカーネルに関係する発表

Copyright  DATUM  STUDIO  Co.,  Ltd  All  Rights  Reserved

 【参考】カーネル多変量解析

Copyright  DATUM  STUDIO  Co.,  Ltd  All  Rights  Reserved

 AGENDA

Copyright  DATUM  STUDIO  Co.,  Ltd  All  Rights  Reserved

Ø 自己紹介Ø カーネル多変量解析Ø カーネルによる非線形回帰Ø 特徴抽出による非線形回帰

Ø 汎化能力の評価とモデル選択

 AGENDA

Copyright  DATUM  STUDIO  Co.,  Ltd  All  Rights  Reserved

Ø 自己紹介Ø カーネル多変量解析Ø カーネルによる非線形回帰Ø 特徴抽出による非線形回帰

Ø 汎化能力の評価とモデル選択

 里  洋平(@yokkuns)

Copyright  DATUM  STUDIO  Co.,  Ltd  All  Rights  Reserved

Ø  やってたことØ  Webアプリ開発Ø  統計解析/データマイニングØ  マーケティング

 TokyoR

R言語の東京コミュニティ  Tokyo.R  を主催

Copyright  DATUM  STUDIO  Co.,  Ltd  All  Rights  Reserved

 著書

Copyright  DATUM  STUDIO  Co.,  Ltd  All  Rights  Reserved

 AGENDA

Copyright  DATUM  STUDIO  Co.,  Ltd  All  Rights  Reserved

Ø 自己紹介Ø カーネル多変量解析Ø カーネルによる非線形回帰Ø 特徴抽出による非線形回帰

Ø 汎化能力の評価とモデル選択

 線形回帰モデル

Copyright  DATUM  STUDIO  Co.,  Ltd  All  Rights  Reserved

 線形回帰モデル

Copyright  DATUM  STUDIO  Co.,  Ltd  All  Rights  Reserved

 直線の関係になっていない場合

Copyright  DATUM  STUDIO  Co.,  Ltd  All  Rights  Reserved

 線形回帰では無理

Copyright  DATUM  STUDIO  Co.,  Ltd  All  Rights  Reserved

 線形回帰では無理

Copyright  DATUM  STUDIO  Co.,  Ltd  All  Rights  Reserved

×

 大きく二つのアプローチ

Copyright  DATUM  STUDIO  Co.,  Ltd  All  Rights  Reserved

①  データ同士の「近さ」に着目した方法

②  データを何らかの関数で非線形変換する方法

 大きく二つのアプローチ

Copyright  DATUM  STUDIO  Co.,  Ltd  All  Rights  Reserved

①  データ同士の「近さ」に着目した方法

②  データを何らかの関数で非線形変換する方法

 データ同士の”近さ”に注目した考え方

Copyright  DATUM  STUDIO  Co.,  Ltd  All  Rights  Reserved

x

③⑦

 データ同士の”近さ”に注目した考え方

Copyright  DATUM  STUDIO  Co.,  Ltd  All  Rights  Reserved

x

③⑦

!?

 データ同士の”近さ”に注目した考え方

Copyright  DATUM  STUDIO  Co.,  Ltd  All  Rights  Reserved

x

③⑦

 ”近さ”の定義の例

Copyright  DATUM  STUDIO  Co.,  Ltd  All  Rights  Reserved

 ”近さ”の定義の例

Copyright  DATUM  STUDIO  Co.,  Ltd  All  Rights  Reserved

x③ ⑦

これがカーネル関数

Copyright  DATUM  STUDIO  Co.,  Ltd  All  Rights  Reserved

 カーネルを使った回帰モデル

Copyright  DATUM  STUDIO  Co.,  Ltd  All  Rights  Reserved

x(j)とxの近さ

 カーネルを使った線形回帰

Copyright  DATUM  STUDIO  Co.,  Ltd  All  Rights  Reserved

入力データデータ同士の近さ

線形回帰

 パラメータの推定方法:最小二乗誤差

Copyright  DATUM  STUDIO  Co.,  Ltd  All  Rights  Reserved

が最小になるようなパラメータを求める

実測値 モデルで算出した予測値

 Rで実行

h<p://nlp.dse.ibaraki.ac.jp/~shinnou/zemi2012/kernel/kernel-­‐sasaki-­‐0413.pdf

 そのまま実行すると・・・

Copyright  DATUM  STUDIO  Co.,  Ltd  All  Rights  Reserved

 そのまま実行すると・・・

Copyright  DATUM  STUDIO  Co.,  Ltd  All  Rights  Reserved

×

 正則化

Copyright  DATUM  STUDIO  Co.,  Ltd  All  Rights  Reserved

が最小になるようなパラメータを求める

実測値 モデルで算出した予測値

ペナルティ

 Rで正則化(λ  =  0.01)

h<p://nlp.dse.ibaraki.ac.jp/~shinnou/zemi2012/kernel/kernel-­‐sasaki-­‐0413.pdf

 正則化した実行結果(λ  =  0.01)

Copyright  DATUM  STUDIO  Co.,  Ltd  All  Rights  Reserved

 Rで正則化(λ  =  0,  0.0001,  0.01,  1)

h<p://nlp.dse.ibaraki.ac.jp/~shinnou/zemi2012/kernel/kernel-­‐sasaki-­‐0413.pdf

 λを変えた時の様子

Copyright  DATUM  STUDIO  Co.,  Ltd  All  Rights  Reserved

λ  =  0 λ  =  0.0001

λ  =  0.01 λ  =  1

 大きく二つのアプローチ

Copyright  DATUM  STUDIO  Co.,  Ltd  All  Rights  Reserved

①  データ同士の「近さ」に着目した方法

②  データを何らかの関数で非線形変換する方法

Copyright  DATUM  STUDIO  Co.,  Ltd  All  Rights  Reserved

 非線形変換という考え方:例)多項式フィッティング

 非線形変換という考え方:例)多項式フィッティング

Copyright  DATUM  STUDIO  Co.,  Ltd  All  Rights  Reserved

 非線形変換という考え方:例)多項式フィッティング

Copyright  DATUM  STUDIO  Co.,  Ltd  All  Rights  Reserved

 パラメータの推定方法:最小二乗誤差

Copyright  DATUM  STUDIO  Co.,  Ltd  All  Rights  Reserved

が最小になるようなパラメータを求める

実測値 モデルで算出した予測値

 多項式フィッティングとは結局のところ何か?

Copyright  DATUM  STUDIO  Co.,  Ltd  All  Rights  Reserved

入力データ 特徴ベクトル 線形回帰

ところで

Copyright  DATUM  STUDIO  Co.,  Ltd  All  Rights  Reserved

 カーネル関数  =  データ同士の近さ

Copyright  DATUM  STUDIO  Co.,  Ltd  All  Rights  Reserved

x③ ⑦

 データ(特徴ベクトル)同士の近さ  =  内積

Copyright  DATUM  STUDIO  Co.,  Ltd  All  Rights  Reserved

 つまり

Copyright  DATUM  STUDIO  Co.,  Ltd  All  Rights  Reserved

入力データデータ同士の近さ

線形回帰

 つまり

Copyright  DATUM  STUDIO  Co.,  Ltd  All  Rights  Reserved

入力データ 特徴ベクトルデータ同士の近さ=内積

線形回帰

入力データデータ同士の近さ

線形回帰

 カーネル法がやってることは

Copyright  DATUM  STUDIO  Co.,  Ltd  All  Rights  Reserved

とある高次元空間

x③ ⑦

カーネル関数

特徴抽出

特徴ベクトル同士の近さ(=内積)の計算

 カーネル法がやってることは

Copyright  DATUM  STUDIO  Co.,  Ltd  All  Rights  Reserved

とある高次元空間

x③ ⑦

カーネル関数

特徴抽出

特徴ベクトル同士の近さ(=内積)の計算

これがカーネルトリック

Copyright  DATUM  STUDIO  Co.,  Ltd  All  Rights  Reserved

 最初の例:ガウスカーネル

h<p://nlp.dse.ibaraki.ac.jp/~shinnou/zemi2012/kernel/kernel-­‐sasaki-­‐0413.pdf

 多項式カーネル

h<p://nlp.dse.ibaraki.ac.jp/~shinnou/zemi2012/kernel/kernel-­‐sasaki-­‐0413.pdf

 Rで多項式カーネル

h<p://nlp.dse.ibaraki.ac.jp/~shinnou/zemi2012/kernel/kernel-­‐sasaki-­‐0413.pdf

 多項式カーネルの実行結果

Copyright  DATUM  STUDIO  Co.,  Ltd  All  Rights  Reserved

 まとめ

Copyright  DATUM  STUDIO  Co.,  Ltd  All  Rights  Reserved

とある高次元空間

x③ ⑦

カーネル関数

特徴抽出

特徴ベクトル同士の近さ(=内積)の計算

 AGENDA

Copyright  DATUM  STUDIO  Co.,  Ltd  All  Rights  Reserved

Ø 自己紹介Ø カーネル多変量解析Ø カーネルによる非線形回帰Ø 特徴抽出による非線形回帰

Ø 汎化能力の評価とモデル選択

 参考:サンプル領域外での値

Copyright  DATUM  STUDIO  Co.,  Ltd  All  Rights  Reserved

多項式カーネル ガウスカーネル

カーネルを使った回帰は、サンプル領域外に弱い

サンプル領域外では発散する サンプル領域外では0に近づく

 データをモデルを訓練データと検証データに分ける①

h<p://www.slideshare.net/sfchaos/ss-­‐33703018

 データをモデルを訓練データと検証データに分ける②

h<p://www.slideshare.net/sfchaos/ss-­‐33703018

 分けて何をするのか

h<p://www.slideshare.net/sfchaos/ss-­‐33703018

 検証データで成績が良いハイパーパラメータを使う

h<p://www.slideshare.net/sfchaos/ss-­‐33703018

 AGENDA

Copyright  DATUM  STUDIO  Co.,  Ltd  All  Rights  Reserved

Ø 自己紹介Ø カーネル多変量解析Ø カーネルによる非線形回帰Ø 特徴抽出による非線形回帰

Ø 汎化能力の評価とモデル選択

Enjoy!