正準相関分析

19
正準相関分析 @_akisato

description

Introduction to canonical correlation analysis

Transcript of 正準相関分析

Page 1: 正準相関分析

正準相関分析

@_akisato

Page 2: 正準相関分析

Presented by Akisato KimuraTopic Lecture 2009.6.8 Page 2

今回の流れ

• 概念的な話 (30%)

– 何をする方法か?

– 他の多変量解析との関係は?

– 生成モデルと関係があるの?

– 何に使えるか?

• 解析的な話 (70%)

– 何を解けば良いか?: 標準正規化データの場合

– 定式化: まじめにやります

– 次元数の決定方法

– 他の多変量解析との関係 再考

Page 3: 正準相関分析

Presented by Akisato KimuraTopic Lecture 2009.6.8 Page 3

何をする方法なのか?

2組の多次元変量の間の相関関係を調べる、統計解析手法の1つ

[出展] 涌井、涌井 “図解でわかる多変量解析”、日本実業出版社

Page 4: 正準相関分析

Presented by Akisato KimuraTopic Lecture 2009.6.8 Page 4

他の多変量解析との関係性は?

正準相関分析

主成分分析

重回帰分析

判別分析

多次元変量を2組に拡張

目的変量yを多次元変量に拡張

多次元変量の制約を排除

Page 5: 正準相関分析

Presented by Akisato KimuraTopic Lecture 2009.6.8 Page 5

生成モデルとの関係は?

• 正準相関分析の過程は、Gaussianを仮定したpLSAと(ほぼ)一致

– 正しく言えば、正準相関変量同士の相関を1とする極限がGaussian pLSAと等価

第1変量群 潜在変数 正準相関変量第1変量群 第2変量群第2変量群

Probabilistic latentsemantic analysis

(pLSA)

Canonical correlationanalysis (CCA)

Page 6: 正準相関分析

Presented by Akisato KimuraTopic Lecture 2009.6.8 Page 6

簡単な例

• 以下のような例を考える。

– このとき、XとYの共分散行列を計算すると、

– 正準相関分析により変換を求めて、変換先の共分散行列を求めると、

– 実はこういう構造になっていた。

相関なし?

正しい相関を獲得

Page 7: 正準相関分析

Presented by Akisato KimuraTopic Lecture 2009.6.8 Page 7

何に使えるのか?

• 他の多変量解析ほどは、使われていない。

• メディア処理関係

– 画像検索 [栗田ら 1992] [中山ら 2007]– インターモーダル学習

[赤穂ら 1997] [Hardoon et al. 2003] [石黒ら 2004]– 話者適応 [桜木、有木 1997]

• その他

– 実験データの解析[Borga et al. 2002] (fMRI) [末谷ら 2008] (カオス同期)

– 経済指標の解析 [岡本 1985]

Page 8: 正準相関分析

Presented by Akisato KimuraTopic Lecture 2009.6.8 Page 8

定式化: 準備

• 2組の多次元変量群が与えられているとする。

• 平均・共分散行列

Page 9: 正準相関分析

Presented by Akisato KimuraTopic Lecture 2009.6.8 Page 9

先に答え: 標準正規化されたデータの場合

• 各変量群が標準正規化されている特別な場合を考える。

• このときは、以下の固有値問題を解けば良い。

• 当然出る疑問

– この意味は何だろう?

– 一般の場合はどうなるのか?

※ XとYが逆でもOK。

Page 10: 正準相関分析

Presented by Akisato KimuraTopic Lecture 2009.6.8 Page 10

定式化: 準備

• 2組の多次元変量群が与えられているとする。

• 変換先の変量同士の相関が最大となるような変換 を求めたい。

内積

※ 簡単のため平均0を仮定します。

Page 11: 正準相関分析

Presented by Akisato KimuraTopic Lecture 2009.6.8 Page 11

定式化: 目的関数の変形

• 目的関数を多次元変量の共分散行列で表現

– 注意:変換 を定数倍しても目的関数の値は不変

共分散行列の定義

Empirical expectationで置換

Page 12: 正準相関分析

Presented by Akisato KimuraTopic Lecture 2009.6.8 Page 12

定式化: 問題の変換

• 各変換を以下のようにして正規化

– 正規化の意味: 変換先の変量を標準正規化する

• Lagrange未定定数法を用いて、問題を書き直す。

• 各変換で微分すると・・・

Page 13: 正準相関分析

Presented by Akisato KimuraTopic Lecture 2009.6.8 Page 13

• 共分散行列が正則であるとすると、下記の一般化固有値問題に変形可能

• 共分散行列のCholesky分解を用いることで、通常の固有値問題に変形可能

定式化: 最終形態

2

1

3

4

Page 14: 正準相関分析

Presented by Akisato KimuraTopic Lecture 2009.6.8 Page 14

再考: 標準正規化されたデータの場合

• 各変量群が標準正規化されている特別な場合を考える。

• 先程の結果から、以下の固有値問題を得る。

– Cholesky分解不要

Page 15: 正準相関分析

Presented by Akisato KimuraTopic Lecture 2009.6.8 Page 15

変換変量の次元数の決定

• Bartlett検定 [1] により決定

– 固有値問題を解くことで 個の固有値を得る。

– 第d番目の固有値を採用するかどうかを判定する際、以下の量を考える。

– この量が、漸近的に自由度 の分布に従うことが知られている(らしい)。

– 任意に有意水準を決定し、仮説検定。

[1] M.S.Bartlett “The General Canonical Correlation Distribution,” Ann. Math. Statist., Vol.18, No.1, pp.1-17, 1947.http://projecteuclid.org/DPubS?service=UI&version=1.0&verb=Display&handle=euclid.aoms/1177730488

Page 16: 正準相関分析

Presented by Akisato KimuraTopic Lecture 2009.6.8 Page 16

多変量解析同士の関係: 準備

• 多くの多変量解析手法は、以下の最適化問題を解く構造になっている。

• 変換 に正規化拘束条件を課すと、実は以下の一般化固有値問題と等価。

– 導出は先ほどとほぼ同じなので、省略。

• 多変量解析の違いは、行列 の違いだけ。

Page 17: 正準相関分析

Presented by Akisato KimuraTopic Lecture 2009.6.8 Page 17

多変量解析同士の関係

• 主成分分析

• 判別分析

• 重回帰分析

(主成分の正規化)

(判別射影軸の正規化)

Page 18: 正準相関分析

Presented by Akisato KimuraTopic Lecture 2009.6.8 Page 18

多変量解析同士の関係

• 重回帰分析

• 正準相関分析

Page 19: 正準相関分析

Presented by Akisato KimuraTopic Lecture 2009.6.8 Page 19

おわりに

• 参考文献– 涌井、涌井 “図解でわかる多変量解析”、日本実業出版社

– Bach, Jordan “A probabilistic interpretation of canonical correlation analysis,” Technical Report, Univ. California, Berkeley, 2005

– Borga “Canonical correlation analysis: A tutorial,” 2001.– Sugiyama, Ide, Nakajima, Sese “Semi-supervised local Fisher

discriminant analysis for dimensionality reduction,” Lecture Notes in Computer Science, Proc. PAKDD2008.

– Wikipedia: Canonical correlation analysis