Post on 15-Jan-2015
description
正準相関分析
@_akisato
Presented by Akisato KimuraTopic Lecture 2009.6.8 Page 2
今回の流れ
• 概念的な話 (30%)
– 何をする方法か?
– 他の多変量解析との関係は?
– 生成モデルと関係があるの?
– 何に使えるか?
• 解析的な話 (70%)
– 何を解けば良いか?: 標準正規化データの場合
– 定式化: まじめにやります
– 次元数の決定方法
– 他の多変量解析との関係 再考
Presented by Akisato KimuraTopic Lecture 2009.6.8 Page 3
何をする方法なのか?
2組の多次元変量の間の相関関係を調べる、統計解析手法の1つ
[出展] 涌井、涌井 “図解でわかる多変量解析”、日本実業出版社
Presented by Akisato KimuraTopic Lecture 2009.6.8 Page 4
他の多変量解析との関係性は?
正準相関分析
主成分分析
重回帰分析
判別分析
多次元変量を2組に拡張
目的変量yを多次元変量に拡張
多次元変量の制約を排除
Presented by Akisato KimuraTopic Lecture 2009.6.8 Page 5
生成モデルとの関係は?
• 正準相関分析の過程は、Gaussianを仮定したpLSAと(ほぼ)一致
– 正しく言えば、正準相関変量同士の相関を1とする極限がGaussian pLSAと等価
第1変量群 潜在変数 正準相関変量第1変量群 第2変量群第2変量群
Probabilistic latentsemantic analysis
(pLSA)
Canonical correlationanalysis (CCA)
Presented by Akisato KimuraTopic Lecture 2009.6.8 Page 6
簡単な例
• 以下のような例を考える。
– このとき、XとYの共分散行列を計算すると、
– 正準相関分析により変換を求めて、変換先の共分散行列を求めると、
– 実はこういう構造になっていた。
相関なし?
正しい相関を獲得
Presented by Akisato KimuraTopic Lecture 2009.6.8 Page 7
何に使えるのか?
• 他の多変量解析ほどは、使われていない。
• メディア処理関係
– 画像検索 [栗田ら 1992] [中山ら 2007]– インターモーダル学習
[赤穂ら 1997] [Hardoon et al. 2003] [石黒ら 2004]– 話者適応 [桜木、有木 1997]
• その他
– 実験データの解析[Borga et al. 2002] (fMRI) [末谷ら 2008] (カオス同期)
– 経済指標の解析 [岡本 1985]
Presented by Akisato KimuraTopic Lecture 2009.6.8 Page 8
定式化: 準備
• 2組の多次元変量群が与えられているとする。
• 平均・共分散行列
Presented by Akisato KimuraTopic Lecture 2009.6.8 Page 9
先に答え: 標準正規化されたデータの場合
• 各変量群が標準正規化されている特別な場合を考える。
• このときは、以下の固有値問題を解けば良い。
• 当然出る疑問
– この意味は何だろう?
– 一般の場合はどうなるのか?
※ XとYが逆でもOK。
Presented by Akisato KimuraTopic Lecture 2009.6.8 Page 10
定式化: 準備
• 2組の多次元変量群が与えられているとする。
• 変換先の変量同士の相関が最大となるような変換 を求めたい。
内積
※ 簡単のため平均0を仮定します。
Presented by Akisato KimuraTopic Lecture 2009.6.8 Page 11
定式化: 目的関数の変形
• 目的関数を多次元変量の共分散行列で表現
– 注意:変換 を定数倍しても目的関数の値は不変
共分散行列の定義
Empirical expectationで置換
Presented by Akisato KimuraTopic Lecture 2009.6.8 Page 12
定式化: 問題の変換
• 各変換を以下のようにして正規化
– 正規化の意味: 変換先の変量を標準正規化する
• Lagrange未定定数法を用いて、問題を書き直す。
• 各変換で微分すると・・・
Presented by Akisato KimuraTopic Lecture 2009.6.8 Page 13
• 共分散行列が正則であるとすると、下記の一般化固有値問題に変形可能
• 共分散行列のCholesky分解を用いることで、通常の固有値問題に変形可能
定式化: 最終形態
2
1
3
4
Presented by Akisato KimuraTopic Lecture 2009.6.8 Page 14
再考: 標準正規化されたデータの場合
• 各変量群が標準正規化されている特別な場合を考える。
• 先程の結果から、以下の固有値問題を得る。
– Cholesky分解不要
Presented by Akisato KimuraTopic Lecture 2009.6.8 Page 15
変換変量の次元数の決定
• Bartlett検定 [1] により決定
– 固有値問題を解くことで 個の固有値を得る。
– 第d番目の固有値を採用するかどうかを判定する際、以下の量を考える。
– この量が、漸近的に自由度 の分布に従うことが知られている(らしい)。
– 任意に有意水準を決定し、仮説検定。
[1] M.S.Bartlett “The General Canonical Correlation Distribution,” Ann. Math. Statist., Vol.18, No.1, pp.1-17, 1947.http://projecteuclid.org/DPubS?service=UI&version=1.0&verb=Display&handle=euclid.aoms/1177730488
Presented by Akisato KimuraTopic Lecture 2009.6.8 Page 16
多変量解析同士の関係: 準備
• 多くの多変量解析手法は、以下の最適化問題を解く構造になっている。
• 変換 に正規化拘束条件を課すと、実は以下の一般化固有値問題と等価。
– 導出は先ほどとほぼ同じなので、省略。
• 多変量解析の違いは、行列 の違いだけ。
Presented by Akisato KimuraTopic Lecture 2009.6.8 Page 17
多変量解析同士の関係
• 主成分分析
• 判別分析
• 重回帰分析
(主成分の正規化)
(判別射影軸の正規化)
Presented by Akisato KimuraTopic Lecture 2009.6.8 Page 18
多変量解析同士の関係
• 重回帰分析
• 正準相関分析
Presented by Akisato KimuraTopic Lecture 2009.6.8 Page 19
おわりに
• 参考文献– 涌井、涌井 “図解でわかる多変量解析”、日本実業出版社
– Bach, Jordan “A probabilistic interpretation of canonical correlation analysis,” Technical Report, Univ. California, Berkeley, 2005
– Borga “Canonical correlation analysis: A tutorial,” 2001.– Sugiyama, Ide, Nakajima, Sese “Semi-supervised local Fisher
discriminant analysis for dimensionality reduction,” Lecture Notes in Computer Science, Proc. PAKDD2008.
– Wikipedia: Canonical correlation analysis