地殻変動観測データの多変量解析 · 目的として, 観測量間の相互相関, フィードバック, ノイズ等を含む多変量解析を試みること とする.
多変量解析の一般化
-
Upload
akisato-kimura -
Category
Technology
-
view
162 -
download
2
Transcript of 多変量解析の一般化
Copyright©2014 NTT corp. All Rights Reserved.
多変量解析の一般化とそのメディア認識への応用
木村 昭悟 (きむら あきさと)
日本電信電話(株) コミュニケーション科学基礎研究所
E‐mail: [email protected], @_akisato
今日のtalk の あらまし
2
数多くの多変量解析を俯瞰するシンプル かつ コンパクトな表現を示します
【標準的手法】 PCA,判別分析,線形回帰,CCA etc.
【局所性導入】 MDS,局所性保存射影 etc.
【正則化】 L2ノルム正則化,graph Laplacian etc.
【カーネル導入】 カーネルPCA,normalized cuts etc.
【半教師化】 SELF,SemiCCA etc.
Designing various analysis at will !! データマイニングの実施者が,それぞれの目的に応じたテーラーメードな解析手法を設計できる.
もくじ
3
1. 多変量解析とは?
2. 多変量解析の一般化
3. 新しい解析手法の作り方
4. 画像/音楽/映像認識への応用
5. まとめ 大規模固有値問題・深層学習との関係?
Akisato Kimura, Masashi Sugiyama, Hitoshi Sakano, Hirokazu Kameoka"Designing various component analysis at will via generalized pairwise expression,"IPSJ Transactions on Mathematical Modeling and its Applications (TOM), 2013.http://www.kecl.ntt.co.jp/people/kimura.akisato/pdf/tom2013gpe.pdf
代表的な多変量解析手法
6
「予測」型 回帰分析 (MLR):複数の数量から別の数量を予測
判別分析 (FDA):複数の変量から変量の分類を予測
「要約」型 主成分分析 (PCA):多量の数量を要約した数量を導出
多次元尺度構成法 (MDS):個体間距離を要約した数量群を導出
パターン認識で多変量解析を使う
8
判別分析で文字認識 筋電データから実際に筆記した文字を認識
Linderman+ “Recognition of Handwriting from Electromyography,” PLoS One, 2009
Computer visionで多変量解析を使う
9
奥行きの推定に回帰分析 画像特徴量と奥行きとの関係を回帰分析で推定
Saxena+ “Learning Depth from Single Monocular Images,” Proc. NIPS2005
主成分分析 (PCA)
10
多次元ベクトルとして表現される多数のサンプルから,それらの分散が大きくなる正規直交軸を見つける手法.
サンプルが多次元ガウス分布に従うときは非常に有効
そうでないときも、サンプル表現に寄与しない成分を捨てる目的で使用されることが多い.
判別分析 (FDA)
13
多次元ベクトルとそのカテゴリで表現される多数のサンプルから,カテゴリをよりよく分類する(正規直交ではないかもしれない)軸を見つける方法
各カテゴリのサンプルの平均を結ぶ軸 判別分析で見つけた軸
FDAの定式化 2
15
カテゴリ内共分散を単位化するように正規化 要するに,目的関数の分母を1にしたい.
Lagrange未定乗数法で問題を書き直す.
基底での微分 = 0 とすると
一般化固有値問題を解けば良い!
この枠組に含まれる多変量解析 1
17
標準的な手法 主成分分析 (PCA) 線形判別分析 (FDA) 線形回帰分析 (MLR) 正準相関分析 (CCA)
局所性を重視した手法 局所性保存射影 (LPP) [He+ NIPS2003]
局所線形判別分析 (LFDA) [Sugiyama JMLR2007]
(後で説明します)
この枠組に含まれる多変量解析 2
18
カーネル化すると… カーネルhogehoge (hogehoge=標準的手法)
クラスタリング系 Kernel k-means [Zha+ NIPS2011]
Normalized cuts [Shi+ PAMI2001]
Spectral clustering [Yu+ NIPS2002]
低次元埋め込み系 ISOMAP [Tenenbaum+ Science 2000]
Locally linear embedding [Saul+ Science 2000]
Laplacian eigenmap [Belkin+ NIPS2002]
もくじ
19
1. 多変量解析とは?
2. 多変量解析の一般化 一般化の必要性: 新しい解析を簡単に作りたい
どうやって一般化するの?
3. 新しい解析手法の作り方
4. 画像/音楽/映像認識への応用
5. まとめ
一般化すると何がうれしいの?
24
新しい手法がざくざく作れる 行列を足すだけで良い.楽ちん.
特殊な場合には,行列のかけ算もできる.
各項の果たす役割が明確になる サンプル間の類似性をどのように考慮するか?
どのような正則化を行うか?
ペアワイズ表現の自然な拡張
形式上は類似度行列を意識する必要はない
上記の表現を,2次統計量の拡張ペアワイズ表現 と呼ぶ.
拡張ペアワイズ表現 (GPE)
27
Qに独立な項を導入
データ依存項 データ独立項
データ依存項が持つ意味
29
サンプル間類似性をどう評価するか? を決定 類似度行列を明示的に設定する必要はない
既存手法では,類似度行列を明示的に設定 例: 局所性保存射影 (LPP) [He,Niyogi 2004]
類似度: 近くはより近くに,遠くはより遠くに
もくじ
31
1. 多変量解析とは?
2. 多変量解析の一般化
3. 新しい解析手法の作り方 簡単です.行列を足したり掛けたりするだけ.
半教師付き解析も簡単にできます.
試しに,今までになかった解析を作ってみます.
4. 画像/音楽/映像認識への応用
5. まとめ
新しい解析手法の作り方
33
既存の2次統計量を和・積・定数倍するだけ,所望の性質を持つ多変量解析を作れる!
例: SELF (半教師付局所線形判別分析) [Sugiyama+2010]
LFDA PCA
半教師付き学習への拡張
34
各統計量を計算する母集団を操作することで半教師付き学習への拡張が容易に!
例: SELF ラベル付きデータだけから計算
ラベルなしデータも含めて計算
ラベルなしデータに対応する要素が全て0
新しい解析手法を作る のまとめ
線形解析 対象の二次統計量を和・積・正定数倍するだけ.
明示的に GPE を意識・導出する必要はない.
非線形解析 明示的に GPE を導出し,ラプラシアン項で和・積・正定数倍をする.
例えば,で作ってみた手法 1
39
半教師付き正準相関分析 SemiCCA [ICPR2010]
SELFではできなかったマルチラベル分類への半教師付き学習を実現
XだけあってYがない,という場合だけでなく,YだけあってXがない,という場合も同様に扱える
↑CCA(supervised)
↑PCA(unsupervised)
例えば,で作ってみた手法 2
40
正準相関分析 + 線形判別分析 クラスラベル付きの多次元ベクトル対(x, y)を対象 例:画像 = x, 音声 = y, ラベル = c ⇒ 映像認識・検索
クラスごとに異なる相関関係も抽出可能
↑CCA(unsupervised)
↑FDA(supervised)
実験
41
MIT-CBCL顔データの低次元埋め込み下照明(6方向:0,15,…,90)
横照明(6方向0,15,…90)
顔向き(9方向: 0,4,…,24)
人物(10人)
・ サンプル数 = 3240枚(10人×6下方向×6横方向×9顔向き)
・ クラス = 人物・ 特徴 X = 画像(32×32 pixs)
・ 補助情報 Y =照明情報・顔向き(3次元)
47Copyright©2014 NTT corp. All Rights Reserved.
1‐page summary
CNN on arbitrary graphs• With the help of spectral graph theory
(or graph signal processing)• The key point is how to obtain locality and
hierarchical structures.
Standard CNNs can handle only regular grids, e.g. raw image pixels.
The proposed method can be applied to any graphs with any types of topology, e.g. superpixelgraphs.
48Copyright©2014 NTT corp. All Rights Reserved.
Graph Fourier transform
(undirected & connected) graph : vertices (| | ), : edges,: weighted adjacency matrix.
A signal defined on the ‐th nodee.g. is a pixel value on the ‐th (super)pixel.
Graph Laplacian diag ⋅ : diagonal degree matrix ∑ .
A normalized one can be used. / /
49Copyright©2014 NTT corp. All Rights Reserved.
Graph Fourier transform (cont.)
The Laplacian is diagonalized as : “Fourier” bases,: “frequencies”.
Graph Fourier transform (GFT) of a signal (inverse: )
50Copyright©2014 NTT corp. All Rights Reserved.
Spectral filtering
The convolutional operator on graph
: a filter, ⊙ : element‐wise Hadamard product
Learning filters on a graph thus amount to learning spectral multipliers
diag : a filter
‐‐ Not localized, parameters should be trained.
51Copyright©2014 NTT corp. All Rights Reserved.
Main ideas (1)
Laplacian‐based polynomial spectral filters: a filter
: filtering
‐‐ #parameters =K
‐‐ This filter is exactly ‐localized, since ,if the shortest path distance b.w. & is larger than .
‐‐ still requires operations for filtering
52Copyright©2014 NTT corp. All Rights Reserved.
Summarizing the points so far
a• Spectral filters are ‐localized• The number of filter parameters = • The computational cost is | |
∗ ̅ , ̅ , … , ̅ , ,22 /
まとめ
54
2次統計量を拡張ペアワイズ表現を用いて表現することで,多変量解析を俯瞰できます.
簡単に所望の性質を持つ多変量解析を実現 2次統計量の重み付き加算
統計量計算のための母集団の操作
(それ以外の方法でももちろんOKです)
データ依存項 データ独立項拡張ペアワイズ表現