CNN-RNN: A Unified Framework for Multi-label Image Classification@CV勉強会35回CVPR2016読み会
CVPR2016 reading - 特徴量学習とクロスモーダル転移について
-
Upload
akisato-kimura -
Category
Technology
-
view
1.250 -
download
7
Transcript of CVPR2016 reading - 特徴量学習とクロスモーダル転移について
Copyright©2014 NTT corp. All Rights Reserved.
CVPR2016 reading特徴量学習とクロスモーダル転移について
Akisato Kimura <[email protected]>_akisato
http://www.kecl.ntt.co.jp/people/kimura.akisato/
1
フルーツジュースはいかがですか?
2
フルーツジュースはいかがですか?
3
ジュースで大事なこと
材料
作り方
飲み方
4
特徴量学習も同じです
データセット
学習方法
利用目的
5
特徴量は作るものから学ぶものへ
http://www.isi.imi.i.u-tokyo.ac.jp/~harada/pdf/cvim_slide_harada20120315.pdf
http://www.cc.gatech.edu/~hays/compvision/proj6/
6
特徴量学習とは
教師付画像データを
機械学習器に与えて
画像特徴量を抽出する方法を得る
7
特徴量学習の目的 (1)
• 次元削減
線形判別分析 Auto-encoder bottleneck features
8
特徴量学習の目的 (1)
• 最終タスク込みの特徴量学習 (end-to-end)
[LeCun Proc. IEEE98]
9
特徴量学習の目的 (2)
• タスク実現のための中間特徴量
[Yu+ CVPR13]
http://www.cc.gatech.edu/~hays/compvision/proj6/
10
特徴量学習の問題点
教師付画像データ
(畳み込み)ニューラネネットワーク
画像特徴量深い学習で高い性能を出すほどの
大量の教師付データを作るには,お金か時間が大量に必要です.
11
どうすれば良いか?
• 教師なし特徴量学習
‒ 教師付きデータを作らないで済ます
• クロスモーダル転移
‒ 別のモーダルから得られる知識を転用する
Copyright©2014 NTT corp. All Rights Reserved.
教師なし特徴量学習
• Mukuta+ “Kernel approximation via empirical orthogonal decomposition for unsupervised feature learning”
• Pathak+ “Context encoders: Feature learning by inpainting”• Zhang+ “Online collaborative learning for open vocabulary visual classifiers”• Yang+ “Joint unsupervised learning of deep representation and image clusters”
13
初期の特徴量学習
教師付画像データ
画像特徴量
多変量解析
14
Kernel PCA
特徴ベクトル 𝒙𝒙を変換する方法
𝒈𝒈 = 𝚲𝚲−1/2𝑨𝑨⊤𝒌𝒌𝒌𝒌 = (𝐾𝐾 𝒙𝒙1,𝒙𝒙 ,𝐾𝐾 𝒙𝒙2,𝒙𝒙 , … ,𝑘𝑘(𝒙𝒙𝑛𝑛,𝒙𝒙)), 𝑲𝑲 = 𝐾𝐾 𝒙𝒙1,𝒙𝒙 𝑖𝑖,𝑗𝑗=1
𝑛𝑛
𝜆𝜆𝑖𝑖 ,𝜶𝜶𝑖𝑖 𝑖𝑖=1𝑛𝑛 : Sorted eigenvalues and normalized
eigenvectors of 𝑲𝑲𝜶𝜶 = 𝜆𝜆𝜶𝜶𝜆𝜆1 ≥ 𝜆𝜆2 ≥ ⋯ ≥ 𝜆𝜆𝑚𝑚, 𝜶𝜶𝑖𝑖 ,𝛼𝛼𝑗𝑗 = 𝛿𝛿𝑖𝑖,𝑗𝑗
𝚲𝚲 = diag(𝜆𝜆1, 𝜆𝜆2, … , 𝜆𝜆𝑚𝑚), 𝑨𝑨 = (𝜶𝜶1,𝜶𝜶2, … ,𝜶𝜶𝑚𝑚)
グラム行列が大きい → 計算量大小さい → 表現力不足
http://www.kecl.ntt.co.jp/people/kimura.akisato/titech/class.html
15
グラム行列を近似する方法
• Nystrom method‒ 学習サンプルの乱択 + 部分グラム行列の直交展開
‒ 直交展開に大きな計算量が必要
• Random feature method [Rahini+ NIPS07]
‒ カーネル関数を以下の形で表現
‒ パラメータ 𝑤𝑤のサンプリングによる関数近似
‒ 近似に学習サンプルを用いない → 近似誤差が不十分
16
学習サンプルを用いてカーネル関数を近似
Merserの定理
�𝑋𝑋𝑘𝑘 𝑥𝑥,𝑦𝑦 𝜓𝜓𝑖𝑖 𝑥𝑥 𝑝𝑝 𝑥𝑥 𝑑𝑑𝑥𝑥 = 𝜆𝜆𝑖𝑖𝜓𝜓𝑖𝑖(𝑥𝑥)
1. 分布 𝑝𝑝(𝑥𝑥) を学習サンプルから予測2. 固有関数 𝜓𝜓𝑖𝑖(𝑥𝑥) を求める3. 固有値 𝜆𝜆𝑖𝑖 が大きい固有関数だけ使う
(Mukuta and Harada)
17
最近の教師なし特徴量学習
Auto-encoder: 教師は自分
http://journal.frontiersin.org/article/10.3389/fncom.2015.00032/full
ここが特徴量
ここが画像
18
周辺情報から中央部分を予測する特徴量学習
(Pathak, Krahenbuhl, Donahue, Darrel and Efros)
平均値で埋める
別の欠損方法でも良い
19
教師なし特徴量学習の別アプローチ
教師のようなものを求められさえすれば良い
[Fang+ CVPR15]
「ユーザ 𝑗𝑗が画像 𝑖𝑖 を見た」行列 協調フィルタリング
20
Web annotationデータからのラベル予測
(Zhang, Shang, Yang, Xu, Luan and Chua)
ラベルベクトル 𝑦𝑦𝑡𝑡 を潜在ベクトル 𝑣𝑣𝑡𝑡 に変換(圧縮)
画像特徴ベクトル 𝑥𝑥𝑡𝑡 から潜在ベクトル 𝑣𝑣𝑡𝑡 を予測
21
クラスタリングと特徴量学習を同時最適化
(Yang, Parikh and Batra)
教師なし画像集合
CNN特徴抽出(教師=クラスタ)
Recurrent neural network (RNN) で全体をモデル化
クラスタを徐々に更新
クラスタ
Copyright©2014 NTT corp. All Rights Reserved.
クロスモーダル転移
• “Cross modal distillation for supervision transfer”• “Learning with side information through modality hallucination”• “Image style transfer using convolutional neural networks”• “Large scale semi-supervised object detection using visual and semantic
knowledge transfer”• “Synthesized classifiers for zero-shot learning”• “Semi-supervised vocabulary-informed learning”
23
クロスモーダル転移
典型例- Zero-shot learning• 画像のラベルを予測する分類問題で,
予測したいラベルの学習データが1つもない.
[Frome+ NIPS13]
word2vecCNN
CNN特徴から単語ベクトルを予測 単語ベクトルが類似する単語を予測結果として出力
24
クロスモーダル転移が流行る周辺環境
• どのモーダルでもNN特徴表現が利用可能に
• マルチモーダルNNの発達
[Silberer+ ACL14]
[Srivastava+ JMLR14]
Copyright©2014 NTT corp. All Rights Reserved.
マルチモーダル特徴量学習
• “MDL-CW: A multimodal deep learning framework with cross weights”• “Multi-view deep network for cross-view classification”• “Visual Word2Vec: Learning visually grounded word embeddings using abstract
scenes”
26
モーダルごとに学習して最後に統合,という固定観念を捨てる.
(Rastegar, Baghshah, Rabiee and Shojaee)
Stacked auto-encoderでpre-training
最終層を結合してfine tuning
27
判別分析規準のマルチモーダル特徴量学習を全部NNで実現.
(Kan, Shan and Chen)
クラスラベル
各モーダルからの入力
判別分析基準で損失を計算
28
画像を介して単語ベクトルの学習を精緻化
(Kottur, Vedantam, Moura and Parikh)
単語系列を入力
画像特徴量を予測
画像を介すことでparaphrasingの判定も
Copyright©2014 NTT corp. All Rights Reserved.
クロスモーダル転移
• “Cross modal distillation for supervision transfer”• “Learning with side information through modality hallucination”• “Synthesized classifiers for zero-shot learning”• “Semi-supervised vocabulary-informed learning”• “Latent embeddings for zero-shot classification”• “Image style transfer using convolutional neural networks”• “Learning attributes equals multi-source domain generalization”
30
大量の教師付データで学習済のドメインから,教師付データがほぼないドメインへモデル転移.
(Gupta, Hoffman and Malik)
転移の方法はあまり詳細に書かれていない
31
Depth networkの出力を模倣するhallucination networkの導入.
(Hoffman, Gupta and Darrell)
灰色四角:計算する損失
テスト時にdepthがなくても,depthを見ているのと似た効果が得られる.
32
Semantic空間での幾何関係を維持するように,分類器のパラメータを多次元埋め込みで構成.
(Changpinyo, Chao, Gong and Sha)
分類器のパラメータ空間Attributes もしくは word2vec 空間
実在クラス仮想クラス実在クラス
仮想クラス
33
予測対象ラベルの学習データがないかもしれないopen-vocabulary learningの実現.
(Fu and Sigal)
画像特徴 𝑥𝑥 を単語ベクトル 𝑢𝑢に変換する𝑊𝑊 を求めたい.
自分の属するクラスの単語ベクトルが一番近くなるように変換したい.
34
画像特徴と単語ベクトルの関係性を複数の「観点」から学習することを目指す.
(Xian, Akata, Sharma, Nguyen, Hein and Schiele)
画像特徴 𝑥𝑥 と単語ベクトル 𝑦𝑦 とのfeasibilityが最大になるクラスに分類.
通常: Feasibilityは単一パラメータの双線形変換で記述.
本論文:複数パラメータによる双線形変換の混合として記述.
35
(Gatys, Ecker and Bethge)
白色雑音で駆動
Styleだけ転移したい 中身だけ転移したい
Networkは実はどっちも同じ
フィルタ応答をそのまま使う
フィルタ応答の相関を使う
36
Attributesを用いた分類問題を「ドメイン汎化」 [Muandet+ ICML13] として考え直す.
(Gan, Yang, Gong)
Copyright©2014 NTT corp. All Rights Reserved.
まとめ
38
ジュースで一番大事なこと
材料
作り方
飲み方
39
特徴量学習も同じです
データセット
学習方法
利用目的
• 目的に合わせたデータセットを用いる必要がある.
• 同じ手法を用いても,異なる教師データからは異なる学習結果が出る.
• 思うように結果が出ないのは,本当に学習がうまくいっていないからでしょうか?
• データの使い方を工夫すると,今までできなかったことができるようになるかもしれない.
40