CVPR 2015 論文紹介(NTT研究所内勉強会用資料)
-
Upload
- -
Category
Technology
-
view
863 -
download
5
Transcript of CVPR 2015 論文紹介(NTT研究所内勉強会用資料)
![Page 1: CVPR 2015 論文紹介(NTT研究所内勉強会用資料)](https://reader036.fdocument.pub/reader036/viewer/2022062313/55cee014bb61eb3c678b456c/html5/thumbnails/1.jpg)
Copyright©2015 NTT corp. All Rights Reserved.
ベイズ勉強会
CVPR 読み会(画像 × 言語を中心に)
基メ部 基識G 牛久祥孝
![Page 2: CVPR 2015 論文紹介(NTT研究所内勉強会用資料)](https://reader036.fdocument.pub/reader036/viewer/2022062313/55cee014bb61eb3c678b456c/html5/thumbnails/2.jpg)
2Copyright©2015 NTT corp. All Rights Reserved.
CVPR2015 (6 月 7 日~ 12 日 )
カメラレディ論文公開: 5/24 ~• 個人 web ページで先んじて公開している• arXiv にも投稿する文化が広まりつつある
画像と自然言語、そして深層学習を中心にいくつかの論文を紹介
![Page 3: CVPR 2015 論文紹介(NTT研究所内勉強会用資料)](https://reader036.fdocument.pub/reader036/viewer/2022062313/55cee014bb61eb3c678b456c/html5/thumbnails/3.jpg)
3Copyright©2015 NTT corp. All Rights Reserved.
次々見つかる Deep Learning の応用先
• 画像認識 [Krizhevsky+, NIPS 2012]– 1000 クラス 130 万枚
• 機械翻訳 [Sutskever+, NIPS 2014]– 英仏 1200 万対訳対
![Page 4: CVPR 2015 論文紹介(NTT研究所内勉強会用資料)](https://reader036.fdocument.pub/reader036/viewer/2022062313/55cee014bb61eb3c678b456c/html5/thumbnails/4.jpg)
4Copyright©2015 NTT corp. All Rights Reserved.
• Google のやつのニュース
![Page 5: CVPR 2015 論文紹介(NTT研究所内勉強会用資料)](https://reader036.fdocument.pub/reader036/viewer/2022062313/55cee014bb61eb3c678b456c/html5/thumbnails/5.jpg)
5Copyright©2015 NTT corp. All Rights Reserved.
日本でも反響
• Gigazine 、「 Google が画像の説明文章を自動生成する技術を開発」、 2014 年 11月 19 日
• TechCrunch Japan 、「複雑な画像のキャプション(説明文)を自動生成するシステムを Google が研究開発中」、 2014 年 11月 19 日
• 日経 BP 、「 MS や Google が研究、画像説明文の自動生成機能」、 2014 年 11 月21 日
![Page 6: CVPR 2015 論文紹介(NTT研究所内勉強会用資料)](https://reader036.fdocument.pub/reader036/viewer/2022062313/55cee014bb61eb3c678b456c/html5/thumbnails/6.jpg)
6Copyright©2015 NTT corp. All Rights Reserved.
今年の CVPR のオーラルセッション
CNN 特化セッション(去年もあった)
画像と言語セッション( New! )
![Page 7: CVPR 2015 論文紹介(NTT研究所内勉強会用資料)](https://reader036.fdocument.pub/reader036/viewer/2022062313/55cee014bb61eb3c678b456c/html5/thumbnails/7.jpg)
7Copyright©2015 NTT corp. All Rights Reserved.
今年の CVPR のオーラルセッション
CNN 特化セッション(去年もあった)
画像と言語セッション( New! )
Neural Network による説明文生成が同時に 3 本オーラル発表ポスターでも MSR 等が説明文生成
![Page 8: CVPR 2015 論文紹介(NTT研究所内勉強会用資料)](https://reader036.fdocument.pub/reader036/viewer/2022062313/55cee014bb61eb3c678b456c/html5/thumbnails/8.jpg)
Copyright©2015 NTT corp. All Rights Reserved.
紹介論文1. Show and Tell: A Neural Image Caption
Generator [Vinyals+, CVPR 2015]2. Long-term Recurrent Convolutional Networks
for Visual Recognition and Description [Donahue+, CVPR 2015]
3. Deep Visual-Semantic Alignments for Generating Image Descriptions [Karpathy+Fei-Fei, CVPR 2015]
![Page 9: CVPR 2015 論文紹介(NTT研究所内勉強会用資料)](https://reader036.fdocument.pub/reader036/viewer/2022062313/55cee014bb61eb3c678b456c/html5/thumbnails/9.jpg)
9Copyright©2015 NTT corp. All Rights Reserved.
これまでの説明文生成
• これまでは、やや前時代的な組合せ– 他の画像の説明文をそのまま流用
[Farhadi+, ECCV 2010][Hodosh+, 2013]– 物体や動作、シーンを推定→テンプレートに
そって文生成[Kulkarni+, CVPR 2011][Gupta+, AAAI 2012]
![Page 10: CVPR 2015 論文紹介(NTT研究所内勉強会用資料)](https://reader036.fdocument.pub/reader036/viewer/2022062313/55cee014bb61eb3c678b456c/html5/thumbnails/10.jpg)
10Copyright©2015 NTT corp. All Rights Reserved.
Google NIC [Vinyals+, CVPR 2015]
Google で開発された• GoogLeNet [Szegedy+, CVPR 2015]
• LSTM [Sutskever+, NIPS 2014]
を直列させて文生成する。
画像への文(単語列)は意味する単語
を意味する単語
![Page 11: CVPR 2015 論文紹介(NTT研究所内勉強会用資料)](https://reader036.fdocument.pub/reader036/viewer/2022062313/55cee014bb61eb3c678b456c/html5/thumbnails/11.jpg)
11Copyright©2015 NTT corp. All Rights Reserved.
生成された説明文の例
![Page 12: CVPR 2015 論文紹介(NTT研究所内勉強会用資料)](https://reader036.fdocument.pub/reader036/viewer/2022062313/55cee014bb61eb3c678b456c/html5/thumbnails/12.jpg)
12Copyright©2015 NTT corp. All Rights Reserved.
LRCN [Donahue+, CVPR 2015]
• CNN+stacked LSTM– 動作認識(下図左)– 画像説明文生成(下図中央)– 動画説明文生成(下図右)
![Page 13: CVPR 2015 論文紹介(NTT研究所内勉強会用資料)](https://reader036.fdocument.pub/reader036/viewer/2022062313/55cee014bb61eb3c678b456c/html5/thumbnails/13.jpg)
13Copyright©2015 NTT corp. All Rights Reserved.
生成された説明文の例
![Page 14: CVPR 2015 論文紹介(NTT研究所内勉強会用資料)](https://reader036.fdocument.pub/reader036/viewer/2022062313/55cee014bb61eb3c678b456c/html5/thumbnails/14.jpg)
14Copyright©2015 NTT corp. All Rights Reserved.
Visual-Semantic Alignments[Karpathy+Fei-Fei, CVPR 2015]
• 画像説明文生成は CNN+Bidirectional RNN– 他の手法とほぼ同一– 並列で Visual Semantic Alignment を提案
![Page 15: CVPR 2015 論文紹介(NTT研究所内勉強会用資料)](https://reader036.fdocument.pub/reader036/viewer/2022062313/55cee014bb61eb3c678b456c/html5/thumbnails/15.jpg)
15Copyright©2015 NTT corp. All Rights Reserved.
画像領域と文の一部とのアライメント
Image-sentence score (右図)画像領域・説明文単語、
から計算
対応する画像・説明文ペアの score> 非対応ペアの score になるよう学習
![Page 16: CVPR 2015 論文紹介(NTT研究所内勉強会用資料)](https://reader036.fdocument.pub/reader036/viewer/2022062313/55cee014bb61eb3c678b456c/html5/thumbnails/16.jpg)
16Copyright©2015 NTT corp. All Rights Reserved.
アライメントの例
![Page 17: CVPR 2015 論文紹介(NTT研究所内勉強会用資料)](https://reader036.fdocument.pub/reader036/viewer/2022062313/55cee014bb61eb3c678b456c/html5/thumbnails/17.jpg)
17Copyright©2015 NTT corp. All Rights Reserved.
お互いにとても似ている
CNN(画像特徴量) RNN(文生成)Google NIC GoogLeNet ( 22 層
CNN )Fine Tuning あり
LSTM
LRCN VGG Net ( 19 層 CNN )Fine Tuning あり
Stacked LSTMs
Visual-Semantic Alignment AlexNet ( 7 層 CNN )Fine Tuning なし
BRNN → LSTM
表: Visual-Semantic Alignments [Karpathy+Fei-Fei, CVPR 2015] 内での比較
![Page 18: CVPR 2015 論文紹介(NTT研究所内勉強会用資料)](https://reader036.fdocument.pub/reader036/viewer/2022062313/55cee014bb61eb3c678b456c/html5/thumbnails/18.jpg)
18Copyright©2015 NTT corp. All Rights Reserved.
[Ushiku+, ACM MM 2012] と比べると入力画像
[Ushiku+, ACM MM 2012] では:Fisher Vector + 線形分類オンライン学習
CVPR 2015 の各論文では:CNN (オンライン学習なのは一緒)
CVPR 2015 の各論文では:RNN とビームサーチで文をつなぐ
[Ushiku+, ACM MM 2012] では:キーフレーズと文法モデル、ビームサーチで文をつなぐ
文の一部で重要そうなものを複数推定 文法モデルを利用して繋ぎ、説明文に
尽く引用されていないが、全体の流れは非常に似ている
“ キーフレーズ”
![Page 19: CVPR 2015 論文紹介(NTT研究所内勉強会用資料)](https://reader036.fdocument.pub/reader036/viewer/2022062313/55cee014bb61eb3c678b456c/html5/thumbnails/19.jpg)
Copyright©2015 NTT corp. All Rights Reserved.
紹介論文4. Deep Neural Networks are Easilly Fooled:
High Confidence Predictions for Unrecognizable Images [Nguyen+, CVPR 2015]
5. Understanding Deep Image Representation by Inverting Them [Mahendran+Vedaldi, CVPR 2015]
![Page 20: CVPR 2015 論文紹介(NTT研究所内勉強会用資料)](https://reader036.fdocument.pub/reader036/viewer/2022062313/55cee014bb61eb3c678b456c/html5/thumbnails/20.jpg)
20Copyright©2015 NTT corp. All Rights Reserved.
何の画像でしょうか?
![Page 21: CVPR 2015 論文紹介(NTT研究所内勉強会用資料)](https://reader036.fdocument.pub/reader036/viewer/2022062313/55cee014bb61eb3c678b456c/html5/thumbnails/21.jpg)
21Copyright©2015 NTT corp. All Rights Reserved.
何の画像でしょうか?
![Page 22: CVPR 2015 論文紹介(NTT研究所内勉強会用資料)](https://reader036.fdocument.pub/reader036/viewer/2022062313/55cee014bb61eb3c678b456c/html5/thumbnails/22.jpg)
22Copyright©2015 NTT corp. All Rights Reserved.
だまし画像生成 [Nguyen+, CVPR 2015]
![Page 23: CVPR 2015 論文紹介(NTT研究所内勉強会用資料)](https://reader036.fdocument.pub/reader036/viewer/2022062313/55cee014bb61eb3c678b456c/html5/thumbnails/23.jpg)
23Copyright©2015 NTT corp. All Rights Reserved.
だまし画像生成 [Nguyen+, CVPR 2015]
• 進化アルゴリズムを利用– 特定のクラスへの confidence が 99.99% にな
るように1. ピクセルごとにランダム初期値→進化2. 画像を生成する Neural Net を進化 [Stanley,
2007]
![Page 24: CVPR 2015 論文紹介(NTT研究所内勉強会用資料)](https://reader036.fdocument.pub/reader036/viewer/2022062313/55cee014bb61eb3c678b456c/html5/thumbnails/24.jpg)
24Copyright©2015 NTT corp. All Rights Reserved.
特徴量可視化 [Mahendran+Vedaldi, CVPR 2015]
• [Nguyen+, CVPR 2015] は出力のみを見て画像を生成 – CNN の途中のレイヤーなどは無視– 各層での学習結果を直接可視化出来るか?
• 先行研究 [Zeiler+Fergus, ECCV 2014] では・・・
– Max pooling したユニットの情報が必要– ある入力画像による勾配を可視化しているだけ [Simonyan+, ICLR 2014]
![Page 25: CVPR 2015 論文紹介(NTT研究所内勉強会用資料)](https://reader036.fdocument.pub/reader036/viewer/2022062313/55cee014bb61eb3c678b456c/html5/thumbnails/25.jpg)
25Copyright©2015 NTT corp. All Rights Reserved.
特徴量可視化 [Mahendran+Vedaldi, CVPR 2015]
画像の正則化今の画像の特徴量
目的の特徴量画素(タテ xヨコ x チャネル数)
損失関数 =
正則化項 =
![Page 26: CVPR 2015 論文紹介(NTT研究所内勉強会用資料)](https://reader036.fdocument.pub/reader036/viewer/2022062313/55cee014bb61eb3c678b456c/html5/thumbnails/26.jpg)
26Copyright©2015 NTT corp. All Rights Reserved.
特徴量可視化 [Mahendran+Vedaldi, CVPR 2015]
• 勾配降下法によって最適化
を入力したときの
の各レイヤを可視化すると・・・