CVPR2011祭り発表スライド

CVPR2011 Paper Digest

(1) Interactive building a discriminative vocabulary of nameable attributes

(2) Recognition using visual phrases

Akisato Kimura @ NTT CS LabsTwitter ID: @_akisato

なぜこの2本を選んだのか？

CVPR2011祭り (July 31, 2011)2

「画像を理解する」をどう問題に落とす？物体認識…？

Person

物体認識をしただけでは，実は何も理解できていない！（物体だけを認識する一般物体認識の終焉）

[ Full description ]A woman wearing a blue cloth and gray tights is riding on a galloping white horse at a beautiful sandy beach under a clear sky.

何が足りないのか？ (1)

CVPR2011祭り (July 31, 2011)3

物体などの属性が足りないでも画像だけで全部できる気がしない

Horse: white

Person: femaleSky: clear

[ Full description ]A woman wearing a blue cloth and gray tights is riding on a galloping white horse at a beautiful sandy beach under a clear sky.

Beach: beautiful, sandy

第1論文の主題：属性辞書をインタラクティブに学習

何が足りないのか？ (2)

CVPR2011祭り (July 31, 2011)4

物体間の関係性が足りない

[ Full description ]A woman wearing a blue cloth and gray tights is riding on a white horse at a beautiful sandy beach under a clear sky.

第2論文の主題：物体とその関係性をクラスと見なす認識

A person is riding on a horse.

A person is wearing clothes.

Interactively building a discriminative vocabulary of

nameable attributes

D. Parikh @ Toyota Technological Institute, ChicagoK. Grauman @ University of Texas at Austin

やりたいこと

CVPR2011祭り (July 31, 2011)6

物体・シーンの属性の辞書・モデルをインタラクティブに構築する

物体やシーンはそれぞれ違うラベルが付いているけど，何か傾向があるような気がする…

何か名前があるかも！聞いてみよう！

アプローチ

CVPR2011祭り (July 31, 2011)7

物体クラスとは異なる類似性を見つける

クラス分類を壊さないような2クラス識別面を見つける

ユーザに見せる画像を適切に選択

尤もらしい仮説だけを選択して提示

類似性発見の方法

CVPR2011祭り (July 31, 2011)8

現在の属性辞書（この図では1つだけどいっぱいあってもOK）

現在の属性辞書で分離しにくい物体クラスの集合を見つける by normalized cuts

教師なし（物体も属性も関係なし）で最大マージンクラスタリング

Mixture of Probabilistic PCAsでモデル化，適切な仮説のみ選択

提示する画像の選択

CVPR2011祭り (July 31, 2011)9

最大マージンクラスタリングで得られた識別面（＝属性候補）

識別面に直交する軸を等間隔に区切る

区切った領域内で，識別面の真ん中に最も近いサンプルを選択

ユーザに何を尋ねるか？

CVPR2011祭り (July 31, 2011)10

•この属性の名前は？（以降はもし属性に名前があれば回答）•左右，どちらに行くほどその特性が強くなるか？•この画像列がその属性を表現するものとして，どの程度尤もらしいか（4段階評価）？

データセット

CVPR2011祭り (July 31, 2011)11

Outdoor scene recognition (OSR) http://people.csail.mit.edu/torralba/code/spatialenvelope/

Animals with attributes (AWA) http://attributes.kyb.tuebingen.mpg.de

共通事項各データセットから8物体クラスを選択

1画像1クラスとなるように加工された画像もある

属性の種類は主旨(gist)と色に限定

インタラクションはMechanical Turk経由

クラス選択と仮説選択の効果

CVPR2011祭り (July 31, 2011)12

クラス選択

クラスのランダム選択やクラス選択なしに比べ，意味ある仮説を適切に

選択できている

仮説選択

仮説のランダム選択と比較して，

意味ある仮説を適切に選択できている

全体としての効果

CVPR2011祭り (July 31, 2011)13

インタラクションを重ねれば，属性辞書は着実に構築されます．

なので，当然，認識精度も少し向上します．

Recognitionusing visual phrases

M.A. Sadeghi @ Institute for Research in Fundamental ScienceA. Farhadi @ University of Illinois at Urbana-Champaign

やりたいこと

CVPR2011祭り (July 31, 2011)15

物体とその関係性を認識する

Person_nextto_bicycle Person_drinking_bottle

Person_riding_bicycle Dog_lyingon_sofa

アプローチ

CVPR2011祭り (July 31, 2011)16

1. 関係性も物体同様，１つの「クラス」と見なす．なので，真に関係性を認識しているわけではない．

2. クラス間の位置関係を考慮して，クラス別での認識結果を修正（追加・削除）

Deformable part model[Felzenszwalb+ 2010]

PASCAL VOC 標準ソフト採用

各クラスのモデル

CVPR2011祭り (July 31, 2011)17

Felzenszwalb et al. “Object Detection with Discriminatively Trained Part Based Models,”IEEE Trans. PAMI, Vol.32, No.9, 2010. http://people.cs.uchicago.edu/~pff/latent/

bicycle

粗めPCA-HOG

物体パーツごとの細かめPCA-HOG

パーツ位置ずれ/変形に対するコスト

各クラスの認識

CVPR2011祭り (July 31, 2011)18

Input image

Model (person)

粗めHOG 細かめHOG （解像度2倍）

クラス別認識結果の統合

CVPR2011祭り (July 31, 2011)19

person

i番目のbounding boxを最終結果に使うかどうか？

i番目使わない → all 0 のベクトルi番目使う → i番目のbounding boxの特徴表現

クラス別に，位置関係・尤度・サイズ比等を考慮した「何らか」の(9K+1)次元ベクトル（ダッテナニモカイテナイシ）

識別軸 w でクラス判別を行う線形(structured)SVM

i番目のbounding boxのクラスインデックス

結果統合モデルの学習

CVPR2011祭り (July 31, 2011)20

Structured SVMの設計

仮説最適化と目的関数最大化の繰り返しで学習

n番目の画像全体でのbounding boxes の評価値

bounding boxの使用/不使用に関する仮説

仮説と正解とのハミング距離

データセット http://vision.cs.uiuc.edu/phrasal/

CVPR2011祭り (July 31, 2011)21

Bingでphraseを検索，以降は手動作業… 25クラス = 8 objects + 17 phrases

画像 2769枚 (822枚 = negative examples)

各クラス平均120枚のpositives

5067 bounding boxes （phrases:1796, objects:3271)

Dog jumping

Person drinking bottle

Person lying on sofa

関係性認識の精度が良くなります

CVPR2011祭り (July 31, 2011)22

精度が大きく向上した10 phrasesでのPR曲線

関係性認識の精度が良くなります

CVPR2011祭り (July 31, 2011)23

多くのphrasesでbaselineを大きく上回る性能

どのような状況が得手/不得手か，があまり明らかでない

物体認識の精度も少し良くなります

CVPR2011祭り (July 31, 2011)24

Deformable part model [Felzenszwalb+ PAMI2010]（Baselineとなる物体検出器，page 10 参照）

Structured learning formulti-class object layout [Desai+ ICCV2010]（scoring functionを使った物体関係モデルを用いた検出器）

物体認識の精度も良くなります

CVPR2011祭り (July 31, 2011)25

さいごのまとめ

Akisato Kimura @ NTT CS LabsTwitter ID: @_akisato

それでもやっぱりまだ足りない…

CVPR2011祭り (July 31, 2011)27

物体の動作が足りない → 第2論文でできたのはごく一部

風景を系統的に理解できない→ 物体・属性・関係性・動作の総合体，かなぁ

説明文自体を直接生成する

A horse is galloping.

Beach = sky(upper) + water(middle) + sand(lower)??

Ushiku et al.”Automatic Sentence Generation from Images,” to appear, ACMMM2011

CVPR2011祭り 発表スライド

Technology

Transcript of CVPR2011祭り 発表スライド

福井技術者の集い その3 発表資料スライド

webサービスでのUXデザイン 発表スライド

学会発表スライド(土木学会 全国大会 9月)

松林 学会発表用スライド ボストン・アシニアム図書館長 最終版

2014年4月17日 dstnHub発表スライド ライトニングトークス「開発部開発グループ OAuth2.0 認証を実現してみた」

10．8Vスライド式リチウムイオンバッテリ搭載の充電式ブロワを ... · 2020. 8. 24. · 10．8Vスライド式リチウムイオンバッテリ搭載の充電式ブロワを発売

英語教育史学会シンポ(2013/0518) 寺沢発表スライド暫定版

BbForum 2012 発表スライド

2016/02/27 コンテンツ文化史学会発表スライド

ALIS技術周りの話_2017年9月29日感謝祭Meet upスライド

【東京Node学園祭2016】Node.js × Babel で AWS Lambda アプリケーションを開発する

Si2016 発表スライド

発表動画作成要項発表時間を厳守し、動画を作成してください。3. 発表時間 発表時間は10分以内とします。スライドの枚数に制限はありません。発表スライドの作成

PV-Kスライド[Uタイプ]、[Pタイプ] PV-Kスライド[Rタイプ]€¦ · 新製品 pv-kスライド[rタイプ]10月中旬発売予定 内ツバタイプ 端部 内ツバタイプ

2014年4月17日 dstnHub発表スライド「dstnからのお知らせ」

4/10 Ruby/Railsビギナーズ勉強会発表スライド

ggvis入門 2015年8月30日 Kobe.R 発表スライド

青学×adidas 最終発表スライド

スライド 1Title スライド 1

2014年4月17日 dstnHub発表スライド ライトニングトークス「開発部開発グループ DataSpiderでブラウザ連携」

CVPR2011祭り発表スライド

Transcript of CVPR2011祭り発表スライド

福井技術者の集いその3 発表資料スライド

webサービスでのUXデザイン発表スライド

学会発表スライド(土木学会全国大会 9月)

松林　学会発表用スライド　ボストン・アシニアム図書館長最終版

2014年4月17日 dstnHub発表スライドライトニングトークス「開発部開発グループ OAuth2.0 認証を実現してみた」

発表動画作成要項発表時間を厳守し、動画を作成してください。3. 発表時間発表時間は10分以内とします。スライドの枚数に制限はありません。発表スライドの作成

PV-Kスライド[Uタイプ]、[Pタイプ] PV-Kスライド[Rタイプ]€¦ · 新製品 pv-kスライド[rタイプ]10月中旬発売予定内ツバタイプ端部内ツバタイプ

ggvis入門　2015年8月30日 Kobe.R 発表スライド

2014年4月17日 dstnHub発表スライドライトニングトークス「開発部開発グループ DataSpiderでブラウザ連携」