CVPR2011祭り 発表スライド

27
CVPR2011 Paper Digest (1) Interactive building a discriminative vocabulary of nameable attributes (2) Recognition using visual phrases Akisato Kimura @ NTT CS Labs Twitter ID: @_akisato

description

7/31 Sun 開催予定のCVPR2011祭りの発表スライドを公開します.

Transcript of CVPR2011祭り 発表スライド

Page 1: CVPR2011祭り 発表スライド

CVPR2011 Paper Digest

(1) Interactive building a discriminative vocabulary of nameable attributes

(2) Recognition using visual phrases

Akisato Kimura @ NTT CS LabsTwitter ID: @_akisato

Page 2: CVPR2011祭り 発表スライド

なぜこの2本を選んだのか?

CVPR2011祭り (July 31, 2011)2

「画像を理解する」をどう問題に落とす? 物体認識…?

Horse

Person

物体認識をしただけでは,実は何も理解できていない!(物体だけを認識する一般物体認識の終焉)

[ Full description ]A woman wearing a blue cloth and gray tights is riding on a galloping white horse at a beautiful sandy beach under a clear sky.

Page 3: CVPR2011祭り 発表スライド

何が足りないのか? (1)

CVPR2011祭り (July 31, 2011)3

物体などの属性が足りない でも画像だけで全部できる気がしない

Horse: white

Person: femaleSky: clear

[ Full description ]A woman wearing a blue cloth and gray tights is riding on a galloping white horse at a beautiful sandy beach under a clear sky.

Beach: beautiful, sandy

第1論文の主題: 属性辞書をインタラクティブに学習

Page 4: CVPR2011祭り 発表スライド

何が足りないのか? (2)

CVPR2011祭り (July 31, 2011)4

物体間の関係性が足りない

[ Full description ]A woman wearing a blue cloth and gray tights is riding on a white horse at a beautiful sandy beach under a clear sky.

第2論文の主題: 物体とその関係性をクラスと見なす認識

A person is riding on a horse.

A person is wearing clothes.

Page 5: CVPR2011祭り 発表スライド

Interactively building a discriminative vocabulary of

nameable attributes

D. Parikh @ Toyota Technological Institute, ChicagoK. Grauman @ University of Texas at Austin

Page 6: CVPR2011祭り 発表スライド

やりたいこと

CVPR2011祭り (July 31, 2011)6

物体・シーンの属性の辞書・モデルをインタラクティブに構築する

物体やシーンはそれぞれ違うラベルが付いているけど,何か傾向があるような気がする…

何か名前があるかも!聞いてみよう!

Page 7: CVPR2011祭り 発表スライド

アプローチ

CVPR2011祭り (July 31, 2011)7

物体クラスとは異なる類似性を見つける

クラス分類を壊さないような2クラス識別面を見つける

ユーザに見せる画像を適切に選択

尤もらしい仮説だけを選択して提示

Page 8: CVPR2011祭り 発表スライド

類似性発見の方法

CVPR2011祭り (July 31, 2011)8

現在の属性辞書(この図では1つだけどいっぱいあってもOK)

現在の属性辞書で分離しにくい物体クラスの集合を見つける by normalized cuts

教師なし(物体も属性も関係なし)で最大マージンクラスタリング

Mixture of Probabilistic PCAsでモデル化,適切な仮説のみ選択

Page 9: CVPR2011祭り 発表スライド

提示する画像の選択

CVPR2011祭り (July 31, 2011)9

最大マージンクラスタリングで得られた識別面 (=属性候補)

識別面に直交する軸を等間隔に区切る

区切った領域内で,識別面の真ん中に最も近いサンプルを選択

Page 10: CVPR2011祭り 発表スライド

ユーザに何を尋ねるか?

CVPR2011祭り (July 31, 2011)10

•この属性の名前は? (以降はもし属性に名前があれば回答)•左右,どちらに行くほどその特性が強くなるか?•この画像列がその属性を表現するものとして,どの程度尤もらしいか (4段階評価)?

Page 11: CVPR2011祭り 発表スライド

データセット

CVPR2011祭り (July 31, 2011)11

Outdoor scene recognition (OSR) http://people.csail.mit.edu/torralba/code/spatialenvelope/

Animals with attributes (AWA) http://attributes.kyb.tuebingen.mpg.de

共通事項 各データセットから8物体クラスを選択

1画像1クラスとなるように加工された画像もある

属性の種類は主旨(gist)と色に限定

インタラクションはMechanical Turk経由

Page 12: CVPR2011祭り 発表スライド

クラス選択と仮説選択の効果

CVPR2011祭り (July 31, 2011)12

クラス選択

クラスのランダム選択やクラス選択なしに比べ,意味ある仮説を適切に

選択できている

仮説選択

仮説のランダム選択と比較して,

意味ある仮説を適切に選択できている

Page 13: CVPR2011祭り 発表スライド

全体としての効果

CVPR2011祭り (July 31, 2011)13

インタラクションを重ねれば,属性辞書は着実に構築されます.

なので,当然,認識精度も少し向上します.

Page 14: CVPR2011祭り 発表スライド

Recognitionusing visual phrases

M.A. Sadeghi @ Institute for Research in Fundamental ScienceA. Farhadi @ University of Illinois at Urbana-Champaign

Page 15: CVPR2011祭り 発表スライド

やりたいこと

CVPR2011祭り (July 31, 2011)15

物体とその関係性を認識する

Person_nextto_bicycle Person_drinking_bottle

Person_riding_bicycle Dog_lyingon_sofa

Page 16: CVPR2011祭り 発表スライド

アプローチ

CVPR2011祭り (July 31, 2011)16

1. 関係性も物体同様,1つの「クラス」と見なす. なので,真に関係性を認識しているわけではない.

2. クラス間の位置関係を考慮して,クラス別での認識結果を修正 (追加・削除)

1

2

Page 17: CVPR2011祭り 発表スライド

Deformable part model[Felzenszwalb+ 2010]

PASCAL VOC 標準ソフト採用

各クラスのモデル

CVPR2011祭り (July 31, 2011)17

Felzenszwalb et al. “Object Detection with Discriminatively Trained Part Based Models,”IEEE Trans. PAMI, Vol.32, No.9, 2010. http://people.cs.uchicago.edu/~pff/latent/

bicycle

粗めPCA-HOG

物体パーツごとの細かめPCA-HOG

パーツ位置ずれ/変形に対するコスト

Page 18: CVPR2011祭り 発表スライド

各クラスの認識

CVPR2011祭り (July 31, 2011)18

Input image

Model (person)

粗めHOG 細かめHOG (解像度2倍)

Page 19: CVPR2011祭り 発表スライド

クラス別認識結果の統合

CVPR2011祭り (July 31, 2011)19

person

person

person

bag

i番目のbounding boxを最終結果に使うかどうか?

i番目使わない → all 0 のベクトルi番目使う → i番目のbounding boxの特徴表現

クラス別に,位置関係・尤度・サイズ比等を考慮した「何らか」の(9K+1)次元ベクトル (ダッテナニモカイテナイシ)

識別軸 w でクラス判別を行う線形(structured)SVM

i番目のbounding boxのクラス インデックス

Page 20: CVPR2011祭り 発表スライド

結果統合モデルの学習

CVPR2011祭り (July 31, 2011)20

Structured SVMの設計

仮説最適化と目的関数最大化の繰り返しで学習

n番目の画像全体でのbounding boxes の評価値

bounding boxの使用/不使用に関する仮説

仮説と正解とのハミング距離

Page 21: CVPR2011祭り 発表スライド

データセット http://vision.cs.uiuc.edu/phrasal/

CVPR2011祭り (July 31, 2011)21

Bingでphraseを検索,以降は手動作業… 25クラス = 8 objects + 17 phrases

画像 2769枚 (822枚 = negative examples)

各クラス 平均120枚のpositives

5067 bounding boxes (phrases:1796, objects:3271)

Dog jumping

Person drinking bottle

Person lying on sofa

Page 22: CVPR2011祭り 発表スライド

関係性認識の精度が良くなります

CVPR2011祭り (July 31, 2011)22

精度が大きく向上した10 phrasesでのPR曲線

Page 23: CVPR2011祭り 発表スライド

関係性認識の精度が良くなります

CVPR2011祭り (July 31, 2011)23

多くのphrasesでbaselineを大きく上回る性能

どのような状況が得手/不得手か,があまり明らかでない

Page 24: CVPR2011祭り 発表スライド

物体認識の精度も少し良くなります

CVPR2011祭り (July 31, 2011)24

Deformable part model [Felzenszwalb+ PAMI2010](Baselineとなる物体検出器,page 10 参照)

Structured learning formulti-class object layout [Desai+ ICCV2010](scoring functionを使った物体関係モデルを用いた検出器)

Page 25: CVPR2011祭り 発表スライド

物体認識の精度も良くなります

CVPR2011祭り (July 31, 2011)25

Page 26: CVPR2011祭り 発表スライド

さいごのまとめ

Akisato Kimura @ NTT CS LabsTwitter ID: @_akisato

Page 27: CVPR2011祭り 発表スライド

それでもやっぱりまだ足りない…

CVPR2011祭り (July 31, 2011)27

物体の動作が足りない → 第2論文でできたのはごく一部

風景を系統的に理解できない→ 物体・属性・関係性・動作の総合体,かなぁ

説明文自体を直接生成する

A horse is galloping.

Beach = sky(upper) + water(middle) + sand(lower)??

Ushiku et al.”Automatic Sentence Generation from Images,” to appear, ACMMM2011