人間の視覚的注意を予測するモデル: 動的ベイジアン...

6
人間の視覚的注意を予測するモデル: 動的ベイジアンネットワークに基づく最新のアプローチ A model for estimating human visual attention: the latest approch with a dynamic Bayesian network 木村 昭悟 日本電信電話(株) コミュニケーション科学基礎研究所 Akisato Kimura NTT Communication Science Laboratories, NTT Corporation アブストラクト 人間は、網膜に映る映像の中から重要 と思われる領域を瞬時に判断することで、効率的に情報 を獲得している。この機能を計算機上で実現することが できれば、人間と同様に重要性に応じて映像中の情報を 能動的に取捨選択でき、数多くの映像処理システムをよ り高度化できると期待される。本講演では、人間の映像注 視行動を高速かつ高精度に模擬するための新しい視覚的 注意の確率的な計算モデルについて解説すると共に、こ こから派生する新たな問題について言及し議論する。 1 はじめに ある与えられた画像や映像の中から「もの」を取り出 す物体検出、及びその「もの」に関する情報を提示する 物体認識は、パターン認識やコンピュータビジョンの研 究分野において非常に長い歴史を持つと共に、無数とも 言えるほどの数の研究がなされている、非常にホットな トピックの 1 つである。特に、人間やその顔など、一部の 特定対象についての物体検出については、対象に関する 事前知識を有効かつ最大限に利用することで、すでに実 用に供する技術水準に到達している [1], [2]。しかし、対象 に関する制約のない一般の物体検出・認識については、対 象となる物体の種類が膨大であること、同一種類の物体 でも多様な要因により見た目が大きく変化することなど から、極めて解決が難しい問題として知られている [3]一方で、我々人間は、特に意識することなく日常的に、 様々な物体の検出や認識を行っている。例えば、図 1 左に 示す画像を見ると、乗用車・標識・白線などの存在を即時 に検出できるだろう。このような機能の実現には、視覚的 注意 (visual attention) [5] と呼ばれる人間の視覚メカニ ズムが大きく関与していると考えられている。すなわち、 視覚的注意とは、目から入力されてくる信号の中から重 要と思われる情報を瞬時に判断して、効率的かつ選択的 に情報を獲得するためのメカニズムである。この視覚的 1: 顕著度に基づく視覚的注意のメカニズム。Itti らの 計算モデル [4] により、左の入力画像から右の顕著度画像 が得られる。Itti らは、顕著度画像の画素値が最大となる 箇所に注意が向けられる仕組みを仮定したが、この例か らも、必ずしもその仮定が真ではないことがわかる。 注意を、視覚メカニズムの初期段階で事前処理として用 いることで、物体認識などに代表される後段のより高次 な処理をより簡潔・より高速に実現できる。この処理を 計算機上で同様に模擬することが可能となれば、人間と 同様に、重要性に応じて映像中の情報を能動的に取捨選 択する人工的な視覚機構が構築され、数多くのシステム をより高度化できると期待される。 2 視覚的注意の計算モデル 視覚的注意の計算モデルとして、Itti, Koch, & Niebur によって提案された顕著度に基づく計算モデル [4] が最も 広く知られている。図 2 にその概要を示す。このモデルは、 Koch Ullman が提案し検証した人間の視覚的注意につ いての生理学的モデル [5] を信号処理アルゴリズムとして 記述した試みとして捉えることができる。Koch-Ullman のモデルでは、ごく低次の処理によって脳内に顕著度画 (saliency map) と称するグレースケール画像が形成さ れ、その画素値である顕著度が最大の箇所に注意が向け られる仕組みを仮定している。Itti らの計算モデルでは、 この顕著度画像を与えられた画像から抽出する方法につ

Transcript of 人間の視覚的注意を予測するモデル: 動的ベイジアン...

Page 1: 人間の視覚的注意を予測するモデル: 動的ベイジアン ......人間の視覚的注意を予測するモデル: 動的ベイジアンネットワークに基づく最新のアプローチ

人間の視覚的注意を予測するモデル:

 動的ベイジアンネットワークに基づく最新のアプローチA model for estimating human visual attention:

the latest approch with a dynamic Bayesian network

木村 昭悟 ‡

‡日本電信電話(株) コミュニケーション科学基礎研究所

Akisato Kimura‡

‡NTT Communication Science Laboratories, NTT Corporation

アブストラクト 人間は、網膜に映る映像の中から重要

と思われる領域を瞬時に判断することで、効率的に情報

を獲得している。この機能を計算機上で実現することが

できれば、人間と同様に重要性に応じて映像中の情報を

能動的に取捨選択でき、数多くの映像処理システムをよ

り高度化できると期待される。本講演では、人間の映像注

視行動を高速かつ高精度に模擬するための新しい視覚的

注意の確率的な計算モデルについて解説すると共に、こ

こから派生する新たな問題について言及し議論する。

1 はじめに

ある与えられた画像や映像の中から「もの」を取り出

す物体検出、及びその「もの」に関する情報を提示する

物体認識は、パターン認識やコンピュータビジョンの研

究分野において非常に長い歴史を持つと共に、無数とも

言えるほどの数の研究がなされている、非常にホットな

トピックの 1つである。特に、人間やその顔など、一部の

特定対象についての物体検出については、対象に関する

事前知識を有効かつ最大限に利用することで、すでに実

用に供する技術水準に到達している [1], [2]。しかし、対象

に関する制約のない一般の物体検出・認識については、対

象となる物体の種類が膨大であること、同一種類の物体

でも多様な要因により見た目が大きく変化することなど

から、極めて解決が難しい問題として知られている [3]。

一方で、我々人間は、特に意識することなく日常的に、

様々な物体の検出や認識を行っている。例えば、図 1左に

示す画像を見ると、乗用車・標識・白線などの存在を即時

に検出できるだろう。このような機能の実現には、視覚的

注意 (visual attention) [5]と呼ばれる人間の視覚メカニ

ズムが大きく関与していると考えられている。すなわち、

視覚的注意とは、目から入力されてくる信号の中から重

要と思われる情報を瞬時に判断して、効率的かつ選択的

に情報を獲得するためのメカニズムである。この視覚的

図 1: 顕著度に基づく視覚的注意のメカニズム。Ittiらの

計算モデル [4]により、左の入力画像から右の顕著度画像

が得られる。Ittiらは、顕著度画像の画素値が最大となる

箇所に注意が向けられる仕組みを仮定したが、この例か

らも、必ずしもその仮定が真ではないことがわかる。

注意を、視覚メカニズムの初期段階で事前処理として用

いることで、物体認識などに代表される後段のより高次

な処理をより簡潔・より高速に実現できる。この処理を

計算機上で同様に模擬することが可能となれば、人間と

同様に、重要性に応じて映像中の情報を能動的に取捨選

択する人工的な視覚機構が構築され、数多くのシステム

をより高度化できると期待される。

2 視覚的注意の計算モデル

視覚的注意の計算モデルとして、Itti, Koch, & Niebur

によって提案された顕著度に基づく計算モデル [4]が最も

広く知られている。図 2にその概要を示す。このモデルは、

KochとUllmanが提案し検証した人間の視覚的注意につ

いての生理学的モデル [5]を信号処理アルゴリズムとして

記述した試みとして捉えることができる。Koch-Ullman

のモデルでは、ごく低次の処理によって脳内に顕著度画

像 (saliency map)と称するグレースケール画像が形成さ

れ、その画素値である顕著度が最大の箇所に注意が向け

られる仕組みを仮定している。Ittiらの計算モデルでは、

この顕著度画像を与えられた画像から抽出する方法につ

Page 2: 人間の視覚的注意を予測するモデル: 動的ベイジアン ......人間の視覚的注意を予測するモデル: 動的ベイジアンネットワークに基づく最新のアプローチ

 図 2: Ittiらの計算モデルにおける顕著度画像の抽出方法。

直感的には、輝度・補色差・エッジ方向・運動方向などの

基礎特徴の空間的なコントラストが大きい箇所ほど顕著

度が大きくなる傾向にある。

いて言及している。

図 1右に、同図左を入力画像としたときの顕著度画像

を示す。この顕著度画像を抽出するには、まず、入力画像

からいくつかの基礎特徴画像を抽出し、それら基礎特徴画

像の多重解像度表現をそれぞれ構成することが第 1ステッ

プとなる。基礎特徴として、輝度・補色差(赤/緑、青/

黄)・エッジ方向(0,π/4,π/2, 3π/4)を用いる。次に、上

記の各基礎特徴の多重解像度表現を用いて、異なる解像

度にある基礎特徴画像の差分を 6通りの解像度の組み合

わせにおいて算出する。この差分画像を、Ittiは feature

mapと呼んでいる。そして、各 feature mapを正規化し

た後に基礎特徴ごとに加算して、conspicuity mapと称す

る画像を生成する。ここでの正規化は、いわゆる標準正

規化とは異なり、feature map内の局所的なピークが少数

である場合にはそれらが強調され、多数である場合には

それらが抑制されることにより、多数のピークを持つ「顕

著でない」feature mapの影響を小さくする機能を持つも

のである。最後に、各 conspicuity mapを同様に正規化し

た後に加算することで、顕著度画像を得る。

Itti らの計算モデルは、その提案がなされて以降、そ

のシンプルな処理とリーズナブルな出力結果ゆえに、画

像処理・パターン認識・コンピュータビジョン・神経科

学・ロボティクスなど数多くかつ幅広い研究者に影響を与

え、計算モデルそのものの高度化 [6]・映像信号への拡張

[7], [9], [10]など、様々な側面から派生研究が行われた。

しかし、これらいずれのモデルには重大な問題点があ

る。すなわち、入力される画像・映像に対して確定的に各

位置の顕著度が算出され、各時点において顕著度が最も

大きな箇所に注意が向けられることを仮定している。し

かし、実際には、同じ映像を見ても視聴者によってもし

くは視聴のタイミングによって注意が向けられる位置が

異なると考えられ、モデルの仮定とは矛盾する。図 1は、

この矛盾の存在を示す典型例の 1つである。

このような視覚的注意の不確定性が生じる理由は、従来、

bottom-upな信号刺激とは独立に設定される top-downな

制御によるものと考えられ、それが支持されてきた [11]。

より簡便な言い方をすれば、映像のどの箇所に注意を向け

るかが人や時によって異なるのは、映像視聴者の意図・知

識・興味・関心が異なるためである、という仮説と言える。

この観点から、既存の視覚的注意の計算モデルに、検出

したい対象の(低次・高次の)特徴を強調する [12]—[14]、

顔など経験的に注意が向きやすいことが知られている対

象を検出して重視する [8]などの改良がなされている。ま

た、top-down制御の傾向をあらかじめ十分に集積して学

習しておくことができれば、視覚的注意の不確定性を確

率的な現象として捉えることも可能となる。この観点か

ら、視覚的注意の確率的な計算モデルもここ 2∼3年で各

種提案されてきている [6], [15], [16]。

3 視覚的注意の確率モデル

これに対し、Ecksteinらは、通信理論や心理学で広く

用いられている信号検出理論の考え方を視覚的注意に適

用することで、bottom-upな信号刺激とごく低次の脳内

処理だけで視覚的注意に不確定性が生じる原理を説明し、

それを心理物理学的な検証によって示した [17]。以下で

は、この原理について図 3を用いて説明する。

Ittiらの計算モデルでは、入力画像に対して顕著度画像

が一意に決まる。しかし、ここでは、脳内処理の過程に

おいて何らかの外乱もしくは系そのものが発生するノイ

ズの影響を受け、実際には「真の」顕著度画像とは異なる

顕著度画像が観測される、と考える。このようにして観

測された顕著度画像を、以降、確率的顕著度画像と呼び、

その画素値を確率的顕著度と呼ぶ。簡単のため、確率的

顕著度の観測の過程で加わるノイズは独立無相関なガウ

ス分布に従うものとする [18]。このとき、各確率的顕著

度は、図 3下に示すように、ガウス分布に従う確率変数

となる。

図 3左上に示す例では、緑丸で囲まれた部分が周囲に

比べ著しく顕著である。すると、同図左下に示すように、

確率的顕著度についても、それが従う分布が周囲に比べ

て大きく離れることとなる。故に、緑丸の部分に対応す

Page 3: 人間の視覚的注意を予測するモデル: 動的ベイジアン ......人間の視覚的注意を予測するモデル: 動的ベイジアンネットワークに基づく最新のアプローチ

図 3: 信号検出理論に基づく視覚的注意の不確定性の解

釈。左の例では、緑の部分が周囲に比べ著しく顕著であ

り、顕著度が多少変動してもその大小関係はほとんど逆

転しない。一方、右の例では、緑の部分が他の部分と異

なるものの、その顕著度の差は小さく、僅かの顕著度の

変動で大小関係が逆転する。

る確率的顕著度の実現値が周囲のそれよりも小さくなる

事象はほとんど観測できない。つまり、緑丸の部分に一

番最初に注意が向けられる確率が極めて高くなる。その

一方で、図 3右上に示す例では、緑丸で囲まれた部分が

周囲と異なってはいるものの、その顕著度の差は小さく、

そのために確率的顕著度の従う分布も互いに非常に接近

する。故に、緑丸の部分に対応する確率的顕著度の実現

値が周囲のそれよりも小さくなる事象が頻繁に観測され

ることとなり、これが緑丸の部分に一番最初に注意が向

けられる確率が必ずしも大きくはなくなる。これにより、

視覚的注意に不確定性が生じる。

4 動的ベイジアンネットワークによるモデル化

ここまでの考察に基づき、提案する視覚的注意の確率

モデル [19]について説明する。図 4にその概略を示す。

提案モデルは、映像を入力として、各時刻でどの箇所に

注意が向けられるかを示す確率を示す画像である視線位

置確率画像を出力とする。

(1) 入力映像の各フレームから顕著度画像を抽出する。

(2)現時刻の顕著度画像と前時刻の確率的顕著度画像を

用いて、現時刻の確率的顕著度画像を算出する。現時刻

の確率的顕著度が前時刻から大きく変動しない拘束を新

たに加えることで、顕著度画像と確率的顕著度画像との

関係は、画素ごと独立のガウス状態空間モデルで記述で

きる。すなわち、確率的顕著度画像は、顕著度画像を観

測とする Kalman filterを駆動することで導出できる。

(3) 確率的顕著度画像から、第 3節に示した Eckstein

の議論に基づいて視線位置確率画像を算出する。具体的

には、ある位置の視線位置確率は、その位置の確率的顕

著度の実現値が他のいずれの位置よりも大きくなる確率

図 4: 提案する視覚的注意の確率モデルの概略。現時刻の

顕著度と前時刻の確率的顕著度からKalman filterをを用

いて現時刻の確率的顕著度が計算する。この確率的顕著

度画像に信号検出理論を適用することで、各箇所にどの

程度の確率で注意が向けられるかを計算できる。

図 5: 視線位置確率画像の導出方法。時刻 t−1の視線位置

サンプルN 個それぞれをHMMで更新し(左ブロック)、

確率的顕著度画像のみから算出される視線位置確率で重

み付けを行い(中ブロック)、最後にリサンプリングを行

う(右ブロック)。

を計算することで得られる。

(4) 前段の処理と並行して、視線位置確率画像が top-

down制御によって変動するメカニズムを提供する。本提

案モデルでは、各種の top-down制御を縮退・簡略化させ

た形として、ある映像視聴者の前時刻の視線位置を入力、

現時刻での視線位置を出力、その視聴者の視線移動戦略

(視線を大きく動かす or ほとんど動かさない)を隠れ状

態とする隠れマルコフモデル (HMM)を導入する。また、

同時に、視線位置確率を多数の映像視聴者の視線位置サ

ンプルの累積頻度として表現し直す。すると、図 5に示

すように、現時刻の視線位置確率画像は、前時刻の視線

位置確率画像(=視線位置サンプルの集合)を入力、前

ステップで求めた視線位置確率画像を重み更新ステップ

として採用する粒子フィルタ (particle filter)によって求

めることができる。

提案モデルの動作手順を動的ベイジアンネットワーク

[21]を用いて表現すると、図 6のようになる。最下層の入

力映像のみが与えられ、上から 2層目の視線位置確率画

Page 4: 人間の視覚的注意を予測するモデル: 動的ベイジアン ......人間の視覚的注意を予測するモデル: 動的ベイジアンネットワークに基づく最新のアプローチ

図 6: 動的ベイジアンネットワークによる提案モデルの表

現。最下層の入力映像のみが与えられ、上から 2層目の

視線位置確率画像を出力する。

像を出力する。下から 2層目の顕著度画像は入力映像の

各フレームから一意に決定されるため、実質的には 4階

層のネットワークとなる。

5 評価実験

提案方法の効果を示すために、CRCNS eye-1 データ

ベース1を使用して、人間の視線行動との一致性の観点で

検証を行なった。このデータベースには、映像 100本と、

その映像を視聴した被験者の視線測定データが含まれて

いる。本実験では、このデータベースの中から 50本の映

像とそれに対応する視線測定データを用いた。モデルパ

ラメータは、交叉検定法による事前学習 [19]で導出した。

人間の映像視聴行動との一致性を評価する尺度として、

本実験では normalized scanpath saliency (NSS) [22] を

用いた。この尺度は、各モデルの出力映像(提案モデル

の場合には視線位置確率画像)のあるフレームにおいて、

ある被験者の視線位置での画素値がフレーム内の平均画

素値に比べてどの程度大きいかを測定する尺度である。

図 7に、人間の映像注視行動との一致性を、先に示した

NSS尺度にて評価して比較した結果を示す。提案方法の比

較対象として、CRCNS eye-1データベースにあらかじめ

含まれている従来法の出力画像 3種類 (variance, CIOFM,

surprise) を用いた。それぞれ、周辺画素値との分散を用

いたベースライン [7]、Ittiらの計算モデルの出力である

顕著度画像 [4]、刺激に対する予測事前分布と事後分布と

の距離を顕著性とする方法 [7]に対応する。

図 7に示すように、提案モデルは、いずれの従来法に

対しても有意に高い NSS値を示していることがわかる。

これは、提案方法が人間の映像注視行動を高い精度で推

定できていることを示す結果である。

図 8に、評価用映像およびそれを入力とする各モデル

の出力結果を示す。ここでは、Ittiらの計算モデルと提案

1http://crcns.org/data-sets/eye/eye-1

図 7: 人間の映像注視行動との一致性についての評価。左

3つがデータベースに含まれている従来法の出力に対する

評価、右が提案法の出力に対する評価となる。

モデルの結果を比較している。Ittiらの計算モデルでは、

フレーム内全域に顕著性の高い領域が散在している。そ

の一方で、提案モデルでは、視線が向けられる可能性の

高い領域を少量かつ狭い範囲に絞り込むことができてい

る。このことは、提案モデルがより的確に人間の映像注

視行動を推定していることを示す結果である。

6 発展と応用

前節までで、動的ベイジアンネットワークを用いた人

間の視覚的注意の確率モデルについて概説した。本節で

は、その拡張・発展・及び応用技術について紹介する。

第 1の拡張として、動的マルコフ確率場を用いた確率

モデルの拡張拡張 [23]が挙げられる。第 4節では、顕著

度画像と確率的顕著度画像との関係を、画素ごと独立の

ガウス状態空間モデルにて記述していた。本拡張では、確

率的顕著度が空間方向に近接する画素と強い相関がある

ことを仮定し、状態空間モデルを動的マルコフ確率場に

拡張したモデル化を行った。これにより、従来のモデルと

比較して、NSS score基準で有意に高い評価値を示した。

第 2の拡張として、graphic processor unit (GPU)を用

いた並列演算実装によるリアルタイム動作の達成 [19], [20]

が挙げられる。並列演算に適したアルゴリズムの改良と

NVIDIA CUDAを用いた実装を組み合わせることで、1

フレーム当たり 1-2秒を要していた従来のアルゴリズム

と比べ、約 20倍の高速化を達成し、ほぼリアルタイムで

の処理が可能となった。

第 3の拡張として、提案モデルの出力を手掛かりとし

た物体領域の完全自動抽出 [24], [27]が挙げられる。ここ

数年の研究の進展により、物体の位置に関する手掛かりを

少量与えることで、対象を特定しない一般物体の領域抽

出が正確に実現できることが広く知られるようになった

[25], [26]。本拡張では、この手動で与えていた手掛かりを

Page 5: 人間の視覚的注意を予測するモデル: 動的ベイジアン ......人間の視覚的注意を予測するモデル: 動的ベイジアンネットワークに基づく最新のアプローチ

図 8: 出力結果の比較。上から順に、上から入力映像、Ittiのモデル、提案モデルであり、左から時系列順。

図 9: 視覚的注意を手掛かりとした物体領域の自動抽出

視線位置確率画像で代用することにより、手動操作を介

することなく物体領域を抽出するアルゴリズムを開発す

ると共に、GPUを援用した並列演算実装を行い、ほぼリ

アルタイムでの処理を実現した(図 9・10参照)[28]。

7 まとめ

本論文では、人間の映像注視行動を模擬するための視

覚的注意の計算モデルについて、その研究の流れを簡単

に追うとともに、我々が提案した動的ベイジアンネット

ワークで構成される視覚的注意の確率モデルについて解

図 10: 一般物体領域抽出を行うデモシステム

説した。また、このモデルの拡張・発展・応用に関する

我々の取り組みについても紹介した。

「人間は何に目を向けやすいか」という非常にシンプ

ルな命題に対する工学的な解決方法を提供していること

もあり、これらの研究は、ロボティクス [29]・物体認識/

検索 [30]・映像符号化 [31]・医用画像処理 [32]・HCI [33]・

ディジタルサイネージ [34]・車の自動運転支援 [35]など、

幅広い分野への波及効果を生み出す可能性を秘めている。

また、人間の視覚機構は心理物理学的にもまだ解明され

ていない部分が多い。特に、音響信号に対する注意のメ

Page 6: 人間の視覚的注意を予測するモデル: 動的ベイジアン ......人間の視覚的注意を予測するモデル: 動的ベイジアンネットワークに基づく最新のアプローチ

カニズムや映像信号との相互関係などについては、工学

的な側面においても今後重要なトピックとなるであろう。

Acknowlegment

The author thanks to all the collaborators of the researches

as to this paper, Dr. Tatsuto Takeuchi (NTT), Mr. Clement

Leung (Univ. Toronto), Mr. Derek Pang (Stanford Univ.),

Mr. Koji Miyazato, Mr. Ken Fukuchi (ONCT), Mr. Kazuma

Akamine (Miyazaki Univ.), Prof. Shigeru Takagi (ONCT),

Dr. Junji Yamato, Dr. Kunio Kashino (NTT) and Mr. Gur-

bachan Sekhon (UBC).

参考文献

[1] P. Viola and M. J. Jones, “Robust real-time face detec-

tion,” IJCV, Vol. 57, pp. 137—154, 2004.

[2] N. Dalal and B. Triggs, “Histograms of oriented gradi-

ents for human detection,” in Proc. CVPR, Vol. 1, pp.

886 —893, 2005.

[3] “パターン認識・メディア理解のグランドチャレンジ 5. パ

ターン認識・メディア理解の 10大チャレンジテーマ,” 信

学会誌, Vol. 92, No. 8, pp. 665—675, 2009.

[4] L. Itti, C. Koch, and E. Niebur, “A model of saliency-

based visual attention for rapid scene analysis,” IEEE

Trans. PAMI, Vol. 20, No. 11, pp. 1254—1259, 1998.

[5] C. Koch and S. Ullman, “Shifts in selective visual atten-

tion: Towards the underlying neural circuitry,” Human

Neurobiology, Vol. 4, pp. 219—227, 1985.

[6] D. Gao et al. “Decision theoretic saliency,” Neural Com-

putation, Vol. 21, No. 1, pp. 239—271, 2009.

[7] L. Itti and P. Baldi, “A principled approach to detecting

surprising events in video,” Proc. CVPR, 2005.

[8] Y. Ma, X. Hua, L. Lu, and H. Zhang, “A generic frame-

work of user attention model and its application in video

summarization,” IEEE Trans. MM, Vol. 7, No. 5, pp.

907—919, 2005.

[9] S. Ban et al. “Dynamic visual selective attention

model,” Neurocomputing, Vol. 71, pp. 853—856, 2007.

[10] C. Leung, A. Kimura, T. Takeuchi, and K. Kashino,

“A computational model of saliency depletion/recovery

phenomena for the salient region extraction of videos,”

in Proc. ICME, pp. 300—303, 2007.

[11] B. J. Scholl, Ed., Objects and Attention (Cognition Spe-

cial Issue), The MIT Press, 2002.

[12] S. Frintrop, Vocus: a Visual Attention System for Object

Detection And Goal-directed Search, Springer-Verlag

New York Inc (C), 2006.

[13] V. Navalpakkam and L. Itti, “Search goal tunes visual

features optimally,” Neuron, Vol. 53, pp. 605—617, 2007.

[14] M. Ozeki, Y. Kashiwagi, M. Inoue, and N. Oka, “A vi-

sual attention model with top-down attention interface,”

in Proc. SICE, pp. 237—242, 2010.

[15] T. Avraham and M. Lindenbaum, “Esaliency: Meaning-

ful attention using stochastic image modeling,” IEEE

Trans. PAMI, Vol. 32, pp. 693—708, 2009.

[16] Y. Nagai, “Stability and sensitivity of bottom-up visual

attention for dynamic scene analysis,” in Proc. IROS,

pp. 5198—5203, 2009.

[17] M. P. Eckstein et al. “A signal detection model pre-

dicts effects of set size on visual search accuracy for

feature, conjunction, triple conjunction and disjunction

displays,” Perception and Psychophysics, Vol. 62, pp.

425—451, 2000.

[18] T. Koike and J. Saiki, “Stochastic saliency-based search

model for search asymmetry with uncertain targets,”

Neurocomputing, Vol. 69, pp. 2112—2126, 2006.

[19] A. Kimura et al. “A stochastic model of human visual

attention with a dynamic Bayesian network,” submitted

to IEEE Trans. PAMI, http://arxiv.org/abs/1008.0502.

[20] K. Miyazato, A. Kimura, S. Takagi, and J. Yamato,

“Real-time estimation of human visual attention with

mcmc-based particle filter,” Proc. ICME, 2009.

[21] Z. Ghahramani, “Learning dynamic bayesian networks,”

in LNCS, Vol. 1387, pp. 168—197, 1997.

[22] R. J. Peters and L. Itti, “Beyond bottom-up: Incorpo-

rating task-dependent influences into a computational

model of spatial attention,” Proc. CVPR, pp. 1—8, 2007.

[23] A. Kimura, D. Pang, T. Takeuchi, J. Yamato, and

K. Kashino, “Dynamic Markov random field for stochas-

tic modeling of visual attention,” in Proc. ICPR, 2008.

[24] 福地, 宮里, 赤嶺, 木村, 高木, 大和, 柏野, “グラフコストの

逐次更新を用いた映像顕著領域の自動抽出,” 信学論, Vol.

J93-D, No. 8, pp. 1523—1532, 2010.

[25] Y. Boykov and M.P. Jolly, “Interactive graph cuts for

optimal boundary and region segmentation of objects in

N-D images,” in Proc. CVPR, pp. 731—738, 2004.

[26] P. Kohli and P. Torr, “Dynamic graph cuts for efficient

inference in markov random fields,” IEEE Trans. PAMI,

Vol. 29, No. 12, pp. 2079—2088, 2007.

[27] G. Sekhon, A. Kimura, and K. Fukuchi, “Automatic and

precise extraction of generic objects using saliency-based

priors and contour constraints,” Proc. MIRU, 2010.

[28] K. Akamine, K. Fukuchi, A. Kimura, and S. Takagi,

“Fully automatic extraction of salient objects in near

real-time,” accepted to the Computer Journal, August

2010, http://arxiv.org/abs/1008.0502.

[29] N. Ouerhani and H. Hugli, “Robot self-localization using

visual attention,” in Proc. CIRA, pp. 309—314, 2005.

[30] S. Li and M. Lee, “An efficient spatiotemporal atten-

tion model and its application to shot matching,” IEEE

Trans. CSVIT, Vol. 17, No. 10, pp. 1383—1387, 2007.

[31] Z. Chen and K. Ngan, “Recent advances in rate control

for video coding,” Signal Processing: Image Communi-

cation, Vol. 22, No. 1, pp. 19—38, 2007.

[32] X. Hu, L. Dempere-Marco, and G. Yang, “Hot spot

detection based on feature space representation of visual

search,” IEEE Trans. MI, Vol. 22, pp. 1152—1162, 2003.

[33] C. Murl and Y. Nagai, “Does disturbance discourage

people from communicating with a robot ?,” in Proc.

RO-MAN, pp. 1137—1142, 2007.

[34] R. Yonetani, H. Kawashima, T. Hirayama, and T. Mat-

suyama, “Gaze probing: Event-based estimation of ob-

jects being focused on,” in Proc. ICPR, August 2010.

[35] K. Doman, D. Deguchi, T. Takahashi, Y. Mekada, I. Ide,

H. Murase, and Y. Tamatsu, “Estimation of traffic sign

visibility toward smart driver assistance,” in Proc. IVS,

pp. 45—50, 2010.