一般物体認識ネットワーク - 名古屋大学 › dep-cs › vi › private_page ›...

1
入力画像 Feture Maps net FMST 提案手法 入力画像 予測マップ 予測領域 ConvLSTM input output 予測マップα 予測マップβ + 予測マップβ 予測マップα 予測マップγ 予測領域 時系列深層学習一般物体認識ネットワーク を用いた物体追跡 2018 年度卒業論文 情報文化学部自然情報学科 複雑システム系 渡辺研究室 村手翼 1. 物体追跡に対するアプローチ 物体追跡とは動画像において対象物体の存在領域を推定する問題である . 本研究では人間の物体追跡方法を模倣した . 人間は物体追跡する際 , 視覚情報だけではな く , 視覚情報をベースとしたある程度の記憶と予想を用いて物体追跡を行う . そこで , 視覚的情報に基づいた物体追跡手法に記憶予測機能を付加し , 追跡精度向上を目指す . 本研究では視覚的物体追跡に一般物体認識を用いた物体追跡手法の FMST* を用い , 記憶予測機能を畳み込み層を持った LSTM(ConvLSTM) にて再現した . * Feture Map Selection Tracking, 2017 年卒 山田真生氏 修士論文より 2. 一般物体認識を用いた物体追跡 FMST は一般物体認識ネットワー クの 16 層学習済み VGG net を用い て追跡対象の特徴を抽出し , 予測 マップを生成 . その後 , 予測マップ から対象の存在領域を推定すると いう手法 . ( fig 1. ) FMST は高精度かつ高速な処理を 行うが , 一般物体認識ネットワーク を用いていることから , 同カテゴ リー物体に予測が転移する場合が ある . fig 2. は 40 フレーム時点では予測 できているが , 対象が電柱の影にな る事で予測転移している例である . fig 1. 予測領域生成の流れ fig 2. 予測転移の例 . 電柱により 予測が転移している . 本研究での予測機能は畳み込み 層を持った LSTM (ConvLSTM) に て再現した . これは時系列深層学 習ネットワークの LSTM に畳み込 み層を追加し , 動画像の予測を可 能としたものである . 入力動画像 の動きの流れを学習し , 後続フ レームの予測が可能である . 3. 畳み込み層を持った LSTM ↑fig 4. 実際の予測例 ←fig 3. ConvLSTM のイメージ 4. 本研究における提案手法 提案手法では 2 種類の予測マップを生成する . FMST の手法にて視覚的情報をベースに 存在領域を推定する予測マップα( fig 5. ) と, ConvLSTM を用いて過去のフレーム情報の 流れに基づいて存在領域を推定する予測マップβ(fig 6.) の 2 種類を用いる . これら 2 種類 の予測マップを足し合わせた予測マップγを最終的な予測マップ (fig 7.) とし , そこから 予測領域を決定する . このような手法にて , 現在の視覚的情報と 過去の記憶に基づく予想を用いる人間の物体 追跡方法を模倣している . fig 7. 提案手法での予測領域決定の流れ fig 6. 記憶予測機能が生成する予測マップβ fig 5. FMST より得る 視覚的予測マップα 5. 実験結果 FMST と提案手法を 50 の動画からなるベンチマーク (VTB13) で比較した .(fig 8) 処理速度は 20% ほど低下したが , 正解と予測の距離に基づく距離精度は 3.37 %, 正解と予測の重なりの指標は 2.50% 向上した . 実際の追跡例での比較を fig 9. に示す . FMST では電柱によって追跡対象が見えなくなることによって , 予測が対象以外 の人物に転移していることが確認できる . 提案手法では電柱で追跡対象が視界から消失しても , 追跡が行えていることが 確認できる . 実際に人間に近い挙動の追跡ができている . fig 8. ベンチマーク VTB13 での 精度比較 fig 9. VTB13 内の Jogging というタスクの追跡例

Transcript of 一般物体認識ネットワーク - 名古屋大学 › dep-cs › vi › private_page ›...

Page 1: 一般物体認識ネットワーク - 名古屋大学 › dep-cs › vi › private_page › murate_2018 › ... · 2019-02-20 · 習ネットワークのLSTMに畳み込 み層を追加し,

��������

��������� ���� ���

入力画像 Feture Maps

��� net

FMST

提案手法

入力画像

�������

予測マップ 予測領域

ConvLSTM

input output

予測マップα

予測マップβ

+

予測マップβ予測マップα 予測マップγ 予測領域

時系列深層学習と一般物体認識ネットワークを用いた物体追跡

2018 年度卒業論文

情報文化学部自然情報学科複雑システム系 渡辺研究室 村手翼

1. 物体追跡に対するアプローチ 物体追跡とは動画像において対象物体の存在領域を推定する問題である . 本研究では人間の物体追跡方法を模倣した . 人間は物体追跡する際 , 視覚情報だけではなく , 視覚情報をベースとしたある程度の記憶と予想を用いて物体追跡を行う . そこで , 視覚的情報に基づいた物体追跡手法に記憶予測機能を付加し , 追跡精度向上を目指す . 本研究では視覚的物体追跡に一般物体認識を用いた物体追跡手法の FMST* を用い ,記憶予測機能を畳み込み層を持った LSTM(ConvLSTM) にて再現した .

←人間の行う物体追跡イメージ

* Feture Map Selection Tracking, 2017 年卒 山田真生氏 修士論文より

2. 一般物体認識を用いた物体追跡 FMST は一般物体認識ネットワークの 16 層学習済み VGG net を用いて追跡対象の特徴を抽出し , 予測マップを生成 . その後 , 予測マップから対象の存在領域を推定するという手法 . ( fig 1. ) FMST は高精度かつ高速な処理を行うが , 一般物体認識ネットワークを用いていることから , 同カテゴリー物体に予測が転移する場合がある . fig 2. は 40 フレーム時点では予測できているが , 対象が電柱の影になる事で予測転移している例である .

fig 1. 予測領域生成の流れ

fig 2. 予測転移の例 . 電柱により 予測が転移している .

本研究での予測機能は畳み込み層を持った LSTM (ConvLSTM) にて再現した . これは時系列深層学習ネットワークの LSTMに畳み込み層を追加し , 動画像の予測を可能としたものである . 入力動画像の動きの流れを学習し , 後続フレームの予測が可能である .

3. 畳み込み層を持った LSTM

↑fig 4. 実際の予測例

←fig 3. ConvLSTMのイメージ

4. 本研究における提案手法 提案手法では 2 種類の予測マップを生成する . FMST の手法にて視覚的情報をベースに存在領域を推定する予測マップα( fig 5. ) と , ConvLSTM を用いて過去のフレーム情報の流れに基づいて存在領域を推定する予測マップβ(fig 6.) の 2 種類を用いる . これら 2種類の予測マップを足し合わせた予測マップγを最終的な予測マップ (fig 7.) とし , そこから予測領域を決定する . このような手法にて , 現在の視覚的情報と過去の記憶に基づく予想を用いる人間の物体追跡方法を模倣している .

fig 7. 提案手法での予測領域決定の流れ fig 6. 記憶予測機能が生成する予測マップβ

fig 5. FMSTより得る 視覚的予測マップα

5. 実験結果 FMST と提案手法を 50 の動画からなるベンチマーク (VTB13) で比較した .(fig 8) 処理速度は 20%ほど低下したが , 正解と予測の距離に基づく距離精度は 3.37 %, 正解と予測の重なりの指標は 2.50%向上した . 実際の追跡例での比較を fig 9. に示す . FMST では電柱によって追跡対象が見えなくなることによって , 予測が対象以外の人物に転移していることが確認できる . 提案手法では電柱で追跡対象が視界から消失しても , 追跡が行えていることが確認できる . 実際に人間に近い挙動の追跡ができている .

fig 8. ベンチマークVTB13での 精度比較

fig 9. VTB13 内の Jogging というタスクの追跡例