2016/4/16 名古屋CVPRML 発表資料
-
Upload
hiroshi-fukui -
Category
Engineering
-
view
1.071 -
download
2
Transcript of 2016/4/16 名古屋CVPRML 発表資料
Ensemble Inference Networks による歩行者検出の高精度化に関する研究機械知覚&ロボティクスグループ
TP14023 福井 宏
画像からの自動車走行環境の理解• 運転支援システムで必要な技術
– 歩行者検出,標識認識,車両検出,白線検出,・・・→ 数多くの物体認識が必要• 運転支援システムの例 (ADAS)
– 自動ブレーキシステム– 危険察知システム
2
歩行者検出 標識認識 車両検出
識別に必要な特徴量の設計
→ 識別に有効な特徴量を自動で獲得することで高性能な物体認識を実現3
入力画像
識別特徴抽出
特徴抽出 & 識別
入力画像特徴抽出
(HOG 特徴量 )
識別識別器(SVM)
従来の機械学習による物体認識
Deep Learning による物体認識
識別結果
歩行者 or 背景
手動で設計
自動で特徴量を獲得
識別結果
歩行者 or 背景
Deep Convolutional Neural Network(CNN) [Y. LeCun, 1989]
• 畳み込み層,プーリング層,全結合層から構成されるニューラルネットワーク– 畳み込みとプーリングにより幾何学的変化に対する不変性の獲得– 一般物体認識や歩行者検出において高い認識性能を達成
4
CNN による歩行者検出の従来法
5
• Switchable Deep Network(SDN) による歩行者検出 [P.Luo, 2014]– 各パーツ領域から特徴マップを生成することで高精度な歩行者検出を実現– Caltech Pedestrian Detection Benchmark で高い性能を実現
CNN による歩行者検出の従来法
6
• Switchable Deep Network(SDN) による歩行者検出 [P.Luo, 2014]– 各パーツ領域から特徴マップを生成することで高精度な歩行者検出を実現– Caltech Pedestrian Detection Benchmark で高い性能を実現
歩行者の全身とパーツを捉える特徴マップを生成
CNN による歩行者検出の従来法
7
• Switchable Deep Network(SDN) による歩行者検出 [P.Luo, 2014]– 各パーツ領域から特徴マップを生成することで高精度な歩行者検出を実現– Caltech Pedestrian Detection Benchmark で高い性能を実現
歩行者の全身とパーツを捉える特徴マップを生成検出に有効な歩行者のパーツを選択する際にRestricted Boltzmann Machineを併用
CNN による歩行者検出の研究事例
8
• Switchable Deep Network(SDN) による歩行者検出 [P.Luo, 2014]– 各パーツ領域から特徴マップを生成することで高精度な歩行者検出を実現– Caltech Pedestrian Detection Benchmark で高い性能を実現
歩行者の全身とパーツを捉える特徴マップを生成検出に有効な歩行者のパーツを選択する際にRestricted Boltzmann Machineを併用
ネットワークの構造が複雑になる
研究目的• 構造が複雑なネットワークの問題点
– 学習と識別に要する時間が増加• 複数のネットワーク (CNN+RBM) で学習・識別
– 学習と識別に必要なメモリ量の増加• 複数のネットワーク (CNN+RBM) で学習・識別• 歩行者の全身とパーツを捉える特徴マップの生成
• シンプルな構造の CNN で高精度な歩行者検出を実現– CNN の構造をシンプルにすることで処理速度と使用するメモリ量の削減
9
Dropout をベースとした歩行者検出の高精度化• CNN の汎化性能を向上させるために用いられる Dropout に着目
– Dropout :学習時に一定の割合でユニットの応答値を 0 にする学習法– 単純な学習アルゴリズムで汎化性能を大きく向上させることが可能
学習時に一定の割合のユニットを選択している点に着目 → Random Dropout
識別時に Dropout のアルゴリズムを用いていない点に着目 → Ensemble Inference Networks
提案手法:
Dropout [G.E.Hinton, 2006]
• 学習時に一定の割合でユニットの応答値を 0 にする学習法– 更新毎に応答値を 0 にするユニットを変更して学習
11
教師信号
ユニットの削減率 50 % 50 %
全結合層
出力層
汎化性能が向上する理由
畳み込み層 畳み込み層プーリング層
プーリング層Maxout Maxout入力層
構造が異なる複数のネットワークをパラメータが共有した状態で学習
学習時の Dropout の改良: Random Dropout
12
ユニットの削減率 25 % 75 %
教師信号
全結合層
出力層
構造の異なるネットワークのバリエーションを Dropoutより多くすることで汎化性能を向上
• 学習時に応答値を 0 にするユニットの割合をランダムに指定– Dropout :応答値を 0 にするユニットの割合は常に一定
• 各層の応答値を 0 にするユニットの割合は各更新でランダムに変更
畳み込み層 畳み込み層プーリング層
プーリング層Maxout Maxout入力層
Random Dropout の性能の比較• 取り除く結合重みの割合により歩行者検出性能が大幅に変動
13
40 0-40 50 0-50 60 0-60 70 0-70 80 0-80 90 0-9030
40
50
60
70
80
90
100
Dropout Drop connect Drop All Random Dropout
結合重みを取り除く割合 [%]
Mis
s Rat
e(FP
PI =
0.1
)[%]
Random Dropout の性能の比較• 取り除く結合重みの割合により歩行者検出性能が大幅に変動• Random Dropout は取り除く結合重みの範囲が異なっても歩行者検出性能の変動が少ない
– 取り除く結合の割合が 0 ~ 90% のとき Miss rate が 39.65% まで減少
14
40 0-40 50 0-50 60 0-60 70 0-70 80 0-80 90 0-9030
40
50
60
70
80
90
100
Dropout Drop connect Drop All Random Dropout
結合重みを取り除く割合 [%]
Mis
s Rat
e(FP
PI =
0.1
)[%]
識別時の Dropout の利用: Ensemble Inference Networks
• 識別時に Dropout により結合が異なる全結合層を複数生成• 生成した各全結層の応答値から最終的な出力値を算出
– 出力値の算出方法として中央値,平均値,最大値を使用– 複数の異なる全結合層から応答値を統合することでアウトライアな応答値を出力する全結合層を除外
0.150.85
0.230.77
0.420.58
中央値
PositiveNegative
平均値
最大値
0.770.23
0.730.27
0.850.42・・・
複数の異なる全結合層から最適な応答値を求めることで汎化性能を向上
畳み込み層畳み込み層
プーリング層 プーリング層
MaxoutMaxout
入力層
EIN の導入による性能の評価
16
Dropout : Random Dropout :
1 5 9 13 17 21 25 29 3337.5
38.5
39.5
40.5
中央値 平均値 最大値中央値 平均値 最大値
全結合層の生成数
Mis
s rat
e(FP
PI=0
.1)[%
]
• 全結合層の生成数を増加することで Miss rate が減少– 全結合層の統合に平均値を用いることで Miss rate が約 0.98% 減少
EIN の導入による性能の評価
17
Dropout : Random Dropout :
• 全結合層の生成数を増加することで Miss rate が減少– 全結合層の統合に平均値を用いることで Miss rate が約 0.98% 減少
• Random Dropout を併用することで約 1.8% 性能が向上
2つの提案手法により従来の CNNより約 2.7%のMiss rateが減少
1 5 9 13 17 21 25 29 3337.5
38.5
39.5
40.5
中央値 平均値 最大値中央値 平均値 最大値
全結合層の生成数
Mis
s rat
e(FP
PI=0
.1)[%
]
評価実験実験 1. 従来の歩行者検出法と性能を比較
– 性能の比較には Caltech Pedestrian Dataset を使用実験 2. 提案手法を標識認識に応用した際の性能評価– 性能の比較には German Traffic Sign Recognition Benchmark Dataset を使用実験 3. 計算コストの比較
18
実験 1. Caltech Pedestrian Dataset
• 歩行者検出の性能を評価する際に一般的に用いられるデータセット– 車載カメラで撮影した約 6 時間の走行データから構築されたデータセット– 一般道や高速道路,駐車場など様々な走行シーンが存在
• 学習と評価で使用するサンプル数– 学習サンプル
• 歩行者画像:約 4,000( 約 10万枚 ) , 背景画像:約 20万枚– 評価サンプル
• 4,021枚のシーンを用いて評価
実験 1. 従来の歩行者検出法との比較
実験 1. 従来の歩行者検出法との比較
従来の歩行者検出法 (HOG,DPM) より検出精度が約 25%向上 SDN と同等の精度で検出可能
歩行者検出例
Deformable Part Model CNN + Random Dropout , EIN
DPM で検出できなかった歩行者に対しても検出可能重なりが発生している歩行者も検出可能
歩行者検出例
DPM で検出できなかった歩行者に対しても検出可能重なりが発生している歩行者も検出可能Deformable Part Model CNN + Random Dropout , EIN
実験 2. German Traffic Sign Recognition Benchmark Dataset
• 標識認識を評価する際に一般的に用いられるデータセット– 43種類のドイツの標識を対象としたデータセット– 走行シーンから切り出した標識画像から構築
• 実験で使用するサンプル数– 学習: 39,000枚– 評価: 12,631枚
実験 2. 従来の標識認識法との比較
25
手法 認識率 [%]Multi-Column Deep Neural Network 99.46Random Dropout + EIN 99.23Human Performance 98.84Multi-Scale CNN 98.31CNN 97.97Random Forest 96.14LDA on HOG 95.68
実験 2. 従来の標識認識法との比較
26
手法 認識率 [%]Multi-Column Deep Neural Network 99.46Random Dropout + EIN 99.23Human Performance 98.84Multi-Scale CNN 98.31CNN 97.97Random Forest 96.14LDA on HOG 95.68
従来の CNN より約 1.3% 精度が向上
実験 2. 従来の標識認識法との比較
27
手法 認識率 [%]Multi-Column Deep Neural Network 99.46Random Dropout + EIN 99.23Human Performance 98.84Multi-Scale CNN 98.31CNN 97.97Random Forest 96.14LDA on HOG 95.68
従来の CNN より約 1.3% 精度が向上人の認識性能 (Human Performance) を上回る性能を実現
実験 2. 標識認識の結果例
入力画像 入力画像 入力画像CNN CNN 提案手法 CNN 提案手法
人が認識困難な標識に対しても高精度に認識が可能
提案手法
人が一目で標識が認識できるサンプル 人でも認識がやや困難なサンプル 人でも認識が困難なサンプル
実験 3. 計算コストの比較
29
SDN の約 38% のユニット数で同等の性能を実現
手法 ネットワークの構造 ユニット数CNN
Conv(40×9×5, 64×5×3, 32×3×3)Full(1000, 500, 100, 2) 226,002
Random Dropout + EINConv(40×9×5, 64×5×3, 32×3×3)Full(1000, 500, 100, 2) × 33 232,402
SDN
Conv(64×9×9)Full(2100)Switchable 層Full(2000, 2)
604,402
提案手法のネットワークの規模は従来の CNN とほぼ同等のユニット数
+2.8%
-61.5%
まとめ
30
• Random Dropout と EIN による歩行者検出と標識認識の高精度化– 構造の異なるネットワークのバリエーションを増やすことで汎化性能を向上– 複数の異なる全結合層から最適な識別結果を出力することで汎化性能を向上– 歩行者検出において約 2.8% ,標識認識において約 1.3% の認識精度が向上
• 歩行者検出: Random Dropout 約 0.8% , EIN 約 1.9%• 標識認識 : Random Dropout 約 0.52% , EIN 約 0.05%
– 従来法である SDN の約 38% のユニット数で同等の性能
• 今後の予定– 歩行者属性情報を用いた歩行者検出の高精度化