Extended YOLO Using Color and Depth InputExtended YOLO Using Color and Depth Input...

Post on 15-Sep-2020

0 views 0 download

Transcript of Extended YOLO Using Color and Depth InputExtended YOLO Using Color and Depth Input...

色と距離情報を入力とした3 次元拡張型 YOLOExtended YOLO Using Color and Depth Input

高橋 正裕(中央大学) Alessandro Moro(ライテックス)

本研究では,カラー画像と距離画像を入力とした物体検出器を提案している.2次元の畳み込みと3次元の畳み込みを組み合わせることで,軽量な構造を実現した.モデルの推論速度は44.4[fps]であった.

概要

研究背景

• 万引き対策• 入退室管理

Security• 人数調査• 商品認識

Marketing• 自動運転• 歩行者認識

Auto Driving

監視カメラによる不審行動検出[1]

[1] 寺田賢治,鴨頭大輔, “インターネットカメラを用いた不審行動人物の検出” , 電気学会論文誌C, 127巻, 11号, pp. 1871-1879, 2007.

監視カメラによる入退室管理

人が行った場合…• 人件費• ヒューマンエラー

画像中での人の位置の検出

ロバストな人物検出システムを構築したい!

先行研究• 深層学習による物体識別器• 入力:カラー画像出力:BB座標,信頼値,

分類結果○ 高速な動作が可能× オクルージョンに弱い

後ろの人物が未検出

[2] J. Redmon and J. Farhadi, “Yolov3: An incremental improvement,” arXiv:1804.02767., 2018

池 勇勳(中央大学) 梅田 和昇(中央大学)

• 入力:点群• 出力:BB座標(3次元)

信頼値,分類結果○ 高精度なBB× リアルタイム性はない

VoxelNet[3]

提案手法 ネットワーク構造 3次元グリッド毎にBBを出力

人物の奥行き位置も表したBBを出力

奥行き方向の位置の違いを考慮可能

YOLO: You Only Look Once[2]

[3] Y. Zhou and O. Tuzel, “VoxelNet: End-to-End Learning for Point Cloud Based 3D Object Detection,” CVPR, 2018

2次元畳み込みによる特徴抽出

3次元畳み込みに比べ軽量

実験結果実験1の内容• 屋内にて収集したRGB-Dデータ1140枚を用いて学習

• IoUと3D IoU(体積におけるIoU)で評価

実験1:人物検出精度検証

• 人物検出精度の向上• Backbone Networkの検討• Instance segmentationへの拡張

結論と今後の展望

使用機器RealSense D435 (Intel)深度範囲:

0.2~10m最大視野角:

100.6°

実験2の内容• 処理速度について各手法と比較した

実験2:推論速度比較

提案モデルの出力 YOLOv3の出力

IoU 3D IoU𝟑𝑫𝑰𝒐𝑼

𝟐𝟑

Mean 0.54 0.39 0.53

Max 0.92 0.85 0.90

GPU Speed [fps]

提案モデル GTX1080Ti 44.4

YOLO3D Titan X 40

VoxelNet Titan X 4.3

実験2 結果実験1結果

• 公開データセットによる検証• 多クラス分類への拡張

• 2次元畳み込みで特徴抽出を行ったことで処理速度が向上

• RGBとDepthを同じネットワークで特徴抽出するのは不十分?

実験結果の考察