色と距離情報を入力とした3 次元拡張型 YOLOExtended YOLO Using Color and Depth Input
高橋 正裕(中央大学) Alessandro Moro(ライテックス)
本研究では,カラー画像と距離画像を入力とした物体検出器を提案している.2次元の畳み込みと3次元の畳み込みを組み合わせることで,軽量な構造を実現した.モデルの推論速度は44.4[fps]であった.
概要
研究背景
• 万引き対策• 入退室管理
Security• 人数調査• 商品認識
Marketing• 自動運転• 歩行者認識
Auto Driving
監視カメラによる不審行動検出[1]
[1] 寺田賢治,鴨頭大輔, “インターネットカメラを用いた不審行動人物の検出” , 電気学会論文誌C, 127巻, 11号, pp. 1871-1879, 2007.
監視カメラによる入退室管理
人が行った場合…• 人件費• ヒューマンエラー
画像中での人の位置の検出
ロバストな人物検出システムを構築したい!
先行研究• 深層学習による物体識別器• 入力:カラー画像出力:BB座標,信頼値,
分類結果○ 高速な動作が可能× オクルージョンに弱い
後ろの人物が未検出
[2] J. Redmon and J. Farhadi, “Yolov3: An incremental improvement,” arXiv:1804.02767., 2018
池 勇勳(中央大学) 梅田 和昇(中央大学)
• 入力:点群• 出力:BB座標(3次元)
信頼値,分類結果○ 高精度なBB× リアルタイム性はない
VoxelNet[3]
提案手法 ネットワーク構造 3次元グリッド毎にBBを出力
人物の奥行き位置も表したBBを出力
奥行き方向の位置の違いを考慮可能
YOLO: You Only Look Once[2]
[3] Y. Zhou and O. Tuzel, “VoxelNet: End-to-End Learning for Point Cloud Based 3D Object Detection,” CVPR, 2018
2次元畳み込みによる特徴抽出
3次元畳み込みに比べ軽量
実験結果実験1の内容• 屋内にて収集したRGB-Dデータ1140枚を用いて学習
• IoUと3D IoU(体積におけるIoU)で評価
実験1:人物検出精度検証
• 人物検出精度の向上• Backbone Networkの検討• Instance segmentationへの拡張
結論と今後の展望
使用機器RealSense D435 (Intel)深度範囲:
0.2~10m最大視野角:
100.6°
実験2の内容• 処理速度について各手法と比較した
実験2:推論速度比較
提案モデルの出力 YOLOv3の出力
IoU 3D IoU𝟑𝑫𝑰𝒐𝑼
𝟐𝟑
Mean 0.54 0.39 0.53
Max 0.92 0.85 0.90
GPU Speed [fps]
提案モデル GTX1080Ti 44.4
YOLO3D Titan X 40
VoxelNet Titan X 4.3
実験2 結果実験1結果
• 公開データセットによる検証• 多クラス分類への拡張
• 2次元畳み込みで特徴抽出を行ったことで処理速度が向上
• RGBとDepthを同じネットワークで特徴抽出するのは不十分?
実験結果の考察
Top Related