Extended YOLO Using Color and Depth InputExtended YOLO Using Color and Depth Input...

1
色と距離情報を入力とした3 次元拡張型 YOLO Extended YOLO Using Color and Depth Input 高橋 正裕(中央大学) Alessandro Moro(ライテックス) 本研究では,カラー画像と距離画像を入力とした物体検出器を提案し ている.2次元の畳み込みと3次元の畳み込みを組み合わせることで,軽量な構造 を実現した.モデルの推論速度は44.4[fps]であった. 概要 研究背景 万引き対策 入退室管理 Security 人数調査 商品認識 Marketing 自動運転 歩行者認識 Auto Driving 監視カメラによる 不審行動検出[1] [1] 寺田賢治, 鴨頭大輔, “インターネットカメラを用いた不審行動人物の検出” , 電気学会論文誌C, 127, 11, pp. 1871-1879, 2007. 監視カメラによる 入退室管理 人が行った場合人件費 ヒューマンエラー 画像中での人の位置の検出 ロバストな人物検出 システムを構築したい! 先行研究 深層学習による物体識別器 入力:カラー画像 出力:BB座標,信頼値, 分類結果 高速な動作が可能 × オクルージョンに弱い 後ろの人物が未検出 [2] J. Redmon and J. Farhadi, “Yolov3: An incremental improvement,” arXiv:1804.02767., 2018 池 勇勳(中央大学) 梅田 和昇(中央大学) 入力:点群 出力:BB座標(3次元) 信頼値,分類結果 高精度なBB × リアルタイム性はない VoxelNet[3] 提案手法 ネットワーク構造 3次元グリッド毎に BBを出力 人物の奥行き位置も表したBBを出力 奥行き方向の位置の違いを考慮可能 YOLO: You Only Look Once[2] [3] Y. Zhou and O. Tuzel, “VoxelNet: End-to-End Learning for Point Cloud Based 3D Object Detection,” CVPR, 2018 2次元畳み込みによる 特徴抽出 3次元畳み込みに比べ軽量 実験結果 実験1の内容 屋内にて収集したRGB-Dデータ1140枚を 用いて学習 IoU3D IoU(体積におけるIoU)で評価 実験1:人物検出精度検証 人物検出精度の向上 Backbone Networkの検討 Instance segmentationへの拡張 結論と今後の展望 使用機器 RealSense D435 (Intel) 深度範囲: 0.210m 最大視野角: 100.6° 実験2の内容 処理速度について各手法と比較した 実験2:推論速度比較 提案モデルの出力 YOLOv3の出力 IoU 3D IoU Mean 0.54 0.39 0.53 Max 0.92 0.85 0.90 GPU Speed [fps] 提案モデル GTX1080Ti 44.4 YOLO3D Titan X 40 VoxelNet Titan X 4.3 実験2 結果 実験1 結果 公開データセットによる検証 多クラス分類への拡張 2次元畳み込みで特徴抽出を行ったことで 処理速度が向上 RGBDepthを同じネットワークで特徴抽出 するのは不十分? 実験結果の考察

Transcript of Extended YOLO Using Color and Depth InputExtended YOLO Using Color and Depth Input...

Page 1: Extended YOLO Using Color and Depth InputExtended YOLO Using Color and Depth Input 高橋正裕(中央大学) Alessandro Moro(ライテックス) 本研究では,カラー画像と距離画像を入力とした物体検出器を提案し

色と距離情報を入力とした3 次元拡張型 YOLOExtended YOLO Using Color and Depth Input

高橋 正裕(中央大学) Alessandro Moro(ライテックス)

本研究では,カラー画像と距離画像を入力とした物体検出器を提案している.2次元の畳み込みと3次元の畳み込みを組み合わせることで,軽量な構造を実現した.モデルの推論速度は44.4[fps]であった.

概要

研究背景

• 万引き対策• 入退室管理

Security• 人数調査• 商品認識

Marketing• 自動運転• 歩行者認識

Auto Driving

監視カメラによる不審行動検出[1]

[1] 寺田賢治,鴨頭大輔, “インターネットカメラを用いた不審行動人物の検出” , 電気学会論文誌C, 127巻, 11号, pp. 1871-1879, 2007.

監視カメラによる入退室管理

人が行った場合…• 人件費• ヒューマンエラー

画像中での人の位置の検出

ロバストな人物検出システムを構築したい!

先行研究• 深層学習による物体識別器• 入力:カラー画像出力:BB座標,信頼値,

分類結果○ 高速な動作が可能× オクルージョンに弱い

後ろの人物が未検出

[2] J. Redmon and J. Farhadi, “Yolov3: An incremental improvement,” arXiv:1804.02767., 2018

池 勇勳(中央大学) 梅田 和昇(中央大学)

• 入力:点群• 出力:BB座標(3次元)

信頼値,分類結果○ 高精度なBB× リアルタイム性はない

VoxelNet[3]

提案手法 ネットワーク構造 3次元グリッド毎にBBを出力

人物の奥行き位置も表したBBを出力

奥行き方向の位置の違いを考慮可能

YOLO: You Only Look Once[2]

[3] Y. Zhou and O. Tuzel, “VoxelNet: End-to-End Learning for Point Cloud Based 3D Object Detection,” CVPR, 2018

2次元畳み込みによる特徴抽出

3次元畳み込みに比べ軽量

実験結果実験1の内容• 屋内にて収集したRGB-Dデータ1140枚を用いて学習

• IoUと3D IoU(体積におけるIoU)で評価

実験1:人物検出精度検証

• 人物検出精度の向上• Backbone Networkの検討• Instance segmentationへの拡張

結論と今後の展望

使用機器RealSense D435 (Intel)深度範囲:

0.2~10m最大視野角:

100.6°

実験2の内容• 処理速度について各手法と比較した

実験2:推論速度比較

提案モデルの出力 YOLOv3の出力

IoU 3D IoU𝟑𝑫𝑰𝒐𝑼

𝟐𝟑

Mean 0.54 0.39 0.53

Max 0.92 0.85 0.90

GPU Speed [fps]

提案モデル GTX1080Ti 44.4

YOLO3D Titan X 40

VoxelNet Titan X 4.3

実験2 結果実験1結果

• 公開データセットによる検証• 多クラス分類への拡張

• 2次元畳み込みで特徴抽出を行ったことで処理速度が向上

• RGBとDepthを同じネットワークで特徴抽出するのは不十分?

実験結果の考察