introduce to Multimodal Deep Learning for Robust RGB-D Object Recognition
-
Upload
- -
Category
Data & Analytics
-
view
250 -
download
0
Transcript of introduce to Multimodal Deep Learning for Robust RGB-D Object Recognition
今回取り上げるのはこれ
[1]A. Eitel, et al.”Multimodal Deep Learning for Robust RGB-D Object Recognition”, arXiv:1057.06821v2, 2015
CNNを使った教師あり手法でRGB-Dデータから物体認識を行った!
ポイントは3つ
① モデルの構造は、RGB streamとDepth streamに分け、上位層でこれらを合体させる
② 深さ情報はカラー化して入力する ③ 深さ情報に独自のdata augmentationを行う
ポイント① モデルの構造
色情報を畳み込むRGB streamと深さ情報を畳み込むdepth streamがあり、上位層で合体する
RGB stream
[1]のFigure 1より depth stream
学習の流れ(3)
depth stream側も同様にCaffeNetのコピペと学習を行う
D Y
minWD ,θD
L softmax WDgD di;θ D( )( ), yi( )i=1
N
∑
学習の流れ(6)
目標値Yで上位層の部分だけ教師あり学習させる
D
X
Y
minW f ,θD ,θ I ,θ F
L softmax W f f gI ,gD⎡⎣ ⎤⎦;θF( )( ), yi( )
i=1
N
∑
学習させるのは ここだけ
ポイント③ 独自のaugmentation
1) 使える深さ情報のdata数が少ない 2) 実際に機器(kinectなど)から得られる深さ情報はノイズが多い
独自のaugmentationで解決
深さ情報dataに関して2つの問題点がある
独自のaugmentation(2)
50%の確率でノイズを含める
di = di
Ρk !di
⎧⎨⎪
⎩⎪
ifelse
p =1 withp ~ Β 0.5{ }k ~U 1,K{ }
○:アダマール積 B:ベルヌーイ分布 U:離散一様分布
ノイズを含めない場合