マルチモーダル深層学習を用いた農業環境におけるロバスト...

マルチモーダル深層学習を用いた農業環境におけるロバスト画像認識システムの構築

Lab. Robotics and Dynamics

Construction of Robust Image Recognition System in Agricultural Environment using Multimodal Deep Learning

研究背景

深層学習による画像認識を⽤いて農作物を⾃動検出

農業機械の⾃動化が必要Fig. 1:Tranition of domestic productsof traditional Oriental medicines

厚⽣労働省平成26年「薬事⼯業⽣産動態統計年報」

• 農業従事者の⾼齢化・減少による労働⼒の減少

• 薬⽤作物は農薬取締法により，農薬の使⽤が制限

• 少⼦⾼齢化、医療費⾼騰による漢⽅製剤の需要増加

深層学習による物体認識

画像認識コンピュータが画像の意味を理解する技術。本研究では複数種類のオブジェクトの検出が可能な⼀般物体検出を深層学習を⽤いて⾏うFaster R-CNNを⽤いる。 Fig.3: Object detection

ニューラルネットワーク

入力信号

出力信号

教師データとの誤差を用いてパラメータ修正

Fig.2: Network of Deep learning

誤差

教師データ

Faster R-CNN

画像全体に畳み込み処理を行い画像の特徴マップを出力

特徴マップに対して物体候補領域を求める

各物体候補領域に対してクラス分類を行う

“Faster R‐CNN: Towards Real‐Time Object Detection with Region Proposal Networks”Shaoqing Ren, Kaiming He, Ross Girshick, and Jian SunIEEE Transactions on Pattern Analysis and Machine Intelligence, Vol. 39, pp. 1137‐‐1149

Fig. 4: Faster R‐CNN

検出対象

検出対象の画像とその座標データから構成された教師データを⽤いて学習

⾓度・⾼さ・適⽤する画像処理のパラメータを変更した様々な教師データを作成し，どの条件で効率よく学習できるかを⽐較することにより適切な教師データの作成⽅法を提案する

Fig. 9: Sample image of detection Hatomugi

本研究の検出対象︓ハトムギ（作物）・ヒエ（雑草）

Fig. 8: Hatomugi (left) and Hie (right)

教師データ作成のためのデータ収集ハトムギ圃場でデータ採集を⾏った。ビデオカメラもしくはKinect for Windows V2 を搭載した台⾞を移動しながら撮影を⾏った。RGB画像とDepth画像の両⽅を取得した

列間の幅︓65 cm ,隣り合った作物同⼠の間隔︓20〜45 cm

Fig. 5: Photo (left) and picture(right) of tool

Fig. 7: Kinect for Windows V2Fig. 6: The width of crop line

65cm20~40cm

データ収取︓撮像条件

Name Date Angle [deg] Height [cm]

A1 27th June, 2017 60 145

A2 27th June, 2017 30 60

B1 13th July, 2017 60 145

B2 13th July, 2017 0 40

Table. 1: List of photographing conditions

Fig. 10: Images of Crops and Weeds in different conditionstop left: A1, top right: A2, bottom left: B1, bottom right: B2

学習データセット

それぞれ(a)元画像，(b)K-meansクラスタリング⽤いたセグメンテーション，(c)Depth情報を利⽤したセグメンテーション画像，および(d)Depth画像に対してモルフォロジークロージング処理を⾏った画像から構成されるデータセットを作成。

(c) Depth segmentation Image

(a) Original Image (b) K‐means clustering Image

Fig. 11: Sample of images of dataset(d) Morphology closed Image

⾊情報を利⽤したセグメンテーション①画像をRGB空間からL*a*b* ⾊空間に変換②a*b* 空間上でKmeans クラスタリングを⾏い画像中に存在する⾊を3 つのクラスタに分類③クラスタリングの結果を使⽤して画像の全ピクセルに分類のラベル付けを⾏う④同⼀ラベルのピクセルのみが抽出された画像を出⼒

Fig. 12: K‐means clustering segmentation

L*a*b*⾊空間 (CIELAB)⼈間の⽬で⾒える全ての⾊を記述できる⾊空間L*︓⾊の明度a*︓⾚（マゼンタ）と緑の間の位置b*︓⻩⾊と⻘の間の位置

K-means クラスタリング（k平均法）グラフ上の点を⾃動的に分類分け（クラスタリング）をするアルゴリズム

グラフ上の点をランダムにクラスタを割り当てる

クラスタごとの重心を計算各点のクラスタを一番重心が近いものに割り当てる

再度クラスタごとの重心を計算

・・・・

分類（クラスタリング）完了

Fig. 13: Process of K‐means clustering

RGB-D情報を利⽤したセグメンテーション

Kinect for Windows V2 から得られたDepth情報を元に，近傍 1.0m 以内の領域のみを残してセグメンテーション処理を⾏った．

Fig. 14: Segmentation using RGB‐D data

RGB Image 1920 1080

Depth Image 512 424

Segmented Image1980 1080

モルフォロジークロージング処理モルフォロジー︓

画像を処理する過程で⾏う形状ベースの画像処理操作の総称。モルフォロジー演算としては収縮(Erosion)と膨張(Dilation)が挙げられる。クロージング処理では膨張の後に収縮処理を⾏う。本研究では円盤型の構造化要素を⽤いて画像中のノイズを消去した。

(a) Depth data (b) Morphology closing

Fig. 15: Segmented images Fig. 16: Morphology closing

学習データセット

Dataset Name Date Angle [deg] Height [cm] Processing

A1‐1 06/27 60 145 Raw

A1‐2 06/27 60 145 K‐means

A2‐1 06/27 30 60 Raw

A2‐2 06/27 30 60 K‐means

B1 07/13 60 145 Raw

B2‐1 07/13 0 40 Raw

B2‐2 07/13 0 40 K‐means

B2‐3 07/13 0 40 Depth

B2‐4 07/13 0 40 Morphology

Table. 2: List of dataset

学習⽤︓1000枚，検出テスト⽤︓250枚1920×1080画素

撮影条件，画像処理ごとにデータセットを⽤意

⼀般物体検出の評価⽅法

適合率(Presicion)︓ P =

〜検出した中にどの程度正解が含まれるか

再現率 Recall ： 𝑅𝑡𝑝

𝑡𝑝 𝑓𝑛〜検出対象をどれだけ正しく検出できたか

Table. 3: Result of detection

mAP : mean Average Precision各クラスごとのAPを平均した値⼀般物体検出の精度の評価基準として⽤いられる

AP : Average Precision(平均適合率)適合率の平均でPR曲線を積分することで求められる0〜1の値で1に近い程⾼精度である数値が⼤きければ⼤きいほど精度が⾼い

検出テスト結果Training Dataset Hatomugi Hie mAP

A1‐1 (Raw) 0.24 0.11 0.175

A2‐1 (Raw) 0.78 0.87 0.825

A2‐2 (K‐means) 0.86 0.94 0.900

B1‐1 (Raw) 0.03 0.04 0.035

B2‐1 (Raw) 0.62 0.74 0.680

B2‐2 (K‐means) 0.32 0.044 0.182

B2‐3 (Depth) 0.01 0.00 0.005

B2‐4 (Morphology) 0.134 0.012 0.073

Table. 4: Result of detection

Fig. 12: Sample images of hatomugiright: dataset A‐1, left: dataset A‐2

真上から写された場合よりも作物の側⾯を移した場合、よりその作物の外⾒的特徴が表されているため、A2およびB2データセットで学習した場合に検出精度が向上したと推測される。

18

結論• K-means クラスタリングによるセグメンテーションを⾏った画像を⽤いて学習させた場合に精度が上昇

• 低い位置から撮影した場合，検出精度向上。しかしより成⻑した段階では，検出精度の良い撮影条件は他の列の作物と重なってしまうため精度が下がる

→⽣育段階が⼀定以上過ぎたときは作物を無視して雑草のみを検出するアルゴリズムに変更する必要

• Depth情報を⽤いたセグメンテーション処理を⾏った画像を⽤いた場合では精度が低く，モルフォロジークロージング処理を⾏った場合でも未処理の画像を⽤いた場合よりも低い精度であった

→葉の輪郭が⽋けていたことが検出や識別において不利に働いたと考えられる

マルチモーダル深層学習を用いた農業環境におけるロバスト...

Documents

Transcript of マルチモーダル深層学習を用いた農業環境におけるロバスト...

マルチモーダル深層学習を用いた農業環境 におけるロバスト...

Documents

Transcript of マルチモーダル深層学習を用いた農業環境 におけるロバスト...

マルチモーダル深層学習を用いた農業環境におけるロバスト...

Transcript of マルチモーダル深層学習を用いた農業環境におけるロバスト...