ポケット内のスマートフォンによる両足ジェスチャ認識手法の提案と分析
-
Upload
nakamura-lab -
Category
Education
-
view
96 -
download
1
Transcript of ポケット内のスマートフォンによる両足ジェスチャ認識手法の提案と分析
背景
•手によるデバイス操作に向かない操作や状況,またはそもそも出来ない状況は様々存在
• 手が汚い状況
• 手がふさがっている状況
• 他のものを見ている状況
現在の操作方法では手と目を同時に必要とする
背景
センシングに特化したデバイスを用いた行動推定に関する研究は様々行われている
•加速度センサの定常性判定による動作認識手法[村尾 2011]
•深度情報を含む映像からの行動認識に関する研究[神園2013]
背景
センシングに特化したデバイスを用いた行動推定に関する研究は様々行われている
•加速度センサの定常性判定による動作認識手法[村尾 2011]
•深度情報を含む映像からの行動認識に関する研究[神園2013]
これらの研究は手軽さに欠ける
スマートフォンの保有率
平成26年度における全体の保有率は64.7%
総務省:http://www.soumu.go.jp/johotsusintokei/whitepaper/ja/h27/html/nc111320.html
背景(関連研究)
• Sensing Foot Gestures from the Pocket [J.Scott 2010]• 片足のみのジェスチャ認識
• ポケット内のスマホの加速度センサでジェスチャ認識
• リアルタイムでの認識が出来ていない
• 前ポケットでの精度があまり良くない
目的
•角加速度,加速度,音圧センサを組み合わせることで,両足のジェスチャ認識の実現
•リアルタイムで用いるため,認識率と認識時間の両方において,最適なウィンドウ幅の検証
様々なセンサを組み合わせることにより両足でのジェスチャ認識を実現
実装
•デバイス :XPERIA Z4
•学習データ:各ジェスチャ20個ずつ
•ジェスチャ認識時に使用するセンサ• 加速度 :X・Y・Z
• ジャイロ :X・Y・Z
• マイク音声 :音圧
•収納場所:前ポケット
•サンプリング周波数:約30HZ
ジェスチャ認識の流れ
1. ジェスチャを実行
2. 設定した閾値を超えた場合,ウィンドウ幅分のセンシング
3. そのウィンドウ幅分の値に対して認識手法(DPMatching・SVM)を用いてジェスチャ認識
4. ジェスチャが認識された場合,ポケット内の端末自身や他のデバイスを操作
ジェスチャ認識の流れ
1. ジェスチャを実行
2. 設定した閾値を超えた場合,ウィンドウ幅分のセンシング
3. 角加速度, 加速度, 音のセンシング値の時間変化に対してDPMatchingによりジェスチャ認識
4. ジェスチャが認識された場合,ポケット内の端末自身や他のデバイスを操作
L/3 2L/3
h
- h
0
ジェスチャ認識の流れ
1. ジェスチャを実行
2. 設定した閾値を超えた場合,ウィンドウ幅分のセンシング
3. そのウィンドウ幅分の値に対して認識手法(DPMatching・SVM)を用いてジェスチャ認識
4. ジェスチャが認識された場合,ポケット内の端末自身や他のデバイスを操作
ジェスチャ認識の流れ
1. ジェスチャを実行
2. 設定した閾値を超えた場合,ウィンドウ幅分のセンシング
3. そのウィンドウ幅分の値に対して認識手法(DPMatching・SVM)を用いてジェスチャ認識
4. ジェスチャが認識された場合,ポケット内の端末自身や他のデバイスを操作
各手法における認識過程
DPMatching
1. 全てのセンサで取得
2. 最大値又は最小値を基に正規化
3. -1 , -0.5 , 0 , 0.5 , 1に離散化
4. その値を用いてジェスチャ認識
SVM
1. 全てのセンサで取得
2. その値を用いてジェスチャ認識
推定精度の評価実験
•使用実験で用いる認識手法を特定のウィンドウ幅での比較により決定
•特徴ベクトル,ウィンドウ幅を様々な組み合わせ同士の比較により決定
両足によるジェスチャ認識が可能かをジェスチャログを用いて検証
評価実験
• 目的:二つの認識手法による比較から本提案システムにおいて精度の高い手法の選定を行う
• 認識手法:• DPMatching:非線形伸縮マッチング
• SVM:機械学習の1種
• 分類クラス:3クラス• 左足の踵の上下運動,右足の踵の上下運動,待機状態
• ウィンドウ幅:30フレーム
データセット構築
•被験者:8人の大学生
•ジェスチャ:両足の踵の上下運動ランダム150回
•センシング:角加速度3軸,加速度3軸,マイク音圧,時間情報
•サンプリング周波数:約30Hz
•課題提示時間:1秒間
F値
•適合率:当てはまったデータの中で,正しいデータの割合
•再現率:当てはまるべきデータの中で,当てはまったデータの割合
• F値とは,適合率と再現率から以下の様に算出でき,適合率と再現率をもとにした総合評価
𝐹 =2 ×適合率 ×再現率
適合率+再現率
適合率と再現率
ジェスチャログ
•右足:右足1、右足2、右足3
•左足:左足1、左足2、左足3
•待機:待機1、待機2、待機3
判定
•右足:右足1、右足2、右足3、左足1
•左足:左足2、左足3、待機1、待機2
•待機:待機3
適合率と再現率
判定
•右足:右足1、右足2、右足3、左足1
•左足:左足2、左足3、待機1、待機2
•待機:待機3
適合率=(3/4+2/4+1/1)/3=0.75
再現率=(3/3+2/3+1/3)/3=0.67
F値= (2*0.67*0.75)/(0.67+0.75)=0.71
DPMatchingのF値
センサ ウィンドウ幅(30)
角加速度X 0.6480
角加速度Y 0.4836
角加速度Z 0.6590
加速度X 0.6760
加速度Y 0.7277
加速度Z 0.6466
全体平均 0.6429
SVMのF値
センサ ウィンドウ幅(30)
角XYZ最大最小・加XYZ最小 0.924
角XYZ最大最小・加XYZ最大 0.918
音圧 0.526
角XYZ最大最小・加XYZ最大最小・音圧
0.919
SVMのF値
センサ ウィンドウ幅(30)
角XYZ最大最小・加XYZ最小 0.924
角XYZ最大最小・加XYZ最大 0.918
音圧 0.526
角XYZ最大最小・加XYZ最大最小・音圧
0.919
DPMatchingとSVMのウィンドウ幅30の結果からSVMの方が高い認識率
評価実験
• 特徴ベクトル,ウィンドウ幅を様々な組み合わせ同士の認識精度の比較により決定
• 認識手法:SVM
• 分類クラス:3クラス• 左足の踵の上下運動,右足の踵の上下運動,待機状態
• ウィンドウ幅:6パターン
• 15, 20, 25, 30, 35, 40フレーム
SVMによる認識
•機械学習のライブラリであるLibSVMを用いて実装
•標準化したデータを用いた分類器の精度が良くなかったため,今回は未加工のデータを使用
•角加速度・加速度・音圧の3つのセンサと最大最小の組み合わせから音圧の最小の組み合わせを抜いた31パターン
SVMを用いた際のF値
センサ ウィンドウ幅
20 25 30 35
角XYZ最大最小・加XYZ最小 0.900 0.933 0.924 0.915
角XYZ最大最小・加XYZ最大 0.904 0.931 0.918 0.906
音圧 0.521 0.527 0.526 0.492
角XYZ最大最小・加XYZ最大最小・音圧
0.842 0.904 0.919 0.912
角XYZ最大最小・加XYZ最小による推定精度が最も高い傾向
実験結果
• SVMにおけるウィンドウ幅25の角加速度XYZの最大最小と加速度最小の組み合わせによる推定精度が最も高い傾向
•音を組み合わせた場合には,全体としては減少する傾向にあった.しかし,8人中2人は音を分類器に加えることで1%前後向上する傾向
使用実験
•実験協力者:19~21歳の大学生8人
•クラスタリング手法:SVM
•特徴ベクトル:角XYZ最大最小・加XYZ最小
•ウィンドウ幅:25フレーム
•教師データ:各クラス20個• ジェスチャ:75回
使用実験
•約1000冊の漫画の中から読みたい漫画を1冊選んでもらい,その漫画をシステムにより読書
• 1回のジェスチャを2回のジェスチャとして処理しないように,約0.67秒間インターバルを設定• この情報は伝えずに実験を行った
•認識タイミングについては,設定した閾値を超えた際に認識を開始
実験結果(アンケート結果)
実験協力者 時間 認識精度 体感認識 使用感
A -1.0 1.0 85.0% 1.0
B -1.0 -1.0 80.0% 1.0
C -2.0 -1.0 75.0% -1.0
D 0.0 -1.0 70.0% 1.0
E -1.0 1.0 90.0% 1.0
F -1.0 1.0 90.0% 0.0
G -1.0 1.0 70.0% 1.0
H -1.0 -2.0 25.0% -2.0
全体 -1.0 -0.13 73.1% 0.25
実験結果(自由記述)
•人によって読むペースが違うのでそれを踏まえたフィードバック時間の設定していてやりにくかった
•連続でページめくり出来ないように設定していてやりにくかった
•フィードバックが欲しかった
•レシピ見る時などの短時間での使用の方が向いている
今後の展望
•最も精度が高かった他人のデータを転用することで,自分のデータを登録する手間を削減
•自身のデータや他人のデータを用いたジェスチャで誤検知が起きた場合,動的なデータの更新により認識精度を維持または改善