ポケット内のスマートフォンによる両足ジェスチャ認識手法の提案と分析

43
ポケット内のスマートフォンによる 両足ジェスチャ認識手法の提案と分析 田村柾優紀 中村聡史 (明治大学)

Transcript of ポケット内のスマートフォンによる両足ジェスチャ認識手法の提案と分析

ポケット内のスマートフォンによる両足ジェスチャ認識手法の提案と分析

田村柾優紀 中村聡史

(明治大学)

デモ

両足のジェスチャによりポケット内のスマートフォンを用いてデバイスを操作

背景

•手によるデバイス操作に向かない操作や状況,またはそもそも出来ない状況は様々存在

• 手が汚い状況

• 手がふさがっている状況

• 他のものを見ている状況

現在の操作方法では手と目を同時に必要とする

背景(具体例)

背景

センシングに特化したデバイスを用いた行動推定に関する研究は様々行われている

•加速度センサの定常性判定による動作認識手法[村尾 2011]

•深度情報を含む映像からの行動認識に関する研究[神園2013]

背景

センシングに特化したデバイスを用いた行動推定に関する研究は様々行われている

•加速度センサの定常性判定による動作認識手法[村尾 2011]

•深度情報を含む映像からの行動認識に関する研究[神園2013]

これらの研究は手軽さに欠ける

スマートフォンの保有率

平成26年度における全体の保有率は64.7%

総務省:http://www.soumu.go.jp/johotsusintokei/whitepaper/ja/h27/html/nc111320.html

背景(関連研究)

• Sensing Foot Gestures from the Pocket [J.Scott 2010]• 片足のみのジェスチャ認識

• ポケット内のスマホの加速度センサでジェスチャ認識

• リアルタイムでの認識が出来ていない

• 前ポケットでの精度があまり良くない

背景

•両足によるジェスチャ認識がされることで,

•左右の特性を活かした操作が可能になる

•認識可能なジェスチャ数が増える

目的

•角加速度,加速度,音圧センサを組み合わせることで,両足のジェスチャ認識の実現

•リアルタイムで用いるため,認識率と認識時間の両方において,最適なウィンドウ幅の検証

様々なセンサを組み合わせることにより両足でのジェスチャ認識を実現

ウィンドウ幅

実装

•デバイス :XPERIA Z4

•学習データ:各ジェスチャ20個ずつ

•ジェスチャ認識時に使用するセンサ• 加速度 :X・Y・Z

• ジャイロ :X・Y・Z

• マイク音声 :音圧

•収納場所:前ポケット

•サンプリング周波数:約30HZ

ポケット デバイス操作(ADB経由)

使用者 操作対象

スマートフォン

タブレット

システム

ジェスチャ認識の流れ

1. ジェスチャを実行

2. 設定した閾値を超えた場合,ウィンドウ幅分のセンシング

3. そのウィンドウ幅分の値に対して認識手法(DPMatching・SVM)を用いてジェスチャ認識

4. ジェスチャが認識された場合,ポケット内の端末自身や他のデバイスを操作

ジェスチャ認識の流れ

1. ジェスチャを実行

2. 設定した閾値を超えた場合,ウィンドウ幅分のセンシング

3. 角加速度, 加速度, 音のセンシング値の時間変化に対してDPMatchingによりジェスチャ認識

4. ジェスチャが認識された場合,ポケット内の端末自身や他のデバイスを操作

L/3 2L/3

h

- h

0

ジェスチャ認識の流れ

1. ジェスチャを実行

2. 設定した閾値を超えた場合,ウィンドウ幅分のセンシング

3. そのウィンドウ幅分の値に対して認識手法(DPMatching・SVM)を用いてジェスチャ認識

4. ジェスチャが認識された場合,ポケット内の端末自身や他のデバイスを操作

ジェスチャ認識の流れ

1. ジェスチャを実行

2. 設定した閾値を超えた場合,ウィンドウ幅分のセンシング

3. そのウィンドウ幅分の値に対して認識手法(DPMatching・SVM)を用いてジェスチャ認識

4. ジェスチャが認識された場合,ポケット内の端末自身や他のデバイスを操作

各手法における認識過程

DPMatching

1. 全てのセンサで取得

2. 最大値又は最小値を基に正規化

3. -1 , -0.5 , 0 , 0.5 , 1に離散化

4. その値を用いてジェスチャ認識

SVM

1. 全てのセンサで取得

2. その値を用いてジェスチャ認識

推定精度の評価実験

•使用実験で用いる認識手法を特定のウィンドウ幅での比較により決定

•特徴ベクトル,ウィンドウ幅を様々な組み合わせ同士の比較により決定

両足によるジェスチャ認識が可能かをジェスチャログを用いて検証

評価実験

• 目的:二つの認識手法による比較から本提案システムにおいて精度の高い手法の選定を行う

• 認識手法:• DPMatching:非線形伸縮マッチング

• SVM:機械学習の1種

• 分類クラス:3クラス• 左足の踵の上下運動,右足の踵の上下運動,待機状態

• ウィンドウ幅:30フレーム

推定精度の評価実験

1. データセット構築

2認識手法ごとにF値の算出

2-1. DPMatching

2-2. SVM

データセット構築

•被験者:8人の大学生

•ジェスチャ:両足の踵の上下運動ランダム150回

•センシング:角加速度3軸,加速度3軸,マイク音圧,時間情報

•サンプリング周波数:約30Hz

•課題提示時間:1秒間

タスク提示方法

待機画面 タスク提示画面

実験風景

推定精度の評価実験

1 データセット構築

2-1 DPMatchingを用いた際のF値を算出

2-2 SVMを用いた際のF値を算出

F値

•適合率:当てはまったデータの中で,正しいデータの割合

•再現率:当てはまるべきデータの中で,当てはまったデータの割合

• F値とは,適合率と再現率から以下の様に算出でき,適合率と再現率をもとにした総合評価

𝐹 =2 ×適合率 ×再現率

適合率+再現率

適合率と再現率

ジェスチャログ

•右足:右足1、右足2、右足3

•左足:左足1、左足2、左足3

•待機:待機1、待機2、待機3

判定

•右足:右足1、右足2、右足3、左足1

•左足:左足2、左足3、待機1、待機2

•待機:待機3

適合率と再現率

判定

•右足:右足1、右足2、右足3、左足1

•左足:左足2、左足3、待機1、待機2

•待機:待機3

適合率=(3/4+2/4+1/1)/3=0.75

再現率=(3/3+2/3+1/3)/3=0.67

F値= (2*0.67*0.75)/(0.67+0.75)=0.71

DPMatchingのF値

センサ ウィンドウ幅(30)

角加速度X 0.6480

角加速度Y 0.4836

角加速度Z 0.6590

加速度X 0.6760

加速度Y 0.7277

加速度Z 0.6466

全体平均 0.6429

SVMのF値

センサ ウィンドウ幅(30)

角XYZ最大最小・加XYZ最小 0.924

角XYZ最大最小・加XYZ最大 0.918

音圧 0.526

角XYZ最大最小・加XYZ最大最小・音圧

0.919

SVMのF値

センサ ウィンドウ幅(30)

角XYZ最大最小・加XYZ最小 0.924

角XYZ最大最小・加XYZ最大 0.918

音圧 0.526

角XYZ最大最小・加XYZ最大最小・音圧

0.919

DPMatchingとSVMのウィンドウ幅30の結果からSVMの方が高い認識率

評価実験

• 特徴ベクトル,ウィンドウ幅を様々な組み合わせ同士の認識精度の比較により決定

• 認識手法:SVM

• 分類クラス:3クラス• 左足の踵の上下運動,右足の踵の上下運動,待機状態

• ウィンドウ幅:6パターン

• 15, 20, 25, 30, 35, 40フレーム

SVMによる認識

•機械学習のライブラリであるLibSVMを用いて実装

•標準化したデータを用いた分類器の精度が良くなかったため,今回は未加工のデータを使用

•角加速度・加速度・音圧の3つのセンサと最大最小の組み合わせから音圧の最小の組み合わせを抜いた31パターン

SVMを用いた際のF値

センサ ウィンドウ幅

20 25 30 35

角XYZ最大最小・加XYZ最小 0.900 0.933 0.924 0.915

角XYZ最大最小・加XYZ最大 0.904 0.931 0.918 0.906

音圧 0.521 0.527 0.526 0.492

角XYZ最大最小・加XYZ最大最小・音圧

0.842 0.904 0.919 0.912

角XYZ最大最小・加XYZ最小による推定精度が最も高い傾向

実験結果

• SVMにおけるウィンドウ幅25の角加速度XYZの最大最小と加速度最小の組み合わせによる推定精度が最も高い傾向

•音を組み合わせた場合には,全体としては減少する傾向にあった.しかし,8人中2人は音を分類器に加えることで1%前後向上する傾向

使用実験

•ページめくりまでにかかる時間,認識精度,使用感を基にシステムに対する評価を検証

精度評価での結果を基に使用実験を行い,有用性の検証

使用実験

•実験協力者:19~21歳の大学生8人

•クラスタリング手法:SVM

•特徴ベクトル:角XYZ最大最小・加XYZ最小

•ウィンドウ幅:25フレーム

•教師データ:各クラス20個• ジェスチャ:75回

使用実験

•約1000冊の漫画の中から読みたい漫画を1冊選んでもらい,その漫画をシステムにより読書

• 1回のジェスチャを2回のジェスチャとして処理しないように,約0.67秒間インターバルを設定• この情報は伝えずに実験を行った

•認識タイミングについては,設定した閾値を超えた際に認識を開始

アンケート内容

5段階のリッカート尺度

•反映までにかかる時間

•認識精度

•システムの使用感

自由記述

•体感認識率

•意見・感想

実験結果(アンケート結果)

実験協力者 時間 認識精度 体感認識 使用感

A -1.0 1.0 85.0% 1.0

B -1.0 -1.0 80.0% 1.0

C -2.0 -1.0 75.0% -1.0

D 0.0 -1.0 70.0% 1.0

E -1.0 1.0 90.0% 1.0

F -1.0 1.0 90.0% 0.0

G -1.0 1.0 70.0% 1.0

H -1.0 -2.0 25.0% -2.0

全体 -1.0 -0.13 73.1% 0.25

実験結果(自由記述)

•人によって読むペースが違うのでそれを踏まえたフィードバック時間の設定していてやりにくかった

•連続でページめくり出来ないように設定していてやりにくかった

•フィードバックが欲しかった

•レシピ見る時などの短時間での使用の方が向いている

今後の展望

•最も精度が高かった他人のデータを転用することで,自分のデータを登録する手間を削減

•自身のデータや他人のデータを用いたジェスチャで誤検知が起きた場合,動的なデータの更新により認識精度を維持または改善

まとめ

• SVMを用いることで,両足でのジェスチャの識別がある程度可能であるということを検証

•ウィンドウ幅については25フレームの値の時に認識精度が高い傾向

•使用実験からは誤認識自体に不満はなかったが,システムの仕様により認識精度が低下

今後の課題

•教師データ数による認識精度の検証

•フィードバックの提示方法