スマートフォンと 人工知能が描く未来yumenavi.info/douga/2014/doc/25533.pdf ·...
Transcript of スマートフォンと 人工知能が描く未来yumenavi.info/douga/2014/doc/25533.pdf ·...
スマートフォンと人工知能が描く未来
Yumenavi LIVE 2014 東京会場
2014年7月12日 at 東京ビックサイト
金沢工業大学 工学部 情報工学科
准教授 山本知仁
スマートフォンの進化
なぜ 近スマートフォンはいろいろなことができて、こんなに便利なのか?
理由:コンピュータシステムが進化し、より多くのデータをより早く処理できるようになったから– ムーアの法則:18か月でトランジスタの集積度が2倍
さらに近年では、このようなコンピュータがたくさんの塊になって、インターネット上で運用されるようになっている
このようなコンピューティングのスタイルをクラウドコンピューティングとよぶ
4
ビックデータの時代
近年、クラウドコンピューティングが進むにつれ、非常に多くのデータが収集できるようになった
このようなインターネット上の膨大なデータのことを「ビッグデータ」と呼ぶ
現在、このようなデータから有益な情報を抽出するような研究や取組みが盛んに行われている
このような研究領域のことを「データサイエンス」と呼ぶことがある
既にこのようなビックデータを活用したサービスが展開されている
6
音声対話システムのメカニズム
音声対話システムは複数の処理から構成される
こんにちは
マイク
音声認識 言語理解
対話管理
応答文生成音声合成
スピーカ
こんにちは
前処理
パターン認識
形態素解析
構文解析
意味解析
どのような状況?
相手はだれ?
これまでどんなこと話した?
どうやって会話を終了する?
何を言うのか?
どのように言うのか?
構造解析
音韻変換
波形生成8
スマートフォンのこれから
各端末の性能向上と、クラウドコンピューティングやデータサイエンスの発展が、スマートフォンの進化をもたらした
これから、音声対話システムのような人にとって使いやすいサービスがさらに増えていく
– 音声対話システムは、高齢者のようにあまり情報端末に慣れていないユーザでも簡単に利用することができる
音声対話システム 教育システム健康管理 スケジュール管理etc...
クラウド上のシステム
9
人工知能(AI)が必要!
人にとって使いやすいシステムをどのように構築すればよいのか?
→スマートフォンが人になればよい!
人工的な人(知能)を作る学問領域→人工知能
人工知能とは?
– 人が知識を用いて行っている処理を機械が行えるようにする技術
これまで人工知能のブームは何度かあったが、現在のブームは、先に示したインターネット上の膨大なデータを利用できるようになったために起こっている
10
人間より強い!?
既に人工知能は、特定の分野では人を上回っている 例えばチェスの世界では、1996年にIBMのスーパー
コンピュータ「Deep Blue」が当時のチェスチャンピオンを破った
将棋の世界では、AI電脳戦でコンピュータが2年連続プロのチームを勝ち越した
11Deep Blue 電脳戦
人に変わって問題を解く
IBMが開発したワトソンが、アメリカのクイズ番組「ジョパディ!」(Jeopardy!)で優勝した
東大の入試問題を解くロボット「東ロボ」くんは、模試で既にいくつかの大学がA判定になっている
12
ジョパディでのWatson
国立情報学研究所(NII)の東ロボ
人工知能のこれから
一見、このような進化が進みさらに人工知能が人に近づくように見える
人を超える日がやってくるのか?
→シンギュラリティーポイント
(Singularity Point:技術的特異点)
現在、日本はこのような人工知能を搭載したロボットの開発を進めている
→いずれいくつかの職業が、このようなロボットに
取って代わることが予想される
やばくない??13
人のことはあまりわかっていない!
人が行っていることをロボットが全て取って代われるか?
– 現在、解析され利用されているのはテキストなどを中心とした明在的なデータあり、このようなデータは比較的簡単に解析できる
一方、人の行動や頭で考えていることは必ずしも明確なデータとして扱えるわけではない
→フレーム問題
実はこのような分野の問題について、どのように解けばよいかは、まだあまりわかっていない
14
コミュニケーションチャンネル
言語的な要素(バーバルコミュニケーション)
非言語的な要素(ノンバーバルコミュニケーション)① 言語的 (発言の内容・意味)
a. 形態論・統語論的属性
(語,文の構造)
b. 意味論的属性
(文の意味)
② 近言語的 (発言の形式的属性)a. 音声学・音韻論的属性
(声の高さ, 速度, アクセント)b. 発言の時系列的パターン
(間のおき方, 発言のタイミング)③ 身体的動作
a. 視線
b. ジェスチャー, 姿勢, 身体接触
c. 顔面表情
④ プロセミックス (空間の行動)対人距離, 着席位置など
⑤人工物(事物)の使用被服, 化粧, アクセサリー, 道路標識など
⑥ 物理的環境家具, 照明, 温度など
[Birdwhistell, 1970]
[大坊郁夫, 1998]
音声的
非音声的
30~35%
60~65%
言語的コミュニケーション
非言語的コミュニケーションコミュニケーションコミュニケーション
チャネルチャネル
15
Googleがロボット会社を買っている
Googleはここ数年で8つのロボット会社を買収した– Shaft シャフト
– Boston Dynamicsボストンダイナミクス
– ボット&ドリー– etc...
ソフトバンクもロボットを発売した
16SCHAFTのロボットボストンダイナミクスのBig Dog
ソフトバンクのpepper
このような研究が求められている
コミュニケーションにおける非言語コミュニケーションのような、人の暗在的(無意識的)な情報を扱う研究が求められている
– 近年、情報系企業がロボット開発に乗り出しているのはこのような背景がある
人の暗在的な情報が生み出される仕組みを分析しながら、それを音声対話システムやロボットに実装していく研究がこれからも増えていく
山本研究室ではこのような分野を扱っている
– コミュニケーションにおける「間(ま)」の解析や、身体リズムの解析
17
指示-応答発話からなる対話の解析
指示と応答を繰り返す対話を実験対象とする
被験者は10個の積み木が置かれた机を挟んで座り、以下の2発話からなる対話を行う
– 指示者:「積み木を取ってください」
– 被指示者:「応答発話」+「頷き」
Monaural input
Digital Video
Woodblocks
積み木を取ってください積み木を取ってください
PCDesk
Stereo Inputs
Monaural input
応答発話
応答発話
頷き頷き
取る取る
Motion Capture
音声情報音声情報
身体動作情報
身体動作情報
実験風景 1、2 18
以下の7項目の特徴量間で総当たりによる相関解析を行った
– 指示発話長(IU)– 交替潜時長(SP)– 応答発話長 (RU)– 頷き長(Nod)– 掴み長(Catch)– 頷き開始時間から応答開始時間までの差(NT-RT)– 掴み開始時間から応答開始時間までの差(CT-RT)
Difference of Catch and Response Timing(CT-RT)
Duration Nod(Nod) Duration Catch(Catch)
Difference of Nod and Response Timing(NT-RT)
Duration ofInstruction Utterance(IU)
Duration of Switching Puse(RU)
Duration ofInstruction Utterance(SP)
”Instryction Utterrance” Switching Pause “Respoce Utterance”
CatchNod
Time
解析する時間特徴量
19
Response1 Condition1
相関係数は1試行(10データ)毎に算出
(3試行)×(10被験者組)=30データの平均
行、列の交点が各特徴量間の相関係数
Indices IU RU SP Nod Catch NT-RT CT-RT
IU 1.000 -0.043 -0.075 -0.004 0.058 -0.086 -0.035RU 1.000 -0.215 -0.061 -0.058 0.217 0.160SP 1.000 0.098 -0.004 -0.264 -0.092Nod 1.000 0.061 -0.548 0.035
Catch 1.000 -0.145 -0.315NT-RT 1.000 0.317CT-RT 1.000
Indices IU RU SP Nod Catch NT-RT CT-RT
IU 1.000 0.080 0.407 0.181 0.145 -0.161 0.315RU 1.000 -0.100 0.056 -0.028 0.108 0.196SP 1.000 0.176 0.012 -0.233 0.111Nod 1.000 -0.042 -0.531 0.154
Catch 1.000 -0.068 -0.255NT-RT 1.000 0.247CT-RT 1.000
Response1 Condition2
Indices IU RU SP Nod Catch NT-RT CT-RT
IU 1.000 0.060 -0.062 0.018 0.069 0.058 0.024RU 1.000 -0.131 0.076 0.080 0.008 0.167SP 1.000 0.056 -0.100 -0.282 -0.077Nod 1.000 0.099 -0.632 0.071
Catch 1.000 -0.161 -0.246NT-RT 1.000 0.262CT-RT 1.000
Indices IU RU SP Nod Catch NT-RT CT-RT
IU 1.000 0.501 0.433 0.197 0.167 -0.072 0.325RU 1.000 0.066 0.235 0.154 -0.013 0.290SP 1.000 0.072 -0.093 -0.189 0.173Nod 1.000 0.041 -0.602 0.081
Catch 1.000 -0.023 -0.237NT-RT 1.000 0.167CT-RT 1.000
Response2 Condition1 Response2 Condition2
時間特徴量間の相関関係
20
■ タイミングを制御しないモデル
これらの実験結果を元に、三菱重工の『ワカマル』へ発話長・交替潜時長・身体動作などの要素を総合的に考慮した発話モデルを実装した
三菱重工ワカマルへの実装
■ タイミングを制御するモデル
「コミュニケーションロボットとの対話を用いた発話と身振りのタイミング機構の分析」, 髙杉將司, 山本知仁,武藤ゆみ子, 阿部浩幸,三宅美博, 計測自動制御学会論文集, Vol.45, No.4, pp.215-223 (2009)「コミュニケーションロボットとの対話における交替潜時長と頷き先行時間長の影響評価」,高杉將司,吉田祥平,沖津健吾,横山正典,山本知仁,三宅美博,計測自動制御学会論文集 vol.46, no.1, pp.72-81 (2010)
「コミュニケーションロボットとの対話を用いた発話と身振りのタイミング機構の分析」, 髙杉將司, 山本知仁,武藤ゆみ子, 阿部浩幸,三宅美博, 計測自動制御学会論文集, Vol.45, No.4, pp.215-223 (2009)「コミュニケーションロボットとの対話における交替潜時長と頷き先行時間長の影響評価」,高杉將司,吉田祥平,沖津健吾,横山正典,山本知仁,三宅美博,計測自動制御学会論文集 vol.46, no.1, pp.72-81 (2010)
21
さらなる進化にはもっと研究が必要!
人の行動やコミュニケーションは複雑で多様である
– コミュニケーションチャネルの分だけ情報がやり取りされ、それぞれ個人によってさまざまな傾向がある
さらに、このような研究がたくさん必要になる
– どのような状況(文脈)で、どのような発話を行うのか?
– どのような動きがどのような感情を伝えるのか?
– 目線はどのように変化するのか?
– 顔の表情はどのように変化するのか?
これらの問題が明らかにされてくるとロボットが人に近づく日がやってくるかもしれない!?
22
情報工学を学ぼう!(KITで…)
みなさんが社会で活躍する頃に情報工学は、これまでとは異なった景色が広がっている!
何を学ばなければならないか?– 何事においても基本が重要
ハードの知識、ソフトウエアの知識
ソリューション、サービスの知識
– 先端の研究がどのような方向に向っているかを知る
新の研究施設で研究を行う
情報技術研究所、感動デザイン工学研究所
金沢工業大学の情報工学科では、これらのことを中心に学ぶ!
23