研究題目 - kthrlab ·...
Transcript of 研究題目 - kthrlab ·...
研究題目
雑音環境下の対話システム:ユーザーに基づく再度発話とセミブラインド音源分離の導入
日本大学大学院総合基礎科学研究科
地球情報数理科学専攻北原研究室
小暮計貴
研究の背景
音声対話システムは視覚障害者の支援で有効
理由:視覚障害者は音声で情報を得ている為
現在の対話システム
音声入力
画面出力
視覚障害者向けではない
音声入力
音声出力
雑音に影響を受けやすい
騒音の目安
雑音の典型例の一つ電車の雑音に着目する。
視覚障害者の鉄道利用(国土交通省、2011)
視覚障害者の鉄道利用(全70人)
45%
40.6%
13%
1.4%
週に5日以上利用
週に1~4日程度利用
月に1~3日程度利用
年に数回程度利用
視覚障害者の鉄道利用(国土交通省、2011)
音声案内の主な不満点
◆他の音と錯綜して音を聞き取れない ◆音が小さくて聞き取りづらい
@%△!#
音声対話とは
音声対話
音声認識
対話制御
音声合成
雑音に弱い!
音声認識
1.周波数帯域ごとの重みつき尤度を用いた雑音に頑健な音声認識(西村 義隆、2003)
2.スペクトルサブトラクションと時間方向スムージングを用いた雑音環境下音声認識(北岡 教英、2000)
3.実音響環境に頑健な音声認識を目指して(中村 哲、2002)4.変調スペクトルの重要な成分のみを選択的に用いた雑音に強い音声認識
(金寺 登、2001)5.雑音と残響のある環境下での HMM 合成によるハンズフリー音声認識法
(滝口哲也、1996)6.雑音に頑健な基本周波数抽出法とその音声認識への適用
(岩野公司、2002)7.マイクロホンアレーを用いた話者方向検出による音声認識
(山田武志、1995)8.・・・・・・
たくさん研究されている
音声合成
音声合成をユーザーが正確に聞き取るための工夫はあまり研究されていない
研究の目的
電車のホームなど雑音の大きい環境下でも音声発話内 容を聞き取る事のできるシステムを 実現する。
先行研究
●Improving Speech Intelligibility in Noisy Environments by Near End Listening Enhancement(Bastian Sauert、2006)
●多様性豊かな音声合成技術(水野 秀之、2013)
●話者音を聞き取りやすくする音声強調技術/話速変換技術(外川 太郎、2013)
Improving Speech Intelligibility in Noisy Environments by Near End Listening Enhancement
(Bastian Sauert、2006)
特定の周波数ごとのS/N比を元に、音声合成の音量を調節する
S/N比:20dB S/N比:0dB S/N比:-10dB
音量を上げる音量を大幅に上げる
音量そのまま
特定の周波数 特定の周波数 特定の周波数
多様性豊かな音声合成技術(水野 秀之、2013)
「通る声」の特徴を研究
雑音雑音
雑音
受話音を聞きやすくする音声強調技術/話速変換技術(外川 太郎、2013)
周囲の雑音に合わせて受話音を大きくする
◯◯さん△△です
◯◯さん△△です
雑音
雑音
雑音
既存研究での課題
先行研究
課題1.音声対話システムでなく、受話器での機能を想定されている2.突発的な雑音に対処出来ない。
課題を解決する為に
雑音量の変化 突発的な雑音
自動音量調節機能 発話延期機能
動画を入れる
機能の有効性
音声合成の内容が聞き取りやすくなる結果を得られた。
しかし、音声対話システムに
組み込むと・・・
2つの問題点が見つかった・・
問題点
問題1音量調節や発話延期を行ったとしても、ユーザーの
注意不足で聞き逃す可能性がある
問題2ユーザーの発話とシステムの音声を雑音と
して収集し、音量調節や発話延期を行ってしまう。
本研究では、この二つの問題点を解決する
提案手法
解決案1ユーザーの聞き返しに基づく再度発話
解決案2セミブラインド音源分離を導入する事で問題を解決
雑音
問題1
音量調節を行った場合でも聞き逃しが生じた場合は対処出来ない。
新宿駅に乗り変えてください。
雑音
問題1の解決案
ユーザーの聞き返しに基づく再度発話
新宿駅に乗り変えてください。
雑音新宿駅に乗り変えてください。
え?
再度発話!!
問題2
ユーザーの発話を雑音として、収集してしまい音量調節や発話延期が行われてしまう。
静かになるまでお待ちください!
ユーザーの音声を雑音として収集してしまう!!
新宿駅
問題2の解決案
セミブラインド音源分離を導入する事で解決する指向性マイクから入力されたユーザーの発話音声を既知情報として用いる
新宿駅セミブラインド音源分離によって抑圧
雑音
ユーザーの音声
雑音のみ
既知情報ユーザーの音声
セミブラインド音源分離とは?
ブラインド音源分離(ICA)あお
きいろ
あお
きいろ
分離
統計的に導く
セミブラインド音源分離とは?
あお
きいろ
あお
きいろ
分離
事前情報が分かっている。
統計的に導く
どのように扱うか
混合された信号
雑音
ユーザーやシステムの音声信号は分かってる
雑音
音声の信号
ユーザーの音声:指向性マイクにより入力される信号システムの音声信号:音声対話システムが発話中の信号
システム構成
● 音声対話システムの概要
・音声案内システムの利用場面
・対話フロー例
・システム構成
● 音量調節部のシステム構成
対話システムの利用場面
駅のホームに設置されてる音声案内システム
現在の駅から目的の駅までの乗り換え案内情報を知ることが出来る
新宿駅で山手線に乗り換えてください池袋まで
このシステムである理由
● 視覚障害者が携帯電話を扱うには、リスクが伴うため。
● 提案機能は駅に設置してあるシステムに有効であるため。
対話フロー例
「こんにちは、乗り換え案内システムです。」
「どこ駅までいきますか。」
「新宿駅」
「新宿駅まででよろしいですか?」
「はい」
「桜上水駅から京王線新宿行きで新宿駅に到着です。」
「料金は150円、乗車時間は15分です。」
「ご案内は以上です。ご利用有難うございました。」
青:音声案内システムの発話 赤:ユーザーの発話
システム構成視覚障害者向け鉄道案内
音声対話制御部
顔検出(OpenCV)
音声認識(Julius)
音声合成(Openjtalk)
音量調節新宿まで! 260円
マイク
カメラマイクロホンアレー
スピーカー
API(駅すぱあとAPI)
音量調節部の処理内容
マイクロフォンアレイで雑音を収集
セミブラインド音源分離の処理
雑音レベルを計測
音量調節 発話延期
64dB以下 65dB以上
ユーザーの発話音声
中間発表の段階の問題
マイクロフォンアレイ
セミブラインド
マイク
マイクとマイクロフォンアレイの入力のずれが生じていた
中間発表段階の出力結果
出力結果(元の信号)
中間発表段階の出力結果
出力結果(セミブラインド音源分離)
問題を解決するために
目的
マイクの入力信号とマイクロフォンアレイの入力信号を同期させる必要がある
方法
マイクの入力信号の初めに0を入力する事で、タイミングを遅らせ、マイクロフォンアレイと合わせる。
マイクに0を入力する理由
一定の間隔でマイクの入力信号が早い
マイク
マイクロ
フォンアレイ
初めに0を入力
マイクロ
フォンアレイ
マイク
同期結果
マイク
マイクロフォン
セミブラインド
セミブラインド音源分離結果
元の入力信号
セミブラインド音源分離結果
セミブラインド音源分離結果
セミブラインド音源分離の処理
Java1.マイクロフォンアレイの信号と
原音源の信号を同期(0を入力する事により)
2.同期させた信号を合わせて8chにする
7ch
1ch
指向性マイク
マイクロフォンアレイ
TCP/IP通信
HARK1.8chの信号を7chと1chに分ける2.マイクロフォンアレイの信号(7ch)と原音源の信号(1ch) でセミブラインド音源分離
雑音レベル計測
TCP/IP通信
被験者実験
二つの被験者実験を行った
被験者実験1
ユーザーの聞き返しに基づく再度発話の有効性を確かめる
被験者実験2
セミブラインド音源分離の導入の有効性を確かめる
被験者実験1
● 実験の目的● 駅のホームの雑音環境再現下● 実験方法● 実験結果
実験の目的
ユーザーの聞き返しに基づく再度発話の有効性を確かめる。
駅のホームの雑音環境再現
(距離はmm)
雑音用スピーカー
ユーザー
音声再生用スピーカー
マイクロホンアレー(周囲の雑音を収集)
実験で再生する雑音
●収録場所:京王線下高井戸駅ホーム●収録時間:8:50ー9:00(10分間)●最大騒音量:96dB●平均騒音量:64dB
実験で再生する雑音
30
(dB)
60 90 120(秒)
雑音
評価実験 ー実験環境ー
実験方法
被験者3人(男性2人、女性1人)
実験方法:雑音環境再現下で以下の3つのシステムを被験者に使用してもらい、聞き取れた発話内容の正答率を出す。(セミブラインド音源分離の処理はなし)
提案手法1(周囲の雑音に基づく音量調整や発話延期)
提案手法2(聞き返しに基づく音量調整や再度発話)
システムA × ×
システムB ○ ×
システムC ○ ○
実験方法それぞれ10回ずつ対話システムを使用し、以下の情報を解答用紙に記入して頂き、正答率を見る。
1. 乗り換え駅
2.電車名(山手線など)
3.料金
4.乗車時間
対話内容例 検索駅:新宿
「桜上水駅から京王新線で笹塚駅に乗り換えます。」
「笹塚駅から京王線で新宿駅に到着です。」
「料金は150円、乗車時間は12分掛かります。」
「ご利用有難うございました。」
解答方法
● 解答用紙
桜上水駅
駅
駅
駅
駅
駅
料金: 円 乗車時間: 分
線 線
線 線
線
京王新
笹塚
新宿
京王
150 5
実験結果
被験者 1 被験者2 被験者30
10
20
30
40
50
60
70
80
90
100
65
80
64
86 89 86
96 96 95
A
B
C
提案手法を導入したシステムの正答率が向上した
被験者実験1のまとめ
音量調節や発話延期機能を導入したとしても、発話内容が聞き取れない可能性がある
雑音環境下での聞き逃しを防ぐ為にユーザーの聞き返しに基づく音量調節や再度発話を提案
提案手法により聞き取り辛い発話を聞き返せる事で正答率が向上
被験者実験2
● 被験者実験の目的● 実験方法● 実験結果● 考察
実験の目的
● セミブラインド音源分離の有効性を確かめる● 雑音環境下は被験者実験1と同様に再現する
実験方法
被験者10人(男性7人、女性3人)
実験方法:雑音環境再現下で以下の3つのシステムを被験者に使用して頂き、聞き取れた発話内容の正答率を 出す。 また、実験中の発話延期回数を記録する。
周囲の雑音に基づく音量調整や発話延期
セミブラインド音源分離を導入
システムA × ×
システムB ○ ×
システムC ○ ○
実験結果(正答率)
被験者A 被験者B 被験者C 被験者D 被験者 E 被験者 F 被験者G 被験者 H 被験者 I 被験者 J0
10
20
30
40
50
60
70
80
90
100
システムA
システムB
システムC
被験者10人共正答率が上がる結果となった
実験結果(発話延期回数)システムB(セミブラインド音源分離なし)
システムC(セミブラインド音源分離あり)
被験者A 4 0被験者B 3 0被験者C 5 1被験者D 2 0被験者E 3 0被験者F 3 0被験者G 3 0被験者H 1 0被験者I 3 0被験者J 3 0
システムBに比べ、システムCのほうが発話延期回数が減少する結果を得られた
セミブラインド音源分離の結果
48dB 54dB
56dB60dB
ユーザーの発話箇所
ユーザーの発話箇所
セミブラインド音源分離なし
セミブラインド音源分離あり
セミブラインド音源分離によって抑圧されている
雑音箇所
雑音箇所
セミブラインド音源分離の結果
ユーザーの発話
ユーザーの発話
52dB 56dB
46dB 52dB
雑音箇所
雑音箇所
セミブラインド音源分離あり
セミブラインド音源分離なし
被験者実験2のまとめ
ユーザーの発話音声を雑音として収集してしまうため、意図しない所で音量調節や発話延期が行われてしまう
セミブラインド音源分離を導入し、問題の解決を試みる
セミブラインド音源分離によって、ユーザーの発話を抑圧する事により、意図しない所での発話延期を減少させる事ができた
セミブラインド音源分離の手法は有効であり、問題2を解決する事ができた
今後の課題
ユーザーの聞き返しに基づく再度発話「え?」、「何?」以外の聞き返しにも対応できるようにする。
聞き返しの意図を踏まえた上、それに対するアクションを行えるようにする。
ユーザーの顔を表情を認識し、聞き返せるようにする。
セミブラインド音源分離の導入実環境で実験を行えていない為、駅のホームなど実際の現場で実験を行う。
まとめ我々は音量調節と発話延期機能を構築した
・音量調節や発話延期機能を導入したとしても、発話内容 が聞き取れない可能性がある ・ユーザーの発話音声を雑音として収集してしまい、意図 しない所で音量調節と発話延期が行われてしまう
・ユーザーの聞き返しに基づく再度発話 ・セミブラインド音源分離の導入
提案手法の有効性を確かめる為に被験者実験を行った所、問題を解決できる結果を得られた
業績一覧
● 情報処理学会第76回全国大会
(2014ー03)● 音学シンポジウム2014
(2014ー05)● HCI International 2014
(2014ー06)● 情報処理学会第77回全国大会
(2015ー03)
ご清聴ありがとうございました