音情報処理 第6回 音声認識理論と音声認識システム · 音声認識 単語音声認識 ワードスポッティング 大語彙連続音声認識 (ディクテーション=口述筆記)
重点研究分野 サイバーフィジカルシステム(CPS)による ス … ·...
Transcript of 重点研究分野 サイバーフィジカルシステム(CPS)による ス … ·...
夢の会話プロジェクト -声を取り戻す-
岡山大学大学院ヘルスシステム統合科学研究科阿部匡伸,原直
岡山大学大学院医歯薬学総合研究科皆木省吾,川上滋央,兒玉直紀
【社会的背景】音声はコミュニケーションの手段としてばかりでなく,人間としての尊厳を保ち豊かな生活を送るうえで重要な役割を果たしている.不幸にして癌摘出手術や事故などにより音声発声器官の一部を失ったり,脳障害の発症で発声器官が適切に動かせなくなって音声コミュニケーションを失う患者は少なくない.2017年の国立がん研究センターの推計によれば,口腔・咽頭癌の患者数は約22,800人であり,癌患者の約2%を占める.【活動の目的・効果】患者音声の音韻明瞭性を音声信号処理で改善する方式を研究開発している.患者音声と健常者音声とを用いた機械学習により,患者音声の失われた音声スペクトルを復元する.手術前に患者音声を録音することが可能であれば,より本人に近い音声として復元可能となる.マイクで音声を入力するだけであるため,患者への負担も少なく,音声コミュニケーションの自由度を広げることができる.さらに,脳⾎管障害によって調音器官の制御に問題が生じた患者にも適応可能であり,本技術の適用領域は広い.
夢の会話プロジェクト -声を取り戻す-
岡山大学大学院ヘルスシステム統合科学研究科 教授 阿部匡伸,助教 原直岡山大学大学院医歯薬学総合研究科 教授 皆木省吾,助教 川上滋央、兒玉直紀
(関連サイト)http://www.cc.okayama-u.ac.jp/~2hotetsu/DreamConversation/DreamConversationTOP.html
学習フェーズ
変換フェーズ
変換音声分析患者音声 改善音声
こんにちは?んに?あ
モデル
時間対応づけ
音声分析患者音声
健常者音声
ありが?おうありがとう
音声分析
機械学習
深層学習
患者音声
健常者音声
改善音声
時間
時間
時間
変換による復元
似ている
4
正常な口の中の模型
舌
前歯
奥歯
切除:前歯
切除:舌
残:舌
残:奥歯
舌がんで舌を摘出した口の中の模型
5
鼻腔
軟口蓋口腔
硬口蓋
下顎骨
舌
咽頭蓋
咽頭
上唇
下唇
MRI-movie画像(ATR脳活動イメージングセンタMRI装置による)
音声の生成機構 –調音器官-
調音器官
6
/t/ /d/ /k/ /g/
舌の役割
舌により空気の流れを妨害
7
A01 J01
A01 J01
A01 J01
舌がんで舌を削除するとは?
歯学的なアプローチ:代替物を作り込むPAP(Palatal Augmentation Prosthesis)
KAT(Kinematic Artificial Tongue)
食事中に会話ができない口内炎ができると使えない
8
信号処理的アプローチ
x(n)y(n)
x(n)y(n) 変換
GMM(Gaussian Mixture Model )による声質変換
9
音声分析
時間対応づけ 結合ベクトル生成
GMMによるモデリング
音声分析𝒙𝒙1,𝒙𝒙2 ,𝒙𝒙3, …𝒙𝒙𝑛𝑛
𝒚𝒚1,𝒚𝒚2,𝒚𝒚3, …𝒚𝒚𝑚𝑚
𝒙𝒙1𝒚𝒚1
𝒙𝒙1𝒚𝒚2
𝒙𝒙2𝒚𝒚3
𝒙𝒙3𝒚𝒚4
𝒙𝒙5𝒚𝒚5
…𝒙𝒙𝑛𝑛…𝒚𝒚𝑚𝑚
元話者
ターゲット話者
ありがとう
ありがとう
𝑃𝑃 𝒛𝒛𝑡𝑡 𝝀𝝀(𝒛𝒛) = �𝑚𝑚=1
𝑀𝑀
𝑤𝑤𝑚𝑚𝑁𝑁 𝒛𝒛𝑡𝑡; 𝝁𝝁𝑚𝑚(𝒛𝒛),𝜮𝜮𝑚𝑚
(𝒛𝒛)
𝒛𝒛𝑡𝑡 =𝒙𝒙𝑡𝑡𝒚𝒚𝑡𝑡
𝒛𝒛1, 𝒛𝒛𝟐𝟐, 𝒛𝒛3, … 𝒛𝒛𝑛𝑛
𝝁𝝁𝑚𝑚(𝒛𝒛) =
𝝁𝝁𝑚𝑚(𝒙𝒙)
𝝁𝝁𝑚𝑚(𝒚𝒚) 𝜮𝜮𝑚𝑚
(𝒛𝒛) =𝜮𝜮𝑚𝑚
(𝒙𝒙𝒙𝒙) 𝜮𝜮𝑚𝑚(𝒙𝒙𝒚𝒚)
𝜮𝜮𝑚𝑚(𝒚𝒚𝑥𝑥) 𝜮𝜮𝑚𝑚
(𝒚𝒚𝒚𝒚)𝑤𝑤𝑚𝑚
�𝒚𝒚𝑡𝑡 = �𝑚𝑚=1
𝑀𝑀
𝑷𝑷 𝑚𝑚 𝒙𝒙𝑡𝑡 ,𝝀𝝀(𝒛𝒛) 𝝁𝝁𝑚𝑚(𝒚𝒚) + 𝜮𝜮𝑚𝑚
(𝒚𝒚𝒙𝒙)𝜮𝜮𝑚𝑚𝒙𝒙𝒙𝒙 −𝟏𝟏
𝒙𝒙𝑡𝑡 − 𝝁𝝁𝑚𝑚(𝑥𝑥)
変換パラメータ計算(平均二乗誤差最小化基準)音声分析
𝒙𝒙𝒕𝒕元話者
�𝒚𝒚𝑡𝑡 ターゲット話者
学習フェース
変換フェーズ
10
音声分析
時間対応づけ 結合ベクトル生成
GMMによるモデリング
音声分析𝒙𝒙1,𝒙𝒙2 ,𝒙𝒙3, …𝒙𝒙𝑛𝑛
𝒚𝒚1,𝒚𝒚2,𝒚𝒚3, …𝒚𝒚𝑚𝑚
𝒙𝒙1𝒚𝒚1
𝒙𝒙1𝒚𝒚2
𝒙𝒙2𝒚𝒚3
𝒙𝒙3𝒚𝒚4
𝒙𝒙5𝒚𝒚5
…𝒙𝒙𝑛𝑛…𝒚𝒚𝑚𝑚
元話者
ターゲット話者
ありがとう
ありがとう
𝑃𝑃 𝒛𝒛𝑡𝑡 𝝀𝝀(𝒛𝒛) = �𝑚𝑚=1
𝑀𝑀
𝑤𝑤𝑚𝑚𝑁𝑁 𝒛𝒛𝑡𝑡; 𝝁𝝁𝑚𝑚(𝒛𝒛),𝜮𝜮𝑚𝑚
(𝒛𝒛)
𝒛𝒛𝑡𝑡 =𝒙𝒙𝑡𝑡𝒚𝒚𝑡𝑡
𝒛𝒛1, 𝒛𝒛𝟐𝟐, 𝒛𝒛3, … 𝒛𝒛𝑛𝑛
𝝁𝝁𝑚𝑚(𝒛𝒛) =
𝝁𝝁𝑚𝑚(𝒙𝒙)
𝝁𝝁𝑚𝑚(𝒚𝒚) 𝜮𝜮𝑚𝑚
(𝒛𝒛) =𝜮𝜮𝑚𝑚
(𝒙𝒙𝒙𝒙) 𝜮𝜮𝑚𝑚(𝒙𝒙𝒚𝒚)
𝜮𝜮𝑚𝑚(𝒚𝒚𝑥𝑥) 𝜮𝜮𝑚𝑚
(𝒚𝒚𝒚𝒚)𝑤𝑤𝑚𝑚
�𝒚𝒚𝑡𝑡 = �𝑚𝑚=1
𝑀𝑀
𝑷𝑷 𝑚𝑚 𝒙𝒙𝑡𝑡 ,𝝀𝝀(𝒛𝒛) 𝝁𝝁𝑚𝑚(𝒚𝒚) + 𝜮𝜮𝑚𝑚
(𝒚𝒚𝒙𝒙)𝜮𝜮𝑚𝑚𝒙𝒙𝒙𝒙 −𝟏𝟏
𝒙𝒙𝑡𝑡 − 𝝁𝝁𝑚𝑚(𝑥𝑥)
変換パラメータ計算(平均二乗誤差最小化基準)音声分析
𝒙𝒙𝒕𝒕元話者
�𝒚𝒚𝑡𝑡 ターゲット話者
学習フェース
変換フェーズ
A01
A01
J52
J52
J52
GMM(Gaussian Mixture Model )による声質変換
11
�𝒚𝒚𝑡𝑡 = �𝑚𝑚=1
𝑀𝑀
𝑷𝑷 𝑚𝑚 𝒙𝒙𝑡𝑡 ,𝝀𝝀(𝒛𝒛) 𝝁𝝁𝑚𝑚(𝒚𝒚) + 𝜮𝜮𝑚𝑚
(𝒚𝒚𝒙𝒙)𝜮𝜮𝑚𝑚𝒙𝒙𝒙𝒙 −𝟏𝟏
𝒙𝒙𝑡𝑡 − 𝝁𝝁𝑚𝑚(𝑥𝑥)
変換パラメータ計算(平均二乗誤差最小化基準)音声分析
𝒙𝒙𝒕𝒕元話者
�𝒚𝒚𝑡𝑡 ターゲット話者
変換フェーズ
健常者に近い音声
舌摘出者
音声分析
時間対応づけ 結合ベクトル生成
GMMによるモデリング
音声分析𝒙𝒙1,𝒙𝒙2 ,𝒙𝒙3, …𝒙𝒙𝑛𝑛
𝒚𝒚1,𝒚𝒚2,𝒚𝒚3, …𝒚𝒚𝑚𝑚
𝒙𝒙1𝒚𝒚1
𝒙𝒙1𝒚𝒚2
𝒙𝒙2𝒚𝒚3
𝒙𝒙3𝒚𝒚4
𝒙𝒙5𝒚𝒚5
…𝒙𝒙𝑛𝑛…𝒚𝒚𝑚𝑚
𝑃𝑃 𝒛𝒛𝑡𝑡 𝝀𝝀(𝒛𝒛) = �𝑚𝑚=1
𝑀𝑀
𝑤𝑤𝑚𝑚𝑁𝑁 𝒛𝒛𝑡𝑡; 𝝁𝝁𝑚𝑚(𝒛𝒛),𝜮𝜮𝑚𝑚
(𝒛𝒛)
𝒛𝒛𝑡𝑡 =𝒙𝒙𝑡𝑡𝒚𝒚𝑡𝑡
𝒛𝒛1, 𝒛𝒛𝟐𝟐, 𝒛𝒛3, … 𝒛𝒛𝑛𝑛
𝝁𝝁𝑚𝑚(𝒛𝒛) =
𝝁𝝁𝑚𝑚(𝒙𝒙)
𝝁𝝁𝑚𝑚(𝒚𝒚) 𝜮𝜮𝑚𝑚
(𝒛𝒛) =𝜮𝜮𝑚𝑚
(𝒙𝒙𝒙𝒙) 𝜮𝜮𝑚𝑚(𝒙𝒙𝒚𝒚)
𝜮𝜮𝑚𝑚(𝒚𝒚𝑥𝑥) 𝜮𝜮𝑚𝑚
(𝒚𝒚𝒚𝒚)𝑤𝑤𝑚𝑚
学習フェース
元話者
ターゲット話者
ありがとう
ありがとう
健常者
舌摘出者
GMM(Gaussian Mixture Model )による声質変換
12
舌摘出者
健常者
変換音声
J51 J52
J51 J52
J51 J52
は た け は ひあ が り つ ち わ わ れ る
課題1
舌亜全摘出者に,
やすやすと協力してもらえない
疑似舌摘出者音声
2018/6/28 15
疑似的に舌亜全摘出者のような音声を
発声できる器具を作成
疑似舌摘出者音声コーパス
2018/6/28 16
「品の良い横顔が,さみしそうだった」
• 健常者音声
• 舌亜全摘出者音声
• 疑似
舌摘出者音声
課題2
音声情報だけでは,なかなか難しい
182018/6/28
舌摘出者 「さしすせそ」
「たちつてと」
「らりるれろ」
「はひふへほ」
「はひふへほ」
「はひふへほ」
喋りたい内容 実際に聞こえる内容 健常者の正解データ
「さしすせそ」
「たちつてと」
「らりるれろ」
(さ) 学習済みモデル
「は」
「さ」
「た」
「ら」???
舌摘出者
補助情報を活用
3次元正規化法のデモ
2018/6/28 19
左: 補正前 右: 補正後
特徴点の決定
2018/6/28 20
赤点: 分散小
青点: 分散大
鼻,目の下,頬の部分は口を動かしても変動が少ない
3次元正規化法による座標の正規化
•3次元顔座標に対して「正面を向いた3次元顔座標の基準点」へ射影変換する行列を算出する
2018/6/28 21
3次元顔
変換行列
正面顔S M W
SMW ⋅=
収録システム 概要
2018/6/28 22
収録データサンプル(健常者男性 器具あり)発話文: J01
2018/6/28 23
24
音声分析
時間対応づけ 結合ベクトル生成
GMMによるモデリング
音声分析𝒙𝒙1,𝒙𝒙2 ,𝒙𝒙3, …𝒙𝒙𝑛𝑛
𝒚𝒚1,𝒚𝒚2,𝒚𝒚3, …𝒚𝒚𝑚𝑚
𝒙𝒙1𝒚𝒚1
𝒙𝒙1𝒚𝒚2
𝒙𝒙2𝒚𝒚3
𝒙𝒙3𝒚𝒚4
𝒙𝒙5𝒚𝒚5
…𝒙𝒙𝑛𝑛…𝒚𝒚𝑚𝑚
元話者
ターゲット話者
ありがとう
ありがとう
𝑃𝑃 𝒛𝒛𝑡𝑡 𝝀𝝀(𝒛𝒛) = �𝑚𝑚=1
𝑀𝑀
𝑤𝑤𝑚𝑚𝑁𝑁 𝒛𝒛𝑡𝑡; 𝝁𝝁𝑚𝑚(𝒛𝒛),𝜮𝜮𝑚𝑚
(𝒛𝒛)
𝒛𝒛𝑡𝑡 =𝒙𝒙𝑡𝑡𝒚𝒚𝑡𝑡
𝒛𝒛1, 𝒛𝒛𝟐𝟐, 𝒛𝒛3, … 𝒛𝒛𝑛𝑛
𝝁𝝁𝑚𝑚(𝒛𝒛) =
𝝁𝝁𝑚𝑚(𝒙𝒙)
𝝁𝝁𝑚𝑚(𝒚𝒚) 𝜮𝜮𝑚𝑚
(𝒛𝒛) =𝜮𝜮𝑚𝑚
(𝒙𝒙𝒙𝒙) 𝜮𝜮𝑚𝑚(𝒙𝒙𝒚𝒚)
𝜮𝜮𝑚𝑚(𝒚𝒚𝑥𝑥) 𝜮𝜮𝑚𝑚
(𝒚𝒚𝒚𝒚)𝑤𝑤𝑚𝑚
�𝒚𝒚𝑡𝑡 = �𝑚𝑚=1
𝑀𝑀
𝑷𝑷 𝑚𝑚 𝒙𝒙𝑡𝑡 ,𝝀𝝀(𝒛𝒛) 𝝁𝝁𝑚𝑚(𝒚𝒚) + 𝜮𝜮𝑚𝑚
(𝒚𝒚𝒙𝒙)𝜮𝜮𝑚𝑚𝒙𝒙𝒙𝒙 −𝟏𝟏
𝒙𝒙𝑡𝑡 − 𝝁𝝁𝑚𝑚(𝑥𝑥)
変換パラメータ計算(平均二乗誤差最小化基準)音声分析
𝒙𝒙𝒕𝒕元話者
�𝒚𝒚𝑡𝑡 ターゲット話者
学習フェース
変換フェーズ
A01
A01
J52
J52
J52
GMM(Gaussian Mixture Model )による声質変換
非線形でマッピング
• 順伝播型の全結合多層パーセプトロン
– 入力特徴量: メルケプストラム + Δ + 口唇特徴量 (=79次元)
– 出力特徴量: メルケプストラム + 口唇特徴量 (=53次元)
25
入力音響特徴量
出力音響特徴量
入力層 中間層 中間層 出力層
あるフレーム
での
あるフレーム
での
書き取り実験結果
2018/6/2826
0
10
20
30
40
50
60
70
母音 半母音 摩擦音 破裂音 拗音 鼻音 流音 促音
認識
率[%
]
変換前 音声のみ マルチモーダル
95% Confidence Intervals
課題3
そもそも,簡単なNNでは限界あり?
Deep Nural Network使わないとね!
時間的に変化する情報も必要だよね?
LSTMの繰り返し構造(時間構造も学習)
• 3つの特殊なゲート(forgetゲート,inputゲート,outputゲート)とメモリセルを持つ
28
ht
Ct
LSTMを双方向につなげた構造,未来と過去の情報を考慮できる
29
2017/07/05 30
mcep Analysis Source Speech
LSTM
Input Layer
LSTM
t-1 t t+1
Layer-1 Forward
Layer-1 Backward
LSTM
LSTM
LSTM
LSTM
LSTM
LSTM
Layer-2 Forward
Layer-2 Backward
LSTM
LSTM
LSTM
LSTM
Output Layer t-1 t t+1
Converted Speech Synthesis diff-mcep
Auxiliary information (Label)
Bidirectional LSTM-RNNに基づく声質変換 変換部
客観評価実験
評価指標メルケプストラム距離
DNN-DVCとBLSTM-DVC BLSTMの方が良い結果⇒時系列情報を考慮出来ている
BLSTM-DVCとDNN-PLA-DVC BLSTMよりも音韻ラベルを用いる方式の方が良い結果
DNN-PLA-DVCとBLSTM-PLA-DVC提案手法(BLSTM-PLA-DVC)が非常に良い結果
音韻ラベルの効果を最大限に引き出せている可能性を示唆
2017/07/05 31
10.13
8.13 7.93
7.49
6.74
6
6.5
7
7.5
8
8.5
9
9.5
10
10.5
Mel
-Cep
stra
l Dis
trosi
on [d
B]
95% confidence intervals
Pre-Conversion
BLSTM-DVCDNN-DVCDNN-PLA-DVC
Post-Conversion
BLSTM-PLA-DVC
主観評価実験
2017/07/05 32
疑似舌摘出者音声(入力音声)
J01 J02 J03 J04 J05
健常者音声(目標音声)
J01 J02 J03 J04 J05
(1) DNN-DVC (baseline)
J01 J02 J03 J04 J05
(3) DNN-PLA-DVC
J01 J02 J03 J04 J05
(2) BLSTM-DVC
J01 J02 J03 J04 J05
(4) BLSTM-PLA-DVC (proposed)
J01 J02 J03 J04 J05
変換
【社会的背景】音声はコミュニケーションの手段としてばかりでなく,人間としての尊厳を保ち豊かな生活を送るうえで重要な役割を果たしている.不幸にして癌摘出手術や事故などにより音声発声器官の一部を失ったり,脳障害の発症で発声器官が適切に動かせなくなって音声コミュニケーションを失う患者は少なくない.2017年の国立がん研究センターの推計によれば,口腔・咽頭癌の患者数は約22,800人であり,癌患者の約2%を占める.【活動の目的・効果】患者音声の音韻明瞭性を音声信号処理で改善する方式を研究開発している.患者音声と健常者音声とを用いた機械学習により,患者音声の失われた音声スペクトルを復元する.手術前に患者音声を録音することが可能であれば,より本人に近い音声として復元可能となる.マイクで音声を入力するだけであるため,患者への負担も少なく,音声コミュニケーションの自由度を広げることができる.さらに,脳⾎管障害によって調音器官の制御に問題が生じた患者にも適応可能であり,本技術の適用領域は広い.
夢の会話プロジェクト -声を取り戻す-
岡山大学大学院ヘルスシステム統合科学研究科 教授 阿部匡伸,助教 原直岡山大学大学院医歯薬学総合研究科 教授 皆木省吾,助教 川上滋央、兒玉直紀
(関連サイト)http://www.cc.okayama-u.ac.jp/~2hotetsu/DreamConversation/DreamConversationTOP.html
学習フェーズ
変換フェーズ
変換音声分析患者音声 改善音声
こんにちは?んに?あ
モデル
時間対応づけ
音声分析患者音声
健常者音声
ありが?おうありがとう
音声分析
機械学習
深層学習
患者音声
健常者音声
改善音声
時間
時間
時間
変換による復元
似ている
Thank you for your kind attention.
34