重点研究分野サイバーフィジカルシステム（CPS）によるス … ·...

夢の会話プロジェクト -声を取り戻す-

岡山大学大学院ヘルスシステム統合科学研究科阿部匡伸，原直

岡山大学大学院医歯薬学総合研究科皆木省吾，川上滋央，兒玉直紀

【社会的背景】音声はコミュニケーションの手段としてばかりでなく，人間としての尊厳を保ち豊かな生活を送るうえで重要な役割を果たしている．不幸にして癌摘出手術や事故などにより音声発声器官の一部を失ったり，脳障害の発症で発声器官が適切に動かせなくなって音声コミュニケーションを失う患者は少なくない．2017年の国立がん研究センターの推計によれば，口腔・咽頭癌の患者数は約22,800人であり，癌患者の約２％を占める．【活動の目的・効果】患者音声の音韻明瞭性を音声信号処理で改善する方式を研究開発している．患者音声と健常者音声とを用いた機械学習により，患者音声の失われた音声スペクトルを復元する．手術前に患者音声を録音することが可能であれば，より本人に近い音声として復元可能となる．マイクで音声を入力するだけであるため，患者への負担も少なく，音声コミュニケーションの自由度を広げることができる．さらに，脳⾎管障害によって調音器官の制御に問題が生じた患者にも適応可能であり，本技術の適用領域は広い．


岡山大学大学院ヘルスシステム統合科学研究科教授阿部匡伸，助教原直岡山大学大学院医歯薬学総合研究科教授皆木省吾，助教川上滋央、兒玉直紀

（関連サイト）http://www.cc.okayama-u.ac.jp/~2hotetsu/DreamConversation/DreamConversationTOP.html

学習フェーズ

変換フェーズ

変換音声分析患者音声改善音声

こんにちは？んに？あ

モデル

時間対応づけ

音声分析患者音声

健常者音声

ありが？おうありがとう

音声分析

機械学習

深層学習

患者音声

健常者音声

改善音声

時間

時間

時間

変換による復元

似ている

4

正常な口の中の模型

舌

前歯

奥歯

切除：前歯

切除：舌

残：舌

残：奥歯

舌がんで舌を摘出した口の中の模型

5

鼻腔

軟口蓋口腔

硬口蓋

下顎骨

舌

咽頭蓋

咽頭

上唇

下唇

MRI-movie画像（ATR脳活動イメージングセンタMRI装置による）

音声の生成機構 –調音器官－

調音器官

6

/t/ /d/ /k/ /g/

舌の役割

舌により空気の流れを妨害

7

A01 J01

A01 J01

A01 J01

舌がんで舌を削除するとは？

歯学的なアプローチ：代替物を作り込むPAP(Palatal Augmentation Prosthesis)

KAT(Kinematic Artificial Tongue)

食事中に会話ができない口内炎ができると使えない

8

信号処理的アプローチ

x(n)y(n)

x(n)y(n) 変換

ＧＭＭ（Gaussian Mixture Model ）による声質変換

9

音声分析

時間対応づけ結合ベクトル生成

GMMによるモデリング

音声分析𝒙𝒙1,𝒙𝒙2 ,𝒙𝒙3, …𝒙𝒙𝑛𝑛

𝒚𝒚1,𝒚𝒚2,𝒚𝒚3, …𝒚𝒚𝑚𝑚

𝒙𝒙1𝒚𝒚1

𝒙𝒙1𝒚𝒚2

𝒙𝒙2𝒚𝒚3

𝒙𝒙3𝒚𝒚4

𝒙𝒙5𝒚𝒚5

…𝒙𝒙𝑛𝑛…𝒚𝒚𝑚𝑚

元話者

ターゲット話者

ありがとう

ありがとう

𝑃𝑃 𝒛𝒛𝑡𝑡 𝝀𝝀(𝒛𝒛) = �𝑚𝑚=1

𝑀𝑀

𝑤𝑤𝑚𝑚𝑁𝑁 𝒛𝒛𝑡𝑡; 𝝁𝝁𝑚𝑚(𝒛𝒛),𝜮𝜮𝑚𝑚

(𝒛𝒛)

𝒛𝒛𝑡𝑡 =𝒙𝒙𝑡𝑡𝒚𝒚𝑡𝑡

𝒛𝒛1, 𝒛𝒛𝟐𝟐, 𝒛𝒛3, … 𝒛𝒛𝑛𝑛

𝝁𝝁𝑚𝑚(𝒛𝒛) =

𝝁𝝁𝑚𝑚(𝒙𝒙)

𝝁𝝁𝑚𝑚(𝒚𝒚) 𝜮𝜮𝑚𝑚

(𝒛𝒛) =𝜮𝜮𝑚𝑚

(𝒙𝒙𝒙𝒙) 𝜮𝜮𝑚𝑚(𝒙𝒙𝒚𝒚)

𝜮𝜮𝑚𝑚(𝒚𝒚𝑥𝑥) 𝜮𝜮𝑚𝑚

(𝒚𝒚𝒚𝒚)𝑤𝑤𝑚𝑚

�𝒚𝒚𝑡𝑡 = �𝑚𝑚=1

𝑀𝑀

𝑷𝑷 𝑚𝑚 𝒙𝒙𝑡𝑡 ,𝝀𝝀(𝒛𝒛) 𝝁𝝁𝑚𝑚(𝒚𝒚) + 𝜮𝜮𝑚𝑚

(𝒚𝒚𝒙𝒙)𝜮𝜮𝑚𝑚𝒙𝒙𝒙𝒙 −𝟏𝟏

𝒙𝒙𝑡𝑡 − 𝝁𝝁𝑚𝑚(𝑥𝑥)

変換パラメータ計算（平均二乗誤差最小化基準）音声分析

𝒙𝒙𝒕𝒕元話者

�𝒚𝒚𝑡𝑡 ターゲット話者

学習フェース

変換フェーズ

10

音声分析





𝒙𝒙1𝒚𝒚1

𝒙𝒙1𝒚𝒚2

𝒙𝒙2𝒚𝒚3

𝒙𝒙3𝒚𝒚4

𝒙𝒙5𝒚𝒚5


元話者


ありがとう

ありがとう


𝑀𝑀


(𝒛𝒛)











𝑀𝑀







学習フェース

変換フェーズ

A01

A01

J52

J52

J52


11


𝑀𝑀







変換フェーズ

健常者に近い音声

舌摘出者

音声分析





𝒙𝒙1𝒚𝒚1

𝒙𝒙1𝒚𝒚2

𝒙𝒙2𝒚𝒚3

𝒙𝒙3𝒚𝒚4

𝒙𝒙5𝒚𝒚5



𝑀𝑀


(𝒛𝒛)










学習フェース

元話者


ありがとう

ありがとう

健常者

舌摘出者


12

舌摘出者

健常者

変換音声

J51 J52

J51 J52

J51 J52

はたけはひあがりつちわわれる

課題１

舌亜全摘出者に，

やすやすと協力してもらえない

疑似舌摘出者音声

2018/6/28 15

疑似的に舌亜全摘出者のような音声を

発声できる器具を作成

疑似舌摘出者音声コーパス

2018/6/28 16

「品の良い横顔が，さみしそうだった」

• 健常者音声

• 舌亜全摘出者音声

• 疑似

舌摘出者音声

課題２

音声情報だけでは，なかなか難しい

182018/6/28

舌摘出者「さしすせそ」

「たちつてと」

「らりるれろ」

「はひふへほ」



喋りたい内容実際に聞こえる内容健常者の正解データ

「さしすせそ」

「たちつてと」

「らりるれろ」

(さ) 学習済みモデル

「は」

「さ」

「た」

「ら」？？？

舌摘出者

補助情報を活用

3次元正規化法のデモ

2018/6/28 19

左: 補正前右: 補正後

特徴点の決定

2018/6/28 20

赤点: 分散小

青点: 分散大

鼻，目の下，頬の部分は口を動かしても変動が少ない

3次元正規化法による座標の正規化

•3次元顔座標に対して「正面を向いた3次元顔座標の基準点」へ射影変換する行列を算出する

2018/6/28 21

3次元顔

変換行列

正面顔S M W

SMW ⋅=

収録システム概要

2018/6/28 22

収録データサンプル(健常者男性器具あり)発話文: J01

2018/6/28 23

24

音声分析





𝒙𝒙1𝒚𝒚1

𝒙𝒙1𝒚𝒚2

𝒙𝒙2𝒚𝒚3

𝒙𝒙3𝒚𝒚4

𝒙𝒙5𝒚𝒚5


元話者


ありがとう

ありがとう


𝑀𝑀


(𝒛𝒛)











𝑀𝑀







学習フェース

変換フェーズ

A01

A01

J52

J52

J52


非線形でマッピング

• 順伝播型の全結合多層パーセプトロン

– 入力特徴量: メルケプストラム + Δ + 口唇特徴量 (=79次元)

– 出力特徴量: メルケプストラム + 口唇特徴量 (=53次元)

25

入力音響特徴量

出力音響特徴量

入力層中間層中間層出力層

あるフレーム

での

あるフレーム

での

書き取り実験結果

2018/6/2826

0

10

20

30

40

50

60

70

母音半母音摩擦音破裂音拗音鼻音流音促音

認識

率[%

]

変換前音声のみマルチモーダル

95% Confidence Intervals

課題３

そもそも，簡単なNNでは限界あり？

Deep Nural Network使わないとね！

時間的に変化する情報も必要だよね？

LSTMの繰り返し構造（時間構造も学習）

• ３つの特殊なゲート(forgetゲート，inputゲート，outputゲート)とメモリセルを持つ

28

ht

Ct

LSTMを双方向につなげた構造，未来と過去の情報を考慮できる

29

2017/07/05 30

mcep Analysis Source Speech

LSTM

Input Layer

LSTM

t-1 t t+1

Layer-1 Forward

Layer-1 Backward

LSTM

LSTM

LSTM

LSTM

LSTM

LSTM

Layer-2 Forward

Layer-2 Backward

LSTM

LSTM

LSTM

LSTM

Output Layer t-1 t t+1

Converted Speech Synthesis diff-mcep

Auxiliary information (Label)

Bidirectional LSTM-RNNに基づく声質変換変換部

客観評価実験

評価指標メルケプストラム距離

DNN-DVCとBLSTM-DVC BLSTMの方が良い結果⇒時系列情報を考慮出来ている

BLSTM-DVCとDNN-PLA-DVC BLSTMよりも音韻ラベルを用いる方式の方が良い結果

DNN-PLA-DVCとBLSTM-PLA-DVC提案手法(BLSTM-PLA-DVC)が非常に良い結果

音韻ラベルの効果を最大限に引き出せている可能性を示唆

2017/07/05 31

10.13

8.13 7.93

7.49

6.74

6

6.5

7

7.5

8

8.5

9

9.5

10

10.5

Mel

-Cep

stra

l Dis

trosi

on [d

B]

95% confidence intervals

Pre-Conversion

BLSTM-DVCDNN-DVCDNN-PLA-DVC

Post-Conversion

BLSTM-PLA-DVC

主観評価実験

2017/07/05 32

疑似舌摘出者音声(入力音声)

J01 J02 J03 J04 J05

健常者音声(目標音声)

J01 J02 J03 J04 J05

(1) DNN-DVC (baseline)

J01 J02 J03 J04 J05

(3) DNN-PLA-DVC

J01 J02 J03 J04 J05

(2) BLSTM-DVC

J01 J02 J03 J04 J05

(4) BLSTM-PLA-DVC (proposed)

J01 J02 J03 J04 J05

変換

【社会的背景】音声はコミュニケーションの手段としてばかりでなく，人間としての尊厳を保ち豊かな生活を送るうえで重要な役割を果たしている．不幸にして癌摘出手術や事故などにより音声発声器官の一部を失ったり，脳障害の発症で発声器官が適切に動かせなくなって音声コミュニケーションを失う患者は少なくない．2017年の国立がん研究センターの推計によれば，口腔・咽頭癌の患者数は約22,800人であり，癌患者の約２％を占める．【活動の目的・効果】患者音声の音韻明瞭性を音声信号処理で改善する方式を研究開発している．患者音声と健常者音声とを用いた機械学習により，患者音声の失われた音声スペクトルを復元する．手術前に患者音声を録音することが可能であれば，より本人に近い音声として復元可能となる．マイクで音声を入力するだけであるため，患者への負担も少なく，音声コミュニケーションの自由度を広げることができる．さらに，脳⾎管障害によって調音器官の制御に問題が生じた患者にも適応可能であり，本技術の適用領域は広い．


岡山大学大学院ヘルスシステム統合科学研究科教授阿部匡伸，助教原直岡山大学大学院医歯薬学総合研究科教授皆木省吾，助教川上滋央、兒玉直紀

（関連サイト）http://www.cc.okayama-u.ac.jp/~2hotetsu/DreamConversation/DreamConversationTOP.html

学習フェーズ

変換フェーズ

変換音声分析患者音声改善音声

こんにちは？んに？あ

モデル

時間対応づけ

音声分析患者音声

健常者音声

ありが？おうありがとう

音声分析

機械学習

深層学習

患者音声

健常者音声

改善音声

時間

時間

時間

変換による復元

似ている

Thank you for your kind attention.

34

重点研究分野サイバーフィジカルシステム（CPS）によるス … ·...

Documents

Transcript of 重点研究分野サイバーフィジカルシステム（CPS）によるス … ·...

重点研究分野 サイバーフィジカルシステム（CPS）による ス … ·...

Documents

Transcript of 重点研究分野 サイバーフィジカルシステム（CPS）による ス … ·...

重点研究分野サイバーフィジカルシステム（CPS）によるス … ·...

Transcript of 重点研究分野サイバーフィジカルシステム（CPS）によるス … ·...