重点研究分野 サイバーフィジカルシステム(CPS)による ス … ·...

34
夢の会話プロジェクト -声を取り戻す- 岡山大学大学院ヘルスシステム統合科学研究科 阿部匡伸,原直 岡山大学大学院医歯薬学総合研究科 皆木省吾,川上滋央,兒玉直紀

Transcript of 重点研究分野 サイバーフィジカルシステム(CPS)による ス … ·...

Page 1: 重点研究分野 サイバーフィジカルシステム(CPS)による ス … · 健常者音声とを用いた機械学習により,患者音声の失われた音声スペクトルを復元する.手術前に患者音声を

夢の会話プロジェクト -声を取り戻す-

岡山大学大学院ヘルスシステム統合科学研究科阿部匡伸,原直

岡山大学大学院医歯薬学総合研究科皆木省吾,川上滋央,兒玉直紀

Page 2: 重点研究分野 サイバーフィジカルシステム(CPS)による ス … · 健常者音声とを用いた機械学習により,患者音声の失われた音声スペクトルを復元する.手術前に患者音声を

【社会的背景】音声はコミュニケーションの手段としてばかりでなく,人間としての尊厳を保ち豊かな生活を送るうえで重要な役割を果たしている.不幸にして癌摘出手術や事故などにより音声発声器官の一部を失ったり,脳障害の発症で発声器官が適切に動かせなくなって音声コミュニケーションを失う患者は少なくない.2017年の国立がん研究センターの推計によれば,口腔・咽頭癌の患者数は約22,800人であり,癌患者の約2%を占める.【活動の目的・効果】患者音声の音韻明瞭性を音声信号処理で改善する方式を研究開発している.患者音声と健常者音声とを用いた機械学習により,患者音声の失われた音声スペクトルを復元する.手術前に患者音声を録音することが可能であれば,より本人に近い音声として復元可能となる.マイクで音声を入力するだけであるため,患者への負担も少なく,音声コミュニケーションの自由度を広げることができる.さらに,脳⾎管障害によって調音器官の制御に問題が生じた患者にも適応可能であり,本技術の適用領域は広い.

夢の会話プロジェクト -声を取り戻す-

岡山大学大学院ヘルスシステム統合科学研究科 教授 阿部匡伸,助教 原直岡山大学大学院医歯薬学総合研究科 教授 皆木省吾,助教 川上滋央、兒玉直紀

(関連サイト)http://www.cc.okayama-u.ac.jp/~2hotetsu/DreamConversation/DreamConversationTOP.html

学習フェーズ

変換フェーズ

変換音声分析患者音声 改善音声

こんにちは?んに?あ

モデル

時間対応づけ

音声分析患者音声

健常者音声

ありが?おうありがとう

音声分析

機械学習

深層学習

患者音声

健常者音声

改善音声

時間

時間

時間

変換による復元

似ている

Page 3: 重点研究分野 サイバーフィジカルシステム(CPS)による ス … · 健常者音声とを用いた機械学習により,患者音声の失われた音声スペクトルを復元する.手術前に患者音声を
Page 4: 重点研究分野 サイバーフィジカルシステム(CPS)による ス … · 健常者音声とを用いた機械学習により,患者音声の失われた音声スペクトルを復元する.手術前に患者音声を

4

正常な口の中の模型

前歯

奥歯

切除:前歯

切除:舌

残:舌

残:奥歯

舌がんで舌を摘出した口の中の模型

Page 5: 重点研究分野 サイバーフィジカルシステム(CPS)による ス … · 健常者音声とを用いた機械学習により,患者音声の失われた音声スペクトルを復元する.手術前に患者音声を

5

鼻腔

軟口蓋口腔

硬口蓋

下顎骨

咽頭蓋

咽頭

上唇

下唇

MRI-movie画像(ATR脳活動イメージングセンタMRI装置による)

音声の生成機構 –調音器官-

調音器官

Page 6: 重点研究分野 サイバーフィジカルシステム(CPS)による ス … · 健常者音声とを用いた機械学習により,患者音声の失われた音声スペクトルを復元する.手術前に患者音声を

6

/t/ /d/ /k/ /g/

舌の役割

舌により空気の流れを妨害

Page 7: 重点研究分野 サイバーフィジカルシステム(CPS)による ス … · 健常者音声とを用いた機械学習により,患者音声の失われた音声スペクトルを復元する.手術前に患者音声を

7

A01 J01

A01 J01

A01 J01

舌がんで舌を削除するとは?

歯学的なアプローチ:代替物を作り込むPAP(Palatal Augmentation Prosthesis)

KAT(Kinematic Artificial Tongue)

食事中に会話ができない口内炎ができると使えない

Page 8: 重点研究分野 サイバーフィジカルシステム(CPS)による ス … · 健常者音声とを用いた機械学習により,患者音声の失われた音声スペクトルを復元する.手術前に患者音声を

8

信号処理的アプローチ

x(n)y(n)

x(n)y(n) 変換

Page 9: 重点研究分野 サイバーフィジカルシステム(CPS)による ス … · 健常者音声とを用いた機械学習により,患者音声の失われた音声スペクトルを復元する.手術前に患者音声を

GMM(Gaussian Mixture Model )による声質変換

9

音声分析

時間対応づけ 結合ベクトル生成

GMMによるモデリング

音声分析𝒙𝒙1,𝒙𝒙2 ,𝒙𝒙3, …𝒙𝒙𝑛𝑛

𝒚𝒚1,𝒚𝒚2,𝒚𝒚3, …𝒚𝒚𝑚𝑚

𝒙𝒙1𝒚𝒚1

𝒙𝒙1𝒚𝒚2

𝒙𝒙2𝒚𝒚3

𝒙𝒙3𝒚𝒚4

𝒙𝒙5𝒚𝒚5

…𝒙𝒙𝑛𝑛…𝒚𝒚𝑚𝑚

元話者

ターゲット話者

ありがとう

ありがとう

𝑃𝑃 𝒛𝒛𝑡𝑡 𝝀𝝀(𝒛𝒛) = �𝑚𝑚=1

𝑀𝑀

𝑤𝑤𝑚𝑚𝑁𝑁 𝒛𝒛𝑡𝑡; 𝝁𝝁𝑚𝑚(𝒛𝒛),𝜮𝜮𝑚𝑚

(𝒛𝒛)

𝒛𝒛𝑡𝑡 =𝒙𝒙𝑡𝑡𝒚𝒚𝑡𝑡

𝒛𝒛1, 𝒛𝒛𝟐𝟐, 𝒛𝒛3, … 𝒛𝒛𝑛𝑛

𝝁𝝁𝑚𝑚(𝒛𝒛) =

𝝁𝝁𝑚𝑚(𝒙𝒙)

𝝁𝝁𝑚𝑚(𝒚𝒚) 𝜮𝜮𝑚𝑚

(𝒛𝒛) =𝜮𝜮𝑚𝑚

(𝒙𝒙𝒙𝒙) 𝜮𝜮𝑚𝑚(𝒙𝒙𝒚𝒚)

𝜮𝜮𝑚𝑚(𝒚𝒚𝑥𝑥) 𝜮𝜮𝑚𝑚

(𝒚𝒚𝒚𝒚)𝑤𝑤𝑚𝑚

�𝒚𝒚𝑡𝑡 = �𝑚𝑚=1

𝑀𝑀

𝑷𝑷 𝑚𝑚 𝒙𝒙𝑡𝑡 ,𝝀𝝀(𝒛𝒛) 𝝁𝝁𝑚𝑚(𝒚𝒚) + 𝜮𝜮𝑚𝑚

(𝒚𝒚𝒙𝒙)𝜮𝜮𝑚𝑚𝒙𝒙𝒙𝒙 −𝟏𝟏

𝒙𝒙𝑡𝑡 − 𝝁𝝁𝑚𝑚(𝑥𝑥)

変換パラメータ計算(平均二乗誤差最小化基準)音声分析

𝒙𝒙𝒕𝒕元話者

�𝒚𝒚𝑡𝑡 ターゲット話者

学習フェース

変換フェーズ

Page 10: 重点研究分野 サイバーフィジカルシステム(CPS)による ス … · 健常者音声とを用いた機械学習により,患者音声の失われた音声スペクトルを復元する.手術前に患者音声を

10

音声分析

時間対応づけ 結合ベクトル生成

GMMによるモデリング

音声分析𝒙𝒙1,𝒙𝒙2 ,𝒙𝒙3, …𝒙𝒙𝑛𝑛

𝒚𝒚1,𝒚𝒚2,𝒚𝒚3, …𝒚𝒚𝑚𝑚

𝒙𝒙1𝒚𝒚1

𝒙𝒙1𝒚𝒚2

𝒙𝒙2𝒚𝒚3

𝒙𝒙3𝒚𝒚4

𝒙𝒙5𝒚𝒚5

…𝒙𝒙𝑛𝑛…𝒚𝒚𝑚𝑚

元話者

ターゲット話者

ありがとう

ありがとう

𝑃𝑃 𝒛𝒛𝑡𝑡 𝝀𝝀(𝒛𝒛) = �𝑚𝑚=1

𝑀𝑀

𝑤𝑤𝑚𝑚𝑁𝑁 𝒛𝒛𝑡𝑡; 𝝁𝝁𝑚𝑚(𝒛𝒛),𝜮𝜮𝑚𝑚

(𝒛𝒛)

𝒛𝒛𝑡𝑡 =𝒙𝒙𝑡𝑡𝒚𝒚𝑡𝑡

𝒛𝒛1, 𝒛𝒛𝟐𝟐, 𝒛𝒛3, … 𝒛𝒛𝑛𝑛

𝝁𝝁𝑚𝑚(𝒛𝒛) =

𝝁𝝁𝑚𝑚(𝒙𝒙)

𝝁𝝁𝑚𝑚(𝒚𝒚) 𝜮𝜮𝑚𝑚

(𝒛𝒛) =𝜮𝜮𝑚𝑚

(𝒙𝒙𝒙𝒙) 𝜮𝜮𝑚𝑚(𝒙𝒙𝒚𝒚)

𝜮𝜮𝑚𝑚(𝒚𝒚𝑥𝑥) 𝜮𝜮𝑚𝑚

(𝒚𝒚𝒚𝒚)𝑤𝑤𝑚𝑚

�𝒚𝒚𝑡𝑡 = �𝑚𝑚=1

𝑀𝑀

𝑷𝑷 𝑚𝑚 𝒙𝒙𝑡𝑡 ,𝝀𝝀(𝒛𝒛) 𝝁𝝁𝑚𝑚(𝒚𝒚) + 𝜮𝜮𝑚𝑚

(𝒚𝒚𝒙𝒙)𝜮𝜮𝑚𝑚𝒙𝒙𝒙𝒙 −𝟏𝟏

𝒙𝒙𝑡𝑡 − 𝝁𝝁𝑚𝑚(𝑥𝑥)

変換パラメータ計算(平均二乗誤差最小化基準)音声分析

𝒙𝒙𝒕𝒕元話者

�𝒚𝒚𝑡𝑡 ターゲット話者

学習フェース

変換フェーズ

A01

A01

J52

J52

J52

GMM(Gaussian Mixture Model )による声質変換

Page 11: 重点研究分野 サイバーフィジカルシステム(CPS)による ス … · 健常者音声とを用いた機械学習により,患者音声の失われた音声スペクトルを復元する.手術前に患者音声を

11

�𝒚𝒚𝑡𝑡 = �𝑚𝑚=1

𝑀𝑀

𝑷𝑷 𝑚𝑚 𝒙𝒙𝑡𝑡 ,𝝀𝝀(𝒛𝒛) 𝝁𝝁𝑚𝑚(𝒚𝒚) + 𝜮𝜮𝑚𝑚

(𝒚𝒚𝒙𝒙)𝜮𝜮𝑚𝑚𝒙𝒙𝒙𝒙 −𝟏𝟏

𝒙𝒙𝑡𝑡 − 𝝁𝝁𝑚𝑚(𝑥𝑥)

変換パラメータ計算(平均二乗誤差最小化基準)音声分析

𝒙𝒙𝒕𝒕元話者

�𝒚𝒚𝑡𝑡 ターゲット話者

変換フェーズ

健常者に近い音声

舌摘出者

音声分析

時間対応づけ 結合ベクトル生成

GMMによるモデリング

音声分析𝒙𝒙1,𝒙𝒙2 ,𝒙𝒙3, …𝒙𝒙𝑛𝑛

𝒚𝒚1,𝒚𝒚2,𝒚𝒚3, …𝒚𝒚𝑚𝑚

𝒙𝒙1𝒚𝒚1

𝒙𝒙1𝒚𝒚2

𝒙𝒙2𝒚𝒚3

𝒙𝒙3𝒚𝒚4

𝒙𝒙5𝒚𝒚5

…𝒙𝒙𝑛𝑛…𝒚𝒚𝑚𝑚

𝑃𝑃 𝒛𝒛𝑡𝑡 𝝀𝝀(𝒛𝒛) = �𝑚𝑚=1

𝑀𝑀

𝑤𝑤𝑚𝑚𝑁𝑁 𝒛𝒛𝑡𝑡; 𝝁𝝁𝑚𝑚(𝒛𝒛),𝜮𝜮𝑚𝑚

(𝒛𝒛)

𝒛𝒛𝑡𝑡 =𝒙𝒙𝑡𝑡𝒚𝒚𝑡𝑡

𝒛𝒛1, 𝒛𝒛𝟐𝟐, 𝒛𝒛3, … 𝒛𝒛𝑛𝑛

𝝁𝝁𝑚𝑚(𝒛𝒛) =

𝝁𝝁𝑚𝑚(𝒙𝒙)

𝝁𝝁𝑚𝑚(𝒚𝒚) 𝜮𝜮𝑚𝑚

(𝒛𝒛) =𝜮𝜮𝑚𝑚

(𝒙𝒙𝒙𝒙) 𝜮𝜮𝑚𝑚(𝒙𝒙𝒚𝒚)

𝜮𝜮𝑚𝑚(𝒚𝒚𝑥𝑥) 𝜮𝜮𝑚𝑚

(𝒚𝒚𝒚𝒚)𝑤𝑤𝑚𝑚

学習フェース

元話者

ターゲット話者

ありがとう

ありがとう

健常者

舌摘出者

GMM(Gaussian Mixture Model )による声質変換

Page 12: 重点研究分野 サイバーフィジカルシステム(CPS)による ス … · 健常者音声とを用いた機械学習により,患者音声の失われた音声スペクトルを復元する.手術前に患者音声を

12

舌摘出者

健常者

変換音声

J51 J52

J51 J52

J51 J52

は た け は ひあ が り つ ち わ わ れ る

Page 13: 重点研究分野 サイバーフィジカルシステム(CPS)による ス … · 健常者音声とを用いた機械学習により,患者音声の失われた音声スペクトルを復元する.手術前に患者音声を

課題1

舌亜全摘出者に,

やすやすと協力してもらえない

Page 14: 重点研究分野 サイバーフィジカルシステム(CPS)による ス … · 健常者音声とを用いた機械学習により,患者音声の失われた音声スペクトルを復元する.手術前に患者音声を
Page 15: 重点研究分野 サイバーフィジカルシステム(CPS)による ス … · 健常者音声とを用いた機械学習により,患者音声の失われた音声スペクトルを復元する.手術前に患者音声を

疑似舌摘出者音声

2018/6/28 15

疑似的に舌亜全摘出者のような音声を

発声できる器具を作成

Page 16: 重点研究分野 サイバーフィジカルシステム(CPS)による ス … · 健常者音声とを用いた機械学習により,患者音声の失われた音声スペクトルを復元する.手術前に患者音声を

疑似舌摘出者音声コーパス

2018/6/28 16

「品の良い横顔が,さみしそうだった」

• 健常者音声

• 舌亜全摘出者音声

• 疑似

舌摘出者音声

Page 17: 重点研究分野 サイバーフィジカルシステム(CPS)による ス … · 健常者音声とを用いた機械学習により,患者音声の失われた音声スペクトルを復元する.手術前に患者音声を

課題2

音声情報だけでは,なかなか難しい

Page 18: 重点研究分野 サイバーフィジカルシステム(CPS)による ス … · 健常者音声とを用いた機械学習により,患者音声の失われた音声スペクトルを復元する.手術前に患者音声を

182018/6/28

舌摘出者 「さしすせそ」

「たちつてと」

「らりるれろ」

「はひふへほ」

「はひふへほ」

「はひふへほ」

喋りたい内容 実際に聞こえる内容 健常者の正解データ

「さしすせそ」

「たちつてと」

「らりるれろ」

(さ) 学習済みモデル

「は」

「さ」

「た」

「ら」???

舌摘出者

補助情報を活用

Page 19: 重点研究分野 サイバーフィジカルシステム(CPS)による ス … · 健常者音声とを用いた機械学習により,患者音声の失われた音声スペクトルを復元する.手術前に患者音声を

3次元正規化法のデモ

2018/6/28 19

左: 補正前 右: 補正後

Page 20: 重点研究分野 サイバーフィジカルシステム(CPS)による ス … · 健常者音声とを用いた機械学習により,患者音声の失われた音声スペクトルを復元する.手術前に患者音声を

特徴点の決定

2018/6/28 20

赤点: 分散小

青点: 分散大

鼻,目の下,頬の部分は口を動かしても変動が少ない

Page 21: 重点研究分野 サイバーフィジカルシステム(CPS)による ス … · 健常者音声とを用いた機械学習により,患者音声の失われた音声スペクトルを復元する.手術前に患者音声を

3次元正規化法による座標の正規化

•3次元顔座標に対して「正面を向いた3次元顔座標の基準点」へ射影変換する行列を算出する

2018/6/28 21

3次元顔

変換行列

正面顔S M W

SMW ⋅=

Page 22: 重点研究分野 サイバーフィジカルシステム(CPS)による ス … · 健常者音声とを用いた機械学習により,患者音声の失われた音声スペクトルを復元する.手術前に患者音声を

収録システム 概要

2018/6/28 22

Page 23: 重点研究分野 サイバーフィジカルシステム(CPS)による ス … · 健常者音声とを用いた機械学習により,患者音声の失われた音声スペクトルを復元する.手術前に患者音声を

収録データサンプル(健常者男性 器具あり)発話文: J01

2018/6/28 23

Page 24: 重点研究分野 サイバーフィジカルシステム(CPS)による ス … · 健常者音声とを用いた機械学習により,患者音声の失われた音声スペクトルを復元する.手術前に患者音声を

24

音声分析

時間対応づけ 結合ベクトル生成

GMMによるモデリング

音声分析𝒙𝒙1,𝒙𝒙2 ,𝒙𝒙3, …𝒙𝒙𝑛𝑛

𝒚𝒚1,𝒚𝒚2,𝒚𝒚3, …𝒚𝒚𝑚𝑚

𝒙𝒙1𝒚𝒚1

𝒙𝒙1𝒚𝒚2

𝒙𝒙2𝒚𝒚3

𝒙𝒙3𝒚𝒚4

𝒙𝒙5𝒚𝒚5

…𝒙𝒙𝑛𝑛…𝒚𝒚𝑚𝑚

元話者

ターゲット話者

ありがとう

ありがとう

𝑃𝑃 𝒛𝒛𝑡𝑡 𝝀𝝀(𝒛𝒛) = �𝑚𝑚=1

𝑀𝑀

𝑤𝑤𝑚𝑚𝑁𝑁 𝒛𝒛𝑡𝑡; 𝝁𝝁𝑚𝑚(𝒛𝒛),𝜮𝜮𝑚𝑚

(𝒛𝒛)

𝒛𝒛𝑡𝑡 =𝒙𝒙𝑡𝑡𝒚𝒚𝑡𝑡

𝒛𝒛1, 𝒛𝒛𝟐𝟐, 𝒛𝒛3, … 𝒛𝒛𝑛𝑛

𝝁𝝁𝑚𝑚(𝒛𝒛) =

𝝁𝝁𝑚𝑚(𝒙𝒙)

𝝁𝝁𝑚𝑚(𝒚𝒚) 𝜮𝜮𝑚𝑚

(𝒛𝒛) =𝜮𝜮𝑚𝑚

(𝒙𝒙𝒙𝒙) 𝜮𝜮𝑚𝑚(𝒙𝒙𝒚𝒚)

𝜮𝜮𝑚𝑚(𝒚𝒚𝑥𝑥) 𝜮𝜮𝑚𝑚

(𝒚𝒚𝒚𝒚)𝑤𝑤𝑚𝑚

�𝒚𝒚𝑡𝑡 = �𝑚𝑚=1

𝑀𝑀

𝑷𝑷 𝑚𝑚 𝒙𝒙𝑡𝑡 ,𝝀𝝀(𝒛𝒛) 𝝁𝝁𝑚𝑚(𝒚𝒚) + 𝜮𝜮𝑚𝑚

(𝒚𝒚𝒙𝒙)𝜮𝜮𝑚𝑚𝒙𝒙𝒙𝒙 −𝟏𝟏

𝒙𝒙𝑡𝑡 − 𝝁𝝁𝑚𝑚(𝑥𝑥)

変換パラメータ計算(平均二乗誤差最小化基準)音声分析

𝒙𝒙𝒕𝒕元話者

�𝒚𝒚𝑡𝑡 ターゲット話者

学習フェース

変換フェーズ

A01

A01

J52

J52

J52

GMM(Gaussian Mixture Model )による声質変換

Page 25: 重点研究分野 サイバーフィジカルシステム(CPS)による ス … · 健常者音声とを用いた機械学習により,患者音声の失われた音声スペクトルを復元する.手術前に患者音声を

非線形でマッピング

• 順伝播型の全結合多層パーセプトロン

– 入力特徴量: メルケプストラム + Δ + 口唇特徴量 (=79次元)

– 出力特徴量: メルケプストラム + 口唇特徴量 (=53次元)

25

入力音響特徴量

出力音響特徴量

入力層 中間層 中間層 出力層

あるフレーム

での

あるフレーム

での

Page 26: 重点研究分野 サイバーフィジカルシステム(CPS)による ス … · 健常者音声とを用いた機械学習により,患者音声の失われた音声スペクトルを復元する.手術前に患者音声を

書き取り実験結果

2018/6/2826

0

10

20

30

40

50

60

70

母音 半母音 摩擦音 破裂音 拗音 鼻音 流音 促音

認識

率[%

]

変換前 音声のみ マルチモーダル

95% Confidence Intervals

Page 27: 重点研究分野 サイバーフィジカルシステム(CPS)による ス … · 健常者音声とを用いた機械学習により,患者音声の失われた音声スペクトルを復元する.手術前に患者音声を

課題3

そもそも,簡単なNNでは限界あり?

Deep Nural Network使わないとね!

時間的に変化する情報も必要だよね?

Page 28: 重点研究分野 サイバーフィジカルシステム(CPS)による ス … · 健常者音声とを用いた機械学習により,患者音声の失われた音声スペクトルを復元する.手術前に患者音声を

LSTMの繰り返し構造(時間構造も学習)

• 3つの特殊なゲート(forgetゲート,inputゲート,outputゲート)とメモリセルを持つ

28

ht

Ct

Page 29: 重点研究分野 サイバーフィジカルシステム(CPS)による ス … · 健常者音声とを用いた機械学習により,患者音声の失われた音声スペクトルを復元する.手術前に患者音声を

LSTMを双方向につなげた構造,未来と過去の情報を考慮できる

29

Page 30: 重点研究分野 サイバーフィジカルシステム(CPS)による ス … · 健常者音声とを用いた機械学習により,患者音声の失われた音声スペクトルを復元する.手術前に患者音声を

2017/07/05 30

mcep Analysis Source Speech

LSTM

Input Layer

LSTM

t-1 t t+1

Layer-1 Forward

Layer-1 Backward

LSTM

LSTM

LSTM

LSTM

LSTM

LSTM

Layer-2 Forward

Layer-2 Backward

LSTM

LSTM

LSTM

LSTM

Output Layer t-1 t t+1

Converted Speech Synthesis diff-mcep

Auxiliary information (Label)

Bidirectional LSTM-RNNに基づく声質変換 変換部

Page 31: 重点研究分野 サイバーフィジカルシステム(CPS)による ス … · 健常者音声とを用いた機械学習により,患者音声の失われた音声スペクトルを復元する.手術前に患者音声を

客観評価実験

評価指標メルケプストラム距離

DNN-DVCとBLSTM-DVC BLSTMの方が良い結果⇒時系列情報を考慮出来ている

BLSTM-DVCとDNN-PLA-DVC BLSTMよりも音韻ラベルを用いる方式の方が良い結果

DNN-PLA-DVCとBLSTM-PLA-DVC提案手法(BLSTM-PLA-DVC)が非常に良い結果

音韻ラベルの効果を最大限に引き出せている可能性を示唆

2017/07/05 31

10.13

8.13 7.93

7.49

6.74

6

6.5

7

7.5

8

8.5

9

9.5

10

10.5

Mel

-Cep

stra

l Dis

trosi

on [d

B]

95% confidence intervals

Pre-Conversion

BLSTM-DVCDNN-DVCDNN-PLA-DVC

Post-Conversion

BLSTM-PLA-DVC

Page 32: 重点研究分野 サイバーフィジカルシステム(CPS)による ス … · 健常者音声とを用いた機械学習により,患者音声の失われた音声スペクトルを復元する.手術前に患者音声を

主観評価実験

2017/07/05 32

疑似舌摘出者音声(入力音声)

J01 J02 J03 J04 J05

健常者音声(目標音声)

J01 J02 J03 J04 J05

(1) DNN-DVC (baseline)

J01 J02 J03 J04 J05

(3) DNN-PLA-DVC

J01 J02 J03 J04 J05

(2) BLSTM-DVC

J01 J02 J03 J04 J05

(4) BLSTM-PLA-DVC (proposed)

J01 J02 J03 J04 J05

変換

Page 33: 重点研究分野 サイバーフィジカルシステム(CPS)による ス … · 健常者音声とを用いた機械学習により,患者音声の失われた音声スペクトルを復元する.手術前に患者音声を

【社会的背景】音声はコミュニケーションの手段としてばかりでなく,人間としての尊厳を保ち豊かな生活を送るうえで重要な役割を果たしている.不幸にして癌摘出手術や事故などにより音声発声器官の一部を失ったり,脳障害の発症で発声器官が適切に動かせなくなって音声コミュニケーションを失う患者は少なくない.2017年の国立がん研究センターの推計によれば,口腔・咽頭癌の患者数は約22,800人であり,癌患者の約2%を占める.【活動の目的・効果】患者音声の音韻明瞭性を音声信号処理で改善する方式を研究開発している.患者音声と健常者音声とを用いた機械学習により,患者音声の失われた音声スペクトルを復元する.手術前に患者音声を録音することが可能であれば,より本人に近い音声として復元可能となる.マイクで音声を入力するだけであるため,患者への負担も少なく,音声コミュニケーションの自由度を広げることができる.さらに,脳⾎管障害によって調音器官の制御に問題が生じた患者にも適応可能であり,本技術の適用領域は広い.

夢の会話プロジェクト -声を取り戻す-

岡山大学大学院ヘルスシステム統合科学研究科 教授 阿部匡伸,助教 原直岡山大学大学院医歯薬学総合研究科 教授 皆木省吾,助教 川上滋央、兒玉直紀

(関連サイト)http://www.cc.okayama-u.ac.jp/~2hotetsu/DreamConversation/DreamConversationTOP.html

学習フェーズ

変換フェーズ

変換音声分析患者音声 改善音声

こんにちは?んに?あ

モデル

時間対応づけ

音声分析患者音声

健常者音声

ありが?おうありがとう

音声分析

機械学習

深層学習

患者音声

健常者音声

改善音声

時間

時間

時間

変換による復元

似ている

Page 34: 重点研究分野 サイバーフィジカルシステム(CPS)による ス … · 健常者音声とを用いた機械学習により,患者音声の失われた音声スペクトルを復元する.手術前に患者音声を

Thank you for your kind attention.

34