Average-Voice-Based Speech Synthesis 平均声に基 … Speech Synthesis...
Transcript of Average-Voice-Based Speech Synthesis 平均声に基 … Speech Synthesis...
Average-Voice-Based Speech Synthesis 平均声に基づく音声合成
山岸 順一
東京工業大学 大学院総合理工学研究科 物理情報システム創造専攻 小林隆夫研究室
2006年1月論文発表会
本論文の構成
第1章 イントロダクション第2章 隠れマルコフモデル(HMM)第3章 HMMに基づく音声合成第4章 共有決定木コンテキストクラスタリング第5章 話者適応学習第6章 隠れセミマルコフモデルに基づく 最尤線形回帰と話者適応学習第7章 隠れセミマルコフモデルに基づく 話者適応アルゴリズムとMAP Modification第8章 スタイルモデリング第9章 まとめ
本日の発表内容
研究の背景と目的
HMMに基づく音声合成
共有決定木コンテキストクラスタリング
話者適応学習
隠れセミマルコフモデルに基づく最尤線形回帰と話者適応学習
まとめと今後の展望
研究背景
録音編集方式 … 特定の発話内容の目的地や数字だけを入れ替える 例:駅の案内、高速道路の渋滞情報、カーナビ
現在のテキスト音声合成システム (コーパスベース方式)
⇒ 品質は良いが、特定の文章のみ
テキスト音声合成方式 … 任意のテキストを読み上げるシステム 例:メール読み上げソフト、対話エージェントシステム、カーナビ
現在の音声合成システム
波形接続方式 … 音声を波形のレベルで処理し、単純に接続し合成HMMに基づく音声合成方式 … 音声の特徴量を統計的に処理し、 フィルタで合成
研究背景2
波形接続合成方式・音声素片を接続し、音声を合成・大量の音声コーパスが必要 (数時間~数十時間) ・高音質、自然性が高い
問題点・話者が限定。通常は1~数話者程度。・発話スタイル(感情)が限定。通常はニュース風の読み上げ。 (話者や発話スタイルを増やすためにはそのコーパスが更に必要。 音声コーパスの作成は高コストを要する。)
研究背景3
HMMに基づく音声合成方式・音声の特徴量をHMMにより統計的にモデル化&合成 特徴量:メルケプストラム(声質、音韻、声の大きさ) 基本周波数 (声の高さ、アクセント、抑揚) 音韻継続長 (声のリズム・テンポ)・MLSA(Mel Log Spectral Approximation)フィルタで波形生成
メリット・コンパクトかつ非常に高速・安定感・モデルパラメータを適切に変換すれば、 合成音声の声質・韻律特徴を変換可能
デメリット・ボコーダ音 (buzzy)
研究目的
平均声に基づく音声合成話者を所望の話者に容易に変換できる音声合成システム
HMM音声合成 + 平均声モデル作成のための話者正規化技術 + 平均声モデルを目標話者のごく少量の音声データをもとに 目標話者へ変換する話者適応技術
従来手法従来の平均声に基づく音声合成 [田村ら ‘02]
・音韻継続長が極めて不自然 → 音韻継続長の厳密な変換が必要・基本周波数やスペクトルに不自然な箇所が存在 → 初期モデルの話者正規化が必要・品質が良くない → 適応アルゴリズムの改善が必要
研究対象と研究成果
パラメータ共有 共有決定木コンテキスト クラスタリング(STC)
話者正規化技術スペクトル・F0・継続長の同時話者適応 隠れセミマルコフモデル(HSMM)に 基づく話者適応
話者適応の高精度化 構造的事後確立最大線形回帰 (SMAPLR) MAP Modification
話者適応技術
パラメータ推定 話者適応学習(SAT)
共有決定木コンテキストクラスタリング
(STCアルゴリズム)
話者適応に適した平均声モデルを作成するための話者正規化クラスタリング手法
HMM
隠れマルコフモデル(HMM)
1 2 3
11 22 33
12 23
:遷移確率
1 U , 1 2 U , 2 3 U , 3
b1(ot) b2(ot) b3(ot)
b (ot):出力確率
モデルパラメータ:遷移確率 出力確率密度関数(出力分布)
HMM音声合成システムの学習部
メルケプストラム部 : 正規分布対数基本周波数/logF0部: 多空間上の正規分布 [益子ら ‘00]
当該および前後の音韻環境(コンテキスト)を考慮したコンテキスト依存HMMを学習
. . .
Speech Analysis
MULTI-SPEAKER SPEECH DATABASE
Context Dependent HMMs(Average Voice Model)
Mel-Cepstrum, logF0
Training
/context1/ /context2/
学習時におけるコンテキストの利用
(a-i+u)-(3_2)-([3_x_x]-[5_1_1]+[6_x_x])-([5_3_0]-[3_1_10]+[8_1_1])-(20-[10_21]+15)-(50)
音素 モーラ 形態素 アクセント句 呼気段落 文長先行 当該
先行 当該 後続 先行 当該 後続
アクセント型とモ|ラ位置の差
アクセント句内でのモ|ラ位置
品詞活用型
活用形
品詞活用型
活用形
品詞活用型
活用形
長さアクセント型
ポ|ズの有無
長さアクセント型
ポ|ズの有無
長さアクセント型
アクセント句の位置
先行 当該 後続
長さ
長さ
長さ
呼気段落のモ|ラ位置
長さ
後続
コンテキスト依存ラベルの例
当該および前後の様々な音韻環境を考慮したHMMの説明変数
各コンテキスト毎にHMMを学習 (コンテキスト依存HMM)
コンテキスト:
HMM音声合成システムの適応部
スペクトル・基本周波数の同時話者適応
Adapted Model
/a/ /i/Speaker Adaptation ADAPTATION DATA
Average Voice Model
HMMの出力分布のパラメータを目標話者の適応データをもとに変換
HMM音声合成システムの合成部
最尤基準に基づくパラメータ生成 [益子ら ‘96]
PARAMETER GENERATION
c1c2
SYNTHESIZED SPEECH
Sentence HMM
Mel-Cepstrum
TEXT
MLSA Filter
Adapted Model
p1p2
F0
Excitation
合成時におけるコンテキストの利用
(a-i+u)-(3_2)-([3_x_x]-[5_1_1]+[6_x_x])-([5_3_0]-[3_1_10]+[8_1_1])-(20-[10_21]+15)-(50)
音素 モーラ 形態素 アクセント句 呼気段落 文長先行 当該
先行 当該 後続 先行 当該 後続
アクセント型とモ|ラ位置の差
アクセント句内でのモ|ラ位置
品詞活用型
活用形
品詞活用型
活用形
品詞活用型
活用形
長さアクセント型
ポ|ズの有無
長さアクセント型
ポ|ズの有無
長さアクセント型
アクセント句の位置
先行 当該 後続
長さ
長さ
長さ
呼気段落のモ|ラ位置
長さ
後続
コンテキスト依存ラベルの例
入力テキストをコンテキスト依存ラベルに変換し、対応するHMMをもとにパラメータ生成
コンテキストの種類は膨大 (指数的組み合わせ) ・学習データに含まれていないコンテキストも存在 ・データ量が十分ではないコンテキストも存在
決定木によるクラスタリング
コンテキストの種類は膨大 →決定木を用いた階層的クラスタリングにより 音韻・韻律的に似ているHMMの分布パラメータを共有
F0の決定木
no yes
無声化母音
no yes
no yes
母音
有声音
no yes
後ろからのモーラ位置 =1
no yesno yesno yes
鼻音後続音素が有声音声門音
決定木の構築法1
記述長 (Description Length)
Clustering
Context Dependent HMMs
Yes No
NoYes
当該音素が有声?
0型アクセント?
・全話者のコンテキストを 決定木によりクラスタリング
・リーフノードの集合 モデル の記述長
ノード に対するデータ量の期待値
ノード における共分散行列ベクトル次元数
・ノードの分割基準 : MDL (最小記述長) 基準
決定木の構築法2
y n
y n
・モデル のノード を質問 により 分割したモデル:
リーフノード数
記述長
第1項
第2項
分割停止点
・ ならばノード分割終了
・ ならばノード を質問 で分割
・分割前後の記述長の差
・ を最小にするノード と質問 の組を選ぶ
MDL基準に基づいた構築法 [K. Shinoda et al. ‘00]
決定木によるクラスタリングの問題点
ny
a-b-a
a-a-b
b-a-a
b-b-a
b-a-a話者1
先行がa?先行が a?先行が b?後続が a?
質問リスト話者2
b-a-a
b-a-b
話者1
a-b-a
a-a-b
b-b-a
決定木
学習話者のデータに含まれるコンテキストが話者により大きく異なる場合、一部の話者のデータが欠けたノードが構成されてしまう
共有決定木コンテキストクラスタリング(STC)
各学習話者のモデルに共通の決定木を構築し、クラスタリングを行う
共有決定木コンテキストクラスタリング
→全ノードが必ず全学習話者のデータを保持
・記述長を話者毎に計算・全ての話者で分割できる質問のみ採用
質問「先行がa?」は採用しない
分割できないny先行がa?
a-b-a
a-a-b
b-b-a
話者2
b-a-a
b-a-b
ny先行がa?
b-a-a
b-a-b
話者1
a-b-a
a-a-b
b-b-a
(例)
[J. Yamagishi et al. ‘03]
共有決定木の構築法
平均声モデルの作成
決定木のノード分割終了後、平均声モデルを作成
ノード における平均声モデルの平均
〃 共分散
話者 のノード データ量の期待値
ノード における話者依存モデル の平均
〃 共分散
y n
y n
Average Voice Model
平均声モデルのガウス分布の平均、共分散を各話者依存モデルから計算
実験条件
学習データ
サンプリング周波数フレーム周期分析窓
特徴ベクトル
HMM
音素数
ATR日本語音声データベース セットB
16kHz
5ms
25msブラックマン窓
0~24次のメルケプストラム対数基本周波数およびそれぞれのΔ、Δ パラメータ
5状態 left-to-right モデル42音素(無音を含む)
2
男性話者3名 女声話者3名話者
0.4記述長係数
学習データ
*各文章セット(A~I)は50文章
学習に用いた文章セット
FKN FKS FYM MHO MHT MYI
A B C D E F
A,B B,C C,D D,E E,F F,G
A~C B~D C~E D~F E~G F~H
女性話者 男性話者文章数50
100
150
200
250
300
A~D B~E C~F D~G E~H F~I
A~E B~F C~G D~H E~I A,F~I
A~F B~G C~H D~I A,E~I A,B,F~I
クラスタリングの改善結果
一部の話者のデータが欠けているリーフノード数(50文章)
(A):一部の話者のデータが欠けているリーフノード数と割合(B):一人の話者のデータしかないリーフノード数と割合
スペクトルF0
419
1011
37 ( 8%)
505 (50%)
14 ( 3%)
197 (19%)
(A) (B)状態数 状態数 (A) (B)
0 (0%)
0 (0%)
0 (0%)
0 (0%)
548
818
従来法 提案法
具体例 -生成F0パターン-
「部屋一杯に煙草の濃霧が立ちこめ、ゆるやかに動いている」
提案法従来法
従来法の基本周波数が不自然に高い
Time [s]
Fre
qu
ency [
Hz]
0 1 2 3 4
100
150
200
300
STCアルゴリズムの主観評価試験
被験者評価音声提示方法評価方法
成人男性13名53文章からランダムに8文章を選択防音室内での両耳受聴(ヘッドホン)
対比較法
従来法との対比較による評価
主観評価結果
提案法従来法
sente
nce
s per
spea
ker
score[%]
50
100
150
200
250
300
0 20 40 60 80 100
27.2 72.8
17.5 82.5
30.0 70.0
18.3 81.7
17.1 82.9
15.9 84.1
全ての文章数において大きな改善従来法:決定木に基づくコンテキストクラスタリング
デモンストレーション(平均声)
平均倍率を下げた形跡がある平均倍率を下げた形跡がある発声内容発声内容
部屋一杯に煙草の濃霧が立ちこめ部屋一杯に煙草の濃霧が立ちこめゆるやかに動いているゆるやかに動いている
発声内容発声内容
従来法(各50文章)
提案法(各50文章)
従来法(各50文章)
提案法(各50文章)
話者適応学習(SATアルゴリズム)
話者適応に適した平均声モデルを作成するための話者正規化学習アルゴリズム
平均声モデル
平均声モデル
問題点
平均声モデルは標準的な音韻性をモデル化すべき複数の話者の音声データを用いて学習を行った音響モデル
話者間には音響的な差異が存在 (e.g 男性のF0と女性のF0) ✓通常の学習アルゴリズムでは音韻性ではなく、 話者や性別の違いに大きく影響されたモデルが作成
/a/
logF0Speaker 1 Speaker 2
Average Voice
話者正規化学習
話者間の音響的な差異を正規化しつつ、HMMのモデルパラメータも同時に学習するアルゴリズム
話者正規化学習
話者適応学習 (Speaker Adaptive Training : SAT)最尤線形回帰(MLLR)を利用した話者正規化学習アルゴリズム
/a/
logF0Speaker 1 Speaker 2
Average Voice
出力分布(スペクトル,F0をモデル化)に存在する話者間の音響的差異を正規化するため SATをHMM音声合成システムに導入
[T. Anastasakos et al., ‘96]
[J. Yamagishi et al. ‘03]
最尤線形回帰(MLLR)アルゴリズム
Average Voice
Speaker AAco
ustic S
pa
ce
Dim
en
sio
n 2
Acoustic Space Dimension 1
1ˆ
2ˆ
2
1
W
平均ベクトルの適応
m : 分布 の平均ベクトルm
: 回帰行列
HMMに基づくMLLRアルゴリズム [C.J. Leggetter et al., ‘96]
平均声モデルの出力分布の平均ベクトルをアフィン変換し、目標話者のモデルを実現
話者適応学習(SAT)アルゴリズム
平均声モデルから各学習話者への変換行列をMLLRにより求める
HMMに基づくMLLRを利用 出力分布の変換行列 を推定W i
MLLRの変換行列が正規化すべき話者間の音響的差異を表すと仮定しHMMのモデルパラメータ を学習
このステップの繰り返し
HMMに基づくSAT:フロー
Speaker 1 Speaker 2
Speaker 3
Average Voice Model
学習話者の標準的な特徴を持つ平均声モデルを想定
話者適応学習の考察
話者に起因する特徴はすべて正規化されるのか?
→ No! 線形回帰で表せる特徴のみが正規化される。 話者性(話者に起因する特徴)が非線形ならば残る
→ 他の正規化手法と併用が望ましい。 STCと併用
話者性のみが正規化されるのか?
→ No! 線形回帰で表せる特徴はすべて正規化される。 × 音韻性も含まれた状態で正規化が行われる可能性。 ○ 録音環境の違いが線形ならば、それの正規化にも利用可
SATとSTCによる平均声モデル学習
決定木に基づくコンテキストクラスタリング
Average Voice Model
パラメータ再推定
Tied Context Dependent Model (SI)
Context Dependent Model (SI)
Average Voice Model
話者適応学習
Tied Context Dependent Model (SI)
Context Dependent Models (SD)
共有決定木コンテキストクラスタリング
従来法 提案法
SD : 特定話者モデル (学習話者毎)SI : 不特定話者モデル
SATとSTCの評価実験
話者適応後の音声の自然性の評価
Speaker Dependent Model
Speaker Adapted Model
男女各3名各話者異なる150 文章で学習
目標話者 男性 MMY 女性 FTK
450 文章で学習
目標話者 男性 MMY
女性 FTK
10 文章で適応
* 目標話者は学習話者に含まれていない
Average Voice Model
(NONE、SAT、STC、STC+SAT)
SATとSTCの評価実験2
5段階の評価目標話者の分析合成音を基準に各音声の話者性を以下のように判定
5 : 非常によく似ている 4 : 3 : 2 : 1 : 似ていない
成人男性7名
5段階の評価
被験者評価音声提示方法評価方法
53文章からランダムに8文章を選択防音室内での両耳受聴(ヘッドホン)
SATとSTCの評価結果2
SD : 目標話者モデル
男性 MMY
1 2 3 4 5
NONE
SAT
STC
STC+SAT
SD
Score
2.33
2.66
2.95
3.43
3.84
女性 FTK1 2 3 4 5
NONE
SAT
STC
STC+SAT
SD 4.02
3.52
3.01
2.79
2.65
デモンストレーション (男性MMY)
目標話者モデル (SD)
「切符を買うのは自動販売機からである」
従来法によるモデル (NONE)
STCのみを適用したモデル (STC)
STCとSATを併用したモデル (STC+SAT)
SATのみを適用したモデル (SAT)
分析合成音
HSMMに基づく 話者適応アルゴリズム
隠れセミマルコフモデルに基づくスペクトル・F0・音韻継続長の
同時適応アルゴリズム
HMM
隠れマルコフモデル(HMM)
1 2 3
11 22 33
12 23
:遷移確率
1 U , 1 2 U , 2 3 U , 3
b1(ot) b2(ot) b3(ot)
b (ot):出力確率
モデルパラメータ:遷移確率 出力確率密度関数(出力分布)
Hidden Semi-Markov Model
・状態継続長分布を明示的に含んでいない隠れマルコフモデル(HMM)
→遷移確率やトレリスから計算可能。しかし近似精度は悪い
隠れセミマルコフモデル(HSMM) [J.D. Ferguson ‘80, S.E. Levinson ‘86]
・状態継続長分布を明示的に含んだHMM →状態継続長分布をより厳密にモデル化可能
モデルパラメータ:出力確率密度関数(出力分布) 状態継続長確率密度関数(継続長分布)
1 2 3
p (d1
) p (d2
) p (d3
)
b1(ot) b2(ot) b3(ot)
p (di ):状態継続長確率b (ot)i :出力確率
・通常のHMMと同様にモデル化可能
HSMMによるモデル化
… 観測系列 が与えられたもとで 時刻 から に状態 に滞在する確率
出力分布 :状態継続長分布:
HSMMの状態
emit継続長分布
HSMM 状態
d
12
3
12
3
12
3
出力分布
EMアルゴリズムによる再推定
出力分布の再推定式
状態継続長分布の再推定式
尤度関数
:状態数
HSMMに基づく最尤線形回帰 [J. Yamagishi et. al. ‘04]
出力分布の線形回帰
状態継続長分布の線形回帰
例:出力分布の線形回帰
Average Voice Model
Speaker AAco
ustic S
pace D
imensio
n 2
Acoustic Space Dimension 1
HSMMの状態出力分布 :状態継続長分布:
:出力分布の回帰行列W
:継続長分布の回帰行列X
EMアルゴリズムによる再推定
回帰行列の再推定式
HSMMに基づいたMLLR [J. Yamagishi et. al. ‘04]
(共有する分布の数:R)
決定木を利用した区分線形回帰
Target Speaker’s Model
Average Voice Model
Threshold
平均声モデルの分布を決定木をもとにいくつかのクラスタにわけ、区分線形回帰により適応
隠れセミマルコフモデルに基づく適応学習
出力分布および状態継続長分布(音韻継続長をモデル化)を同時に正規化するように適応学習アルゴリズムを拡張
音韻継続長にも話者間の差異は存在
HSMMの出力分布・継続長分布を同時にアフィン変換するHSMMの最尤線形回帰(MLLR)アルゴリズムを利用
1 2 3
p (d1
) p (d2
) p (d3
)
b1(ot) b2(ot) b3(ot)
p (di ):状態継続長確率b (ot)i :出力確率
HSMMの適応学習
HMMの出力分布(スペクトル,F0をモデル化)に対してのみ適用可能
従来の話者適応学習 (SAT)
[J. Yamagishi et. al. ‘05]
HSMMに基づく適応学習 [J. Yamagishi et. al. ‘05]
Speaker 1 Speaker 2
Speaker 3
Average Voice Model
W W
W
X1 X2
X3
学習話者の標準的な特徴を持つ平均声モデルを想定
平均声モデルから各学習話者への変換行列をMLLRにより求める
HSMMに基づくMLLRを利用 出力・継続長分布の変換行列 ・ を推定W i X i
MLLRの変換行列が正規化すべき話者間の音響的差異を表すと仮定しHSMMのモデルパラメータ を学習
このステップの繰り返し
出力分布(スペクトル,F0をモデル化)かつ状態継続長分布(音韻継続長をモデル化)の話者間の音響的差異を同時正規化
実験条件
話者適応
平均声モデル 性別依存モデル 男性:5 名 女性:4名 各話者450文章目標話者 男性話者 MTK & 女性話者FTK
特徴ベクトル0~24次メルケプストラム対数基本周波数Δ, Δ2パラメータ
HSMM
コンテキスト依存モデル5状態,left-to-rightモデル, SAT+STC単一ガウス分布,対角共分散行列最大継続長値 :各状態の平均+3(標準偏差)
話者の分布
男性話者MTKと女性話者FTKを目標話者と設定それ以外の話者を平均声モデル学習用の話者と設定
4.0 4.5 5.0 5.5 6.07.0
7.5
8.0
8.5
9.0
Average logarithm of F0
Avera
ge m
ora
/sec
MHO
MHT
MMYMSH
MTK
MYI
FKN
FKS
FTK
FTY
FYM
HSMMに基づくSATの効果
全特徴を同時正規化した場合が尤度がもっとも高い→ 正規化が適切に行われている
69
70
71
72
73A
ve
rag
e lo
g-L
ike
liho
od
pe
r fr
am
e
50 100 150 200 250 300 350 400 450
Number of Sentences
0
Both
Output
Duration
None
目標話者の適応データの尤度
平均声と話者適応後の音声の分布
目標話者と似た平均値(対数基本周波数&mora/sec)になっていることが確認できる
4.0 4.5 5.0 5.5 6.07.0
7.5
8.0
8.5
9.0
Average Voice (Male Speakers)
MTK
MTK(MLLR) FTK
Average logarithm of F0
Ave
rag
e m
ora
/se
c
Average Voice (Female Speakers)
FTK(MLLR)
客観評価 特定話者方式との比較
対数基本周波数のRMSER
MS
E o
f lo
gF
0 [cent]
200
250
300
350
400
0 50 100 150 200 250 300 350 400 450Number of Sentences
SD
MLLR
Average Voice
客観評価 特定話者方式との比較
メルケプストラム距離
Average Voice
Me
l-ce
pstr
um
Dis
tan
ce
[d
B]
0 50 100 150 200 250 300 350 400 450Number of Sentences
4
5
6
7
SD
MLLR
8
客観評価 特定話者方式との比較
音素継続長のRMSER
MS
E o
f V
ow
el D
ura
tion [fr
am
e]
4
5
6
7
8
9
10
11
0 50 100 150 200 250 300 350 400 450Number of Sentences
SD
MLLR
Average Voice
主観評価試験1 各特徴量の変換の効果
被験者 成人男性8名
評価音声 53文章からランダムに5文章を選択
提示方法 防音室内での両耳受聴
評価方法
CCRテスト目標話者の分析合成音声と比較し、合成音声の話者性を以下の5段階で判定
「5:非常に良く似ている」 「4:似ている」 「3:違いはあるが似ている」 「2:似ていない」 「1:全く似ていない」
主観評価結果1 各特徴量の変換の効果
Spectrum
F0
Duration
Adaptation
1
2
3
4
5
1.6
2.5
1.5 1.6
3.3
2.6
1.5
3.6
2.9
SD
Average Voice
SD
SD
よく似ている
全く似ていない
主観評価試験2
話者適応後の音声の類似度の評価
被験者 8名
評価音声 53文章からランダムに4文章を選択
提示方法 防音室内での両耳受聴
評価方法 ABX法(自然性が高い方を選択)
主観評価試験2 各特徴量の変換の効果
0 10 20 30 40 50 60 70 80 90 100
Spectrum
Spectrum+F0
Spectrum+F0
+Duration
Score (%)
スペクトル・F0・音韻継続長の同時変換が重要であることが確認できる
デモンスレーション(男性話者MTK)
Spectrum
F0
Duration
Adaptation
1
2
3
4
5
1.6
2.5
1.5 1.6
3.3
2.6
1.5
3.6
2.9
SD
Average Voice
SD
SD
分析合成音声
デモンストレーション:様々な話者の音声
男性話者MHT
男性話者MYI
デモンストレーション:様々な話者の合成音声 (適応データ:50文章)
① ②
① ②
男性話者MMI
女性話者FTK
①
①
②
②
まとめ
まとめ話者を所望の話者に容易に変換できる音声合成システムの実現を目指し、 平均声を用いた音声合成方式を検討
平均声に用いた音声合成: HMM音声合成 + 平均声モデル作成のための話者正規化技術 + 平均声モデルを目標話者のごく少量の音声データをもとに 目標話者へ変換する話者適応技術
パラメータ共有 共有決定木コンテキストクラスタリング(STC)
話者正規化技術
パラメータ推定 話者適応学習(SAT)
まとめ(続き)
まとめ(つづき)
合成音声の品質は特定話者方式とほぼ同等
スペクトル・F0・継続長の同時話者適応 隠れセミマルコフモデル(HSMM)に基づく話者適応
話者適応の高精度化 構造的事後確立最大線形回帰 (SMAPLR) MAP Modification
話者適応技術
スペクトル・F0・音韻継続長の同時適応は重要話者正規化技術は音声合成の品質を大きく改善
今後の課題
今後の課題
合成音声の品質の向上
音声合成のパーソナライゼーション話し言葉や方言への対応
オンライン学習
本発表に関する論文リスト
ジャーナル論文1. J. Yamagishi and T. Kobayashi, “Simultaneous Speaker Adaptation Algorithm of Spectrum, Fundamental Frequency and Duration for HMM-based Speech Synthesis,” IEICE Trans. Information and Systems. (in preparation)
2. J. Yamagishi, Y. Nakano, K. Ogata, J. Isogai, and T. Kobayashi, “A Unified Speech Synthesis Method Using HSMM-Based Speaker Adaptation and MAP Modification”, IEICE Trans. Information and Systems. (in preparation)
3. J. Yamagishi, K. Onishi, T. Masuko, and T. Kobayashi, “Acoustic Modeling of Speaking Styles and Emotional Expressions in HMM-based Speech Synthesis,” IEICE Trans. Information and Systems, E88-D, vol.3, pp.503–509, March 2005.
4. J. Yamagishi, M. Tamura, T. Masuko, K. Tokuda, and T. Kobayashi, “A Training Method of Average Voice Model for HMM-based Speech Synthesis”, IEICE Trans. Fundamentals, E86-A, no.8, pp.1956–1963, Aug. 2003.
5. J. Yamagishi, M. Tamura, T. Masuko, K. Tokuda, and T. Kobayashi, “A Context Clustering Technique for Average Voice Models”, IEICE Trans. Information and Systems, E86-D, no.3, pp.534–542, March 2003
本発表に関する論文リスト (つづき)
査読付き国際会議1. J. Yamagishi, K. Ogata, Y. Nakano, J. Isogai, and T. Kobayashi, “HSMM-based Model Adaptation Algorithms for Average-Voice-based Speech Synthesis”, Proc. ICASSP 2006, May 2006 (submit).2. J. Yamagishi, and T. Kobayashi, “Adaptive Training for Hidden Semi-Markov Model”, Proc. ICASSP 2005, vol.I, pp.365–368, March 2005.3. J. Yamagishi, T. Masuko, and T. Kobayashi, “MLLR Adaptation for Hidden Semi-Markov Model Based Speech Synthesis”, Proc. ICSLP 2004, vo.II, pp.1213–1216, October 2004.4. J. Yamagishi, M. Tachibana, T. Masuko, and T. Kobayashi, “Speaking Style Adaptation Using Context Clustering Decision Tree for HMM-based Speech Synthesis”, Proc. ICASSP 2004 , vol.I, pp.5–8, May 2004.5. J. Yamagishi, T. Masuko, and T. Kobayashi, “HMM-based Expressive Speech Synthesis – Towards TTS with Arbitrary Speaking Styles and Emotions,” Special Workshop in Maui (SWIM) , January 2004.6. J. Yamagishi, K. Onishi, T. Masuko, and T. Kobayashi, “Modeling of Various Speaking Styles and Emotions for HMM-based Speech Synthesis”, Proc. EUROSPEECH 2003, vol.III, pp.2461–2464, September 2003.7. J. Yamagishi, M. Tamura, T. Masuko, K. Tokuda, and T. Kobayashi, “A Training Method for Average Voice Model Based on Shared Decision Tree Context Clustering and Speaker Adaptive Training”, Proc. ICASSP 2003, vol.I, pp.716–719, April 2003.8. J. Yamagishi, M. Tamura, T. Masuko, K. Tokuda, and T. Kobayashi, “A Context Clustering Technique for Average Voice Model in HMM-based Speech Synthesis”, Proc. ICSLP 2002, vol.1, pp.133–136, September 2002.