Post on 31-Dec-2015
description
ベイズ基準による HSMM 音声合成の評価
◎橋本佳,南角吉彦,徳田恵一 (名工大)
2
はじめに HMM に基づく音声合成
ML 基準によるモデル学習 MDL 基準によるモデル構造選択
ベイズ基準による HMM 音声合成(橋本ら ; ’08 )
モデルパラメータの周辺化 データ量を考慮したモデル構造選択 学習・合成間におけるモデルの不一致
ベイズ基準による HSMM 音声合成(橋本ら ; ’09 )
学習・合成において同一のモデルを使用ベイズ基準による HSMM 音声合成の詳細な評価
3
隠れマルコフモデル( HMM )
1 1 1 1 2 2 3 3
:
:
観測系列
状態系列
1 2 3
4
隠れセミマルコフモデル( HSMM )
状態継続長を考慮したモデル
1 1 1 1 2 2 3 3
:観測系列
1 2 3
継続長分布
状態系列 :
尤度関数
尤度関数の比較
5
HSMM
: 状態系列: 観測系列
HSMM では状態遷移確率が継続長分布によって算出
HMM
: モデルパラメータ
モデル学習基準・音声合成基準
ベイズ基準による音声合成( 1/2)
6
ML 基準
ベイズ基準
: モデルパラメータ
: 合成文のラベル列: 学習文のラベル列: 学習データ
: 合成音声パラメータ系列
ベイズ基準による音声合成( 2/2)ベイズ基準における予測分布(周辺尤度関数)
7
: 合成データの状態遷移を表す隠れ変数
変分ベイズ法による近似( Attias; ’99 )
: 学習データの状態遷移を表す隠れ変数: 合成データの尤度関数: 学習データの尤度関数
: モデルパラメータの事前分布
対数周辺尤度の下限 を定義
変分ベイズ法( 1/2 )
8
: に関する期待値
下限の最大化による対数周辺尤度の近似⇒ を最大化する近似事後分布を推定
( Jensen の不等式)
: 近似事後分布
近似事後分布の独立性を仮定
変分法による事後分布推定
変分ベイズ法( 2/2 )
9
: 正規化項
交互に更新することで を最大化
音声パラメータ生成 音声パラメータ
静的特徴量と動的特徴量によって表現
⇒ 合成部では静的特徴量のみ推定 ベイズ基準による合成音声パラメータ生成
下限 は対数周辺尤度を近似 ⇒ を最大化する音声パラメータを推定
10
11
実験条件
データベース ATR 日本語音声データベース b-set
話者 MHT
学習データ 450 文テストデータ 53 文サンプリング周波数 16 kHz
窓関数 Blackman 窓フレームサイズ / シフト 25 ms / 5 ms
特徴量
24 次 メルケプストラム + Δ + ΔΔ
対数基本周波数 + Δ + ΔΔ
(78 次元 )
12
ML 基準・ HMM との比較 ML 基準とベイズ基準の比較 HMM と HSMM の比較
学習・合成基準
モデル構造選択 モデル
ML-HMMML 基準 MDL 基準
HMM
ML-HSMM HSMM
Bayes-HMMベイズ基準 ベイズ基準
HMM
Bayes-HSMM HSMM※ クロスバリデーションを用いたベイズ基準によるモデル構造選択(橋本ら ; ’08 )
※
ML 基準・ HMM との比較
主観評価実験
1387,267 88,287 745,969 744,955分布数
14
改善の要因の調査 ベイズ基準による改善の要因
パラメータの周辺化 モデル構造選択
学習・合成基準
モデル構造選択 モデル
ML-MDL ML 基準MDL 基準
HSMMBayes-MDL ベイズ基準ML-Bayes ML 基準
ベイズ基準Bayes-Bayes ベイズ基準
モデル構造の比較
主観評価実験
1588,28788,287 744,955744,955分布数
16
むすび ベイズ基準による HSMM 音声合成の評価
HSMM による品質改善 ベイズ基準の有効性 パラメータの周辺化とモデル構造の両方が必
要
今後の課題 小規模な学習データでの音声合成実験 モデル構造と音質の調査