トラジェクトリHMMの制約付き...
Transcript of トラジェクトリHMMの制約付き...
トラジェクトリHMMの制約付き最尤線形回帰による話者適応
全 炳河 南角 吉彦 徳田 恵一 北村 正
(名工大)
背景
HMMの制約
・出力ベクトル間の時間的独立性を仮定
・状態内で統計量が一定
トラジェクトリHMM ・静的・動的特徴間の関係をHMMに明示的に導入
⇒ HMMをトラジェクトリモデルとして再定式化
・上記のHMMの制約を回避
・Viterbi学習 [全ら; ASJ'03] ・モンテカルロEM学習 [全ら; ASJ'05]
目的
トラジェクトリHMMのための話者適応
・話者適応 ⇒ 少量のデータで発話者にモデルを適応
・代表的なアルゴリズム
- 最大事後確率 (MAP) - 固有声 (Eigenvoice) - 最尤線形回帰 (MLLR) - 制約無し (Unconstrained MLLR) - 制約付き (Constrained MLLR)
・トラジェクトリHMM向けに制約付きMLLRを導出
・連続音声認識実験により評価
トラジェクトリHMM (1)静的特徴系列 c のトラジェクトリHMMからの出力確率
c:静的特徴ベクトル系列 (MT×1)
:時刻 t の静的特徴ベクトル (M×1)
q:ガウス分布系列
:時刻 t に滞在するガウス分布
M:静的特徴ベクトルの次元数
トラジェクトリHMM (2)
… …… ……band
(block) diag (block) diag
:系列 q の平均ベクトル
平均ベクトル 及び共分散行列
Σq = diag [Σq1 , . . . ,ΣqT ] :系列 q の共分散行列
:分布 の平均ベクトル
:分布 の共分散行列
窓行列
=
1
1
1
0-1
2-1
2
00
0
0
0
2
1
-1
2
0 0
0
0
0 0
…
…
…
…
…
…
…
…
例)W : 動的特徴を付与する窓行列 (3MT×MT )
5 10 15 20 25 30 35 40 45 50 55
5
10
15
20
25
30
35
40
45
50
55
Time (frame)
Tim
e (fr
ame)
0.01.02.0
1st
Mel
-cep
stru
m Natural speechMean trajectory
Inter-frame covariance matrix
sil a i d sila
sila
id
sila
mean & variance ⇒ varies in a state
Inter-frame correlation ⇒ captured by
Small
Large
Varia
nce
最尤線形回帰 (MLLR) による話者適応
最尤線形回帰 (MLLR) [Leggetter et al;'95] ・ 適応データに対する尤度を最大化
・ HMMの平均ベクトルや共分散行列を変換
- 独立に変換 (制約無しMLLR) [Gales et.al; CSL'96]
- 同一の変換 (制約付きMLLR) [Gales; CSL'98]
= + =µ̂ Σ̂ H Σ H>
= + =µ̂ Σ̂ Σ >
トラジェクトリHMMの制約付きMLLR
= +
静的特徴ベクトル系列 c をアフィン変換
: 変換後の c: 変換行列
: バイアス
問題点
・ パラメータ数が膨大 (MT×MT + MT )
・ 各発話で変換行列・バイアスの次元数が変化
⇒ A, b の構造について,何らかの制約が必要
変換行列及びバイアスベクトルの制約
MT 1
A b
MTMT
変換行列及びバイアスベクトルの制約
MT 1
A b
MTMT
T
T
0
0
・・・・・・
・・・・・・
- ブロック構造
変換行列及びバイアスベクトルの制約
MT 1
A b
T
T
0
0
・・・・・・
・・・・・・
- ブロック構造- ガウス分布系列 q に依存した共有構造
・・・・・・
トラ
ジェ
クト
リH
MM
λ
ガウ
ス分
布系
列 q
変換行列及びバイアスベクトルの制約
MT 1
A b
T
T
0
0
・・・・・・
・・・・・・
- ブロック構造- 全分布で変換行列及びバイアスベクトルを共有
制約導入後
= + =1
ct
Bd
ブロック対角と共有構造を仮定 (全体で1個の変換行列)
アフィン変換された静的特徴ベクトル系列
フレーム単位の変換 ⇒ 通常のCMLLRと同様に最適化可能
トラジェクトリHMMの制約付きMLLR (5)
制約付きMLLRの十分統計量: Xのm行ベクトル
: Bの余因子から
成るベクトル
変換行列の推定式
Q関数を変換行列の各行x に関して偏微分
m行の解析解はXのm行以外に依存
⇒ 各行の最適化を繰り返し [Gales; CSL'96]
Q関数を正確に計算することは困難
・ Viterbi近似 [全ら; '03] ・ マルコフ連鎖モンテカルロ [全ら; '05]
実験条件
学習データ ATR日本語連続音声データベースB-set 話者MHO, MMY, MSH, MTK, MYI 各話者503発話中の440発話
適応データ 話者MHT 学習に含まれない10発話
評価データ 話者MHT 学習・適応に含まれない53発話
周波数 16 kHz 分析窓/周期 25-ms Blackman窓/10-ms 分析方法 18次 メルケプストラム分析
動的特徴 前後1フレームから回帰係数として計算
特徴ベクトル c(0)~c(18), ∆c(0)~∆c(18), ∆∆c(0)~∆∆c(18) トポロジー 3状態,スキップのないleft-to-right構造,
対角共分散単一ガウス分布,monophone
学習・適応及び認識手順
学習
HMMを初期値としてトラジェクトリHMMをViterbi学習
適応
・ 全体で1個の回帰行列 (教師あり) ・ HMM ⇒ static, ∆, ∆∆に別個の変換 (19×19の行列×3) ・ トラジェクトリHMM ⇒ staticのみ (19×19の行列) HMM ⇒ EM トラジェクトリHMM ⇒ Viterbi & MCEM
認識
1. 適応前後のHMMを用いてそれぞれ1000個の音素仮説
2. 2000個の仮説をトラジェクトリHMMを用いてリスコア
実験結果
音響モデル
HMM
トラジェクトリHMM
適応
なし
あり (EM)
なし
あり (MCEM)
あり (Viterbi)
音素誤り率(%)
49.3
34.2
49.6
32.7
32.8
まとめ
トラジェクトリHMMのための話者適応
・ 制約付きMLLRをトラジェクトリHMM向けに導出
・ 連続音声認識実験において評価
⇒ 話者適応により性能が大きく改善
適応前: 49.6% 適応後: 32.7% (音素誤り率)
今後の予定
・ 話者適応学習 (SAT) ・ 制約無しMLLR ・ 大規模なタスクにおける評価実験