トラジェクトリHMMの制約付き...

トラジェクトリHMMの制約付き最尤線形回帰による話者適応

全炳河　南角吉彦　徳田恵一　北村正

(名工大)

背景

HMMの制約

・出力ベクトル間の時間的独立性を仮定

・状態内で統計量が一定

トラジェクトリHMM ・静的・動的特徴間の関係をHMMに明示的に導入

⇒ HMMをトラジェクトリモデルとして再定式化

・上記のHMMの制約を回避

・Viterbi学習 [全ら; ASJ'03] ・モンテカルロEM学習 [全ら; ASJ'05]

目的

トラジェクトリHMMのための話者適応

・話者適応 ⇒ 少量のデータで発話者にモデルを適応

・代表的なアルゴリズム

- 最大事後確率 (MAP) - 固有声 (Eigenvoice) - 最尤線形回帰 (MLLR) - 制約無し (Unconstrained MLLR) - 制約付き (Constrained MLLR)

・トラジェクトリHMM向けに制約付きMLLRを導出

・連続音声認識実験により評価

トラジェクトリHMM (1)静的特徴系列 c のトラジェクトリHMMからの出力確率

c：静的特徴ベクトル系列 (MT×1)

：時刻 t の静的特徴ベクトル (M×1)

q：ガウス分布系列

：時刻 t に滞在するガウス分布

M：静的特徴ベクトルの次元数

トラジェクトリHMM (2)

… …… ……band

(block) diag (block) diag

：系列 q の平均ベクトル

平均ベクトル及び共分散行列

Σq = diag [Σq1 , . . . ,ΣqT ] ：系列 q の共分散行列

：分布の平均ベクトル

：分布の共分散行列

窓行列

=

1

1

1

0-1

2-1

2

00

0

0

0

2

1

-1

2

0 0

0

0

0 0

…

…

…

…

…

…

…

…

例)W : 動的特徴を付与する窓行列 (3MT×MT )

5 10 15 20 25 30 35 40 45 50 55

5

10

15

20

25

30

35

40

45

50

55

Time (frame)

Tim

e (fr

ame)

0.01.02.0

1st

Mel

-cep

stru

m Natural speechMean trajectory

Inter-frame covariance matrix

sil a i d sila

sila

id

sila

mean & variance ⇒ varies in a state

Inter-frame correlation ⇒ captured by

Small

Large

Varia

nce

最尤線形回帰 (MLLR) による話者適応

最尤線形回帰 (MLLR) [Leggetter et al;'95] ･適応データに対する尤度を最大化

･ HMMの平均ベクトルや共分散行列を変換

- 独立に変換 (制約無しMLLR) [Gales et.al; CSL'96]

- 同一の変換 (制約付きMLLR) [Gales; CSL'98]

= + =µ̂ Σ̂ H Σ H>

= + =µ̂ Σ̂ Σ >

トラジェクトリHMMの制約付きMLLR

= +

静的特徴ベクトル系列 c をアフィン変換

: 変換後の c: 変換行列

: バイアス

問題点

･パラメータ数が膨大 (MT×MT + MT )　　

･各発話で変換行列･バイアスの次元数が変化

⇒ A, b の構造について,何らかの制約が必要

変換行列及びバイアスベクトルの制約

MT 1

A b

MTMT


MT 1

A b

MTMT

T

T

0

0

･･････

･･････

- ブロック構造


MT 1

A b

T

T

0

0

･･････

･･････

- ブロック構造- ガウス分布系列 q に依存した共有構造

･･････

トラ

ジェ

クト

リH

MM

λ

ガウ

ス分

布系

列 q


MT 1

A b

T

T

0

0

･･････

･･････

- ブロック構造- 全分布で変換行列及びバイアスベクトルを共有

制約導入後

= + =1

ct

Bd

ブロック対角と共有構造を仮定 (全体で1個の変換行列)

アフィン変換された静的特徴ベクトル系列

フレーム単位の変換 ⇒ 通常のCMLLRと同様に最適化可能

トラジェクトリHMMの制約付きMLLR (5)

制約付きMLLRの十分統計量: Xのm行ベクトル

: Bの余因子から

成るベクトル

変換行列の推定式

Q関数を変換行列の各行x に関して偏微分

m行の解析解はXのm行以外に依存

⇒ 各行の最適化を繰り返し [Gales; CSL'96]

Q関数を正確に計算することは困難

･ Viterbi近似 [全ら; '03] ･マルコフ連鎖モンテカルロ [全ら; '05]

実験条件

学習データ　 ATR日本語連続音声データベースB-set　　　　　　　　話者MHO, MMY, MSH, MTK, MYI 　　　　　　　　　各話者503発話中の440発話　

適応データ　話者MHT 学習に含まれない10発話

評価データ　話者MHT 学習･適応に含まれない53発話　

　周波数　 16 kHz 分析窓/周期　　　　25-ms Blackman窓/10-ms　分析方法　　　　　18次メルケプストラム分析

　動的特徴　前後1フレームから回帰係数として計算

特徴ベクトル　c(0)～c(18), ∆c(0)～∆c(18), ∆∆c(0)～∆∆c(18) トポロジー　 3状態，スキップのないleft-to-right構造，

　　　　　　　対角共分散単一ガウス分布，monophone

学習･適応及び認識手順

学習

HMMを初期値としてトラジェクトリHMMをViterbi学習

適応

･全体で1個の回帰行列 (教師あり) ･ HMM ⇒ static, ∆, ∆∆に別個の変換 (19×19の行列×3) ･トラジェクトリHMM ⇒ staticのみ (19×19の行列) 　HMM ⇒ EM　トラジェクトリHMM ⇒ Viterbi & MCEM

認識

1. 適応前後のHMMを用いてそれぞれ1000個の音素仮説

2. 2000個の仮説をトラジェクトリHMMを用いてリスコア

実験結果

音響モデル

HMM

トラジェクトリHMM

適応

なし

あり (EM)

なし

あり (MCEM)

あり (Viterbi)

音素誤り率(%)

49.3

34.2

49.6

32.7

32.8

まとめ

トラジェクトリHMMのための話者適応

･制約付きMLLRをトラジェクトリHMM向けに導出

･連続音声認識実験において評価

⇒ 話者適応により性能が大きく改善

　　適応前: 49.6%　適応後: 32.7% (音素誤り率)

今後の予定

･話者適応学習 (SAT) ･制約無しMLLR ･大規模なタスクにおける評価実験

トラジェクトリHMMの制約付き...

Documents

Transcript of トラジェクトリHMMの制約付き...