トラジェクトリHMMの制約付き...

20
HMM ( )

Transcript of トラジェクトリHMMの制約付き...

Page 1: トラジェクトリHMMの制約付き 最尤線形回帰による話者適応zen/publications/zen-asj0509-CMLLR-slide.pdf・モンテカルロEM学習 [全ら; ASJ'05] 目的 トラジェクトリHMMのための話者適応

トラジェクトリHMMの制約付き最尤線形回帰による話者適応

全 炳河 南角 吉彦 徳田 恵一 北村 正

(名工大)

Page 2: トラジェクトリHMMの制約付き 最尤線形回帰による話者適応zen/publications/zen-asj0509-CMLLR-slide.pdf・モンテカルロEM学習 [全ら; ASJ'05] 目的 トラジェクトリHMMのための話者適応

背景

HMMの制約

・出力ベクトル間の時間的独立性を仮定

・状態内で統計量が一定

トラジェクトリHMM ・静的・動的特徴間の関係をHMMに明示的に導入

⇒ HMMをトラジェクトリモデルとして再定式化

・上記のHMMの制約を回避

・Viterbi学習 [全ら; ASJ'03] ・モンテカルロEM学習 [全ら; ASJ'05]

Page 3: トラジェクトリHMMの制約付き 最尤線形回帰による話者適応zen/publications/zen-asj0509-CMLLR-slide.pdf・モンテカルロEM学習 [全ら; ASJ'05] 目的 トラジェクトリHMMのための話者適応

目的

トラジェクトリHMMのための話者適応

・話者適応 ⇒ 少量のデータで発話者にモデルを適応

・代表的なアルゴリズム

- 最大事後確率 (MAP) - 固有声 (Eigenvoice) - 最尤線形回帰 (MLLR) - 制約無し (Unconstrained MLLR) - 制約付き (Constrained MLLR)

・トラジェクトリHMM向けに制約付きMLLRを導出

・連続音声認識実験により評価

Page 4: トラジェクトリHMMの制約付き 最尤線形回帰による話者適応zen/publications/zen-asj0509-CMLLR-slide.pdf・モンテカルロEM学習 [全ら; ASJ'05] 目的 トラジェクトリHMMのための話者適応

トラジェクトリHMM (1)静的特徴系列 c のトラジェクトリHMMからの出力確率

c:静的特徴ベクトル系列 (MT×1)

:時刻 t の静的特徴ベクトル (M×1)

q:ガウス分布系列

:時刻 t に滞在するガウス分布

M:静的特徴ベクトルの次元数

Page 5: トラジェクトリHMMの制約付き 最尤線形回帰による話者適応zen/publications/zen-asj0509-CMLLR-slide.pdf・モンテカルロEM学習 [全ら; ASJ'05] 目的 トラジェクトリHMMのための話者適応

トラジェクトリHMM (2)

… …… ……band

(block) diag (block) diag

:系列 q の平均ベクトル

平均ベクトル 及び共分散行列

Σq = diag [Σq1 , . . . ,ΣqT ] :系列 q の共分散行列

:分布 の平均ベクトル

:分布 の共分散行列

Page 6: トラジェクトリHMMの制約付き 最尤線形回帰による話者適応zen/publications/zen-asj0509-CMLLR-slide.pdf・モンテカルロEM学習 [全ら; ASJ'05] 目的 トラジェクトリHMMのための話者適応

窓行列

=

1

1

1

0-1

2-1

2

00

0

0

0

2

1

-1

2

0 0

0

0

0 0

例)W : 動的特徴を付与する窓行列 (3MT×MT )

Page 7: トラジェクトリHMMの制約付き 最尤線形回帰による話者適応zen/publications/zen-asj0509-CMLLR-slide.pdf・モンテカルロEM学習 [全ら; ASJ'05] 目的 トラジェクトリHMMのための話者適応

5 10 15 20 25 30 35 40 45 50 55

5

10

15

20

25

30

35

40

45

50

55

Time (frame)

Tim

e (fr

ame)

0.01.02.0

1st

Mel

-cep

stru

m Natural speechMean trajectory

Inter-frame covariance matrix

sil a i d sila

sila

id

sila

mean & variance ⇒ varies in a state

Inter-frame correlation ⇒ captured by

Small

Large

Varia

nce

Page 8: トラジェクトリHMMの制約付き 最尤線形回帰による話者適応zen/publications/zen-asj0509-CMLLR-slide.pdf・モンテカルロEM学習 [全ら; ASJ'05] 目的 トラジェクトリHMMのための話者適応

最尤線形回帰 (MLLR) による話者適応

最尤線形回帰 (MLLR) [Leggetter et al;'95] ・ 適応データに対する尤度を最大化

・ HMMの平均ベクトルや共分散行列を変換

- 独立に変換 (制約無しMLLR) [Gales et.al; CSL'96]

- 同一の変換 (制約付きMLLR) [Gales; CSL'98]

= + =µ̂ Σ̂ H Σ H>

= + =µ̂ Σ̂ Σ >

Page 9: トラジェクトリHMMの制約付き 最尤線形回帰による話者適応zen/publications/zen-asj0509-CMLLR-slide.pdf・モンテカルロEM学習 [全ら; ASJ'05] 目的 トラジェクトリHMMのための話者適応

トラジェクトリHMMの制約付きMLLR

= +

静的特徴ベクトル系列 c をアフィン変換

: 変換後の c: 変換行列

: バイアス

問題点

・ パラメータ数が膨大 (MT×MT + MT )  

・ 各発話で変換行列・バイアスの次元数が変化

⇒ A, b の構造について,何らかの制約が必要

Page 10: トラジェクトリHMMの制約付き 最尤線形回帰による話者適応zen/publications/zen-asj0509-CMLLR-slide.pdf・モンテカルロEM学習 [全ら; ASJ'05] 目的 トラジェクトリHMMのための話者適応

変換行列及びバイアスベクトルの制約

MT 1

A b

MTMT

Page 11: トラジェクトリHMMの制約付き 最尤線形回帰による話者適応zen/publications/zen-asj0509-CMLLR-slide.pdf・モンテカルロEM学習 [全ら; ASJ'05] 目的 トラジェクトリHMMのための話者適応

変換行列及びバイアスベクトルの制約

MT 1

A b

MTMT

T

T

0

0

・・・・・・

・・・・・・

- ブロック構造

Page 12: トラジェクトリHMMの制約付き 最尤線形回帰による話者適応zen/publications/zen-asj0509-CMLLR-slide.pdf・モンテカルロEM学習 [全ら; ASJ'05] 目的 トラジェクトリHMMのための話者適応

変換行列及びバイアスベクトルの制約

MT 1

A b

T

T

0

0

・・・・・・

・・・・・・

- ブロック構造- ガウス分布系列 q に依存した共有構造

・・・・・・

トラ

ジェ

クト

リH

MM

λ

ガウ

ス分

布系

列 q

Page 13: トラジェクトリHMMの制約付き 最尤線形回帰による話者適応zen/publications/zen-asj0509-CMLLR-slide.pdf・モンテカルロEM学習 [全ら; ASJ'05] 目的 トラジェクトリHMMのための話者適応

変換行列及びバイアスベクトルの制約

MT 1

A b

T

T

0

0

・・・・・・

・・・・・・

- ブロック構造- 全分布で変換行列及びバイアスベクトルを共有

Page 14: トラジェクトリHMMの制約付き 最尤線形回帰による話者適応zen/publications/zen-asj0509-CMLLR-slide.pdf・モンテカルロEM学習 [全ら; ASJ'05] 目的 トラジェクトリHMMのための話者適応

制約導入後

= + =1

ct

Bd

ブロック対角と共有構造を仮定 (全体で1個の変換行列)

アフィン変換された静的特徴ベクトル系列

フレーム単位の変換 ⇒ 通常のCMLLRと同様に最適化可能

Page 15: トラジェクトリHMMの制約付き 最尤線形回帰による話者適応zen/publications/zen-asj0509-CMLLR-slide.pdf・モンテカルロEM学習 [全ら; ASJ'05] 目的 トラジェクトリHMMのための話者適応

トラジェクトリHMMの制約付きMLLR (5)

制約付きMLLRの十分統計量: Xのm行ベクトル

: Bの余因子から

成るベクトル

Page 16: トラジェクトリHMMの制約付き 最尤線形回帰による話者適応zen/publications/zen-asj0509-CMLLR-slide.pdf・モンテカルロEM学習 [全ら; ASJ'05] 目的 トラジェクトリHMMのための話者適応

変換行列の推定式

Q関数を変換行列の各行x に関して偏微分

m行の解析解はXのm行以外に依存

⇒ 各行の最適化を繰り返し [Gales; CSL'96]

Q関数を正確に計算することは困難

・ Viterbi近似 [全ら; '03] ・ マルコフ連鎖モンテカルロ [全ら; '05]

Page 17: トラジェクトリHMMの制約付き 最尤線形回帰による話者適応zen/publications/zen-asj0509-CMLLR-slide.pdf・モンテカルロEM学習 [全ら; ASJ'05] 目的 トラジェクトリHMMのための話者適応

実験条件

学習データ  ATR日本語連続音声データベースB-set         話者MHO, MMY, MSH, MTK, MYI          各話者503発話中の440発話 

適応データ  話者MHT 学習に含まれない10発話

評価データ  話者MHT 学習・適応に含まれない53発話 

  周波数  16 kHz 分析窓/周期    25-ms Blackman窓/10-ms 分析方法     18次 メルケプストラム分析

 動的特徴  前後1フレームから回帰係数として計算

特徴ベクトル c(0)~c(18), ∆c(0)~∆c(18), ∆∆c(0)~∆∆c(18) トポロジー  3状態,スキップのないleft-to-right構造,

       対角共分散単一ガウス分布,monophone

Page 18: トラジェクトリHMMの制約付き 最尤線形回帰による話者適応zen/publications/zen-asj0509-CMLLR-slide.pdf・モンテカルロEM学習 [全ら; ASJ'05] 目的 トラジェクトリHMMのための話者適応

学習・適応及び認識手順

学習

HMMを初期値としてトラジェクトリHMMをViterbi学習

適応

・ 全体で1個の回帰行列 (教師あり) ・ HMM ⇒ static, ∆, ∆∆に別個の変換 (19×19の行列×3) ・ トラジェクトリHMM ⇒ staticのみ (19×19の行列)  HMM ⇒ EM トラジェクトリHMM ⇒ Viterbi & MCEM

認識

1. 適応前後のHMMを用いてそれぞれ1000個の音素仮説

2. 2000個の仮説をトラジェクトリHMMを用いてリスコア

Page 19: トラジェクトリHMMの制約付き 最尤線形回帰による話者適応zen/publications/zen-asj0509-CMLLR-slide.pdf・モンテカルロEM学習 [全ら; ASJ'05] 目的 トラジェクトリHMMのための話者適応

実験結果

音響モデル

HMM

トラジェクトリHMM

適応

なし

あり (EM)

なし

あり (MCEM)

あり (Viterbi)

音素誤り率(%)

49.3

34.2

49.6

32.7

32.8

Page 20: トラジェクトリHMMの制約付き 最尤線形回帰による話者適応zen/publications/zen-asj0509-CMLLR-slide.pdf・モンテカルロEM学習 [全ら; ASJ'05] 目的 トラジェクトリHMMのための話者適応

まとめ

トラジェクトリHMMのための話者適応

・ 制約付きMLLRをトラジェクトリHMM向けに導出

・ 連続音声認識実験において評価

⇒ 話者適応により性能が大きく改善

   適応前: 49.6% 適応後: 32.7% (音素誤り率)

今後の予定

・ 話者適応学習 (SAT) ・ 制約無しMLLR ・ 大規模なタスクにおける評価実験