語音評分 Speech Evaluation

50
1 語語語語 語語語語 Speech Evaluation Speech Evaluation 語語 語語語 語語語語 語語語 2002/6/11

description

語音評分 Speech Evaluation. 學生:李俊毅 指導教授:張智星 2002/6/11. 大綱. 利用標準語音資料的評分 英文語音評分系統 Demo 利用 HMM 及音高資料的評分 唐詩語音評分系統 Demo 結論 未來展望. 概述. 利用標準語音資料的評分 利用 HMM 及音高資料的評分. 利用標準語音資料的評分-概述. 標準語音 測試語音. I can line up an interview with Tom Cruise. 我可以安排一場湯姆 ‧ 克魯斯的專訪. 利用 HMM 及音高資料的評分-概述. 測試語音. - PowerPoint PPT Presentation

Transcript of 語音評分 Speech Evaluation

Page 1: 語音評分 Speech Evaluation

1

語音評分語音評分Speech EvaluationSpeech Evaluation

學生:李俊毅指導教授:張智星2002/6/11

Page 2: 語音評分 Speech Evaluation

2清大多媒體資訊檢索實驗室 李俊毅 [email protected]

大綱大綱利用標準語音資料的評分

英文語音評分系統 Demo利用 HMM 及音高資料的評分唐詩語音評分系統 Demo結論

未來展望

Page 3: 語音評分 Speech Evaluation

3清大多媒體資訊檢索實驗室 李俊毅 [email protected]

概述概述利用標準語音資料的評分利用 HMM 及音高資料的評分

Page 4: 語音評分 Speech Evaluation

4清大多媒體資訊檢索實驗室 李俊毅 [email protected]

利用標準語音資料的評分利用標準語音資料的評分 -- 概述概述標準語音

測試語音I can line up an interview with Tom Cruise.

我可以安排一場湯姆‧克魯斯的專訪

Page 5: 語音評分 Speech Evaluation

5清大多媒體資訊檢索實驗室 李俊毅 [email protected]

利用利用 HMMHMM 及音高資料的評分及音高資料的評分 -- 概述概述測試語音

夕 陽 無 限 好聲音 si iaG u sieN hau

聲調 ˋ ˊ ˊ ˋ ˇ

Page 6: 語音評分 Speech Evaluation

6清大多媒體資訊檢索實驗室 李俊毅 [email protected]

Part 1 利用標準語音資料的評分

Page 7: 語音評分 Speech Evaluation

7清大多媒體資訊檢索實驗室 李俊毅 [email protected]

利用標準語音資料的評分利用標準語音資料的評分 -- 系統流程系統流程系統流程圖特徵擷取 特徵參數

圖樣比對PatternMatching

標準語音 特徵擷取 特徵參數

1.音量強度曲線2.基頻軌跡曲線3.梅爾倒頻譜參數

1.音量強度曲線2.基頻軌跡曲線3.梅爾倒頻譜參數

測試語音 特徵參數正規化

特徵參數正規化

評分機制相似程度 評分

Page 8: 語音評分 Speech Evaluation

8清大多媒體資訊檢索實驗室 李俊毅 [email protected]

系統流程圖系統流程圖 -- 特徵擷取特徵擷取特徵擷取特徵擷取 特徵參數

圖樣比對PatternMatching

標準語音 特徵擷取 特徵參數

1.音量強度曲線2.基頻軌跡曲線3.梅爾倒頻譜參數

1.音量強度曲線2.基頻軌跡曲線3.梅爾倒頻譜參數

測試語音 特徵參數正規化

特徵參數正規化

評分機制相似程度 評分

Page 9: 語音評分 Speech Evaluation

9清大多媒體資訊檢索實驗室 李俊毅 [email protected]

利用標準語音資料的評分利用標準語音資料的評分 -- 特徵參數特徵參數評分所採用的特徵

音量強度曲線 (Magnitude)基頻軌跡 (Pitch Contour)梅爾倒頻譜參數 (Mel-Frequency Cepstral Coefficients)

Page 10: 語音評分 Speech Evaluation

10清大多媒體資訊檢索實驗室 李俊毅 [email protected]

音量強度曲線音量強度曲線 ((Magnitude)Magnitude) 示意圖示意圖

Page 11: 語音評分 Speech Evaluation

11清大多媒體資訊檢索實驗室 李俊毅 [email protected]

音量強度曲線音量強度曲線 ((Magnitude)Magnitude)

代表音量強弱變化趨勢求取公式:

1,...,1,0,)(1)(1

0

NnmSM

naveMagM

mn    

Page 12: 語音評分 Speech Evaluation

12清大多媒體資訊檢索實驗室 李俊毅 [email protected]

基頻軌跡曲線基頻軌跡曲線 ((Pitch Contour)Pitch Contour) 示意圖示意圖

Page 13: 語音評分 Speech Evaluation

13清大多媒體資訊檢索實驗室 李俊毅 [email protected]

基頻軌跡曲線基頻軌跡曲線 ((Pitch Contour)Pitch Contour)

代表音高變化趨勢擷取流程

語音訊號 低通濾波器 音框化

Local Minima找AMDF演算 High Cliping

每一音框皆經以下步驟

計算基頻

Page 14: 語音評分 Speech Evaluation

14清大多媒體資訊檢索實驗室 李俊毅 [email protected]

梅爾倒頻譜參數梅爾倒頻譜參數 (MFCC)(MFCC)

代表聲音的內容擷取流程語音訊號 預強調 音框化

傅利葉轉換

餘弦轉換 MFCC

漢明窗 三角帶通濾波器

每一音框皆經以下步驟

Page 15: 語音評分 Speech Evaluation

15清大多媒體資訊檢索實驗室 李俊毅 [email protected]

語者正規化語者正規化 --VTLNVTLN

Vocal Tract Length Normalization原理利用第三共振峰 (F3) 頻率較不易變動的特性,藉以調整測試語音的線性頻率尺度正規化係數 定義為參考語音平均 F3值除以測試語音平均 F3值有了正規化係數之後就可以用下式來調整測試語音的頻率尺度:

FFN

Page 16: 語音評分 Speech Evaluation

16清大多媒體資訊檢索實驗室 李俊毅 [email protected]

梅爾倒頻譜參數梅爾倒頻譜參數 (MFCC)(MFCC)

代表聲音的內容擷取流程

語音訊號 預強調 音框化

傅利葉轉換

餘弦轉換 MFCC

漢明窗 三角帶通濾波器

每一音框皆經以下步驟

Page 17: 語音評分 Speech Evaluation

17清大多媒體資訊檢索實驗室 李俊毅 [email protected]

系統流程圖系統流程圖 -- 特徵參數正規化特徵參數正規化特徵參數正規化特徵擷取 特徵參數

圖樣比對PatternMatching

標準語音 特徵擷取 特徵參數

1.音量強度曲線2.基頻軌跡曲線3.梅爾倒頻譜參數

1.音量強度曲線2.基頻軌跡曲線3.梅爾倒頻譜參數

測試語音 特徵參數正規化

特徵參數正規化

評分機制相似程度 評分

Page 18: 語音評分 Speech Evaluation

18清大多媒體資訊檢索實驗室 李俊毅 [email protected]

特徵參數正規化特徵參數正規化解決特徵參數長短不一的方法

Interpolation解決麥克風差異的方法Linear Scaling解決個人音高差異的方法Linear Shifting解決通道效應的方法Cepstral Mean Subtraction

Page 19: 語音評分 Speech Evaluation

19清大多媒體資訊檢索實驗室 李俊毅 [email protected]

解決特徵參數長短不一解決特徵參數長短不一 --InterpolationInterpolation

一維內差法,將特徵參數的長度調成一樣

Page 20: 語音評分 Speech Evaluation

20清大多媒體資訊檢索實驗室 李俊毅 [email protected]

解決麥克風差異性解決麥克風差異性 - - Linear ScalingLinear Scaling

Linear Scaling假設不同麥克風對音量強度的影響存在一個倍數的關係

• 使用 Least-squares estimator 我們可以得知• =>

)1(...

)1()0(

)(

2

2

2

2

NaveMag

aveMagaveMag

naveMagA

)1(...

)1()0(

)(

1

1

1

1

NaveMag

aveMagaveMag

naveMagy

yeA

yAAA TT 1)(

Page 21: 語音評分 Speech Evaluation

21清大多媒體資訊檢索實驗室 李俊毅 [email protected]

解決個人音高差異性解決個人音高差異性 - - Linear ShiftingLinear Shifting

Linear Shifting將兩段基頻軌跡的平均值調成一樣公式:

1

01

1

0222 )(1)(1)()(ˆ

N

k

N

k

kfN

kfN

xfxf

Page 22: 語音評分 Speech Evaluation

22清大多媒體資訊檢索實驗室 李俊毅 [email protected]

解決通道效應的方法解決通道效應的方法 --CMSCMS

Cepstral Mean Subtraction通道效應補償公式:

T

tc

cc

tyT

b

btytx

1

)(1)()(~

1 2 3 4 5 … 12

1

2

3

N

b1 b2

Page 23: 語音評分 Speech Evaluation

23清大多媒體資訊檢索實驗室 李俊毅 [email protected]

系統流程圖系統流程圖 -- 圖樣比對設計圖樣比對設計圖樣比對設計特徵擷取 特徵參數

圖樣比對PatternMatching

標準語音 特徵擷取 特徵參數

1.音量強度曲線2.基頻軌跡曲線3.梅爾倒頻譜參數

1.音量強度曲線2.基頻軌跡曲線3.梅爾倒頻譜參數

測試語音 特徵參數正規化

特徵參數正規化

評分機制相似程度 評分

Page 24: 語音評分 Speech Evaluation

24清大多媒體資訊檢索實驗室 李俊毅 [email protected]

圖樣比對設計圖樣比對設計 -- 音量強度曲線音量強度曲線 音量強度曲線比對流程圖

v2 new_v2 (距離 dist1)

v1標準語音之音量強度曲線設為v2測試語音之音量強度曲線設為

A.Interpolation v1成 的長度B. v1 Linear Scaling以 為準做

v1 v2以 為基準調整v1

算距離

差異程度

Page 25: 語音評分 Speech Evaluation

25清大多媒體資訊檢索實驗室 李俊毅 [email protected]

圖樣比對設計圖樣比對設計 -- 基頻軌跡基頻軌跡基頻軌跡比對流程圖

v2 new_v2 (距離 dist2)

v1標準語音之基頻軌跡設為v2測試語音之基頻軌跡設為

A.Interpolation v1成 的長度B. v1 Linear Shifting以 為準做

v1 v2以 為基準調整v1

算距離

差異程度

Page 26: 語音評分 Speech Evaluation

26清大多媒體資訊檢索實驗室 李俊毅 [email protected]

圖樣比對設計圖樣比對設計 -- 梅爾倒頻譜參數梅爾倒頻譜參數梅爾倒頻譜參數比對流程圖

v2 new_v2

v1標準語音之梅爾倒頻譜參數設為v2測試語音之梅爾倒頻譜參數設為

Cepstral Mean Subtraction 算距離

v1 new_v1Cepstral Mean Subtraction

Dynamic Time Warping

(距離 dist3)

差異程度

Page 27: 語音評分 Speech Evaluation

27清大多媒體資訊檢索實驗室 李俊毅 [email protected]

相似度比對:相似度比對: Dynamic Time Warping Dynamic Time Warping

提供一個具有更大彈性的相似度比對法

)()()2,1()1,2()1,1(

min),( jRiTjidjidjid

jid

測試語音特徵向量T

標準語音特徵向量

R

d(i–1, j–2)

d(i–1, j–1)

d(i, j)

d(i–2, j–1)

Page 28: 語音評分 Speech Evaluation

28清大多媒體資訊檢索實驗室 李俊毅 [email protected]

DTWDTW 例子例子 -- 基頻軌跡基頻軌跡

Page 29: 語音評分 Speech Evaluation

29清大多媒體資訊檢索實驗室 李俊毅 [email protected]

系統流程圖系統流程圖 -- 評分機制評分機制評分機制特徵擷取 特徵參數

圖樣比對PatternMatching

標準語音 特徵擷取 特徵參數

1.音量強度曲線2.基頻軌跡曲線3.梅爾倒頻譜參數

1.音量強度曲線2.基頻軌跡曲線3.梅爾倒頻譜參數

測試語音 特徵參數正規化

特徵參數正規化

評分機制相似程度 評分

Page 30: 語音評分 Speech Evaluation

30清大多媒體資訊檢索實驗室 李俊毅 [email protected]

評分機制的設定評分機制的設定 -1-1

評分公式

• Ex. score=60,dist=6; score=90,dist=5 即可求得 a,b

0,,)(1

100

ba

distascore b     

5 5.1 5.2 5.3 5.4 5.5 5.6 5.7 5.8 5.9 660

70

80

90

3 3.5 4 4.5 5 5.5 6 6.5 7 7.5 80

50

100

Page 31: 語音評分 Speech Evaluation

31清大多媒體資訊檢索實驗室 李俊毅 [email protected]

評分機制的設定評分機制的設定 -2-2

距離轉分數公式

• 音量強度曲線的距離• 基頻軌跡的距離• MFCC 的距離

321 )(1100

)(1100

)(1100

333

222

111 bbb dista

wdista

wdista

wscore

1dist

2dist

3dist

1,0,,,,, 321321321 wwwbbbaaa  

Page 32: 語音評分 Speech Evaluation

32清大多媒體資訊檢索實驗室 李俊毅 [email protected]

評分機制的設定評分機制的設定 -3-3

實驗標準語音

• CNN 互動英語 10 句測試語音

• 實驗室同學錄音,總共 320 句

Page 33: 語音評分 Speech Evaluation

33清大多媒體資訊檢索實驗室 李俊毅 [email protected]

評分機制的設定評分機制的設定 -4-4

正確                 錯誤

使用 Simplex downhill search 可找出不錯的             組合 經由實驗得到

9090...9090

3,3202,3201,320

3,22,21,2

3,12,11,1

distdistdist

distdistdistdistdistdist

3030...3030

3,320'

2,320'

1,320'

3,2'

2,2'

1,2'

3,1'

2,1'

1,1'

distdistdist

distdistdistdistdistdist

321321321 ,,,,,,,, wwwbbbaaa

%8.74%,7.16%,5.8 321 www

Page 34: 語音評分 Speech Evaluation

34清大多媒體資訊檢索實驗室 李俊毅 [email protected]

英文語音評分系統 Demo

Page 35: 語音評分 Speech Evaluation

35清大多媒體資訊檢索實驗室 李俊毅 [email protected]

Part 2 利用 HMM 及音高資料的評分

Page 36: 語音評分 Speech Evaluation

36清大多媒體資訊檢索實驗室 李俊毅 [email protected]

利用利用 HMMHMM 及音高資料的評分及音高資料的評分 -- 系統流程系統流程系統流程圖

特徵擷取 特徵參數 語音訊號的切割

39維的梅爾倒頻譜參數

語音訊號 單音節

Viterbi Decoding

每一音節皆經以下步驟

語音辨識 音節排名

聲調辨識 聲調排名

評分評分機制

Page 37: 語音評分 Speech Evaluation

37清大多媒體資訊檢索實驗室 李俊毅 [email protected]

利用利用 HMMHMM 及音高資料的評分及音高資料的評分 -- 特徵參數特徵參數評分所採用的特徵

聲音 (HMM)• 梅爾倒頻譜參數 (MFCC)

聲調 ( 音高 )• Orthogonal Expansion 的 4 個係數• Chebyshev Polynomial Fitting 的 6 個係數

Page 38: 語音評分 Speech Evaluation

38清大多媒體資訊檢索實驗室 李俊毅 [email protected]

語音訊號的切割語音訊號的切割Viterbi Decoding在已知語音訊號內容的情況下,解出最佳的語音訊號狀態序列

Net 為這句語音訊號內容的所有可能音節排列• 例如:黃河入海流• Path 1: !NULL- 黃 - 河 - 入 - 海 - 流 -!NULL• Path 2: !NULL- 黃 - 河 - 入 - 海 -!NULL• Path 3: !NULL- 黃 - 河 - 入 -!NULL• Path 4: !NULL- 入 - 海 - 流 -!NULL• ….

Page 39: 語音評分 Speech Evaluation

39清大多媒體資訊檢索實驗室 李俊毅 [email protected]

語音訊號的切割語音訊號的切割 --Viterbi DecodingViterbi Decoding 示意圖示意圖

向 晚 意 不 適Viterbi Decoding -----------------------------------------------

Page 40: 語音評分 Speech Evaluation

40清大多媒體資訊檢索實驗室 李俊毅 [email protected]

利用利用 HMMHMM 的評分的評分HMM 的評分方式

建立 415 個單音節的 Net• !NULL-huaG-!NULL• !NULL-hr-!NULL• !NULL-Ru-!NULL• …對每個 Net作 Viterbi Search ,找出每個 Net 的最大 Log

Probability對 Log Probability 排序

Page 41: 語音評分 Speech Evaluation

41清大多媒體資訊檢索實驗室 李俊毅 [email protected]

Log ProbabilityLog Probability 分佈圖分佈圖 (( 一一 ))

1.Log Probability 越大,代表…2. 分佈斜率,代表…

415 個音節

Page 42: 語音評分 Speech Evaluation

42清大多媒體資訊檢索實驗室 李俊毅 [email protected]

Log ProbabilityLog Probability 分佈圖分佈圖 (( 二二 ))

前 10名個音節

Page 43: 語音評分 Speech Evaluation

43清大多媒體資訊檢索實驗室 李俊毅 [email protected]

評分機制評分機制排名在 201名之後者,評為 20 分第 1名到第 200名依比率評分,區間為 [100,20]

前 200名的音節

Page 44: 語音評分 Speech Evaluation

44清大多媒體資訊檢索實驗室 李俊毅 [email protected]

評分機制示意圖評分機制示意圖排名在 201名之後者,評為 20 分第 1名到第 200名依比率評分,區間為 [100,20]

前 200名的音節

Page 45: 語音評分 Speech Evaluation

45清大多媒體資訊檢索實驗室 李俊毅 [email protected]

利用利用 HMMHMM 的評分的評分 ~~ 示意圖示意圖示意圖

向 晚 意 不 適Viterbi Decoding -----------------------------------------------

正確答案 siaG uaN i bu Sy

Recognizer ------------------------------------------------------

評分機制 95 92 86 90 72

Page 46: 語音評分 Speech Evaluation

46清大多媒體資訊檢索實驗室 李俊毅 [email protected]

利用音高資料的評分利用音高資料的評分音高資料的評分方式

對每個字求取 Pitch Contour將 Pitch Contour 轉成特徵向量比對 Tone Models,判斷這個字是第幾聲的以字為評分依據 •Ex.月落烏啼霜滿天

–正確: 4 4 1 2 1 3 1–結果: 4 1 1 2 1 3 1–    O × OOOOO

Page 47: 語音評分 Speech Evaluation

47清大多媒體資訊檢索實驗室 李俊毅 [email protected]

利用音高資料的評分利用音高資料的評分 ~~ 示意圖示意圖示意圖

向 晚 意 不 適Viterbi Decoding -----------------------------------------------

正確答案 ˋ ˇ ˋ ˊ ˋ

Tone Recognizer -----------------------------------------------

辨識結果 ˋ ˇ ˋ ˊ ˋ

Page 48: 語音評分 Speech Evaluation

48清大多媒體資訊檢索實驗室 李俊毅 [email protected]

唐詩語音評分系統 Demo

Page 49: 語音評分 Speech Evaluation

49清大多媒體資訊檢索實驗室 李俊毅 [email protected]

結論結論利用標準語音資料的評分

音量強度曲線: 8.5%基頻軌跡: 16.7%梅爾倒頻譜參數: 74.8%利用 HMM 及音高資料的評分HMM :聲音音高:聲調

Page 50: 語音評分 Speech Evaluation

50清大多媒體資訊檢索實驗室 李俊毅 [email protected]

未來展望未來展望運用語音評分於以下系統利用標準語音資料的評分

• 語言學習系統• 行動 KTV 評分系統利用 HMM 及音高資料的評分• 國語正音系統• 語料收集系統比較其它可能用來評分的特徵尋找其它更合理的評分機制