語音評分 Speech Evaluation

Post on 17-Mar-2016

66 views 0 download

description

語音評分 Speech Evaluation. 學生:李俊毅 指導教授:張智星 2002/6/11. 大綱. 利用標準語音資料的評分 英文語音評分系統 Demo 利用 HMM 及音高資料的評分 唐詩語音評分系統 Demo 結論 未來展望. 概述. 利用標準語音資料的評分 利用 HMM 及音高資料的評分. 利用標準語音資料的評分-概述. 標準語音 測試語音. I can line up an interview with Tom Cruise. 我可以安排一場湯姆 ‧ 克魯斯的專訪. 利用 HMM 及音高資料的評分-概述. 測試語音. - PowerPoint PPT Presentation

Transcript of 語音評分 Speech Evaluation

1

語音評分語音評分Speech EvaluationSpeech Evaluation

學生:李俊毅指導教授:張智星2002/6/11

2清大多媒體資訊檢索實驗室 李俊毅 Owen@wayne.cs.nthu.edu.tw

大綱大綱利用標準語音資料的評分

英文語音評分系統 Demo利用 HMM 及音高資料的評分唐詩語音評分系統 Demo結論

未來展望

3清大多媒體資訊檢索實驗室 李俊毅 Owen@wayne.cs.nthu.edu.tw

概述概述利用標準語音資料的評分利用 HMM 及音高資料的評分

4清大多媒體資訊檢索實驗室 李俊毅 Owen@wayne.cs.nthu.edu.tw

利用標準語音資料的評分利用標準語音資料的評分 -- 概述概述標準語音

測試語音I can line up an interview with Tom Cruise.

我可以安排一場湯姆‧克魯斯的專訪

5清大多媒體資訊檢索實驗室 李俊毅 Owen@wayne.cs.nthu.edu.tw

利用利用 HMMHMM 及音高資料的評分及音高資料的評分 -- 概述概述測試語音

夕 陽 無 限 好聲音 si iaG u sieN hau

聲調 ˋ ˊ ˊ ˋ ˇ

6清大多媒體資訊檢索實驗室 李俊毅 Owen@wayne.cs.nthu.edu.tw

Part 1 利用標準語音資料的評分

7清大多媒體資訊檢索實驗室 李俊毅 Owen@wayne.cs.nthu.edu.tw

利用標準語音資料的評分利用標準語音資料的評分 -- 系統流程系統流程系統流程圖特徵擷取 特徵參數

圖樣比對PatternMatching

標準語音 特徵擷取 特徵參數

1.音量強度曲線2.基頻軌跡曲線3.梅爾倒頻譜參數

1.音量強度曲線2.基頻軌跡曲線3.梅爾倒頻譜參數

測試語音 特徵參數正規化

特徵參數正規化

評分機制相似程度 評分

8清大多媒體資訊檢索實驗室 李俊毅 Owen@wayne.cs.nthu.edu.tw

系統流程圖系統流程圖 -- 特徵擷取特徵擷取特徵擷取特徵擷取 特徵參數

圖樣比對PatternMatching

標準語音 特徵擷取 特徵參數

1.音量強度曲線2.基頻軌跡曲線3.梅爾倒頻譜參數

1.音量強度曲線2.基頻軌跡曲線3.梅爾倒頻譜參數

測試語音 特徵參數正規化

特徵參數正規化

評分機制相似程度 評分

9清大多媒體資訊檢索實驗室 李俊毅 Owen@wayne.cs.nthu.edu.tw

利用標準語音資料的評分利用標準語音資料的評分 -- 特徵參數特徵參數評分所採用的特徵

音量強度曲線 (Magnitude)基頻軌跡 (Pitch Contour)梅爾倒頻譜參數 (Mel-Frequency Cepstral Coefficients)

10清大多媒體資訊檢索實驗室 李俊毅 Owen@wayne.cs.nthu.edu.tw

音量強度曲線音量強度曲線 ((Magnitude)Magnitude) 示意圖示意圖

11清大多媒體資訊檢索實驗室 李俊毅 Owen@wayne.cs.nthu.edu.tw

音量強度曲線音量強度曲線 ((Magnitude)Magnitude)

代表音量強弱變化趨勢求取公式:

1,...,1,0,)(1)(1

0

NnmSM

naveMagM

mn    

12清大多媒體資訊檢索實驗室 李俊毅 Owen@wayne.cs.nthu.edu.tw

基頻軌跡曲線基頻軌跡曲線 ((Pitch Contour)Pitch Contour) 示意圖示意圖

13清大多媒體資訊檢索實驗室 李俊毅 Owen@wayne.cs.nthu.edu.tw

基頻軌跡曲線基頻軌跡曲線 ((Pitch Contour)Pitch Contour)

代表音高變化趨勢擷取流程

語音訊號 低通濾波器 音框化

Local Minima找AMDF演算 High Cliping

每一音框皆經以下步驟

計算基頻

14清大多媒體資訊檢索實驗室 李俊毅 Owen@wayne.cs.nthu.edu.tw

梅爾倒頻譜參數梅爾倒頻譜參數 (MFCC)(MFCC)

代表聲音的內容擷取流程語音訊號 預強調 音框化

傅利葉轉換

餘弦轉換 MFCC

漢明窗 三角帶通濾波器

每一音框皆經以下步驟

15清大多媒體資訊檢索實驗室 李俊毅 Owen@wayne.cs.nthu.edu.tw

語者正規化語者正規化 --VTLNVTLN

Vocal Tract Length Normalization原理利用第三共振峰 (F3) 頻率較不易變動的特性,藉以調整測試語音的線性頻率尺度正規化係數 定義為參考語音平均 F3值除以測試語音平均 F3值有了正規化係數之後就可以用下式來調整測試語音的頻率尺度:

FFN

16清大多媒體資訊檢索實驗室 李俊毅 Owen@wayne.cs.nthu.edu.tw

梅爾倒頻譜參數梅爾倒頻譜參數 (MFCC)(MFCC)

代表聲音的內容擷取流程

語音訊號 預強調 音框化

傅利葉轉換

餘弦轉換 MFCC

漢明窗 三角帶通濾波器

每一音框皆經以下步驟

17清大多媒體資訊檢索實驗室 李俊毅 Owen@wayne.cs.nthu.edu.tw

系統流程圖系統流程圖 -- 特徵參數正規化特徵參數正規化特徵參數正規化特徵擷取 特徵參數

圖樣比對PatternMatching

標準語音 特徵擷取 特徵參數

1.音量強度曲線2.基頻軌跡曲線3.梅爾倒頻譜參數

1.音量強度曲線2.基頻軌跡曲線3.梅爾倒頻譜參數

測試語音 特徵參數正規化

特徵參數正規化

評分機制相似程度 評分

18清大多媒體資訊檢索實驗室 李俊毅 Owen@wayne.cs.nthu.edu.tw

特徵參數正規化特徵參數正規化解決特徵參數長短不一的方法

Interpolation解決麥克風差異的方法Linear Scaling解決個人音高差異的方法Linear Shifting解決通道效應的方法Cepstral Mean Subtraction

19清大多媒體資訊檢索實驗室 李俊毅 Owen@wayne.cs.nthu.edu.tw

解決特徵參數長短不一解決特徵參數長短不一 --InterpolationInterpolation

一維內差法,將特徵參數的長度調成一樣

20清大多媒體資訊檢索實驗室 李俊毅 Owen@wayne.cs.nthu.edu.tw

解決麥克風差異性解決麥克風差異性 - - Linear ScalingLinear Scaling

Linear Scaling假設不同麥克風對音量強度的影響存在一個倍數的關係

• 使用 Least-squares estimator 我們可以得知• =>

)1(...

)1()0(

)(

2

2

2

2

NaveMag

aveMagaveMag

naveMagA

)1(...

)1()0(

)(

1

1

1

1

NaveMag

aveMagaveMag

naveMagy

yeA

yAAA TT 1)(

21清大多媒體資訊檢索實驗室 李俊毅 Owen@wayne.cs.nthu.edu.tw

解決個人音高差異性解決個人音高差異性 - - Linear ShiftingLinear Shifting

Linear Shifting將兩段基頻軌跡的平均值調成一樣公式:

1

01

1

0222 )(1)(1)()(ˆ

N

k

N

k

kfN

kfN

xfxf

22清大多媒體資訊檢索實驗室 李俊毅 Owen@wayne.cs.nthu.edu.tw

解決通道效應的方法解決通道效應的方法 --CMSCMS

Cepstral Mean Subtraction通道效應補償公式:

T

tc

cc

tyT

b

btytx

1

)(1)()(~

1 2 3 4 5 … 12

1

2

3

N

b1 b2

23清大多媒體資訊檢索實驗室 李俊毅 Owen@wayne.cs.nthu.edu.tw

系統流程圖系統流程圖 -- 圖樣比對設計圖樣比對設計圖樣比對設計特徵擷取 特徵參數

圖樣比對PatternMatching

標準語音 特徵擷取 特徵參數

1.音量強度曲線2.基頻軌跡曲線3.梅爾倒頻譜參數

1.音量強度曲線2.基頻軌跡曲線3.梅爾倒頻譜參數

測試語音 特徵參數正規化

特徵參數正規化

評分機制相似程度 評分

24清大多媒體資訊檢索實驗室 李俊毅 Owen@wayne.cs.nthu.edu.tw

圖樣比對設計圖樣比對設計 -- 音量強度曲線音量強度曲線 音量強度曲線比對流程圖

v2 new_v2 (距離 dist1)

v1標準語音之音量強度曲線設為v2測試語音之音量強度曲線設為

A.Interpolation v1成 的長度B. v1 Linear Scaling以 為準做

v1 v2以 為基準調整v1

算距離

差異程度

25清大多媒體資訊檢索實驗室 李俊毅 Owen@wayne.cs.nthu.edu.tw

圖樣比對設計圖樣比對設計 -- 基頻軌跡基頻軌跡基頻軌跡比對流程圖

v2 new_v2 (距離 dist2)

v1標準語音之基頻軌跡設為v2測試語音之基頻軌跡設為

A.Interpolation v1成 的長度B. v1 Linear Shifting以 為準做

v1 v2以 為基準調整v1

算距離

差異程度

26清大多媒體資訊檢索實驗室 李俊毅 Owen@wayne.cs.nthu.edu.tw

圖樣比對設計圖樣比對設計 -- 梅爾倒頻譜參數梅爾倒頻譜參數梅爾倒頻譜參數比對流程圖

v2 new_v2

v1標準語音之梅爾倒頻譜參數設為v2測試語音之梅爾倒頻譜參數設為

Cepstral Mean Subtraction 算距離

v1 new_v1Cepstral Mean Subtraction

Dynamic Time Warping

(距離 dist3)

差異程度

27清大多媒體資訊檢索實驗室 李俊毅 Owen@wayne.cs.nthu.edu.tw

相似度比對:相似度比對: Dynamic Time Warping Dynamic Time Warping

提供一個具有更大彈性的相似度比對法

)()()2,1()1,2()1,1(

min),( jRiTjidjidjid

jid

測試語音特徵向量T

標準語音特徵向量

R

d(i–1, j–2)

d(i–1, j–1)

d(i, j)

d(i–2, j–1)

28清大多媒體資訊檢索實驗室 李俊毅 Owen@wayne.cs.nthu.edu.tw

DTWDTW 例子例子 -- 基頻軌跡基頻軌跡

29清大多媒體資訊檢索實驗室 李俊毅 Owen@wayne.cs.nthu.edu.tw

系統流程圖系統流程圖 -- 評分機制評分機制評分機制特徵擷取 特徵參數

圖樣比對PatternMatching

標準語音 特徵擷取 特徵參數

1.音量強度曲線2.基頻軌跡曲線3.梅爾倒頻譜參數

1.音量強度曲線2.基頻軌跡曲線3.梅爾倒頻譜參數

測試語音 特徵參數正規化

特徵參數正規化

評分機制相似程度 評分

30清大多媒體資訊檢索實驗室 李俊毅 Owen@wayne.cs.nthu.edu.tw

評分機制的設定評分機制的設定 -1-1

評分公式

• Ex. score=60,dist=6; score=90,dist=5 即可求得 a,b

0,,)(1

100

ba

distascore b     

5 5.1 5.2 5.3 5.4 5.5 5.6 5.7 5.8 5.9 660

70

80

90

3 3.5 4 4.5 5 5.5 6 6.5 7 7.5 80

50

100

31清大多媒體資訊檢索實驗室 李俊毅 Owen@wayne.cs.nthu.edu.tw

評分機制的設定評分機制的設定 -2-2

距離轉分數公式

• 音量強度曲線的距離• 基頻軌跡的距離• MFCC 的距離

321 )(1100

)(1100

)(1100

333

222

111 bbb dista

wdista

wdista

wscore

1dist

2dist

3dist

1,0,,,,, 321321321 wwwbbbaaa  

32清大多媒體資訊檢索實驗室 李俊毅 Owen@wayne.cs.nthu.edu.tw

評分機制的設定評分機制的設定 -3-3

實驗標準語音

• CNN 互動英語 10 句測試語音

• 實驗室同學錄音,總共 320 句

33清大多媒體資訊檢索實驗室 李俊毅 Owen@wayne.cs.nthu.edu.tw

評分機制的設定評分機制的設定 -4-4

正確                 錯誤

使用 Simplex downhill search 可找出不錯的             組合 經由實驗得到

9090...9090

3,3202,3201,320

3,22,21,2

3,12,11,1

distdistdist

distdistdistdistdistdist

3030...3030

3,320'

2,320'

1,320'

3,2'

2,2'

1,2'

3,1'

2,1'

1,1'

distdistdist

distdistdistdistdistdist

321321321 ,,,,,,,, wwwbbbaaa

%8.74%,7.16%,5.8 321 www

34清大多媒體資訊檢索實驗室 李俊毅 Owen@wayne.cs.nthu.edu.tw

英文語音評分系統 Demo

35清大多媒體資訊檢索實驗室 李俊毅 Owen@wayne.cs.nthu.edu.tw

Part 2 利用 HMM 及音高資料的評分

36清大多媒體資訊檢索實驗室 李俊毅 Owen@wayne.cs.nthu.edu.tw

利用利用 HMMHMM 及音高資料的評分及音高資料的評分 -- 系統流程系統流程系統流程圖

特徵擷取 特徵參數 語音訊號的切割

39維的梅爾倒頻譜參數

語音訊號 單音節

Viterbi Decoding

每一音節皆經以下步驟

語音辨識 音節排名

聲調辨識 聲調排名

評分評分機制

37清大多媒體資訊檢索實驗室 李俊毅 Owen@wayne.cs.nthu.edu.tw

利用利用 HMMHMM 及音高資料的評分及音高資料的評分 -- 特徵參數特徵參數評分所採用的特徵

聲音 (HMM)• 梅爾倒頻譜參數 (MFCC)

聲調 ( 音高 )• Orthogonal Expansion 的 4 個係數• Chebyshev Polynomial Fitting 的 6 個係數

38清大多媒體資訊檢索實驗室 李俊毅 Owen@wayne.cs.nthu.edu.tw

語音訊號的切割語音訊號的切割Viterbi Decoding在已知語音訊號內容的情況下,解出最佳的語音訊號狀態序列

Net 為這句語音訊號內容的所有可能音節排列• 例如:黃河入海流• Path 1: !NULL- 黃 - 河 - 入 - 海 - 流 -!NULL• Path 2: !NULL- 黃 - 河 - 入 - 海 -!NULL• Path 3: !NULL- 黃 - 河 - 入 -!NULL• Path 4: !NULL- 入 - 海 - 流 -!NULL• ….

39清大多媒體資訊檢索實驗室 李俊毅 Owen@wayne.cs.nthu.edu.tw

語音訊號的切割語音訊號的切割 --Viterbi DecodingViterbi Decoding 示意圖示意圖

向 晚 意 不 適Viterbi Decoding -----------------------------------------------

40清大多媒體資訊檢索實驗室 李俊毅 Owen@wayne.cs.nthu.edu.tw

利用利用 HMMHMM 的評分的評分HMM 的評分方式

建立 415 個單音節的 Net• !NULL-huaG-!NULL• !NULL-hr-!NULL• !NULL-Ru-!NULL• …對每個 Net作 Viterbi Search ,找出每個 Net 的最大 Log

Probability對 Log Probability 排序

41清大多媒體資訊檢索實驗室 李俊毅 Owen@wayne.cs.nthu.edu.tw

Log ProbabilityLog Probability 分佈圖分佈圖 (( 一一 ))

1.Log Probability 越大,代表…2. 分佈斜率,代表…

415 個音節

42清大多媒體資訊檢索實驗室 李俊毅 Owen@wayne.cs.nthu.edu.tw

Log ProbabilityLog Probability 分佈圖分佈圖 (( 二二 ))

前 10名個音節

43清大多媒體資訊檢索實驗室 李俊毅 Owen@wayne.cs.nthu.edu.tw

評分機制評分機制排名在 201名之後者,評為 20 分第 1名到第 200名依比率評分,區間為 [100,20]

前 200名的音節

44清大多媒體資訊檢索實驗室 李俊毅 Owen@wayne.cs.nthu.edu.tw

評分機制示意圖評分機制示意圖排名在 201名之後者,評為 20 分第 1名到第 200名依比率評分,區間為 [100,20]

前 200名的音節

45清大多媒體資訊檢索實驗室 李俊毅 Owen@wayne.cs.nthu.edu.tw

利用利用 HMMHMM 的評分的評分 ~~ 示意圖示意圖示意圖

向 晚 意 不 適Viterbi Decoding -----------------------------------------------

正確答案 siaG uaN i bu Sy

Recognizer ------------------------------------------------------

評分機制 95 92 86 90 72

46清大多媒體資訊檢索實驗室 李俊毅 Owen@wayne.cs.nthu.edu.tw

利用音高資料的評分利用音高資料的評分音高資料的評分方式

對每個字求取 Pitch Contour將 Pitch Contour 轉成特徵向量比對 Tone Models,判斷這個字是第幾聲的以字為評分依據 •Ex.月落烏啼霜滿天

–正確: 4 4 1 2 1 3 1–結果: 4 1 1 2 1 3 1–    O × OOOOO

47清大多媒體資訊檢索實驗室 李俊毅 Owen@wayne.cs.nthu.edu.tw

利用音高資料的評分利用音高資料的評分 ~~ 示意圖示意圖示意圖

向 晚 意 不 適Viterbi Decoding -----------------------------------------------

正確答案 ˋ ˇ ˋ ˊ ˋ

Tone Recognizer -----------------------------------------------

辨識結果 ˋ ˇ ˋ ˊ ˋ

48清大多媒體資訊檢索實驗室 李俊毅 Owen@wayne.cs.nthu.edu.tw

唐詩語音評分系統 Demo

49清大多媒體資訊檢索實驗室 李俊毅 Owen@wayne.cs.nthu.edu.tw

結論結論利用標準語音資料的評分

音量強度曲線: 8.5%基頻軌跡: 16.7%梅爾倒頻譜參數: 74.8%利用 HMM 及音高資料的評分HMM :聲音音高:聲調

50清大多媒體資訊檢索實驗室 李俊毅 Owen@wayne.cs.nthu.edu.tw

未來展望未來展望運用語音評分於以下系統利用標準語音資料的評分

• 語言學習系統• 行動 KTV 評分系統利用 HMM 及音高資料的評分• 國語正音系統• 語料收集系統比較其它可能用來評分的特徵尋找其它更合理的評分機制