語音評分 Speech Evaluation
description
Transcript of 語音評分 Speech Evaluation
1
語音評分語音評分Speech EvaluationSpeech Evaluation
學生:李俊毅指導教授:張智星2002/6/11
2清大多媒體資訊檢索實驗室 李俊毅 [email protected]
大綱大綱利用標準語音資料的評分
英文語音評分系統 Demo利用 HMM 及音高資料的評分唐詩語音評分系統 Demo結論
未來展望
3清大多媒體資訊檢索實驗室 李俊毅 [email protected]
概述概述利用標準語音資料的評分利用 HMM 及音高資料的評分
4清大多媒體資訊檢索實驗室 李俊毅 [email protected]
利用標準語音資料的評分利用標準語音資料的評分 -- 概述概述標準語音
測試語音I can line up an interview with Tom Cruise.
我可以安排一場湯姆‧克魯斯的專訪
5清大多媒體資訊檢索實驗室 李俊毅 [email protected]
利用利用 HMMHMM 及音高資料的評分及音高資料的評分 -- 概述概述測試語音
夕 陽 無 限 好聲音 si iaG u sieN hau
聲調 ˋ ˊ ˊ ˋ ˇ
6清大多媒體資訊檢索實驗室 李俊毅 [email protected]
Part 1 利用標準語音資料的評分
7清大多媒體資訊檢索實驗室 李俊毅 [email protected]
利用標準語音資料的評分利用標準語音資料的評分 -- 系統流程系統流程系統流程圖特徵擷取 特徵參數
圖樣比對PatternMatching
標準語音 特徵擷取 特徵參數
1.音量強度曲線2.基頻軌跡曲線3.梅爾倒頻譜參數
1.音量強度曲線2.基頻軌跡曲線3.梅爾倒頻譜參數
測試語音 特徵參數正規化
特徵參數正規化
評分機制相似程度 評分
8清大多媒體資訊檢索實驗室 李俊毅 [email protected]
系統流程圖系統流程圖 -- 特徵擷取特徵擷取特徵擷取特徵擷取 特徵參數
圖樣比對PatternMatching
標準語音 特徵擷取 特徵參數
1.音量強度曲線2.基頻軌跡曲線3.梅爾倒頻譜參數
1.音量強度曲線2.基頻軌跡曲線3.梅爾倒頻譜參數
測試語音 特徵參數正規化
特徵參數正規化
評分機制相似程度 評分
9清大多媒體資訊檢索實驗室 李俊毅 [email protected]
利用標準語音資料的評分利用標準語音資料的評分 -- 特徵參數特徵參數評分所採用的特徵
音量強度曲線 (Magnitude)基頻軌跡 (Pitch Contour)梅爾倒頻譜參數 (Mel-Frequency Cepstral Coefficients)
10清大多媒體資訊檢索實驗室 李俊毅 [email protected]
音量強度曲線音量強度曲線 ((Magnitude)Magnitude) 示意圖示意圖
11清大多媒體資訊檢索實驗室 李俊毅 [email protected]
音量強度曲線音量強度曲線 ((Magnitude)Magnitude)
代表音量強弱變化趨勢求取公式:
1,...,1,0,)(1)(1
0
NnmSM
naveMagM
mn
12清大多媒體資訊檢索實驗室 李俊毅 [email protected]
基頻軌跡曲線基頻軌跡曲線 ((Pitch Contour)Pitch Contour) 示意圖示意圖
13清大多媒體資訊檢索實驗室 李俊毅 [email protected]
基頻軌跡曲線基頻軌跡曲線 ((Pitch Contour)Pitch Contour)
代表音高變化趨勢擷取流程
語音訊號 低通濾波器 音框化
Local Minima找AMDF演算 High Cliping
每一音框皆經以下步驟
計算基頻
14清大多媒體資訊檢索實驗室 李俊毅 [email protected]
梅爾倒頻譜參數梅爾倒頻譜參數 (MFCC)(MFCC)
代表聲音的內容擷取流程語音訊號 預強調 音框化
傅利葉轉換
餘弦轉換 MFCC
漢明窗 三角帶通濾波器
每一音框皆經以下步驟
15清大多媒體資訊檢索實驗室 李俊毅 [email protected]
語者正規化語者正規化 --VTLNVTLN
Vocal Tract Length Normalization原理利用第三共振峰 (F3) 頻率較不易變動的特性,藉以調整測試語音的線性頻率尺度正規化係數 定義為參考語音平均 F3值除以測試語音平均 F3值有了正規化係數之後就可以用下式來調整測試語音的頻率尺度:
FFN
16清大多媒體資訊檢索實驗室 李俊毅 [email protected]
梅爾倒頻譜參數梅爾倒頻譜參數 (MFCC)(MFCC)
代表聲音的內容擷取流程
語音訊號 預強調 音框化
傅利葉轉換
餘弦轉換 MFCC
漢明窗 三角帶通濾波器
每一音框皆經以下步驟
17清大多媒體資訊檢索實驗室 李俊毅 [email protected]
系統流程圖系統流程圖 -- 特徵參數正規化特徵參數正規化特徵參數正規化特徵擷取 特徵參數
圖樣比對PatternMatching
標準語音 特徵擷取 特徵參數
1.音量強度曲線2.基頻軌跡曲線3.梅爾倒頻譜參數
1.音量強度曲線2.基頻軌跡曲線3.梅爾倒頻譜參數
測試語音 特徵參數正規化
特徵參數正規化
評分機制相似程度 評分
18清大多媒體資訊檢索實驗室 李俊毅 [email protected]
特徵參數正規化特徵參數正規化解決特徵參數長短不一的方法
Interpolation解決麥克風差異的方法Linear Scaling解決個人音高差異的方法Linear Shifting解決通道效應的方法Cepstral Mean Subtraction
19清大多媒體資訊檢索實驗室 李俊毅 [email protected]
解決特徵參數長短不一解決特徵參數長短不一 --InterpolationInterpolation
一維內差法,將特徵參數的長度調成一樣
20清大多媒體資訊檢索實驗室 李俊毅 [email protected]
解決麥克風差異性解決麥克風差異性 - - Linear ScalingLinear Scaling
Linear Scaling假設不同麥克風對音量強度的影響存在一個倍數的關係
• 使用 Least-squares estimator 我們可以得知• =>
)1(...
)1()0(
)(
2
2
2
2
NaveMag
aveMagaveMag
naveMagA
)1(...
)1()0(
)(
1
1
1
1
NaveMag
aveMagaveMag
naveMagy
yeA
yAAA TT 1)(
21清大多媒體資訊檢索實驗室 李俊毅 [email protected]
解決個人音高差異性解決個人音高差異性 - - Linear ShiftingLinear Shifting
Linear Shifting將兩段基頻軌跡的平均值調成一樣公式:
1
01
1
0222 )(1)(1)()(ˆ
N
k
N
k
kfN
kfN
xfxf
22清大多媒體資訊檢索實驗室 李俊毅 [email protected]
解決通道效應的方法解決通道效應的方法 --CMSCMS
Cepstral Mean Subtraction通道效應補償公式:
T
tc
cc
tyT
b
btytx
1
)(1)()(~
1 2 3 4 5 … 12
1
2
3
…
N
b1 b2
23清大多媒體資訊檢索實驗室 李俊毅 [email protected]
系統流程圖系統流程圖 -- 圖樣比對設計圖樣比對設計圖樣比對設計特徵擷取 特徵參數
圖樣比對PatternMatching
標準語音 特徵擷取 特徵參數
1.音量強度曲線2.基頻軌跡曲線3.梅爾倒頻譜參數
1.音量強度曲線2.基頻軌跡曲線3.梅爾倒頻譜參數
測試語音 特徵參數正規化
特徵參數正規化
評分機制相似程度 評分
24清大多媒體資訊檢索實驗室 李俊毅 [email protected]
圖樣比對設計圖樣比對設計 -- 音量強度曲線音量強度曲線 音量強度曲線比對流程圖
v2 new_v2 (距離 dist1)
v1標準語音之音量強度曲線設為v2測試語音之音量強度曲線設為
A.Interpolation v1成 的長度B. v1 Linear Scaling以 為準做
v1 v2以 為基準調整v1
算距離
差異程度
25清大多媒體資訊檢索實驗室 李俊毅 [email protected]
圖樣比對設計圖樣比對設計 -- 基頻軌跡基頻軌跡基頻軌跡比對流程圖
v2 new_v2 (距離 dist2)
v1標準語音之基頻軌跡設為v2測試語音之基頻軌跡設為
A.Interpolation v1成 的長度B. v1 Linear Shifting以 為準做
v1 v2以 為基準調整v1
算距離
差異程度
26清大多媒體資訊檢索實驗室 李俊毅 [email protected]
圖樣比對設計圖樣比對設計 -- 梅爾倒頻譜參數梅爾倒頻譜參數梅爾倒頻譜參數比對流程圖
v2 new_v2
v1標準語音之梅爾倒頻譜參數設為v2測試語音之梅爾倒頻譜參數設為
Cepstral Mean Subtraction 算距離
v1 new_v1Cepstral Mean Subtraction
Dynamic Time Warping
(距離 dist3)
差異程度
27清大多媒體資訊檢索實驗室 李俊毅 [email protected]
相似度比對:相似度比對: Dynamic Time Warping Dynamic Time Warping
提供一個具有更大彈性的相似度比對法
)()()2,1()1,2()1,1(
min),( jRiTjidjidjid
jid
測試語音特徵向量T
標準語音特徵向量
R
d(i–1, j–2)
d(i–1, j–1)
d(i, j)
d(i–2, j–1)
28清大多媒體資訊檢索實驗室 李俊毅 [email protected]
DTWDTW 例子例子 -- 基頻軌跡基頻軌跡
29清大多媒體資訊檢索實驗室 李俊毅 [email protected]
系統流程圖系統流程圖 -- 評分機制評分機制評分機制特徵擷取 特徵參數
圖樣比對PatternMatching
標準語音 特徵擷取 特徵參數
1.音量強度曲線2.基頻軌跡曲線3.梅爾倒頻譜參數
1.音量強度曲線2.基頻軌跡曲線3.梅爾倒頻譜參數
測試語音 特徵參數正規化
特徵參數正規化
評分機制相似程度 評分
30清大多媒體資訊檢索實驗室 李俊毅 [email protected]
評分機制的設定評分機制的設定 -1-1
評分公式
• Ex. score=60,dist=6; score=90,dist=5 即可求得 a,b
0,,)(1
100
ba
distascore b
5 5.1 5.2 5.3 5.4 5.5 5.6 5.7 5.8 5.9 660
70
80
90
3 3.5 4 4.5 5 5.5 6 6.5 7 7.5 80
50
100
31清大多媒體資訊檢索實驗室 李俊毅 [email protected]
評分機制的設定評分機制的設定 -2-2
距離轉分數公式
• 音量強度曲線的距離• 基頻軌跡的距離• MFCC 的距離
321 )(1100
)(1100
)(1100
333
222
111 bbb dista
wdista
wdista
wscore
1dist
2dist
3dist
1,0,,,,, 321321321 wwwbbbaaa
32清大多媒體資訊檢索實驗室 李俊毅 [email protected]
評分機制的設定評分機制的設定 -3-3
實驗標準語音
• CNN 互動英語 10 句測試語音
• 實驗室同學錄音,總共 320 句
33清大多媒體資訊檢索實驗室 李俊毅 [email protected]
評分機制的設定評分機制的設定 -4-4
正確 錯誤
使用 Simplex downhill search 可找出不錯的 組合 經由實驗得到
9090...9090
3,3202,3201,320
3,22,21,2
3,12,11,1
distdistdist
distdistdistdistdistdist
3030...3030
3,320'
2,320'
1,320'
3,2'
2,2'
1,2'
3,1'
2,1'
1,1'
distdistdist
distdistdistdistdistdist
321321321 ,,,,,,,, wwwbbbaaa
%8.74%,7.16%,5.8 321 www
34清大多媒體資訊檢索實驗室 李俊毅 [email protected]
英文語音評分系統 Demo
35清大多媒體資訊檢索實驗室 李俊毅 [email protected]
Part 2 利用 HMM 及音高資料的評分
36清大多媒體資訊檢索實驗室 李俊毅 [email protected]
利用利用 HMMHMM 及音高資料的評分及音高資料的評分 -- 系統流程系統流程系統流程圖
特徵擷取 特徵參數 語音訊號的切割
39維的梅爾倒頻譜參數
語音訊號 單音節
Viterbi Decoding
每一音節皆經以下步驟
語音辨識 音節排名
聲調辨識 聲調排名
評分評分機制
37清大多媒體資訊檢索實驗室 李俊毅 [email protected]
利用利用 HMMHMM 及音高資料的評分及音高資料的評分 -- 特徵參數特徵參數評分所採用的特徵
聲音 (HMM)• 梅爾倒頻譜參數 (MFCC)
聲調 ( 音高 )• Orthogonal Expansion 的 4 個係數• Chebyshev Polynomial Fitting 的 6 個係數
38清大多媒體資訊檢索實驗室 李俊毅 [email protected]
語音訊號的切割語音訊號的切割Viterbi Decoding在已知語音訊號內容的情況下,解出最佳的語音訊號狀態序列
Net 為這句語音訊號內容的所有可能音節排列• 例如:黃河入海流• Path 1: !NULL- 黃 - 河 - 入 - 海 - 流 -!NULL• Path 2: !NULL- 黃 - 河 - 入 - 海 -!NULL• Path 3: !NULL- 黃 - 河 - 入 -!NULL• Path 4: !NULL- 入 - 海 - 流 -!NULL• ….
39清大多媒體資訊檢索實驗室 李俊毅 [email protected]
語音訊號的切割語音訊號的切割 --Viterbi DecodingViterbi Decoding 示意圖示意圖
向 晚 意 不 適Viterbi Decoding -----------------------------------------------
40清大多媒體資訊檢索實驗室 李俊毅 [email protected]
利用利用 HMMHMM 的評分的評分HMM 的評分方式
建立 415 個單音節的 Net• !NULL-huaG-!NULL• !NULL-hr-!NULL• !NULL-Ru-!NULL• …對每個 Net作 Viterbi Search ,找出每個 Net 的最大 Log
Probability對 Log Probability 排序
41清大多媒體資訊檢索實驗室 李俊毅 [email protected]
Log ProbabilityLog Probability 分佈圖分佈圖 (( 一一 ))
1.Log Probability 越大,代表…2. 分佈斜率,代表…
415 個音節
43清大多媒體資訊檢索實驗室 李俊毅 [email protected]
評分機制評分機制排名在 201名之後者,評為 20 分第 1名到第 200名依比率評分,區間為 [100,20]
前 200名的音節
44清大多媒體資訊檢索實驗室 李俊毅 [email protected]
評分機制示意圖評分機制示意圖排名在 201名之後者,評為 20 分第 1名到第 200名依比率評分,區間為 [100,20]
前 200名的音節
45清大多媒體資訊檢索實驗室 李俊毅 [email protected]
利用利用 HMMHMM 的評分的評分 ~~ 示意圖示意圖示意圖
向 晚 意 不 適Viterbi Decoding -----------------------------------------------
正確答案 siaG uaN i bu Sy
Recognizer ------------------------------------------------------
評分機制 95 92 86 90 72
46清大多媒體資訊檢索實驗室 李俊毅 [email protected]
利用音高資料的評分利用音高資料的評分音高資料的評分方式
對每個字求取 Pitch Contour將 Pitch Contour 轉成特徵向量比對 Tone Models,判斷這個字是第幾聲的以字為評分依據 •Ex.月落烏啼霜滿天
–正確: 4 4 1 2 1 3 1–結果: 4 1 1 2 1 3 1– O × OOOOO
47清大多媒體資訊檢索實驗室 李俊毅 [email protected]
利用音高資料的評分利用音高資料的評分 ~~ 示意圖示意圖示意圖
向 晚 意 不 適Viterbi Decoding -----------------------------------------------
正確答案 ˋ ˇ ˋ ˊ ˋ
Tone Recognizer -----------------------------------------------
辨識結果 ˋ ˇ ˋ ˊ ˋ
48清大多媒體資訊檢索實驗室 李俊毅 [email protected]
唐詩語音評分系統 Demo
49清大多媒體資訊檢索實驗室 李俊毅 [email protected]
結論結論利用標準語音資料的評分
音量強度曲線: 8.5%基頻軌跡: 16.7%梅爾倒頻譜參數: 74.8%利用 HMM 及音高資料的評分HMM :聲音音高:聲調
50清大多媒體資訊檢索實驗室 李俊毅 [email protected]
未來展望未來展望運用語音評分於以下系統利用標準語音資料的評分
• 語言學習系統• 行動 KTV 評分系統利用 HMM 及音高資料的評分• 國語正音系統• 語料收集系統比較其它可能用來評分的特徵尋找其它更合理的評分機制