狭帯域包絡線間相関を用いた 話者識別における帯域と識別率の検討...
-
Upload
freya-house -
Category
Documents
-
view
45 -
download
0
description
Transcript of 狭帯域包絡線間相関を用いた 話者識別における帯域と識別率の検討...
狭帯域包絡線間相関を用いた話者識別における帯域と識別率の検討
小橋川美共,末廣一美,髙岡創,高山泰典(日本文理大学)西村一行(千葉工業大学 ),福島学,岡本壽夫(日本文理大学)
柳川博文(千葉工業大学 )
)()()( tctetv
20 40 60 80 100 120-1-0.5
00.51
20 40 60 80 100 120
20 40 60 80 100 120
-1-0.5
00.51
-1-0.5
00.51
)(tvb
)(tcb
)(teb
)(
)(
)( 2
1
tc
tc
tc
)(
)(
)( 2
1
te
te
te
time (s)
amp.
(dB)
amp.
(dB)
amp.
(dB)
狭帯域包絡線間相関を用いた話者識別
021cc
021ee
1/4 Oct. 分割した音声時間波形)()(
)( nbbb hvnvn
ヒルベルト包絡
))((_)( nvenvhilbertne bb
)/)((log20)( max10 enend bb dB 変換
)(ndb :- 30dB で打切り
maxe : の最大値
)(neb
1
02121
21
21)()(
1 N
nbbbb
dddd ddndnd
bb
bb
狭帯域包絡線間相関係数
処理の流れ
狭帯域包絡線間相関行列
39,3939,239,1
2,22,1
1,391,21,1
AXXA max識別候補: の最
大値 XA
帯域を制限 → 正解率の変化を調べる
正解率=識別候補が本人となった回数 / 識別条件数
VN’ N NYMMYSSHHHYF Z J K KYT TSP PYCHGGYDDYBBYRYY R W Q -
o
e
u
i
a
Consonant
Vow
el
N Fl Fv Sl Sv Ca
11 0 11 11 0 0 22 11 11 11 0 1 10 8 8 3 10 5 0
27
0 11 15 10
77 0 0 11 0 11 0 0 8 22 10 12 8 0 9 9
0 03 3
22 22 0 0 22 0 031 19 35 2 1 17 11
08
1111
0 0 11 1111 20 0 8
11 0 0 11 0 19 21 0
11 0
11 9
0 11 0 014 26 9 2
3368
11 2711 11
登録語と識別語の音素分布 V : Vowel 母音
N : Naal 鼻音Fl : Fricative voiceless
摩擦音(無声)Fv : Fricative voiced
摩擦音(有声)Sl : Stop voiceless
閉鎖音(無声)Sv : Stop voiced
閉鎖音(有声)Ca : Central approximant 中央近接音Q : Geminate consonant 促音-: Long vowel
長音
+:登録語(個数は上段の数)× :識別語(個数は下段の数)
帯域増加と平均正解率
5 10 15 20 25 30 350.1
0.2
0.3
0.4
0.5
0.6
0.7
0.8
0.9
1
Last band number
C
6
14
2231
帯域番号6~14,22~31
帯域減少と平均正解率
5 10 15 20 25 30 350.1
0.2
0.3
0.4
0.5
0.6
0.7
0.8
0.9
1
first band number
C 614
22 31
帯域番号6~14,22~31
約 3 % 約7%
0.7
0.75
0.8
0.85
0.9
0.95
1
1-39 6-31 6-14 22-31
全 39 帯域を使用した正解率の比較
88.3% 85.9% 82.5%
C
band number
The first formant F(kHz)
The
sec
ond
form
ant
F(k
Hz)
0.6
0.8
1.0
1.41.5
1.82.02.22.5
3.0
3.84.0
3.4
0.2 0.5 1.41.0
/e/
/i/
/u/
/o/
/a/
第 2 フォルマント周波数
600Hz ~ 4000Hz( 帯域番号 18 ~ 30)
調査結果の検討(高い周波数範囲の検討)帯域番号 22 ~ 31 ( 1091Hz ~ 5187Hz )
frontal sinusmaxillary
sinussphenoidal
sinus
副鼻腔共振周波数3103 ~ 5398Hz( 帯域番号 28 ~31)
声帯音源基本周波数成人男性: 100 ~ 150Hz成人女性: 250 ~ 300Hz ( 帯域番号 6 ~ 14)
調査結果の検討(高い周波数範囲の検討)帯域番号 22 ~ 31 ( 1091Hz ~ 5187Hz )
鼻腔概略図・声帯音源基本周波数
0.5
0.55
0.6
0.65
0.7
0.75
0.8
0.85
0.9
0.95
1
All A E K M N SA SB SC TA TB YTalker
All
Band No.
+ 1-39
× 6-31
□ 6-14
22-31
CA
データによるばらつきの検討
識別語に共通性
0 0.2 0.4 0.6 0.8 1-15
-10
-5
0
am
plit
ud
e (
dB
)
0 0.2 0.4 0.6 0.8 1-15
-10
-5
0
am
plit
ud
e
(dB
)
time (s)
ne n'
mimo n'
161ms 139ms
95ms
93ms 61ms
正解率が高い識別語 ( ネットサーフィン:上段 )
正解率が低い識別語 ( 水戸黄門:下段 )鼻音の継続時間
声帯音源基本周波数 成人男性: 100 ~ 150Hz 成人女性: 250 ~ 300Hz 帯域番号 6 ~ 14 → 声帯音源第 2 フォルマント周波数 600Hz ~ 4000Hz
帯域番号 18 ~ 30 → 第 2 フォルマント副鼻腔共振周波数前頭洞: 3103 ~ 5398Hz 帯域番号 28 ~ 31 → 副鼻腔形状
個人のばらつきは継続時間に関連
まとめ
BandNo.
Center Freq.(Hz)
BandNo.
Center Freq.(Hz)
1 28.9 21 9172 34.4 22 1090.53 40.9 23 1296.84 48.6 24 1542.25 57.3 25 18346 68.1 26 21817 81 27 2593.78 96.3 28 3084.49 114.6 29 366810 136.3 30 436211 162.1 31 5187.412 192.7 32 6168.813 229.2 33 733614 272.6 34 8724.115 324.2 35 1037516 385.5 36 1233817 458.5 37 1467218 545.2 38 1744819 648.4 39 2074920 771.1
1/4 オクターブバンドの中心周波数
1/4 オクターブバンド狭帯域フィルタ
102
103
104-40
-35
-30
-25
-20
-15
-10
-5
0
Freq. (Hz)
Am
plit
ud
e (
dB
)
周波数分解:21.5Hzフィルタ長:約46ms
音声の狭帯域包絡線を 100ms で区切る
⇒声帯音源波 約 4 周期が対象
狭帯域フィルタ: FIR フィルタ長さ: 2048 サンプル
: 44100Hz fs
1
0
)()()(M
pbb phpnvnv
: b 帯域の音声時間波形 :狭帯域フィルタb :帯域番号n :離散時刻に相当するサンプル番号M :狭帯域フィルタの長さ
)(nhb
)(nvb
0 5 10 15 20 25 30 35 40-0.4
-0.2
0
0.2
0.4
0.6
0.8
1
frontal sinusmaxillary sinus sphenoidal
sinus
図 8 鼻腔概略図
1
02121
21
21)()(
1 N
nbbbb
dddd ddndnd
bb
bb
狭帯域包絡線間相関係数
x : x の分散 X : X の平均
xdN : の長さに相当するサンプル番号