狭帯域包絡線間相関を用いた 話者識別における帯域と識別率の検討...

20
狭狭狭狭狭狭狭狭狭狭狭狭狭 狭狭狭狭狭狭狭狭狭狭狭狭狭狭狭狭狭 狭狭狭狭狭 狭狭狭 狭狭 狭狭狭狭 狭狭狭狭狭 狭狭狭狭狭狭狭 ,一,,() 狭狭狭狭狭狭 狭狭狭狭 狭狭狭狭狭 狭狭狭狭狭狭狭 西一( ), ,() 狭狭狭狭 狭狭狭狭狭狭

description

狭帯域包絡線間相関を用いた 話者識別における帯域と識別率の検討 小橋川美共,末廣一美,髙岡創,高山泰典(日本文理大学) 西村一行(千葉工業大学 ),福島学,岡本壽夫(日本文理大学) 柳川博文(千葉工業大学 ). 狭帯域包絡線間相関を用いた話者識別. amp.(dB). 1. 0.5. 0. -0.5. -1. 20. 40. 60. 80. 100. 120. amp.(dB). 1. 0.5. 0. -0.5. -1. 20. 40. 60. 80. 100. 120. amp.(dB). 1. 0.5. 0. -0.5. - PowerPoint PPT Presentation

Transcript of 狭帯域包絡線間相関を用いた 話者識別における帯域と識別率の検討...

Page 1: 狭帯域包絡線間相関を用いた 話者識別における帯域と識別率の検討 小橋川美共,末廣一美,髙岡創,高山泰典(日本文理大学) 西村一行(千葉工業大学

狭帯域包絡線間相関を用いた話者識別における帯域と識別率の検討

小橋川美共,末廣一美,髙岡創,高山泰典(日本文理大学)西村一行(千葉工業大学 ),福島学,岡本壽夫(日本文理大学)

柳川博文(千葉工業大学 )

Page 2: 狭帯域包絡線間相関を用いた 話者識別における帯域と識別率の検討 小橋川美共,末廣一美,髙岡創,高山泰典(日本文理大学) 西村一行(千葉工業大学

)()()( tctetv

20 40 60 80 100 120-1-0.5

00.51

20 40 60 80 100 120

20 40 60 80 100 120

-1-0.5

00.51

-1-0.5

00.51

)(tvb

)(tcb

)(teb

 

)(

)(

)( 2

1

tc

tc

tc

 

)(

)(

)( 2

1

te

te

te

time (s)

amp.

(dB)

amp.

(dB)

amp.

(dB)

狭帯域包絡線間相関を用いた話者識別

021cc

021ee

Page 3: 狭帯域包絡線間相関を用いた 話者識別における帯域と識別率の検討 小橋川美共,末廣一美,髙岡創,高山泰典(日本文理大学) 西村一行(千葉工業大学

1/4 Oct. 分割した音声時間波形)()(

)( nbbb hvnvn

ヒルベルト包絡

))((_)( nvenvhilbertne bb

)/)((log20)( max10 enend bb dB 変換

)(ndb :- 30dB で打切り

maxe :    の最大値

)(neb

1

02121

21

21)()(

1 N

nbbbb

dddd ddndnd

bb

bb 

狭帯域包絡線間相関係数

処理の流れ

Page 4: 狭帯域包絡線間相関を用いた 話者識別における帯域と識別率の検討 小橋川美共,末廣一美,髙岡創,高山泰典(日本文理大学) 西村一行(千葉工業大学

狭帯域包絡線間相関行列

39,3939,239,1

2,22,1

1,391,21,1

AXXA max識別候補:   の最

大値   XA

帯域を制限  → 正解率の変化を調べる

正解率=識別候補が本人となった回数 / 識別条件数

Page 5: 狭帯域包絡線間相関を用いた 話者識別における帯域と識別率の検討 小橋川美共,末廣一美,髙岡創,高山泰典(日本文理大学) 西村一行(千葉工業大学

VN’ N NYMMYSSHHHYF Z J K KYT TSP PYCHGGYDDYBBYRYY R W Q -

o

e

u

i

a

Consonant

Vow

el

N Fl Fv Sl Sv Ca

11 0 11 11 0 0 22 11 11 11 0 1 10   8      8 3 10 5 0

27

0 11 15 10

77 0 0 11 0 11 0 0 8 22 10 12 8 0 9 9

0 03 3

22 22 0 0 22 0   031 19 35 2 1 17   11

08

1111

0 0   11   1111 20 0      8

11 0   0 11 0 19 21 0

11 0

11 9

0   11   0   014 26 9 2

3368

11     2711     11

登録語と識別語の音素分布 V : Vowel 母音

N : Naal 鼻音Fl : Fricative voiceless

摩擦音(無声)Fv : Fricative voiced

 摩擦音(有声)Sl : Stop voiceless

 閉鎖音(無声)Sv : Stop voiced

 閉鎖音(有声)Ca : Central      approximant       中央近接音Q : Geminate      consonant            促音-: Long vowel

 長音

+:登録語(個数は上段の数)× :識別語(個数は下段の数)

Page 6: 狭帯域包絡線間相関を用いた 話者識別における帯域と識別率の検討 小橋川美共,末廣一美,髙岡創,高山泰典(日本文理大学) 西村一行(千葉工業大学

帯域増加と平均正解率

5 10 15 20 25 30 350.1

0.2

0.3

0.4

0.5

0.6

0.7

0.8

0.9

1

Last band number

C

6

14

2231

帯域番号6~14,22~31

Page 7: 狭帯域包絡線間相関を用いた 話者識別における帯域と識別率の検討 小橋川美共,末廣一美,髙岡創,高山泰典(日本文理大学) 西村一行(千葉工業大学

帯域減少と平均正解率

5 10 15 20 25 30 350.1

0.2

0.3

0.4

0.5

0.6

0.7

0.8

0.9

1

first band number

C 614

22 31

帯域番号6~14,22~31

Page 8: 狭帯域包絡線間相関を用いた 話者識別における帯域と識別率の検討 小橋川美共,末廣一美,髙岡創,高山泰典(日本文理大学) 西村一行(千葉工業大学

約 3 % 約7%

0.7

0.75

0.8

0.85

0.9

0.95

1

1-39 6-31 6-14 22-31

全 39 帯域を使用した正解率の比較

88.3% 85.9% 82.5%

C

band number

Page 9: 狭帯域包絡線間相関を用いた 話者識別における帯域と識別率の検討 小橋川美共,末廣一美,髙岡創,高山泰典(日本文理大学) 西村一行(千葉工業大学

The first formant F(kHz)

The

sec

ond

form

ant

F(k

Hz)

0.6

0.8

1.0

1.41.5

1.82.02.22.5

3.0

3.84.0

3.4

0.2 0.5 1.41.0

/e/

/i/

/u/

/o/

/a/

第 2 フォルマント周波数

600Hz ~ 4000Hz( 帯域番号 18 ~ 30)

調査結果の検討(高い周波数範囲の検討)帯域番号 22 ~ 31 ( 1091Hz ~ 5187Hz )

Page 10: 狭帯域包絡線間相関を用いた 話者識別における帯域と識別率の検討 小橋川美共,末廣一美,髙岡創,高山泰典(日本文理大学) 西村一行(千葉工業大学

frontal sinusmaxillary

sinussphenoidal

sinus

副鼻腔共振周波数3103 ~ 5398Hz( 帯域番号 28 ~31)

声帯音源基本周波数成人男性: 100 ~ 150Hz成人女性: 250 ~ 300Hz ( 帯域番号 6 ~ 14)

調査結果の検討(高い周波数範囲の検討)帯域番号 22 ~ 31 ( 1091Hz ~ 5187Hz )

鼻腔概略図・声帯音源基本周波数

Page 11: 狭帯域包絡線間相関を用いた 話者識別における帯域と識別率の検討 小橋川美共,末廣一美,髙岡創,高山泰典(日本文理大学) 西村一行(千葉工業大学

0.5

0.55

0.6

0.65

0.7

0.75

0.8

0.85

0.9

0.95

1

All A E K M N SA SB SC TA TB YTalker

All

Band No.

+ 1-39

× 6-31

□ 6-14

  22-31

CA

データによるばらつきの検討

識別語に共通性

Page 12: 狭帯域包絡線間相関を用いた 話者識別における帯域と識別率の検討 小橋川美共,末廣一美,髙岡創,高山泰典(日本文理大学) 西村一行(千葉工業大学

0 0.2 0.4 0.6 0.8 1-15

-10

-5

0

am

plit

ud

e (

dB

)

0 0.2 0.4 0.6 0.8 1-15

-10

-5

0

am

plit

ud

e

(dB

)

time (s)

ne n'

mimo n'

161ms 139ms

95ms

93ms 61ms

正解率が高い識別語 ( ネットサーフィン:上段 )

正解率が低い識別語 ( 水戸黄門:下段 )鼻音の継続時間

Page 13: 狭帯域包絡線間相関を用いた 話者識別における帯域と識別率の検討 小橋川美共,末廣一美,髙岡創,高山泰典(日本文理大学) 西村一行(千葉工業大学

声帯音源基本周波数 成人男性: 100 ~ 150Hz 成人女性: 250 ~ 300Hz   帯域番号 6 ~ 14  → 声帯音源第 2 フォルマント周波数  600Hz ~ 4000Hz

帯域番号 18 ~ 30 → 第 2 フォルマント副鼻腔共振周波数前頭洞: 3103 ~ 5398Hz  帯域番号 28 ~ 31 → 副鼻腔形状

個人のばらつきは継続時間に関連

まとめ

Page 14: 狭帯域包絡線間相関を用いた 話者識別における帯域と識別率の検討 小橋川美共,末廣一美,髙岡創,高山泰典(日本文理大学) 西村一行(千葉工業大学
Page 15: 狭帯域包絡線間相関を用いた 話者識別における帯域と識別率の検討 小橋川美共,末廣一美,髙岡創,高山泰典(日本文理大学) 西村一行(千葉工業大学

BandNo.

Center Freq.(Hz)

BandNo.

Center Freq.(Hz)

1 28.9 21 9172 34.4 22 1090.53 40.9 23 1296.84 48.6 24 1542.25 57.3 25 18346 68.1 26 21817 81 27 2593.78 96.3 28 3084.49 114.6 29 366810 136.3 30 436211 162.1 31 5187.412 192.7 32 6168.813 229.2 33 733614 272.6 34 8724.115 324.2 35 1037516 385.5 36 1233817 458.5 37 1467218 545.2 38 1744819 648.4 39 2074920 771.1

1/4 オクターブバンドの中心周波数

Page 16: 狭帯域包絡線間相関を用いた 話者識別における帯域と識別率の検討 小橋川美共,末廣一美,髙岡創,高山泰典(日本文理大学) 西村一行(千葉工業大学

1/4 オクターブバンド狭帯域フィルタ

102

103

104-40

-35

-30

-25

-20

-15

-10

-5

0

Freq. (Hz)

Am

plit

ud

e (

dB

)

周波数分解:21.5Hzフィルタ長:約46ms

音声の狭帯域包絡線を 100ms で区切る

⇒声帯音源波 約 4 周期が対象

狭帯域フィルタ: FIR フィルタ長さ: 2048 サンプル

: 44100Hz fs

Page 17: 狭帯域包絡線間相関を用いた 話者識別における帯域と識別率の検討 小橋川美共,末廣一美,髙岡創,高山泰典(日本文理大学) 西村一行(千葉工業大学

1

0

)()()(M

pbb phpnvnv

 : b 帯域の音声時間波形  :狭帯域フィルタb  :帯域番号n  :離散時刻に相当するサンプル番号M  :狭帯域フィルタの長さ

)(nhb

)(nvb

Page 18: 狭帯域包絡線間相関を用いた 話者識別における帯域と識別率の検討 小橋川美共,末廣一美,髙岡創,高山泰典(日本文理大学) 西村一行(千葉工業大学

0 5 10 15 20 25 30 35 40-0.4

-0.2

0

0.2

0.4

0.6

0.8

1

Page 19: 狭帯域包絡線間相関を用いた 話者識別における帯域と識別率の検討 小橋川美共,末廣一美,髙岡創,高山泰典(日本文理大学) 西村一行(千葉工業大学

frontal sinusmaxillary sinus sphenoidal

sinus

図 8  鼻腔概略図

Page 20: 狭帯域包絡線間相関を用いた 話者識別における帯域と識別率の検討 小橋川美共,末廣一美,髙岡創,高山泰典(日本文理大学) 西村一行(千葉工業大学

1

02121

21

21)()(

1 N

nbbbb

dddd ddndnd

bb

bb 

狭帯域包絡線間相関係数

x : x の分散 X : X の平均

xdN :  の長さに相当するサンプル番号