スタートアップガイド システム共通設定 編...処理は“処理グループ”により分類されています。処理グループは「メニューの設定」画面の
音声処理における信号処理2 ~線形予測分析~ ·...
Transcript of 音声処理における信号処理2 ~線形予測分析~ ·...
音情報処理論
音声処理における信号処理2
~線形予測分析~
東京大学大学院情報理工学系研究科/奈良先端大
猿渡 洋
(2014年10月)
準備:Z変換Z変換• 離散的な時系列の特性を解析する1手法
• 準備: は離散時間波形
• 定義1(正Z変換;時間領域からZ領域へ)
• 定義2(逆Z変換;Z領域から時間領域へ)
n
nznxzX )()(
)(nx
})(...,),1(),0(...,),({)( xxxxnx ←実数
←複素数
ここで は1サンプル時間遅れを表す演算子1z
c
n dzzzXj
nx 1)(2
1)(
準備:Z変換の諸性質• 時間遅れ :
• 畳み込み演算は、Z領域で積演算になる。
• システムのインパルス応答 をZ変換したものをシステム伝達関数と呼ぶ。
)()()()()()( zHzXzYnhnxny
)(nh
)(
)(
)()(
1
1
zA
zB
znhzHn
n において
とおけばDFT(or フーリエ変換)のように考えることができ、周波数特性がわかる。
)(zH
or 2/2 fjNkj eez
izzXinx )()(
準備:Z変換とシステム伝達関数1
システム伝達関数の解析
p
jj
q
ii
p
p
q
q
n
n
zz
zz
zzz
zzzzA
zBznhzH
1
)pole(
1
)zero(
2
2
1
10
2
2
1
10
1
1
/1
/1
...
...)(
)()()(
←Zの有理多項式
)zero(
iz :分子=0となるzの解 (零点))pole(
jz :分母=0となるzの解 (極)
準備:Z変換とシステム伝達関数2
極と零点の意味
• 極 : 分母=0の解 ⇒ H(z)の山
• 零点: 分子=0の解 ⇒ H(z)の谷
]Re[z
]Im[z
1
零点極
f
対数振幅特性
)( 2 fjezH
準備:Z変換とシステム伝達関数3
極の配置とシステムの安定性• 極の位置が単位円内 ⇒ システムは安定
単位円外 ⇒ システムは不安定
• 極が単位円に接近 ⇒ 周波数特性上に強いピーク
]Re[z
]Im[z
1
極極
f
対数振幅特性
)( 2 fjezH
音声スペクトルからの情報抽出
音声信号スペクトル
1.スペクトル微細構造
• 周期成分 ⇒ 声帯の振動に対応
• その人個人が持つ「声の高さ」
2.スペクトル包絡構造
• 声道・鼻腔における共振・反共振特性
⇒ 各音韻ごとの違いに対応
• 音声認識処理などでは、この包絡情報に基づいて識別を行う.
スペクトル包絡の代表的抽出法
ケプストラム法
• モデルを仮定しないノンパラメトリック法の一種
• 短時間スペクトル上において微細構造と包絡構造とを分ける。
線形予測(Linear Prediction)法
• 自己回帰モデルに基づくパラメトリック法
• 声道における共振特性をモデリング
音声生成に適したモデルとは?
人間の音声生成モデル
• 声帯での基本振動を声道で音色付ける。
• 声道
• 位置によって太さの異なる音響管の連続と見なせる。
• 音響管における共振現象 ⇒ 自己回帰(AR)過程
声帯信号
声道を模擬した音響管
各微小管毎に透過・反射が起きる
⇒ 複雑な共振特性が生じる
口からの放射
線形予測と共振モデル
線形予測の原理• 過去の波形標本値の組合せで現在の標本値を予測する。
• 次の線形一次結合が成り立つと仮定:
ここで は平均値0、分散 の無相関な確率変数
• この を最小にするように を決める。
を線形予測係数とよび、 を線形予測残差と呼ぶ。
• 上式のZ変換は以下で与えられる。
)()(...)2()1()( 21 npnxnxnxnx p
)(n 2)(n i
i )(n
)()(...)()( 1
1 zEzzXzzXzX p
p
)1(...1
)()(
1
1
p
p zz
zEzX
線形予測と共振モデル(続き)
(1)式の意味
予測残差 を伝達関数 に通して音声を生成
)()(...1
)()(
1
1
zAzEzz
zEzX
p
p
p
p zzzA
...
1)(where
1
10
)(zE )(zA
声帯信号口からの放射
)(zE )(zA )(zX
←極のみを持つ
)1( 0
線形予測と共振モデル(続き)
• (1)式で与えられる線形予測は、
「声帯信号のパワーを最小化するように声道特性をAR
モデルによって推定する」
ことを示している。
• 推定された は全極モデル(零点を持たず極だけから構成される伝達関数)であり、その極の値によって共振特性が変化する。
音声のスペクトル包絡の推定⇒ の推定に帰着
( の推定問題)
)(zA
)(zA
i
線形予測係数の推定1
予測残差の算出
• 区間 における の2乗和
p
i
p
jijji
n
nn
p
i
p
jji
n
nn
p
ii
n
nn
jnxinx
inxn
0 0
0 0
2
0
2
1
0
1
0
1
0
)()(
)()(
)(n][ 1,0 nn
)()(where1
0
jnxinxn
nnij
自己相関関数
線形予測係数の推定2
予測残差の最小化
• 2乗残差和 を最小にする を求める j
)...,,2,1(,020
pjij
p
ii
j
)2()...,,2,1(,01
pjjij
p
ii
よって、線形予測係数 を算出するには、上記のp個の連立1次方程式を解けばよい。
⇒ 必ずしも解が存在するとは限らない?
i
線形予測係数の推定3
安定に解を求めるには…
• 自己相関関数 に制約を設ける
このとき
ij
10 , nn
)or0(if,0)( nNnnx
|||)|()( jin
ij rjinxnx
ji, の2変数に関する関数が1変数のみの関数となる。
|| ji
線形予測係数の推定4
を使用して連立方程式(2)を解く|| jir
ppp
p
r
r
r
rrr
r
rr
rrr
2
1
2
1
011
1
01
110
この行列はテプリッツ型 ⇒ 正定値行列
⇒ 必ず逆行列が存在する
利点1.線形予測係数 が必ず求まる。
利点2.高速解法(Durbinの再帰的解法)が利用可能
利点3.求められた全極モデルは絶対安定(極が単位円内)
i
線形予測によるパワースペクトル
LPCパワースペクトルの定義
←予測残差のパワー
22
2
1
1
2
...12
1)(
p
p zzzzf
線形予測によるスペクトル包絡
抽出されたスペクトル包絡
ケプストラムよりもピーク重視
であることに注目!
DFTスペクトル
(参考)ケプストラムによるスペクトル包絡
抽出されたスペクトル包絡
DFTスペクトル
線形予測によるホルマント抽出
余談:線形予測法と日本人の貢献日経産業新聞 1999年4月20日掲載
「音声認識の研究に金を出すことは価値ある投資だろうか。…音声認識の研究とはまさに「錬金術」に等しい――。 」これは、1969年に米国音響学会誌に掲載された寄書の一部である。著者はジョン・ピアス、当時、ベル電話研究所情報通信部門の責任者であった。これを機に、ピアス傘下にあった音声研究部門では、音声認識の研究が全面的に中止された。
トップの確信に満ちた判断で中止された研究をボトムアップで再開するのは容易な ことではない。この再開の主役として登場したのは1人の日本人であった。線形予測理論で世界的脚光を 浴びていた現NTTの板倉文忠(名古屋大名誉教授)を客員研究員として招いた。これがベル研での音声認識研究の再始動をうながしたのである。当時、ベル研の研究室長であり、板倉を招いたジェームス・フラナガン(現米国ラトガース大学副学長)は振り返る。「とても、正面切って音声認識の研究を行える状況ではなかった 。部外者である客員研究員が自主的に研究を始めるという苦肉の策を講じ、これが図に当った」
線形予測分析のまとめ長所• 高速解法が存在するため比較的単純な操作でスペクトル包絡抽出可能
• 抽出されたスペクトル包絡において、ホルマント共振がより強調される(c.f. ケプストラム分析)
• より少ないパラメータ(たかだかp個の予測係数のみ)で音声スペクトル包絡を表現可能 ⇒音声符号化に有利
問題点• 線形予測係数 を量子化して伝送をする場合、伝送誤差の影響によってすぐに不安定なフィルタになってしまう。
(例)典型的な電話音声の場合11 bits以上の精度必要
• 線形予測係数とスペクトルの直観的な関連がないので、スペクトルの補間を行う場合に予測係数補間が不可能。
i
線形予測分析の拡張1(PARCOR)
量子化誤差対策: PARCOR分析• 線形予測による伝達関数⇒音響管の共振モデルに対応
• 線形予測係数を音響管の各管における反射係数へ一意に変換可能
• 反射係数が1を超えることは無い⇒伝送エラーなどで歪んでしまった(1以上にバケてしまった)反射係数を近似回復できる。つまり絶対安定な伝達関数を受信側で構成可能
しかしまだ改善点が…
• より情報圧縮を行いたい場合、とびとびの時間分析フレームのデータのみを伝送し、受手側では時間補間をすることによって復元を行いたい。しかし、LPC係数・PARCOR係数とも、時間軸方向の連続性はあまり明確ではない。
線形予測分析の拡張2(LSP)
係数の時間補間対策: LSP(線スペクトル対)係数
• PARCOR係数をさらに周波数領域へマッピング
⇒ 絶対安定性を保ちつつスペクトルの時間補間が可能
スペクトル包絡
対応するLSPパラメータ
(線スペクトルのペアを縦棒で表現)
強い共振ピーク付近に棒線が密集。共振の強さは密集度合で決まる。
伝送するのは線スペクトル(ペア)の周波数位置のみ。
→f
LSP係数による時間補間)(nx
…
→f →f
→t
t1t2
t3
時間t1とt3におけるLSP(線スペクトル対)の
推移より時間t2におけるLSP係数を推測・補間できる
例題:2次の線形予測モデル推定
音声波形の自己相関関数が以下のように与えられたとする。
• (a) 線形予測係数を求めよ。
• (b) LPCパワースペクトルを式で表せ( は1とする)。
• (c) (b)より極を求めて、z平面に単位円とともに図示せよ。
• (d) LPCパワースペクトルの概略図を書け。
5
2,
5
2,1 210 rrr
2
解答: (a)線形予測係数
• 線形予測係数 は以下を解くことで求まる。
よって
i
2
1
2
1
01
10
r
r
rr
rr
3/2
3/25/2
5/2
15/2
5/21
)5/2(1
122
2
1
解答: (b)LPCパワースペクトル
• LPCパワースペクトル は次式で与えられる。)(zf
2
21
22
2
1
1
3
2
3
21
1
2
1
1
1
2
1)(
zz
zzzf
解答: (c)極とその配置
• の分母多項式の根が極である。よって、
を解くと
)(zf
03
2
3
21 21 zz
3
51 jz
極
解答: (d)LPCパワースペクトル概略