社団法人 電子情報通信学会 THE INSTITUTE OF...

6
社団法人 電子情報通信学会 THE INSTITUTE OF ELECTRONICS, INFORMATION AND COMMUNICATION ENGINEERS 信学技報 TECHNICAL REPORT OF IEICE. 多チャンネル階乗隠れマルコフモデルと混合 DOA モデルによる音源分 離・到来方向推定・音響イベント検出・残響除去の統合的アプローチ 樋口 卓哉 亀岡 弘和 ,†† 東京大学大学院情報理工学系研究科 113–8654 東京都文京区本郷 7–3–1 †† 日本電信電話株式会社 NTT コミュニケーション科学基礎研究所 243–0198 神奈川県厚木市森の里若宮 3–1 E-mail: †{higuchi,kameoka}@hil.t.u-tokyo.ac.jp あらまし 本稿では,ブラインド音源分離,残響除去,音響イベント検出,到来方向推定などの音響情景分析に関す る諸問題を取り扱う.我々はこれまで,多チャンネル階乗隠れマルコフモデルを用いて音響情景分析の諸問題を統合 的に解く手法を提案してきた.以前のモデルでは直接波に対応する空間相関行列を,到来方向に基づいて陽に記述し た関数の重みつき和で表現しており,その重みを求めることで到来方向推定,音源分離を行っていた.本稿では,空 間相関行列の生成モデルに対して混合 DOA モデルを適用し,多チャンネル階乗隠れマルコフモデルを用いた観測信 号の生成プロセスに組み込むことで,より音源分離性能を向上させる手法を提案する.音源分離実験では,提案法に よって得られた分離音の SDR は,従来法を 1.94 [dB] 上回った. キーワード ブラインド音源分離,残響除去,音響イベント検出,到来方向推定 Unified approach for BSS, DOA estimation, audio event detection and dereverberation with multichannel factorial HMM and DOA mixture model Takuya HIGUCHI and Hirokazu KAMEOKA ,†† Graduate School of Information Science and Technology, The University of Tokyo Hongo 7–3–1, Bunkyo-ku, Tokyo, 113–8654 Japan †† NTT Communication Science Laboratories, Nippon Telegraph and Telephone Corporation Morinosatowakamiya 3–1, Atsugi-shi, Kanagawa, 243–0198 Japan E-mail: †{higuchi,kameoka}@hil.t.u-tokyo.ac.jp Abstract We deal with the problems of blind source separation, dereverberation, audio event detection and DOA estimation. We previously proposed the multichannel factorial hidden Markov model, and simultaneously solved those problems. In this paper, we apply the DOA mixture model for modeling the spatial correlation matrix. Experimental results revealed that the proposed method was superior to our previous method in terms of the signal-to-distortion ratios of separated signals. Key words blind source separation, dereverberation, audio event detection and DOA estimation 1. はじめに ブラインド音源分離 (Blind Source Separation; BSS) の問題 とは,音源信号や音源からマイクまでの伝達特性が未知の場合 に,複数の音源信号が混合された観測信号から音源信号を推定 する問題である.一般的に,BSS の問題を解くためには,音源 信号に対して立てたなんらかの仮定を基に最適化基準を立て, 最適化問題を解く必要がある. 筆者らは,音響イベント,残響,音源の到来方向などが BSS の問題を解くための手がかりと成りうることに着目し,多チャ ンネル階乗隠れマルコフモデルと呼ぶモデルを用いて,音源分 離,音響イベント検出,残響除去,音源の到来方向推定を統合 —1—

Transcript of 社団法人 電子情報通信学会 THE INSTITUTE OF...

Page 1: 社団法人 電子情報通信学会 THE INSTITUTE OF ...hil.t.u-tokyo.ac.jp/publications/download.php?bib=...多チャンネル階乗隠れマルコフモデルと混合DOAモデルによる音源分

社団法人 電子情報通信学会

THE INSTITUTE OF ELECTRONICS,INFORMATION AND COMMUNICATION ENGINEERS

信学技報

TECHNICAL REPORT OF IEICE.

多チャンネル階乗隠れマルコフモデルと混合DOAモデルによる音源分

離・到来方向推定・音響イベント検出・残響除去の統合的アプローチ

樋口 卓哉† 亀岡 弘和†,††

† 東京大学大学院情報理工学系研究科  

〒 113–8654 東京都文京区本郷 7–3–1

†† 日本電信電話株式会社 NTTコミュニケーション科学基礎研究所

〒 243–0198 神奈川県厚木市森の里若宮 3–1

E-mail: †{higuchi,kameoka}@hil.t.u-tokyo.ac.jp

あらまし 本稿では,ブラインド音源分離,残響除去,音響イベント検出,到来方向推定などの音響情景分析に関す

る諸問題を取り扱う.我々はこれまで,多チャンネル階乗隠れマルコフモデルを用いて音響情景分析の諸問題を統合

的に解く手法を提案してきた.以前のモデルでは直接波に対応する空間相関行列を,到来方向に基づいて陽に記述し

た関数の重みつき和で表現しており,その重みを求めることで到来方向推定,音源分離を行っていた.本稿では,空

間相関行列の生成モデルに対して混合 DOAモデルを適用し,多チャンネル階乗隠れマルコフモデルを用いた観測信

号の生成プロセスに組み込むことで,より音源分離性能を向上させる手法を提案する.音源分離実験では,提案法に

よって得られた分離音の SDRは,従来法を 1.94 [dB]上回った.

キーワード ブラインド音源分離,残響除去,音響イベント検出,到来方向推定

Unified approach for BSS, DOA estimation, audio event detection and

dereverberation with multichannel factorial HMM and DOA mixture

model

Takuya HIGUCHI† and Hirokazu KAMEOKA†,††

† Graduate School of Information Science and Technology, The University of Tokyo

Hongo 7–3–1, Bunkyo-ku, Tokyo, 113–8654 Japan

†† NTT Communication Science Laboratories, Nippon Telegraph and Telephone Corporation

Morinosatowakamiya 3–1, Atsugi-shi, Kanagawa, 243–0198 Japan

E-mail: †{higuchi,kameoka}@hil.t.u-tokyo.ac.jp

Abstract We deal with the problems of blind source separation, dereverberation, audio event detection and DOA

estimation. We previously proposed the multichannel factorial hidden Markov model, and simultaneously solved

those problems. In this paper, we apply the DOA mixture model for modeling the spatial correlation matrix.

Experimental results revealed that the proposed method was superior to our previous method in terms of the

signal-to-distortion ratios of separated signals.

Key words blind source separation, dereverberation, audio event detection and DOA estimation

1. は じ め に

ブラインド音源分離 (Blind Source Separation; BSS)の問題

とは,音源信号や音源からマイクまでの伝達特性が未知の場合

に,複数の音源信号が混合された観測信号から音源信号を推定

する問題である.一般的に,BSSの問題を解くためには,音源

信号に対して立てたなんらかの仮定を基に最適化基準を立て,

最適化問題を解く必要がある.

筆者らは,音響イベント,残響,音源の到来方向などが BSS

の問題を解くための手がかりと成りうることに着目し,多チャ

ンネル階乗隠れマルコフモデルと呼ぶモデルを用いて,音源分

離,音響イベント検出,残響除去,音源の到来方向推定を統合

— 1 —

Page 2: 社団法人 電子情報通信学会 THE INSTITUTE OF ...hil.t.u-tokyo.ac.jp/publications/download.php?bib=...多チャンネル階乗隠れマルコフモデルと混合DOAモデルによる音源分

的に行う手法を提案してきた [1]~[3].以前のモデルでは,到

来方向に基づく空間相関行列のモデルとして,直接波に対応す

る空間相関行列を,到来方向に基づいて陽に記述した関数の重

みつき和で表現していた.そしてその重み変数を求めることで

到来方向推定を行うと共に空間相関行列を推定し,音源分離の

手がかりとしてきた.このモデルでは,重み変数を求めること

がそのまますべての周波数における空間相関行列を求めること

に相当していた.しかし実環境では,残響やノイズ,あるいは

多チャンネル階乗隠れマルコフモデルで導入されている畳み込

み混合近似により,空間相関行列は理論式から逸脱することが

あり,[3]で提案した空間相関行列のモデルでは自由度が小さす

ぎて観測信号をうまく表現できないていない可能性があった.

本稿では,空間相関行列の生成モデルに対して混合 DOAモデ

ルを適用し多チャンネル階乗隠れマルコフモデルを用いた観測

信号の生成プロセスに組み込むことで,到来方向を空間相関行

列推定の手がかりとしながらも,各周波数ごとに空間相関行列

を推定し,より音源分離性能を向上させる手法を提案する.

2. 多チャンネル階乗隠れマルコフモデル

2. 1 畳み込み混合近似による観測信号の混合モデル

I 個の音源から到来する信号をM 個のマイクロフォンで観

測する場合を考える.室内インパルス応答長が時間周波数展開

の時間窓長に対して十分に短いと限らず,瞬時混合近似が成り

立たない場合 (残響がある場合)を考え,時間周波数領域におけ

る畳み込み混合近似によって時間周波数領域の観測信号を近似

する.

y(ωk, tl) ≈I∑

i=1

T∑τ=0

ai(ωk, tτ )si(ωk, tl − tτ ). (1)

ただし, y(ωk, tl) = (y1(ωk, tl), . . . , yM (ωk, tl))T ∈ CM,

ai(ωk, tτ ) = (ai,1(ωk, tτ ), . . . , ai,M (ωk, tτ ))T ∈ CM である.

ここで ym(ωk, tl) ∈ C は m 番目のマイクで観測された観測

信号の周波数 ωk,時刻 tl における時間周波数成分であり,

si(ωk, tl) ∈ C は i番目の音源信号の周波数 ωk,時刻 tl におけ

る時間周波数成分である.また ai(ωk, tτ )は i番目の音源信号

に対する周波数 ωk における伝達周波数特性の時刻 tτ の成分で

あり,0 <= τ <= T は伝達周波数特性の時間周波数領域における時間インデックスである.以下では ωk,tl をそれぞれ k,lの

添え字で表す.

2. 2 音響イベントに基づく音源信号の生成モデル

まず,音源信号が区分的に定常であることを仮定し,各時間

周波数点で si,k,l が平均 0,分散 σ2i,k,l の複素正規分布に従うと

すると,音源信号の生成プロセスは,

si,k,l|σi,k,l ∼ NC(si,k,l; 0, σ2i,k,l), (2)

と書き表せる.ここで σ2i,k,l は周波数 k,時刻 lにおける i番目

の音源のパワースペクトル密度を表す.上記のモデルに Non-

negative Matrix Factorization(NMF) [4], [5] の仮定を組み込

むと,

σ2i,k,l = wi,khi,l, (3)

となる.上記の式による多チャンネル観測信号の生成モデルは,

多チャンネル NMF [6]と呼ばれている.しかし,多くの音源の

パワースペクトルは,無音状態,音の立ち上がり,定常状態な

どその音源の状態 (音響イベント)に応じて異なると考えられる

ので,時間変化する音源の状態に応じて各音源信号が異なるパ

ワースペクトルを持つと仮定する.時刻 l における i番目の音

源のパワースペクトルの状態を表す隠れ変数 z(q)i,l ∈ {1, . . . , Q}

を導入し,状態の時系列 z(q)i,1 , . . . , z

(q)i,L がマルコフ連鎖に従うと

仮定すると,

z(q)i,l |z

(q)i,l−1 ∼ Categorical(z

(q)i,l ;ρ

(q)

i,z(q)i,l−1

), (4)

と書ける.ここで Categorical(x;y) = yx であり,ρ(q)i,q =

(ρ(q)i,q,1, . . . , ρ

(q)i,q,Q) は i 番目の音源における状態 q から各状

態 1, . . . , Qへの遷移確率を表し, ρ(q)i = (ρ

(q)

i,q,q′)Q×Q は i番

目の音源における遷移行列である.状態 q である i 番目の音

源の基底パワースペクトルを wi,k,q と表すとすると,時刻 lに

おける i番目の音源信号のパワースペクトルは z(q)i,l に依存し,

si,k,l の生成モデルは以下のように書きなおせる.

si,k,l|wi,k,1:Q, hi,l, z(q)i,l ∼ NC(si,k,l; 0, wi,k,z

(q)i,l

hi,l). (5)

次に,音源の音量に着目すると,無音状態と有音状態では当

然音量の大きな値の取りやすさが異なると考えられるので,音

量もまた音源の状態 (音響イベント) に依存して異なる振る舞

いをするといえる.そこで,まず音量の状態を表す隠れ変数

z(j)i,l ∈ 1, . . . , J を導入し,状態の時系列 z

(j)i,1 , . . . , z

(j)i,L がマルコ

フ連鎖に従うと仮定する.

z(j)i,l |z

(j)i,l−1 ∼ Categorical(z

(j)i,l ;ρ

(j)

i,z(j)i,l−1

). (6)

このとき,hi,l が音量の状態 z(j)i,l ∈ 1, . . . , J によって異なるハ

イパーパラメータを持つガンマ分布に従うと仮定すると,

hi,l|z(j)i,l ∼ Gamma(hi,l;αz(j)i,l

βz(j)i,l

), (7)

となる.ここで α1:J と β1:J はそれぞれガンマ分布の形状パ

ラメータとスケールパラメータであり,Gamma(x;α, β) =xα−1e−x/β

Γ(α)βα ,ただし Γ(·)はガンマ関数である.z(j)i,l が無音状態

に対応するときは hi,l は小さな値をとってほしいので,小さな

値をとる確率が高くなるようにガンマ分布のハイパーパラメー

タを設定し,z(j)i,l が有音状態に対応するときは一様分布に近く

なるようにガンマ分布のハイパーパラメータを設定すればよい.

2. 3 混合DOAモデルによる空間相関行列の

生成モデル

次に,空間相関行列の生成プロセスを混合 DOAモデルを用

いて確率的にモデル化する.点音源と平面波到来を仮定する

と,空間相関行列は音源の到来方向に応じてある特定の構造

を持つ.例えばマイクロフォンの数M = 2の場合では,方向

θ(0 <= θ <= π)にある音源の空間相関行列は,以下のように陽に

記述できる.

J(θ, ω) =

[1

eȷωB cos θ/C

] [1 eȷωB cos θ/C

]∗(8)

— 2 —

Page 3: 社団法人 電子情報通信学会 THE INSTITUTE OF ...hil.t.u-tokyo.ac.jp/publications/download.php?bib=...多チャンネル階乗隠れマルコフモデルと混合DOAモデルによる音源分

ここで ȷ は虚数単位,B [m] はマイクロフォン間の距離,C

[m/s]は音速である.i番目の音源の到来方向 θi が既知の場合

では,直接波に対応する空間相関行列は J(θi, ωk)と等しくな

ることが期待される.しかしながら実際には,音源の到来方向

は音響信号から直接観測できないばかりでなく,フレーム内の

残響やノイズなどによって,空間相関行列は理想的な構造から

逸脱することがある.

そこでまず,[7]と同様に,θi ∈ {ϑ1, . . . , ϑO}を i番目の音源

の到来方向とし,各音源の DOAがこの DOA候補値の中から

決定されると仮定することで,音源 iの到来方向 θi が生成され

るプロセスを以下のように記述する。

z(o)i |ρ

(o)i ∼ Categorical(z

(o)i ;ρ

(o)i ), (9)

θi = ϑz(o)i

. (10)

ただし ρ(o)i = (ρ

(o)i,1 , . . . , ρ

(o)i,O) である。z

(o)i ∈ {1, . . . , O} は i

番目の音源にどの DOA 候補値が割り当てられるかを表すイ

ンジケータ変数であり,上式はこれが離散分布 (各確率値が

ρ(o)i,1 , . . . , ρ

(o)i,O)から生成されることを意味している。そして,直

接波に対応する空間相関行列 Ci,k,0 が,z(o)i が既知の条件下

で,以下のようなウィッシャート分布に従うと仮定する.

Ci,k,0|z(o)i ∼ WC(Ci,k,0; γ,Jϑz(o)i

,k + ϵI). (11)

ただし WC(X; γ,Y ) ∝ |X|(γ−M)/2exp(− 12tr(XY −1)) であ

り,γ は γ >= M +1を満たすハイパーパラメータである.ここ

では,逆行列演算を可能にするために,近似的に Jϑz(o)i

,k に微

小値 ϵを用いて単位行列 I を足してある.

観測信号の最終的な生成モデルは a1:I,k,0:T,w1:I,k,1:Q,

h1:I,l−T :l,z(q)1:I,l−T :lが既知の条件下で,式 (4),式 (6),式 (7),

式 (9),式 (11)と合わせて以下のように書き直せる.

yk,l|a1:I,k,0:T , w1:I,k,1:Q, h1:I,l−T :l, z(q)1:I,l−T :l

∼ NC(yk,l; 0,∑i,τ

Ci,k,τwi,k,z(q)i,l−τ

hi,l−τ ). (12)

この生成モデルに基づいて最適なパラメータを求めることは,

音源の到来方向推定・残響除去・音響イベント検出・音源分離

の問題を統合的に解くことに相当している.

3. 補助関数法に基づくパラメータ推論

目的関数である対数事後確率は各パラメータがお互いに関係

し合っており,一般に最適化が困難である.そこで目的関数を局

所最大化するパラメータを求める反復アルゴリズムを補助関数

法の原理に基づき導出する.モデルにおける推定したい変数は

W = w1:I,1:K,1:Q, H = h1:I,1:L, C = C1:I,1:K,0:T である.上

記の変数の集合をΘで表す.Z(q) = z(q)1:I,1:L,Z(j) = z

(j)1:I,1:L,

Z(o) = z(o)1:I は隠れ変数とする.以下では ρ(q),ρ(j),ρ(o) は実

験的に定められた定数とする.補助変数の集合を Λとすると,

目的関数 L(Θ) = log p(Θ|Y )に対する補助関数 L+(Θ,Λ)は

以下のように設計できる.

L(Θ) >=L+(Θ,Λ)

=− 1

2

∑k,l

[∑i,q,τ

λ(q)q,i,l−τ

(tr(yk,lyk,l

HRi,k,l,q,τC−1i,kRi,k,l,q,τ )

wi,k,qhi,l−τ

+ tr(U−1k,lCi,k)wi,k,qhi,l−τ

)+ log |Uk,l|

]+

∑j,i,l

λ(j)j,i,l

((αj − 1) log hi,l − hi,l/βj

− αj log βj − log Γ(αj)

)+

∑i,k,o

di,o

[− 1

2tr(Ci,k,0(Jk,o + ϵI)−1)

+γ −M

2

(tr(U

−1i,kCi,k,0)

+ log |U i,k|)]

+∑q,i,l

λ(q)q,i,l log p(Z

(q))

+∑j,i,l

λ(j)j,i,l log p(Z

(j)) + CL+ , (13)

ここで CL+ は定数項をまとめたもの,Ri,k,l,τ,q,Uk,l,U i,k

は∑

i,τ Ri,k,l,τ,q = I を満たすエルミート正定値行列であり,

λ(q)q,i,l,λ

(j)j,i,l,di,o は

∑q λq,i,l = 1,

∑j λj,i,l = 1,

∑o di,o = 1

をそれぞれ満たす非負値のスカラー値である.式 (13) の等号

成立条件はRi,k,l,τ,q,Uk,l,U i,k については

Ri,k,l,τ,q = Ci,k,τwi,k,qhi,l−τX−1

k,l , (14)

Uk,l = Xk,l, (15)

U i,k = Ci,k,0, (16)

となる.さらに λ(q)q,i,l に関しては Forward-Backwardアルゴリ

ズムを用いて,

λ(q)q,i,l = F

(q)q,i,lB

(q)q,i,l/

∑q

F(q)q,i,lB

(q)q,i,l, (17)

F(q)q,i,l = p(Θ|z(q)i,l = q)

∑q′

F(q)q,i,l−1ρ

(q)

i,q′,q, (18)

B(q)q,i,l =

∑q′

B(q)

q′,i,l+1p(Θ|z(q)i,l+1 = q′)ρ

(q)

i,q,q′ , (19)

ただし

p(Θ|z(q)i,l = q)

∝ exp

[−1

2

∑i,k,τ

(tr(yk,l+τyk,l+τ

HRi,k,l+τ,τ,qC−1i,k,τRi,k,l+τ,τ,q)

wi,k,qhi,l

+ tr(U−1k,l+τCi,k,τ )wi,k,qhi,l

)], (20)

である.λ(j)j,i,l に関しても Forward-Backwardアルゴリズムを

用いて,

λ(j)j,i,l = F

(j)j,i,lB

(j)j,i,l/

∑j

F(j)j,i,lB

(j)j,i,l, (21)

F(j)j,i,l = p(Θ|z(j)i,l = j)

∑j′

F(j)j,i,l−1ρ

(j)

i,j′,j , (22)

— 3 —

Page 4: 社団法人 電子情報通信学会 THE INSTITUTE OF ...hil.t.u-tokyo.ac.jp/publications/download.php?bib=...多チャンネル階乗隠れマルコフモデルと混合DOAモデルによる音源分

B(j)j,i,l =

∑j′

B(j)

j′,i,l+1p(Θ|z(j)i,l+1 = j′)ρ

(j)

i,j,j′ , (23)

ただし

p(Θ|z(j)i,l = j)

∝ exp

((αj − 1) log hi,l − hi,l/βj − αj log βj − log Γ(αj)

),

(24)

である.di,o の等号成立条件は,

di,o = p(Θ|z(o)i = o)

∝ exp(−1

2tr(Ci,k,0(Jϑo,k + ϵI)−1)), (25)

と∑

o di,o = 1より導ける.

その他のパラメータの更新則は,各パラメータによる L+ の

偏微分を 0と置くことで導ける.W とH に関する L+ の偏微

分はそれぞれ以下のようになる.

∂L+

∂wi,k,q

=1

2

∑l,q,τ

λ(q)q,i,l

(tr(yk,l+τyk,l+τ

HRi,k,l+τ,τ,qC−1i,k,τRi,k,l+τ,τ,q)

w2i,k,qhi,l

− tr(U−1k,l+τCi,k,τ )hi,l

), (26)

∂L+

∂hi,l

=1

2

∑k,q,τ

λ(q)q,i,l

(tr(yk,l+τyk,l+τ

HRi,k,l+τ,q,τC−1i,k,τRi,k,l+τ,q,τ )

wi,k,qh2i,l

− tr(U−1k,l+τCi,k,τ )wi,k,q

)+

∑j

λ(j)j,i,l

((αj − 1)/hi,l − 1/βj

). (27)

これらを 0と置くことで,以下の更新則が導ける.

wi,k,q ←

√√√√w(2)i,k,q

w(1)i,k,q

, (28)

hi,l ←−h(2)

i,l +

√(h(2)i,l

)2

− 4h(1)i,l h

(3)i,l

2h(1)i,l

, (29)

ただし

w(1)i,k,q =

∑l,q,τ

λ(q)q,i,ltr(U

−1k,l+τCi,k,τ )hi,l, (30)

w(2)i,k,q =

∑l,q,τ

λ(q)q,i,l

tr(yk,l+τyk,l+τHRi,k,l+τ,τ,qC

−1i,k,τRi,k,l+τ,τ,q)

hi,l,

(31)

h(1)i,l =

∑k,q,τ

λ(q)q,i,ltr(U

−1k,l+τCi,k,τ )wi,k,q +

∑j

2λ(j)j,i,l/βj ,

(32)

h(2)i,l = −2

∑j

λ(j)j,i,l(αj − 1), (33)

h(3)i,l = −

∑k,q,τ

λ(q)q,i,l

tr(yk,l+τyk,l+τHRi,k,l+τ,τ,qC

−1i,k,τRi,k,l+τ,τ,q)

wi,k,q,

(34)

である.Ci,k,0 についての L+ の偏微分は,事前分布の項を考

慮すると以下のようになる.

∂L+

∂Ci,k,0

=1

2

∑l,q

λq,i,l

(C−1

i,k,0Ri,k,l,0,qyk,lyk,lHRi,k,l,0,qC

−1i,k,0

wi,k,qhi,l

−U−1k,lwi,k,qhi,l

)+

∑o

di,o

(− 1

2(Jϑo,k + ϵI)−1)

)+

γ −M

2U

−1i,k . (35)

これを 0と置くと,以下の Riccati方程式が得られる.

Ci,k,0Ai,k,0Ci,k,0 = Bi,k,0, (36)

ただし

Ai,k,0 =∑l,q

λq,i,lwi,k,qhi,lX−1

k,l

+∑o

di,o

(− (Jk,o + ϵI)−1)

)+ (γ −M)U

−1i,k ,

(37)

Bi,k,0 =Ci,k,0(∑l,q

λq,i,lwi,k,qhi,lX−1

k,lyk,lyk,lHX

−1

k,l )Ci,k,0,

(38)

である.この Riccati 方程式を [6] と同様の手順で解くことに

よって Ci,k,0 の更新則が得られる.ここで,U i,k は等号成

立時において U i,k = Ci,k,0 となるが,もし Ci,k,0 が完全に

Jθi,k + ϵI と一致したとしても,逆行列演算は可能である.し

かし実験的に,反復の途中で Ci,k,0 のランクが落ち,U−1i,k を

計算できないことがあった.そこで微小値 ϵ′ を用いて近似的に

U i,k ≈ Ci,k,0 + ϵ′I, (39)

とすることで,U i,k の逆行列演算を可能にした.Ci,k,1:T につ

いての L+ の偏微分は以下のようになる.

∂L+

∂Ci,k,τ

=1

2

∑q,l

λ(q)q,i,l−τ

(C−1

i,k,τRi,k,l,τ,qyk,lyk,lHRi,k,l,τ,qC

−1i,k,τ

wi,k,qhi,l−τ

−U−1k,lwi,k,qhi,l−τ

). (40)

これを 0と置くと,以下の Riccati方程式が得られる.

Ci,k,τAi,k,τCi,k,τ = Bi,k,τ , (41)

ただし

Ai,k,τ =∑q,l

λ(q)q,i,l−τwi,k,qhi,l−τX

−1

k,l , (42)

— 4 —

Page 5: 社団法人 電子情報通信学会 THE INSTITUTE OF ...hil.t.u-tokyo.ac.jp/publications/download.php?bib=...多チャンネル階乗隠れマルコフモデルと混合DOAモデルによる音源分

Bi,k,τ =Ci,k,τ (∑q,l

λ(q)q,i,l−τwi,k,qhi,l−τ

X−1

k,lyk,lyk,lHX

−1

k,l )Ci,k,τ , (43)

である.この Riccati 方程式を [6] と同様の手順で解くことに

よって C の更新則が得られる.

4. 音源分離,残響除去,音響イベント検出,到

来方向推定性能の評価実験

4. 1 実 験 条 件

提案法の音源分離,残響除去,音響イベント検出,到来方向

推定性能の評価のために,残響下での教師なし音源分離実験を

行った.ATR音声データベース [8]の中の 3人の発話者 (女性

2人,男性 1人)による 15種類の発話に対して,RWCPデー

タベース [9]のインパルス応答 (マイク間距離 11.48 cm,マイ

クの数 M = 2) を畳み込み,人工的に多チャンネルの混合信

号を 5 つ作成した.3 つの音源はインパルス応答を畳み込ま

れることでマイクから 30◦,90◦,130◦ の位置に人工的にそれ

ぞれ配置された.残響時間が 0 msの場合と 380 msの場合の

2種類の実験条件で実験した.図 1に残響時間 380 msのとき

の実験に用いた混合音のスペクトログラムの一例を示す.サ

ンプリング周波数は 16 kHzとした.本稿の提案手法,空間相

関行列が重みつき和として表現された [3]の手法,空間相関行

列に対して仮定を置かない [2]の手法を比較した.フレーム長

64 ms,フレームシフト長 16 ms で STFT を行い,時間周波

数展開を行った.提案手法におけるウィッシャート分布のハイ

パーパラメータ γ は 3 とした.基底パワースペクトルの状態

数 Q = 15,ϵ = ϵ′ = 10−3,到来方向の分割数 O = 30とした.

音量の状態数 J = 2とし,α1 と β1 を 1,10−3 とそれぞれ設

定し,α2 と β2 を 1と 1010 と設定することで,j = 1を無音状

態とみなした.ρ(j) は i = 1, . . . , 3において ρ(j)i,1 = (0.9, 0.1),

ρ(j)i,2 = (0.1, 0.9) とし,自己遷移の確率を高めに設定した.残

響時間が 0 msの場合は T = 0とし,残響時間が 380 msの場

合は T = 3とした.C の初期値は,τ = 0の成分に関しては

1/√M × I とし,τ = 1 : T では 10−2/

√M × I とした.H の

初期値はすべての要素を 1として与えた.λ(q)の初期値は 1/Q,

λ(j) の初期値は 1/J とした.W の初期値は乱数とし,ρ(q) は

一様とした.dの初期値は図 2のように設定した.提案手法に

おいては θi の取りうる範囲を ϑ1+10(i−1) から ϑ10i に限定し,

各音源ごとに推定する到来方向が重ならないように ρ(o) の値

を設定した.この場合もアルゴリズムの収束性は保障される.

パラメータ推論アルゴリズムは 50回反復した.T = 3の場合

の実験においては,望ましくない局所解を避けるため,最初の

25 回の反復は T = 0 とし,その後徐々に T を 3 となるまで

増やしながら反復した.また T > 0の場合に,W と Ci,k,1:T

を両方とも更新すると数値誤差によりうまく数値計算できな

いことがあった.これは,W と Ci,k,1:T は各周波数ごとに求

められるため,その積を観測信号に対してフィッティングする

場合,それぞれのスケールに関しては任意性が生じてしまい,

Ci,k,1:T が非常に大きな値となってしまったからだと考えられ

る.そこで,最初の 25回の反復はW を更新し,その後 T を増やし T > 0となってからはW を更新せずに固定した.残響

除去後の分離音 ydirecti,k,l は

ydirecti,k,l =

∑q

λq,i,lwi,k,qhi,lCi,k,0X−1

k,lyk,l, (44)

によって得た.音源分離,残響除去の客観評価基準として,残

響除去済み分離音の振幅スペクトログラムに対して,室内イン

パルス応答を畳み込む前の音源信号の振幅スペクトログラムを

参照することで得られた SDR,SIR [10] を用いた.分離処理

前の SDR,SIR は残響時間 0 ms のときにはそれぞれ-1.98, -

1.04[dB],残響時間 380 msのときにはそれぞれ-4.77, -0.97[dB]

であった.

4. 2 実験結果と考察

表 1に残響時間 0 msの場合の混合音を用いた場合の,それ

ぞれの手法によって得られた分離音の SDR,SIR の改善量を

示す.提案法によって得られた分離音の客観評価値は,従来法

による分離音の客観評価値を上回った.提案法によって得られ

た分離音の SDRは [3]の手法によって得られた分離音の SDR

を 1.88 [dB]上回った.これにより,提案法の音源分離におけ

る有効性が示された.[2] の手法の分離性能が低い理由として,

本実験のように多くの基底パワースペクトルを必要とする音源

を対象にする場合では,空間相関行列に対して音源の到来方向

に基づくモデル化の行われていない従来法では空間相関行列の

自由度が高すぎるがゆえに,BSSの問題において解を十分に限

定することができなかったことが考えられる.図 3(a) に残響

時間 0 msの場合における提案法によって得られた到来方向を

表す dの推定結果と実際の到来方向を示す.おおむね実際の到

来方向に近い位置にピークが立っていることが分かる.

表 2に残響時間 380 msの場合の混合音を用いた場合の,そ

れぞれの手法によって得られた分離音の SDR と SIR の改善

量を示す.提案法によって得られた分離音の客観評価値は,従

来法による分離音の客観評価値を上回った.提案法によって得

られた分離音の SDR は [3] の手法によって得られた分離音の

SDR を 1.94 [dB] 上回った.図 3(b) に残響時間 380 ms の場

合における提案法によって得られた到来方向を表す dの推定結

果と実際の到来方向を示す.残響下においてもはっきりとした

ピークが立ち,そのピークは若干の誤差はあるもののおおむね

実際の到来方向に近い位置であることが分かる.図 4 に,図 1

の混合音を用いたときに提案法によって得られた,(a)元の音

源信号のスペクトログラム,(b)残響除去済み分離音のスペク

トログラム,(c)音量の状態を表す λ(j)の推定結果を示す.λ(j)

は黒いほどその時刻にその状態であるらしいことを表す.音響

イベントがおおむね正しく推定されている区間が多いが,音源

分離が十分でない区間では,干渉音の音響イベントを検出して

しまう場合もあった.その他の混合音を用いたときも,同様の

傾向が見られた.

5. お わ り に

本稿では,混合 DOAモデルを多チャンネル階乗隠れマルコ

— 5 —

Page 6: 社団法人 電子情報通信学会 THE INSTITUTE OF ...hil.t.u-tokyo.ac.jp/publications/download.php?bib=...多チャンネル階乗隠れマルコフモデルと混合DOAモデルによる音源分

図 1 残響時間 380 ms のときの実験に用いた混合音のスペクトログ

ラムの一例.3 つの発話が残響下で重畳されている.

図 2 各音源ごとに色分けされた d の初期値.

表 1 残響時間 0ms の混合音を用いたときの,それぞれの手法によっ

て得られた分離音の SDR/SIR の改善量.

RT=0ms SDR improvement SIR improvement

[2] の手法 -0.53 4.65

[3] の手法 1.90 7.88

提案手法 3.78 14.12

表 2 残響時間 380ms の混合音を用いたときの,それぞれの手法に

よって得られた分離音の SDR/SIR の改善量.

RT=380ms SDR improvement SIR improvement

[2] の手法 -1.55 3.73

[3] の手法 -1.57 4.99

提案手法 0.37 8.65

到来方向 [rad]

到来方向 [rad]

d

d

(a)

(b)

残響時間0ms

残響時間380ms

図 3 各音源ごとに色分けされた,どのくらいその方向にいるらしい

かを表す補助変数 d の推定結果.混合音の残響時間は (a)0ms,

(b)380ms である.矢印は実際の音源の到来方向を表す.

フモデルに組み込むことで,従来より精度良い音源分離を実現

しながら,音源分離・残響除去・音響イベント検出・到来方向

推定を統合的に行う手法を提案した.提案法によって得られた

分離音の SDRは [3]の手法を 1.94 [dB]上回った.

謝 辞

本研究は JSPS科研費 26730100,26280060の助成を受けた

図 4 図 1 の混合音を用いて提案法によって分離を行ったときの 30◦

に配置された音源の (a) 元の音源信号のスペクトログラム,(b)

残響除去済み分離音のスペクトログラム,(c) 音量の状態を表す

λ(j) の推定結果.λ(j) は黒いほどその時刻にその状態であるら

しいことを表す.音響イベントがおおむね正しく検出されてい

ることが見て取れる.

ものです.

文 献

[1] T. Higuchi, et al., Interspeech 2014, pp. 850–854, 2014.

[2] T. Higuchi and H. Kameoka, “Joint audio source separation

and dereverberation based on multichannel factorial hidden

Markov model,” MLSP 2014.

[3] T. Higuchi and H. Kameoka, “Unified approach for underde-

termined BSS, VAD, dereverberation and DOA estimation

with multichannel factorial HMM,” GlobalSIP 2014, pp.

725-729, 2014.

[4] D. D. Lee, and H. S. Seung, Nature, vol. 401, pp.788–791,

1999.

[5] P. Smaragdis, and J. C. Brown, WASPAA 2003, pp. 177–

180, Oct. 2003.

[6] H. Sawada et al., ICASSP 2012, pp. 261–264, 2012.

[7] 亀岡 他, 音講論 (春), 1–1–19, pp.713-716, Mar. 2012.

[8] A. Kurematsu et al., Speech Communication, pp. 357–363,

1990.

[9] S. Nakamura et al.,LREC 2000, pp. 965–968, 2000.

[10] E. Vincent et al., IEEE Transactions on Audio, Speech,

and Language Processing, pp. 1462–1469, 2006.

— 6 —