Efficient multichannel nonnegative matrix factorization with rank-1 spatial model (in Japanese)

19
Efficient multichannel NMF with rank-1 spatial model ラララ 1 ラララララララララララララ ララララララララララララララ ラララララララララ ララララ 1 ラ ララララ ララララララララ / ラララララララララ ララララ NTT ララララララララララララララララ ラララ ララララ / NTT ララララララララララララララララ ララララ ララララ ラララ

Transcript of Efficient multichannel nonnegative matrix factorization with rank-1 spatial model (in Japanese)

Page 1: Efficient multichannel nonnegative matrix factorization with rank-1 spatial model (in Japanese)

Efficient multichannel NMF with rank-1 spatial model

ランク 1 空間モデルを用いた効率的な多チャネル非負値行列因子分解

総合研究大学院大学 博士課程 1 年 北村大地国立情報学研究所 / 総合研究大学院大学 小野順貴NTT コミュニケーション科学基礎研究所 澤田宏

東京大学 / NTT コミュニケーション科学基礎研究所 亀岡弘和

東京大学 猿渡洋

Page 2: Efficient multichannel nonnegative matrix factorization with rank-1 spatial model (in Japanese)

2

研究背景• ブラインド音源分離 (blind source separation: BSS)

– 混合信号のみ ( 混合系は未知 ) から分離信号を推定する技術

– 過決定条件 ( 音源数 録音マイク数 ) における BSS• 独立成分分析 (ICA) ,独立ベクトル分析 (IVA) 等

– 劣決定条件 ( 音源数 録音マイク数 ) における BSS• 非負値行列因子分解 (NMF) の拡張手法等

• 話者分離や雑音抑圧等,様々な用途がある

音源信号 観測信号 分離信号

混合系 分離系

Page 3: Efficient multichannel nonnegative matrix factorization with rank-1 spatial model (in Japanese)

3

従来手法• 多チャネル NMF [H. Sawada, et al., 2013]

– 音源の混合系を空間相関行列として推定– 劣決定条件にも対応し自由度が高いが,最適化が難しい

• 独立ベクトル分析 (IVA) [T. Kim, et al., 2007]

– 音源間 ( ベクトル間 ) の独立性を仮定し分離行列を推定– 混合行列の逆行列を仮定する為,過決定条件下の技術– 安定で高速な最適化が可能

音源信号 観測信号 分離信号

混合系 分離系

Page 4: Efficient multichannel nonnegative matrix factorization with rank-1 spatial model (in Japanese)

4

本研究の目的と位置づけ• 容易に最適化できる多チャネル NMF の提案

– IVA と多チャネル NMF を統一的に捉える枠組みを確立

モデルの自由度

最適

化の

容易

多チャネル NMF

IVA 提案手法

分離性能Bad

分離性能Good!

Page 5: Efficient multichannel nonnegative matrix factorization with rank-1 spatial model (in Japanese)

5

提案手法のコンセプト• 従来の多チャネル NMF は混合行列を推定していた

– 劣決定条件にも対応– しかし最適化が難しい

• 分離行列を推定する多チャネル NMF を考える– 逆行列が存在しなければならない– 決定的な混合系でなければならない

• 提案手法は過決定条件で各音源が点音源に近い状況に限定– 一般的な会議や音楽演奏の収録環境では実用的な条件設定

過決定条件に限定混合のランク 1近似

解決するアイデア

Page 6: Efficient multichannel nonnegative matrix factorization with rank-1 spatial model (in Japanese)

6

提案手法 : 定式化• 従来の多チャネル NMF における定式化

: 周波数ビン数: 時間フレーム数: チャネル数

複素数

Time

Frequenc

y

Time

Frequenc

y

Time

Frequenc

y

Time

Frequenc

y

Time

Frequenc

y

対角成分が グリッドにおける各チャネルの観測パワー ( 非負値 )

非対角成分はチャネル間相関を示す複素数

各 グリッドが全てベクトルとなる

Page 7: Efficient multichannel nonnegative matrix factorization with rank-1 spatial model (in Japanese)

7

• 多チャネル NMF の分解モデル ( の例 )

• 参考 : 単一チャネル NMF の分解モデル

提案手法 : 定式化

要素毎の積

灰色は非負の実数赤色は複素数

Amplitude

Am

plitu

de

Time

Time

Fre

quen

cy Fre

quen

cy

基底 アクティベーション

スペクトログラム

Page 8: Efficient multichannel nonnegative matrix factorization with rank-1 spatial model (in Japanese)

8

要素毎の積

灰色は非負の実数赤色は複素数

• 多チャネル NMF の分解モデル ( の例 )

提案手法 : 定式化

分離行列を推定する問題にするために,空間相関行列が全てランク 1 の行列となるような制約条件を導入

提案手法

Page 9: Efficient multichannel nonnegative matrix factorization with rank-1 spatial model (in Japanese)

9

提案手法 : ランク 1 空間相関行列とは• ランク 1 近似 : 各時間フレームでの複素瞬時混合を

仮定

– 音源ができるだけ点音源に近く,残響などの拡散が時間周波数解析の時間フレーム内に収まるという条件に対応

• ランク 1 空間相関行列は各音源のステアリングベクトルの外積で表現できる

• ステアリングベクトルは混合行列の列成分

音源信号

複素混合行列

観測信号

( のランク 1 行列 )

時不変の複素混合行列 で表現できる

Page 10: Efficient multichannel nonnegative matrix factorization with rank-1 spatial model (in Japanese)

10

提案手法 : コスト関数の変形と変数変換• 従来の多チャネル NMF のコスト関数 (板倉斎藤擬距離 )

• 提案手法のコスト関数 (板倉斎藤擬距離 )

ランク 1 空間相関行列を導入 ( )混合行列 を用いて表現しなおす

, を用いて分離行列 と分離信号 に変数変換

1.

2.

3.

Page 11: Efficient multichannel nonnegative matrix factorization with rank-1 spatial model (in Japanese)

11

提案手法 : IVA及び NMF との関係• 提案手法のコスト関数 (板倉斎藤擬距離 )

• IVA のコスト関数 (球状ラプラス分布仮定 )

• 単一チャネル NMF のコスト関数 (板倉斎藤擬距離 )

Page 12: Efficient multichannel nonnegative matrix factorization with rank-1 spatial model (in Japanese)

12

提案手法 : IVA及び NMF との関係• 提案手法のコスト関数 (板倉斎藤擬距離 )

• IVA と単一チャネル NMF の各コスト関数の組み合わせ– IVA と多チャネル NMF の関係を明らかにする

モデルの自由度低 高

スペクトル基底の数を拡張

混合系のランク1 近似を導入

多チャネル NMF

IVA 提案手法

Page 13: Efficient multichannel nonnegative matrix factorization with rank-1 spatial model (in Japanese)

13

提案手法 : 潜在変数無し• 提案手法 1

– 各音源は同じ数の基底で表現される

• 利点 : 単一チャネル NMF の更新式と IVA の更新式を交互に回すだけで全変数の最適化が可能

• 欠点 : 全ての音源に適切な数の基底を与えられない

混合行列 分離行列

音源信号 観測信号 分離信号空間相関

行列

基底とアクティベーション

ランク 1 行列

4個の基底

4個の基底同じ数の基底で各音源を表現する

全部で 8個の基底

Page 14: Efficient multichannel nonnegative matrix factorization with rank-1 spatial model (in Japanese)

14

提案手法 : 潜在変数導入

混合行列 分離行列

音源信号 観測信号 分離信号空間相関

行列

基底とアクティベーション

ランク 1 行列

5個の基底各音源に適切な基底数が適応的に決定され

潜在変数

3個の基底

全部で 8個の基底

• 提案手法 2– トータルの基底数を与え,適応的に各音源に割り当てる

• 利点 : 最適な基底数が学習されるため,分離精度が向上

• 欠点 : 潜在変数の最適化も必要なため頑健性が劣化– 潜在変数の更新式は補助関数法で導出可能

Page 15: Efficient multichannel nonnegative matrix factorization with rank-1 spatial model (in Japanese)

15

分離精度の比較実験

音源信号 SiSEC のプロ音楽信号に, RWCP 収録のマイクアレーインパルス 応答で畳み込んで作成, 2 チャネルで 2 音源の混合信号

比較手法 IVA, 提案手法 1 (潜在変数なし ), 提案手法 2 (潜在変数あり )

サンプリング周波数 44.1 kHz から 16 kHz へダウンサンプル

FFT長 8192 点 (512 ms)

窓関数長 2048 点 (128 ms, ハニング窓 )

初期値 分離行列 : 単位行列 , その他の変数 : 非負値乱数

基底数 提案手法 1: 各音源につき 20個 ( トータルは 40個 )

提案手法 2: トータルで 40個反復回数 200 回

試行回数 初期値を変えて 10 回

主観評価値 平均 SDR改善値とその標準偏差 ( 総合分離性能 )

平均 SIR改善値とその標準偏差 ( 非目的音の除去性能 )

平均 SAR 値とその標準偏差 (人工歪みの少なさ )

• 実験条件

Page 16: Efficient multichannel nonnegative matrix factorization with rank-1 spatial model (in Japanese)

16

• 実験結果 1 (Another_dreamer_The_ones_we_love_Snip_69-94)

– Source 1: Guitar– Source 2: Vocal

16

14

12

10

8

6

4

2

0

SA

R [

dB

]

28

24

20

16

12

8

4

0

SIR

imp

rove

me

nt

[dB

]

16

14

12

10

8

6

4

2

0

SD

R im

pro

vem

en

t [d

B]

IVA Proposed method 1

Proposed method 2

IVA Proposed method 1

Proposed method 2

IVA Proposed method 1

Proposed method 2

(a) (b) (c)

: Source 1 : Source 2

分離精度の比較実験

Page 17: Efficient multichannel nonnegative matrix factorization with rank-1 spatial model (in Japanese)

17

12

10

8

6

4

2

0

SA

R [

dB

]

14

12

10

8

6

4

2

0

-2

SIR

imp

rove

me

nt

[dB

]

4

3

2

1

0

-1

-2

-3

SD

R im

pro

vem

en

t [d

B]

IVA Proposed method 1

Proposed method 2

IVA Proposed method 1

Proposed method 2

IVA Proposed method 1

Proposed method 2

(a) (b) (c)

: Source 1 : Source 2

分離精度の比較実験• 実験結果 2 (Tamy_Que_pena_tanto_faz_Snip_6-19)

– Source 1: Guitar– Source 2: Vocal

Page 18: Efficient multichannel nonnegative matrix factorization with rank-1 spatial model (in Japanese)

18

• 実験結果 3 (Fort_minor_Remember_the_name_Snip_54-78)

– Source 1: Violins_synth– Source 2: Vocal

16

14

12

10

8

6

4

2

0

SA

R [

dB

]

20

16

12

8

4

0

SIR

imp

rove

me

nt

[dB

]

141210

86420

-2-4

SD

R im

pro

vem

en

t [d

B]

IVA Proposed method 1

Proposed method 2

IVA Proposed method 1

Proposed method 2

IVA Proposed method 1

Proposed method 2

(a) (b) (c)

: Source 1 : Source 2

分離精度の比較実験

Page 19: Efficient multichannel nonnegative matrix factorization with rank-1 spatial model (in Japanese)

19

まとめ• 混合系ではなく分離行列を求める多チャネル NMF

を新たに提案した– 空間相関行列がランク 1 となる近似を導入– IVA と単一チャネル NMF の組み合わせとなり,最適化が

容易• IVA と従来の多チャネル NMF の関係を明らかにした

– 「 IVA に基底分解を導入したモデル」と「ランク 1 近似を導入した多チャネル NMF」は本質的に等価

• 客観評価実験の結果,提案手法は IVA よりも高精度な分離を達成した

• 今後は従来の多チャネル NMF と頑健性の比較を行う