Divergence optimization based on trade-off between separation and extrapolation abilities in...

19
Divergence optimization based on trade- off between separation and extrapolation abilities in superresolution-based nonnegative matrix factorization 超超超超超超超超超超超超超超超超超超超超超超超超超超超 超超超超超超超超超超超超超超超超超超超超超超超超 超超超超 , 超超超 , 超超超 超超超超超超超超超超超超超超 () 超超超 , 超超超超 超超超超超超超超 ()

Transcript of Divergence optimization based on trade-off between separation and extrapolation abilities in...

Page 1: Divergence optimization based on trade-off between separation and extrapolation abilities in superresolution-based nonnegative matrix factorization (in Japanese)

Divergence optimization based on trade-off between separation and extrapolation abilities in

superresolution-based nonnegative matrix factorization

超解像型非負値行列因子分解における分離性能と外挿能力のトレードオフに基づく最適なダイバージェンスの検討

☆ 北村大地 , 猿渡洋 , 中村哲(奈良先端科学技術大学院大学)

高橋祐 , 近藤多伸(ヤマハ株式会社)

Page 2: Divergence optimization based on trade-off between separation and extrapolation abilities in superresolution-based nonnegative matrix factorization (in Japanese)

2

• 音源分離 : 複数の音源から成る混合音から特定の音源を分離• 非負値行列因子分解( nonnegative matrix factorization: NMF ) [Lee,

2001]

– スパース分解表現による特徴量抽出手法

• 一般に各音源毎に基底を選別することは困難• 目的音源の基底を学習する教師あり NMF [Smaragdis, 2010], [Yagi,

2012]

背景 : 非負値行列因子分解による音源分離

Amplitude

Ampl

itude

観測スペクトログラム

基底スペクトル行列

アクティベーション行列

Time

: 周波数ビン数: 時間フレーム数: 基底数

Time

Freq

uenc

y

Freq

uenc

y

Page 3: Divergence optimization based on trade-off between separation and extrapolation abilities in superresolution-based nonnegative matrix factorization (in Japanese)

3

本発表における目的• 頑健なマルチチャネル信号分離手法として,超解像型教師あ

り NMF 及びそのハイブリッド手法を提案 [Kitamura, 2013]

L R

方位に関する分解

超解像型教師あり

NMF

超解像型教師あり NMF に関して,コスト関数をパラメトリックに拡張した一般化アルゴリズムを提案する

「スパース分解表現」と「教師による超解像処理」が統合された技術において,最適なコスト関数がどのようなメカニズムで決まるかを明らかにする

Page 4: Divergence optimization based on trade-off between separation and extrapolation abilities in superresolution-based nonnegative matrix factorization (in Japanese)

4

従来法:教師あり NMF による音源分離• 分離したい目的音の教師 ( サンプル ) 音を事前に学習• 学習プロセスで教師スペクトル基底( dictionary ) を作成• 分離プロセスで目的音 と,非目的音 に分離

分離プロセス

教師基底 を固定し,他の変数を最適化

最適化

学習プロセス

教師音から作成した教師スペクトル基底

分離目的音の教師音

無相関にする罰則条件

Page 5: Divergence optimization based on trade-off between separation and extrapolation abilities in superresolution-based nonnegative matrix factorization (in Japanese)

5

提案法:超解像型 NMF 及びハイブリッド手法

• 方位クラスタリング [Araki, 2007], [Miyabe, 2009]

– ステレオ信号による方位情報のクラスタリングを用いた分解手法

• ハイブリッド手法 [Kitamura, 2013]

L-ch

am

plitu

de

R-ch amplitude

:音源成分:重心ベクトルRight cluster

L R

Center clusterLeft cluster

L R

方位クラスタリン

方位情報を用いた分解 スペクトル情報を用いた分解

超解像型教師あり

NMF

Page 6: Divergence optimization based on trade-off between separation and extrapolation abilities in superresolution-based nonnegative matrix factorization (in Japanese)

6

• 前段 : 方位クラスタリング– スペクトログラム上でのハードクラスタリング

• 後段: 超解像型教師あり NMF [Kitamura, 2013]

– 前段処理によって生成されるバイナリマスク を用いる– 欠落したグリッドを無視し,残った成分だけに教師あり NMF を適用– 欠落した目的音源成分は教師スペクトルによって外挿され復元– 同一方位に存在する非目的音源成分を分離

提案法:超解像型 NMF 及びハイブリッド手法

1 0 0 0 0 0 0

0 1 1 0 0 1 1

1 0 0 0 0 0 0

0 1 0 1 1 0 1

1 0 0 0 0 0 0

1 1 1 0 1 1 0

TimeF

requ

ency

Time

Fre

quen

cy : 欠落

Time 要素毎の積

Fre

quen

cy

入力スペクトログラム バイナリマスク 分離された目的クラスタ

目的方位成分

非目的方位成分

Page 7: Divergence optimization based on trade-off between separation and extrapolation abilities in superresolution-based nonnegative matrix factorization (in Japanese)

7

提案法:超解像型 NMF 及びハイブリッド手法

Center RightLeftDirection

sour

ce c

ompo

nent

z

(b)

Center RightLeftDirection

sour

ce c

ompo

nent (a)

目的音源

Center RightLeftDirection

sour

ce c

ompo

nent (c)

外挿された目的音源成分

Freq

uenc

y of

Freq

uenc

y of

Freq

uenc

y of

After

Input

After

signal

directionalclustering

super-resolution-based SNMF

方位クラス

タリング

超解像型教師あり

NMF

バイナリマスク

Time

Fre

quen

cy入力スペクトログラム

目的方位成分

非目的方位成分

Time

Time

Fre

quen

cy

外挿して復元

Fre

quen

cy

: 欠落

分離された目的クラスタ

復元された目的成分

教師スペクトル基底

Page 8: Divergence optimization based on trade-off between separation and extrapolation abilities in superresolution-based nonnegative matrix factorization (in Japanese)

8

教師基底外挿における正則化• 欠落が極端に多いフレームでは外挿誤りを起こす危険がある• 超解像処理としての正則化が必要

4

3

2

1

0

Fre

quen

cy [k

Hz]

43210 Time [s]

外挿誤りの例F

requ

ency

: 欠落

目的成分がほぼ欠落したフレーム

分離された目的クラスタ

: それぞれ行列 の要素 ,

: 論理反転 ,

フロベニウスノルム最小化による正則化

Time

: フロベニウスノルム

Page 9: Divergence optimization based on trade-off between separation and extrapolation abilities in superresolution-based nonnegative matrix factorization (in Japanese)

9

• 従来は「ユークリッド距離」と「一般化 KL ダイバージェンス」規準のみが検討されていた

分解モデルとコスト関数

分解モデル :

コスト関数 ( ユークリッド距離規準 ):

教師スペクトル基底(固定)

正則化項 罰則項

: それぞれ行列 の要素 ,: 正則化項と罰則項の重み係

数 ,: 論理反転 ,

: フロベニウスノルム

Page 10: Divergence optimization based on trade-off between separation and extrapolation abilities in superresolution-based nonnegative matrix factorization (in Japanese)

10

• : -divergence 関数 [Eguchi, 2001]

– パラメータ の値に応じてダイバージェンスが変化– 特に, の時にユークリッド距離, の時に一般化 KL ダ

イバージェンス, の時に板倉 -斎藤擬距離に対応– 振幅ドメインの NMF による 音源分離では, 程度が高精度

コスト関数の一般化一般化コスト関数 :

正則化項罰則項

Page 11: Divergence optimization based on trade-off between separation and extrapolation abilities in superresolution-based nonnegative matrix factorization (in Japanese)

11

• コスト関数 を最小化することで変数 の反復型更新式が得られる

• 最小化問題は補助関数法を用いて解くことができる

一般化コスト関数に基づく更新式

更新式 :

Page 12: Divergence optimization based on trade-off between separation and extrapolation abilities in superresolution-based nonnegative matrix factorization (in Japanese)

12

• 4つのメロディからなるステレオの混合音源を作成• 中央に 2つ,左右 15° に 1つずつ音源を配置• 3種の楽器編成の MIDI 信号を用意,計 36 パターンの平均評価値

最適距離規範の確認実験 実験条件

Center

12 34

Left Right

目的音源

教師用音源信号

目的音源の音域をカバーする 2 オクターブの 24音階

Dataset Melody 1 Melody 2 Midrange BassNo. 1 Oboe Flute Piano TromboneNo. 2 Trumpet Violin Harpsichord FagottoNo. 3 Horn Clarinet Piano Cello

Page 13: Divergence optimization based on trade-off between separation and extrapolation abilities in superresolution-based nonnegative matrix factorization (in Japanese)

13

• その他の実験条件

• NMF コストのダイバージェンス と正則化コストのダイバージェンス のすべての組み合わせ( 16通り)で実験を行い,最適な を検討– は教師基底学習時と超解像時で常に統一

• 評価値は SDR, SIR, SAR を用いる [Vincent, 2006]

最適距離規範の確認実験 実験条件

観測信号3種のデータセット,合計 36 パターンのステレオMIDI 信号

教師信号目的音源と同じ MIDI 信号で音域をカバーする 2 オクターブの 24 音階からなる信号

分解ドメイン 振幅スペクトログラム基底数 教師基底 : 100, その他の基底 : 30重み係数 実験的に調整して定めた値

比較手法モノラルにミックスダウンした信号に罰則条件付き教師あり NMF (PSNMF) を適用

SDR :分離した目的音の品質SIR :目的音と非目的音の分離度合SAR :一連の処理で生じた歪みの少なさ

総合的な分離精度

Page 14: Divergence optimization based on trade-off between separation and extrapolation abilities in superresolution-based nonnegative matrix factorization (in Japanese)

14

• 各手法における評価値の平均を算出

• 従来の教師あり NMF では が最適だったが,超解像型教師あり NMF 及びそのハイブリッド手法では が最適– 最適なダイバージェンスがシフトしている

• 正則化コストのダイバージェンスは が極端に性能が悪く,他の値はほとんど差が無い

最適距離規範の確認実験 実験結果

20

15

10

5

0

SIR

[dB

]

0 1 2 3Value of NMF

10

8

6

4

2

0

SA

R [

dB]

0 1 2 3Value of NMF

12

10

8

6

4

2

0

SD

R [

dB]

0 1 2 3Value of NMF

0

PSNMF

Proposed hybrid method (reg = 0) Proposed hybrid method (reg = 1)

Proposed hybrid method (reg = 2) Proposed hybrid method (reg = 3)

Good

Bad

Page 15: Divergence optimization based on trade-off between separation and extrapolation abilities in superresolution-based nonnegative matrix factorization (in Japanese)

15

• 超解像型教師あり NMF には 2つのタスクがある

• 仮説 : 音源分離と基底外挿のそれぞれのタスクにおいて最適な NMF コストのダイバージェンス が異なるのではないか?

• 正味の外挿能力を測る実験

– 正則化コストの は最適値であった 1 に固定して実験

最適ダイバージェンスシフトの原因の仮説

目的音源のみの信号 成分が欠落した信号 復元された信号

バイナリマス

超解像NMF

音源の分離 教師基底を用いた外挿

超解像型教師あり

NMF

Page 16: Divergence optimization based on trade-off between separation and extrapolation abilities in superresolution-based nonnegative matrix factorization (in Japanese)

16

• 正則化コストのダイバージェンス は最適値の 1 に固定

• NMF コストのダイバージェンス は 1 よりも少し高い方が,外挿能力が高くなる

• ダイバージェンス が 0 に近づくと,学習された教師基底がスパースになる傾向がある

外挿能力の確認実験結果

20

15

10

5

0S

AR

[dB

]

0 1 2 3 4Value of NMF

Good

Bad

-10-8-6-4-20

Am

plitu

de [d

B]

543210Frequency [kHz]

-10-8-6-4-20

Am

plitu

de [d

B]

543210Frequency [kHz]

Page 17: Divergence optimization based on trade-off between separation and extrapolation abilities in superresolution-based nonnegative matrix factorization (in Japanese)

17

-10-8-6-4-20

Am

plitu

de [d

B]

543210Frequency [kHz]

ダイバージェンスの違いによる基底の変化• 事前学習時において の値が小さいと,教師基底はピー

クとスパース性が重視され,より局所的な特徴を捉える

• 逆に事前学習において の値が大きいと,教師基底は少し滑らかになり,より大局的な特徴を捉える

-10-8-6-4-20

Am

plitu

de [d

B]

543210Frequency [kHz] Attack Sustain Release

Am

plitu

de

Time

Decay

Attack

Decay

Sustain Release

Am

plitu

de

Time

Page 18: Divergence optimization based on trade-off between separation and extrapolation abilities in superresolution-based nonnegative matrix factorization (in Japanese)

18

最適ダイバージェンスのトレードオフ• 超解像型教師あり NMF 及びそのハイブリッド手法における

最適なダイバージェンスは音源分離能力と外挿能力のトレードオフとなる

– 振幅スペクトログラムにおける従来の教師あり NMF 分離では が高性能であったが,ハイブリッド手法では が高い性能となる

-10-8-6-4-20

Am

plitu

de [d

B]

543210Frequency [kHz]

-10-8-6-4-20

Am

plitu

de [d

B]

543210Frequency [kHz]

スパース性 : 強

スパース性 : 弱

Per

form

ance

分離能力

総合性能

外挿能力

Value of

Page 19: Divergence optimization based on trade-off between separation and extrapolation abilities in superresolution-based nonnegative matrix factorization (in Japanese)

19

まとめ• 超解像型教師あり NMF のコスト関数におい

て, NMF コストと正則化コストを -divergence で一般化

• 超解像型教師あり NMF 及びそのハイブリッド手法における最適なダイバージェンスを実験的に確認

• 音源分離能力と教師基底外挿能力のトレードオフから,最適なダイバージェンスがシフトする現象を確認