Divergence optimization based on trade-off between separation and extrapolation abilities in...
-
Upload
daichi-kitamura -
Category
Engineering
-
view
134 -
download
7
Transcript of Divergence optimization based on trade-off between separation and extrapolation abilities in...
Divergence optimization based on trade-off between separation and extrapolation abilities in
superresolution-based nonnegative matrix factorization
超解像型非負値行列因子分解における分離性能と外挿能力のトレードオフに基づく最適なダイバージェンスの検討
☆ 北村大地 , 猿渡洋 , 中村哲(奈良先端科学技術大学院大学)
高橋祐 , 近藤多伸(ヤマハ株式会社)
2
• 音源分離 : 複数の音源から成る混合音から特定の音源を分離• 非負値行列因子分解( nonnegative matrix factorization: NMF ) [Lee,
2001]
– スパース分解表現による特徴量抽出手法
• 一般に各音源毎に基底を選別することは困難• 目的音源の基底を学習する教師あり NMF [Smaragdis, 2010], [Yagi,
2012]
背景 : 非負値行列因子分解による音源分離
Amplitude
Ampl
itude
観測スペクトログラム
基底スペクトル行列
アクティベーション行列
Time
: 周波数ビン数: 時間フレーム数: 基底数
Time
Freq
uenc
y
Freq
uenc
y
3
本発表における目的• 頑健なマルチチャネル信号分離手法として,超解像型教師あ
り NMF 及びそのハイブリッド手法を提案 [Kitamura, 2013]
L R
方位に関する分解
超解像型教師あり
NMF
超解像型教師あり NMF に関して,コスト関数をパラメトリックに拡張した一般化アルゴリズムを提案する
「スパース分解表現」と「教師による超解像処理」が統合された技術において,最適なコスト関数がどのようなメカニズムで決まるかを明らかにする
4
従来法:教師あり NMF による音源分離• 分離したい目的音の教師 ( サンプル ) 音を事前に学習• 学習プロセスで教師スペクトル基底( dictionary ) を作成• 分離プロセスで目的音 と,非目的音 に分離
分離プロセス
教師基底 を固定し,他の変数を最適化
最適化
学習プロセス
教師音から作成した教師スペクトル基底
分離目的音の教師音
無相関にする罰則条件
5
提案法:超解像型 NMF 及びハイブリッド手法
• 方位クラスタリング [Araki, 2007], [Miyabe, 2009]
– ステレオ信号による方位情報のクラスタリングを用いた分解手法
• ハイブリッド手法 [Kitamura, 2013]
L-ch
am
plitu
de
R-ch amplitude
:音源成分:重心ベクトルRight cluster
L R
Center clusterLeft cluster
L R
方位クラスタリン
グ
方位情報を用いた分解 スペクトル情報を用いた分解
超解像型教師あり
NMF
6
• 前段 : 方位クラスタリング– スペクトログラム上でのハードクラスタリング
• 後段: 超解像型教師あり NMF [Kitamura, 2013]
– 前段処理によって生成されるバイナリマスク を用いる– 欠落したグリッドを無視し,残った成分だけに教師あり NMF を適用– 欠落した目的音源成分は教師スペクトルによって外挿され復元– 同一方位に存在する非目的音源成分を分離
提案法:超解像型 NMF 及びハイブリッド手法
1 0 0 0 0 0 0
0 1 1 0 0 1 1
1 0 0 0 0 0 0
0 1 0 1 1 0 1
1 0 0 0 0 0 0
1 1 1 0 1 1 0
TimeF
requ
ency
Time
Fre
quen
cy : 欠落
Time 要素毎の積
Fre
quen
cy
入力スペクトログラム バイナリマスク 分離された目的クラスタ
目的方位成分
非目的方位成分
7
提案法:超解像型 NMF 及びハイブリッド手法
Center RightLeftDirection
sour
ce c
ompo
nent
z
(b)
Center RightLeftDirection
sour
ce c
ompo
nent (a)
目的音源
Center RightLeftDirection
sour
ce c
ompo
nent (c)
外挿された目的音源成分
Freq
uenc
y of
Freq
uenc
y of
Freq
uenc
y of
After
Input
After
signal
directionalclustering
super-resolution-based SNMF
方位クラス
タリング
超解像型教師あり
NMF
バイナリマスク
Time
Fre
quen
cy入力スペクトログラム
目的方位成分
非目的方位成分
Time
Time
Fre
quen
cy
外挿して復元
Fre
quen
cy
: 欠落
分離された目的クラスタ
復元された目的成分
教師スペクトル基底
8
教師基底外挿における正則化• 欠落が極端に多いフレームでは外挿誤りを起こす危険がある• 超解像処理としての正則化が必要
4
3
2
1
0
Fre
quen
cy [k
Hz]
43210 Time [s]
外挿誤りの例F
requ
ency
: 欠落
目的成分がほぼ欠落したフレーム
分離された目的クラスタ
: それぞれ行列 の要素 ,
: 論理反転 ,
フロベニウスノルム最小化による正則化
Time
: フロベニウスノルム
9
• 従来は「ユークリッド距離」と「一般化 KL ダイバージェンス」規準のみが検討されていた
分解モデルとコスト関数
分解モデル :
コスト関数 ( ユークリッド距離規準 ):
教師スペクトル基底(固定)
正則化項 罰則項
: それぞれ行列 の要素 ,: 正則化項と罰則項の重み係
数 ,: 論理反転 ,
: フロベニウスノルム
10
• : -divergence 関数 [Eguchi, 2001]
– パラメータ の値に応じてダイバージェンスが変化– 特に, の時にユークリッド距離, の時に一般化 KL ダ
イバージェンス, の時に板倉 -斎藤擬距離に対応– 振幅ドメインの NMF による 音源分離では, 程度が高精度
コスト関数の一般化一般化コスト関数 :
正則化項罰則項
11
• コスト関数 を最小化することで変数 の反復型更新式が得られる
• 最小化問題は補助関数法を用いて解くことができる
一般化コスト関数に基づく更新式
更新式 :
12
• 4つのメロディからなるステレオの混合音源を作成• 中央に 2つ,左右 15° に 1つずつ音源を配置• 3種の楽器編成の MIDI 信号を用意,計 36 パターンの平均評価値
最適距離規範の確認実験 実験条件
Center
12 34
Left Right
目的音源
教師用音源信号
目的音源の音域をカバーする 2 オクターブの 24音階
Dataset Melody 1 Melody 2 Midrange BassNo. 1 Oboe Flute Piano TromboneNo. 2 Trumpet Violin Harpsichord FagottoNo. 3 Horn Clarinet Piano Cello
13
• その他の実験条件
• NMF コストのダイバージェンス と正則化コストのダイバージェンス のすべての組み合わせ( 16通り)で実験を行い,最適な を検討– は教師基底学習時と超解像時で常に統一
• 評価値は SDR, SIR, SAR を用いる [Vincent, 2006]
最適距離規範の確認実験 実験条件
観測信号3種のデータセット,合計 36 パターンのステレオMIDI 信号
教師信号目的音源と同じ MIDI 信号で音域をカバーする 2 オクターブの 24 音階からなる信号
分解ドメイン 振幅スペクトログラム基底数 教師基底 : 100, その他の基底 : 30重み係数 実験的に調整して定めた値
比較手法モノラルにミックスダウンした信号に罰則条件付き教師あり NMF (PSNMF) を適用
SDR :分離した目的音の品質SIR :目的音と非目的音の分離度合SAR :一連の処理で生じた歪みの少なさ
総合的な分離精度
14
• 各手法における評価値の平均を算出
• 従来の教師あり NMF では が最適だったが,超解像型教師あり NMF 及びそのハイブリッド手法では が最適– 最適なダイバージェンスがシフトしている
• 正則化コストのダイバージェンスは が極端に性能が悪く,他の値はほとんど差が無い
最適距離規範の確認実験 実験結果
20
15
10
5
0
SIR
[dB
]
0 1 2 3Value of NMF
10
8
6
4
2
0
SA
R [
dB]
0 1 2 3Value of NMF
12
10
8
6
4
2
0
SD
R [
dB]
0 1 2 3Value of NMF
0
PSNMF
Proposed hybrid method (reg = 0) Proposed hybrid method (reg = 1)
Proposed hybrid method (reg = 2) Proposed hybrid method (reg = 3)
Good
Bad
15
• 超解像型教師あり NMF には 2つのタスクがある
• 仮説 : 音源分離と基底外挿のそれぞれのタスクにおいて最適な NMF コストのダイバージェンス が異なるのではないか?
• 正味の外挿能力を測る実験
– 正則化コストの は最適値であった 1 に固定して実験
最適ダイバージェンスシフトの原因の仮説
目的音源のみの信号 成分が欠落した信号 復元された信号
バイナリマス
ク
超解像NMF
音源の分離 教師基底を用いた外挿
超解像型教師あり
NMF
16
• 正則化コストのダイバージェンス は最適値の 1 に固定
• NMF コストのダイバージェンス は 1 よりも少し高い方が,外挿能力が高くなる
• ダイバージェンス が 0 に近づくと,学習された教師基底がスパースになる傾向がある
外挿能力の確認実験結果
20
15
10
5
0S
AR
[dB
]
0 1 2 3 4Value of NMF
Good
Bad
-10-8-6-4-20
Am
plitu
de [d
B]
543210Frequency [kHz]
-10-8-6-4-20
Am
plitu
de [d
B]
543210Frequency [kHz]
17
-10-8-6-4-20
Am
plitu
de [d
B]
543210Frequency [kHz]
ダイバージェンスの違いによる基底の変化• 事前学習時において の値が小さいと,教師基底はピー
クとスパース性が重視され,より局所的な特徴を捉える
• 逆に事前学習において の値が大きいと,教師基底は少し滑らかになり,より大局的な特徴を捉える
-10-8-6-4-20
Am
plitu
de [d
B]
543210Frequency [kHz] Attack Sustain Release
Am
plitu
de
Time
Decay
Attack
Decay
Sustain Release
Am
plitu
de
Time
18
最適ダイバージェンスのトレードオフ• 超解像型教師あり NMF 及びそのハイブリッド手法における
最適なダイバージェンスは音源分離能力と外挿能力のトレードオフとなる
– 振幅スペクトログラムにおける従来の教師あり NMF 分離では が高性能であったが,ハイブリッド手法では が高い性能となる
-10-8-6-4-20
Am
plitu
de [d
B]
543210Frequency [kHz]
-10-8-6-4-20
Am
plitu
de [d
B]
543210Frequency [kHz]
スパース性 : 強
スパース性 : 弱
Per
form
ance
分離能力
総合性能
外挿能力
Value of
19
まとめ• 超解像型教師あり NMF のコスト関数におい
て, NMF コストと正則化コストを -divergence で一般化
• 超解像型教師あり NMF 及びそのハイブリッド手法における最適なダイバージェンスを実験的に確認
• 音源分離能力と教師基底外挿能力のトレードオフから,最適なダイバージェンスがシフトする現象を確認