方位クラスタリングと非負値行列因子分解を用いた音像深度自動推定...

奈良先端科学技術大学院大学☆ 宮内智 , 北村大地 , 猿渡洋 , 中村哲

方位クラスタリングと非負値行列因子分解を用いた音像深度自動推定

2

発表内容

研究背景と関連研究課題と研究目的提案手法

- DOA ヒストグラム- アクティベーション同期型マルチチャネル

NMF 評価実験まとめと今後の課題

研究背景

3D TV 等の普及により “深度：奥行き感” のある映像が呈示可能

音像に深度を与えることが可能な音響システムは確立していない

映像と音像の位置が一致せず知覚上の違和感が生じる

混合音全体が移動することによる違和感が生じる

問題1

映像音像

映像音像

: 音像

: 音像

3D TV

3D TV

一方

問題2

3

関連研究

複数のラウドスピーカアレイを用い

音像を呈示することが可能な技術

Wave Field Synthesis (WFS)

問題 1 の関連研究

3D 立体映像と一致する音像呈示

[A. J. Berkhout, et al., 1993]

…… …

方位クラスタリングに基づく音源分離

[S. Araki, et al., 2007]

問題 2 の関連研究

混合音に含まれる各音像の分離

受聴者

ステレオ信号の左右チャネル信号から方位を取得し音源分離

4

5

方位クラスタリングに基づく方位分解

： Source component 　　　　： Spatial representative vector

L-ch

inpu

t sig

nal

R-ch input signal

L-ch

inpu

t sig

nal

R-ch input signal

Normalization Clustering

混合信号

L-ch

inpu

t sig

nal

R-ch input signal

各クラスタ毎の分離信号

6

?

課題と研究目的

DOA (direction of arrival) を用いたマルチチャネル音源中の音像深度推定

提案手法

一次音源の深度に関する推定どの様に音像の深度情報を取得するか ?

本研究の目的

課題既存コンテンツは定位情報が失われておりそのままでは WFS に適用することができない．

Up-mixer

一次音源の方位に関しては推定可能逆 VBAP による一次音源の方位推定 [Hirata, et al., 2012]

→ direction of arrival ：音の到来方向 DOA の分布を利用し音像深度の推定

Center RightLeft

Freq

uenc

y

Direction of arrival

方位クラスタリングに基づく音源分離

重み付け DOA ヒストグラム

DOA

振幅値

7

方位

重み付け項

提案手法： DOA に基づく音像深度推定

8

提案手法： DOA に基づく音像深度推定

sour

ce c

ompo

nent

Freq

uenc

y of

sour

ce c

ompo

nent

Freq

uenc

y of

FarDirection of arrival

Near

裾野は広く頻度値は小ヒストグラムの分散値が大

音源深度による DOA ヒストグラム形状の違い

DOA ヒストグラムの分散値から音像深度の推定を行う

裾野は狭く頻度値は大ヒストグラムの分散値が小

音源が近い

音源が遠い

Direction of arrival

DOA に基づく音像深度推定

信号処理上の問題点

L-ch

R-ch

レベルの小さな雑音成分も過大に

扱われてしまい目的音が埋もれる

L-ch

inp

ut s

igna

l

R-ch input signalBinaural – recorded

Noise

正規化問題

9

DOA

Freq

uenc

y

CenterRightLeft

背景雑音やデジタル信号処理で生じる人工的なノイズの抑圧が必要そのまま適用しただけでは目的音の真の分散値が評価できない．

アクティベーション同期型マルチチャネル NMF

改良手法

10


Time

Freq

uenc

y

Amplitude

Freq

uenc

y

Ampl

itude

Time

: 周波数ビン数: 時間フレーム数: 基底数

非負値行列因子分解 (nonnegative matrix factorization: NMF)

が現れるタイミング

及び音量を表現する

非負行列を 2 つの非負行列の行列積で表現する．　　　　　→ 特徴的なパターンが基底となって現れる特徴を持つ．　　　　　この性質を利用し目的信号成分の抽出を行う．　

基底行列スペクトログラム

アクティベーション行列

スペクトログラム中で頻出

するスペクトルパターン

× 左右チャネル別々に NMF 処理を行うと方位情報 (振幅比 ) が乱れる．

11

L-chNMF

R-chNMF

問題

?

Freq

uenc

y

DOA

チャネル毎に NMF で

処理すると基底が無相関に学習される．

アクティベーション共有型マルチチャネル NMF

方位情報

フレーム周波数ビン毎の振幅比

方位情報が乱れ本来の DOA の

分布が不明に

12

方位情報を保存しつつ目的音源抽出

コスト関数

アクティベーション

を共有


改良手法

: コスト関数 ,

: βダイバージェンス ,

: 　　　　　中の各要素


L-chNMF

R-chNMF

一般化距離関数 -divergence [Eguchi, et al., 2001]

: ユークリッド距離: 一般化 KLダイバージェ

ンス: 板倉 -斉藤擬距離スパース性が重視

された距離尺度に


更新式導出は補助関数法を用いるコスト関数の上限を与える補助関数を定義コスト関数を間接的に最小化


14

距離関数に b -divergence を用いた場合の更新式を導出し，超解像に基づく教師あり NMF において最適な距離規範の検討を

行う

-divergence を用いて

　　コスト関数 ( 上式 ) の第一項，第二項はの値に応じて　凸関数 (convex) か関数 (concave) になる．

concaveconvexconvex

concave

convexconcave


15

　　各項の上限関数は以下の不等式を用いて設計できる凸関数 : Jensen の不等式

凹関数 : 接線不等式: 凸関数

: 凹関数


16


補助関数を各変数で微分し，補助変数の等号成立条件を代入することで更新式を導出

17

はそれぞれの要素

提案手法フロー

Input stereo signalL-ch R-ch

STFT

Cluster RCluster C Cluster L

Weighted DOA histogram

estimationVariance

estimationVariance

estimationVariance

shared NMFActivation

Freq

uenc

y

DOA各クラスタの DOA ヒストグラムの分散値を

評価することにより音像深度を推定

Freq

uenc

y

DOA

Freq

uenc

y

DOA



18

19

3種類の楽器の混合音源距離の違う 3 つの目的音ピンクノイズを混合した音源についても評価方位の組み合わせ : 6通り目的音の距離： 3通りノイズ付加率の違い： 4通り

評価実験

Mixing source parameter

Test source 1, 2, 3

SNR

NMF beta

NMF basis

実験条件

Interference

Target

1.5 m 0.5 m2.5 m

Dummy

Interference source

head

source

source

重み付けのみ提案法 1

提案法 2 重み付け + NMF 処理

72個のテストセット

評価実験

0.0

0.5

1.0

1.5

2.0

0.0

0.5

1.0

1.5

2.0

Depth of sound source

Var

ianc

e of

his

togr

amV

aria

nce

of h

isto

gram

Var

ianc

e of

his

togr

amV

aria

nce

of h

isto

gram (d)

(a)

(c)

(b)：Proposed 　 method 1

結果 3 つの音源距離間で有意な推定が行われた．全条件において提案法 2 の結果が若干優位ノイズの強い音源に関しても頑健性が示唆された．

(a) signal only

(b) signal with pink noise (SNR=30 dB)

(c) signal with pink noise (SNR=20 dB)

(d) signal with pink noise (SNR=１ 0 dB)

：Proposed 　 method 2

0.5 m 1.5 m 2.5 m

0.0

0.5

1.0

1.5

2.0

0.0

0.5

1.0

1.5

2.0

0.5 m 1.5 m 2.5 m

0.5 m 1.5 m 2.5 m0.5 m 1.5 m 2.5 mDepth of sound source

Depth of sound sourceDepth of sound source

20

21

まとめと今後の課題

まとめ !

波面合成法で必要となる音像深度の推定手法として， DOA ヒストグラムの分散値を評価することを提案した．

改良手法として，アクティベーション共有型マルチチャネル NMF を提案した．

音源距離の違いに応じて特徴量に有意な差が見られ，音像深度の推定に対する提案法の有効性が示された．

別条件の音源に対する評価実験の実施音像定位推定を波面合成法へ適用し，実音場で再現を

行った合成音源に対する主観評価実験の実施

まとめ

今後の課題

方位クラスタリングと非負値行列因子分解を用いた音像深度自動推定...

Engineering

Transcript of 方位クラスタリングと非負値行列因子分解を用いた音像深度自動推定...