方位クラスタリングと非負値行列因子分解を用いた音像深度自動推定...
-
Upload
daichi-kitamura -
Category
Engineering
-
view
294 -
download
2
Transcript of 方位クラスタリングと非負値行列因子分解を用いた音像深度自動推定...
奈良先端科学技術大学院大学☆ 宮内智 , 北村大地 , 猿渡洋 , 中村哲
方位クラスタリングと非負値行列因子分解を用いた音像深度自動推定
2
発表内容
研究背景と関連研究 課題と研究目的 提案手法
- DOA ヒストグラム- アクティベーション同期型マルチチャネル
NMF 評価実験 まとめと今後の課題
研究背景
3D TV 等の普及により “深度:奥行き感” のある映像が呈示可能
音像に深度を与えることが可能な音響システムは確立していない
映像と音像の位置が一致せず知覚上の違和感が生じる
混合音全体が移動することによる違和感が生じる
問題1
映像 音像
映像 音像
: 音像
: 音像
3D TV
3D TV
一方
問題2
3
関連研究
複数のラウドスピーカアレイを用い
音像を呈示することが可能な技術
Wave Field Synthesis (WFS)
問題 1 の関連研究
3D 立体映像と一致する音像呈示
[A. J. Berkhout, et al., 1993]
…… …
方位クラスタリングに基づく音源分離
[S. Araki, et al., 2007]
問題 2 の関連研究
混合音に含まれる各音像の分離
受聴者
ステレオ信号の左右チャネル信号から方位を取得し音源分離
4
5
方位クラスタリングに基づく方位分解
: Source component : Spatial representative vector
L-ch
inpu
t sig
nal
R-ch input signal
L-ch
inpu
t sig
nal
R-ch input signal
Normalization Clustering
混合信号
L-ch
inpu
t sig
nal
R-ch input signal
各クラスタ毎の分離信号
6
?
課題と研究目的
DOA (direction of arrival) を用いたマルチチャネル音源中の音像深度推定
提案手法
一次音源の深度に関する推定どの様に音像の深度情報を取得するか ?
本研究の目的
課題 既存コンテンツは定位情報が失われておりそのままでは WFS に適用することができない.
Up-mixer
一次音源の方位に関しては推定可能逆 VBAP による一次音源の方位推定 [Hirata, et al., 2012]
→ direction of arrival : 音の到来方向 DOA の分布を利用し音像深度の推定
Center RightLeft
Freq
uenc
y
Direction of arrival
方位クラスタリングに基づく音源分離
重み付け DOA ヒストグラム
DOA
振幅値
7
方位
重み付け項
提案手法: DOA に基づく音像深度推定
8
提案手法: DOA に基づく音像深度推定
sour
ce c
ompo
nent
Freq
uenc
y of
sour
ce c
ompo
nent
Freq
uenc
y of
FarDirection of arrival
Near
裾野は広く頻度値は小ヒストグラムの分散値が大
音源深度による DOA ヒストグラム形状の違い
DOA ヒストグラムの分散値から音像深度の推定を行う
裾野は狭く頻度値は大ヒストグラムの分散値が小
音源が近い
音源が遠い
Direction of arrival
DOA に基づく音像深度推定
信号処理上の問題点
L-ch
R-ch
レベルの小さな雑音成分も過大に
扱われてしまい目的音が埋もれる
L-ch
inp
ut s
igna
l
R-ch input signalBinaural – recorded
Noise
正規化問題
9
DOA
Freq
uenc
y
CenterRightLeft
背景雑音やデジタル信号処理で生じる人工的なノイズの抑圧が必要そのまま適用しただけでは目的音の真の分散値が評価できない.
アクティベーション同期型マルチチャネル NMF
改良手法
10
アクティベーション同期型マルチチャネル NMF
Time
Freq
uenc
y
Amplitude
Freq
uenc
y
Ampl
itude
Time
: 周波数ビン数: 時間フレーム数: 基底数
非負値行列因子分解 (nonnegative matrix factorization: NMF)
が現れるタイミング
及び音量を表現する
非負行列を 2 つの非負行列の行列積で表現する. → 特徴的なパターンが基底となって現れる特徴を持つ. この性質を利用し目的信号成分の抽出を行う.
基底行列スペクトログラム
アクティベーション行列
スペクトログラム中で頻出
するスペクトルパターン
× 左右チャネル別々に NMF 処理を行うと方位情報 (振幅比 ) が乱れる.
11
L-chNMF
R-chNMF
問題
?
Freq
uenc
y
DOA
チャネル毎に NMF で
処理すると基底が無相関に学習される.
アクティベーション共有型マルチチャネル NMF
方位情報
フレーム周波数ビン毎の振幅比
方位情報が乱れ本来の DOA の
分布が不明に
12
方位情報を保存しつつ目的音源抽出
コスト関数
アクティベーション
を共有
アクティベーション同期型マルチチャネル NMF
改良手法
: コスト関数 ,
: βダイバージェンス ,
: 中の各要素
アクティベーション共有型マルチチャネル NMF
L-chNMF
R-chNMF
一般化距離関数 -divergence [Eguchi, et al., 2001]
: ユークリッド距離: 一般化 KLダイバージェ
ンス: 板倉 -斉藤擬距離 スパース性が重視
された距離尺度に
アクティベーション共有型マルチチャネル NMF
更新式導出は補助関数法を用いる コスト関数 の上限を与える補助関数を定義 コスト関数を間接的に最小化
アクティベーション共有型マルチチャネル NMF
14
距離関数に b -divergence を用いた場合の更新式を導出し,超解像に基づく教師あり NMF において最適な距離規範の検討を
行う
-divergence を用いて
コスト関数 ( 上式 ) の第一項,第二項は の値に応じて 凸関数 (convex) か関数 (concave) になる.
concaveconvexconvex
concave
convexconcave
アクティベーション共有型マルチチャネル NMF
15
各項の上限関数は以下の不等式を用いて設計できる凸関数 : Jensen の不等式
凹関数 : 接線不等式: 凸関数
: 凹関数
アクティベーション共有型マルチチャネル NMF
16
アクティベーション共有型マルチチャネル NMF
補助関数を各変数で微分し,補助変数の等号成立条件を代入することで更新式を導出
17
はそれぞれ の要素
提案手法フロー
Input stereo signalL-ch R-ch
STFT
Cluster RCluster C Cluster L
Weighted DOA histogram
estimationVariance
estimationVariance
estimationVariance
shared NMFActivation
Freq
uenc
y
DOA各クラスタの DOA ヒストグラムの分散値を
評価することにより音像深度を推定
Freq
uenc
y
DOA
Freq
uenc
y
DOA
shared NMFActivation
shared NMFActivation
18
19
3種類の楽器の混合音源 距離の違う 3 つの目的音 ピンクノイズを混合した音源についても評価 方位の組み合わせ : 6通り 目的音の距離: 3通り ノイズ付加率の違い: 4通り
評価実験
Mixing source parameter
Test source 1, 2, 3
SNR
NMF beta
NMF basis
実験条件
Interference
Target
1.5 m 0.5 m2.5 m
Dummy
Interference source
head
source
source
重み付けのみ提案法 1
提案法 2 重み付け + NMF 処理
72個のテストセット
評価実験
0.0
0.5
1.0
1.5
2.0
0.0
0.5
1.0
1.5
2.0
Depth of sound source
Var
ianc
e of
his
togr
amV
aria
nce
of h
isto
gram
Var
ianc
e of
his
togr
amV
aria
nce
of h
isto
gram (d)
(a)
(c)
(b):Proposed method 1
結果 3 つの音源距離間で有意な推定が行われた. 全条件において提案法 2 の結果が若干優位 ノイズの強い音源に関しても頑健性が示唆された.
(a) signal only
(b) signal with pink noise (SNR=30 dB)
(c) signal with pink noise (SNR=20 dB)
(d) signal with pink noise (SNR=1 0 dB)
:Proposed method 2
0.5 m 1.5 m 2.5 m
0.0
0.5
1.0
1.5
2.0
0.0
0.5
1.0
1.5
2.0
0.5 m 1.5 m 2.5 m
0.5 m 1.5 m 2.5 m0.5 m 1.5 m 2.5 mDepth of sound source
Depth of sound sourceDepth of sound source
20
21
まとめと今後の課題
まとめ !
波面合成法で必要となる音像深度の推定手法として, DOA ヒストグラムの分散値を評価することを提案した.
改良手法として,アクティベーション共有型マルチチャネル NMF を提案した.
音源距離の違いに応じて特徴量に有意な差が見られ,音像深度の推定に対する提案法の有効性が示された.
別条件の音源に対する評価実験の実施音像定位推定を波面合成法へ適用し,実音場で再現を
行った合成音源に対する主観評価実験の実施
まとめ
今後の課題