ICASSP2017読み会 (Deep Learning III) [電通大 中鹿先生]

Post on 22-Jan-2018

414 views 2 download

Transcript of ICASSP2017読み会 (Deep Learning III) [電通大 中鹿先生]

MLSP-L6Deep Learning III

中鹿 亘(電通大)

2017.6.24 ICASSP2017読み会

※スライド中の図表はオリジナルの論文から引用しています

自己紹介• 中鹿 亘

• 出身大学

• 神戸大学 大学院システム情報学研究科 博士(工学)

• 職歴

• 神戸大学 助教(2014~2015)

• 電気通信大学 助教(2015~)

• 研究分野

• ディープラーニング、ボルツマン分布、音声・画像認識、声質変換

紹介する論文

1. Reconstruction-Error-Based Learning for Continuous Emotion Recognition in Speech J. Han, Z. Zhang, F. Ringeval, and B. Schuller

2. Disjunctive Normal Shape Boltzmann Machine E. Erdil, F. Mesadi, T. Tasdizen, and M. Cetin

3. Inferring Latent States in a Network Influenced by Neighbor Activities: an Undirected Generative Approach B. L. Samarakoon, M. N. Murthi, and K. Premaratne

MLSP-L6 Deep Learning III

1. Reconstruction-Error-Based Learning for Continuous Emotion Recognition in Speech J. Han, Z. Zhang, F. Ringeval, and B. Schuller

概要

• タスクは?連続感情認識

• どうやる?2つのRNNをくっつける

• 結果は?従来(1つのRNN)よりも良くなった

連続感情:arousal(興奮)とvalence(感情の度合い)

提案フレームワーク

• Model1とModel2は、同じ構造のBLSTM

• Model1を学習した後、Model2を学習する

MFCCなど 連続感情

提案フレームワーク

• Model1とModel2は、同じ構造のBLSTM

• Model1を学習した後、Model2を学習する

MFCCなど 連続感情

著者たちの主張:Model1でモデルの”弱点”(再構築エラー)を学習し、弱点を知っているModel2では予測精度が上がるであろう

実験結果

提案手法(MFCC+powerの13次元のフレーム特徴量)

提案手法(MFCC+powerの8秒セグメントの26次元の統計量)

従来手法(1つのBLSTM、MFCC+powerの13次元のフレーム特徴量?)

Pearson’s Correlation Coefficient

実験結果

再構築エラーとarousal改善との相関はほとんどない 再構築エラーとvalence改善

との相関はある

2. Disjunctive Normal Shape Boltzmann Machine E. Erdil, F. Mesadi, T. Tasdizen, and M. Cetin

概要

• 何をしようとしている?RBMを拡張(DNSBM)してシルエット画像をうまく表現

• どうやる?SBMとDNSMを組み合わせる

• 結果は?従来(SBM)よりも実データに近いサンプルが生成できた

Restricted Boltzmann Machine

Disjunctive Normal Shape Boltzmann Machine

Shape Boltzmann Machine

Disjunctive Normal Shape Model

従来手法1:SBM

RBM SBM

Shape Boltzmann Machine

従来手法1:SBM

RBM SBM

SBMの問題点• それぞれのパッチが、必ずしも正しいパーツと対応付いていない

変なものがサンプリングされてしまう可能性がある!

• そこで、正しい(正しそうな)パーツと対応付けて学習させる

提案手法の流れ

DNSMでセグメンテーション

DNSBMを学習 DNSBM

(従来手法) (提案手法) ≒ SBM

従来手法2:DNSM• どんな形状(シルエット)でも、convex polytope(凸多面体)の集合で近似できる

Disjunctive Normal Shape Model

convex polytopeの例

≒ { }convex polytopeの集合ある形状

従来手法2:DNSMDisjunctive Normal

Shape Model

• ある形状 Ω+ の定式化:

• あるconvex polytope: Pi の定式化:

従来手法2:DNSMDisjunctive Normal

Shape Model

• ある形状 Ω+ の定式化:

• ある点 x が前景であるかどうかを返す関数 f(x) は

ド・モルガンより

微分できるように

従来手法2:DNSMDisjunctive Normal

Shape Model

• ある点 x が前景であるかどうかを返す関数 f(x) は

• 最小化したい評価関数はt個目の学習データ

データとモデルの近さ 多面体が互いに異なるように

実験結果

- Walking silhouette data set of 150 binary images, each of which has 170x170 pixels.- 1000 units for h1, and 50 units for h2.- DNSM was processed using 6 polytopes.

実験結果

3. Inferring Latent States in a Network Influenced by Neighbor Activities: an Undirected Generative Approach B. L. Samarakoon, M. N. Murthi, and K. Premaratne

概要• 何をしようとしている? 動的に変化するneighbors(近接ノード)と隠れ状態の関係性をよく表現する新しいグラフィカルモデルを提案

• どうやる?Energy-basedモデルで、隠れ状態とneighborsの関係性を記述

• 結果は?人工データを用いた実験で、SVMよりも隠れ状態の推定精度が高かった

ちょっと疑問

To the best of our knowledge, no undirected models have been applied to modeling neighbor influence and hidden variables in networks.

定式化• あるノード i のneighborsの定義:

全ノード(ユーザ)集合隣接行列

• 表現したい確率分布:隠れ状態(世論)系列

観測されるユーザカウント系列e.g., the number of postings of a certain category or number of infected people in a contact network

users may change their political biases depending on their neighbors’ postings but they may not wish to express these changes explicitly

定式化

• この確率分布を、2つのファクターで定義したい:

1.隠れ状態と近接ノードから受けるファクター ψA

2.隠れ状態とユーザアクティビティによるファクター ψB

定式化• 隠れ状態と近接ノードから受けるファクター ψA の定義:

定式化• 隠れ状態とユーザアクティビティによるファクターψBの定義:

定式化• 二つ合わせて確率分布を定義:

定式化• 式を変形:

隠れ状態の推測• 観測データから隠れ状態を推測したい:

計算困難! → 変分近似法を用いる

変分近似• 近似分布を定義:

多項分布と仮定

多項分布のパラメータ

• 近似分布と目標分布とのKL距離:

変分近似

• 式を変形:

変分近似• 式をさらに変形:

変分近似• 式をさらに変形: q と f のKL距離になってる!

変分近似• 結局、KL(Q||F)を最小とするFは、KL(Q||P)も最小とするので、

を用いてP(X|Z)を近似する

パラメータ推定• 対数尤度を最小化するように、SGDでパラメータを推定:

評価実験

1. 隠れ状態と観測データを人工的に生成して、学習

2. 観測データから推測した隠れ状態と、正解の隠れ状態がどれほど一致するかを見る

3. 従来手法(SVMとCox)による推測結果と比較

評価実験

• SVMはすべてのサンプルが独立であると仮定しているため、精度が微妙

• Coxは時間変動を考慮している分SVMよりは良いが、ユーザ間の関係性は考慮していないため提案法に負ける

紹介した論文

1. Reconstruction-Error-Based Learning for Continuous Emotion Recognition in Speech エラー抽出器と識別器の2つのRNNを直列につないで連続感情認識

2. Disjunctive Normal Shape Boltzmann Machine セグメンテーションとSBMを組み合わせてシルエット画像モデリング

3. Inferring Latent States in a Network Influenced by Neighbor Activities: an Undirected Generative Approach ダイナミックに変化する隠れ状態とユーザ嗜好をモデリング