ICASSP2017読み会 (Deep Learning III) [電通大 中鹿先生]

40
MLSP-L6 Deep Learning III 中鹿 (電通大) 2017.6.24 ICASSP2017読み会 スライド中の図表はオリジナルの論文から引用しています

Transcript of ICASSP2017読み会 (Deep Learning III) [電通大 中鹿先生]

Page 1: ICASSP2017読み会 (Deep Learning III) [電通大 中鹿先生]

MLSP-L6Deep Learning III

中鹿 亘(電通大)

2017.6.24 ICASSP2017読み会

※スライド中の図表はオリジナルの論文から引用しています

Page 2: ICASSP2017読み会 (Deep Learning III) [電通大 中鹿先生]

自己紹介• 中鹿 亘

• 出身大学

• 神戸大学 大学院システム情報学研究科 博士(工学)

• 職歴

• 神戸大学 助教(2014~2015)

• 電気通信大学 助教(2015~)

• 研究分野

• ディープラーニング、ボルツマン分布、音声・画像認識、声質変換

Page 3: ICASSP2017読み会 (Deep Learning III) [電通大 中鹿先生]

紹介する論文

1. Reconstruction-Error-Based Learning for Continuous Emotion Recognition in Speech J. Han, Z. Zhang, F. Ringeval, and B. Schuller

2. Disjunctive Normal Shape Boltzmann Machine E. Erdil, F. Mesadi, T. Tasdizen, and M. Cetin

3. Inferring Latent States in a Network Influenced by Neighbor Activities: an Undirected Generative Approach B. L. Samarakoon, M. N. Murthi, and K. Premaratne

MLSP-L6 Deep Learning III

Page 4: ICASSP2017読み会 (Deep Learning III) [電通大 中鹿先生]

1. Reconstruction-Error-Based Learning for Continuous Emotion Recognition in Speech J. Han, Z. Zhang, F. Ringeval, and B. Schuller

Page 5: ICASSP2017読み会 (Deep Learning III) [電通大 中鹿先生]

概要

• タスクは?連続感情認識

• どうやる?2つのRNNをくっつける

• 結果は?従来(1つのRNN)よりも良くなった

連続感情:arousal(興奮)とvalence(感情の度合い)

Page 6: ICASSP2017読み会 (Deep Learning III) [電通大 中鹿先生]

提案フレームワーク

• Model1とModel2は、同じ構造のBLSTM

• Model1を学習した後、Model2を学習する

MFCCなど 連続感情

Page 7: ICASSP2017読み会 (Deep Learning III) [電通大 中鹿先生]

提案フレームワーク

• Model1とModel2は、同じ構造のBLSTM

• Model1を学習した後、Model2を学習する

MFCCなど 連続感情

著者たちの主張:Model1でモデルの”弱点”(再構築エラー)を学習し、弱点を知っているModel2では予測精度が上がるであろう

Page 8: ICASSP2017読み会 (Deep Learning III) [電通大 中鹿先生]

実験結果

提案手法(MFCC+powerの13次元のフレーム特徴量)

提案手法(MFCC+powerの8秒セグメントの26次元の統計量)

従来手法(1つのBLSTM、MFCC+powerの13次元のフレーム特徴量?)

Pearson’s Correlation Coefficient

Page 9: ICASSP2017読み会 (Deep Learning III) [電通大 中鹿先生]

実験結果

再構築エラーとarousal改善との相関はほとんどない 再構築エラーとvalence改善

との相関はある

Page 10: ICASSP2017読み会 (Deep Learning III) [電通大 中鹿先生]

2. Disjunctive Normal Shape Boltzmann Machine E. Erdil, F. Mesadi, T. Tasdizen, and M. Cetin

Page 11: ICASSP2017読み会 (Deep Learning III) [電通大 中鹿先生]

概要

• 何をしようとしている?RBMを拡張(DNSBM)してシルエット画像をうまく表現

• どうやる?SBMとDNSMを組み合わせる

• 結果は?従来(SBM)よりも実データに近いサンプルが生成できた

Restricted Boltzmann Machine

Disjunctive Normal Shape Boltzmann Machine

Shape Boltzmann Machine

Disjunctive Normal Shape Model

Page 12: ICASSP2017読み会 (Deep Learning III) [電通大 中鹿先生]

従来手法1:SBM

RBM SBM

Shape Boltzmann Machine

Page 13: ICASSP2017読み会 (Deep Learning III) [電通大 中鹿先生]

従来手法1:SBM

RBM SBM

Page 14: ICASSP2017読み会 (Deep Learning III) [電通大 中鹿先生]

SBMの問題点• それぞれのパッチが、必ずしも正しいパーツと対応付いていない

変なものがサンプリングされてしまう可能性がある!

• そこで、正しい(正しそうな)パーツと対応付けて学習させる

Page 15: ICASSP2017読み会 (Deep Learning III) [電通大 中鹿先生]

提案手法の流れ

DNSMでセグメンテーション

DNSBMを学習 DNSBM

(従来手法) (提案手法) ≒ SBM

Page 16: ICASSP2017読み会 (Deep Learning III) [電通大 中鹿先生]

従来手法2:DNSM• どんな形状(シルエット)でも、convex polytope(凸多面体)の集合で近似できる

Disjunctive Normal Shape Model

convex polytopeの例

≒ { }convex polytopeの集合ある形状

Page 17: ICASSP2017読み会 (Deep Learning III) [電通大 中鹿先生]

従来手法2:DNSMDisjunctive Normal

Shape Model

• ある形状 Ω+ の定式化:

• あるconvex polytope: Pi の定式化:

Page 18: ICASSP2017読み会 (Deep Learning III) [電通大 中鹿先生]

従来手法2:DNSMDisjunctive Normal

Shape Model

• ある形状 Ω+ の定式化:

• ある点 x が前景であるかどうかを返す関数 f(x) は

ド・モルガンより

微分できるように

Page 19: ICASSP2017読み会 (Deep Learning III) [電通大 中鹿先生]

従来手法2:DNSMDisjunctive Normal

Shape Model

• ある点 x が前景であるかどうかを返す関数 f(x) は

• 最小化したい評価関数はt個目の学習データ

データとモデルの近さ 多面体が互いに異なるように

Page 20: ICASSP2017読み会 (Deep Learning III) [電通大 中鹿先生]

実験結果

- Walking silhouette data set of 150 binary images, each of which has 170x170 pixels.- 1000 units for h1, and 50 units for h2.- DNSM was processed using 6 polytopes.

Page 21: ICASSP2017読み会 (Deep Learning III) [電通大 中鹿先生]

実験結果

Page 22: ICASSP2017読み会 (Deep Learning III) [電通大 中鹿先生]

3. Inferring Latent States in a Network Influenced by Neighbor Activities: an Undirected Generative Approach B. L. Samarakoon, M. N. Murthi, and K. Premaratne

Page 23: ICASSP2017読み会 (Deep Learning III) [電通大 中鹿先生]

概要• 何をしようとしている? 動的に変化するneighbors(近接ノード)と隠れ状態の関係性をよく表現する新しいグラフィカルモデルを提案

• どうやる?Energy-basedモデルで、隠れ状態とneighborsの関係性を記述

• 結果は?人工データを用いた実験で、SVMよりも隠れ状態の推定精度が高かった

Page 24: ICASSP2017読み会 (Deep Learning III) [電通大 中鹿先生]

ちょっと疑問

To the best of our knowledge, no undirected models have been applied to modeling neighbor influence and hidden variables in networks.

Page 25: ICASSP2017読み会 (Deep Learning III) [電通大 中鹿先生]

定式化• あるノード i のneighborsの定義:

全ノード(ユーザ)集合隣接行列

• 表現したい確率分布:隠れ状態(世論)系列

観測されるユーザカウント系列e.g., the number of postings of a certain category or number of infected people in a contact network

users may change their political biases depending on their neighbors’ postings but they may not wish to express these changes explicitly

Page 26: ICASSP2017読み会 (Deep Learning III) [電通大 中鹿先生]

定式化

• この確率分布を、2つのファクターで定義したい:

1.隠れ状態と近接ノードから受けるファクター ψA

2.隠れ状態とユーザアクティビティによるファクター ψB

Page 27: ICASSP2017読み会 (Deep Learning III) [電通大 中鹿先生]

定式化• 隠れ状態と近接ノードから受けるファクター ψA の定義:

Page 28: ICASSP2017読み会 (Deep Learning III) [電通大 中鹿先生]

定式化• 隠れ状態とユーザアクティビティによるファクターψBの定義:

Page 29: ICASSP2017読み会 (Deep Learning III) [電通大 中鹿先生]

定式化• 二つ合わせて確率分布を定義:

Page 30: ICASSP2017読み会 (Deep Learning III) [電通大 中鹿先生]

定式化• 式を変形:

Page 31: ICASSP2017読み会 (Deep Learning III) [電通大 中鹿先生]

隠れ状態の推測• 観測データから隠れ状態を推測したい:

計算困難! → 変分近似法を用いる

Page 32: ICASSP2017読み会 (Deep Learning III) [電通大 中鹿先生]

変分近似• 近似分布を定義:

多項分布と仮定

多項分布のパラメータ

• 近似分布と目標分布とのKL距離:

Page 33: ICASSP2017読み会 (Deep Learning III) [電通大 中鹿先生]

変分近似

• 式を変形:

Page 34: ICASSP2017読み会 (Deep Learning III) [電通大 中鹿先生]

変分近似• 式をさらに変形:

Page 35: ICASSP2017読み会 (Deep Learning III) [電通大 中鹿先生]

変分近似• 式をさらに変形: q と f のKL距離になってる!

Page 36: ICASSP2017読み会 (Deep Learning III) [電通大 中鹿先生]

変分近似• 結局、KL(Q||F)を最小とするFは、KL(Q||P)も最小とするので、

を用いてP(X|Z)を近似する

Page 37: ICASSP2017読み会 (Deep Learning III) [電通大 中鹿先生]

パラメータ推定• 対数尤度を最小化するように、SGDでパラメータを推定:

Page 38: ICASSP2017読み会 (Deep Learning III) [電通大 中鹿先生]

評価実験

1. 隠れ状態と観測データを人工的に生成して、学習

2. 観測データから推測した隠れ状態と、正解の隠れ状態がどれほど一致するかを見る

3. 従来手法(SVMとCox)による推測結果と比較

Page 39: ICASSP2017読み会 (Deep Learning III) [電通大 中鹿先生]

評価実験

• SVMはすべてのサンプルが独立であると仮定しているため、精度が微妙

• Coxは時間変動を考慮している分SVMよりは良いが、ユーザ間の関係性は考慮していないため提案法に負ける

Page 40: ICASSP2017読み会 (Deep Learning III) [電通大 中鹿先生]

紹介した論文

1. Reconstruction-Error-Based Learning for Continuous Emotion Recognition in Speech エラー抽出器と識別器の2つのRNNを直列につないで連続感情認識

2. Disjunctive Normal Shape Boltzmann Machine セグメンテーションとSBMを組み合わせてシルエット画像モデリング

3. Inferring Latent States in a Network Influenced by Neighbor Activities: an Undirected Generative Approach ダイナミックに変化する隠れ状態とユーザ嗜好をモデリング