第３回nips読み会・関西『variational inference foundations and modern methods』

Variational Inference: Foundations and Modern

Methods

担当：落合幸治 @ 理化学研究所第３回 nips 読み会・関西 2017/3/18( 土 )

David Blei @Columbia UniversityShakir Mohamed @DeepMind

Rajesh Ranganath @Princeton University

NIPS 2016 Tutorial · December 5, 2016

注意• もしこのスライドを見てわからない点があったら（翻訳ミスの可能性があるため）以下元資料を確認• まとめ

https://nips.cc/Conferences/2016/Schedule?showEvent=6199• Video

https://channel9.msdn.com/Events/Neural-Information-Processing-Systems-Conference/Neural-Information-Processing-Systems-Conference-NIPS-2016/Variational-Inference-Foundations-and-Modern-Methods• Slide(PDF)

https://media.nips.cc/Conferences/2016/Slides/6199-Slides.pdf

Variational Inference?

一般の推論（最尤推定）

確率的推論 ?

• 確率的推論を効率的かつ安定に行うための方法の一つ

確率的推論例：重回帰、ニューラルネット例：

LDA 、 VAE

確率的推論 ?

Variational Inference?

一般の推論（最尤推定）

• 確率的推論を効率的かつ安定に行うための方法の一つ

確率的推論例：重回帰、ニューラルネット例：

LDA 、 VAE

確率的推論• 推論先の点がつねに一点にさだまるとは限らない• 例：画像の上半分から　　下半分を推測→

• 分布の期待値がつねにもっとも良い結果とは限らない• 自然画像の期待値（平均値）はのっぺりした灰色の画像

質問1. 確率的勾配法 (stochastic gradient descent, SGD)とは何か知っている or 使ったことがある2. 『パターン認識と機械学習』の 9 章：混合モデルと

EM 、１０章：変分推論を読んだことがある3. Variational Autoencoder という言葉を聞いたことがある

目次1. 変分推論とは2. 平均場近似と確率的変分推論3. 変分下界に対する確率的勾配法4. 平均場近似を仮定しない変分推論

※ オリジナルのチュートリアルに準拠

• SGD を知っていればここまでは簡単

• 一番の難所• PRML の 9 章、 10 章の内容を発展• VAE の理論的背景がわかる

※ オリジナルのチュートリアルに準拠• 現代の（ 2016 年以降の）研究• 事前知識があると少し感動する

1. 変分推論とは確率的推論を最適化問題として解けるようにする

確率的推論• 確率モデルとは観測変数と隠れ変数の同時分布• 確率モデルがあれば未知変数も事後分布として求められる• 例えば x を画像 z をラベルとすると分類問題がとける

• ほとんどの問題において分母の積分が解けないので近似が必要

変分推定知りたい真の条件付き分布

近似分布で表現可能な範囲

上に貼られた確率分布の空間

歴史• 変分推定は統計力学のアイディアを確率推定に適用することで始まりました。おそらく 80 年代に Peterson と Anderson が平均場法をニューラルネットで使ったことが始まりです。• このアイディアは Jordan 研究室で 1990 年代に取り上げられ、

Tommi Jaakkola, Lawrence Saul, Zoubin Gharamani によって多くの確率モデルに一般化されました。• それと並行して Hinton と Van Camp がニューラルネットによる平均場法を開発 (1993) 。 Neal と Hinton はこのアイディアを EM 法につなげそれが mixture of experts や HMM などへ変分法をさらに進展させました。

現在• 現在では変分法における多くの活発な取り組みがあります。大規模化、簡易化、高速化、正確化、複雑なモデルへの適用と応用• 現在の変分推定は多くの領域にまたがっています：確率的プログラミング、強化学習、ニューラルネット、凸最適化、ベイズ統計、そして広範囲にわたる応用分野。•このスライドの目的は基礎から始まり、いくつかの最近のアイディアを紹介し、新研究における最前線を知ってもらうことです。

2. 平均場近似と確率的変分推論• 平均場近似：最適化をしやすくするためモデルの表現力を落とす• 確率的変分法：大規模データに対応するため確率的最適化を行う

確率推論の手順

例： Topic Modeling

大量の文章集合の中から文章のトピックスなどの構造を見つけ出したい！

例 :Latent Dirichlet Allocation(LDA)

• トピックは単語の集合• ドキュメントは複数のトピックを特定の比率で混ぜ合わせたもの（単語の順序は考えない）• 単語は特定のトピックから持ってくる• 実際に観測できるのはドキュメントだけ• 他は事後分布推定• 注：ドキュメントも潜在変数も大量にある

𝑝 (𝑡𝑜𝑝𝑖𝑐𝑠 ,𝑝𝑟𝑜𝑝𝑜𝑟𝑡𝑖𝑜𝑛𝑠 ,𝑎𝑠𝑠𝑖𝑔𝑛𝑚𝑒𝑛𝑡𝑠∨𝑑𝑜𝑐𝑢𝑚𝑒𝑛𝑡𝑠)

LDA のグラフィカルモデル• 仮定を同時分布の因数分解として表現• 仮定とデータを組み合わせて事後分布を求める

因数分解

事後分布の推定

この積分は ( 一般に ) 計算不能近似

近似分布で表現可能な範囲上に貼られた確率分布の空間

Evidence Lower Bound(ELBO)

• の下界• ELBO 最大化は KLダイバージェンスの最小化にな（なぜそうなるかは 3 章で説明）• 最初の項は MAP 推定に相当• 第二項 (エントロピー ) はを可能な限り拡散させる

エントロピー

問題の一般化

平均場近似

• 平均場近似は各変数が独立であることを仮定• “平均場近似”と”各確率変数が共役分布であること”を仮定すると他の変数を固定した状態で着目している変数を更新するという手順の繰り返しで ELBO を最大化できる

古典的変分推定

確率的変分推定• 大規模データに対応• 確率的勾配法と同じ発想• ステップサイズ系列は Robbins-

Monro conditions に従うものとする（大まかには徐々に小さくなっていくと思っておけば良い）

LDA に対する確率的変分推論

• ドキュメントをサンプル• 現在のトピック設定に従ってローカルのパラメータを推定する•ローカルパラメータからトピック設定を仮更新する• 現在のトピック設定と仮更新したトピック設定で新たなトピック設定を作る

自動抽出されたトピックと単語

3. 変分下界に対する確率的勾配法変分下界：確率的機械学習におけるロス関数

なぜ ELBO 最大化 =KL 最小化 ?log𝑝 (𝑥 )=ℒ (𝑣 )+KL(𝑞 (𝑧 ;𝑣)∨¿𝑝 (𝑧∨𝑥))

log𝑝 (𝑥 )

ℒ (𝑣 )

𝑣 PRML９章、１０章より補完

近似分布で表現可能な範囲上に貼られた確率分布の空間

変分推定のレシピ1. モデルを考える 2. 潜在変数の近似分布を選ぶ 3. ELBO を定式化 4. 期待値（積分）を計算

5. 導関数を求める

6. 最適化する

現実は甘くない

• ベイズロジスティック回帰を変分推定しようとした結果（ x が入力y が出力 z が回帰係数）• 期待値が解析的に求められない + 変分係数に関係する値 (z) が期待値の中に残っている = 導関数が求められない

確率的勾配法が使えるよう式を変形

ここが解けない

先に微分確率的勾配法

式変形ELBODefine

ELBO を安定に求めるための方法

Score Function Gradients

Pathwise Gradient

Amortized Inference

汎用的

安定、高速

Score Function Estimator

単純化

再掲

勾配Likelihood ratio( 尤度 ) または REINFORCE gradients(強化学習勾配 ?)ともよばれる

単純化について補足

nips 読み会での議論を踏まえ追加

𝔼𝑞 [∇𝑣 g (𝐳 , 𝐯 ) ]=𝔼𝑞 [∇𝐯 log𝑞 (𝐳 ;𝐯 ) ]

g (𝐳 ,𝐯 )= log𝑞 (𝐱 ,𝐳 )− log𝑞 (𝐳 ;𝐯 )

¿∫𝑞 (𝐳 ;𝐯 )𝛻𝐯 log𝑞 (𝐳 ;𝐯 ) 𝑑𝑧¿∫𝑞 (𝐳 ;𝐯 )

𝛻 𝐯𝑞 (𝐳 ;𝐯 )𝑞(𝐳 ;𝐯 )

𝑑𝑧

¿∫𝛻𝐯𝑞 (𝐳 ;𝐯 )𝑑𝑧¿𝛻𝐯∫𝑞 (𝐳 ;𝐯 )𝑑𝑧¿0 =1

微分と積分の順序交換より

モンテカルロ近似による勾配計算

モンテカルロ近似

Black Box Variational Inference

適用のための条件• サンプリング可能• が計算可能• とが計算可能

モデル固有の作業がない：汎用的な適用が可能

Black Box Variational Inference

Score Function Estimator は不安定

確率の低い場所のサンプリングはスコアと分散が大きくなる

コントロール変数を使用することで軽減

Pathwise Estimator

単純化

分散の比較

ローカル変数の決定は高コスト

各データ点ごとで最適化演算が必要

Amortizing Inference

例：変分オートエンコーダ (VAE)

四角は深層ニューラルネットワーク

例：変分オートエンコーダ (VAE)

全般的なアドバイス• もしがについて微分可能だったら• リパラメタライゼーションが可能なを使いなさい

• もしがについて微分不可能だったら• コントロール変数ありの Score Function を使いなさい• 実験的証拠に基づいてさらに分散を減少させなさい（意訳：試行錯誤で頑張って分散を下げなさい）

• 全般的に• 座標ごとにラーニングレートを調節 (RMSProp, AdaGrad)• アニーリング + 温度• サンプリングを並列化できないか一度考えてみる

Software

4. 平均場近似を仮定しない変分推論平均場近似は極端すぎるので適度に複雑でソコソコ効率的に計算できるもでるモデルを考える

構造化事後分布近似 (Structured Posterior Approximations)目標：高い近似能力と計算効率の両立

Gaussian Approximate Posteriors

Autoregressive distribution

Change-of-variables

Linear time computation of the determinant and its gradient.

Change-of-variables

Auxiliary-variable Methods

まとめ

Variational Inference: Foundations and Modern Methods

• VI は複雑なモデルの変量を近似できる• 確率的最適化をによって• 大量のデータにスケールアップできる• 複雑なモデルに対応できる• 精密かつ柔軟な近似が可能となる

第３回nips読み会・関西『variational inference foundations and modern methods』

Science

Transcript of 第３回nips読み会・関西『variational inference foundations and modern methods』

Physics of Information - NiPS) Lab

Introduction to variational methods and ﬁnite elementspeirce/pdecombPart2.pdf · Introduction to variational methods and ﬁnite elements 1.2.3. Variational formulations of BVP:

Sim u Lasik Em Ampua Nips

Variational Estimators in Statistical Multiscale Analysis

Isolating Sources of Disentanglement in Variational ... · Isolating Sources of Disentanglement in Variational Autoencoders inator network. Some interesting special cases that arise

ビジネスReモデル ３

The Variational Principle

Abstract Variational Problem · 2012-04-13 · SIAM FR26: FEM with B-Splines Basic Finite Element Concepts { Abstract Variational Problems 2-4, page 1. Abstract Variational Problem

Layer Normalization@NIPS+読み会・関西

Lecture 1. Introduction to Variational Data Assimilation ...people.cs.vt.edu/.../Lectures/Ewha_L01_data_assimilation.pdfLecture 1. Introduction to Variational Data Assimilation. Adrian

JavaScript 演習３

Local minimization, variational evolution and -convergencecvgmt.sns.it/media/doc/paper/2094/Corso2013LN.pdf · 2013-02-13 · Local minimization, variational evolution and -convergence

NIPS 2012 読む会

Variational Quantum Algorithms - arXiv

Chaotic and variational calculus in discrete and ...

NIPS Project 13 November 2013 NIPS Conference Creating synergies between networks at Member State level.

Levenberg-Marquardt dynamics associated to variational …rabot/publications/jour17... · 2017. 4. 10. · Levenberg-Marquardt dynamics associated to variational inequalities Radu

Calcul variational

ビジネス・ゲーム・シリーズ ３

Wasserstein Variational Inference - papers.nips.ccpapers.nips.cc/paper/7514-wasserstein-variational-inference.pdf · l.ambrogioni@donders.ru.nl Umut Güçlü* Radboud University u.guclu@donders.ru.nl

ビジネスReモデル３

JavaScript 　演習３

ビジネス・ゲーム・シリーズ３