Post on 06-Apr-2017
Variational Inference: Foundations and Modern
Methods
担当:落合幸治 @ 理化学研究所第3回 nips 読み会・関西 2017/3/18( 土 )
David Blei @Columbia UniversityShakir Mohamed @DeepMind
Rajesh Ranganath @Princeton University
NIPS 2016 Tutorial · December 5, 2016
注意• もしこのスライドを見てわからない点があったら(翻訳ミスの可能性があるため)以下元資料を確認• まとめ
https://nips.cc/Conferences/2016/Schedule?showEvent=6199• Video
https://channel9.msdn.com/Events/Neural-Information-Processing-Systems-Conference/Neural-Information-Processing-Systems-Conference-NIPS-2016/Variational-Inference-Foundations-and-Modern-Methods• Slide(PDF)
https://media.nips.cc/Conferences/2016/Slides/6199-Slides.pdf
Variational Inference?
一般の推論(最尤推定)
確率的推論 ?
• 確率的推論を効率的かつ安定に行うための方法の一つ
確率的推論例:重回帰、ニューラルネット 例:
LDA 、 VAE
確率的推論 ?
Variational Inference?
一般の推論(最尤推定)
• 確率的推論を効率的かつ安定に行うための方法の一つ
確率的推論例:重回帰、ニューラルネット 例:
LDA 、 VAE
確率的推論• 推論先の点がつねに一点にさだまるとは限らない• 例:画像の上半分から 下半分を推測→
• 分布の期待値がつねにもっとも良い結果とは限らない• 自然画像の期待値(平均値)はのっぺりした灰色の画像
質問1. 確率的勾配法 (stochastic gradient descent, SGD)とは何か知っている or 使ったことがある2. 『パターン認識と機械学習』の 9 章:混合モデルと
EM 、10章:変分推論を読んだことがある3. Variational Autoencoder という言葉を聞いたことがある
目次1. 変分推論とは2. 平均場近似と確率的変分推論3. 変分下界に対する確率的勾配法4. 平均場近似を仮定しない変分推論
※ オリジナルのチュートリアルに準拠
目次1. 変分推論とは2. 平均場近似と確率的変分推論3. 変分下界に対する確率的勾配法4. 平均場近似を仮定しない変分推論
※ オリジナルのチュートリアルに準拠
• SGD を知っていればここまでは簡単
目次1. 変分推論とは2. 平均場近似と確率的変分推論3. 変分下界に対する確率的勾配法4. 平均場近似を仮定しない変分推論
※ オリジナルのチュートリアルに準拠
• 一番の難所• PRML の 9 章、 10 章の内容を発展• VAE の理論的背景がわかる
目次1. 変分推論とは2. 平均場近似と確率的変分推論3. 変分下界に対する確率的勾配法4. 平均場近似を仮定しない変分推論
※ オリジナルのチュートリアルに準拠• 現代の( 2016 年以降の)研究• 事前知識があると少し感動する
1. 変分推論とは確率的推論を最適化問題として解けるようにする
確率的推論• 確率モデルとは観測変数と隠れ変数の同時分布• 確率モデルがあれば未知変数も事後分布として求められる• 例えば x を画像 z をラベルとすると分類問題がとける
• ほとんどの問題において分母の積分が解けないので近似が必要
変分推定 知りたい真の条件付き分布
近似分布で表現可能な範囲
上に貼られた確率分布の空間
歴史• 変分推定は統計力学のアイディアを確率推定に適用することで始まりました。おそらく 80 年代に Peterson と Anderson が平均場法をニューラルネットで使ったことが始まりです。• このアイディアは Jordan 研究室で 1990 年代に取り上げられ、
Tommi Jaakkola, Lawrence Saul, Zoubin Gharamani によって多くの確率モデルに一般化されました。• それと並行して Hinton と Van Camp がニューラルネットによる平均場法を開発 (1993) 。 Neal と Hinton はこのアイディアを EM 法につなげそれが mixture of experts や HMM などへ変分法をさらに進展させました。
現在• 現在では変分法における多くの活発な取り組みがあります。大規模化、簡易化、高速化、正確化、複雑なモデルへの適用と応用• 現在の変分推定は多くの領域にまたがっています:確率的プログラミング、強化学習、ニューラルネット、凸最適化、ベイズ統計、そして広範囲にわたる応用分野。•このスライドの目的は基礎から始まり、いくつかの最近のアイディアを紹介し、新研究における最前線を知ってもらうことです。
2. 平均場近似と確率的変分推論• 平均場近似:最適化をしやすくするためモデルの表現力を落とす• 確率的変分法:大規模データに対応するため確率的最適化を行う
確率推論の手順
例: Topic Modeling
大量の文章集合の中から文章のトピックスなどの構造を見つけ出したい!
確率推論の手順
例 :Latent Dirichlet Allocation(LDA)
• トピックは単語の集合• ドキュメントは複数のトピックを特定の比率で混ぜ合わせたもの(単語の順序は考えない)• 単語は特定のトピックから持ってくる• 実際に観測できるのはドキュメントだけ• 他は事後分布推定• 注:ドキュメントも潜在変数も大量にある
𝑝 (𝑡𝑜𝑝𝑖𝑐𝑠 ,𝑝𝑟𝑜𝑝𝑜𝑟𝑡𝑖𝑜𝑛𝑠 ,𝑎𝑠𝑠𝑖𝑔𝑛𝑚𝑒𝑛𝑡𝑠∨𝑑𝑜𝑐𝑢𝑚𝑒𝑛𝑡𝑠)
LDA のグラフィカルモデル• 仮定を同時分布の因数分解として表現• 仮定とデータを組み合わせて事後分布を求める
因数分解
確率推論の手順
事後分布の推定
この積分は ( 一般に ) 計算不能 近似
変分推定 知りたい真の条件付き分布
近似分布で表現可能な範囲上に貼られた確率分布の空間
Evidence Lower Bound(ELBO)
• の下界• ELBO 最大化は KLダイバージェンスの最小化にな(なぜそうなるかは 3 章で説明)• 最初の項は MAP 推定に相当• 第二項 (エントロピー ) はを可能な限り拡散させる
エントロピー
問題の一般化
平均場近似
• 平均場近似は各変数が独立であることを仮定• “平均場近似”と”各確率変数が共役分布であること”を仮定すると他の変数を固定した状態で着目している変数を更新するという手順の繰り返しで ELBO を最大化できる
古典的変分推定
確率的変分推定• 大規模データに対応• 確率的勾配法と同じ発想• ステップサイズ系列は Robbins-
Monro conditions に従うものとする(大まかには徐々に小さくなっていくと思っておけば良い)
LDA に対する確率的変分推論
• ドキュメントをサンプル• 現在のトピック設定に従ってローカルのパラメータを推定する•ローカルパラメータからトピック設定を仮更新する• 現在のトピック設定と仮更新したトピック設定で新たなトピック設定を作る
自動抽出されたトピックと単語
3. 変分下界に対する確率的勾配法変分下界:確率的機械学習におけるロス関数
なぜ ELBO 最大化 =KL 最小化 ?log𝑝 (𝑥 )=ℒ (𝑣 )+KL(𝑞 (𝑧 ;𝑣)∨¿𝑝 (𝑧∨𝑥))
log𝑝 (𝑥 )
ℒ (𝑣 )
))
𝑣 PRML9章、10章より補完
変分推定 知りたい真の条件付き分布
近似分布で表現可能な範囲上に貼られた確率分布の空間
変分推定のレシピ1. モデルを考える 2. 潜在変数の近似分布を選ぶ 3. ELBO を定式化 4. 期待値(積分)を計算
5. 導関数を求める
6. 最適化する
現実は甘くない
• ベイズロジスティック回帰を変分推定しようとした結果( x が入力y が出力 z が回帰係数)• 期待値が解析的に求められない + 変分係数に関係する値 (z) が期待値の中に残っている = 導関数が求められない
確率的勾配法が使えるよう式を変形
ここが解けない
先に微分 確率的勾配法
式変形ELBODefine
ELBO を安定に求めるための方法
Score Function Gradients
Pathwise Gradient
Amortized Inference
汎用的
安定、高速
Score Function Estimator
単純化
再掲
勾配Likelihood ratio( 尤度 ) または REINFORCE gradients(強化学習勾配 ?)ともよばれる
単純化について補足
nips 読み会での議論を踏まえ追加
𝔼𝑞 [∇𝑣 g (𝐳 , 𝐯 ) ]=𝔼𝑞 [∇𝐯 log𝑞 (𝐳 ;𝐯 ) ]
g (𝐳 ,𝐯 )= log𝑞 (𝐱 ,𝐳 )− log𝑞 (𝐳 ;𝐯 )
¿∫𝑞 (𝐳 ;𝐯 )𝛻𝐯 log𝑞 (𝐳 ;𝐯 ) 𝑑𝑧¿∫𝑞 (𝐳 ;𝐯 )
𝛻 𝐯𝑞 (𝐳 ;𝐯 )𝑞(𝐳 ;𝐯 )
𝑑𝑧
¿∫𝛻𝐯𝑞 (𝐳 ;𝐯 )𝑑𝑧¿𝛻𝐯∫𝑞 (𝐳 ;𝐯 )𝑑𝑧¿0 =1
微分と積分の順序交換より
モンテカルロ近似による勾配計算
モンテカルロ近似
Black Box Variational Inference
適用のための条件• サンプリング可能• が計算可能• とが計算可能
モデル固有の作業がない:汎用的な適用が可能
Black Box Variational Inference
Score Function Estimator は不安定
確率の低い場所のサンプリングはスコアと分散が大きくなる
コントロール変数を使用することで軽減
Pathwise Estimator
Pathwise Estimator
単純化
分散の比較
ローカル変数の決定は高コスト
各データ点ごとで最適化演算が必要
Amortizing Inference
Amortizing Inference
例:変分オートエンコーダ (VAE)
四角は深層ニューラルネットワーク
例:変分オートエンコーダ (VAE)
全般的なアドバイス• もしがについて微分可能だったら• リパラメタライゼーションが可能なを使いなさい
• もしがについて微分不可能だったら• コントロール変数ありの Score Function を使いなさい• 実験的証拠に基づいてさらに分散を減少させなさい(意訳:試行錯誤で頑張って分散を下げなさい)
• 全般的に• 座標ごとにラーニングレートを調節 (RMSProp, AdaGrad)• アニーリング + 温度• サンプリングを並列化できないか一度考えてみる
Software
4. 平均場近似を仮定しない変分推論平均場近似は極端すぎるので適度に複雑でソコソコ効率的に計算できるもでるモデルを考える
構造化事後分布近似 (Structured Posterior Approximations)目標:高い近似能力と計算効率の両立
構造化事後分布近似 (Structured Posterior Approximations)目標:高い近似能力と計算効率の両立
Gaussian Approximate Posteriors
Autoregressive distribution
Change-of-variables
Change-of-variables
Linear time computation of the determinant and its gradient.
Change-of-variables
Auxiliary-variable Methods
Auxiliary-variable Methods
まとめ
Variational Inference: Foundations and Modern Methods
• VI は複雑なモデルの変量を近似できる• 確率的最適化をによって• 大量のデータにスケールアップできる• 複雑なモデルに対応できる• 精密かつ柔軟な近似が可能となる