ボルツマンマシン(シリーズ 情報科学における確率モデル 2) ·...

20
シリーズ 情報科学における確率モデル Series on Stochastic Models in Informatics and Data Science 2 ボルツマンマシン 恐神 貴行 【著】 コロナ社

Transcript of ボルツマンマシン(シリーズ 情報科学における確率モデル 2) ·...

Page 1: ボルツマンマシン(シリーズ 情報科学における確率モデル 2) · 一方で,強化学習は基礎的な事柄から説明 を始めた。そうしないとボルツマンマシンを強化学習でどのように使うのかを

シリーズ 情報科学における確率モデルSeries on Stochastic Models in Informatics and Data Science

 2

ボルツマンマシン

恐神 貴行 【著】

コロナ社

コロ

ナ社

Page 2: ボルツマンマシン(シリーズ 情報科学における確率モデル 2) · 一方で,強化学習は基礎的な事柄から説明 を始めた。そうしないとボルツマンマシンを強化学習でどのように使うのかを

シリーズ 情報科学における確率モデル編集委員会

編集委員長

博士(工学) 土肥  正(広島大学)

編 集 委 員

博士(工学) 栗田多喜夫(広島大学)

博士(工学) 岡村 寛之(広島大学)

2018 年 10 月現在

コロ

ナ社

Page 3: ボルツマンマシン(シリーズ 情報科学における確率モデル 2) · 一方で,強化学習は基礎的な事柄から説明 を始めた。そうしないとボルツマンマシンを強化学習でどのように使うのかを

刊行のことば

われわれを取り巻く環境は,多くの場合,確定的というよりもむしろ不確実

性にさらされており,自然科学,人文・社会科学,工学のあらゆる領域におい

て不確実な現象を定量的に取り扱う必然性が生じる。「確率モデル」とは不確実

な現象を数理的に記述する手段であり,古くから多くの領域において独自のモ

デルが考案されてきた経緯がある。情報化社会の成熟期である現在,幅広い裾

野をもつ情報科学における多様な分野においてさえも,不確実性下での現象を

数理的に記述し,データに基づいた定量的分析を行う必要性が増している。

一言で「確率モデル」といっても,その本質的な意味や粒度は各個別領域ごと

に異なっている。統計物理学や数理生物学で現れる確率モデルでは,物理的な

現象や実験的観測結果を数理的に記述する過程において不確実性を考慮し,さ

まざまな現象を説明するための描写をより精緻化することを目指している。一

方,統計学やデータサイエンスの文脈で出現する確率モデルは,データ分析技

術における数理的な仮定や確率分布関数そのものを表すことが多い。社会科学

や工学の領域では,あらかじめモデルの抽象度を規定したうえで,人工物とし

てのシステムやそれによって派生する複雑な現象をモデルによって表現し,モ

デルの制御や評価を通じて現実に役立つ知見を導くことが目的となる。

昨今注目を集めている,ビッグデータ解析や人工知能開発の核となる機械学

習の分野においても,確率モデルの重要性は十分に認識されていることは周知

の通りである。一見して,機械学習技術は,深層学習,強化学習,サポートベ

クターマシンといったアルゴリズムの違いに基づいた縦串の分類と,自然言語

処理,音声・画像認識,ロボット制御などの応用領域の違いによる横串の分類

によって特徴づけられる。しかしながら,現実の問題を「モデリング」するた

めには経験とセンスが必要であるため,既存の手法やアルゴリズムをそのまま

コロ

ナ社

Page 4: ボルツマンマシン(シリーズ 情報科学における確率モデル 2) · 一方で,強化学習は基礎的な事柄から説明 を始めた。そうしないとボルツマンマシンを強化学習でどのように使うのかを

ii 刊 行 の こ と ば

適用するだけでは不十分であることが多い。

本シリーズでは,情報科学分野で必要とされる確率・統計技法に焦点を当て,

個別分野ごとに発展してきた確率モデルに関する理論的成果をオムニバス形式

で俯瞰することを目指す。各分野固有の理論的な背景を深く理解しながらも,

理論展開の主役はあくまでモデリングとアルゴリズムであり,確率論,統計学,

最適化理論,学習理論がコア技術に相当する。このように「確率モデル」にス

ポットライトを当てながら,情報科学の広範な領域を深く概観するシリーズは

多く見当たらず,データサイエンス,情報工学,オペレーションズ・リサーチ

などの各領域に点在していた成果をモデリングの観点からあらためて整理した

内容となっている。

本シリーズを構成する各書目は,おのおのの分野の第一線で活躍する研究者

に執筆をお願いしており,初学者を対象とした教科書というよりも,各分野の

体系を網羅的に著した専門書の色彩が強い。よって,基本的な数理的技法をマ

スターしたうえで,各分野における研究の最先端に上り詰めようとする意欲の

ある研究者や大学院生を読者として想定している。本シリーズの中に,読者の

皆さんのアイデアやイマジネーションを掻き立てるような座右の書が含まれて

いたならば,編者にとっては存外の喜びである。

2018年 11月

編集委員長 土肥 正コロ

ナ社

Page 5: ボルツマンマシン(シリーズ 情報科学における確率モデル 2) · 一方で,強化学習は基礎的な事柄から説明 を始めた。そうしないとボルツマンマシンを強化学習でどのように使うのかを

ま え が き

筆者とボルツマンマシンとの出会いは 2013年のことである。その前にも何

度かすれ違っていると思うが,出会いには至っていない。そのころ「複数の選

択肢から人がなにを選択するかをデータから学習する」という研究テーマに取

り組んでいた。筆者が考えていたモデルをボルツマンマシンとして定式化して,

さらに拡張してくれた81), 85)†のが大塚誠氏である。また,大塚氏が取り組んで

いた動的ボルツマンマシンの研究82), 83) にも一緒に取り組むようになった。そ

れからボルツマンマシンに関係する研究を行ってきて22), 23), 76), 79), 80), 82), 83),

2017年には人工知能の国際会議 International Joint Conference on Artificial

Intelligence(IJCAI-17)においてチュートリアルも実施した77), 78)。

その過程で,ボルツマンマシンに関する既存研究を調査し,それを筆者が納得

できるように理解しようと努めてきた。その中で筆者が理解したことを,筆者

の言葉でまとめたのが本書である。その結果,勾配法から強化学習まで広範な話

題を扱いつつ,その中のいくつかの話題については深く掘り下げることになっ

た。深く掘り下げた話題については,結果を導出するだけでなく,直感的な理

解が得られるように努めた。これは,難しい事柄を真に理解させてくれた書籍

の影響を受けたものであり,Vasek Chvatal,Mor Harchol-Balter,Sheldon

M. Ross,Steven E. Shreveといった著者の影響を強く受けている。これらの

著者の域には残念ながら達していないが,直感的な理解を助けるような説明を

本書にもいくつか取り入れられたと思う。

本書はボルツマンマシンに関する話題を網羅的に集めたものではないが,ボ

ルツマンマシン・機械学習・強化学習に関わる重要な話題を盛り込んでいる。ボ

ルツマンマシンに関するいくつかの話題は深く掘り下げているが,簡単に触れ

† 肩付き数字は,巻末の引用・参考文献の番号を表す。

コロ

ナ社

Page 6: ボルツマンマシン(シリーズ 情報科学における確率モデル 2) · 一方で,強化学習は基礎的な事柄から説明 を始めた。そうしないとボルツマンマシンを強化学習でどのように使うのかを

iv ま え が き

ただけの話題もあり,まったく触れていない話題も多くある。参考文献をでき

るだけ挙げるようにしたので,これらで補足してほしい。また,ボルツマンマ

シンを用いた機械学習が本書の中心的なテーマではあるが,正則化などの機械

学習の一般的な技術についてはほとんど触れておらず,ボルツマンマシンに特

有な点を中心に取り上げている。本書を読み進めるうえで機械学習の知識は必

要ではないが,ボルツマンマシンを機械学習の実問題に適用するには,本書の

内容だけでは不十分である。優れた書籍が多くあるので1), 12), 69), 109), 134), 135),

これらで機械学習を学んで欲しい。一方で,強化学習は基礎的な事柄から説明

を始めた。そうしないとボルツマンマシンを強化学習でどのように使うのかを

説明するのが難しいこともあるが,筆者の興味によるところも大きい。結果的

に,7章は強化学習の入門にもなる内容になっている。

原稿に目を通していただき,詳細にコメントをくださった吉住貴幸氏に深く

感謝いたします。

2018年 12月

恐神 貴行 

コロ

ナ社

Page 7: ボルツマンマシン(シリーズ 情報科学における確率モデル 2) · 一方で,強化学習は基礎的な事柄から説明 を始めた。そうしないとボルツマンマシンを強化学習でどのように使うのかを

目 次

第 1章 は じ め に

1.1 ボルツマンマシンと深層学習 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 1

1.2 ボルツマンマシンの定義 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 5

1.3 ボルツマンマシンの可能性 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 7

1.4 学習の目的関数 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 13

1.5 勾 配 法 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 14

1.6 確率的勾配法 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 21

章 末 問 題 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 24

第 2章 ボルツマンマシンの学習

2.1 可視ユニットのみの場合 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 252.1.1 勾 配 25

2.1.2 確 率 的 勾 配 28

2.1.3 ヘブ則との関係 30

2.1.4 ヘ ッ セ 行 列 32

2.1.5 ま と め 33

2.2 隠れユニットを持つ場合 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 342.2.1 隠れユニットの必要性 34

2.2.2 自由エネルギー 35

2.2.3 勾 配 36

2.2.4 確 率 的 勾 配 38

2.2.5 ヘ ッ セ 行 列 40

コロ

ナ社

Page 8: ボルツマンマシン(シリーズ 情報科学における確率モデル 2) · 一方で,強化学習は基礎的な事柄から説明 を始めた。そうしないとボルツマンマシンを強化学習でどのように使うのかを

vi 目 次

2.2.6 ま と め 43

2.3 判別モデルの学習 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 442.3.1 目 的 関 数 44

2.3.2 勾配とヘッセ行列 46

2.3.3 ま と め 48

2.4 回帰モデルの学習 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 492.4.1 自由エネルギーを用いた回帰 50

2.4.2 制限ボルツマンマシンの自由エネルギー 51

2.4.3 期待エネルギー 54

2.4.4 期待エネルギーを用いた回帰 57

章 末 問 題 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 59

第 3章 サンプリングと期待値の評価

3.1 ギブスサンプリング . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 62

3.2 コントラスティブダイバージェンス . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 63

3.3 制限ボルツマンマシンからのサンプリング . . . . . . . . . . . . . . . . . . . . . . . . . 673.3.1 ブロック化ギブスサンプラー 67

3.3.2 生成モデルの学習 68

3.4 平 均 場 近 似 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 72

3.5 その他の手法 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 753.5.1 重点サンプリング 76

3.5.2 独立した生成器の利用 78

3.5.3 フィッシャーダイバージェンス 78

章 末 問 題 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 80

第 4章 深層モデルとその他の関連するモデル

4.1 深層信念ネットワーク . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 814.1.1 確率分布とサンプリング 81

コロ

ナ社

Page 9: ボルツマンマシン(シリーズ 情報科学における確率モデル 2) · 一方で,強化学習は基礎的な事柄から説明 を始めた。そうしないとボルツマンマシンを強化学習でどのように使うのかを

目 次 vii

4.1.2 層ごとの貪欲学習法 85

4.1.3 自己符号化器 89

4.2 深層ボルツマンマシン . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 93

4.3 ガウスボルツマンマシン . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 974.3.1 期待値で実数値を表現する場合の問題点 98

4.3.2 ガウスベルヌーイ制限ボルツマンマシン 99

4.3.3 スパイクスラブ制限ボルツマンマシン 101

4.4 マルコフ確率場 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .1034.4.1 ボルツマンマシンとイジングモデル 103

4.4.2 高階ボルツマンマシン 104

章 末 問 題 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .104

第 5章 時系列モデルの学習

5.1 目的関数と勾配法 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .105

5.2 条件付き制限ボルツマンマシン . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .1075.2.1 条件付き制限ボルツマンマシンの導出 108

5.2.2 条件付き制限ボルツマンマシンの拡張 110

5.3 再帰的時間的制限ボルツマンマシン . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .1115.3.1 時間的制限ボルツマンマシン 111

5.3.2 再帰的時間的制限ボルツマンマシンの導出 114

5.3.3 再帰的時間的制限ボルツマンマシンにおける確率の評価 116

5.3.4 再帰的時間的制限ボルツマンマシンの学習 117

章 末 問 題 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .121

第 6章 時系列モデルのオンライン学習

6.1 は じ め に . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .122

6.2 動的ボルツマンマシン . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .1236.2.1 有限動的ボルツマンマシン 123

コロ

ナ社

Page 10: ボルツマンマシン(シリーズ 情報科学における確率モデル 2) · 一方で,強化学習は基礎的な事柄から説明 を始めた。そうしないとボルツマンマシンを強化学習でどのように使うのかを

viii 目 次

6.2.2 動的ボルツマンマシンの導出 127

6.2.3 スパイク時間依存可塑性との関係 132

6.3 制 約 の 緩 和 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .132

6.4 連続値をとる時系列に対する動的ボルツマンマシン . . . . . . . . . . . . . . . .1356.4.1 ガウス動的ボルツマンマシン 135

6.4.2 自 然 勾 配 137

6.4.3 非線形特徴量 139

6.5 動的ボルツマンマシンの連続拡張 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .140

章 末 問 題 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .144

第 7章 強 化 学 習

7.1 マルコフ決定過程 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .145

7.2 最適性方程式と価値反復法 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .1477.2.1 有限期間の場合 147

7.2.2 無限期間の場合 148

7.3 Q 学 習 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .151

7.4 活 用 と 探 索 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .155

7.5 S A R S A 法 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .156

7.6 方 策 反 復 法 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .159

7.7 価値関数の近似 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .1637.7.1 Q学習での関数近似 163

7.7.2 SARSA法での関数近似 165

7.8 自由エネルギーを用いた強化学習 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .1677.8.1 自由エネルギーの勾配 168

7.8.2 ボルツマン探索 169

7.9 部分観測環境における強化学習 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .1717.9.1 部分観測マルコフ決定過程 171

7.9.2 動的ボルツマンマシンによる強化学習 173

章 末 問 題 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .175

コロ

ナ社

Page 11: ボルツマンマシン(シリーズ 情報科学における確率モデル 2) · 一方で,強化学習は基礎的な事柄から説明 を始めた。そうしないとボルツマンマシンを強化学習でどのように使うのかを

目 次 ix

付録:隠れユニットを持つ動的ボルツマンマシン . . . . . . . . . . . .176

A.1 確 率 分 布 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .176

A.2 学 習 則 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .178

引用・参考文献 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .184

章末問題解答 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .196

索 引 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .205

コロ

ナ社

Page 12: ボルツマンマシン(シリーズ 情報科学における確率モデル 2) · 一方で,強化学習は基礎的な事柄から説明 を始めた。そうしないとボルツマンマシンを強化学習でどのように使うのかを

4深層モデルとその他の関連するモデル

ボルツマンマシンと関連する代表的な深層ニューラルネットワークに,深層

信念ネットワークと深層ボルツマンマシンがある。これらのニューラルネット

ワークは多数の層からなるが,制限ボルツマンマシンを用いて層ごとに学習し

ていく手法が本章のテーマである。2006年に G.E. Hintonらが提案したのが

この手法であり35), 36),深層学習が注目されるきっかけとなった。また,ボル

ツマンマシンと関連する,そのほかのモデルについても本章で確認しておこう。

標準的なボルツマンマシンは二値パターンしか扱うことができないが,多値や

実数値を扱えるようになる。

4.1 深層信念ネットワーク

図 4.1に深層信念ネットワーク(deep belief network)の構造を示すが,深

層信念ネットワークそのものはボルツマンマシンではない。多層のネットワー

クである深層信念ネットワークの各層を制限ボルツマンマシンとみなして,層

ごとに学習していくことで深層信念ネットワークをうまく学習できることを示

したのが,2006年ごろの G.E. Hintonらの成果である35), 36)。

4.1.1 確率分布とサンプリング

図 4.1は 3層の隠れ層を持つ深層信念ネットワークである。第一の隠れ層か

ら可視層に有向の矢印が引かれており,第二の隠れ層から第一の隠れ層にも有

向の矢印が引かれているが,第三の隠れ層と第二の隠れ層は無向の辺でつなが

コロ

ナ社

Page 13: ボルツマンマシン(シリーズ 情報科学における確率モデル 2) · 一方で,強化学習は基礎的な事柄から説明 を始めた。そうしないとボルツマンマシンを強化学習でどのように使うのかを

82 4. 深層モデルとその他の関連するモデル

x1 x2 xN可視ユニット

隠れユニット

h1(3)

h2(3) (3)

hM3

h1(2)

h2(2) (2)

hM2

h1(1)

h2(1) (1)

hM1

図 4.1 深層信念ネットワーク

れている。有向の矢印でつながれた層間には条件付き確率分布が定義され,無

向の辺でつながれた層間には同時確率分布が定義されていることを意味する。

一般に,K 層の隠れ層を持つ深層信念ネットワークは,第K 層と第K − 1

層が無向の矢印でつながれ,それ以外の隣接する層間は有向の矢印でつながれ

る。可視層を第 0層とすると,0 < k < K について,第 k層から第 k− 1層に

有向の矢印が引かれる。

有向の矢印が引かれた第 k層と第 k + 1層の間には,第 k + 1層の値 h(k+1)

を所与としたときの,第 k層の値 h(k)の条件付き確率分布 P(k)(h(k) | h(k+1))

が定義される。

深層信念ネットワークの場合には,第 k + 1層の値 h(k+1) を所与とすると,

第 k層内の各ユニットは条件付き独立であるから次式のように書ける。

P(k)(h(k) | h(k+1)) =∏

i

P(k)i (h(k)

i | h(k+1)) (4.1)

制限ボルツマンマシンの条件付き確率分布と同様に,第 k層の第 iユニット

の値の条件付き確率分布 P(k)i (h(k)

i | h(k+1))は次式のように書ける。

コロ

ナ社

Page 14: ボルツマンマシン(シリーズ 情報科学における確率モデル 2) · 一方で,強化学習は基礎的な事柄から説明 を始めた。そうしないとボルツマンマシンを強化学習でどのように使うのかを

4.1 深層信念ネットワーク 83

P(k)i (h(k)

i | h(k+1)) =exp(−(b(k)

i +∑

j w(k)ij h

(k+1)j )h

(k)i

)∑

h(k)i

∈{0,1}exp(−(b(k)

i +∑

j w(k)ij h

(k+1)j ) h

(k)i

)

(4.2)

ただし,b(k)i は第 k 層の第 i ユニットのバイアスであり,w

(k)ij は第 k + 1 層

の第 j ユニットから第 k 層の第 iユニットへの重みであり,j についての和は

第 k + 1 層のすべてのユニットについての和である。なお,深層信念ネット

ワークは P(k)(h(k) | h(k+1))を定義するが,制限ボルツマンマシンとは異なり,

P(h(k+1) | h(k))は陽には与えられない。

無向の辺が引かれた第K 層と第K − 1層には,制限ボルツマンマシンと同

様に同時確率分布が定義される。すなわち,エネルギーを

E(h(K−1),h(K))

≡ −(b(K−1))� h(K−1) − (b(K))� h(K) − (h(K−1))� W(K−1) h(K)

(4.3)

のように定義すると,第K − 1層の値 h(K−1)と第K 層の値 h(K)の同時確率

分布は

P(K−1,K)(h(K−1),h(K)) =exp(−E(h(K−1),h(K))

)∑

h(K−1)

∑h(K)

exp(−E(h(K−1), h(K))

)

(4.4)

で与えられる。

以上の同時確率分布と条件付き確率分布を用いると,深層信念ネットワーク

の全ユニットの同時確率分布を

P(h(0),h(1), · · · ,h(K))

コロ

ナ社

Page 15: ボルツマンマシン(シリーズ 情報科学における確率モデル 2) · 一方で,強化学習は基礎的な事柄から説明 を始めた。そうしないとボルツマンマシンを強化学習でどのように使うのかを

84 4. 深層モデルとその他の関連するモデル

= P(K−1,K)(h(K−1),h(K))K−2∏k=0

P(k)(h(k) | h(k+1)) (4.5)

で表すことができる。

なお,x ≡ h(0) は可視ユニットの値であり,可視ユニットの値の周辺確率分

布は

P(x) =∑h(1)

. . .∑h(K)

P(x, h(1), · · · , h(K)) (4.6)

で決まる。

深層信念ネットワークのパラメータは

θ ≡ (b(0), · · · ,b(K),W(0), · · · ,W(K−1)) (4.7)

である。

深層信念ネットワークのパラメータの値が決まったときに,式 (4.6)の周辺

確率分布に従って,可視ユニットの値をサンプリングするには,第 K 層から

順に値をサンプリングしていけばよい。第K 層と第K − 1層は,制限ボルツ

マンマシンと同じ確率分布を持つので,3.3節のブロック化ギブスサンプラー

などを用いて,第K 層の値と第K − 1層の値をサンプリングすることができ

る。第K − 1層の値のサンプルH(K−1)(ω)が与えられると,第K − 2層の値

のサンプルH(K−2)(ω)を P(K−2)(· |H(K−1)(ω))に従ってサンプリングでき

る。これを繰り返すことで,最終的に可視層の値のサンプルが得られる。

一方で,深層信念ネットワークの可視層の値が与えられても,隠れ層の値を

容易にサンプリングすることはできない。制限ボルツマンマシンの場合には,

可視層の値が与えられたときの隠れ層の値の条件付き確率分布が陽に与えられ

るので,可視層の値が与えられたときに,隠れ層の値を容易にサンプリングす

ることができた。制限ボルツマンマシンに対する CD法(3.3節参照)はこの

性質を利用したものである。深層信念ネットワークを学習するには,新たな工

夫が必要となる。

コロ

ナ社

Page 16: ボルツマンマシン(シリーズ 情報科学における確率モデル 2) · 一方で,強化学習は基礎的な事柄から説明 を始めた。そうしないとボルツマンマシンを強化学習でどのように使うのかを

4.1 深層信念ネットワーク 85

4.1.2 層ごとの貪欲学習法

深層信念ネットワークの学習法35), 36) を理解するために,パラメータを共有

した無限層の深層信念ネットワーク(図 4.2参照)を考えてみよう。層間をつ

なぐ重みは,行列Wまたはその転置W�で表される。図にバイアスは示して

いないが,値を x(k)で示す層のバイアスを bVとし,値を h(k)で示す層のバイ

アスを bH とする。すなわち,図 4.2の深層信念ネットワークはパラメータ

θ = (bV,bH,W) (4.8)

を持つ。…

W�

W

W�

W

h1(2)

h2(2) (2)

hM

x1(2)

x2(2) (2)

xN

h1(1)

h2(1) (1)

hM

x1(1)

x2(1) (1)

xN

図 4.2 パラメータを共有した無限層の深層信念ネットワーク

図 4.2の深層信念ネットワークが定める確率分布に従って,ある層の値をサン

プリングすることを考えよう。無限に層があるが,ある初期値H(K) から始め

て,(bV,W)で定められる条件付き確率分布に従って,その下の層の値X(K)

をサンプリングし,(bH,W�)で定められる条件付き確率分布に従って,さらに

コロ

ナ社

Page 17: ボルツマンマシン(シリーズ 情報科学における確率モデル 2) · 一方で,強化学習は基礎的な事柄から説明 を始めた。そうしないとボルツマンマシンを強化学習でどのように使うのかを

索 引

【あ】 アクタークリティック法

171

【い】 イェンセンの不等式 178イジングモデル 103

【え】 永続的 CD 法 71エコステートネットワーク

120, 139エネルギー 6エネルギーベースのモデル

27

【お】 オフ方策 157重 み 5オン方策 157オンライン学習 12

【か】 ガウス過程 140ガウス動的ボルツマンマシン 135

ガウスベルヌーイ制限ボルツマンマシン 100

ガウスユニット 97学習率 15確率的勾配法 21確率的平均勾配法 24隠れユニット 7可視ユニット 7

価値関数 147価値反復法 147活 用 155過適合 111カルバックライブラーダイバージェンス 13関数動的ボルツマンマシン

140完全観測マルコフ決定過程 147

【き】 機械学習 1期待エネルギー 54期待累積報酬 145ギブスサンプラー 62強化学習 11, 147共役勾配法 21

【く】 訓練データ 13

【け】 計画法 147経験分布 13ゲート付き条件付き制限ボルツマンマシン 110

【こ】 高階ボルツマンマシン 104行 動 145行動価値関数 148, 157行動空間 146行動ユニット 174勾 配 14

誤差逆伝播法 92コントラスティブダイバージェンス 63コントラスティブダイバージェンス法 70

【さ】 再帰的時間的制限ボルツマンマシン 114再帰的ニューラルネットワーク 4, 111再帰的ニューラルネットワーク制限ボルツマンマシン 120最急上昇法 14再生核ヒルベルト空間 142最大事後確率 142最適性方程式 147先入れ先出し 127

【し】 時間的制限ボルツマンマシン 111時系列データ 105時系列モデル 12, 105次元の呪い 163自己符号化器 89自然パラメータ 101シナプス後神経細胞 124シナプス前神経細胞 124シナプス適格度トレース 128自由エネルギー 35収縮写像 75, 150修正方策反復法 162重点サンプリング 76

コロ

ナ社

Page 18: ボルツマンマシン(シリーズ 情報科学における確率モデル 2) · 一方で,強化学習は基礎的な事柄から説明 を始めた。そうしないとボルツマンマシンを強化学習でどのように使うのかを

206 索 引

準ニュートン法 21上位パラメータ 126条件付き制限ボルツマンマシン 108

条件付きボルツマンマシン44

状態空間 146状態ユニット 174初期状態 145神経細胞 2神経細胞網 1人工ニューラルネットワーク

1深層学習 1深層信念ネットワーク 81深層ボルツマンマシン 93信念状態 172

【す】 スコアマッチング 78ステップサイズ 15スパイク時間依存可塑性

123, 124スパイクスラブ制限ボルツマンマシン 101

【せ】 制限ボルツマンマシン 51生成器 78生成モデル 8正定値 33

【そ】 双曲線正接関数 139即時報酬 145

【た】 対数尤度 14畳込みニューラルネットワーク 4

探 索 155

【ち】 逐次的意思決定 10, 146長期増強 124長期短期記憶 120長期抑圧 124直線探索 16

【つ】 通時的誤差逆伝播法 117

【て】 適応的勾配法 24敵対的生成ネットワーク 78

【と】 動的ボルツマンマシン 122特徴量 3

【に】 ニュートン法 20ニューロン適格度トレース 129

【は】 バイアス 5バイアス付き重点サンプリング 77バナッハの不動点定理 151判別器 78判別モデル 9

【ひ】 表現学習 3

【ふ】 フィッシャーダイバージェンス 79復号化器 90符号化器 90部分観測マルコフ決定過程 147, 171分配関数 7

【へ】 平均場ボルツマンマシン 72ベクトル自己回帰モデル 137ヘッセ行列 20ヘブ則 30ベルマン演算子 150

【ほ】 方 策 145方策改善 159方策反復法 159方策評価 159ボルツマン探索法 155ボルツマンマシン 5

【ま】 マルコフ確率場 103マルコフ決定過程 146マルコフ性 146マルコフモデル 108マルコフ連鎖モンテカルロ法 62

【み】 ミニバッチ 98

【む】 無限期間 148無限の探索の極限で貪欲 158無向グラフ 5無向グラフィカルモデル

103

【ゆ】 有限期間 147有限動的ボルツマンマシン

123ユニット 2

【よ】 予測ベクトル 172

コロ

ナ社

Page 19: ボルツマンマシン(シリーズ 情報科学における確率モデル 2) · 一方で,強化学習は基礎的な事柄から説明 を始めた。そうしないとボルツマンマシンを強化学習でどのように使うのかを

索 引 207

【り】 リスク指標 146

【れ】 連鎖率 92

♦ ♦

【A】 AdaGrad 24

【B】 BPTT 117

【C】 CD 70CDk 法 71CD1 法 71CRBM 108

【D】 DyBM 122

【E】 ESN 139

【F】 FIFO 127

【G】 GAN 78GLIE 158

【K】 KL 13

【L】 LSTM 120LTD 124LTP 124

【M】 MAP 142MCMC 62MDP 146

【Q】 Q 学習 151

【R】 RBM 52RKHS 142RNN 111RNN-RBM 121RTRBM 114

【S】 SAG 24SARSA 法 157, 158STDP 123

【T】 TD 誤差 166TRBM 112~~~~~~~~~~~~~~~~~~~~~~~ε 貪欲法 155

コロ

ナ社

Page 20: ボルツマンマシン(シリーズ 情報科学における確率モデル 2) · 一方で,強化学習は基礎的な事柄から説明 を始めた。そうしないとボルツマンマシンを強化学習でどのように使うのかを

—— 著 者 略 歴 ——

1998年 東京大学工学部電子工学科卒業1998年 日本アイ・ビー・エム株式会社 東京基礎研究所 研究員

現在に至る2001~2005年 米国カーネギーメロン大学留学2005年 カーネギーメロン大学コンピュータ・サイエンス学部博士課程修了,Ph.D

ボルツマンマシンBoltzmann Machines c© Takayuki Osogami 2019

2019 年 2 月22日 初版第 1 刷発行

著 者検印省略

おそ

恐がみ

神たか

貴ゆき

行発 行 者 株式会社 コ ロ ナ 社

代 表 者 牛 来 真 也印 刷 所 三 美 印 刷 株 式 会 社製 本 所 有限会社 愛千製本所

112–0011 東京都文京区千石 4–46–10

発 行 所 株式会社 コ ロ ナ 社CORONA PUBLISHING CO., LTD.

Tokyo Japan

振替 00140–8–14844・電話(03)3941–3131(代)ホームページ http://www.coronasha.co.jp

ISBN 978–4–339–02832–4 C3355 Printed in Japan (新井)

<出版者著作権管理機構 委託出版物>本書の無断複製は著作権法上での例外を除き禁じられています。複製される場合は,そのつど事前に,出版者著作権管理機構(電話 03-5244-5088,FAX 03-5244-5089,e-mail: [email protected])の許諾を得てください。

本書のコピー,スキャン,デジタル化等の無断複製・転載は著作権法上での例外を除き禁じられています。購入者以外の第三者による本書の電子データ化及び電子書籍化は,いかなる場合も認めていません。落丁・乱丁はお取替えいたします。

コロ

ナ社