統計力学と統計学の形式的な相違点を考えることに物理学の課...

統計力学と統計学の形式的な相違点を考えることに

物理学の課題があるだろうか

渡辺澄夫

東京工業大学

統計物理学懇談会（第６回）2018年3月12日13日学習院大学南 7 号館 101 教室

世話人：齊藤圭司さん田崎晴明さん

このファイルを読まれるかたへのお願い

○ このファイルに書かれていないことを想像・予想することはお読みになるかたの自由です。

○ しかしながら、このファイルに書かれていないことは著者の研究ではありません。「？」は疑問を表しています。

○ 物理学と情報学の関係についてはこれから解明されるべきことがたくさんあります。

○ 研究は、少しずつ、試行錯誤しながら進みます。

○ わかっていることとわかっていないことを混同しないようにくれぐれもご注意ください。

目次

１統計力学の形式

２統計学の形式

３統計学の法則

４統計学の法則は物理法則か

１統計力学の形式

ハミルトン関数

X に対して変数 w のハミルトン関数 H(w,X) を定義する。

例 H(w,X) = - Σ Xij wiwj

X={Xij} がある確率分布 q(x) に従う確率変数であるとする。

ハミルトン関数を定めることはある物理系のモデリングを行うということ。

目標は変数 w の確率分布からマクロな量の挙動を導出し、実験と比較することでモデリングの正しさを知ること。

カノニカル分布

逆温度 1 における変数 w のカノニカル分布

Pcan(w|X) = (1/Z(X)) exp( - H(w,X) ) φ(w)

等重率の原理： w が正準変数ならば φ(w)=定数.

一般の変数 w について正準変数かどうかを予め知る方法はない（実験してみて初めてわかる）。

すなわち φ(w) を定めることも物理モデリングの一部。

Z(X) = ∫ exp( - H(w,X) ) φ(w) dw

マクロな量と実験

一般の関数 f(w) の平均値

F(X) = ∫ f(w) Pcan(w|X) dw

比熱や磁化などのマクロな量についての理論的な導出ができる。

物理学の課題：

この導出が実験と合うように q(x), H(w,x), φ(w) を定める。

導出と実験が一致すれば、物理モデリングは正しいのか？

F = ∫ F(X) q(X) dX

２統計学の形式

ハミルトン関数＝対数尤度関数

X が与えられたとき変数 w のハミルトン関数 H(w,X) を決める。

H(w,X) = - Σ log p(Xi|w)

X={Xi ; i=1,2,…,n} は確率分布 q(x) に独立に従う確率変数

ここで、ハミルトン関数はある学習モデル p(x|w) から定まる対数尤度関数。

目標は、学習モデル p(x|w) を用いて q(x) を推測すること

事後分布＝カノニカル分布

変数 w の事後分布（事後分布＝カノニカル分布）

Ppost(w|X) = (1/Z(X)) exp( - H(w,X) ) φ(w)

Z(X) = ∫ exp( - H(w,X) ) φ(w) dw

予測分布 p*(x) = ∫ p(x|w) Ppost(w|X) dw

q(x) を推測するもの

事前分布 φ(w) もモデリングされるものである

学習と汎化の損失＝マクロな量

学習損失 T= - (1/n) Σ log p*(Xi)

汎化損失 G = - ∫ q(x) log p*(x) dx

学習損失＝学習したデータについて

汎化損失＝予測したデータについて

統計学の課題：汎化損失が小さくなるように p(x|w) や φ(w) を決めたい。

汎化損失が小さいモデルは、予測の正確さを意味するがそのモデルが正しいというわけではない。

統計力学と統計学

確率分布 q(x) からX1,X2,…,Xn が発生

カノニカル分布事後分布exp(-H(w))φ(w)

マクロな量比熱や磁化

ハミルトン関数・対数尤度関数H(w)= - Σ xij wi wjH(w) = - Σi log p(Xi|w)

事前分布 φ(w)

予測分布 p*(x)

実験

統計力学と統計学は形式的には同じ

統計力学統計学

カノニカル分布無限次元極限相転移平均場近似MCMC法ランダム行列レプリカ法線形応答理論

自然実験

予測推測

☆ 予測・推測は統計力学と統計学の形式的な相違点だろうか

３統計学の法則

学習モデルの例

入力 x

パラメータw

出力 f(x,w) w → f( ,w)

が１対１でない

{ ∂wj f(x,w) } が線形独立でない

統計学では数学的方法が作られていなかった

統計的学習

データ (X,Y) ～ q(x)q(y|x)

パラメータ w

(1) (X,Y)={Xi,Yi ; i=1,2,…n} 条件つき独立

(2) 予測モデル p(y|x,w)

(3) 事前分布 ϕ(w)

※ 神経回路では p(y|x,w) ∝exp( -C(y-f(x,w))2 )

統計的学習の例

Ew[ ] ＝∫ ( ) exp( -H(w,X,Y) ) ϕ(w) dw

∫ exp( -H(w,X,Y) ) ϕ(w) dw

p*(y|x) = Ew[ p(y|x,w) ] 予測


H(w,X,Y) = -Σ log p(Ｙi|Xi,w)

ハミルトン関数＝対数尤度

18

汎化損失と学習損失

G = ー E(X,Y) [ log p*(Y|X) ]汎化損失

新しい(X,Y)に対する予測の誤差

T = ー(1/n) Σ log p*(Yi |Xi) 学習損失n

i=1

学習した(Xi,Yi )に対する予測の誤差

19

学習曲線

例数(n)

S

E[ T ]=S+(λ-2ν)/n+o(1/n)

E[G]=S+λ/n+o(1/n)

S：条件つき確率(Y|X)のエントロピー

20

実対数閾値 λ

関数 ζ(z) を

ζ(z) = ∫ K(w) z φ(w) dw

この関数は Re(z)>0 で解析的であるが、複素平面

全体に有理型関数として一意に解析接続できる。その極はすべて負の実数である。最も原点に近い極を (-λ) とするとき λ を実対数閾値という。

K(w) : 真 q(y|x) とモデル p(y|x,w) のＫＬ情報量

21

特異揺らぎ ν

事後分布による分散を Vw[ ] と書く。

Ｖ＝ Σi Vw[ log p(Yi |Xi,w) ]

2ν = lim n→∞

E[ Ｖ ]

λ と ν は双有理変換によらない量である。

{ ∂wj f(x,w) } が線形独立のときはどちらも d/2。

ここで d はパラメータ w の次元

22

情報量規準

学習損失から汎化損失を平均的に推測できる。

定理 E[G] = E[ T + V ] + O(1/n2)

E[G] = E[ T ] + d/n + o(1/n)

赤池情報量規準 AIC の一般化である。

※ AIC とは、{ ∂wj f(x,w) } が線形独立であれば

→ 統計学のモデル設計に役立ちそうである (WAIC)。

４統計学の法則は物理法則か

情報熱力学

情報まで含めた形で熱力学第２法則が成り立つ。

☆ 田崎晴明さん, 「悪魔」との取りひき-エントロピーをめぐって, 日本物理学会誌, 66(3), 172-173, 2011.

マクスウェルのデーモンさん現実に作れる

25

応答と揺動

G = ー E(X,Y) [ log p*(Y|X) ]汎化損失

T = ー(1/n) Σ log p*(Yi |Xi) 学習損失n

i=1

汎関数分散Ｖ＝ (1/n) Σi Vw[ log p(Yi |Xi,w) ]

E[Gー T]= E[ V ] 応答と揺動は等しい

予想：これよりもＧを精度よく推定する方法は存在しない

デーモンさんを統計モデルで作ったら

E[G - T]= E[ V ] は物理法則か？


「統計学⊆統計力学」？

統計学の問題に物理現象の表現を

与えることができるならば

統計学の法則は物理法則に含まれる

統計的推測の限界は物理法則である？

まとめ

１統計力学はハミルトン関数と位相空間重率をモデル化して物理現象を説明する

２統計学は学習モデルと事前分布をモデル化して情報現象を予測する

３統計学における情報量規準は揺動応答定理と似ている

４情報現象が物理現象と相互作用するとき統計学の定理は物理学の定理でもあるのだろうか

以下付録

自由エネルギーの

統計力学と統計学における

役割の違いについて

分配関数＝周辺尤度

分配関数

Z(X) = ∫ exp( - H(w,X) ) φ(w) dw

= ∫ p(X1|w) p(X2|w)・・・p(Xn|w) φ(w) dw このとき Z(X) は X={Xi} の確率分布を与える。これは((p(x|w),φ(w))によって推定された確率分布である。

自由エネルギーの平均値

F*=EX[ F(X) ] = - EX[ log Z(X) ]

自由エネルギー＝対数周辺尤度

F* – n S= ∫ q(X) log (q(X)/Z(X)) dＸ

S を q(x) のエントロピーとすると

つまり、自由エネルギーが小さい＝推測Z(X)が真q(X)に近い

○ 自由エネルギーは物理学においては統計力学と熱力学を結ぶ架け橋「不思議な偶然」？

○ 統計学においては２個の組(p(x|w),φ(w)) に対する自由エネルギーの差は最強検定を与える。情報理論においてはベイズ符号長でもある。

統計力学と統計学の形式的な相違点を考えることに物理学の課...

Documents

Transcript of 統計力学と統計学の形式的な相違点を考えることに物理学の課...

統計力学と統計学の形式的な 相違点を考えることに 物理学の課...

Documents

Transcript of 統計力学と統計学の形式的な 相違点を考えることに 物理学の課...

統計力学と統計学の形式的な相違点を考えることに物理学の課...

Transcript of 統計力学と統計学の形式的な相違点を考えることに物理学の課...