応用空間統計学の二つの潮流: 空間統計学と空間計 …統計数理(2012) 第60 巻第1 号3–25 2012c 統計数理研究所 特集「時空間統計解析:新たなる分野横断的展開」
統計力学と統計学の形式的な 相違点を考えることに 物理学の課...
Transcript of 統計力学と統計学の形式的な 相違点を考えることに 物理学の課...
統計力学と統計学の形式的な相違点を考えることに
物理学の課題があるだろうか
渡辺澄夫
東京工業大学
統計物理学懇談会(第6回)2018年3月12日13日学習院大学南 7 号館 101 教室
世話人: 齊藤圭司さん 田崎晴明さん
このファイルを読まれるかたへのお願い
○ このファイルに書かれていないことを想像・予想することはお読みになるかたの自由です。
○ しかしながら、このファイルに書かれていないことは著者の研究ではありません。「?」は疑問を表しています。
○ 物理学と情報学の関係についてはこれから解明されるべきことがたくさんあります。
○ 研究は、少しずつ、試行錯誤しながら進みます。
○ わかっていること と わかっていないこと を混同しないように くれぐれも ご注意ください。
目次
1 統計力学の形式
2 統計学の形式
3 統計学の法則
4 統計学の法則は物理法則か
1 統計力学の形式
ハミルトン関数
X に対して変数 w のハミルトン関数 H(w,X) を定義する。
例 H(w,X) = - Σ Xij wiwj
X={Xij} がある確率分布 q(x) に従う確率変数であるとする。
ハミルトン関数を定めることはある物理系のモデリングを行うということ。
目標は 変数 w の確率分布からマクロな量の挙動を導出し、実験と比較することでモデリングの正しさを知ること。
カノニカル分布
逆温度 1 における変数 w のカノニカル分布
Pcan(w|X) = (1/Z(X)) exp( - H(w,X) ) φ(w)
等重率の原理: w が正準変数ならば φ(w)=定数.
一般の変数 w について正準変数かどうかを予め知る方法はない(実験してみて初めてわかる)。
すなわち φ(w) を定めることも物理モデリングの一部。
Z(X) = ∫ exp( - H(w,X) ) φ(w) dw
マクロな量と実験
一般の関数 f(w) の平均値
F(X) = ∫ f(w) Pcan(w|X) dw
比熱や磁化などのマクロな量についての理論的な導出ができる。
物理学の課題:
この導出が実験と合うように q(x), H(w,x), φ(w) を定める。
導出と実験が一致すれば、物理モデリングは正しいのか?
F = ∫ F(X) q(X) dX
2 統計学の形式
ハミルトン関数=対数尤度関数
X が与えられたとき変数 w のハミルトン関数 H(w,X) を決める。
H(w,X) = - Σ log p(Xi|w)
X={Xi ; i=1,2,…,n} は確率分布 q(x) に独立に従う確率変数
ここで、ハミルトン関数はある学習モデル p(x|w) から定まる対数尤度関数。
目標は、学習モデル p(x|w) を用いて q(x) を推測すること
事後分布=カノニカル分布
変数 w の事後分布 (事後分布=カノニカル分布)
Ppost(w|X) = (1/Z(X)) exp( - H(w,X) ) φ(w)
Z(X) = ∫ exp( - H(w,X) ) φ(w) dw
予測分布 p*(x) = ∫ p(x|w) Ppost(w|X) dw
q(x) を推測するもの
事前分布 φ(w) もモデリングされるものである
学習と汎化の損失=マクロな量
学習損失 T= - (1/n) Σ log p*(Xi)
汎化損失 G = - ∫ q(x) log p*(x) dx
学習損失=学習したデータについて
汎化損失=予測したデータについて
統計学の課題:汎化損失が小さくなるように p(x|w) や φ(w) を決めたい。
汎化損失が小さいモデルは、予測の正確さを意味するがそのモデルが正しいというわけではない。
統計力学と統計学
確率分布 q(x) からX1,X2,…,Xn が発生
カノニカル分布事後分布exp(-H(w))φ(w)
マクロな量 比熱や磁化
ハミルトン関数・対数尤度関数H(w)= - Σ xij wi wjH(w) = - Σi log p(Xi|w)
事前分布 φ(w)
予測分布 p*(x)
実験
統計力学と統計学は 形式的には同じ
統計力学 統計学
カノニカル分布無限次元極限相転移平均場近似MCMC法ランダム行列レプリカ法線形応答理論
自然実験
予測推測
☆ 予測・推測は 統計力学と統計学の形式的な相違点だろうか
3 統計学の法則
学習モデルの例
入力 x
パラメータw
出力 f(x,w) w → f( ,w)
が1対1でない
{ ∂wj f(x,w) } が線形独立でない
統計学では数学的方法が作られていなかった
統計的学習
データ (X,Y) ~ q(x)q(y|x)
パラメータ w
(1) (X,Y)={Xi,Yi ; i=1,2,…n} 条件つき独立
(2) 予測モデル p(y|x,w)
(3) 事前分布 ϕ(w)
※ 神経回路では p(y|x,w) ∝exp( -C(y-f(x,w))2 )
統計的学習の例
Ew[ ] =∫ ( ) exp( -H(w,X,Y) ) ϕ(w) dw
∫ exp( -H(w,X,Y) ) ϕ(w) dw
p*(y|x) = Ew[ p(y|x,w) ] 予測
事後分布 = カノニカル分布
H(w,X,Y) = -Σ log p(Yi|Xi,w)
ハミルトン関数=対数尤度
18
汎化損失と学習損失
G = ー E(X,Y) [ log p*(Y|X) ]汎化損失
新しい(X,Y)に対する予測の誤差
T = ー(1/n) Σ log p*(Yi |Xi) 学習損失n
i=1
学習した(Xi,Yi )に対する予測の誤差
19
学習曲線
例数(n)
S
E[ T ]=S+(λ-2ν)/n+o(1/n)
E[G]=S+λ/n+o(1/n)
S:条件つき確率(Y|X)のエントロピー
20
実対数閾値 λ
関数 ζ(z) を
ζ(z) = ∫ K(w) z φ(w) dw
この関数は Re(z)>0 で解析的であるが、複素平面
全体に有理型関数として一意に解析接続できる。その極はすべて負の実数である。最も原点に近い極を (-λ) とするとき λ を実対数閾値という。
K(w) : 真 q(y|x) とモデル p(y|x,w) のKL情報量
21
特異揺らぎ ν
事後分布による分散を Vw[ ] と書く。
V= Σi Vw[ log p(Yi |Xi,w) ]
2ν = lim n→∞
E[ V ]
λ と ν は双有理変換によらない量である。
{ ∂wj f(x,w) } が線形独立のときはどちらも d/2。
ここで d はパラメータ w の次元
22
情報量規準
学習損失から汎化損失を平均的に推測できる。
定理 E[G] = E[ T + V ] + O(1/n2)
E[G] = E[ T ] + d/n + o(1/n)
赤池情報量規準 AIC の一般化である。
※ AIC とは、{ ∂wj f(x,w) } が線形独立であれば
→ 統計学のモデル設計に役立ちそうである (WAIC)。
4 統計学の法則は物理法則か
情報熱力学
情報まで含めた形で熱力学第2法則が成り立つ。
☆ 田崎晴明さん, 「悪魔」との取りひき-エントロピーをめぐって, 日本物理学会誌, 66(3), 172-173, 2011.
マクスウェルのデーモンさん 現実に作れる
25
応答と揺動
G = ー E(X,Y) [ log p*(Y|X) ]汎化損失
T = ー(1/n) Σ log p*(Yi |Xi) 学習損失n
i=1
汎関数分散 V= (1/n) Σi Vw[ log p(Yi |Xi,w) ]
E[Gー T]= E[ V ] 応答 と 揺動 は等しい
予想:これよりもGを精度よく推定する方法は存在しない
デーモンさんを統計モデルで作ったら
E[G - T]= E[ V ] は物理法則か?
事後分布=カノニカル分布
「統計学⊆統計力学」 ?
統計学の問題に物理現象の表現を
与えることができるならば
統計学の法則 は 物理法則 に含まれる
統計的推測の限界は 物理法則である?
まとめ
1 統計力学は ハミルトン関数と位相空間重率をモデル化して物理現象を説明する
2 統計学は 学習モデルと事前分布をモデル化して情報現象を予測する
3 統計学における情報量規準は揺動応答定理と似ている
4 情報現象が物理現象と相互作用するとき統計学の定理は物理学の定理でもあるのだろうか
以下 付録
自由エネルギーの
統計力学と統計学における
役割の違いについて
分配関数=周辺尤度
分配関数
Z(X) = ∫ exp( - H(w,X) ) φ(w) dw
= ∫ p(X1|w) p(X2|w)・・・p(Xn|w) φ(w) dw このとき Z(X) は X={Xi} の確率分布を与える。これは((p(x|w),φ(w))によって推定された確率分布である。
自由エネルギーの平均値
F*=EX[ F(X) ] = - EX[ log Z(X) ]
自由エネルギー=対数周辺尤度
F* – n S= ∫ q(X) log (q(X)/Z(X)) dX
S を q(x) のエントロピーとすると
つまり、自由エネルギーが小さい=推測Z(X)が真q(X)に近い
○ 自由エネルギーは物理学においては統計力学と熱力学を結ぶ架け橋「不思議な偶然」?
○ 統計学においては 2個の組(p(x|w),φ(w)) に対する自由エネルギーの差は最強検定を与える。情報理論においてはベイズ符号長でもある。