Prml2.1 2.2,2.4-2.5
-
Upload
takuto-kimura -
Category
Documents
-
view
2.336 -
download
4
Transcript of Prml2.1 2.2,2.4-2.5
@americiumian 2012.9.24
PRML輪読会 2. 確率分布
発表概要
2
2.1 二値変数
2.2 多値変数
2.3 ガウス分布
2.4 指数型分布族
2.5 ノンパラメトリック法
この章の目的
3
密度推定 観測値の有限集合𝑥1, … , 𝑥𝑁が与えられた時,確率変数𝑥の確率分布𝑝(𝑥)をモデル化すること
このような確率分布は無限に存在しうる
パラメトリック
分布の形を仮定し,観測値に合わせてパラメータを調整する 手法
ノンパラメトリック
分布の形を仮定せず,観測値によって分布を決める手法
• ベルヌーイ分布
• 二項分布
• ベータ分布
2.1 二値変数 4
ベルヌーイ分布 – 記号の定義
5
二値確率変数 x ∈ {0,1}
ex. コインを投げて,表なら 𝑥 = 1 裏なら 𝑥 = 0
パラメータ μ
𝑥 = 1となる確率
0 ≦ 𝜇 ≦ 1
𝑝 𝑥 = 1 𝜇) = 𝜇, 𝑝 𝑥 = 0 𝜇 = 1 − 𝜇
計算例:𝜇 = 0.7の時 歪んだコインがある.このコインが表となる確率は0.7, 裏となる確率は0.3である.この時,
𝑝 𝑥 = 1 𝜇 = 0.7) = 0.7 𝑝 𝑥 = 0 𝜇 = 0.7 = 0.3
ベルヌーイ分布
6
ベルヌーイ分布 Bern x 𝜇) = 𝜇𝑥(1 − 𝜇)1−𝑥
確率𝜇で表が出るコインを一回投げ,表(裏)が出る確率
特徴 𝐸[𝑥] = 𝜇
𝑣𝑎𝑟[𝑥] = 𝜇(1 − 𝜇)
計算例:𝜇 = 0.7の時 歪んだコインがある.このコインが表となる確率は0.7, 裏となる確率は0.3である.この時,
𝐵𝑒𝑟𝑛 𝑥 = 1 𝜇 = 0.7) = 0.71(1 − 0.7)0= 0.7 𝐵𝑒𝑟𝑛 𝑥 = 0 𝜇 = 0.7 = 0.70(1 − 0.7)1= 0.3
(2.2)
(2.3)
(2.4)
複数回観測した時の尤度関数
7
設定
D = 𝑥1, … , 𝑥𝑁
𝑥𝑖は,𝑝(𝑥 | 𝜇)から独立に得られたと仮定
尤度関数
𝑝 𝐷 𝜇) = 𝑝 𝑥𝑛 𝜇)𝑁𝑛=1 = 𝜇𝑥𝑛(1 − 𝜇)1−𝑥𝑛𝑁
𝑛=1
𝜇が与えられた時,どのくらい,観測したデータが生起 しやすいかを表す
(2.5)
パラメータ𝜇の値を最尤推定
8
対数尤度
この式は, 𝑥𝑛𝑁𝑛=1 のみに依存しているため,この式は,
この分布の下,このデータに対する十分統計量の例
ln 𝑝(𝐷 | 𝜇) = ln𝑝 𝑥𝑛 𝜇)
𝑁
𝑛=1
= { 𝑥𝑛 ln 𝜇 + 1 − 𝑥𝑛 ln 1 − 𝜇
𝑁
𝑛=1
}
= ln 𝜇 − ln 1 − 𝜇 𝑥𝑛
𝑁
𝑛=1
+ 𝑁 ln(1 − 𝜇)
(2.6)
パラメータ𝜇の値を最尤推定
9
最尤推定 ln 𝑝 𝐷 𝜇) を𝜇で偏微分して0とおいて解く
𝜇𝑀𝐿 =1
𝑁 𝑥𝑛
𝑁𝑛=1
サンプル平均と呼ばれる
結果の違った見方 データ集合中で,𝑥 = 1になる回数を𝑚とすると,
𝜇𝑀𝐿 =𝑚
𝑁 データ集合中での表の観測値の割合が
表が出る確率となる
(2.7)
(2.8)
二項分布
10
記号の定義 𝑚 : 大きさ𝑁のデータ集合のうち,𝑥 = 1となる観測値の数
二項分布
𝐵𝑖𝑛(𝑚 | 𝑁, 𝜇) = 𝑁𝑚
𝜇𝑚(1 − 𝜇)𝑁−𝑚
𝑁𝑚
=𝑁!
𝑁−𝑚 !𝑚!
確率𝜇で表が出るコインを𝑁回投げた時, 表が出る回数𝑚の確率分布
特徴 𝐸[𝑚] = 𝑁𝜇
𝑣𝑎𝑟[𝑚] = 𝑁𝜇(1 − 𝜇)
(2.9)
(2.10)
(2.11)
(2.12)
二項分布
11
ベータ分布
12
ベルヌーイ分布のパラメータ𝜇の最尤推定 3回表が出ると,以降ずっと表が出る?
過学習の問題
ベイズ主義的に扱う 事前分布𝑝(𝜇)を導入する必要性
事後分布が事前分布と同様の 形式となる事前分布を選びたい 共役性
𝜇と(1 − 𝜇) のべきに比例する事前分布を導入
𝜇𝑀𝐿 =1
𝑁 𝑥𝑛
𝑁
𝑛=1
𝑝 𝐷 𝜇) = 𝜇𝑥𝑛(1 − 𝜇)1−𝑥𝑛
𝑁
𝑛=1
ベータ分布
13
特徴
𝐸[𝜇] =𝑎
𝑎+𝑏
𝑣𝑎𝑟[𝜇] =𝑎𝑏
𝑎+𝑏 2(𝑎+𝑏+1)
𝑎, 𝑏は,𝜇の分布を決めるので,ハイパーパラメータと 呼ばれる
𝐵𝑒𝑡𝑎 𝜇 𝑎, 𝑏) =Γ(a + b)
Γ a Γ(b)𝜇𝑎−1(1 − 𝜇)𝑏−1 (2.13)
(2.15)
(2.16)
ベータ分布
14
事後分布を求める
15
事前分布
尤度関数
事後分布
𝑥 = 1の観測値が𝑚個,𝑥 = 0の観測値が𝑙個あった時, 事後分布を求めるには,𝑎を𝑚, 𝑏を𝑙だけ増やせばよい
𝑎, 𝑏はそれぞれ,𝑥 = 1, 𝑥 = 0の有効観測数と解釈できる
𝐵𝑖𝑛(𝑚 | 𝑁, 𝜇) = 𝑁
𝑚 𝜇𝑚(1 − 𝜇)𝑙
𝐵𝑒𝑡𝑎 𝜇 𝑎, 𝑏) =Γ(a + b)
Γ a Γ(b)𝜇𝑎−1(1 − 𝜇)𝑏−1
𝑝 𝜇 𝑚, 𝑙, 𝑎, 𝑏) =Γ(m + a + b + l)
Γ m + a Γ(b + l)𝜇𝑚+𝑎−1(1 − 𝜇)𝑙+𝑏−1
(𝑙 = 𝑁 − 𝑚)
(2.18)
逐次学習
16
事後分布の特徴
事後分布は,事前分布と形式が同じなので, 事後分布を新たな事前分布として扱える
逐次学習
データがひとつづつ与えられ,データが与えられる度にパラメータを更新していく学習法
𝑝(𝜇) 𝑝(𝜇|𝑥1) 𝑝(𝜇|𝑥1,2)
𝑥1 𝑥2
逐次学習の例
17
𝑎 = 2 𝑏 = 2 β分布
𝑎 = 3 𝑏 = 2 β分布
x=1を1つ 観測した時の 尤度関数 (N=m=1の 二項分布)
逐次学習の長所・短所
18
長所
実時間での学習に利用できる
毎観測値ごとに事後確率を算出するので,全てのデータが なくともよい
大規模データ集合に有用
観測値の処理が終わった後,そのデータはもう捨ててよい
短所
学習の早さと,正しい解への収束性のトレードオフ
𝑥の予測分布
19
これまでの議論 𝑝(𝜇 | 𝐷)の推定
観測データ集合𝐷から,パラメータ𝜇の確率分布を推定
ここからの議論 𝑝(𝑥 = 1 | 𝐷)の推定
観測データ集合𝐷から,𝑥 = 1となる確率を推定
𝑥の予測分布
20
𝑝(𝑥 = 1 | 𝐷) = 𝑝 𝑥 = 1 𝜇)𝑝 𝜇 𝐷) 𝑑𝜇1
0
= 𝜇𝑝 𝜇 𝐷) 𝑑𝜇1
0
= 𝑬 𝜇 𝐷]
= 𝑚 + 𝑎
𝑚 + 𝑎 + 𝑙 + 𝑏
観測値のうち,𝑥 = 1に相当するものの割合
𝑚, 𝑙がとても大きい時,最尤推定の結果と一致する このような特性は,多くの例で見られる
有限のデータ集合では,事後平均は事前平均と
μ の最尤推定量の間になる →演習2.7
(2.19)
(2.20)
事後分布の特性
21
事後分布(ベータ分布)の分散
𝑣𝑎𝑟 𝜇 =𝑎𝑏
𝑎+𝑏 2 𝑎+𝑏+1
𝑎 → ∞や𝑏 → ∞の時,分散は0に近づく
多くのデータを学習すればするほど, 一般的に事後分布の不確実性は減少する?
平均・分散の不確実性
22
事前平均と事後平均
𝜽の事後平均を,データを生成する分布上で平均すると,
𝜽の事前平均に等しい
事前分散と事後分散
平均的には 事前分散 > 事後分散 成り立たないデータセットもある
𝐸𝜽 𝜽 = 𝐸𝐷[𝐸𝜽 𝜽 | 𝐷 ]
𝑣𝑎𝑟𝜃 𝜃 = 𝐸𝐷[𝑣𝑎𝑟𝜃 𝜃 𝐷]] + 𝑣𝑎𝑟𝐷[𝐸𝐷 𝜃 𝐷]] 事前分散 の平均
事後分散の平均 事後平均の分散
(2.21)
(2.24)
• 多項分布
• ディリクレ分布
2.2 多値変数 23
例えば
24
サイコロを投げる 6通りの状態がありうる
1-of-K 符号化法 K個の状態を取りうる離散変数を扱う際に用いられる
要素の一つ𝑥𝑘のみが1で他が0
𝑥𝑘 = 1𝐾𝑘=1 を満たす
ex. サイコロの目を観測値𝑥として,3が出た時
𝑥 = (0,0,1,0,0,0)𝑇
歪んだサイコロ
25
記号の定義 𝜇𝑘 ∶ 𝑥𝑘 = 1となる確率
正確なサイコロの場合
𝝁 = (1
6,1
6,1
6,1
6,1
6,1
6)
シゴロ賽の場合
𝝁 = (0,0,0,1
3,1
3,1
3)
ピンゾロ賽の場合
𝝁 = (1,0,0,0,0,0)
多項分布
26
𝑥の分布
観測値が複数あった場合 𝑁個の独立な観測値𝑥1 …𝑥𝑁
尤度関数
𝑝 𝑥 𝜇) = 𝜇𝑘𝑥𝑘
𝐾
𝑘=1
𝑝 𝐷 𝜇) = 𝜇𝑘𝑥𝑛𝑘
𝐾
𝑘=1
𝑁
𝑛=1
= 𝜇𝑘( 𝑥𝑛𝑘𝑛 )
𝐾
𝑘=1
= 𝜇𝑘𝑚𝑘
𝐾
𝑘=1
𝑚𝑘 = 𝑥𝑛𝑘
𝑛
: この分布の十分統計量
ベルヌーイ分布を2種類以上の 出力に一般化したもの
(2.26)
(2.29)
𝝁の最尤推定
27
制約付き対数尤度最大化
ラグランジュの未定乗数法を用いる
𝑓 = 𝑚𝑘 ln 𝜇𝑘
𝐾
𝑘=1
+ 𝜆 𝜇𝑘 − 1
𝐾
𝑘=1
𝜕𝑓
𝜕𝜇𝑘=
𝑚𝑘
𝜇𝑘+ 𝜆
𝜕𝑓
𝜕𝜇𝑘= 0 より,
𝜇𝑘 = −𝑚𝑘
𝜆
𝜇𝑘 = 1
𝑘
に代入して,
−𝑚𝑘
𝜆= 1
𝑘
− 𝑚𝑘 = 𝜆
𝑘
𝜆 = −𝑁
𝜇𝑘𝑀𝐿 =𝑚𝑘
𝑁
多項分布
28
パラメータ𝜇と観測値の総数𝑁が与えられた条件の下,𝑚1 …𝑚𝐾の同時確率
𝑀𝑢𝑙𝑡 𝑚1, …𝑚𝐾 𝝁, 𝑁) =𝑁
𝑚1𝑚2 …𝑚𝐾 𝜇𝑘
𝑚𝑘
𝐾
𝑘=1
ただし,𝑁
𝑚1𝑚2 …𝑚𝐾=
𝑁!
𝑚1!𝑚2! …𝑚𝐾!
𝑚𝑘
𝐾
𝑘=1
= 𝑁
(2.34)
ディリクレ分布
29
多項分布の𝜇𝑘についての事前分布
共役分布の形は以下の通り
ディリクレ分布
𝑝 𝝁 𝜶) ∝ 𝜇𝑘𝛼𝑘−1
𝐾
𝑘=1
ただし,0 ≦ 𝜇𝑘 ≦ 1, 𝜇𝑘𝑘 = 1 ハイパーパラメータ 𝜶 = (𝛼1, … , 𝛼𝐾)𝑇
𝐷𝑖𝑟 𝝁 𝜶) =Γ(𝛼0)
Γ 𝛼1 …Γ(𝛼𝐾) 𝜇𝑘
𝛼𝑘−1
𝐾
𝑘=1
ただし,𝛼0= 𝛼𝑘𝑘
(2.37)
(2.38)
共役性の確認
30
事前分布
尤度関数
事後分布
𝑝 𝝁 𝜶) =Γ(𝛼0)
Γ 𝛼1 …Γ(𝛼𝐾) 𝜇𝑘
𝛼𝑘−1
𝐾
𝑘=1
𝑝 𝐷 𝝁) =𝑁
𝑚1𝑚2 …𝑚𝐾 𝜇𝑘
𝑚𝑘
𝐾
𝑘=1
𝑝 𝝁 𝐷, 𝜶) = 𝐷𝑖𝑟 𝝁 𝜶 + 𝒎)
=Γ(𝛼0 + 𝑁)
Γ 𝛼1 + 𝑚1 …Γ(𝛼𝐾 + 𝑚𝐾) 𝜇𝑘
𝛼𝑘+𝑚𝑘−1
𝐾
𝑘=1
(2.38)
(2.34)
(2.41)
• 最尤推定と十分統計量
• 共役事前分布
• 無情報事前分布
2.4 指数型分布族 31
指数型分布族とは
32
𝜼:分布の自然パラメータ
𝒙 : ベクトル or スカラー,離散 or 連続
𝒖 𝒙 ∶ 𝒙の任意の関数
𝑔 𝜼 ∶ 正規化係数. 𝑔 𝜼 ℎ 𝒙 exp {𝜼𝑇𝒖 𝒙 }𝑑𝒙 = 1
指数型分布族の例 ベルヌーイ分布
多項分布
ガウス分布
𝒙上の指数型分布族 ∶ 𝑝 𝒙 𝜼) = ℎ 𝒙 𝑔 𝜼 exp {𝜼𝑇𝒖 𝒙 }
本当に指数型分布族なのか確かめる →指数型分布族の形式で書けるか調べる
ベルヌーイ分布は指数型分布族?(1/2)
33
𝑝(𝑥 | 𝜇) = Bern x 𝜇) = 𝜇𝑥(1 − 𝜇)1−𝑥 𝑝(𝑥 | 𝜇) = exp {𝑥 log 𝜇 + 1 − 𝑥 log 1 − 𝜇 }
= 1 − 𝜇 exp log𝜇
1 − 𝜇𝑥
∴ 𝜂 = log𝜇
1 − 𝜇
𝜇 =1
1 + exp(−𝜂)
𝒙上の指数型分布族 ∶ 𝑝 𝒙 𝜼) = ℎ 𝒙 𝑔 𝜼 exp {𝜼𝑇𝒖 𝒙 }
右辺の対数の指数をとる
指数型分布族の式と係数比較
μについて解く
→ ロジスティックシグモイド関数 𝜎(𝜂)
ベルヌーイ分布は指数型分布族?(2/2)
34
𝑝(𝑥 | 𝜇) = 1 − 𝜇 exp log𝜇
1 − 𝜇𝑥
𝑝(𝑥 | 𝜂) = 𝜎(−𝜂)exp 𝜂𝑥
∴ 𝑢(𝑥) = 𝑥 ℎ(𝑥) = 1
𝑔(𝜂) = 𝜎(−𝜂) より,ベルヌーイ分布は指数型分布族.
𝒙上の指数型分布族 ∶ 𝑝 𝒙 𝜼) = ℎ 𝒙 𝑔 𝜼 exp {𝜼𝑇𝒖 𝒙 }
多項分布は指数型分布族?(1/8)
35
𝒙上の指数型分布族 ∶ 𝑝 𝒙 𝜼) = ℎ 𝒙 𝑔 𝜼 exp {𝜼𝑇𝒖 𝒙 }
𝑝(𝒙 | 𝜇) = 𝑚𝑢𝑙𝑡 𝐱 𝜇) = 𝜇𝑘𝑥𝑘
𝑀
𝑘=1
= exp ln 𝜇𝑘𝑥𝑘
𝑀
𝑘=1
= exp 𝑥𝑘ln 𝜇𝑘
𝑀
𝑘=1
ここで 𝜂𝑘 = ln 𝜇𝑘 , 𝜼 = (𝜂1, 𝜂2, … , 𝜂𝑀)𝑇と定義すると, 𝑢(𝒙) = 𝒙 ℎ(𝒙) = 1 𝑔(𝜼) = 1
ただし, 𝜇𝑘 = 1𝑀
𝑘=1 より,ηは独立ではない
カテゴリカル分布
多項分布は指数型分布族?(2/8)
36
前スライドのまとめ
多項分布を指数型分布族の形に書き表すことができた
しかし,𝜂は独立ではない
なので
𝜇𝑘 = 1𝑀𝑘=1 を用いて,𝜇𝑀を 𝜇𝑘 (𝑘 = 1,2, … 𝑀 − 1)で
表し, 𝜇𝑀を消去する
他にも以下の制約がある
0 ≦ 𝜇𝑘 ≦ 1, 𝜇𝑘
𝑀−1
𝑘=1
≦ 1
多項分布は指数型分布族?(3/8)
37
exp 𝑥𝑘ln 𝜇𝑘
𝑀
𝑘=1
= exp 𝑥𝑘ln 𝜇𝑘
𝑀−1
𝑘=1
+ 𝑥𝑀 ln 𝜇𝑀
= exp 𝑥𝑘ln 𝜇𝑘
𝑀−1
𝑘=1
+ 1 − 𝑥𝑘
𝑀−1
𝑘=1
ln 1 − 𝜇𝑘
𝑀−1
𝑘=1
= exp 𝑥𝑘ln𝜇𝑘
1 − 𝜇𝑗𝑀−1𝑗=1
𝑀−1
𝑘=1
+ ln 1 − 𝜇𝑘
𝑀−1
𝑘=1
pp.73 上の式より,
𝑥𝑘
𝑀
𝑘=1= 1
多項分布は指数型分布族?(4/8)
38
exp 𝑥𝑘ln𝜇𝑘
1 − 𝜇𝑗𝑀−1𝑗=1
𝑀−1
𝑘=1
+ ln 1 − 𝜇𝑘
𝑀−1
𝑘=1
= 1 − 𝜇𝑘
𝑀−1
𝑘=1
exp 𝑥𝑘ln𝜇𝑘
1 − 𝜇𝑗𝑀−1𝑗=1
𝑀−1
𝑘=1
よって,
𝜂𝑘 = ln𝜇𝑘
1 − 𝜇𝑗𝑀−1𝑗=1
𝒙上の指数型分布族 ∶ 𝑝 𝒙 𝜼) = ℎ 𝒙 𝑔 𝜼 exp {𝜼𝑇𝒖 𝒙 }
1 − 𝜇𝑘
𝑀−1
𝑘=1
を求めるため,
𝜇𝑘 = ⋯の形にする
多項分布は指数型分布族?(5/8)
39
𝜂𝑘 = ln𝜇𝑘
1 − 𝜇𝑗𝑀−1𝑗=1
exp(𝜂𝑘) =𝜇𝑘
1 − 𝜇𝑗𝑀−1𝑗=1
𝜇𝑘 = exp(𝜂𝑘) 1 − 𝜇𝑗
𝑀−1
𝑗=1
𝜇𝑘
𝑀−1
𝑘=1
= 1 − 𝜇𝑗
𝑀−1
𝑗=1
exp(𝜂𝑘)
𝑀−1
𝑘=1
両辺の指数をとる
k=1からM-1まで足し合わせる
多項分布は指数型分布族?(6/8)
40
𝜇𝑘
𝑀−1
𝑘=1
= exp(𝜂𝑘)
𝑀−1𝑘=1
1 + exp(𝜂𝑘)𝑀−1𝑘=1
𝜇𝑘 = exp(𝜂𝑘) 1 − 𝜇𝑗
𝑀−1
𝑗=1
に代入して,
𝜇𝑘 =exp(𝜂𝑘)
1 + exp(𝜂𝑘)𝑀−1𝑘=1
この式を,ソフトマックス関数,正規化指数関数と呼ぶ.
赤字について解く
多項分布は指数型分布族?(7/8)
41
𝑝(𝑥 | 𝜇) = 1 − 𝜇𝑘
𝑀−1
𝑘=1
exp 𝑥𝑘ln𝜇𝑘
1 − 𝜇𝑗𝑀−1𝑗=1
𝑀−1
𝑘=1
,
𝜂𝑘 = ln𝜇𝑘
1 − 𝜇𝑗𝑀−1𝑗=1
,
𝜇𝑘 =exp(𝜂𝑘)
1 + exp(𝜂𝑘)𝑀−1𝑘=1
⇒ 1 − 𝜇𝑘
𝑀−1
𝑘=1
= 1 − exp 𝜂𝑘
𝑀−1𝑘=1
1 + exp 𝜂𝑘𝑀−1𝑘=1
より,
𝑝 𝒙 𝜼) = 1 + exp(𝜂𝑘)
𝑀−1
𝑘=1
−1
exp 𝜼𝑇𝒙
多項分布は指数型分布族?(8/8)
42
𝑝 𝒙 𝜼) = 1 + exp(𝜂𝑘)
𝑀−1
𝑘=1
−1
exp 𝜼𝑇𝒙
𝜼 = 𝜂1, 𝜂2, … , 𝜂𝑀−1, 0𝑇
𝑢(𝒙) = 𝒙
ℎ(𝒙) = 1
𝑔(𝜼) = 1 + exp(𝜂𝑘)
𝑀−1
𝑘=1
−1
とすると,多項分布は指数型分布族のひとつ
𝒙上の指数型分布族 ∶ 𝑝 𝒙 𝜼) = ℎ 𝒙 𝑔 𝜼 exp {𝜼𝑇𝒖 𝒙 }
ガウス分布は指数型分布族?(1/3)
43
𝑝 𝑥 𝜇, 𝜎) =1
(2𝜋𝜎2)1/2exp −
(𝑥 − 𝜇)2
2𝜎2
=1
(2𝜋𝜎2)1/2exp −
1
2𝜎2𝑥2 +
𝜇
𝜎2𝑥 −
𝜇2
2𝜎2
=1
(2𝜋)1/21
𝜎exp −
𝜇2
2𝜎2exp
𝜇/𝜎2
−1/2𝜎2
𝑇𝑥
𝑥2
𝒙上の指数型分布族 ∶ 𝑝 𝒙 𝜼) = ℎ 𝒙 𝑔 𝜼 exp {𝜼𝑇𝒖 𝒙 }
ℎ(𝑥) =1
(2𝜋)1/2 𝒖(𝑥) =
𝑥
𝑥2 𝜼 =
𝜂1
𝜂2=
𝜇/𝜎2
−1/2𝜎2 𝑔 𝜼
ガウス分布は指数型分布族?(2/3)
44
𝜼 =𝜂1
𝜂2=
𝜇/𝜎2
−1/2𝜎2より,
1
𝜎= (−2𝜂2)
1/2
𝜇 = 𝜂1𝜎2 = −
𝜂1
2𝜂2
よって, 1
𝜎exp −
𝜇2
2𝜎2
= (−2𝜂2)1/2exp −
𝜂12
4𝜂22
1
2(−2𝜂2)
= (−2𝜂2)1/2exp −
𝜂12
4𝜂2 ← 𝜂で表された!
ガウス分布は指数型分布族?(3/3)
45
𝒙上の指数型分布族 ∶ 𝑝 𝒙 𝜼) = ℎ 𝒙 𝑔 𝜼 exp {𝜼𝑇𝒖 𝒙 }
𝑝 𝑥 𝜼) =1
(2𝜋)1/2(−2𝜂2)
1/2exp −𝜂1
2
4𝜂2exp
𝜇/𝜎2
−1/2𝜎2
𝑇𝑥
𝑥2より
ℎ 𝑥 =1
2𝜋 1/2
𝑔 𝜂 = (−2𝜂2)1/2exp −
𝜂12
4𝜂2
𝜼 =𝜂1
𝜂2=
𝜇/𝜎2
−1/2𝜎2, 𝒖 𝑥 =
𝑥
𝑥2とすると,
ガウス分布は指数型分布族のひとつ
𝜼の値を最尤推定
46
正規化条件より,
𝑔 𝜼 ℎ 𝒙 exp {𝜼𝑇𝒖 𝒙 } 𝑑𝒙 = 1
𝜼について,両辺の勾配を求めて,
𝛻𝑔 𝜼 ℎ 𝒙 exp {𝜼𝑇𝒖 𝒙 }𝑑𝒙 + 𝑔 𝜼 ℎ 𝒙 exp 𝜼𝑇𝒖 𝒙 𝒖 𝒙 𝑑𝒙 = 0
−𝛻𝑔 𝜼
𝑔 𝜼= 𝑔 𝜼 ℎ 𝒙 exp 𝜼𝑇𝒖 𝒙 𝒖 𝒙 𝑑𝒙 = 𝐸 𝒖 𝒙
𝐸 𝒖 𝒙 = −𝛻ln𝑔 𝜼
(fg)’=f’g+fg’
𝑢(𝑥)の期待値は,𝑔(𝜂)のみに依存 (𝑢(𝑥)の𝑛次モーメントは𝑔(𝜂)の𝑛階微分で求められる)
𝜼の値を最尤推定
47
独立に同分布に従うデータ集合𝑋 = {𝒙1, 𝒙2, … , 𝒙𝑁}に対する尤度関数は
𝑝 𝑿 𝜼) = ℎ 𝒙𝑛
𝑁
𝑛=1
𝑔 𝜼 𝑁exp 𝜼𝑇 𝒖 𝒙𝑛
𝑁
𝑛=1
両辺の対数をとって,
ln 𝑝 𝑿 𝜼) = lnℎ 𝒙𝑛
𝑁
𝑛=1
+ 𝑁 ln𝑔(𝜼) + 𝜼𝑇 𝒖 𝒙𝑛
𝑁
𝑛=1
(𝜂についての勾配) = 0より,
𝑁𝛻 ln𝑔(𝜼𝑀𝐿) + 𝒖 𝒙𝑛
𝑁
𝑛=1
= 0
−𝛻 ln𝑔 𝜼𝑀𝐿 =1
𝑁 𝒖 𝒙𝑛
𝑁
𝑛=1
→ この式を解けば𝜼𝑀𝐿が得られる
十分統計量
48
十分統計量の例
ベルヌーイ分布 𝑢 𝑥 = 𝑥より, 𝑥𝑛 の総和
ガウス分布 𝑢 𝑥 = (𝑥, 𝑥2)𝑇より, 𝑥𝑛 の総和, 𝑥𝑛
2 の総和
−𝛻 ln𝑔 𝜼𝑀𝐿 =1
𝑁 𝒖 𝒙𝑛
𝑁
𝑛=1
𝜼𝑀𝐿は 𝒖 𝒙𝑛𝑛 のみに依存している
→ 𝒖 𝒙𝑛𝑛 を,𝑝(𝑥 | 𝜂)の十分統計量と呼ぶ
指数型分布族の共役事前分布
50
指数型分布族
𝑝 𝑿 𝜼) = ℎ 𝒙𝑛
𝑁
𝑛=1
𝑔 𝜼 𝑁 exp 𝜼𝑇 𝒖 𝒙𝑛
𝑁
𝑛=1
に対する共役事前分布は, 𝑝 𝜼 𝝌, 𝜈) = 𝑓 𝝌, 𝜈 𝑔 𝜂 𝜈 exp 𝜈𝜼𝑇𝝌
∵ 𝑝 𝜼 𝑿, 𝝌, 𝜈) ∝ 𝑔 𝜂 𝜈+𝑁 exp 𝜼𝑇 𝒖(𝒙𝑛)
𝑁
𝑛=1
+ 𝑣𝝌
共役事前分布 尤度関数と掛けて事後分布を求めると,その関数形が同じになるような事前分布.
これまで出てきた共役事前分布
51
確率分布 共役事前分布
ベルヌーイ分布(二項分布) ベータ分布
多項分布 ディリクレ分布
ガウス分布の平均(分散は既知) ガウス分布
ガウス分布の精度(平均は既知) ガンマ分布
ガウス分布の分散(平均は既知) 逆ガンマ分布
ガウス分布(平均・精度が未知) ガウス-ガンマ分布
多変量ガウス分布の平均(共分散は既知) ガウス分布
多変量ガウス分布の精度(平均は既知) ウィッシャート分布
多変量ガウス分布の共分散(平均は既知) 逆ウィッシャート分布
多変量ガウス分布(平均・精度が未知) ガウス-ウィッシャート分布
無情報事前分布
52
概要
その事前分布を用いて得られる事後分布に, その事前分布ができるだけ影響しないような事前分布
事前分布に対する知見がない時に用いられる
単純に考えると...
離散変数の時 K個の状態をとりうるなら,各状態を1/𝐾で取ればよい
連続変数の時 分布𝑝 𝑥 𝜆)について, 𝑝(𝜆) = 𝑐𝑜𝑛𝑠𝑡.とすればよい?
無情報事前分布 - 𝑝(𝜆)=𝑐𝑜𝑛𝑠𝑡.?
53
𝑝(𝜆)=𝑐𝑜𝑛𝑠𝑡.という事前分布の問題点
𝜆の定義域が有界でないため, 𝜆上での積分が発散する
変則事前分布(不完全事前分布)と呼ばれる
非線形な変数変換が上手く行えない ex. 𝑝𝜆 𝜆 が定数だとする.
𝜆 = 𝜂2と変数変換を行うと,
𝑝𝜂 𝜂 = 𝑝𝜆 𝜆𝑑𝜆
𝑑𝜂= 𝑝𝜆 𝜂2 2𝜂 ∝ 𝜂
η上の密度は定数とはならない.
事後分布が適切(正規化されている)という条件下であれば 使われることも多い
無情報事前分布 - 𝑝(𝜆)=𝑐𝑜𝑛𝑠𝑡.?
54
最尤推定ではこの問題は生じない 尤度関数𝑝(𝑥 | 𝜆)は𝜆について単純な式だから(? )
例 データ𝑥𝑖が,平均𝜇で分散𝜎2の正規分布𝑁 𝑥; 𝜇, 𝜎2 から生じるとする. σ2を既知とし,平均𝜇を推定する. 事前分布に𝑝(𝜇) = 𝑐𝑜𝑛𝑠𝑡.の分布を考える. この時,事後分布は, p(μ | D)∝p(D | μ)*const. より,事後確率が最大となるμの解は最尤推定解に一致. よって,事前確率は推定に影響を与えない.
無情報事前分布の例1
55
平行移動不変性を持つ事前分布
平行移動不変性とは
xを定数分移動しても,同じ形式が保たれる
求めてみよう
𝑝 𝑥 𝜇) = 𝑓(𝑥 − 𝜇)
位置パラメータ
𝐴 ≦ 𝜇 ≦ 𝐵に入る確率と𝐴 − 𝑐 ≦ 𝜇 ≦ 𝐵 − 𝑐に入る確率が等しいので,
𝑝 𝜇 𝑑𝜇𝐵
𝐴
= 𝑝 𝜇 𝑑𝜇𝐵−𝑐
𝐴−𝑐
= 𝑝 𝜇 − 𝑐 𝑑𝜇𝐵
𝐴
この式が任意のA,Bについて成立するため, 𝑝(𝜇) = 𝑝(𝜇 − 𝑐) よって,𝑝(𝜇)は定数
無情報事前分布の例1
56
位置パラメータの例 ガウス分布の平均𝜇
μ の共役事前分布はガウス分布𝑁 𝑥 𝜇0, 𝜎0)
σ0 → ∞の極限をとれば,無情報事前分布になる
事前分布が事後分布に影響を与えていないか
μ𝑁 =
𝜎2
𝑁𝜎2 + 𝜎02𝜇0 +
𝑁𝜎02
𝑁𝜎02 + 𝜎2
𝜇𝑀𝐿
1
𝜎𝑁2=
1
𝜎02+
𝑁
𝜎2
μ𝑁 = 𝜇𝑀𝐿 1
𝜎𝑁2=
𝑁
𝜎2
𝜎0 → ∞
𝜎0 → ∞
無情報事前分布の例2
57
尺度不変性を持つ事前分布
尺度不変性とは
xを定数倍だけ拡大縮小しても,同じ形式が保たれる
求めてみよう
𝑝 𝑥 𝜎) =1
𝜎𝑓
𝑥
𝜎
𝐴 ≦ 𝜎 ≦ 𝐵に入る確率と𝐴/𝑐 ≦ 𝜎 ≦ 𝐵/𝑐に入る確率が等しいので,
𝑝 𝜎 𝑑𝜎𝐵
𝐴
= 𝑝 𝜎 𝑑𝜎𝐵/𝑐
𝐴/𝑐
= 1
𝑐𝑝
𝜎
𝑐𝑑𝜎
𝐵
𝐴
この式が任意のA,Bについて成り立つので,
𝑝 𝜎 =1
𝑐𝑝
𝜎
𝑐
尺度パラメータ
無情報事前分布の例 2-2
58
求めてみよう(続き)
特徴
変則事前分布となる
𝑝 ln 𝜎 = 𝑐𝑜𝑛𝑠𝑡.
p σ ∝1
σより,𝑝 𝜎 =
𝑎
𝜎𝑎は定数 とおき,
t= ln 𝜎と変数変換をすると,𝑑𝜎
𝑑𝑡= 𝜎より,
𝑝 𝑡 = 𝑝 𝜎𝑑𝜎
𝑑𝑡=
𝑎
𝜎σ=const.
∴𝑝 ln𝜎 = 𝑐𝑜𝑛𝑠𝑡.
したがって,𝑝(𝜎) ∝ 1/𝜎
無情報事前分布の例1
59
尺度パラメータの例 𝜇を考慮済みのガウス分布の標準偏差σ
精度𝜆 = 1/𝜎2を考え,密度を変換すると
𝑝 𝜎 ∝1
𝜎⇒ 𝑝 𝜆 ∝
1
𝜆
事前分布が事後分布に影響を与えていないか
𝑁(𝑥 | 𝜇, σ2) ∝ σ−1exp {−(𝑥 /𝜎)2}
𝑎𝑁 = 𝑎0 +𝑁
2
𝑏𝑁 = 𝑏0 +𝑁
2𝜎𝑀𝐿
2
𝑎0 = 0, 𝑏0 = 0
𝑎0 = 0, 𝑏0 = 0
𝑎𝑁 =𝑁
2
𝑏𝑁 =𝑁
2𝜎𝑀𝐿
2
(𝑥 = 𝑥 − 𝜇)
計算の補足
60
𝑝 𝜎 ∝1
𝜎⇒ 𝑝 𝜆 ∝
1
𝜆の証明
𝑝 𝜎 =1
2𝜋𝜎212
exp −𝑥 − 𝜇 2
2𝜎2
𝜆 = 1/𝜎2とおくと,
𝜎 = 𝜆−1/2,𝑑𝜎
𝑑𝜆= −
1
2𝜆−
32
したがって,
𝑝 𝜆 =𝜆12
2𝜋12
exp −𝜆 𝑥 − 𝜇 2
2−
1
2𝜆−3/2
𝑝 𝜆 ∝1
𝜆
• ヒストグラム密度推定法
• カーネル密度推定法
• 最近傍法
2.5 ノンパラメトリック法 61
ノンパラメトリック法
62
パラメトリックなアプローチ 確率分布の形状を仮定
ノンパラメトリックなアプローチ 確率密度関数の形が データに依存して決まる
パラメトリック : 少数のパラメータから 確率変数の分布の形状を決める ノンパラメトリック : 分布の形状が制限されず, データによって形状が決まる
仮定した分布が適切でない場合 予測性能が悪くなりうる
分布の形状について わずかな仮定しかない
ヒストグラム密度推定法
63
記号の定義
𝑥 ∶ 連続変数
∆𝑖 ∶ 𝑖番目の幅
𝑛𝑖 ∶ 𝑖番目の観測値の数
𝑁 ∶ 観測値の総数
確率密度
𝑝𝑖 =𝑛𝑖
𝑁∆𝑖
ヒストグラム密度推定法
64
∆の値による推定の変化
∆は適切な値に設定しないと分布の特徴を捉えきれない
ヒストグラム密度推定法
65
利点
一度ヒストグラムを求めると,元データを廃棄できる →大規模データに有利
データが逐次的に与えられた時に容易に適用できる
欠点
推定した密度が区間の縁で不連続になる
次元数が増えると,指数的に区間の総数が増え,計算規模が増大する(次元の呪い)
ヒストグラム法は1次元か2次元のデータの可視化には役に立つが 他のほとんどの密度推定の応用問題には適さない
ヒストグラム密度推定法
66
ヒストグラム密度推定法から分かること
特定の位置の確率密度を推定するにはその点の近傍のデータ点も考慮すべき
近傍の特性は区間によって定義されている
区間の幅→平滑化パラメータ
平滑化パラメータの値は,大きすぎず,小さすぎず適切な値にすべき
cf. 多項式曲線フィッティングのモデル複雑度の選択
近傍を考慮した密度推定
67
目的 ある𝐷次元のユークリッド空間中の未知の確率密度𝑝 𝑥 から, 観測値の集合が得られている.この集合から𝑝(𝑥)を推定
xを含むある小さな領域Rに割り当てられた確率Pは
𝑃 = 𝑝 𝒙 𝑑𝒙𝑅
p(x)から得られたN個の観測値からなるデータ集合を集める
各データ点が領域R中にある確率はP →R内の点の総数Kは二項分布に従う
Bin K N, P) =𝑁!
𝐾! 𝑁 − 𝐾 !𝑃𝐾(1 − 𝑃)𝑁−𝐾
近傍を考慮した密度推定
68
𝐸[𝐾/𝑁] = 𝑃
𝑣𝑎𝑟[𝐾/𝑁] = 𝑃(1 − 𝑃)/𝑁
Nが大きい時,𝑣𝑎𝑟 𝐾/𝑁 ≒ 0より,
𝐾 ≅ 𝑁𝑃
また,Rが,確率密度p(x)がこの領域内でほぼ一定とみなせるほど十分に小さいと仮定できる時,
P ≅ 𝑝 𝒙 𝑉 (ただし,𝑉は𝑅の体積)
よって,
𝑝(𝑥) =𝐾
𝑁𝑉
領域Rは近似的に密度が一定とみなせるほど小さく 二項分布が鋭く尖るほど十分な量のKが存在する
近傍を考慮した密度推定
69
𝑝(𝑥) =𝐾
𝑁𝑉
カーネル密度推定法 K近傍法
Vを固定し,Kを推定 Kを固定し,Vを推定
Nが大きくなる時Vが縮小し,Kが大きくなるなら, N→∞で,どちらも真の確率密度に収束する
カーネル密度推定法
70
記号の定義 𝑥 ∶ 確率密度を求めたいデータ点
𝑅 ∶ 𝑥を中心とした超立方体
𝑘 𝑢 = 1, 𝑢𝑖 ≦
1
2, 𝑖 = 1,2, …𝐷の時
0,それ以外の時
カーネル関数の一例
Parzen窓と呼ばれる
𝑘((𝒙 − 𝒙𝑛)/ℎ)は,xを中心とする一変がhの立方体の内部に, データ点𝒙𝑛があれば1, そうでなければ0となる関数
カーネル密度推定法
71
立方体内部の総点数は
𝐾 = 𝑘𝒙 − 𝒙𝑛
ℎ
𝑁
𝑛=1
𝑝 𝑥 =𝐾
𝑁𝑉, 𝑉 = ℎ𝐷より,
推定確率密度は
𝑝(𝑥) =1
𝑁
1
ℎ𝐷 𝑘𝒙 − 𝒙𝑛
ℎ
𝐷
𝑛=1
結果の解釈
1. 求めたいデータ点の近傍(超立方体の範囲)にあるデータ点の数を考慮
2. 各データ点の近傍に, 求めたいデータ点を含むデータ点の数を考慮
カーネル密度推定法
72
Parzen窓の問題点
立方体の”縁”で確率密度が不連続となってしまう
解決策
ガウスカーネルを使う
確率密度モデルは以下の通り
𝑘 𝑥𝑖 , 𝑥𝑗 = exp −𝑥𝑖 − 𝑥𝑗
2
2ℎ2
𝑝(𝑥) =1
𝑁
1
2𝜋ℎ2 1/2exp −
𝑥𝑖 − 𝑥𝑗2
2𝜎2
𝑁
𝑛=1
カーネル密度推定法
73
ℎの値による推定の変化
小さくしすぎるとノイズが多くなり,大きくしすぎると過剰に平滑化されてしまう
カーネル密度推定法
74
カーネル関数
カーネル関数は,以下の条件を満たす任意の関数
カーネル密度推定法の利点・欠点
訓練段階では単に訓練集合を保存しておけばよい
密度の評価にかかる計算コストがデータ集合の大きさに比例
𝑘(𝒖) ≧ 0
𝑘 𝒖 𝑑𝒖 = 1
最近傍法
75
カーネル密度推定法の問題点 カーネル幅(密度推定の粒度)を決めるパラメータℎが すべてのカーネルで一定となっている ℎが大きいと,全体的に平滑化される
ℎが小さいと,全体的にノイズの多い推定
解決策 データ空間内の位置に応じてℎを変える =最近傍法
K近傍法
76
K近傍法 𝑝(𝑥)を推定したい点xを中心とした小球を考え,その 半径を,𝐾個のデータ点を含むようになるまで広げる.
この時の体積を𝑉とし, 𝑝(𝑥) =𝐾
𝑁𝑉から密度推定
𝑝(𝑥) =𝐾
𝑁𝑉 K近傍法
Kを固定し,Vを推定
K近傍法
77
Kの値による推定の変化
小さくしすぎるとノイズが多くなり,大きくしすぎると過剰に平滑化されてしまう
K近傍法を用いたクラス分類
78
目的 クラス𝐶𝑘中に𝑁𝑘個の点があり,点の総数は𝑁である データ集合に対し,新たな点𝑥を分類する
分類方針 𝑥を中心として,クラスを考えずに𝐾個の点を含む球を 見つける
各クラスについてベイズの定理を適用し,各クラスに 属する事後確率を求める
事後確率が最大のクラスに割り当てる
K近傍法を用いたクラス分類
79
𝑥を中心とし,𝐾個の点を含む球が,体積𝑉であり,
クラスC𝑘に属する点をそれぞれ𝐾𝑘個含んでいたとする
この時,各クラスの密度,クラス条件のない密度,
クラスの事前分布の推定値はそれぞれ
𝑝 𝒙 𝐶𝑘) =𝐾𝑘
𝑁𝑘𝑉
𝑝(𝒙) =𝐾
𝑁𝑉
𝑝(𝐶𝑘) =𝑁𝑘
𝑁
K近傍法を用いたクラス分類
80
ベイズの定理より,
𝑝 𝐶𝑘 𝑥) =𝑝 𝑥 𝐶𝑘)𝑝(𝐶𝑘)
𝑝(𝒙)=
𝐾𝑘
𝑁𝑘𝑉
𝑁𝑘
𝑁
𝑁𝑉
𝐾=
𝐾𝑘
𝐾
誤分類の確率を最小にする ⇒ 事後確率を最大化する
分類手順 1. 訓練データ集合から𝐾近傍の点集合を選ぶ
2. この集合の中で最も多数派にクラスを割り当てる. ただし,同順位だった場合はランダム
𝐾 = 1の時を最近傍則という
K近傍法を用いたクラス分類
81 http://www.nag-j.co.jp/nagdmc/knn.htmから引用
K近傍法の例
82
Kの値を変えて分類
Kによって平滑化の度合いが調整されている
その他の特徴
83
最近傍則の特徴 𝑁 → ∞の極限で,誤分類率は,真のクラス分布を 用いた最適な分類器で達成可能な最小誤分類率の, たかだか2倍にしかならない
単純だけど意外とすごい
K近傍法・カーネル密度推定法共通の特徴
データ集合全体を保持しなくてはならない
データ集合が大きいと膨大な計算量
探索用の木構造の構築で対処可
参考サイト
85
朱鷺の杜Wiki
http://ibisforest.org/index.php?FrontPage
Bishopさんのサイト
http://research.microsoft.com/en-us/um/people/cmbishop/PRML/
prml_note@wiki
http://www43.atwiki.jp/prml_note/pages/1.html
十分統計量について
http://www012.upp.so-net.ne.jp/doi/math/anova/sufficientstatistic.pdf