続・わかりやすいパターン認識 勉強会 4章前半
Transcript of 続・わかりやすいパターン認識 勉強会 4章前半
4.1 学習とパラメータ推定 4.2 最尤推定 4.3 ベイズ推定 4.4 ベータ分布 4.5 共役事前分布 4.6 ベイズ推定における推定値の特定
第4章 パラメータ推定 前半第 3回「続・わかりやすいパターン認識」読書会
@ksmzn
会場:株式会社ドワンゴ様 東銀座
January 27, 2015
@ksmzn 第 4 章 パラメータ推定 前半 January 27, 2015 1 / 44
4.1 学習とパラメータ推定 4.2 最尤推定 4.3 ベイズ推定 4.4 ベータ分布 4.5 共役事前分布 4.6 ベイズ推定における推定値の特定
自己紹介
Koshi @ksmzn某大学 M2
リサンプリング法を研究してますベイズ勉強中 (すみません)
@ksmzn 第 4 章 パラメータ推定 前半 January 27, 2015 2 / 44
4.1 学習とパラメータ推定 4.2 最尤推定 4.3 ベイズ推定 4.4 ベータ分布 4.5 共役事前分布 4.6 ベイズ推定における推定値の特定
もくじ
1 4.1 学習とパラメータ推定
2 4.2 最尤推定
3 4.3 ベイズ推定
4 4.4 ベータ分布
5 4.5 共役事前分布
6 4.6 ベイズ推定における推定値の特定
@ksmzn 第 4 章 パラメータ推定 前半 January 27, 2015 3 / 44
4.1 学習とパラメータ推定 4.2 最尤推定 4.3 ベイズ推定 4.4 ベータ分布 4.5 共役事前分布 4.6 ベイズ推定における推定値の特定
もくじ
1 4.1 学習とパラメータ推定
2 4.2 最尤推定
3 4.3 ベイズ推定
4 4.4 ベータ分布
5 4.5 共役事前分布
6 4.6 ベイズ推定における推定値の特定
@ksmzn 第 4 章 パラメータ推定 前半 January 27, 2015 4 / 44
4.1 学習とパラメータ推定 4.2 最尤推定 4.3 ベイズ推定 4.4 ベータ分布 4.5 共役事前分布 4.6 ベイズ推定における推定値の特定
パラメータ推定
1. 母集団分布のカタチを特徴つける値をパラメータ (母数)という。
2. このパラメータが未知であり、その値に興味があるとき、観測値を用いて未知パラメータを類推することをパラメータ推定という。
3. この章では最尤推定とベイズ推定を取り上げる。
@ksmzn 第 4 章 パラメータ推定 前半 January 27, 2015 5 / 44
4.1 学習とパラメータ推定 4.2 最尤推定 4.3 ベイズ推定 4.4 ベータ分布 4.5 共役事前分布 4.6 ベイズ推定における推定値の特定
もくじ
1 4.1 学習とパラメータ推定
2 4.2 最尤推定
3 4.3 ベイズ推定
4 4.4 ベータ分布
5 4.5 共役事前分布
6 4.6 ベイズ推定における推定値の特定
@ksmzn 第 4 章 パラメータ推定 前半 January 27, 2015 6 / 44
4.1 学習とパラメータ推定 4.2 最尤推定 4.3 ベイズ推定 4.4 ベータ分布 4.5 共役事前分布 4.6 ベイズ推定における推定値の特定
例題4.1
1枚のコインを投げるn回投げた結果
x(n) = x1x2 . . . xn
n回中 r回が表
θの値を推定する最尤推定とベイズ推定それぞれで推定してみる
@ksmzn 第 4 章 パラメータ推定 前半 January 27, 2015 7 / 44
4.1 学習とパラメータ推定 4.2 最尤推定 4.3 ベイズ推定 4.4 ベータ分布 4.5 共役事前分布 4.6 ベイズ推定における推定値の特定
最尤原理
「現実に我々が得た観測データは、確率最大のものが実現した結果である」とする考えかた。
観測データx(n)をもたらした θとしては、P (x(n); θ)を最大にする θが
「最も尤もらしい」とみなす。それが最尤原理!!
@ksmzn 第 4 章 パラメータ推定 前半 January 27, 2015 8 / 44
4.1 学習とパラメータ推定 4.2 最尤推定 4.3 ベイズ推定 4.4 ベータ分布 4.5 共役事前分布 4.6 ベイズ推定における推定値の特定
観測値が得られる確率
各試行は独立なので,観測値が得られる確率は
P (x(n); θ) =P (x1)P (x2)P (x3) . . . P (xn)
=n∏
t=1
P (xt; θ)
=θr(1− θ)n−r
@ksmzn 第 4 章 パラメータ推定 前半 January 27, 2015 9 / 44
4.1 学習とパラメータ推定 4.2 最尤推定 4.3 ベイズ推定 4.4 ベータ分布 4.5 共役事前分布 4.6 ベイズ推定における推定値の特定
最尤推定
P (x(n); θ)を最大にする θを θ̂(最尤推定量)とすると、
θ̂ = argmaxθ
{P (x(n); θ)}
となる。
このようなパラメータ推定法を最尤推定という
@ksmzn 第 4 章 パラメータ推定 前半 January 27, 2015 10 / 44
4.1 学習とパラメータ推定 4.2 最尤推定 4.3 ベイズ推定 4.4 ベータ分布 4.5 共役事前分布 4.6 ベイズ推定における推定値の特定
P (x(n); θ)を最大にする
未知パラメータ θの値として尤もらしい度合いP (x(n); θ) を、尤度という。この尤度を最大にする θを求めたい。
→ 微分を行う!
計算をカンタンにするため、尤度の対数をとる。(対数尤度)
log p(x(n); θ)
@ksmzn 第 4 章 パラメータ推定 前半 January 27, 2015 11 / 44
4.1 学習とパラメータ推定 4.2 最尤推定 4.3 ベイズ推定 4.4 ベータ分布 4.5 共役事前分布 4.6 ベイズ推定における推定値の特定
最尤推定量を求める対数尤度を微分して 0とおくd
dθlog p(x(n); θ) =
d
dθ(r log θ + (n− r) log(1− θ)
=r
θ− n− r
1− θ=0
であるから
θ̂ =r
n
「n回中 r回表が出る割合」なので、直感的にも妥当な結果である。
@ksmzn 第 4 章 パラメータ推定 前半 January 27, 2015 12 / 44
4.1 学習とパラメータ推定 4.2 最尤推定 4.3 ベイズ推定 4.4 ベータ分布 4.5 共役事前分布 4.6 ベイズ推定における推定値の特定
観測値が得られる確率 (n = 10)
@ksmzn 第 4 章 パラメータ推定 前半 January 27, 2015 13 / 44
4.1 学習とパラメータ推定 4.2 最尤推定 4.3 ベイズ推定 4.4 ベータ分布 4.5 共役事前分布 4.6 ベイズ推定における推定値の特定
もくじ
1 4.1 学習とパラメータ推定
2 4.2 最尤推定
3 4.3 ベイズ推定
4 4.4 ベータ分布
5 4.5 共役事前分布
6 4.6 ベイズ推定における推定値の特定
@ksmzn 第 4 章 パラメータ推定 前半 January 27, 2015 14 / 44
4.1 学習とパラメータ推定 4.2 最尤推定 4.3 ベイズ推定 4.4 ベータ分布 4.5 共役事前分布 4.6 ベイズ推定における推定値の特定
最尤推定とベイズ推定
未知パラメータの扱い最尤推定では定数と見なすベイズ推定では確率変数と見なす
確率変数と見なすということは、θを具体的な値に推定した最尤推定とは違い、ベイズ推定では未知パラメータの確率分布を推定できる。
@ksmzn 第 4 章 パラメータ推定 前半 January 27, 2015 15 / 44
4.1 学習とパラメータ推定 4.2 最尤推定 4.3 ベイズ推定 4.4 ベータ分布 4.5 共役事前分布 4.6 ベイズ推定における推定値の特定
ベイズの定理これまでコインの種類に対して用いていたが、ベイズの定理は連続的な値 θにも定義できる。
p(θ|x(n)
)=
P(x(n)|θ
)P(x(n)
) · p (θ)
p (θ)を事前分布、p(θ|x(n)
)を事後分布という。
P(x(n)
)はx(n)の周辺分布である。
P(x(n)
)=
∫ 1
0
P(x(n)|θ
)p (θ) dθ
@ksmzn 第 4 章 パラメータ推定 前半 January 27, 2015 16 / 44
4.1 学習とパラメータ推定 4.2 最尤推定 4.3 ベイズ推定 4.4 ベータ分布 4.5 共役事前分布 4.6 ベイズ推定における推定値の特定
尤度
表の確率 θのコインをn回投げてx(n)を得られる確率は、各試行は独立であるから
P (x(n)|θ) =P (x1)P (x2)P (x3) . . . P (xn)
=n∏
t=1
P (xt|θ)
=θr(1− θ)n−r
この値は θの各値の「尤もらしさ」を表すので、尤度である。
@ksmzn 第 4 章 パラメータ推定 前半 January 27, 2015 17 / 44
4.1 学習とパラメータ推定 4.2 最尤推定 4.3 ベイズ推定 4.4 ベータ分布 4.5 共役事前分布 4.6 ベイズ推定における推定値の特定
尤度
x(n)は既に得られた観測データであり、θは未知パラメータであるから、尤度P (x(n)|θ)をL
(θ|x(n)
)と表すことがある。
Tips一般に、尤度L
(θ|x(n)
)は θに対する確率分
布ではない。実際に、尤度を全領域 [0, 1]で積分しても 1にならない。
@ksmzn 第 4 章 パラメータ推定 前半 January 27, 2015 18 / 44
4.1 学習とパラメータ推定 4.2 最尤推定 4.3 ベイズ推定 4.4 ベータ分布 4.5 共役事前分布 4.6 ベイズ推定における推定値の特定
事前分布
コインの表が出る確率 θの情報が何もないので、事前分布 p (θ)が決まらない!!↓このように、「まったく特性値の見当がつかない」という知識状態を表すとき、無情報事前分布を用いる。
例1. 一様分布2. Dirichlet分布
@ksmzn 第 4 章 パラメータ推定 前半 January 27, 2015 19 / 44
4.1 学習とパラメータ推定 4.2 最尤推定 4.3 ベイズ推定 4.4 ベータ分布 4.5 共役事前分布 4.6 ベイズ推定における推定値の特定
一様分布
今回のように 2値分布のパラメータ θについて何もわからないことを示す無情報事前分布は、θが取り得る区間 [0, 1]上の一様分布であり、
p (θ) = 1
とする。これはベータ分布としてBeta(1,1)と書ける。
@ksmzn 第 4 章 パラメータ推定 前半 January 27, 2015 20 / 44
4.1 学習とパラメータ推定 4.2 最尤推定 4.3 ベイズ推定 4.4 ベータ分布 4.5 共役事前分布 4.6 ベイズ推定における推定値の特定
周辺分布
尤度と事前分布が決まったので、周辺分布を求める
P(x(n)
)=
∫ 1
0
P(x(n)|θ
)p (θ) dθ
=
∫ 1
0
θr(1− θ)n−r · 1dθ
=B(r + 1, n− r + 1)
@ksmzn 第 4 章 パラメータ推定 前半 January 27, 2015 21 / 44
4.1 学習とパラメータ推定 4.2 最尤推定 4.3 ベイズ推定 4.4 ベータ分布 4.5 共役事前分布 4.6 ベイズ推定における推定値の特定
ベータ関数とガンマ関数B(α, β)はベータ関数であり、
B(α, β) =
∫ 1
0
uα−1(1− u)β−1du
=Γ (α) Γ (β)
Γ (α + β)
Γ (·)はガンマ関数であり、
Γ(α) =
∫ ∞
0
uα−1e−udu
である。@ksmzn 第 4 章 パラメータ推定 前半 January 27, 2015 22 / 44
4.1 学習とパラメータ推定 4.2 最尤推定 4.3 ベイズ推定 4.4 ベータ分布 4.5 共役事前分布 4.6 ベイズ推定における推定値の特定
周辺分布が求まるαが非負整数の場合、
Γ (α + 1) = α!
となる。よって、P(x(n)
)=B(r + 1, n− r + 1)
=Γ (r + 1)Γ (n− r + 1)
Γ (n+ 2)
=r! (n− r)!
(n+ 1)!
=1
(n+ 1) · nCr@ksmzn 第 4 章 パラメータ推定 前半 January 27, 2015 23 / 44
4.1 学習とパラメータ推定 4.2 最尤推定 4.3 ベイズ推定 4.4 ベータ分布 4.5 共役事前分布 4.6 ベイズ推定における推定値の特定
事後分布
これらの値をベイズの定理の式に代入する
p(θ|x(n)
)=P(x(n)|θ
)P(x(n)
) · p (θ)
= (n+ 1) · nCrθr (1− θ)n−r
これがパラメータ θの事後分布である。
@ksmzn 第 4 章 パラメータ推定 前半 January 27, 2015 24 / 44
4.1 学習とパラメータ推定 4.2 最尤推定 4.3 ベイズ推定 4.4 ベータ分布 4.5 共役事前分布 4.6 ベイズ推定における推定値の特定
最尤推定とベイズ推定の比較
最尤推定→最尤推定量
θ̂ =r
n
ベイズ推定→事後確率
p(θ|x(n)
)= (n+ 1) · nCrθ
r (1− θ)n−r
@ksmzn 第 4 章 パラメータ推定 前半 January 27, 2015 25 / 44
4.1 学習とパラメータ推定 4.2 最尤推定 4.3 ベイズ推定 4.4 ベータ分布 4.5 共役事前分布 4.6 ベイズ推定における推定値の特定
もくじ
1 4.1 学習とパラメータ推定
2 4.2 最尤推定
3 4.3 ベイズ推定
4 4.4 ベータ分布
5 4.5 共役事前分布
6 4.6 ベイズ推定における推定値の特定
@ksmzn 第 4 章 パラメータ推定 前半 January 27, 2015 26 / 44
4.1 学習とパラメータ推定 4.2 最尤推定 4.3 ベイズ推定 4.4 ベータ分布 4.5 共役事前分布 4.6 ベイズ推定における推定値の特定
ベータ分布
Be (α, β) =θα−1 (1− θ)β−1
B (α, β)(0 ≤ θ ≤ 1)
前節の事後分布p(θ|x(n)
)= (n+ 1) · nCrθ
r (1− θ)n−r は、Be (r + 1, n− r + 1)のベータ分布である!
@ksmzn 第 4 章 パラメータ推定 前半 January 27, 2015 27 / 44
4.1 学習とパラメータ推定 4.2 最尤推定 4.3 ベイズ推定 4.4 ベータ分布 4.5 共役事前分布 4.6 ベイズ推定における推定値の特定
Be (α, β)を問題に当てはめる
問題設定 Be (α, β)表の出た回数 r α− 1裏の出た回数 n− r β − 1総観測回数 n α+ β − 2
@ksmzn 第 4 章 パラメータ推定 前半 January 27, 2015 28 / 44
4.1 学習とパラメータ推定 4.2 最尤推定 4.3 ベイズ推定 4.4 ベータ分布 4.5 共役事前分布 4.6 ベイズ推定における推定値の特定
Be (α, β)の形状
@ksmzn 第 4 章 パラメータ推定 前半 January 27, 2015 29 / 44
4.1 学習とパラメータ推定 4.2 最尤推定 4.3 ベイズ推定 4.4 ベータ分布 4.5 共役事前分布 4.6 ベイズ推定における推定値の特定
もくじ
1 4.1 学習とパラメータ推定
2 4.2 最尤推定
3 4.3 ベイズ推定
4 4.4 ベータ分布
5 4.5 共役事前分布
6 4.6 ベイズ推定における推定値の特定
@ksmzn 第 4 章 パラメータ推定 前半 January 27, 2015 30 / 44
4.1 学習とパラメータ推定 4.2 最尤推定 4.3 ベイズ推定 4.4 ベータ分布 4.5 共役事前分布 4.6 ベイズ推定における推定値の特定
事前分布の選択
ベイズアプローチ観測データからの情報だけでなく、事前に知っている情報を導入する専門家の見解、従来の検討、その他理論・データなど
無情報事前分布これまでは、θに関する情報がなかったので一様分布を事前分布に用いた。先ほど求めた事後分布であるベータ分布を、新たな事前分布に用いてみる。
@ksmzn 第 4 章 パラメータ推定 前半 January 27, 2015 31 / 44
4.1 学習とパラメータ推定 4.2 最尤推定 4.3 ベイズ推定 4.4 ベータ分布 4.5 共役事前分布 4.6 ベイズ推定における推定値の特定
事前分布としてのBe (α, β)
事前分布に一様分布ではなくBe (α, β)を使う↓事前知識として、(α + β − 2)回コインを投げて、表が (α− 1)回、裏が (β − 1)回観測されたという情報を得ている。↓表が出る確率 θは、「おそらく α−1
α+β−2ぐらいだろうなぁ」という知識がある。
@ksmzn 第 4 章 パラメータ推定 前半 January 27, 2015 32 / 44
4.1 学習とパラメータ推定 4.2 最尤推定 4.3 ベイズ推定 4.4 ベータ分布 4.5 共役事前分布 4.6 ベイズ推定における推定値の特定
事前分布としてのBe (α, β)
事前分布 p (θ)としてBe (α, β)を用いる。
p (θ) = Be (α, β) =θα−1 (1− θ)β−1
B (α, β)(0 ≤ θ ≤ 1)
とすると、事後分布は、
p(θ|x(n)
)=
1
Z1· θα+r−1 · (1− θ)β+n−r−1
=Be (α + r, β + n− r)
となる。(Z1は正規化定数)
@ksmzn 第 4 章 パラメータ推定 前半 January 27, 2015 33 / 44
4.1 学習とパラメータ推定 4.2 最尤推定 4.3 ベイズ推定 4.4 ベータ分布 4.5 共役事前分布 4.6 ベイズ推定における推定値の特定
共役事前分布
二項分布のパラメータ θをベイズ推定する際、事前分布にベータ分布を用いると事後分布もベータ分布になった。このように、事前分布と事後分布が同じ分布族に属するとき、このような事前分布を共役事前分布という。共役事前分布を用いると、事後分布の導出がラクになる。
@ksmzn 第 4 章 パラメータ推定 前半 January 27, 2015 34 / 44
4.1 学習とパラメータ推定 4.2 最尤推定 4.3 ベイズ推定 4.4 ベータ分布 4.5 共役事前分布 4.6 ベイズ推定における推定値の特定
もくじ
1 4.1 学習とパラメータ推定
2 4.2 最尤推定
3 4.3 ベイズ推定
4 4.4 ベータ分布
5 4.5 共役事前分布
6 4.6 ベイズ推定における推定値の特定
@ksmzn 第 4 章 パラメータ推定 前半 January 27, 2015 35 / 44
4.1 学習とパラメータ推定 4.2 最尤推定 4.3 ベイズ推定 4.4 ベータ分布 4.5 共役事前分布 4.6 ベイズ推定における推定値の特定
ベイズ推定における推定値
ベイズ推定で得られたのは、事後分布。↓
推定値を得たい!!
@ksmzn 第 4 章 パラメータ推定 前半 January 27, 2015 36 / 44
4.1 学習とパラメータ推定 4.2 最尤推定 4.3 ベイズ推定 4.4 ベータ分布 4.5 共役事前分布 4.6 ベイズ推定における推定値の特定
θの推定値の候補θの期待値
θ̂ =E [θ]
=α
α + β
=r + 1
n+ 2
ベイズ決定法則では、損失関数として二次損失を選び、その期待損失を最小にする値を選ぶことと同じである。→詳しくは、他のベイズ統計の本で。
@ksmzn 第 4 章 パラメータ推定 前半 January 27, 2015 37 / 44
4.1 学習とパラメータ推定 4.2 最尤推定 4.3 ベイズ推定 4.4 ベータ分布 4.5 共役事前分布 4.6 ベイズ推定における推定値の特定
θの推定値の候補θの最頻値
θ̂ =argmaxθ
{P (θ|x(n))}
=M [θ]
=α− 1
α + β − 2
=r
n
ベイズ決定法則では、損失関数として 0-1損失を選び、その期待損失を最小にする値を選ぶことと同じである。
@ksmzn 第 4 章 パラメータ推定 前半 January 27, 2015 38 / 44
4.1 学習とパラメータ推定 4.2 最尤推定 4.3 ベイズ推定 4.4 ベータ分布 4.5 共役事前分布 4.6 ベイズ推定における推定値の特定
期待値と最頻値の比較
@ksmzn 第 4 章 パラメータ推定 前半 January 27, 2015 39 / 44
4.1 学習とパラメータ推定 4.2 最尤推定 4.3 ベイズ推定 4.4 ベータ分布 4.5 共役事前分布 4.6 ベイズ推定における推定値の特定
Be (α, β)の形状
@ksmzn 第 4 章 パラメータ推定 前半 January 27, 2015 40 / 44
4.1 学習とパラメータ推定 4.2 最尤推定 4.3 ベイズ推定 4.4 ベータ分布 4.5 共役事前分布 4.6 ベイズ推定における推定値の特定
まとめ
1. 最尤推定ではパラメータの値を唯一に推定する (点推定)。
2. ベイズ推定ではパラメータの事後分布を求める。
3. その際、事前分布に共役事前分布を用いると計算が容易になる。
4. 事後分布から推定値を決める方法は、複数ある。
@ksmzn 第 4 章 パラメータ推定 前半 January 27, 2015 41 / 44
4.1 学習とパラメータ推定 4.2 最尤推定 4.3 ベイズ推定 4.4 ベータ分布 4.5 共役事前分布 4.6 ベイズ推定における推定値の特定
References
[1] 石井健一郎・上田修功 (2014) 『続・わかりやすいパターン認識 -教師なし学習入門』 オーム社
[2] G.Petris[他] (2013) 『Rによるベイジアン動的線型モデル』 (統計ライブラリー) 和合肇・萩原淳一郎訳, 朝倉書店
[3] 仁木直人 (2009) 『基礎情報学』 培風館
@ksmzn 第 4 章 パラメータ推定 前半 January 27, 2015 42 / 44
4.1 学習とパラメータ推定 4.2 最尤推定 4.3 ベイズ推定 4.4 ベータ分布 4.5 共役事前分布 4.6 ベイズ推定における推定値の特定
ご清聴ありがとうございました.
@ksmzn 第 4 章 パラメータ推定 前半 January 27, 2015 44 / 44