続・わかりやすいパターン認識勉強会 4章前半

4.1 学習とパラメータ推定 4.2 最尤推定 4.3 ベイズ推定 4.4 ベータ分布 4.5 共役事前分布 4.6 ベイズ推定における推定値の特定

第4章パラメータ推定前半第 3回「続・わかりやすいパターン認識」読書会

@ksmzn

会場:株式会社ドワンゴ様東銀座

January 27, 2015

@ksmzn 第 4 章パラメータ推定前半 January 27, 2015 1 / 44


自己紹介

Koshi @ksmzn某大学 M2

リサンプリング法を研究してますベイズ勉強中 (すみません)



もくじ

1 4.1 学習とパラメータ推定

2 4.2 最尤推定

3 4.3 ベイズ推定

4 4.4 ベータ分布

5 4.5 共役事前分布

6 4.6 ベイズ推定における推定値の特定



もくじ


2 4.2 最尤推定







パラメータ推定

1. 母集団分布のカタチを特徴つける値をパラメータ (母数)という。

2. このパラメータが未知であり、その値に興味があるとき、観測値を用いて未知パラメータを類推することをパラメータ推定という。

3. この章では最尤推定とベイズ推定を取り上げる。



もくじ


2 4.2 最尤推定







例題4.1

1枚のコインを投げるn回投げた結果

x(n) = x1x2 . . . xn

n回中 r回が表

θの値を推定する最尤推定とベイズ推定それぞれで推定してみる



最尤原理

「現実に我々が得た観測データは、確率最大のものが実現した結果である」とする考えかた。

観測データx(n)をもたらした θとしては、P (x(n); θ)を最大にする θが

「最も尤もらしい」とみなす。それが最尤原理!!



観測値が得られる確率

各試行は独立なので,観測値が得られる確率は

P (x(n); θ) =P (x1)P (x2)P (x3) . . . P (xn)

=n∏

t=1

P (xt; θ)

=θr(1− θ)n−r



最尤推定

P (x(n); θ)を最大にする θを θ̂(最尤推定量)とすると、

θ̂ = argmaxθ

{P (x(n); θ)}

となる。

このようなパラメータ推定法を最尤推定という



P (x(n); θ)を最大にする

未知パラメータ θの値として尤もらしい度合いP (x(n); θ) を、尤度という。この尤度を最大にする θを求めたい。

→ 微分を行う!

計算をカンタンにするため、尤度の対数をとる。(対数尤度)

log p(x(n); θ)



最尤推定量を求める対数尤度を微分して 0とおくd

dθlog p(x(n); θ) =

d

dθ(r log θ + (n− r) log(1− θ)

=r

θ− n− r

1− θ=0

であるから

θ̂ =r

n

「n回中 r回表が出る割合」なので、直感的にも妥当な結果である。



観測値が得られる確率 (n = 10)



もくじ


2 4.2 最尤推定







最尤推定とベイズ推定

未知パラメータの扱い最尤推定では定数と見なすベイズ推定では確率変数と見なす

確率変数と見なすということは、θを具体的な値に推定した最尤推定とは違い、ベイズ推定では未知パラメータの確率分布を推定できる。



ベイズの定理これまでコインの種類に対して用いていたが、ベイズの定理は連続的な値 θにも定義できる。

p(θ|x(n)

)=

P(x(n)|θ

)P(x(n)

) · p (θ)

p (θ)を事前分布、p(θ|x(n)

)を事後分布という。

P(x(n)

)はx(n)の周辺分布である。

P(x(n)

)=

∫ 1

0

P(x(n)|θ

)p (θ) dθ



尤度

表の確率 θのコインをn回投げてx(n)を得られる確率は、各試行は独立であるから

P (x(n)|θ) =P (x1)P (x2)P (x3) . . . P (xn)

=n∏

t=1

P (xt|θ)

=θr(1− θ)n−r

この値は θの各値の「尤もらしさ」を表すので、尤度である。



尤度

x(n)は既に得られた観測データであり、θは未知パラメータであるから、尤度P (x(n)|θ)をL

(θ|x(n)

)と表すことがある。

Tips一般に、尤度L

(θ|x(n)

)は θに対する確率分

布ではない。実際に、尤度を全領域 [0, 1]で積分しても 1にならない。



事前分布

コインの表が出る確率 θの情報が何もないので、事前分布 p (θ)が決まらない!!↓このように、「まったく特性値の見当がつかない」という知識状態を表すとき、無情報事前分布を用いる。

例1. 一様分布2. Dirichlet分布



一様分布

今回のように 2値分布のパラメータ θについて何もわからないことを示す無情報事前分布は、θが取り得る区間 [0, 1]上の一様分布であり、

p (θ) = 1

とする。これはベータ分布としてBeta(1,1)と書ける。



周辺分布

尤度と事前分布が決まったので、周辺分布を求める

P(x(n)

)=

∫ 1

0

P(x(n)|θ

)p (θ) dθ

=

∫ 1

0

θr(1− θ)n−r · 1dθ

=B(r + 1, n− r + 1)



ベータ関数とガンマ関数B(α, β)はベータ関数であり、

B(α, β) =

∫ 1

0

uα−1(1− u)β−1du

=Γ (α) Γ (β)

Γ (α + β)

Γ (·)はガンマ関数であり、

Γ(α) =

∫ ∞

0

uα−1e−udu

である。@ksmzn 第 4 章パラメータ推定前半 January 27, 2015 22 / 44


周辺分布が求まるαが非負整数の場合、

Γ (α + 1) = α!

となる。よって、P(x(n)

)=B(r + 1, n− r + 1)

=Γ (r + 1)Γ (n− r + 1)

Γ (n+ 2)

=r! (n− r)!

(n+ 1)!

=1

(n+ 1) · nCr@ksmzn 第 4 章パラメータ推定前半 January 27, 2015 23 / 44


事後分布

これらの値をベイズの定理の式に代入する

p(θ|x(n)

)=P(x(n)|θ

)P(x(n)

) · p (θ)

= (n+ 1) · nCrθr (1− θ)n−r

これがパラメータ θの事後分布である。



最尤推定とベイズ推定の比較

最尤推定→最尤推定量

θ̂ =r

n

ベイズ推定→事後確率

p(θ|x(n)

)= (n+ 1) · nCrθ

r (1− θ)n−r



もくじ


2 4.2 最尤推定







ベータ分布

Be (α, β) =θα−1 (1− θ)β−1

B (α, β)(0 ≤ θ ≤ 1)

前節の事後分布p(θ|x(n)

)= (n+ 1) · nCrθ

r (1− θ)n−r は、Be (r + 1, n− r + 1)のベータ分布である！



Be (α, β)を問題に当てはめる

問題設定 Be (α, β)表の出た回数 r α− 1裏の出た回数 n− r β − 1総観測回数 n α+ β − 2



Be (α, β)の形状



もくじ


2 4.2 最尤推定







事前分布の選択

ベイズアプローチ観測データからの情報だけでなく、事前に知っている情報を導入する専門家の見解、従来の検討、その他理論・データなど

無情報事前分布これまでは、θに関する情報がなかったので一様分布を事前分布に用いた。先ほど求めた事後分布であるベータ分布を、新たな事前分布に用いてみる。



事前分布としてのBe (α, β)

事前分布に一様分布ではなくBe (α, β)を使う↓事前知識として、(α + β − 2)回コインを投げて、表が (α− 1)回、裏が (β − 1)回観測されたという情報を得ている。↓表が出る確率 θは、「おそらく α−1

α+β−2ぐらいだろうなぁ」という知識がある。



事前分布としてのBe (α, β)

事前分布 p (θ)としてBe (α, β)を用いる。

p (θ) = Be (α, β) =θα−1 (1− θ)β−1

B (α, β)(0 ≤ θ ≤ 1)

とすると、事後分布は、

p(θ|x(n)

)=

1

Z1· θα+r−1 · (1− θ)β+n−r−1

=Be (α + r, β + n− r)

となる。(Z1は正規化定数)



共役事前分布

二項分布のパラメータ θをベイズ推定する際、事前分布にベータ分布を用いると事後分布もベータ分布になった。このように、事前分布と事後分布が同じ分布族に属するとき、このような事前分布を共役事前分布という。共役事前分布を用いると、事後分布の導出がラクになる。



もくじ


2 4.2 最尤推定







ベイズ推定における推定値

ベイズ推定で得られたのは、事後分布。↓

推定値を得たい！！



θの推定値の候補θの期待値

θ̂ =E [θ]

=α

α + β

=r + 1

n+ 2

ベイズ決定法則では、損失関数として二次損失を選び、その期待損失を最小にする値を選ぶことと同じである。→詳しくは、他のベイズ統計の本で。



θの推定値の候補θの最頻値

θ̂ =argmaxθ

{P (θ|x(n))}

=M [θ]

=α− 1

α + β − 2

=r

n

ベイズ決定法則では、損失関数として 0-1損失を選び、その期待損失を最小にする値を選ぶことと同じである。



期待値と最頻値の比較



Be (α, β)の形状



まとめ

1. 最尤推定ではパラメータの値を唯一に推定する (点推定)。

2. ベイズ推定ではパラメータの事後分布を求める。

3. その際、事前分布に共役事前分布を用いると計算が容易になる。

4. 事後分布から推定値を決める方法は、複数ある。



References

[1] 石井健一郎・上田修功 (2014) 『続・わかりやすいパターン認識 -教師なし学習入門』オーム社

[2] G.Petris[他] (2013) 『Rによるベイジアン動的線型モデル』 (統計ライブラリー) 和合肇・萩原淳一郎訳, 朝倉書店

[3] 仁木直人 (2009) 『基礎情報学』培風館



ご清聴ありがとうございました.


続・わかりやすいパターン認識勉強会 4章前半

Science

Transcript of 続・わかりやすいパターン認識勉強会 4章前半

続・わかりやすいパターン認識 勉強会 4章前半

Science

Transcript of 続・わかりやすいパターン認識 勉強会 4章前半

続・わかりやすいパターン認識勉強会 4章前半

Transcript of 続・わかりやすいパターン認識勉強会 4章前半