ロバスト推測の基礎と...

　

ロバスト推測の基礎とダイバージェンス型メソッドへの発展

藤澤洋徳統計数理研究所[email protected]

1

Contents

第一部：ロバスト推測の基礎1. 外れ値とロバスト推測2. 簡単なロバスト推定

第二部：ダイバージェンス型メソッドへの発展3. 重み付きスコアに基づいたロバスト法と関連したダイバージェンス4. γ-ダイバージェンスに基づいたロバスト法の性質

2

1. 外れ値とロバスト推測

外れ値とは何であるのか？ロバスト推測とは何であるのか？

3

ある実験をしていて，以下のような10個のデータ値が得られたとする：

5.6, 5.7, 5.4, 5.5, 5.8, 5.5, 5.3, 5.6, 5.4, 5.2.

このデータの標本平均は5.5である：

5.6 + 5.7 + 5.4 + 5.5 + 5.8 + 5.5 + 5.3 + 5.6 + 5.4 + 5.2

10= 5.5.

何らかの原因で，外れ値（異常値，outlier）を観測することがある．最後のデータ値がタイプされる時に，誤って5が二回タイプされてしまったとする．

5.6, 5.7, 5.4, 5.5, 5.8, 5.5, 5.3, 5.6, 5.4, 55.2.

このときの標本平均は10.5になる．

5.6 + 5.7 + 5.4 + 5.5 + 5.8 + 5.5 + 5.3 + 5.6 + 5.4 + 55.2

10= 10.5.

4

5.6, 5.7, 5.4, 5.5, 5.8, 5.5, 5.3, 5.6, 5.4, 5.2.5.6, 5.7, 5.4, 5.5, 5.8, 5.5, 5.3, 5.6, 5.4, 55.2.

外れ値の混入： 5.2 → 55.2.標本平均： 5.5 → 10.5.

何が起きているのか？

x =x1 + x2 + · · · + xn−1 + xn

n→∞ as xn→∞

5

標本平均10.5は，本来の意図するところを見ているとは，とても言えない．データに外れ値が入っている場合には，何らかの対策が必要となりやすい．

外れ値に影響されにくい推定をロバスト推定(robust estimation)といい，外れ値に影響されにくい統計的推測全体をロバスト推測(robust inference)という．

注意：なお，ロバスト推測という言葉は，広義の意味では，外れ値に限らず，何らかの悪影響に引きずられにくい統計的推測全体のことを言う．

6

ρ = 0.44 ρ∗ = 0.91 ρrob = 0.85

7

Hampel et al. (1986)

8

2. 簡単なロバスト推定

外れ値にロバストである推定方法について，幾つかの簡単な例を挙げる．

9

平均μのロバスト推定

5.6, 5.7, 5.4, 5.5, 5.8, 5.5, 5.3, 5.6, 5.4, 55.2.

まずは平均μをロバスト推定することを考えよう．最も単純で汎用的に用いられている推定値は，中央値(median)である．

データx1, . . . , xnを小さい順に並び変えた順序統計値を以下で表す：

x(1) ≤ x(2) ≤ · · · ≤ x(n)

このとき，中央値は，次で定義される：

Med({xi}) = x(k) n = 2k − 1のとき= (x(k−1) + x(k))/2 n = 2kのとき

10

タイプミスのある例：

5.6, 5.7, 5.4, 5.5, 5.8, 5.5, 5.3, 5.6, 5.4, 55.2.

順序統計値に並び変える：

5.3, 5.4, 5.4, 5.5, 5.5, 5.6, 5.6, 5.7, 5.8, 55.2.

中央値は次になる：

Med({xi}) = (5.5 + 5.6)/2 = 5.55

これは平均μの妥当な推定値であろう．

11

ただし，中央値を使うときには，いくつかの注意が必要である．

データの背後にある母集団は対称分布である．

　　−4 −2 0 2 4

0.0

0.1

0.2

0.3

0.4

0.5

x

外れ値の割合が大きい場合は，中央値は平均の妥当な推定値ではない．

0 2 4 6 8

0.0

0.1

0.2

0.3

0.4

0.5

0.6

x

dlno

rm (

x)

Median

12

標準偏差σのロバスト推定

5.6, 5.7, 5.4, 5.5, 5.8, 5.5, 5.3, 5.6, 5.4, 5.2.5.6, 5.7, 5.4, 5.5, 5.8, 5.5, 5.3, 5.6, 5.4, 55.2.

S2 =1

n− 1

n∑i=1

(xi − x)2

√S2 = 0.185

√S2 = 15.7

σrob(= MADN) = 0.222

13

平均μの他の簡単なロバスト推定法

刈り込み平均(trimmed mean)

x(1) ≤ · · · ≤ x[nα] ≤ · · · ≤ xn−[nα] ≤ · · · ≤ x(n)

上側100α%と下側100α%のデータを使わない平均．

μ =1

n− 2[nα]

n−[nα]∑i=[nα]+1

x(i)

ただし [a]はaを超えない整数．

14

重み付きスコアに基づいたロバスト推定

母集団がN(μ, σ2)に従う場合を考える．簡単のために標準偏差σは既知であるとする．平均パラメータμを推定する問題を考えよう．

最尤推定量尤度方程式

n∑i=1

(xi − μ) = 0 (μ = x)

15

平均μをロバスト推定することを考えよう．正規分布の密度関数をφ(x;μ, σ2)で表す．

φ(x;μ, σ2) =1√

2πσ2exp

{−(x− μ)2

2σ2

}

外れ値の典型的な性質の一つは，その生起確率が小さいことである．外れ値x∗に対してφ(x∗;μ, σ2)は小さくなるだろう．

16

尤度方程式において，外れ値の寄与を小さくするために，平均μの推定値 μを，次の推定方程式の解として与えることにしよう：

n∑i=1

φ(xi;μ, σ2)(xi− μ) = 0.

最初の例で，タイプミスがあった場合に，上記の推定方法を適用してみる．ただし，標準偏差σは，外れ値を除外したデータの標本標準偏差の近似値0.158であったと仮定してみる．そのとき，推定値は，μ = 5.517となった．

17

疑問

もしもσ2が未知だったら？

もしも正規分布（対称分布）でなくて一般の分布f(x; θ)だったら？

第二部で関連方法が提案される．

18

3. 重み付きスコアに基づいたロバスト法と関連したダイバージェンス

本節と次節では，データxに対して，何らかのパラメトリックモデルfθ(x) = f(x; θ)

が想定されている．

Basu et al. (1998, Biometrika)

Eguchi and Kano (1998, unpublished)

Jones et al. (2001, Biometrika)

19

平均パラメータμの重み付き推定方程式を思い出そう：

n∑i=1

φ(xi;μ, σ2)(xi− μ) = 0

コアはスコア関数だと考えよう：

n∑i=1

s(xi; θ) = 0 s(x; θ) =d

dθlog f(x; θ)

重み付き推定方程式を考えてみよう：n∑i=1

f(xi; θ)βs(xi; θ) = 0 β > 0

正規分布における平均パラメータの推定の場合は，このままで良かったが，一般のパラメータを推定する場合には，もう一工夫が必要である．

20

重み付き推定方程式：

n∑i=1

f(xi; θ)βs(xi; θ) = 0.

推定方程式の不偏性を思い出す：　　Efθ

[f(x; θ)βs(x; θ)

]= 0とは限らない．

（正規分布での平均μの推定の時は自動的に満たされていた．）

核の関数を修正する：

ψ(x; θ) = f(x; θ)βs(x; θ)− Efθ

[f(x; θ)βs(x; θ)

]これによって推定方程式の不偏性が満たされる： Efθ[ψ(x; θ)] = 0.

21

M推定：

0 =1

n

n∑i=1

ψ(xi; θ)

重み付きスコアに基づいた推定方程式：

0 =1

n

n∑i=1

{f(xi; θ)

βs(xi; θ)− Efθ

[f(x; θ)βs(x; θ)

]}

=1

n

n∑i=1

f(xi; θ)βs(xi; θ)−

∫f(x; θ)1+βs(x; θ)dx

22

尤度方程式とKLダイバージェンスの関係を思い出そう：

θ = arg maxθ

1

n

n∑i=1

log f(xi; θ)

これを微分すると尤度方程式が得られる：

0 =1

n

n∑i=1

s(xi; θ)

右辺を積分して戻せば元に戻る：

1

n

n∑i=1

log f(xi; θ)

これの極限にマイナスをつけたものを考える（相互エントロピー）．

23

相互エントロピー：

dKL(g, fθ) = −Eg[log f(x; θ)] = −∫g(x) log f(x; θ)dx

KLダイバージェンスは次のように表現できる：

DKL(g, f) = Eg

[log

g(X)

f(X)

]= Eg [log g(X)]− Eg [log f(X)]

= −dKL(g, g) + dKL(g, f)

ダイバージェンスの性質 (≈ 距離)

DKL(g, f) ≥ 0. DKL(g, f) = 0 ⇔ g = f.

24

β-ダイバージェンス

重み付きスコアに基づく推定方程式から，相互エントロピーとダイバージェンスを作る：

0 =1

n

n∑i=1

f(xi; θ)βs(xi; θ)−

∫f(x; θ)1+βs(x; θ)dx

KLのときと同様に積分して極限を取ってマイナスをつける．β-相互エントロピー：

dβ(g, fθ) = −1

β

∫g(x)f(x; θ)βdx+

1

1 + β

∫f(x; θ)1+βdx

25

β-ダイバージェンス (β-divergence, density power divergence)：

Dβ(g, f) = −dβ(g, g) + dβ(g, f)

=1

β(1 + β)

∫g(x)1+βdx− 1

1 + β

∫g(x)f(x)βdx

+1

1 + β

∫f(x)1+βdx

極限を考えるとKLダイバージェンスになる：

limβ→0

Dβ(g, f) = DKL(g, f).

26

γ-ダイバージェンス

重み付きスコアに基づく推定方程式を見直す：

0 =1

n

n∑i=1

f(xi; θ)γs(xi; θ)− Efθ [f(x; θ)γs(x; θ)]

重みを1にする：

0 =1

n

n∑i=1

f(xi; θ)γs(xi; θ)

/1

n

n∑i=1

f(xi; θ)γ

−Efθ [f(x; θ)γs(x; θ)]/Efθ [f(x; θ)γ]

先ほどと同じように行うと，対応するγ-相互エントロピーが得られる：

dγ(g, fθ) = −1

γlog

∫g(x)f(x; θ)γdx+

1

1 + γlog

∫f(x; θ)1+γdx

27

γ-ダイバージェンス：

Dγ(g, f) = −dγ(g, g) + dγ(g, f)

=1

γ(1 + γ)log

∫g(x)1+γdx− 1

1 + γlog

∫g(x)f(x)γdx

+1

1 + γlog

∫f(x)1+γdx

極限を考えるとKLダイバージェンスになる：

limγ→0

Dγ(g, f) = DKL(g, f).

28

二つの相互エントロピーの違い

β-相互エントロピー：

dβ(g, f) = −1

β

∫g(x)f(x)βdx+

1

1 + β

∫f(x)1+βdx

γ-相互エントロピー：

dγ(g, f) = −1

γlog

∫g(x)f(x)γdx+

1

1 + γlog

∫f(x)1+γdx

注意：二つの相互エントロピーの違いは「log」が付いているかどうかである．これだけの違いだが大きな性質の違いも生み出す．

29

4. γ-ダイバージェンスに基づいたロバスト法の性質

Fujisawa and Eguchi (2008). Robust parameter estimation with

a small bias against heavy contamination. Journal of Multivari-

ate Analysis, Vol.99, 2053-2081.

30

外れ値とは何か

データを発生している分布（汚染された分布）

g(x) = (1− ε)f(x) + εδ(x)

f : 目的分布 (= fθ∗)δ: 外れ値の分布（汚染分布）ε: 外れ値の割合

外れ値の分布が目的分布の裾にある：

νf =

∫f(x)δ(x)dx ≈ 0

({∫f(x)γ0δ(x)dx

}1/γ0≈ 0 γ0 > γ > 0

)

31

唯一つの本質的な仮定

外れ値の分布が目的とする分布の裾にある：

νf =

{∫f(x)γ0δ(x)dx

}1/γ0≈ 0

外れ値をx∗として，外れ値の分布をδ(x) = δx∗(x)とすると，

νf = f(x∗) ≈ 0

となるので，想定された条件は，外れ値の生起確率が小さいことを意味する．

32

Review: 経験推定

ディラック関数 δa(x) ∫f(x)δa(x)dx = f(a)

経験密度関数 (厳密には経験分布関数で議論すべき)

g(x) =1

n

n∑i=1

δxi(x) → g(x)

経験推定

Eg[h(X)] =

∫g(x)h(x)dx ←

∫g(x)h(x)dx =

1

n

n∑i=1

h(xi)

33

γ-相互エントロピー：

dγ(g, f) = −1

γlog

∫g(x)f(x)γdx+

1

1 + γlog

∫f(x)1+γdx

γ相互エントロピーの経験推定

dγ(g, f) = −1

γlog

∫g(x)f(x)γdx+

1

1 + γlog

∫f(x)1+γdx

= −1

γlog

⎛⎝1

n

n∑i=1

f(xi)γ

⎞⎠ +

1

1 + γlog

∫f(x)1+γdx

34

(γ-)ロバスト推定量

θγ = arg minθdγ(g, fθ)(

= arg minθ

{−dγ(g, g) + dγ(g, fθ)}

= arg minθDγ(g, fθ)

)→ θ∗γ = arg min

θdγ(g, fθ)

潜在的なバイアス

θ∗γ − θ∗ (≈ 0) = O (ενγ)

35

ピタゴリアン関係

Dγ(g, f) = − dγ(g, g) + dγ(g, f)

Dγ(g, fθ) = Dγ(g, f) +Dγ(f, fθ) + O(ενγ)

� � �� Æ

�

�

��

��

��

36

潜在的なバイアス (ε = 0.05)

g = (1− ε)N(0, 1) + εN(6, 1) ← fθ = N(μ, σ2)

μ

0.2 0.4 0.6 0.8 1

0.05

0.1

0.15

0.2

0.25

0.3

σ

0.2 0.4 0.6 0.8 1

0.1

0.2

0.3

0.4

0.5

0.6 θ∗γ: 実線 dγ(g, f)

θ(m)β : 点線 dβ(g, f)

x軸: γ or βy軸: 潜在バイアス

37

潜在的なバイアス (ε = 0.2)

g = (1− ε)N(0, 1) + εN(6, 1) ← fθ = N(μ, σ2)

μ

0.2 0.4 0.6 0.8 1

0.2

0.4

0.6

0.8

1

1.2σ

0.2 0.4 0.6 0.8 1

0.25

0.5

0.75

1

1.25

1.5 θ∗γ: 実線 dγ(g, f)

θ(m)β : 点線 dβ(g, f)

x軸: γ or βy軸: 潜在バイアス

38

更新アルゴリズムパラメトリック分布をN(μ, σ2)としたときは，次の繰り返しアルゴリズムの収束値によって推定値が得られます： θ = (μ, σ2)．

w(a)i = f(xi; θ

(a))γ/ n∑i=1

f(xi; θ(a))γ

μ(a+1) =n∑i=1

w(a)i xi

(σ2)(a+1) =

⎧⎨⎩

n∑i=1

w(a)i x2

i − (μ(a+1))2

⎫⎬⎭ (1 + γ)

このアルゴリズムは次のような単調性をもちます：

dγ(g, fθ(a)) ≥ dγ(g, fθ(a+1)) ≥ · · · ≥ dγ(g, fθγ)39

漸近分散

漸近正規性：

√n

(θγ − θ∗γ

)d→ N

(0,Σg(θ

∗γ)

)Σg(θ) = Jg(θ)

−1Ig(θ)Jg(θ)′−1

Jg(θ) = Eg

[d

dθ′ξ(x; θ)

]Ig(θ) = Eg

[ξ(x; θ)ξ(x; θ)′

]

漸近分散の関係：

Σg(θ∗γ) =

1

1− εΣf(θ∗) + O(ενγ)

結論：外れ値は自動的に無視されている．40

ある種のロバスト性を生じる相互エントロピーの唯一性

外れ値の割合が大きい場合にもバイアスが小さくなるロバスト推定をもたらす相互エントロピーd(g, f)は，幾つかの条件の下では，本質的に唯一つである：

d(g, f) = φ(dγ(g, f)).

ただしφ(u)は適当な単調増加関数である．

41

THANK YOU

Hironori Fujisawa

Institute of Statistical Mathematics

42

ロバスト推測の基礎と...

Documents

Transcript of ロバスト推測の基礎と...