NL20161222invited

90
評価実験の設計と 論文での結果報告: きちんとやっていますか? 酒井 哲也 (早稲田大学) @tetsuyasakai December 22, 2016@IPSJ SIGNL 229

Transcript of NL20161222invited

Page 1: NL20161222invited

評価実験の設計と論文での結果報告:

きちんとやっていますか?

酒井 哲也 (早稲田大学)

@tetsuyasakai

December 22, 2016@IPSJ SIGNL 229

Page 2: NL20161222invited

講演概要

1. 自己紹介・バックグラウンド

2. 本の露骨な宣伝

3. 古典的統計学: 誤解・限界・結果の報告の仕方

4. 初期データから適切なサンプルサイズの評価用データを設計する

5. 論文を読んでより適切なサンプルサイズの実験を設計する

6. まとめ

Page 3: NL20161222invited

自己紹介・バックグラウンド (1)

•在英経験6.5年

子供の頃ロンドン 5年

2000-2001 英ケンブリッジ大学 1.5年

(Karen Sparck Jones + Stephen Robertsonに師事)

•在中経験4.5年2009-2013 Microsoft Research Asia (北京)

• 2000年に論文ドクター取得 (早稲田大学 平澤茂一先生)

•企業経験約20年

• 2013年9月より大学教員

「帰国中年」

VSL = The Virtual Sakai Lab

RSL = The Real Sakai Labsakailab.com

Page 4: NL20161222invited

自己紹介・バックグラウンド (2)

•帰国中年なので、なんとなく機械翻訳の仕事をしたいと思い、(株)東芝 研究開発センターの自然言語処理グループに予約配属。

•入社してみたら、何故か情報検索のグループに。あれっ

• (株)ニューズウォッチ(当時)のための情報フィルタリングシステムの開発・評価を担当。博士論文はこの仕事をまとめたもの。

•英ケンブリッジ大から戻ったのち、東芝を辞めて何故か(株)ニューズウォッチ(当時)に転職、自然言語処理研究室長。

http://kotochu.fresheye.com/ を考案。

Page 5: NL20161222invited

自己紹介・バックグラウンド (3)

•東芝時代からNTCIRのタスクに毎年参加 (1999~)。

• いつのまにかタスクオーガナイザ

• いつのまにかジェネラルチェア

with 神門典子先生 (NTCIR創始者) +Charles L.A. Clarke

• NTCIRの経験を通じ、システムの適切な評価方法について興味をもつようになった。

•評価方法の研究は地味だが、「メタな研究」であり極めて重要。もし研究コミュニティが不適切な評価方法を採用していたら、そこでの研究は全部無駄になるかも!?

Page 6: NL20161222invited

自己紹介・バックグラウンド (4)

•現在の活動

- NTCIR general co-chair

- Information Retrieval Journal (Springer) editor-in-chief

(with Charles L.A. Clarke and Arjen de Vries)

- 早稲田大学 情報理工学科 教授

- 早稲田大学 情報企画部 副部長

- NII 客員教授

- ACM SIGIR 2017 general co-chair

(with 神門典子先生 + 上保秀夫先生)

http://www.cs.waseda.ac.jp/faculty/

Page 7: NL20161222invited

SIGIR 日本初上陸! ご投稿・ご支援・ご参加を!http://sigir.org/sigir2017/

Full paper 締切まであとひと月ちょい

Page 8: NL20161222invited

講演概要

1. 自己紹介・バックグラウンド

2. 本の露骨な宣伝

3. 古典的統計学: 誤解・限界・結果の報告の仕方

4. 初期データから適切なサンプルサイズの評価用データを設計する

5. 論文を読んでより適切なサンプルサイズの実験を設計する

6. まとめ

Page 9: NL20161222invited

学生曰く「高い」

Page 10: NL20161222invited

1950年代ごろから始まった図書館の本の「検索」の話など。評価実験の黎明期“The proof of the pudding is in the eating.”

Google translate (as of Nov 29, 2016):「プディングの証拠は食べている」

Page 11: NL20161222invited

「適合率」はrelevance ratioの訳語。「精度」はprecisionの訳語。Relevance ratioは後にprecisionと呼ばれるようになった。

Page 12: NL20161222invited
Page 13: NL20161222invited

正解データが不完全な場合のランクつきリストの評価[Sakai07SIGIR]

Page 14: NL20161222invited

適合性と多様性を考慮したウェブサーチエンジンの評価指標[Sakai+11SIGIR][Sakai13IRJ]

Page 15: NL20161222invited

テキスト中のナゲットの位置情報を活用した評価指標[Sakai+11CIKM][Sakai+13SIGIR]

Page 16: NL20161222invited

本日さらっとカバーするトピック

[Sakai06SIGIR]

Page 17: NL20161222invited

本日さらっとカバーするトピック

Page 18: NL20161222invited

本日さらっとカバーするトピック

[Sakai16IRJ]

Page 19: NL20161222invited

複雑な評価指標が、より直観的で単純な評価指標とどれくらい挙動が似ているか調べる[Sakai12WWW]

Page 20: NL20161222invited
Page 21: NL20161222invited

今日の話は以下の話ともoverlapあり

[Sakai16SIGIR] Sakai, T.: Statistical Significance, Power, and Sample Sizes: A Systematic Review of SIGIR and TOIS, 2006-2015, Proceedings of ACM SIGIR 2016, pp.5-14, 2016.

http://www.slideshare.net/TetsuyaSakai/sigir2016

[Sakai16ICTIRtutorial] Sakai, T.: Topic Set Size Design and Power Analysis in Practice (Tutorial Abstract), ACM ICTIR 2016, pp.9-10, 2016.

http://www.slideshare.net/TetsuyaSakai/ictir2016tutorial-65845256

(スライド200ページ!)

Page 22: NL20161222invited

講演概要

1. 自己紹介・バックグラウンド

2. 本の露骨な宣伝

3. 古典的統計学: 誤解・限界・結果の報告の仕方

4. 初期データから適切なサンプルサイズの評価用データを設計する

5. 論文を読んでより適切なサンプルサイズの実験を設計する

6. まとめ

Page 23: NL20161222invited

評価実験でよくやること: 平均値の比較 (1)

•評価データを使ってm個のシステムを比較する。

•各システムのn個の評価値 (例えば再現率) の平均を論文中の表に載せる。nは例えば評価データ中のトピック (クエリ) の数。

システム 平均再現率

提案システム 0.501

従来システム 0.489

システム 平均再現率

提案システム 0.501

従来システム1 0.489

従来システム2 0.461

m = 2 m = 3

Page 24: NL20161222invited

評価実験でよくやること: 平均値の比較 (2)

•評価データを使ってm個のシステムを比較する。

•各システムのn個の評価値 (例えば再現率) の平均を論文中の表に載せる。nは例えば評価データ中のトピック (クエリ) の数。

システム 平均再現率

提案システム 0.501

従来システム 0.489

システム 平均再現率

提案システム 0.501

従来システム1 0.489

従来システム2 0.461

m = 2 m = 3

この差って意味あるの?

Page 25: NL20161222invited

標本と母集団

•表で示した平均再現率は、たまたま手元にあったn個のデータ(この集合を標本、サンプルという) に基づく標本平均。

•別の標本を採れば、また別の標本平均が得られる。

•本当に知りたいのは、標本の背後にある

母集団の平均に差があるかどうか。

•標本平均は標本を採るたびに違う

確率変数。

•古典的統計学では母平均は定数。

ランダムサンプリングを仮定

cf. Bayes統計学

Page 26: NL20161222invited

平均値の比較のための(パラメトリックな) 統計的検定

システム 平均再現率

提案システム 0.501

従来システム 0.489

システム 平均再現率

提案システム 0.501

従来システム1 0.489

従来システム2 0.461

m = 2 m = 3

この差って意味あるの?

• 対応がある場合のt検定• 2標本t検定(Student, Welch [Sakai16SIGIRshort] )

• 繰り返しのない二元配置分散分析(two-way ANOVA without replication)• 一元配置分散分析 (one-way ANOVA)

母集団が、パラメタ (母平均、母分散など) をもつ正規分布などの分布に従うと仮定するもの

拡張

Page 27: NL20161222invited

平均値の差の検定の原理 (1)

•帰無仮説H0 :とりあえず母平均が等しいと仮定

• データから検定統計量を計算する。もしH0が正しいなら、検定統計量 (例: t0) はある分布 (例: t分布) に従うことが知られている。

•上記分布の確率密度関数のもとで、得られた検定統計量もしくはそれよりもさらに珍しい値が得られる確率 (p-value) を求める。

• P-valueが小さい⇒極めて珍しいことが起こった。予め決めた値α (例: 5%) よりも小さければ、そもそも検定統計量は上記分布に従っていないのでは、つまりH0 が正しいと仮定したことが間違いなのでは、と考え H0を棄却する (たぶん母平均は等しくない)。

検定統計量

Page 28: NL20161222invited

平均値の差の検定の原理 (2)

•帰無仮説H0 :とりあえず母平均が等しいと仮定

• データから検定統計量を計算する。もしH0が正しいなら、検定統計量 (例: t0) はある分布 (例: t分布) に従うことが知られている。

•上記分布の確率密度関数のもとで、得られた検定統計量もしくはそれよりもさらに珍しい値が得られる確率 (p-value) を求める。

• P-valueが小さい⇒極めて珍しいことが起こった。予め決めた値α (例: 5%) よりも小さければ、そもそも検定統計量は上記分布に従っていないのでは、つまりH0 が正しいと仮定したことが間違いなのでは、と考え H0を棄却する (たぶん母平均は等しくない)。

p-value

Page 29: NL20161222invited

平均値の差の検定の原理 (3)

•帰無仮説H0 :とりあえず母平均が等しいと仮定

• データから検定統計量を計算する。もしH0が正しいなら、検定統計量 (例: t0) はある分布 (例: t分布) に従うことが知られている。

•上記分布の確率密度関数のもとで、得られた検定統計量もしくはそれよりもさらに珍しい値が得られる確率 (p-value) を求める。

• P-valueが小さい⇒極めて珍しいことが起こった。予め決めた値α (例: 5%) よりも小さければ、そもそも検定統計量は上記分布に従っていないのでは、つまりH0 が正しいと仮定したことが間違いなのでは、と考え H0を棄却する (たぶん母平均は等しくない)。

α/2 α/2

Page 30: NL20161222invited

あわて者α、ぼんやり者β、検出力

H0 採択 H0 棄却

H0は正しい(母平均は等しい)

正しい結論(1-α)

第1種の誤りα

H0は正しくない(母平均は等しくない)

第2種の誤りβ

正しい結論(1-β)

検出力:本当に差がある

ときに差があるといえる確率

真実

われわれの決断

あわて者

ぼんやり者

α, βは問題に即して決定されるべきだが、一般的なのはα=5%, β=20%(第1種の誤りが第2種の誤りより4倍深刻であるという設定) [Cohen88]

Page 31: NL20161222invited

対応がある場合のt検定 (1)

システム 平均再現率

提案システム 0.501

従来システム 0.489

システム 平均再現率

提案システム 0.501

従来システム1 0.489

従来システム2 0.461

m = 2 m = 3

この差って意味あるの?

• 対応がある場合のt検定• 2標本t検定(Student, Welch [Sakai16SIGIRshort] )

• 繰り返しのない二元配置分散分析(two-way ANOVA without replication)• 一元配置分散分析 (one-way ANOVA)

拡張

Page 32: NL20161222invited

対応がある場合のt検定 (2)

スコア: 0.32 スコア: 0.28

スコア: 0.67 スコア: 0.69

スコア: 0.46 スコア: 0.39

システムB システムG

Page 33: NL20161222invited

例えば検索システムX, Yにn個のトピック (クエリ) を与え、検索結果の再現率の値 を得たとする。

トピック毎の差の標本平均をもとに、母平均を議論したい。

前提:

は独立で

このとき

対応がある場合のt検定 (3)

Page 34: NL20161222invited

は の不偏推定量、すなわち

自由度n-1のt分布。自由度はVの「精度」

対応がある場合のt検定 (4)

母分散は不明なので標本分散で代用

Page 35: NL20161222invited

帰無仮説H0 と対立仮説H1

さきほどの議論より

なので が正しければ

のはず。

システムX, Yの母平均は等しい

両側検定の場合

対応がある場合のt検定 (5)

0test statistic t0

p-value

Page 36: NL20161222invited

帰無仮説H0 と対立仮説H1

が正しければ のはず。P-value <= α なら(⇔ なら)そんなt0は極端すぎる、おそらくt(n-1)に従ってはいない、H0を棄却!

対応がある場合のt検定 (6)

test statistic t0critical t value t(n-1; α)

α/2 α/2

0

Page 37: NL20161222invited

対応がある場合のt検定 (7)

test statistic t0critical t value t(n-1; α)

α/2 α/2

0

MS Excelでt検定をやるには (TTESTという関数もあるけれど…):P-value = TDIST(|t0|, n-1, 2) = T.DIST.2T(|t0|, n-1) <= α のときH0を棄却。(⇔ = TINV(α, n-1) = T.INV.2T(α, n-1) のときH0を棄却。)

詳しくは[Sakai16ICTIRtutorial]

Page 38: NL20161222invited

母平均の差の信頼区間 (1)

t検定の前提より

critical t value t(n-1; α)

α/2 α/2

0

t obeys t(n-1)

Page 39: NL20161222invited

母平均の差の信頼区間 (2)

t検定の前提より

ここで .

よって母平均の差の95%信頼区間(CI)は

Margin of Error

異なる標本から異なる信頼区間が得られる。このうち95%が真の母平均 (定数) を捉えている

Page 40: NL20161222invited

一元配置分散分析 (1)

システム 平均再現率

提案システム 0.501

従来システム 0.489

システム 平均再現率

提案システム 0.501

従来システム1 0.489

従来システム2 0.461

m = 2 m = 3

この差って意味あるの?

• 対応がある場合のt検定• 2標本t検定(Student, Welch [Sakai16SIGIRshort] )

• 繰り返しのない二元配置分散分析(two-way ANOVA without replication)• 一元配置分散分析 (one-way ANOVA)

拡張

Page 41: NL20161222invited

一元配置分散分析 (2)

スコア: 0.32

スコア: 0.46

スコア: 0.78

スコア: 0.25

スコア: 0.58

スコア: 0.61

スコア: 0.23

スコア: 0.44

スコア: 0.33

スコア: 0.88

システムB システムG システムY

Page 42: NL20161222invited

一元配置分散分析 (3)

System Observed scores

1 x11, x12, … , x1n

2 x21, x22, … , x1n

3 x31, x32, … , x3n

i=1, … , mj=1, … , n

: i番目のシステムのj番目のスコア

前提: は独立で

言い換えると

とおくと

となる。

母集団の全平均 i番目のシステム効果

等分散性

μa1

a2

a3

am

...

Page 43: NL20161222invited

帰無仮説H0 と対立仮説H1

: ゼロでないシステム効果がひとつ以上ある

とおくと

が成り立つ。

一元配置分散分析 (4)

システム母平均は全て等しい

スコアと全平均の差

システム平均と全平均の差

スコアとシステム平均の差

標本の全平均 標本のシステム平均

Page 44: NL20161222invited

同様に ST = SA + SE が成り立つ! System Observed scores

1 x11, x12, … , x1n

2 x21, x22, … , x1n

3 x31, x32, … , x3n

一元配置分散分析 (5)

全変動

システム間変動

システム内変動

Page 45: NL20161222invited

ST = SA + SE

に関する前提のもとでは

(a)

(b) .

⇒ H0 (ai = 0 for 1 <= i <= m) が真なら

φE =m(n-1)

φA =m-1

φT =mn-1= φA + φE

自由度:平方和の精度

一元配置分散分析 (6)

詳しくは[Nagata03]

カイ2乗分布

Page 46: NL20161222invited

ST = SA + SE φT = φA + φE

[H0のもとで]

⇒しつこいけど H0のもとで

システム間変動がシステム内変動に比べてどれくらい大きいか見ている

一元配置分散分析 (7)

φE = m(n-1)

φA = m-1

F分布: 2つの自由度をパラメタにもつ

Page 47: NL20161222invited

一元配置分散分析 (8)

m=3,n=10 m=5, n=10 m=20, n=10

帰無仮説H0 と対立仮説H1

:ゼロでないシステム効果がひとつ以上ある

検定統計量:

P-value <= α なら

(⇔ F0 >= F(φA,φE;α) なら)

H0を棄却。

Critical F valueF(φA,φE;α)

F0

α

0

φE = m(n-1)

φA = m-1

Page 48: NL20161222invited

平方和 自由度 不偏分散 F0

システム間

SA φA = m-1 VA = SA/φA = SA/(m-1)

VA/VE =m(n-1)SA

(m-1)SE

システム内

SE φE = m(n-1) VE = SE/φE = SE/m(n-1)

合計 ST φT = mn-1

MS Excelの場合P-value = F.DIST.RT(F0,φA,φE) <= α のときH0を棄却(⇔ F0 >= F(φA,φE;α) = F.INV.RT(φA,φE,α) のときH0を棄却)

一元配置分散分析 (9)

nがシステムによって異なる場合φE = (全スコア数) – m.

Page 49: NL20161222invited

一元配置分散分析 (10)

P-value = F.DIST.RT(F0,φA,φE) <= α のときH0を棄却

H0を棄却したということは

「ゼロでないシステム効果がひとつ以上ある」

と結論づけたことになるが、

…どのシステムが違うの?

Page 50: NL20161222invited

ランダム化Tukey HSD 検定

•分散分析で有意差が得られても、「m個のシステムの少なくともどれか1つがなんか違う」ということしかわからず、そのあとにさらなる検定が必要!

• n x m の評価値行列があり、最初から全システム対の平均値の差に興味があるのなら、ANOVAはすっとばして (例えば) ランダム化Tukey HSD 検定をすればよい。t検定を何度も繰り返すのは一般にはNG!

• http://research.nii.ac.jp/ntcir/tools/discpower-en.htmlに行列を食べさせれば全システム対のp-valueが簡単に得られる。

•詳細は [Sakai15book]正規性・等分散性などの仮定必要ナシ!

Page 51: NL20161222invited

よくある間違い

×「P-valueは、帰無仮説が正しくない確率である」

×「信頼区間の95%とは、確率的に動く母数がその範囲内に落ちる確率である」

Page 52: NL20161222invited

古典的検定は70年代から「炎上」している[Johnson99]

• Deming (1975) commented that the reason students have problems understanding hypothesis tests is that they may be trying to think.

• Carver (1978) recommended that statistical significance testing should be eliminated; it is not only useless, it is also harmful because it is interpreted to mean something else.

• Cohen (1994:997) noted that statistical testing of the null hypothesis "does not tell us what we want to know, and we so much want to know what we want to know that, out of desperation, we nevertheless believe that it does!"

Page 53: NL20161222invited

何がいけないのか (1)

•通常、研究者が知りたいのはP(H|D)。だが、古典的検定ではP(D|H)的なもの=p-value しか得られない。

(Bayes統計学の話はまた別の機会に)

• P-valueを見ずにα=0.05で有意差がある(H0を棄却) か否かのみ議論⇒ p=0.049は有意差あり! p=0.051は有意差なし!という二元論

•例えp-valueをきちんと報告してもまだ不充分!

p-value = f( サンプルサイズ, 効果量 )

効果量が大きくなると⇒ p-valueは小さくなるが

サンプルサイズを大きくしても⇒ p-valueを小さくできる

H: Hypothesis, D: Data

どんな実験でも、サンプルサイズを大きくすれば有意差は出る

Page 54: NL20161222invited

何がいけないのか (2)

•通常、研究者が知りたいのはP(H|D)。だが、古典的検定ではP(D|H)的なもの=p-value しか得られない。

(Bayes統計学の話はまた別の機会に)

• P-valueを見ずにα=0.05で有意差がある(H0を棄却) か否かのみ議論⇒ p=0.049は有意差あり! p=0.051は有意差なし!という二元論

•例えp-valueをきちんと報告してもまだ不充分!

p-value = f( サンプルサイズ, 効果量 )

効果量が大きくなると⇒ p-valueは小さくなるが

サンプルサイズを大きくしても⇒ p-valueを小さくできる

H: Hypothesis, D: Data

どんな実験でも、サンプルサイズを大きくすれば有意差は出る

Page 55: NL20161222invited

何がいけないのか (3)

•通常、研究者が知りたいのはP(H|D)。だが、古典的検定ではP(D|H)的なもの=p-value しか得られない。

(Bayes統計学の話はまた別の機会に)

• P-valueを見ずにα=0.05で有意差がある(H0を棄却) か否かのみ議論⇒ p=0.049は有意差あり! p=0.051は有意差なし!という二元論

•例えp-valueをきちんと報告してもまだ不十分!

p-value = f( サンプルサイズ, 効果量 )

効果量が大きくなると⇒ p-valueは小さくなるが

サンプルサイズを大きくしても⇒ p-valueを小さくできる

H: Hypothesis, D: Data

どんな実験でも、サンプルサイズを大きくすれば有意差は出る

Page 56: NL20161222invited

対応のあるt検定の場合の効果量

“サンプルサイズ=n, システムX,Yの差の平均 =AAA, 差の不偏分散V=BBB,

p-value=CCC, 効果量 = DDD, 差の95%CI [EEE,FFF]”

のようになるべく詳しく報告すべし!

サンプルサイズ(対応のあるスコア対の数)

効果量2つのシステムの差は、差の標準偏差いくつぶんか

(これをp-valueと共に報告すれば、サンプルサイズに直接左右されない本質的な差の大きさを議論できる)

分散分析の効果量については[Sakai16ICTIRtutorial]

古典的統計学を受け入れるなら

Page 57: NL20161222invited

情報検索研究コミュニティはちゃんと報告しているか(1) [Sakai16SIGIR]

Page 58: NL20161222invited

情報検索研究コミュニティはちゃんと報告しているか(2) [Sakai16SIGIR]

Page 59: NL20161222invited

情報検索研究コミュニティはちゃんと報告しているか(3) [Sakai16SIGIR]

Page 60: NL20161222invited

講演概要

1. 自己紹介・バックグラウンド

2. 本の露骨な宣伝

3. 古典的統計学: 誤解・限界・結果の報告の仕方

4. 初期データから適切なサンプルサイズの評価用データを設計する

5. 論文を読んでより適切なサンプルサイズの実験を設計する

6. まとめ

Page 61: NL20161222invited

例えばこんなテストコレクションを作りたいとき

検索対象とする文書コレクション

トピック 適合性判定 (適合・非適合文書)

トピック 適合性判定 (適合・非適合文書)

トピック 適合性判定 (適合・非適合文書)

: :nはいくつにすべき?

n個のトピックについてシステム評価値を平均する。このトピック集合は母集団からのサンプルであると見なす。

Page 62: NL20161222invited

トピック数設計 [Sakai16IRJ]前提とする統計的手法 必要な入力

対応のあるt検定 α (第1種の誤り確率), β (第2種の誤り確率),minDt ((1-β)%検出力を保証する最小のシステム母平均差)

(システム間差の分散の推定値)

一元配置分散分析 α (第1種の誤り確率), β (第2種の誤り確率), m (分散分析で一度に比較するシステム数),minD ((1-β)%検出力を保証する最小のシステム母平均範囲),

(各システムの分散の推定値。等分散性を仮定)

差の信頼区間 α (第1種の誤り確率), δ (信頼区間幅の上限),

(システム間差の分散の推定値)

[Nagata03]をテストコレクションに適用しただけ

最高のシステムと最低のシステムの

母平均差

とするのが簡単

Page 63: NL20161222invited

http://www.f.waseda.jp/tetsuya/tools.htmlにあるExcelファイルで簡単に計算できる

例えば一元配置分散分析でm=3システムの比較を想定する場合。α=5%とし, = 0.25 なる評価指標のもとで最高・最低システムの母平均差がminD=0.5以上のとき検出力80% (β=20%) を保証するトピック数nは?

:

n=20でOK!

Page 64: NL20161222invited

なぜそうなるのか? 概要 (1)

分散分析の手順より、H0を棄却する確率は常に

ここで、H0が真なら

F0はF分布に従う。

一方、H0が偽なら

F0は非心F分布に従う。

α

0

Page 65: NL20161222invited

なぜそうなるのか? 概要 (2)

分散分析の手順より、H0を棄却する確率は常に

H0 採択 H0 棄却

H0は正しい(母平均は等しい)

正しい結論(1-α)

第1種の誤りα

H0は正しくない(母平均は等しくない)

第2種の誤りβ

正しい結論(1-β)

真実

われわれの決断

H0が真⇒F0はF分布に従い、上記確率がまさにα。

Page 66: NL20161222invited

なぜそうなるのか? 概要 (3)

分散分析の手順より、H0を棄却する確率は常に

H0 採択 H0 棄却

H0は正しい(母平均は等しい)

正しい結論(1-α)

第1種の誤りα

H0は正しくない(母平均は等しくない)

第2種の誤りβ

正しい結論(1-β)

真実

われわれの決断

H0が偽⇒F0は非心F分布に従い、上記確率は検出力(1-β)。

Page 67: NL20161222invited

なぜそうなるのか? 概要 (4)

分散分析の手順より、H0が偽のとき、検出力は

非心F分布はφA, φEの他にパラメタλをもつ。

上記検出力はn, m, Δより近似的に求めることができる。

非心F分布に従う

分散を単位としてシステム効果を図った効果量

の一種

Page 68: NL20161222invited

なぜそうなるのか? 概要 (5)

ここで と定義すると Δ >= minΔが成り立つ。

つまり検出力(1-β)を保証するための最高・最低システム間の差minDを定めてもΔは一意には定まらないが、最悪の場合minΔとなる。

よって最悪の場合のサンプルサイズは自由度φAを用いて近似できる

これは近似値なのでnとminΔを検出力の式に代入し、求める検出力が達成されることを確認する。必要に応じnをincrement (Excelが自動でやってくれる)。

Page 69: NL20161222invited

システム分散 の推定方法 (1)

•試験的なデータからスコアの行列を作っておき、これより分散分析のVEを計算する。これはシステム母分散 の不偏推定量。

•試験的なデータが複数ある場合 (例えば類似の既存テストコレクションが複数ある場合)、各データCから得られた分散をプールする。

•試験的なデータは小規模でOK。以後、完成したテストコレクションから新たなVEを計算して推定精度を高めていけばよい

Page 70: NL20161222invited

• = DEVSQ(A1:A20)

+ DEVSQ(B1:B20)

+ DEVSQ(C1:C20) = 0.650834

φE = m(n-1) = 3(20-1)= 57

= = VE = SE / φE = 0.011

0.4695 0.3732 0.35750.2813 0.3783 0.24350.3914 0.3868 0.3167

0.6884 0.5896 0.60240.6121 0.4725 0.4766

0.3266 0.233 0.24290.5605 0.4328 0.40660.5916 0.5073 0.47070.4385 0.3889 0.33840.5821 0.5551 0.4597

0.2871 0.3274 0.27690.5186 0.5066 0.4066

0.5188 0.5198 0.38590.5019 0.4981 0.45680.4702 0.3878 0.34370.329 0.4387 0.26490.4758 0.4946 0.4045

0.3028 0.34 0.32530.3752 0.4895 0.3205

0.2796 0.2335 0.224

A

20 topics

B Cシステム分散 の推定方法 (2)

Page 71: NL20161222invited

トピック数設計適用事例 (1)

NTCIR-12最大のタスク:

中国語サブタスクに44システムが参加

Page 72: NL20161222invited

トピック数設計適用事例 (2)

次回タスクで分散がnG@1 と同程度の(正規分布に従うと見なしてよい)評価指標を使うなら:・n=120とすればm=20, minD=0.20のシステム比較において80%検出力(5%有意水準)を保証・n= 90とすればm=10, minD=0.20のシステム比較において80%検出力(5%有意水準)を保証

次回のタスクに向けてテストコレクションの設計を改善できる!決定したnの統計的意義を説明できる!

Page 73: NL20161222invited

一般に

•有意水準α

•検出力 (1-β)

•効果量

•サンプルサイズn

のうち3つを決めると残りの1つが定まる[Ellis10]。

小さい効果について調べたいなら大きなサンプルが必要!

Page 74: NL20161222invited

講演概要

1. 自己紹介・バックグラウンド

2. 本の露骨な宣伝

3. 古典的統計学: 誤解・限界・結果の報告の仕方

4. 初期データから適切なサンプルサイズの評価用データを設計する

5. 論文を読んでより適切なサンプルサイズの実験を設計する

6. まとめ

Page 75: NL20161222invited

ちゃんとした論文ならば

以下の記述があるはず:

• どの検定手法を使ったか

•サンプルサイズ

•検定統計量 and/or p-value

以上より

•標本効果量

•論文における実験の検出力

•検出力(1-β)を達成するために必要なサンプルサイズ

がRのpwrライブラリを使うと簡単に求められる[Toyoda09]。

Page 76: NL20161222invited

https://waseda.box.com/SIGIR2016PACK [Sakai16SIGIR]

[Toyoda09] で提供されているRスクリプトを少し書き換えたもの

future.sample.pairedt 対応のあるt検定用

future.sample.unpairedt 対応のないt検定用

future.sample.1wayanova 一元配置分散分析用

future.sample.2waynorep 繰り返しのない二元配置分散分析

future.sample.2wayanova2 二元配置分散分析用

Page 77: NL20161222invited

future.sample.pairedt使用例

SIGIR 2012 のある論文にこう書いてある:

“t(27)=0.953 with (two-sided) paired t-test”

⇒ t = 0.953, n = 28 (φ = n-1 = 27)

[Sakai16SIGIR] 分析結果Excelファイル270行目より

サンプルサイズが小さいため検出力が小さい本質的な差を見逃す確率が極めて高く、実験の意義が小さい

この実験の効果量で検出力80%を達成するに必要なサンプルサイズ

効果量

Page 78: NL20161222invited

future.sample.1wayanova 使用例

φA = m-1, φE = m(n-1)SIGIR 2008 のある論文にこう書いてある:

“m=3 groups, n=12 subjects per group,

F(2, 33)=1.284 with (one-way) ANOVA”

(φA = m-1 = 2, φE = m(n-1) = 3*(12-1) = 33)

[Sakai16SIGIR] 分析結果Excelファイル616行目より

サンプルサイズが小さいため検出力が小さい本質的な差を見逃す確率が極めて高く、実験の意義が小さい

この実験の効果量で検出力80%を達成するに必要なサンプルサイズ

効果量の一種

Page 79: NL20161222invited

検出力が極端に低い論文、極端に高い論文 (1)[Sakai16SIGIR]

サンプルサイズ比 (Sample Size Ratio)

= 実験で用いたサンプルサイズn/検出力(1-β)に必要なサンプルサイズn’

SSR が大⇔検出力が極端に高い (必要以上にリソースを使っている)

SSR が小⇔検出力が極端に低い (検出したい差を検出できない可能性が高い)

前述の過去10年間のSIGIR+TOIS論文のうちt検定 or 分散分析を用いており、かつ必要な情報をきちんと報告している133件の論文に対しRスクリプトを適用 (t検定106件; 分散分析27件)

Page 80: NL20161222invited

検出力が極端に低い論文、極端に高い論文 (2)[Sakai16SIGIR]

Page 81: NL20161222invited

検索エンジン会社によるpersonalisationの論文。対応のあるt検定でt=16.00, n=5,352,460, 効果量=0.007, 検出力=1検出力80%を達成するためのサンプルサイズn’=164,107効果量は非常に小さい (が大量ユーザを扱う会社にとっては意味があるかも)

検出力が極端に低い論文、極端に高い論文 (3)[Sakai16SIGIR]

大企業はデータをふんだんに使った実験ができるが、p-valueより効果量を議論すべき。

Page 82: NL20161222invited

検出力が極端に低い論文、極端に高い論文 (4)[Sakai16SIGIR]

Page 83: NL20161222invited

商用social media applicationのデータによる一元配置分散分析。F=243.42, m=3, グループ毎のサンプルサイズn=2551, 検出力=1,

検出力80%を達成するためのサンプルサイズn’=52

検出力が極端に低い論文、極端に高い論文 (5)[Sakai16SIGIR]

Page 84: NL20161222invited

講演概要

1. 自己紹介・バックグラウンド

2. 本の露骨な宣伝

3. 古典的統計学: 誤解・限界・結果の報告の仕方

4. 初期データから適切なサンプルサイズの評価用データを設計する

5. 論文を読んでより適切なサンプルサイズの実験を設計する

6. まとめ

Page 85: NL20161222invited

とどのつまり

•評価方法を理解し、正しい評価をしよう

×みんなが使ってるから、よくわかってないけど自分もこの評価方法を使う

○自分の研究目的にあった評価方法を選んで、もしくは設計して使う

•古典的統計学を使って結果の分析をするのであれば

- 評価データのサンプルサイズについて検討しよう

- 論文を書くときは p-value、効果量、信頼区間などを適切に報告しよう

- 過去の文献をもとに、適切な検出力の実験を設計しよう

•研究コミュニティ全体が上記のような習慣をつければ、個々の成果が有機的につながり大きな知見となる

cf. Bayes統計学

Page 86: NL20161222invited

学生さんには高いかも知れませんが、先生にお願いすれば研究室でn冊購入してくださるはず (n >> 1)

Page 87: NL20161222invited

Springerから本を出します

Laboratory Experiments in Information Retrieval: Sample Sizes, Effect Sizes, and Statistical Power

2017年中に書きあげます。たぶん

Page 88: NL20161222invited

謝辞+文献

•永田靖先生 (早稲田大学) にはサンプルサイズの設計について個人的にいろいろ教えていただきました。

•豊田秀樹先生(早稲田大学)には[Sakai16SIGIR]の発表に伴い、「検定力分析入門」のRのコードを流用して配布する許可をいただきました。

•大変ありがとうございました!

Page 89: NL20161222invited

文献(酒井)

[Sakai06SIGIR] Sakai, T.: Evaluating Evaluation Metrics based on the Bootstrap, ACM SIGIR 2006, pp.525-532.

[Sakai07SIGIR] Sakai, T.: Alternatives to Bpref, ACM SIGIR 2007, pp.71-78, July 2007.

[Sakai+11CIKM] Sakai, T., Kato, M.P. and Song, Y.-I.: Click the Search Button and Be Happy: Evaluating Direct and Immediate Information Access, ACM CIKM 2011, pp.621-630.

[Sakai+11SIGIR] Sakai, T. and Song, R., Evaluating Diversified Search Results Using Per-Intent Graded Relevance, ACM SIGIR 2011, pp.1043-1052.

[Sakai12WWW] Sakai, T.: Evaluation with Informational and Navigational Intents, WWW 2012, pp.499-508.

[Sakai13IRJ] Sakai, T. and Song, R.: Diversified Search Evaluation: Lessons from the NTCIR-9 INTENT Task, Information Retrieval, 16(4), pp.504-529, Springer, 2013.

[Sakai+13SIGIR] Sakai, T., Dou, Z.: Summaries, Ranked Retrieval and Sessions: A Unified Framework for Information Access Evaluation, ACM SIGIR 2013, pp.473-482.

[Sakai15book] 酒井哲也: 情報アクセス評価方法論: 検索エンジンの進歩のために, コロナ社, 2015.

[Sakai16IRJ] Sakai, T.: Topic Set Size Design, Information Retrieval Journal, 19(3), pp. 256-283, Springer, 2016.

http://link.springer.com/content/pdf/10.1007%2Fs10791-015-9273-z.pdf (open access)

[Sakai16SIGIR] Sakai, T.: Statistical Significance, Power, and Sample Sizes: A Systematic Review of SIGIR and TOIS, 2006-2015, ACM SIGIR 2016, pp.5-14.

[Sakai16SIGIRshort] Sakai, T.: Two Sample T-tests for IR Evaluation: Student or Welch?, Proceedings of ACM SIGIR 2016, pp.1045-1048.

[Sakai16ICTIRtutorial] Sakai, T.: Topic Set Size Design and Power Analysis in Practice (Tutorial Abstract), ACM ICTIR 2016, pp.9-10.

Page 90: NL20161222invited

文献(その他)

[Cohen88] Cohen. J.: Statistical Power Analysis for the Behavioral Sciences (Second Edition), Psychology Press, 1988.

[Ellis10] Ellis, P. D.: The Essential Guide to Effect Sizes, Cambridge, 2010.

[Johnson99] Johnson, D. H.: The Insignificance of Statistical Significance Testing, Journal of Wildlife Management, 63(3), 1999.

[永田03] 永田靖: サンプルサイズの決め方, 朝倉書店, 2003.

[豊田09] 豊田秀樹: 検定力分析入門, 東京図書, 2009.