NL20161222invited
-
Upload
tetsuya-sakai -
Category
Technology
-
view
1.347 -
download
0
Transcript of NL20161222invited
評価実験の設計と論文での結果報告:
きちんとやっていますか?
酒井 哲也 (早稲田大学)
@tetsuyasakai
December 22, 2016@IPSJ SIGNL 229
講演概要
1. 自己紹介・バックグラウンド
2. 本の露骨な宣伝
3. 古典的統計学: 誤解・限界・結果の報告の仕方
4. 初期データから適切なサンプルサイズの評価用データを設計する
5. 論文を読んでより適切なサンプルサイズの実験を設計する
6. まとめ
自己紹介・バックグラウンド (1)
•在英経験6.5年
子供の頃ロンドン 5年
2000-2001 英ケンブリッジ大学 1.5年
(Karen Sparck Jones + Stephen Robertsonに師事)
•在中経験4.5年2009-2013 Microsoft Research Asia (北京)
• 2000年に論文ドクター取得 (早稲田大学 平澤茂一先生)
•企業経験約20年
• 2013年9月より大学教員
「帰国中年」
VSL = The Virtual Sakai Lab
RSL = The Real Sakai Labsakailab.com
自己紹介・バックグラウンド (2)
•帰国中年なので、なんとなく機械翻訳の仕事をしたいと思い、(株)東芝 研究開発センターの自然言語処理グループに予約配属。
•入社してみたら、何故か情報検索のグループに。あれっ
• (株)ニューズウォッチ(当時)のための情報フィルタリングシステムの開発・評価を担当。博士論文はこの仕事をまとめたもの。
•英ケンブリッジ大から戻ったのち、東芝を辞めて何故か(株)ニューズウォッチ(当時)に転職、自然言語処理研究室長。
http://kotochu.fresheye.com/ を考案。
自己紹介・バックグラウンド (3)
•東芝時代からNTCIRのタスクに毎年参加 (1999~)。
• いつのまにかタスクオーガナイザ
• いつのまにかジェネラルチェア
with 神門典子先生 (NTCIR創始者) +Charles L.A. Clarke
• NTCIRの経験を通じ、システムの適切な評価方法について興味をもつようになった。
•評価方法の研究は地味だが、「メタな研究」であり極めて重要。もし研究コミュニティが不適切な評価方法を採用していたら、そこでの研究は全部無駄になるかも!?
自己紹介・バックグラウンド (4)
•現在の活動
- NTCIR general co-chair
- Information Retrieval Journal (Springer) editor-in-chief
(with Charles L.A. Clarke and Arjen de Vries)
- 早稲田大学 情報理工学科 教授
- 早稲田大学 情報企画部 副部長
- NII 客員教授
- ACM SIGIR 2017 general co-chair
(with 神門典子先生 + 上保秀夫先生)
http://www.cs.waseda.ac.jp/faculty/
SIGIR 日本初上陸! ご投稿・ご支援・ご参加を!http://sigir.org/sigir2017/
Full paper 締切まであとひと月ちょい
講演概要
1. 自己紹介・バックグラウンド
2. 本の露骨な宣伝
3. 古典的統計学: 誤解・限界・結果の報告の仕方
4. 初期データから適切なサンプルサイズの評価用データを設計する
5. 論文を読んでより適切なサンプルサイズの実験を設計する
6. まとめ
学生曰く「高い」
1950年代ごろから始まった図書館の本の「検索」の話など。評価実験の黎明期“The proof of the pudding is in the eating.”
Google translate (as of Nov 29, 2016):「プディングの証拠は食べている」
「適合率」はrelevance ratioの訳語。「精度」はprecisionの訳語。Relevance ratioは後にprecisionと呼ばれるようになった。
正解データが不完全な場合のランクつきリストの評価[Sakai07SIGIR]
適合性と多様性を考慮したウェブサーチエンジンの評価指標[Sakai+11SIGIR][Sakai13IRJ]
テキスト中のナゲットの位置情報を活用した評価指標[Sakai+11CIKM][Sakai+13SIGIR]
本日さらっとカバーするトピック
[Sakai06SIGIR]
本日さらっとカバーするトピック
本日さらっとカバーするトピック
[Sakai16IRJ]
複雑な評価指標が、より直観的で単純な評価指標とどれくらい挙動が似ているか調べる[Sakai12WWW]
今日の話は以下の話ともoverlapあり
[Sakai16SIGIR] Sakai, T.: Statistical Significance, Power, and Sample Sizes: A Systematic Review of SIGIR and TOIS, 2006-2015, Proceedings of ACM SIGIR 2016, pp.5-14, 2016.
http://www.slideshare.net/TetsuyaSakai/sigir2016
[Sakai16ICTIRtutorial] Sakai, T.: Topic Set Size Design and Power Analysis in Practice (Tutorial Abstract), ACM ICTIR 2016, pp.9-10, 2016.
http://www.slideshare.net/TetsuyaSakai/ictir2016tutorial-65845256
(スライド200ページ!)
講演概要
1. 自己紹介・バックグラウンド
2. 本の露骨な宣伝
3. 古典的統計学: 誤解・限界・結果の報告の仕方
4. 初期データから適切なサンプルサイズの評価用データを設計する
5. 論文を読んでより適切なサンプルサイズの実験を設計する
6. まとめ
評価実験でよくやること: 平均値の比較 (1)
•評価データを使ってm個のシステムを比較する。
•各システムのn個の評価値 (例えば再現率) の平均を論文中の表に載せる。nは例えば評価データ中のトピック (クエリ) の数。
システム 平均再現率
提案システム 0.501
従来システム 0.489
システム 平均再現率
提案システム 0.501
従来システム1 0.489
従来システム2 0.461
m = 2 m = 3
評価実験でよくやること: 平均値の比較 (2)
•評価データを使ってm個のシステムを比較する。
•各システムのn個の評価値 (例えば再現率) の平均を論文中の表に載せる。nは例えば評価データ中のトピック (クエリ) の数。
システム 平均再現率
提案システム 0.501
従来システム 0.489
システム 平均再現率
提案システム 0.501
従来システム1 0.489
従来システム2 0.461
m = 2 m = 3
この差って意味あるの?
標本と母集団
•表で示した平均再現率は、たまたま手元にあったn個のデータ(この集合を標本、サンプルという) に基づく標本平均。
•別の標本を採れば、また別の標本平均が得られる。
•本当に知りたいのは、標本の背後にある
母集団の平均に差があるかどうか。
•標本平均は標本を採るたびに違う
確率変数。
•古典的統計学では母平均は定数。
ランダムサンプリングを仮定
cf. Bayes統計学
平均値の比較のための(パラメトリックな) 統計的検定
システム 平均再現率
提案システム 0.501
従来システム 0.489
システム 平均再現率
提案システム 0.501
従来システム1 0.489
従来システム2 0.461
m = 2 m = 3
この差って意味あるの?
• 対応がある場合のt検定• 2標本t検定(Student, Welch [Sakai16SIGIRshort] )
• 繰り返しのない二元配置分散分析(two-way ANOVA without replication)• 一元配置分散分析 (one-way ANOVA)
母集団が、パラメタ (母平均、母分散など) をもつ正規分布などの分布に従うと仮定するもの
拡張
平均値の差の検定の原理 (1)
•帰無仮説H0 :とりあえず母平均が等しいと仮定
• データから検定統計量を計算する。もしH0が正しいなら、検定統計量 (例: t0) はある分布 (例: t分布) に従うことが知られている。
•上記分布の確率密度関数のもとで、得られた検定統計量もしくはそれよりもさらに珍しい値が得られる確率 (p-value) を求める。
• P-valueが小さい⇒極めて珍しいことが起こった。予め決めた値α (例: 5%) よりも小さければ、そもそも検定統計量は上記分布に従っていないのでは、つまりH0 が正しいと仮定したことが間違いなのでは、と考え H0を棄却する (たぶん母平均は等しくない)。
検定統計量
平均値の差の検定の原理 (2)
•帰無仮説H0 :とりあえず母平均が等しいと仮定
• データから検定統計量を計算する。もしH0が正しいなら、検定統計量 (例: t0) はある分布 (例: t分布) に従うことが知られている。
•上記分布の確率密度関数のもとで、得られた検定統計量もしくはそれよりもさらに珍しい値が得られる確率 (p-value) を求める。
• P-valueが小さい⇒極めて珍しいことが起こった。予め決めた値α (例: 5%) よりも小さければ、そもそも検定統計量は上記分布に従っていないのでは、つまりH0 が正しいと仮定したことが間違いなのでは、と考え H0を棄却する (たぶん母平均は等しくない)。
p-value
平均値の差の検定の原理 (3)
•帰無仮説H0 :とりあえず母平均が等しいと仮定
• データから検定統計量を計算する。もしH0が正しいなら、検定統計量 (例: t0) はある分布 (例: t分布) に従うことが知られている。
•上記分布の確率密度関数のもとで、得られた検定統計量もしくはそれよりもさらに珍しい値が得られる確率 (p-value) を求める。
• P-valueが小さい⇒極めて珍しいことが起こった。予め決めた値α (例: 5%) よりも小さければ、そもそも検定統計量は上記分布に従っていないのでは、つまりH0 が正しいと仮定したことが間違いなのでは、と考え H0を棄却する (たぶん母平均は等しくない)。
α/2 α/2
あわて者α、ぼんやり者β、検出力
H0 採択 H0 棄却
H0は正しい(母平均は等しい)
正しい結論(1-α)
第1種の誤りα
H0は正しくない(母平均は等しくない)
第2種の誤りβ
正しい結論(1-β)
検出力:本当に差がある
ときに差があるといえる確率
真実
われわれの決断
あわて者
ぼんやり者
α, βは問題に即して決定されるべきだが、一般的なのはα=5%, β=20%(第1種の誤りが第2種の誤りより4倍深刻であるという設定) [Cohen88]
対応がある場合のt検定 (1)
システム 平均再現率
提案システム 0.501
従来システム 0.489
システム 平均再現率
提案システム 0.501
従来システム1 0.489
従来システム2 0.461
m = 2 m = 3
この差って意味あるの?
• 対応がある場合のt検定• 2標本t検定(Student, Welch [Sakai16SIGIRshort] )
• 繰り返しのない二元配置分散分析(two-way ANOVA without replication)• 一元配置分散分析 (one-way ANOVA)
拡張
対応がある場合のt検定 (2)
スコア: 0.32 スコア: 0.28
スコア: 0.67 スコア: 0.69
スコア: 0.46 スコア: 0.39
システムB システムG
例えば検索システムX, Yにn個のトピック (クエリ) を与え、検索結果の再現率の値 を得たとする。
トピック毎の差の標本平均をもとに、母平均を議論したい。
前提:
は独立で
このとき
対応がある場合のt検定 (3)
⇒
⇒
⇒
は の不偏推定量、すなわち
自由度n-1のt分布。自由度はVの「精度」
対応がある場合のt検定 (4)
母分散は不明なので標本分散で代用
帰無仮説H0 と対立仮説H1
さきほどの議論より
なので が正しければ
のはず。
システムX, Yの母平均は等しい
両側検定の場合
対応がある場合のt検定 (5)
0test statistic t0
p-value
帰無仮説H0 と対立仮説H1
が正しければ のはず。P-value <= α なら(⇔ なら)そんなt0は極端すぎる、おそらくt(n-1)に従ってはいない、H0を棄却!
対応がある場合のt検定 (6)
test statistic t0critical t value t(n-1; α)
α/2 α/2
0
対応がある場合のt検定 (7)
test statistic t0critical t value t(n-1; α)
α/2 α/2
0
MS Excelでt検定をやるには (TTESTという関数もあるけれど…):P-value = TDIST(|t0|, n-1, 2) = T.DIST.2T(|t0|, n-1) <= α のときH0を棄却。(⇔ = TINV(α, n-1) = T.INV.2T(α, n-1) のときH0を棄却。)
詳しくは[Sakai16ICTIRtutorial]
母平均の差の信頼区間 (1)
t検定の前提より
⇒
critical t value t(n-1; α)
α/2 α/2
0
t obeys t(n-1)
母平均の差の信頼区間 (2)
t検定の前提より
⇒
⇒
ここで .
よって母平均の差の95%信頼区間(CI)は
Margin of Error
異なる標本から異なる信頼区間が得られる。このうち95%が真の母平均 (定数) を捉えている
一元配置分散分析 (1)
システム 平均再現率
提案システム 0.501
従来システム 0.489
システム 平均再現率
提案システム 0.501
従来システム1 0.489
従来システム2 0.461
m = 2 m = 3
この差って意味あるの?
• 対応がある場合のt検定• 2標本t検定(Student, Welch [Sakai16SIGIRshort] )
• 繰り返しのない二元配置分散分析(two-way ANOVA without replication)• 一元配置分散分析 (one-way ANOVA)
拡張
一元配置分散分析 (2)
スコア: 0.32
スコア: 0.46
スコア: 0.78
スコア: 0.25
スコア: 0.58
スコア: 0.61
スコア: 0.23
スコア: 0.44
スコア: 0.33
スコア: 0.88
システムB システムG システムY
一元配置分散分析 (3)
System Observed scores
1 x11, x12, … , x1n
2 x21, x22, … , x1n
3 x31, x32, … , x3n
i=1, … , mj=1, … , n
: i番目のシステムのj番目のスコア
前提: は独立で
言い換えると
とおくと
となる。
母集団の全平均 i番目のシステム効果
等分散性
μa1
a2
a3
am
...
帰無仮説H0 と対立仮説H1
: ゼロでないシステム効果がひとつ以上ある
とおくと
が成り立つ。
一元配置分散分析 (4)
システム母平均は全て等しい
スコアと全平均の差
システム平均と全平均の差
スコアとシステム平均の差
標本の全平均 標本のシステム平均
同様に ST = SA + SE が成り立つ! System Observed scores
1 x11, x12, … , x1n
2 x21, x22, … , x1n
3 x31, x32, … , x3n
一元配置分散分析 (5)
全変動
システム間変動
システム内変動
ST = SA + SE
に関する前提のもとでは
(a)
⇒
(b) .
⇒ H0 (ai = 0 for 1 <= i <= m) が真なら
φE =m(n-1)
φA =m-1
φT =mn-1= φA + φE
自由度:平方和の精度
一元配置分散分析 (6)
詳しくは[Nagata03]
カイ2乗分布
ST = SA + SE φT = φA + φE
[H0のもとで]
⇒しつこいけど H0のもとで
システム間変動がシステム内変動に比べてどれくらい大きいか見ている
一元配置分散分析 (7)
φE = m(n-1)
φA = m-1
F分布: 2つの自由度をパラメタにもつ
一元配置分散分析 (8)
m=3,n=10 m=5, n=10 m=20, n=10
帰無仮説H0 と対立仮説H1
:ゼロでないシステム効果がひとつ以上ある
検定統計量:
P-value <= α なら
(⇔ F0 >= F(φA,φE;α) なら)
H0を棄却。
Critical F valueF(φA,φE;α)
F0
α
0
φE = m(n-1)
φA = m-1
平方和 自由度 不偏分散 F0
システム間
SA φA = m-1 VA = SA/φA = SA/(m-1)
VA/VE =m(n-1)SA
(m-1)SE
システム内
SE φE = m(n-1) VE = SE/φE = SE/m(n-1)
合計 ST φT = mn-1
MS Excelの場合P-value = F.DIST.RT(F0,φA,φE) <= α のときH0を棄却(⇔ F0 >= F(φA,φE;α) = F.INV.RT(φA,φE,α) のときH0を棄却)
一元配置分散分析 (9)
nがシステムによって異なる場合φE = (全スコア数) – m.
一元配置分散分析 (10)
P-value = F.DIST.RT(F0,φA,φE) <= α のときH0を棄却
H0を棄却したということは
「ゼロでないシステム効果がひとつ以上ある」
と結論づけたことになるが、
…どのシステムが違うの?
ランダム化Tukey HSD 検定
•分散分析で有意差が得られても、「m個のシステムの少なくともどれか1つがなんか違う」ということしかわからず、そのあとにさらなる検定が必要!
• n x m の評価値行列があり、最初から全システム対の平均値の差に興味があるのなら、ANOVAはすっとばして (例えば) ランダム化Tukey HSD 検定をすればよい。t検定を何度も繰り返すのは一般にはNG!
• http://research.nii.ac.jp/ntcir/tools/discpower-en.htmlに行列を食べさせれば全システム対のp-valueが簡単に得られる。
•詳細は [Sakai15book]正規性・等分散性などの仮定必要ナシ!
よくある間違い
×「P-valueは、帰無仮説が正しくない確率である」
×「信頼区間の95%とは、確率的に動く母数がその範囲内に落ちる確率である」
古典的検定は70年代から「炎上」している[Johnson99]
• Deming (1975) commented that the reason students have problems understanding hypothesis tests is that they may be trying to think.
• Carver (1978) recommended that statistical significance testing should be eliminated; it is not only useless, it is also harmful because it is interpreted to mean something else.
• Cohen (1994:997) noted that statistical testing of the null hypothesis "does not tell us what we want to know, and we so much want to know what we want to know that, out of desperation, we nevertheless believe that it does!"
何がいけないのか (1)
•通常、研究者が知りたいのはP(H|D)。だが、古典的検定ではP(D|H)的なもの=p-value しか得られない。
(Bayes統計学の話はまた別の機会に)
• P-valueを見ずにα=0.05で有意差がある(H0を棄却) か否かのみ議論⇒ p=0.049は有意差あり! p=0.051は有意差なし!という二元論
•例えp-valueをきちんと報告してもまだ不充分!
p-value = f( サンプルサイズ, 効果量 )
効果量が大きくなると⇒ p-valueは小さくなるが
サンプルサイズを大きくしても⇒ p-valueを小さくできる
H: Hypothesis, D: Data
どんな実験でも、サンプルサイズを大きくすれば有意差は出る
何がいけないのか (2)
•通常、研究者が知りたいのはP(H|D)。だが、古典的検定ではP(D|H)的なもの=p-value しか得られない。
(Bayes統計学の話はまた別の機会に)
• P-valueを見ずにα=0.05で有意差がある(H0を棄却) か否かのみ議論⇒ p=0.049は有意差あり! p=0.051は有意差なし!という二元論
•例えp-valueをきちんと報告してもまだ不充分!
p-value = f( サンプルサイズ, 効果量 )
効果量が大きくなると⇒ p-valueは小さくなるが
サンプルサイズを大きくしても⇒ p-valueを小さくできる
H: Hypothesis, D: Data
どんな実験でも、サンプルサイズを大きくすれば有意差は出る
何がいけないのか (3)
•通常、研究者が知りたいのはP(H|D)。だが、古典的検定ではP(D|H)的なもの=p-value しか得られない。
(Bayes統計学の話はまた別の機会に)
• P-valueを見ずにα=0.05で有意差がある(H0を棄却) か否かのみ議論⇒ p=0.049は有意差あり! p=0.051は有意差なし!という二元論
•例えp-valueをきちんと報告してもまだ不十分!
p-value = f( サンプルサイズ, 効果量 )
効果量が大きくなると⇒ p-valueは小さくなるが
サンプルサイズを大きくしても⇒ p-valueを小さくできる
H: Hypothesis, D: Data
どんな実験でも、サンプルサイズを大きくすれば有意差は出る
対応のあるt検定の場合の効果量
“サンプルサイズ=n, システムX,Yの差の平均 =AAA, 差の不偏分散V=BBB,
p-value=CCC, 効果量 = DDD, 差の95%CI [EEE,FFF]”
のようになるべく詳しく報告すべし!
サンプルサイズ(対応のあるスコア対の数)
効果量2つのシステムの差は、差の標準偏差いくつぶんか
(これをp-valueと共に報告すれば、サンプルサイズに直接左右されない本質的な差の大きさを議論できる)
分散分析の効果量については[Sakai16ICTIRtutorial]
古典的統計学を受け入れるなら
情報検索研究コミュニティはちゃんと報告しているか(1) [Sakai16SIGIR]
情報検索研究コミュニティはちゃんと報告しているか(2) [Sakai16SIGIR]
情報検索研究コミュニティはちゃんと報告しているか(3) [Sakai16SIGIR]
講演概要
1. 自己紹介・バックグラウンド
2. 本の露骨な宣伝
3. 古典的統計学: 誤解・限界・結果の報告の仕方
4. 初期データから適切なサンプルサイズの評価用データを設計する
5. 論文を読んでより適切なサンプルサイズの実験を設計する
6. まとめ
例えばこんなテストコレクションを作りたいとき
検索対象とする文書コレクション
トピック 適合性判定 (適合・非適合文書)
トピック 適合性判定 (適合・非適合文書)
トピック 適合性判定 (適合・非適合文書)
: :nはいくつにすべき?
n個のトピックについてシステム評価値を平均する。このトピック集合は母集団からのサンプルであると見なす。
トピック数設計 [Sakai16IRJ]前提とする統計的手法 必要な入力
対応のあるt検定 α (第1種の誤り確率), β (第2種の誤り確率),minDt ((1-β)%検出力を保証する最小のシステム母平均差)
(システム間差の分散の推定値)
一元配置分散分析 α (第1種の誤り確率), β (第2種の誤り確率), m (分散分析で一度に比較するシステム数),minD ((1-β)%検出力を保証する最小のシステム母平均範囲),
(各システムの分散の推定値。等分散性を仮定)
差の信頼区間 α (第1種の誤り確率), δ (信頼区間幅の上限),
(システム間差の分散の推定値)
[Nagata03]をテストコレクションに適用しただけ
最高のシステムと最低のシステムの
母平均差
とするのが簡単
http://www.f.waseda.jp/tetsuya/tools.htmlにあるExcelファイルで簡単に計算できる
例えば一元配置分散分析でm=3システムの比較を想定する場合。α=5%とし, = 0.25 なる評価指標のもとで最高・最低システムの母平均差がminD=0.5以上のとき検出力80% (β=20%) を保証するトピック数nは?
:
n=20でOK!
なぜそうなるのか? 概要 (1)
分散分析の手順より、H0を棄却する確率は常に
ここで、H0が真なら
F0はF分布に従う。
一方、H0が偽なら
F0は非心F分布に従う。
α
0
なぜそうなるのか? 概要 (2)
分散分析の手順より、H0を棄却する確率は常に
H0 採択 H0 棄却
H0は正しい(母平均は等しい)
正しい結論(1-α)
第1種の誤りα
H0は正しくない(母平均は等しくない)
第2種の誤りβ
正しい結論(1-β)
真実
われわれの決断
H0が真⇒F0はF分布に従い、上記確率がまさにα。
なぜそうなるのか? 概要 (3)
分散分析の手順より、H0を棄却する確率は常に
H0 採択 H0 棄却
H0は正しい(母平均は等しい)
正しい結論(1-α)
第1種の誤りα
H0は正しくない(母平均は等しくない)
第2種の誤りβ
正しい結論(1-β)
真実
われわれの決断
H0が偽⇒F0は非心F分布に従い、上記確率は検出力(1-β)。
なぜそうなるのか? 概要 (4)
分散分析の手順より、H0が偽のとき、検出力は
非心F分布はφA, φEの他にパラメタλをもつ。
上記検出力はn, m, Δより近似的に求めることができる。
非心F分布に従う
分散を単位としてシステム効果を図った効果量
の一種
なぜそうなるのか? 概要 (5)
ここで と定義すると Δ >= minΔが成り立つ。
つまり検出力(1-β)を保証するための最高・最低システム間の差minDを定めてもΔは一意には定まらないが、最悪の場合minΔとなる。
よって最悪の場合のサンプルサイズは自由度φAを用いて近似できる
これは近似値なのでnとminΔを検出力の式に代入し、求める検出力が達成されることを確認する。必要に応じnをincrement (Excelが自動でやってくれる)。
システム分散 の推定方法 (1)
•試験的なデータからスコアの行列を作っておき、これより分散分析のVEを計算する。これはシステム母分散 の不偏推定量。
•試験的なデータが複数ある場合 (例えば類似の既存テストコレクションが複数ある場合)、各データCから得られた分散をプールする。
•試験的なデータは小規模でOK。以後、完成したテストコレクションから新たなVEを計算して推定精度を高めていけばよい
• = DEVSQ(A1:A20)
+ DEVSQ(B1:B20)
+ DEVSQ(C1:C20) = 0.650834
φE = m(n-1) = 3(20-1)= 57
= = VE = SE / φE = 0.011
0.4695 0.3732 0.35750.2813 0.3783 0.24350.3914 0.3868 0.3167
0.6884 0.5896 0.60240.6121 0.4725 0.4766
0.3266 0.233 0.24290.5605 0.4328 0.40660.5916 0.5073 0.47070.4385 0.3889 0.33840.5821 0.5551 0.4597
0.2871 0.3274 0.27690.5186 0.5066 0.4066
0.5188 0.5198 0.38590.5019 0.4981 0.45680.4702 0.3878 0.34370.329 0.4387 0.26490.4758 0.4946 0.4045
0.3028 0.34 0.32530.3752 0.4895 0.3205
0.2796 0.2335 0.224
A
20 topics
B Cシステム分散 の推定方法 (2)
トピック数設計適用事例 (1)
NTCIR-12最大のタスク:
中国語サブタスクに44システムが参加
トピック数設計適用事例 (2)
次回タスクで分散がnG@1 と同程度の(正規分布に従うと見なしてよい)評価指標を使うなら:・n=120とすればm=20, minD=0.20のシステム比較において80%検出力(5%有意水準)を保証・n= 90とすればm=10, minD=0.20のシステム比較において80%検出力(5%有意水準)を保証
次回のタスクに向けてテストコレクションの設計を改善できる!決定したnの統計的意義を説明できる!
一般に
•有意水準α
•検出力 (1-β)
•効果量
•サンプルサイズn
のうち3つを決めると残りの1つが定まる[Ellis10]。
小さい効果について調べたいなら大きなサンプルが必要!
講演概要
1. 自己紹介・バックグラウンド
2. 本の露骨な宣伝
3. 古典的統計学: 誤解・限界・結果の報告の仕方
4. 初期データから適切なサンプルサイズの評価用データを設計する
5. 論文を読んでより適切なサンプルサイズの実験を設計する
6. まとめ
ちゃんとした論文ならば
以下の記述があるはず:
• どの検定手法を使ったか
•サンプルサイズ
•検定統計量 and/or p-value
以上より
•標本効果量
•論文における実験の検出力
•検出力(1-β)を達成するために必要なサンプルサイズ
がRのpwrライブラリを使うと簡単に求められる[Toyoda09]。
https://waseda.box.com/SIGIR2016PACK [Sakai16SIGIR]
[Toyoda09] で提供されているRスクリプトを少し書き換えたもの
future.sample.pairedt 対応のあるt検定用
future.sample.unpairedt 対応のないt検定用
future.sample.1wayanova 一元配置分散分析用
future.sample.2waynorep 繰り返しのない二元配置分散分析
future.sample.2wayanova2 二元配置分散分析用
future.sample.pairedt使用例
SIGIR 2012 のある論文にこう書いてある:
“t(27)=0.953 with (two-sided) paired t-test”
⇒ t = 0.953, n = 28 (φ = n-1 = 27)
[Sakai16SIGIR] 分析結果Excelファイル270行目より
サンプルサイズが小さいため検出力が小さい本質的な差を見逃す確率が極めて高く、実験の意義が小さい
この実験の効果量で検出力80%を達成するに必要なサンプルサイズ
効果量
future.sample.1wayanova 使用例
φA = m-1, φE = m(n-1)SIGIR 2008 のある論文にこう書いてある:
“m=3 groups, n=12 subjects per group,
F(2, 33)=1.284 with (one-way) ANOVA”
(φA = m-1 = 2, φE = m(n-1) = 3*(12-1) = 33)
[Sakai16SIGIR] 分析結果Excelファイル616行目より
サンプルサイズが小さいため検出力が小さい本質的な差を見逃す確率が極めて高く、実験の意義が小さい
この実験の効果量で検出力80%を達成するに必要なサンプルサイズ
効果量の一種
検出力が極端に低い論文、極端に高い論文 (1)[Sakai16SIGIR]
サンプルサイズ比 (Sample Size Ratio)
= 実験で用いたサンプルサイズn/検出力(1-β)に必要なサンプルサイズn’
SSR が大⇔検出力が極端に高い (必要以上にリソースを使っている)
SSR が小⇔検出力が極端に低い (検出したい差を検出できない可能性が高い)
前述の過去10年間のSIGIR+TOIS論文のうちt検定 or 分散分析を用いており、かつ必要な情報をきちんと報告している133件の論文に対しRスクリプトを適用 (t検定106件; 分散分析27件)
検出力が極端に低い論文、極端に高い論文 (2)[Sakai16SIGIR]
検索エンジン会社によるpersonalisationの論文。対応のあるt検定でt=16.00, n=5,352,460, 効果量=0.007, 検出力=1検出力80%を達成するためのサンプルサイズn’=164,107効果量は非常に小さい (が大量ユーザを扱う会社にとっては意味があるかも)
検出力が極端に低い論文、極端に高い論文 (3)[Sakai16SIGIR]
大企業はデータをふんだんに使った実験ができるが、p-valueより効果量を議論すべき。
検出力が極端に低い論文、極端に高い論文 (4)[Sakai16SIGIR]
商用social media applicationのデータによる一元配置分散分析。F=243.42, m=3, グループ毎のサンプルサイズn=2551, 検出力=1,
検出力80%を達成するためのサンプルサイズn’=52
検出力が極端に低い論文、極端に高い論文 (5)[Sakai16SIGIR]
講演概要
1. 自己紹介・バックグラウンド
2. 本の露骨な宣伝
3. 古典的統計学: 誤解・限界・結果の報告の仕方
4. 初期データから適切なサンプルサイズの評価用データを設計する
5. 論文を読んでより適切なサンプルサイズの実験を設計する
6. まとめ
とどのつまり
•評価方法を理解し、正しい評価をしよう
×みんなが使ってるから、よくわかってないけど自分もこの評価方法を使う
○自分の研究目的にあった評価方法を選んで、もしくは設計して使う
•古典的統計学を使って結果の分析をするのであれば
- 評価データのサンプルサイズについて検討しよう
- 論文を書くときは p-value、効果量、信頼区間などを適切に報告しよう
- 過去の文献をもとに、適切な検出力の実験を設計しよう
•研究コミュニティ全体が上記のような習慣をつければ、個々の成果が有機的につながり大きな知見となる
cf. Bayes統計学
学生さんには高いかも知れませんが、先生にお願いすれば研究室でn冊購入してくださるはず (n >> 1)
Springerから本を出します
Laboratory Experiments in Information Retrieval: Sample Sizes, Effect Sizes, and Statistical Power
2017年中に書きあげます。たぶん
謝辞+文献
•永田靖先生 (早稲田大学) にはサンプルサイズの設計について個人的にいろいろ教えていただきました。
•豊田秀樹先生(早稲田大学)には[Sakai16SIGIR]の発表に伴い、「検定力分析入門」のRのコードを流用して配布する許可をいただきました。
•大変ありがとうございました!
文献(酒井)
[Sakai06SIGIR] Sakai, T.: Evaluating Evaluation Metrics based on the Bootstrap, ACM SIGIR 2006, pp.525-532.
[Sakai07SIGIR] Sakai, T.: Alternatives to Bpref, ACM SIGIR 2007, pp.71-78, July 2007.
[Sakai+11CIKM] Sakai, T., Kato, M.P. and Song, Y.-I.: Click the Search Button and Be Happy: Evaluating Direct and Immediate Information Access, ACM CIKM 2011, pp.621-630.
[Sakai+11SIGIR] Sakai, T. and Song, R., Evaluating Diversified Search Results Using Per-Intent Graded Relevance, ACM SIGIR 2011, pp.1043-1052.
[Sakai12WWW] Sakai, T.: Evaluation with Informational and Navigational Intents, WWW 2012, pp.499-508.
[Sakai13IRJ] Sakai, T. and Song, R.: Diversified Search Evaluation: Lessons from the NTCIR-9 INTENT Task, Information Retrieval, 16(4), pp.504-529, Springer, 2013.
[Sakai+13SIGIR] Sakai, T., Dou, Z.: Summaries, Ranked Retrieval and Sessions: A Unified Framework for Information Access Evaluation, ACM SIGIR 2013, pp.473-482.
[Sakai15book] 酒井哲也: 情報アクセス評価方法論: 検索エンジンの進歩のために, コロナ社, 2015.
[Sakai16IRJ] Sakai, T.: Topic Set Size Design, Information Retrieval Journal, 19(3), pp. 256-283, Springer, 2016.
http://link.springer.com/content/pdf/10.1007%2Fs10791-015-9273-z.pdf (open access)
[Sakai16SIGIR] Sakai, T.: Statistical Significance, Power, and Sample Sizes: A Systematic Review of SIGIR and TOIS, 2006-2015, ACM SIGIR 2016, pp.5-14.
[Sakai16SIGIRshort] Sakai, T.: Two Sample T-tests for IR Evaluation: Student or Welch?, Proceedings of ACM SIGIR 2016, pp.1045-1048.
[Sakai16ICTIRtutorial] Sakai, T.: Topic Set Size Design and Power Analysis in Practice (Tutorial Abstract), ACM ICTIR 2016, pp.9-10.
文献(その他)
[Cohen88] Cohen. J.: Statistical Power Analysis for the Behavioral Sciences (Second Edition), Psychology Press, 1988.
[Ellis10] Ellis, P. D.: The Essential Guide to Effect Sizes, Cambridge, 2010.
[Johnson99] Johnson, D. H.: The Insignificance of Statistical Significance Testing, Journal of Wildlife Management, 63(3), 1999.
[永田03] 永田靖: サンプルサイズの決め方, 朝倉書店, 2003.
[豊田09] 豊田秀樹: 検定力分析入門, 東京図書, 2009.