テューキーの方法yokamoto/openwww/stat/multi...岡本安晴 2002.1 ―6―...

13
岡本安晴 2002.1 1テューキーの方法 Tukey’s HSD Test および Tukey-Kramer Test 条件間の全ての組み合わせの対すべてについて、それらの条件間の平均値の差の検定を行 う方法である。第1種の誤りの確率を、対間比較全体について統制する。 条件の総数を p 、条件 j p j , , 1 L = )におけるデータ数を j n ,平均値を j Y 、群内平均 平方和(MSWGwithin-groups mean square)を error MS で表す。 Tukey’s HSD (honestly significant difference) test は、群内のデータ数がすべて等しく j n n = の場合のもので、次式 n MS Y Y qT error j j 2 1 - = (1) を統計量として、条件 1 j と条件 2 j の平均値の差の検定を行う。 郡内のデータ数がすべて等しいとは限らないときの検定法として、(1)式を拡張した (2)式 2 1 1 1 2 1 2 1 - = j j error j j n n MS Y Y qTK (2) を統計量とする Tukey-Kramer test がある。 qT あるいは qTK を、Studentized range distribution と呼ばれる確率変数 df p Q , の分布 と比較して検定を行う。 df p Q , の分布は次のようなものである。 いま、 p 個の互いに独立な標準正規分布に従う確率変数を j z p j , , 1 L = )、およびそ れらと独立に自由度 df のカイ 2 乗分布に従う確率変数を 2 df c で表す。このとき、 df p Q , は次 の式で与えられる。

Transcript of テューキーの方法yokamoto/openwww/stat/multi...岡本安晴 2002.1 ―6―...

岡本安晴 2002.1

―1―

テューキーの方法 Tukey’s HSD Test および Tukey-Kramer Test

条件間の全ての組み合わせの対すべてについて、それらの条件間の平均値の差の検定を行

う方法である。第1種の誤りの確率を、対間比較全体について統制する。

条件の総数を p 、条件 j ( pj ,,1 L= )におけるデータ数を jn ,平均値を jY 、群内平均

平方和(MSWG、within-groups mean square)を errorMS で表す。

Tukey’s HSD (honestly significant difference) test は、群内のデータ数がすべて等しく

jnn = の場合のもので、次式

nMS

YYqT

error

jj 21 −= (1)

を統計量として、条件 1j と条件 2j の平均値の差の検定を行う。

郡内のデータ数がすべて等しいとは限らないときの検定法として、(1)式を拡張した

(2)式

2111

21

21

+

−=

jjerror

jj

nnMS

YYqTK (2)

を統計量とする Tukey-Kramer test がある。

qT あるいはqTK を、Studentized range distribution と呼ばれる確率変数 dfpQ , の分布

と比較して検定を行う。 dfpQ , の分布は次のようなものである。

いま、 p 個の互いに独立な標準正規分布に従う確率変数を jz ( pj ,,1 L= )、およびそ

れらと独立に自由度df のカイ 2 乗分布に従う確率変数を 2dfχ で表す。このとき、 dfpQ , は次

の式で与えられる。

岡本安晴 2002.1

―2―

df

zzQ

df

jj

pjidfp 2

21

2,11, maxχ

−=

≤≤

いま、 nn j = ( pj ,,1 L= )として、条件 j における個々のデータ値 ijY ( ni ,,1 L= )

が独立に平均 jµ 、分散 2σ の正規分布 ),( 2σµ jN に従うとする。このとき、サンプルの平

均値 ∑=i

jij xn

Y1

は )/,( 2 nN j σµ に従う。また、

∑ −=⋅−ji

jijerror YYMSpnp,

2)()(

を 2σ で割ったものは、自由度 pnpdf −= のカイ2乗分布 2dfχ に従い、 kY ( pk ,,1 L= )

と独立である。

このとき、次式が成り立っている。

)/(/max

/max

22

21

2,11

21

2,11 σσ error

jj

pjjerror

jj

pjj MSn

YY

nMS

YY

−=

−≤≤≤≤

)/(

//max

2

2

2

2

1

2,11 σ

σσ

error

jj

pjj MS

n

Y

n

Y−

=≤≤

df

zz

df

jj

pji 2

21

2,11max

χ

−≤≤

dfpQ ,=

dfpQ , の分布は次式で与えられる。

dssdxgxtsxxptQP pdfp )()()}2()({)2/(

0

1, ∫ ∫

∞ ∞

∞−

−−Φ−Φ=≤ φ

ここで、 )(xφ は標準正規分布の確率密度関数であり、

∫ ∞−=Φ

xduux )()( φ

岡本安晴 2002.1

―3―

である。 )(sg は dfdf /2χ の確率密度関数であり、次式で与えられる。

2/112/

2/2

2)2/()( sdfdf

df

df

esdf

dfsg ⋅−−

− ⋅⋅⋅Γ

=

有意水準α に対応する dfpQ , の値を )(, αdfpQ とおく。すなわち、

))((1 ,, αα dfpdfp QQP <=−

)2/( , αtQP dfp <= 、 2/)(, αα dfpQt =

とおく。

このとき、

)(,21 aQ

nMS

YYqT dfp

error

jj >−

=

ならば「条件 1j と条件 2j の平均値に差がない。」という帰無仮説を棄却することにすると、

条件全体にわたる2つの条件間の平均値の差の検定における第1種の誤りの確率をα 以下

に抑えることができる。

条件におけるデータ数が等しくないときは、(2)式で与えられるqTK の値を )(, αdfpQ と

比較する。

信頼区間

条件 j におけるデータ値 ijY が平均値 jµ の正規分布 ),( 2σµ jN に従うとき、次式が成り立

っている。

<

−−−=−

≤≤)(

/

)()(max1 ,

2211

2,11α

µµα dfp

error

jjjj

pjjQ

nMS

YYP

ここで、

)(/

)()(,

2211α

µµdfp

error

jjjjQ

nMS

YY<

−−−

岡本安晴 2002.1

―4―

)(/

)()(,

2121α

µµdfp

error

jjjjQ

nMS

YY<

−−−⇔

nMS

QYYn

MSQYY error

dfpjjjjerror

dfpjj ⋅+−<−<⋅−−⇔ )()()()( ,2121,21 αµµα

に注意して、多重比較における 21 jj µµ − に対する信頼係数α の信頼区間を次式

⋅+−⋅−−

nMS

QYYn

MSQYY error

dfpjjerror

dfpjj )()(,)()( ,21,21 αα

で与える。信頼区間が0を含まないとき、平均値に有意差が認められる。

プログラム PCalcStudentized.dpr と PTukeyK.dpr

プログラム PCalcStudentized.dpr は )(, αdfpQ を求めるものであり、PTukeyK.dpr がテュ

ーキーの方法で多重比較を行うものである。

プログラム PCalcStudentized.dpr を起動すると図1のフォームが表示される。

図1 起動時のフォーム

「Alpha =」にα の値、「a =」に条件の数 p 、「df =」に自由度df の値を設定した後、Calc

ボタンをクリックすると計算が始る。計算が始ると計算の途中経過を表示するフォームが

岡本安晴 2002.1

―5―

表示される(図2)。

図2 計算中のフォーム

計算が終了すると )(, αdfpQ の値がフォーム上部に表示される(図3)。

図3 計算結果の表示

計算の途中経過が表示

されるフォーム

計算結果の

表示

岡本安晴 2002.1

―6―

図3のフォームでは、計算結果

48642.3)05.0(30,3 =Q

が表示されている。

多重比較のためのプログラム PTukeyK.dpr を実行すると図4のフォームが表示される。

図4 平均値を入力データとする場合

図4のフォームで表示されている「Means and Nij」シートは平均値を入力データとする場

合のものである。素データ値を入力データとする場合は、「Raw Data」タブをクリックして

図5の「Raw Data」シートを選ぶ

岡本安晴 2002.1

―7―

図5 素データ値を入力とする場合

図4の「Means and Nij」シートにおいて、「追加」ボタンをクリックするとアクティブな

セルの右側に空白の列が挿入・追加され、入力できる条件数が増える。「削除」ボタンをク

リックするとアクティブなセルを含む列が削除され、条件数が減る。セルは、そのセルの

クリックでアクティブになる。条件数を必要なだけ用意して平均値などを図6のように設

定する。

岡本安晴 2002.1

―8―

図6 平均値などの設定

図6では、それぞれの条件における平均値、平均値を算出するのに用いられたデータ数、

および各条件のラベルが設定されている。有意水準α の値は、「Alpha(%) =」の欄に%単位

で設定されている。 errorMS の値は「MSWG =」の欄に設定されいる。設定されたデータは、

「保存」ボタンのクリックでファイルに保存することができる。「保存」ボタンのクリック

でファイルに保存されたデータは、「読込」ボタンのクリックで読み出すことができる。

図6のようにすべての値を設定した後、「計算」ボタンをクリックすると計算が始まる。

「計算」ボタンをクリックすると、計算結果を書き出すファイルの名前の設定を求めるダ

イアログボックスが表示される(図7)。

岡本安晴 2002.1

―9―

図7 出力用ファイル名の設定

図7のダイアログボックスで設定した名前のテキストファイルが作成され、計算結果が書

き出される。このテキストファイルに出力された内容は、プログラムの実行終了後エディ

タで開いて見ることができる。ファイル名の設定後、「開く」ボタンをクリックすると計算

が始まる。計算中は、図8のように計算の途中経過を表示するフォームが提示される。

図8 計算の途中経過の表示

計算が終了すると図9のメッセージボックスが表示される。

岡本安晴 2002.1

―10―

図9 計算の終了時に表示されるメッセージボックス

メッセージボックスには、図7のダイアログボックスで設定した出力用ファイル名がパス

名付で表示されている。「OK」ボタンのクリックでメッセージボックスは閉じられて、プ

ログラムの実行終了となる。

図6で設定されている値の場合、計算終了後の出力ファイルはリスト1のようになって

いる。

リスト1 計算結果の出力例

データ = 条件 1 Y1 36.7 9 条件 2 Y2 40.3 9 条件 3 Y3 43.4 9 条件 4 Y4 47.2 9 条件 5 Y5 48.7 9 MSWG = 29.032 Alpha = 5% a = 5 nu = 40 q = 4.039 1 <-> 2 ==> Y1 <-> Y2 NS Mean[1] = 36.7 Mean[2] = 40.3 PsiqT = 7.254 Confidence interval ==> ( -10.85 , 3.654 ) 1 <-> 3 ==> Y1 <-> Y3 NS Mean[1] = 36.7 Mean[3] = 43.4 PsiqT = 7.254 Confidence interval ==> ( -13.95 , 0.5545 ) 1 <-> 4 ==> Y1 <-> Y4 S Mean[1] = 36.7 Mean[4] = 47.2 PsiqT = 7.254 Confidence interval ==> ( -17.75 , -3.246 ) 1 <-> 5 ==> Y1 <-> Y5 S Mean[1] = 36.7 Mean[5] = 48.7 PsiqT = 7.254 Confidence interval ==> ( -19.25 , -4.746 ) 2 <-> 3 ==> Y2 <-> Y3 NS Mean[2] = 40.3 Mean[3] = 43.4 PsiqT = 7.254

岡本安晴 2002.1

―11―

Confidence interval ==> ( -10.35 , 4.154 ) 2 <-> 4 ==> Y2 <-> Y4 NS Mean[2] = 40.3 Mean[4] = 47.2 PsiqT = 7.254 Confidence interval ==> ( -14.15 , 0.3545 ) 2 <-> 5 ==> Y2 <-> Y5 S Mean[2] = 40.3 Mean[5] = 48.7 PsiqT = 7.254 Confidence interval ==> ( -15.65 , -1.146 ) 3 <-> 4 ==> Y3 <-> Y4 NS Mean[3] = 43.4 Mean[4] = 47.2 PsiqT = 7.254 Confidence interval ==> ( -11.05 , 3.454 ) 3 <-> 5 ==> Y3 <-> Y5 NS Mean[3] = 43.4 Mean[5] = 48.7 PsiqT = 7.254 Confidence interval ==> ( -12.55 , 1.954 ) 4 <-> 5 ==> Y4 <-> Y5 NS Mean[4] = 47.2 Mean[5] = 48.7 PsiqT = 7.254 Confidence interval ==> ( -8.754 , 5.754 )

リスト1では、先ず設定された値が出力されている。

つづいて、 )(, αdfpQ の値 039.4)05.0(40,5 =Q が書き出されている。

その後、対毎に順番に条件間の差の信頼区間(confidence interval)が書き出されてい

る。例えば、条件 Y1 と Y2 の平均値の差の信頼区間は

( -10.85, 3.654 )

となっている。この区間は0を含むので、5%(図6において、Alpha の値として設定さ

れた値)の有意水準に対して平均値に有意な差は認められない。

素データを入力データとするときは、図5の「Raw Data」シートを用いる。「追加(列)」

ボタンおよび「追加(行)」ボタンのクリックで列および行の挿入・追加ができる。削除は

「削除(列)」ボタンおよび「削除(行)」ボタンのクリックによって行う。挿入・追加は、

アクティブなセルの次に空白列・行の挿入・追加が行われる。削除は、アクティブなセル

を含む列あるいは行が削除される。セルは、そのセルのクリックによりアクティブになる。

図10a、bは、行数と列数を適当に増やした後、素データを設定したものである。

岡本安晴 2002.1

―12―

図10a 素データの設定

図10b 素データの設定

岡本安晴 2002.1

―13―

条件ごとのデータ数は異なっていてもよい。データ値は上に詰めて設定し、データ数が用

意されたセル数より少ないときは、下のセルは空白にしておく。

設定したデータは、「保存(CSV)」のクリックでファイルに保存することができる。この

ファイルは CSV 形式なので、Excel で開くことができる。図10a、bのデータを保存した

ものを Excel で開くと図11のようになる。

図11 Excel で開いた場合

図11の形式で用意した Excel のデータは、CSV 形式(拡張子を*.csv とする)で保存す

ると図5の「Raw Data」シートの「読込(CSV)」ボタンのクリックで読み込むことができ

る。もちろん、「保存(CSV)」ボタンのクリックで保存されたファイルも、「読込(CSV)」

ボタンのクリックで読み込むことができる。

図10a、bのように必要なデータを設定した後、「計算」ボタンをクリックすると計算

が始まる。「Raw Data」シート上の「計算」ボタンのクリック後のプログラムの動作は、先

に説明した「Means and Nij」シート上の「計算」ボタンのクリック後の動作と同様である。

参考文献

広津千尋「実験データの解析:分散分析を超えて」共立出版株式会社、1992.

Kirk, R.E., Experimental Design: Procedures for the Behavioral Sciences, 3rd Edition.

Brooks/Cole Publishing Company, 1995.

永田 靖・吉田道弘「統計的多重比較法の基礎」サイエンティスト社、1997.