Analysis of Variance 變異數分析
-
Upload
ulysses-austin -
Category
Documents
-
view
77 -
download
0
description
Transcript of Analysis of Variance 變異數分析
©蘇國賢 2004社會統計(上) Page 1
Analysis of Variance 變異數分析
• 在前幾章中,我們學會了如何檢定兩母體平均數是否有差異。在本章中,我們將介紹對於兩個以上母體的平均值的比較。
• 檢定三個或以上的母體平均數是否相等的統計方法,或檢定名目變數或序列尺度的因子對於等距尺度或比率尺度的依變數是否有影響統計方法稱為變異數分析。
觀念觀念
©蘇國賢 2004社會統計(上) Page 2
Analysis of Variance 變異數分析
• 例如:• 比較各省籍 ( 台灣、大陸、客家人 ) 人士在平均收入及教育年數上的差異。
• 大學中各年級的同學智商是否有別?• 三種不同的教學方法對於學生的成績是否有影響?
觀念觀念
©蘇國賢 2004社會統計(上) Page 3
Analysis of Variance 變異數分析
• 在比較多組母體的平均值時,我們通常不採用兩兩比較的方式,主要的原因有二:
• 一、這種做法太浪費時間,因為比較幾個母體可能產生很多的比較組,例如比較五個母體的平均值差異,如果以兩兩比較的方式,我們必須進行 C5
2=10 次的 t-test 。• 二、如果每組的顯著水準皆為 α ,則全體比較的顯著水準會高於 α 。
觀念觀念
©蘇國賢 2004社會統計(上) Page 4
Analysis of Variance 變異數分析
• 假設我們在 .05 的顯著水準下要檢定下列虛擬假設:
• H0: u1=u2=u3
• 如果拆成下列三組虛擬假設:• H0: u1=u2 , H0: u1=u3 , H0: u2=u3
• 每個假設被「接受」的機率為 .95 ,三個假設全部被接受的機率為 .953=.857 ,也就是說當假設為真但被推翻的機率為 (1 - 0.857) = 0.143 > 0.05 遠高於顯著水準。
觀念觀念
©蘇國賢 2004社會統計(上) Page 5
Analysis of Variance 變異數分析
• 因此我們需要在共同的顯著水準 α 下,同時考量多個平均值得差異,我們以 F分配來進行檢定,稱之為變異數分析 (ANOVA) 。
• 這個名稱容易令人產生誤解,我們是根據樣本資料的變量分析,來檢定母體平均數是否有差異。
觀念觀念
©蘇國賢 2004社會統計(上) Page 6
Analysis of Variance 變異數分析
• The One-Factor ANOVA Model 單因子變異數分析
• 設我們從 k 個母體中得到樣本資料來檢定下列虛擬假設 :
• H0: u1 = u2 = … = uk。• H1: 至少有兩個平均值不同。
觀念觀念
©蘇國賢 2004社會統計(上) Page 7
Analysis of Variance 變異數分析
• 消費者很想知道哪種車最省油,比較 A, B, C 三種車款每加崙可以行駛的里數如下:
觀念觀念
A B C18.2 19.8 21.219.4 21 21.819.6 20 22.419 20.8 22
18.8 20.4 21.6
樣本平均 19 20.4 21.8
樣本標準差 0.548 0.510 0.447
樣本變異數 0.300 0.260 0.200
©蘇國賢 2004社會統計(上) Page 8
Analysis of Variance 變異數分析觀念觀念
A B C18.2 19.8 21.219.4 21 21.819.6 20 22.419 20.8 22
18.8 20.4 21.6
樣本平均 19 20.4 21.8
樣本標準差 0.548 0.510 0.447
樣本變異數 0.300 0.260 0.200
3210 : uuuH
Q: 我們所觀察到的樣本平均數差異是否大到足以推翻上面的虛擬假設 ?
三種汽車每單位汽油的里數皆相同
©蘇國賢 2004社會統計(上) Page 9
Analysis of Variance 變異數分析觀念觀念
A B C18.2 19.8 21.219.4 21 21.819.6 20 22.419 20.8 22
18.8 20.4 21.6
樣本平均 19 20.4 21.8
樣本標準差 0.548 0.510 0.447
樣本變異數 0.300 0.260 0.200
3210 : uuuH
Q: 各組平均值的差異是來自於抽樣誤差還是母體差異?
4.14.201921 xx 8.28.211931 xx4.18.214.2032 xx
©蘇國賢 2004社會統計(上) Page 10
Analysis of Variance 變異數分析觀念觀念
A B C18.2 19.8 21.219.4 21 21.819.6 20 22.419 20.8 22
18.8 20.4 21.6
樣本平均 19 20.4 21.8
樣本標準差 0.548 0.510 0.447
樣本變異數 0.300 0.260 0.200
3210 : uuuH 例如 A車與B車的平均值差異為 1.4里,這個差異是否大到我們可以有信心的說 u1 與 u2 也有差異?
這個問題決定於 x1, x2 是否為母體平均值的精確估計值。
4.14.201921 xx
Analysis of Variance 變異數分析觀念觀念
A B C18.2 19.8 21.219.4 21 21.819.6 20 22.419 20.8 22
18.8 20.4 21.6
樣本平均 19 20.4 21.8
樣本標準差 0.548 0.510 0.447
樣本變異數 0.300 0.260 0.200
3210 : uuuH 如果標準差很小,則兩個樣本平均值一點點的差距都可能是母體平均值不同的訊號。
同理,如果標準差過大,則即使我們觀察到樣本平均值之間有很大的差距,我們也不太有信心能夠宣稱母體的平均數真的有別
Analysis of Variance 變異數分析觀念觀念
A B C18.2 19.8 21.219.4 21 21.819.6 20 22.419 20.8 22
18.8 20.4 21.6
樣本平均 19 20.4 21.8
樣本標準差 0.548 0.510 0.447
樣本變異數 0.300 0.260 0.200
3210 : uuuH 樣本標準差或變異數測量各個樣本內,各觀察值之間的變異程度。
如果樣本內的變異數很小,則各樣本之間平均數的差距若過大,為母體平均數不同的有力證據
反之,如果樣本內的變異數過大,則即使樣本平均值之間有差異,我們仍然很難下斷論說母體的平均值不同。
Analysis of Variance 變異數分析觀念觀念
A B C18.2 19.8 21.219.4 21 21.819.6 20 22.419 20.8 22
18.8 20.4 21.6
樣本平均 19 20.4 21.8
樣本標準差 0.548 0.510 0.447
樣本變異數 0.300 0.260 0.200
3210 : uuuH 因此檢定各樣本的平均值是否相同的問題涉及比較樣本內的變異(組內差異)及樣本間的變異(組間差異)。所以通常稱之為變異數分析。
樣本內的變異數很小
18 19 20 21 22 23
C
B
A
A B C18.2 19.8 21.219.4 21 21.819.6 20 22.419 20.8 22
18.8 20.4 21.6
19 20.4 21.8
樣本內的變異數很大
15 17 19 21 23 25
C
B
A
A B C17 24.2 26
20.4 22 19.824 17.8 24.4
15.8 16.2 1617.8 21.8 22.8
19 20.4 21.8
27
樣本平均數雖然相同
©蘇國賢 2004社會統計(上) Page 16
變異數分析中的幾個專有名詞
• 我們經常設計研究來了解造成某種現象變化的原因,例如我們想要了解為什麼有時候種植西瓜會甜有時候不會甜(甜度變動 ) ,這種我們欲了解的變動稱為依變項 (dependent variable) 、被解釋變項、或反應變項 (response variable) 。
• 我們懷疑西瓜的甜度與栽種過程中是否施肥有關,將某些西瓜種籽加以施肥處理,其他西瓜保持自然生長,這種造成依變項產生變化的變數稱之為因子 (factor) 或獨立變項、 自變項 (independent variable) 。
©蘇國賢 2004社會統計(上) Page 17
自變數與依變數
• 在上面的例子中,比較各種汽車的里程數,何者為依變項?何者為獨立變項?
• 依變項:每加崙里數• 自變項:車種
©蘇國賢 2004社會統計(上) Page 18
因子水準 (Factor level) 與處理 (Treatment)
• 因子水準為某因子(自變數)之特殊形式或不同狀態,例如我們可以將「施肥」細分成三個水準:完全不施肥、施輕肥、施重肥。
• 如果解釋的因子為單一 (施肥與否),稱為單因子分析,如果解釋因子在兩個以上(施肥與否+栽種溫度),稱為多因子分析。
©蘇國賢 2004社會統計(上) Page 19
因子水準 (Factor level) 與處理 (Treatment)
• 在單因子分析中,每一個因素水準皆稱為一種處理 (treatment) ,多因子分析中,因子水準之組合稱為一種處理(施重肥+高溫、無施肥 + 高溫、施重肥+低溫、無施肥+低溫…等。),稱為多因子分析。
©蘇國賢 2004社會統計(上) Page 20
變異數分析的邏輯
• 假設從 K 個母體中抽取大小分別為 n1, n2, n3…nk的 K 個獨立隨機樣本。我們對母體有下列的假設:
• 各母體皆為常態分配,且有共同相同的變異數 σ2。
• 以 u1, u2, …uk 來表示母體的平均數,單因子分析檢證下虛擬假設
• H0: u1=u2…=uk vs. H1: 至少有兩組平均數不同
x11
x21
x31
x12x22
x32
xn2,2
共有 K 個母體
μ1, σ1 μ2, σ2
x1k
x2k
x3k
μk, σk
Xi j
i代表在樣本中的序號, i = 1,2, …nj
j代表樣本組別, j = 1,2, …k
1,1nx
knkx ,
1 2 … k
x 11 x 12 x 1k
x 21 x 22 x 2k
x 31 x 32 x 3k
﹕ ﹕ ﹕x n1 , 1 ﹕ ﹕
x n2 , 2 ﹕x nk,k
分別來自 k 母體的 k 個樣本
第 k 組樣本共有 nk
個觀察值
各組樣本數可以不同,分別為 n1, n2,…nk,
總樣本數 n= n1+n2+…+nk
1 2 … k
x 11 x 12 x 1k
x 21 x 22 x 2k
x 31 x 32 x 3k
﹕ ﹕ ﹕x n1 , 1 ﹕ ﹕
x n2 , 2 ﹕x nk,k
1x 2x kx
Kjn
xx
j
n
iij
j
j
,...2,1,各組樣本的平均值 1
K
j
jjK
j
n
i
ij
n
xn
n
xx
j
11 1
總樣本的平均值
©蘇國賢 2004社會統計(上) Page 24
A B C18.2 19.8 21.219.4 21 21.819.6 20 22.419 20.8 22
18.8 20.4 21.6
樣本平均 19 20.4 21.8
樣本標準差 0.548 0.510 0.447
樣本變異數 0.300 0.260 0.200
變異數分析的邏輯
4.2015
)8.21)(5()4.20)(5()0.19)(5(
x
©蘇國賢 2004社會統計(上) Page 25
變異數的分解
A B C18.2 19.8 21.219.4 21 21.819.6 20 22.419 20.8 22
18.8 20.4 21.6
樣本平均 19 20.4 21.8
樣本標準差 0.548 0.510 0.447
樣本變異數 0.300 0.260 0.200
4.20x 總平均數
任何一部車與總平均的差異稱為總差異 :
4.202.18 xxij
©蘇國賢 2004社會統計(上) Page 26
變異數的分解
A B C18.2 19.8 21.219.4 21 21.819.6 20 22.419 20.8 22
18.8 20.4 21.6
樣本平均 19 20.4 21.8
樣本標準差 0.548 0.510 0.447
樣本變異數 0.300 0.260 0.200
4.20x 總平均數
任何一廠牌與總平均的差異稱為由因子所引起的差異 (difference due to factor)
4.20191 xx
©蘇國賢 2004社會統計(上) Page 27
變異數的分解
A B C18.2 19.8 21.219.4 21 21.819.6 20 22.419 20.8 22
18.8 20.4 21.6
樣本平均 19 20.4 21.8
樣本標準差 0.548 0.510 0.447
樣本變異數 0.300 0.260 0.200
4.20x 總平均數同一廠牌中,任何一部車與該廠牌的平均數之間的差異稱為隨機差異 (difference due to error
192.18111 xx
©蘇國賢 2004社會統計(上) Page 28
變異數的分解
A B C18.2 19.8 21.219.4 21 21.819.6 20 22.419 20.8 22
18.8 20.4 21.6
樣本平均 19 20.4 21.8
樣本標準差 0.548 0.510 0.447
樣本變異數 0.300 0.260 0.200
4.20x 總平均數
總差異 =
由因子所引起的差異
+
隨機差異
©蘇國賢 2004社會統計(上) Page 29
變異數的分解
)( xxij )( xx j
總差異 =由因子所引起的差異+ 隨機差異
)( jij xx
ijx )( xx j )( jij xx x
總平均
因子的影響
隨機差異的影響
©蘇國賢 2004社會統計(上) Page 30
變異數的分解
k
j
n
iij
j
xx1 1
2)(
k
j
n
ij
j
xx1 1
2)(
k
j
n
ijij
j
xx1 1
2)(
)( xxij )( xx j )( jij xx
兩邊取平方和
k
j
n
ijijj
j
xxxx1 1
))((2
©蘇國賢 2004社會統計(上) Page 31
Sum of Squares in ANOVA 變異數分析中的平方和
• 變異數分析是透過各組樣本內的變異與組間變異之比較來檢證各組平均值是否相等的一種方法。
• 全體樣本資料的總變異量為 :
K
j
n
iij
j
xxSST1 1
2)(
• 即個別觀察值與總平均數差距的平方和,稱為總變異量或總平方和。
©蘇國賢 2004社會統計(上) Page 32
Sum of Squares in ANOVA 變異數分析中的平方和
• 變異數分析將總變異量分解成下列兩部分 :
總變異 = 組內變異( 或未解釋變
異 )
+ 組間變異( 或已解釋變
異 )
Total Sum of Squares (TSS)
= Within-group Sum of Squares or Sum of Squares Within (SSW)
+ Between-Group Sum of Squares or Sum of Squares Between (SSB)
©蘇國賢 2004社會統計(上) Page 33
Sum of Squares Within 組內變異• 組內各個觀察值之間的差異稱為隨機差異 (difference d
ue to random error) ,為不能被因子所解釋的差異。• 在各組樣本內的變異,即每一個組內觀察值的誤差平
方和 :
kn
iKiK
n
ii
n
ii xxxxxxSSW
1
2
1
222
1
211 )()()(
21
K
j
n
ijij
j
xx1 1
2)(KSSSSSS 21
在樣本組內,由於無法解釋的隨機變異,每一個觀察值 xij 與該組平均數會有所不同,因此組內的誤差稱為sum of squares due to error or error sum of squares ( 誤差平均和 )
©蘇國賢 2004社會統計(上) Page 34
A B C18.2 19.8 21.219.4 21 21.819.6 20 22.419 20.8 22
18.8 20.4 21.6
樣本平均 19 20.4 21.8
樣本標準差 0.548 0.510 0.447
樣本變異數 0.300 0.260 0.200
Sum of Squares Within 組內變異
4.20x 20.1)198.18(
)190.19()196.19(
)0.194.19()0.192.18(
2
22
221
SS
04.1)4.200.20(
)4.204.20()4.208.20(
)4.2021()4.208.19(
2
22
222
SS
80.0)8.216.21(
)8.2122()8.214.22(
)8.218.21()8.212.21(
2
22
223
SS
04.38.004.120.1 SSW
©蘇國賢 2004社會統計(上) Page 35
Between-Group Sum of Squares組間變異
• 任何一組的平均數與總平均數之間的差異稱為因子引起的差異 (difference due to factor)
• 組間變異是因為已知為處理 (treatment) 所造成的,因此稱為已解釋變異或處理平方和 (treatment sum of squares):
K
jjj
KK
xxn
xxnxxnxxnSSB
1
2
2222
211
)(
)()()(
©蘇國賢 2004社會統計(上) Page 36
A B C18.2 19.8 21.219.4 21 21.819.6 20 22.419 20.8 22
18.8 20.4 21.6
樣本平均 19 20.4 21.8
樣本標準差 0.548 0.510 0.447
樣本變異數 0.300 0.260 0.200
Sum of Squares Between 組間變異
4.20x
6.19)4.208.21)(5()4.204.20)(5()4.200.19)(5( 222 SSB
©蘇國賢 2004社會統計(上) Page 37
Sum of Squares Identity
• SST = SSW + SSB• 22.64 = 3.04 + 19.6
總變異 = 組內變異( 或未解釋變
異 )
+ 組間變異( 或已解釋變
異 )
©蘇國賢 2004社會統計(上) Page 38
Mean Square Within
• 以變異數分析來檢定母體平均數是否相等必須基於下列假設 :
• Xij are independent and Xij ~ N(uj, σ2)
• 變異數齊一性 (homoegeneity): 每個小母體的變異數皆相等, σj
2=σ2
• 如何估計母體變異數 ?
• ANOVA 檢定奠基於用不同的方式來估計未知的共同母體變異數 σ2
©蘇國賢 2004社會統計(上) Page 39
Mean Square Within
• 從第一組樣本的觀察值中我們可以得到一個母體變異數的不偏觀察值 (unbiased estimator):
1
)(
1
1
211
21
1
n
xxs
n
ii 22
1 )( sE
1
)(
2
1
222
22
2
n
xxs
n
ii 22
2 )( sE
同理
©蘇國賢 2004社會統計(上) Page 40
Variance of Discrete Random Variable
])[( 22 uXE )2( 22 uuXXE
)()(2)( 22 uEXEuXE 22 2)( uuuXE
22 )( uXE 22 )]([)( XEXE
複習複習
])2([1
1])([
1
1)(
1
22
1
22
n
iii
n
ii xxxxE
nxxE
nSE
])()([1
1][
1
1
1
2222
n
iii xnExE
nxnxE
n22 )]([)()var( xExEx
]}))(()[var(])]([)([{1
1 22 xExnxExVarn ii
22222
22
22
}{1
1
]}[][{1
1
nnnn
nn
n
複習複習
22 )]([)()var( xExEx
©蘇國賢 2004社會統計(上) Page 42
Mean Square Within
• 雖然各組樣本的變異數皆為母體變異數的不偏估計式,但是一更佳,更有效率的估計式為充分運用所有的樣本觀察值,即將各組的觀察值集合起來一起得到一個混和估計式:
)(
)1()1()1(
21
2222
2112
Knnn
snsnsns
k
kkp
1
)(1
2
2
j
n
ijij
j n
xxs
j
其中
©蘇國賢 2004社會統計(上) Page 43
Mean Square Within
• 這個混和估計式等於各組樣本變異數 sj
2的加權平均數,其加權權數為 :
)(
)1(
21 Knnn
n
k
j
j
j
n
ijijjj
j
n
ijij
j xxnsn
xxs
1
221
2
2 )()1(1
)(
第 j 組的組內變異
©蘇國賢 2004社會統計(上) Page 44
Mean Square Within
)(
)1()1()1(
21
2222
2112
Knnn
snsnsns
k
kkp
• 估計式的分子部分等於 SSW ,即各組組內變異的總和。
jn
ijijjj xxns
1
22 )()1(
)(2
Kn
SSWsp
©蘇國賢 2004社會統計(上) Page 45
Mean Square Within
• 我們把上式稱為MSW (Mean Square Within) 組內均和,有時稱為Mean Square Error (MSE) ,其中分母部分為MSW的自由度 (degree of freedom)
)( Kn
SSWMSEMSW
©蘇國賢 2004社會統計(上) Page 46
Mean Square Within
))(
)1(
()()( 1
2
Kn
sn
EKn
SSWEMSWE
K
jjj
為什麼MSW 可以用來估計 σ2?證明MSW 為 σ2
的不偏估計式。
))1(()1
(1
2
K
jjj snE
Kn
221 )()
)1(
(
j
K
jj
sEKn
n
©蘇國賢 2004社會統計(上) Page 47
Mean Square Between
• 另一種估計母體變異數 σ2為利用已知的x 全體樣本的平均值
Kxxx ,, 21各組樣本的平均值2)( xx j 及其差異的平方和
©蘇國賢 2004社會統計(上) Page 48
Mean Square Between
• 如果母體為常態分配,則樣本平均數的抽樣分配為:
),(~2
jj n
uNX j
jj nXVarXE
2
)()(
• 為了方便討論,我們假設每一個樣本的樣本數相同,即 n1= n2=n3=…=nk 。
• 如果虛擬假設為真 H0: u1=u2=…= uk ,則KXXX 21, 會有相同的機率分配。
©蘇國賢 2004社會統計(上) Page 49
Mean Square Between
1
)(1
2
2
K
XX
S
K
jj
X j
因為每一個個別樣本皆為獨立樣本,所以我們可以將
我們可以用由各組平均值所組成的 K 個觀察值來估計母體的變異數如下:
KXXX 21, 視為從 ),(~2
jj n
uNX
中抽出 K 個觀察值的隨機樣本
©蘇國賢 2004社會統計(上) Page 50
Mean Square Between
• 從這個由樣本平均數所組成的樣本所計算出來的樣本變異數
的不偏估計式為母體變異數 22
jj XXs
jX nj
22 的不偏估計式為 2
jXjsn
11
)(1
2
2
K
SSB
K
xxn
sn
K
jjj
Xj j
稱為 Mean Square Between (MSB)
©蘇國賢 2004社會統計(上) Page 51
Mean Square Between
• 數學上我們可以證明:
1
)(
)1
()( 1
2
22
K
uun
K
SSBEsnE
K
jjj
Xj j
©蘇國賢 2004社會統計(上) Page 52
Mean Square Between
)1
)(
()1
()( 1
2
2
K
xxn
EK
SSBEsnE
K
jjj
Xj j
))((1
1
1
2
K
jjj xxnE
K
)(1
1
1
22
K
jjj xnxnE
K))()((
1
1
1
22
K
jj xnExEn
K j
©蘇國賢 2004社會統計(上) Page 53
Mean Square Between
))()((1
1
1
22
K
jjj xnExEn
K原式
222
)()()( jjj
j XEXEn
XVar
))()((1
1
1
22
22
K
jj
jj n
nn
nK
)(1
1
1
22
1
22
K
j
K
jjj nn
K
©蘇國賢 2004社會統計(上) Page 54
Mean Square Between
)(1
1
1
22
1
22
K
j
K
jjj nn
K
)(1
1 2
1
222 nnkK
K
jjj
2
1
2 )(1
1
K
jjjn
k
k
jj
k
jjj
k
jjj
k
jjjj ununuunuuuun
1
2
11
2
1
22 2)2(
un n
©蘇國賢 2004社會統計(上) Page 55
Mean Square Between
• 當虛擬假設所有的母體平均數皆相同為真,則 SSB/(K-1) 為母體變異數的不偏估計式
21
2
22
1
)(
)(
K
uun
snE
K
jjj
Xj j
=0
©蘇國賢 2004社會統計(上) Page 56
Mean Square Between
21
2
22
1
)(
)(
K
uun
snE
K
jjj
Xj j
> 0
• 當虛擬假設為不真,則 SSB/(K-1) 為母體變異數的偏差估計式,且偏差隨著
的增加而增加2)( uu j
©蘇國賢 2004社會統計(上) Page 57
Mean Square Between
• Mean Square Between (MSB):
1
K
SSBMSB
其中分母 K-1 為 MSB 的自由度, MSB又稱為Between-group mean square 或 Mean square due to treatments (MSTR)
©蘇國賢 2004社會統計(上) Page 58
ANOVA
• 這兩種方式皆可估計母體的變異數• 當 H0 為真時,
2)( MSWE 2)( MSBE• 當 H0 為不真時,
2)( MSWE1
)(
)( 1
2
2
K
uun
MSBE
K
jjj
因此 MSB 及 MSW 的比率提供我們判斷虛擬假設是否無真的訊息。
©蘇國賢 2004社會統計(上) Page 59
Graphical Explanation of ANOVA
1u
2u
3u
u
2
2
)( 321 uuu
pooled
可以個別先計算每一個分配的變異數,然後取加權平均來估計 σ2 也可以將所有資料彙
整後再來估計 σ2
©蘇國賢 2004社會統計(上) Page 60
Graphical Explanation of ANOVA
1u
2u
3u
2
2pooled
1u 2u 3u
如果三個母體的平均值不等,則 pooled 資料所估計的母體變異數會大於σ2
如果三個母體的平均值相等,則兩種方式估計的 σ2應該將等
©蘇國賢 2004社會統計(上) Page 61
ANOVA test statistic F
• In One-way ANOVA, the test statistics is
MSW
MSBF
如果 H0 為真,分子分母皆為母體變異數的不偏估計式,因此兩者的比率會十分接近 1 。
如果 H0 為不真,則 MSB 會高估母體變異數,F 值會大於 1 。 F愈大, H0愈不可能為真。
如果假設為真,則 F 統計量依循自由度為 (K-1)及 (n-K) 的 F 分配。
©蘇國賢 2004社會統計(上) Page 62
F Distribution
• 欲比較兩母體變異數是否相等時,我們可以計算樣本變異數的比值:
22
21
S
S
• 如果比率很接近 1 ,則我們相信母體變異數很有可能一樣,如果此比值很大或很小,則母體變異數相等的機率不高。
• 究竟此比值要多大或多小才能推翻母體變異數相等的虛擬假設?
©蘇國賢 2004社會統計(上) Page 63
F Distribution
• 為了回答此問題,我們必須知道 S21/S2
2此一隨機變數的抽樣分配。設有兩常態分配的母體:
),(~ 2111 uNX ),(~ 2
222 uNX
• 且 X1與 X2互相獨立,自 X1, X2中分別取獨立隨機樣本 n1, n2,令:
1
)(
1
2112
1
n
XXS
1
)(
2
2222
2
n
XXS
1,122
22
21
21
21~ nnF
S
S
©蘇國賢 2004社會統計(上) Page 64
F Distribution
• 若虛無假設為真,即 σ21=σ2
2,則檢定量為:1,12
222
21
21
21~ nnF
S
S
22
21
S
SF
• 若將變異數較大者視為來自母體 1 ,則統計檢定量的值會大於 1 。此時單尾檢定都是右尾檢定
01,1n, HF21,則拒絕F單尾檢定:若 值 n
©蘇國賢 2004社會統計(上) Page 65
F Distribution
0 1 2 3 4 50
0.5
1
1.51.339
0
dF q 25 120( )
dF p 8 12( )
dF r 2 12( )
50 q p r
©蘇國賢 2004社會統計(上) Page 66
Performing one-way ANOVA test
假設我們要檢證下列的虛擬假設:KuuuH 210 :
等至少有一組平均數不相:1H
假設 K 母體皆為常態分配且有共同的變異數 σ2
STEP1: 從母體中抽取樣本規模為 n1, n2, …nK 的 K 個樣本。
Knnnn 21
©蘇國賢 2004社會統計(上) Page 67
Performing one-way ANOVA test
STEP2: 計算MSW 及 MSB:
1
K
SSBMSB
)( Kn
SSWMSW
STEP3: 計算 F 統計量 :
MSW
MSBF rejectFF KnK 則 如果 ,1
©蘇國賢 2004社會統計(上) Page 68
Performing one-way ANOVA test
檢證A B C
18.2 19.8 21.219.4 21 21.819.6 20 22.419 20.8 22
18.8 20.4 21.6
樣本平均 19 20.4 21.8
樣本標準差 0.548 0.510 0.447
樣本變異數 0.300 0.260 0.200
CBA uuuH :0
先計算 SSB 及SSW
©蘇國賢 2004社會統計(上) Page 69
A B C18.2 19.8 21.219.4 21 21.819.6 20 22.419 20.8 22
18.8 20.4 21.6
樣本平均 19 20.4 21.8
樣本標準差 0.548 0.510 0.447
樣本變異數 0.300 0.260 0.200
Performing one-way ANOVA test
4.20x 20.1)198.18(
)190.19()196.19(
)0.194.19()0.192.18(
2
22
221
SS
04.1)4.200.20(
)4.204.20()4.208.20(
)4.2021()4.208.19(
2
22
222
SS
80.0)8.216.21(
)8.2122()8.214.22(
)8.218.21()8.212.21(
2
22
223
SS 04.38.004.120.1 SSW
253.0315
04.3
Kn
SSWMSW
©蘇國賢 2004社會統計(上) Page 70
A B C18.2 19.8 21.219.4 21 21.819.6 20 22.419 20.8 22
18.8 20.4 21.6
樣本平均 19 20.4 21.8
樣本標準差 0.548 0.510 0.447
樣本變異數 0.300 0.260 0.200
Performing one-way ANOVA test
4.20x 6.19)4.208.21)(5(
)4.204.20)(5(
)4.200.19)(5(
2
2
2
SSB
8.913
6.19
1
K
SSBMSB
89.3735.38253.
8.912,2,05. F
MSW
MSBF
©蘇國賢 2004社會統計(上) Page 71
One-way ANOVA table
Source ofVariation
Sum ofSquares
Degree ofFreedom Mean square F
Between-group SSB K-1 MSB=SSB/(K-1) MSB/MSWWithin-group SSW n-K MSW=SSW/(n-K)Total SST n-1
Source ofVariation
Sum ofSquares
Degree ofFreedom Mean square F
Between-group 19.6 2 9.8 38.735Within-group 3.04 12 0.253Total 22.64 14
©蘇國賢 2004社會統計(上) Page 72
A B C D
樣本平均 7.87 7.47 5.1 3.69
樣本ni 62 52 7 13
例題已知 A, B, C, D四組人的平均值及樣本規模如下,假設總變異量為 596.01 ,用 ANOVA 檢定四個母體的平均數相等
17.7134/)69.31314.57
47.75287.762(
X
3415.221)17.747.7(52)17.787.7(62)( 224
1
i
ii XXnSSB
SSWSSBSST 34.22101.596 SSW
©蘇國賢 2004社會統計(上) Page 73
The statistical Model of One-Way ANOVA
ijjij euX
jjiij uXe
第 j個population
第 i 個觀察值
第 j 個 population 的平均值
Random Effect隨機誤差項
),0(~ 2NeijAssumption about
©蘇國賢 2004社會統計(上) Page 74
The statistical Model of One-Way ANOVA
jj tuu kj ,...,3,2,1母體 j 的平均值可以表為總母體 ( 所有k 個母體 ) 的平均值加上處理效果或因素效果 (treatment effect) 。
uutj jj 個母體的因素效果第
0....: 210 ktttHuuuuH k ....: 210 虛擬假設
等同於如果虛擬假設為真,則處理效果不存在,每一個觀察值等於 u 加上隨機誤差 eij
©蘇國賢 2004社會統計(上) Page 75
Derivation of the Sum-of-Squares Identity
ijjijjij etueuX jj tuu
ijjij euX
jijij
jj
uxe
uut
因素效果隨機誤差
kjni ,...2,1;,...2,1
©蘇國賢 2004社會統計(上) Page 76
Derivation of the Sum-of-Squares Identity
ijjijjij etueuX
ijjij etuX jijij
jj
uxe
uut
jijjij uxuuuX
jijjij xxxxxx
ux來估計母體均數以樣本的總平均數
jj ujx 母體均數來估計以樣本的均數
©蘇國賢 2004社會統計(上) Page 77
Derivation of the Sum-of-Squares Identity
jijjij xxxxxx
jijj
jijjij
xxxx
xxxxxx
2
)( 222
兩邊平方
k
j
n
i
k
j
n
ijijj
k
j
n
iij
j jj
xxxxxx1 1 1 1
22
1 1
2
k
j
n
ijij
j
xx1 1
2
k
j
k
j
n
ijijjj
j
xxxxn1 1 1
22
SSWSSBSST
©蘇國賢 2004社會統計(上) Page 78
Equivalence of the t test and one-way ANOVA
• 檢證H 0: u1= u2 vs. H1: u1 u2
• 根據十二章所學的 t 檢定:)-(n)-(nt
nns
xxt
p
11d.f. on,distributi ~11
)(21
21
21
221
222
211
2
nn
xxxx
sii
p
©蘇國賢 2004社會統計(上) Page 79
Equivalence of the t test and one-way ANOVA
• 我們也可以用 One-way ANOVA 來作檢定• K=2 時, one-way ANOVA 檢定等於 t 檢定,且 F=t2。
knSSW
kSSB
MSW
MSBF
1
證明
2
12
212
222
11
222
211
nnxxxx
xxnxxn
ii
©蘇國賢 2004社會統計(上) Page 80
Equivalence of the t test and one-way ANOVA
21
2
2212
11 nns
xxt
p
2
221
21
21
ps
xx
nn
nn
©蘇國賢 2004社會統計(上) Page 81
Equivalence of the t test and one-way ANOVA
• 為了證明 F=t2,我們必須用到下列等式
21
2211
nn
xnxnx
21
221111 nn
xnxnxxx
21
1212 nn
xxnxx
21
212
nn
xxn
21
22111211 )(
nn
xnxnxnxn
21
2121 nn
xxnxx
©蘇國賢 2004社會統計(上) Page 82
Equivalence of the t test and one-way ANOVA
• 將剛剛證明的等式代入
221
21
21
221
212
212
221
221
)(
)(
)()(
xxnn
nn
nn
xxnnxxnnSSB
222
211 )()( xxnxxnSSB
21
2121 nn
xxnxx
21
1212 nn
xxnxx
©蘇國賢 2004社會統計(上) Page 83
Equivalence of the t test and one-way ANOVA
2
21
222
211
2
)()(p
ii Snn
xxxx
)2/(2 21
21
nnSSWnn
SSWMSW
221
21
21 )( xxnn
nnSSB
22
1t
S
SSB
knSSW
kSSB
MSW
MSBF
p
©蘇國賢 2004社會統計(上) Page 84
例題
• Test H0: u1 = u2
10,33 8,30 21,21 222
21121 sxsxnn
給定下列條件
分別用 t-test 及 ANOVA 來檢定
940
)10)(20()8)(20(
2
)1()1(
2
)()(
21
222
211
21
222
2112
nn
snsn
nn
xxxxS ii
p
240.321/921/9
3330
)/1/1( 212
21
nnS
xxt
p
©蘇國賢 2004社會統計(上) Page 85
例題
5.109
1/])5.3133)(21()5.3130)(21[(
2
12
1/
22
212
222
11
222
211
nnxxxx
xxnxxn
KnSSW
KSSB
MSW
MSBF
ii
5.3142
)33)(21()30)(21(
21
2211
nn
xnxnX