Analysis of Variance 變異數分析

©蘇國賢 2004社會統計（上）

Analysis of Variance 變異數分析

• 在前幾章中，我們學會了如何檢定兩母體平均數是否有差異。在本章中，我們將介紹對於兩個以上母體的平均值的比較。

• 檢定三個或以上的母體平均數是否相等的統計方法，或檢定名目變數或序列尺度的因子對於等距尺度或比率尺度的依變數是否有影響統計方法稱為變異數分析。

觀念觀念



• 例如：• 比較各省籍 ( 台灣、大陸、客家人 ) 人士在平均收入及教育年數上的差異。

• 大學中各年級的同學智商是否有別？• 三種不同的教學方法對於學生的成績是否有影響？

觀念觀念



• 在比較多組母體的平均值時，我們通常不採用兩兩比較的方式，主要的原因有二：

• 一、這種做法太浪費時間，因為比較幾個母體可能產生很多的比較組，例如比較五個母體的平均值差異，如果以兩兩比較的方式，我們必須進行 C5

2=10 次的 t-test 。• 二、如果每組的顯著水準皆為 α ，則全體比較的顯著水準會高於 α 。

觀念觀念



• 假設我們在 .05 的顯著水準下要檢定下列虛擬假設：

• H0: u1=u2=u3

• 如果拆成下列三組虛擬假設：• H0: u1=u2 , H0: u1=u3 , H0: u2=u3

• 每個假設被「接受」的機率為 .95 ，三個假設全部被接受的機率為 .953=.857 ，也就是說當假設為真但被推翻的機率為 (1 - 0.857) = 0.143 > 0.05 遠高於顯著水準。

觀念觀念



• 因此我們需要在共同的顯著水準 α 下，同時考量多個平均值得差異，我們以 F分配來進行檢定，稱之為變異數分析 (ANOVA) 。

• 這個名稱容易令人產生誤解，我們是根據樣本資料的變量分析，來檢定母體平均數是否有差異。

觀念觀念



• The One-Factor ANOVA Model 單因子變異數分析

• 設我們從 k 個母體中得到樣本資料來檢定下列虛擬假設 :

• H0: u1 = u2 = … = uk。• H1: 至少有兩個平均值不同。

觀念觀念



• 消費者很想知道哪種車最省油，比較 A, B, C 三種車款每加崙可以行駛的里數如下：

觀念觀念

A B C18.2 19.8 21.219.4 21 21.819.6 20 22.419 20.8 22

18.8 20.4 21.6

樣本平均 19 20.4 21.8

樣本標準差 0.548 0.510 0.447

樣本變異數 0.300 0.260 0.200


Analysis of Variance 變異數分析觀念觀念

A B C18.2 19.8 21.219.4 21 21.819.6 20 22.419 20.8 22

18.8 20.4 21.6

樣本平均 19 20.4 21.8

樣本標準差 0.548 0.510 0.447

樣本變異數 0.300 0.260 0.200

3210 : uuuH

Q: 我們所觀察到的樣本平均數差異是否大到足以推翻上面的虛擬假設 ?

三種汽車每單位汽油的里數皆相同



A B C18.2 19.8 21.219.4 21 21.819.6 20 22.419 20.8 22

18.8 20.4 21.6

樣本平均 19 20.4 21.8

樣本標準差 0.548 0.510 0.447

樣本變異數 0.300 0.260 0.200

3210 : uuuH

Q: 各組平均值的差異是來自於抽樣誤差還是母體差異？

4.14.201921 xx 8.28.211931 xx4.18.214.2032 xx



A B C18.2 19.8 21.219.4 21 21.819.6 20 22.419 20.8 22

18.8 20.4 21.6

樣本平均 19 20.4 21.8

樣本標準差 0.548 0.510 0.447

樣本變異數 0.300 0.260 0.200

3210 : uuuH 例如 A車與Ｂ車的平均值差異為 1.4里，這個差異是否大到我們可以有信心的說 u1 與 u2 也有差異？

這個問題決定於 x1, x2 是否為母體平均值的精確估計值。

4.14.201921 xx


A B C18.2 19.8 21.219.4 21 21.819.6 20 22.419 20.8 22

18.8 20.4 21.6

樣本平均 19 20.4 21.8

樣本標準差 0.548 0.510 0.447

樣本變異數 0.300 0.260 0.200

3210 : uuuH 如果標準差很小，則兩個樣本平均值一點點的差距都可能是母體平均值不同的訊號。

同理，如果標準差過大，則即使我們觀察到樣本平均值之間有很大的差距，我們也不太有信心能夠宣稱母體的平均數真的有別


A B C18.2 19.8 21.219.4 21 21.819.6 20 22.419 20.8 22

18.8 20.4 21.6

樣本平均 19 20.4 21.8

樣本標準差 0.548 0.510 0.447

樣本變異數 0.300 0.260 0.200

3210 : uuuH 樣本標準差或變異數測量各個樣本內，各觀察值之間的變異程度。

如果樣本內的變異數很小，則各樣本之間平均數的差距若過大，為母體平均數不同的有力證據

反之，如果樣本內的變異數過大，則即使樣本平均值之間有差異，我們仍然很難下斷論說母體的平均值不同。


A B C18.2 19.8 21.219.4 21 21.819.6 20 22.419 20.8 22

18.8 20.4 21.6

樣本平均 19 20.4 21.8

樣本標準差 0.548 0.510 0.447

樣本變異數 0.300 0.260 0.200

3210 : uuuH 因此檢定各樣本的平均值是否相同的問題涉及比較樣本內的變異（組內差異）及樣本間的變異（組間差異）。所以通常稱之為變異數分析。

樣本內的變異數很小

18 19 20 21 22 23

C

B

A

A B C18.2 19.8 21.219.4 21 21.819.6 20 22.419 20.8 22

18.8 20.4 21.6

19 20.4 21.8

樣本內的變異數很大

15 17 19 21 23 25

C

B

A

A B C17 24.2 26

20.4 22 19.824 17.8 24.4

15.8 16.2 1617.8 21.8 22.8

19 20.4 21.8

27

樣本平均數雖然相同


變異數分析中的幾個專有名詞

• 我們經常設計研究來了解造成某種現象變化的原因，例如我們想要了解為什麼有時候種植西瓜會甜有時候不會甜（甜度變動 ) ，這種我們欲了解的變動稱為依變項 (dependent variable) 、被解釋變項、或反應變項 (response variable) 。

• 我們懷疑西瓜的甜度與栽種過程中是否施肥有關，將某些西瓜種籽加以施肥處理，其他西瓜保持自然生長，這種造成依變項產生變化的變數稱之為因子 (factor) 或獨立變項、自變項 (independent variable) 。


自變數與依變數

• 在上面的例子中，比較各種汽車的里程數，何者為依變項？何者為獨立變項？

• 依變項：每加崙里數• 自變項：車種


因子水準 (Factor level) 與處理 (Treatment)

• 因子水準為某因子（自變數）之特殊形式或不同狀態，例如我們可以將「施肥」細分成三個水準：完全不施肥、施輕肥、施重肥。

• 如果解釋的因子為單一 (施肥與否），稱為單因子分析，如果解釋因子在兩個以上（施肥與否＋栽種溫度），稱為多因子分析。


因子水準 (Factor level) 與處理 (Treatment)

• 在單因子分析中，每一個因素水準皆稱為一種處理 (treatment) ，多因子分析中，因子水準之組合稱為一種處理（施重肥＋高溫、無施肥 + 高溫、施重肥＋低溫、無施肥＋低溫…等。），稱為多因子分析。


變異數分析的邏輯

• 假設從 K 個母體中抽取大小分別為 n1, n2, n3…nk的 K 個獨立隨機樣本。我們對母體有下列的假設：

• 各母體皆為常態分配，且有共同相同的變異數 σ2。

• 以 u1, u2, …uk 來表示母體的平均數，單因子分析檢證下虛擬假設

• H0: u1=u2…=uk vs. H1: 至少有兩組平均數不同

x11

x21

x31

x12x22

x32

xn2,2

共有 K 個母體

μ1, σ1 μ2, σ2

x1k

x2k

x3k

μk, σk

Xi j

i代表在樣本中的序號， i = 1,2, …nj

j代表樣本組別， j = 1,2, …k

1,1nx

knkx ,

1 2 … k

x 11 x 12 x 1k

x 21 x 22 x 2k

x 31 x 32 x 3k

﹕ ﹕ ﹕x n1 , 1 ﹕ ﹕

x n2 , 2 ﹕x nk,k

分別來自 k 母體的 k 個樣本

第 k 組樣本共有 nk

個觀察值

各組樣本數可以不同，分別為 n1, n2,…nk,

總樣本數 n= n1+n2+…+nk

1 2 … k

x 11 x 12 x 1k

x 21 x 22 x 2k

x 31 x 32 x 3k

﹕ ﹕ ﹕x n1 , 1 ﹕ ﹕

x n2 , 2 ﹕x nk,k

1x 2x kx

Kjn

xx

j

n

iij

j

j

,...2,1,各組樣本的平均值 1

K

j

jjK

j

n

i

ij

n

xn

n

xx

j

11 1

總樣本的平均值


A B C18.2 19.8 21.219.4 21 21.819.6 20 22.419 20.8 22

18.8 20.4 21.6

樣本平均 19 20.4 21.8

樣本標準差 0.548 0.510 0.447

樣本變異數 0.300 0.260 0.200

變異數分析的邏輯

4.2015

)8.21)(5()4.20)(5()0.19)(5(

x


變異數的分解

A B C18.2 19.8 21.219.4 21 21.819.6 20 22.419 20.8 22

18.8 20.4 21.6

樣本平均 19 20.4 21.8

樣本標準差 0.548 0.510 0.447

樣本變異數 0.300 0.260 0.200

4.20x 總平均數

任何一部車與總平均的差異稱為總差異 :

4.202.18 xxij


變異數的分解

A B C18.2 19.8 21.219.4 21 21.819.6 20 22.419 20.8 22

18.8 20.4 21.6

樣本平均 19 20.4 21.8

樣本標準差 0.548 0.510 0.447

樣本變異數 0.300 0.260 0.200

4.20x 總平均數

任何一廠牌與總平均的差異稱為由因子所引起的差異 (difference due to factor)

4.20191 xx


變異數的分解

A B C18.2 19.8 21.219.4 21 21.819.6 20 22.419 20.8 22

18.8 20.4 21.6

樣本平均 19 20.4 21.8

樣本標準差 0.548 0.510 0.447

樣本變異數 0.300 0.260 0.200

4.20x 總平均數同一廠牌中，任何一部車與該廠牌的平均數之間的差異稱為隨機差異 (difference due to error

192.18111 xx


變異數的分解

A B C18.2 19.8 21.219.4 21 21.819.6 20 22.419 20.8 22

18.8 20.4 21.6

樣本平均 19 20.4 21.8

樣本標準差 0.548 0.510 0.447

樣本變異數 0.300 0.260 0.200

4.20x 總平均數

總差異 =

由因子所引起的差異

＋

隨機差異


變異數的分解

)( xxij )( xx j

總差異 =由因子所引起的差異＋隨機差異

)( jij xx

ijx )( xx j )( jij xx x

總平均

因子的影響

隨機差異的影響


變異數的分解

k

j

n

iij

j

xx1 1

2)(

k

j

n

ij

j

xx1 1

2)(

k

j

n

ijij

j

xx1 1

2)(

)( xxij )( xx j )( jij xx

兩邊取平方和

k

j

n

ijijj

j

xxxx1 1

))((2


Sum of Squares in ANOVA 變異數分析中的平方和

• 變異數分析是透過各組樣本內的變異與組間變異之比較來檢證各組平均值是否相等的一種方法。

• 全體樣本資料的總變異量為 :

K

j

n

iij

j

xxSST1 1

2)(

• 即個別觀察值與總平均數差距的平方和，稱為總變異量或總平方和。


Sum of Squares in ANOVA 變異數分析中的平方和

• 變異數分析將總變異量分解成下列兩部分 :

總變異 = 組內變異( 或未解釋變

異 )

+ 組間變異( 或已解釋變

異 )

Total Sum of Squares (TSS)

= Within-group Sum of Squares or Sum of Squares Within (SSW)

+ Between-Group Sum of Squares or Sum of Squares Between (SSB)


Sum of Squares Within 組內變異• 組內各個觀察值之間的差異稱為隨機差異 (difference d

ue to random error) ，為不能被因子所解釋的差異。• 在各組樣本內的變異，即每一個組內觀察值的誤差平

方和 :

kn

iKiK

n

ii

n

ii xxxxxxSSW

1

2

1

222

1

211 )()()(

21

K

j

n

ijij

j

xx1 1

2)(KSSSSSS 21

在樣本組內，由於無法解釋的隨機變異，每一個觀察值 xij 與該組平均數會有所不同，因此組內的誤差稱為sum of squares due to error or error sum of squares ( 誤差平均和 )


A B C18.2 19.8 21.219.4 21 21.819.6 20 22.419 20.8 22

18.8 20.4 21.6

樣本平均 19 20.4 21.8

樣本標準差 0.548 0.510 0.447

樣本變異數 0.300 0.260 0.200

Sum of Squares Within 組內變異

4.20x 20.1)198.18(

)190.19()196.19(

)0.194.19()0.192.18(

2

22

221

SS

04.1)4.200.20(

)4.204.20()4.208.20(

)4.2021()4.208.19(

2

22

222

SS

80.0)8.216.21(

)8.2122()8.214.22(

)8.218.21()8.212.21(

2

22

223

SS

04.38.004.120.1 SSW


Between-Group Sum of Squares組間變異

• 任何一組的平均數與總平均數之間的差異稱為因子引起的差異 (difference due to factor)

• 組間變異是因為已知為處理 (treatment) 所造成的，因此稱為已解釋變異或處理平方和 (treatment sum of squares):

K

jjj

KK

xxn

xxnxxnxxnSSB

1

2

2222

211

)(

)()()(


A B C18.2 19.8 21.219.4 21 21.819.6 20 22.419 20.8 22

18.8 20.4 21.6

樣本平均 19 20.4 21.8

樣本標準差 0.548 0.510 0.447

樣本變異數 0.300 0.260 0.200

Sum of Squares Between 組間變異

4.20x

6.19)4.208.21)(5()4.204.20)(5()4.200.19)(5( 222 SSB


Sum of Squares Identity

• SST = SSW + SSB• 22.64 = 3.04 + 19.6

總變異 = 組內變異( 或未解釋變

異 )

+ 組間變異( 或已解釋變

異 )


Mean Square Within

• 以變異數分析來檢定母體平均數是否相等必須基於下列假設 :

• Xij are independent and Xij ~ N(uj, σ2)

• 變異數齊一性 (homoegeneity): 每個小母體的變異數皆相等， σj

2=σ2

• 如何估計母體變異數 ?

• ANOVA 檢定奠基於用不同的方式來估計未知的共同母體變異數 σ2


Mean Square Within

• 從第一組樣本的觀察值中我們可以得到一個母體變異數的不偏觀察值 (unbiased estimator):

1

)(

1

1

211

21

1

n

xxs

n

ii 22

1 )( sE

1

)(

2

1

222

22

2

n

xxs

n

ii 22

2 )( sE

同理


Variance of Discrete Random Variable

])[( 22 uXE )2( 22 uuXXE

)()(2)( 22 uEXEuXE 22 2)( uuuXE

22 )( uXE 22 )]([)( XEXE

複習複習

])2([1

1])([

1

1)(

1

22

1

22

n

iii

n

ii xxxxE

nxxE

nSE

])()([1

1][

1

1

1

2222

n

iii xnExE

nxnxE

n22 )]([)()var( xExEx

]}))(()[var(])]([)([{1

1 22 xExnxExVarn ii

22222

22

22

}{1

1

]}[][{1

1

nnnn

nn

n

複習複習

22 )]([)()var( xExEx


Mean Square Within

• 雖然各組樣本的變異數皆為母體變異數的不偏估計式，但是一更佳，更有效率的估計式為充分運用所有的樣本觀察值，即將各組的觀察值集合起來一起得到一個混和估計式：

)(

)1()1()1(

21

2222

2112

Knnn

snsnsns

k

kkp

1

)(1

2

2

j

n

ijij

j n

xxs

j

其中


Mean Square Within

• 這個混和估計式等於各組樣本變異數 sj

2的加權平均數，其加權權數為 :

)(

)1(

21 Knnn

n

k

j

j

j

n

ijijjj

j

n

ijij

j xxnsn

xxs

1

221

2

2 )()1(1

)(

第 j 組的組內變異


Mean Square Within

)(

)1()1()1(

21

2222

2112

Knnn

snsnsns

k

kkp

• 估計式的分子部分等於 SSW ，即各組組內變異的總和。

jn

ijijjj xxns

1

22 )()1(

)(2

Kn

SSWsp


Mean Square Within

• 我們把上式稱為MSW (Mean Square Within) 組內均和，有時稱為Mean Square Error (MSE) ，其中分母部分為MSW的自由度 (degree of freedom)

)( Kn

SSWMSEMSW


Mean Square Within

))(

)1(

()()( 1

2

Kn

sn

EKn

SSWEMSWE

K

jjj

為什麼MSW 可以用來估計 σ2?證明MSW 為 σ2

的不偏估計式。

))1(()1

(1

2

K

jjj snE

Kn

221 )()

)1(

(

j

K

jj

sEKn

n


Mean Square Between

• 另一種估計母體變異數 σ2為利用已知的x 全體樣本的平均值

Kxxx ,, 21各組樣本的平均值2)( xx j 及其差異的平方和


Mean Square Between

• 如果母體為常態分配，則樣本平均數的抽樣分配為：

),(~2

jj n

uNX j

jj nXVarXE

2

)()(

• 為了方便討論，我們假設每一個樣本的樣本數相同，即 n1= n2=n3=…=nk 。

• 如果虛擬假設為真 H0: u1=u2=…= uk ，則KXXX 21, 會有相同的機率分配。


Mean Square Between

1

)(1

2

2

K

XX

S

K

jj

X j

因為每一個個別樣本皆為獨立樣本，所以我們可以將

我們可以用由各組平均值所組成的 K 個觀察值來估計母體的變異數如下：

KXXX 21, 視為從 ),(~2

jj n

uNX

中抽出 K 個觀察值的隨機樣本


Mean Square Between

• 從這個由樣本平均數所組成的樣本所計算出來的樣本變異數

的不偏估計式為母體變異數 22

jj XXs

jX nj

22 的不偏估計式為 2

jXjsn

11

)(1

2

2

K

SSB

K

xxn

sn

K

jjj

Xj j

稱為 Mean Square Between (MSB)


Mean Square Between

• 數學上我們可以證明：

1

)(

)1

()( 1

2

22

K

uun

K

SSBEsnE

K

jjj

Xj j


Mean Square Between

)1

)(

()1

()( 1

2

2

K

xxn

EK

SSBEsnE

K

jjj

Xj j

))((1

1

1

2

K

jjj xxnE

K

)(1

1

1

22

K

jjj xnxnE

K))()((

1

1

1

22

K

jj xnExEn

K j


Mean Square Between

))()((1

1

1

22

K

jjj xnExEn

K原式

222

)()()( jjj

j XEXEn

XVar

))()((1

1

1

22

22

K

jj

jj n

nn

nK

)(1

1

1

22

1

22

K

j

K

jjj nn

K


Mean Square Between

)(1

1

1

22

1

22

K

j

K

jjj nn

K

)(1

1 2

1

222 nnkK

K

jjj

2

1

2 )(1

1

K

jjjn

k

k

jj

k

jjj

k

jjj

k

jjjj ununuunuuuun

1

2

11

2

1

22 2)2(

un n


Mean Square Between

• 當虛擬假設所有的母體平均數皆相同為真，則 SSB/(K-1) 為母體變異數的不偏估計式

21

2

22

1

)(

)(

K

uun

snE

K

jjj

Xj j

=0


Mean Square Between

21

2

22

1

)(

)(

K

uun

snE

K

jjj

Xj j

> 0

• 當虛擬假設為不真，則 SSB/(K-1) 為母體變異數的偏差估計式，且偏差隨著

的增加而增加2)( uu j


Mean Square Between

• Mean Square Between (MSB):

1

K

SSBMSB

其中分母 K-1 為 MSB 的自由度， MSB又稱為Between-group mean square 或 Mean square due to treatments (MSTR)


ANOVA

• 這兩種方式皆可估計母體的變異數• 當 H0 為真時，

2)( MSWE 2)( MSBE• 當 H0 為不真時，

2)( MSWE1

)(

)( 1

2

2

K

uun

MSBE

K

jjj

因此 MSB 及 MSW 的比率提供我們判斷虛擬假設是否無真的訊息。


Graphical Explanation of ANOVA

1u

2u

3u

u

2

2

)( 321 uuu

pooled

可以個別先計算每一個分配的變異數，然後取加權平均來估計 σ2 也可以將所有資料彙

整後再來估計 σ2


Graphical Explanation of ANOVA

1u

2u

3u

2

2pooled

1u 2u 3u

如果三個母體的平均值不等，則 pooled 資料所估計的母體變異數會大於σ2

如果三個母體的平均值相等，則兩種方式估計的 σ2應該將等


ANOVA test statistic F

• In One-way ANOVA, the test statistics is

MSW

MSBF

如果 H0 為真，分子分母皆為母體變異數的不偏估計式，因此兩者的比率會十分接近 1 。

如果 H0 為不真，則 MSB 會高估母體變異數，F 值會大於 1 。 F愈大， H0愈不可能為真。

如果假設為真，則 F 統計量依循自由度為 (K-1)及 (n-K) 的 F 分配。


F Distribution

• 欲比較兩母體變異數是否相等時，我們可以計算樣本變異數的比值：

22

21

S

S

• 如果比率很接近 1 ，則我們相信母體變異數很有可能一樣，如果此比值很大或很小，則母體變異數相等的機率不高。

• 究竟此比值要多大或多小才能推翻母體變異數相等的虛擬假設？


F Distribution

• 為了回答此問題，我們必須知道 S21/S2

2此一隨機變數的抽樣分配。設有兩常態分配的母體：

),(~ 2111 uNX ),(~ 2

222 uNX

• 且 X1與 X2互相獨立，自 X1, X2中分別取獨立隨機樣本 n1, n2，令：

1

)(

1

2112

1

n

XXS

1

)(

2

2222

2

n

XXS

1,122

22

21

21

21~ nnF

S

S


F Distribution

• 若虛無假設為真，即 σ21=σ2

2，則檢定量為：1,12

222

21

21

21~ nnF

S

S

22

21

S

SF

• 若將變異數較大者視為來自母體 1 ，則統計檢定量的值會大於 1 。此時單尾檢定都是右尾檢定

01,1n, HF21，則拒絕F單尾檢定：若值 n


F Distribution

0 1 2 3 4 50

0.5

1

1.51.339

0

dF q 25 120( )

dF p 8 12( )

dF r 2 12( )

50 q p r


Performing one-way ANOVA test

假設我們要檢證下列的虛擬假設：KuuuH 210 :

等至少有一組平均數不相:1H

假設 K 母體皆為常態分配且有共同的變異數 σ2

STEP1: 從母體中抽取樣本規模為 n1, n2, …nK 的 K 個樣本。

Knnnn 21



STEP2: 計算MSW 及 MSB:

1

K

SSBMSB

)( Kn

SSWMSW

STEP3: 計算 F 統計量 :

MSW

MSBF rejectFF KnK 則如果 ,1



檢證A B C

18.2 19.8 21.219.4 21 21.819.6 20 22.419 20.8 22

18.8 20.4 21.6

樣本平均 19 20.4 21.8

樣本標準差 0.548 0.510 0.447

樣本變異數 0.300 0.260 0.200

CBA uuuH :0

先計算 SSB 及SSW


A B C18.2 19.8 21.219.4 21 21.819.6 20 22.419 20.8 22

18.8 20.4 21.6

樣本平均 19 20.4 21.8

樣本標準差 0.548 0.510 0.447

樣本變異數 0.300 0.260 0.200


4.20x 20.1)198.18(

)190.19()196.19(

)0.194.19()0.192.18(

2

22

221

SS

04.1)4.200.20(

)4.204.20()4.208.20(

)4.2021()4.208.19(

2

22

222

SS

80.0)8.216.21(

)8.2122()8.214.22(

)8.218.21()8.212.21(

2

22

223

SS 04.38.004.120.1 SSW

253.0315

04.3

Kn

SSWMSW


A B C18.2 19.8 21.219.4 21 21.819.6 20 22.419 20.8 22

18.8 20.4 21.6

樣本平均 19 20.4 21.8

樣本標準差 0.548 0.510 0.447

樣本變異數 0.300 0.260 0.200


4.20x 6.19)4.208.21)(5(

)4.204.20)(5(

)4.200.19)(5(

2

2

2

SSB

8.913

6.19

1

K

SSBMSB

89.3735.38253.

8.912,2,05. F

MSW

MSBF


One-way ANOVA table

Source ofVariation

Sum ofSquares

Degree ofFreedom Mean square F

Between-group SSB K-1 MSB=SSB/(K-1) MSB/MSWWithin-group SSW n-K MSW=SSW/(n-K)Total SST n-1

Source ofVariation

Sum ofSquares

Degree ofFreedom Mean square F

Between-group 19.6 2 9.8 38.735Within-group 3.04 12 0.253Total 22.64 14


A B C D

樣本平均 7.87 7.47 5.1 3.69

樣本ni 62 52 7 13

例題已知 A, B, C, D四組人的平均值及樣本規模如下，假設總變異量為 596.01 ，用 ANOVA 檢定四個母體的平均數相等

17.7134/)69.31314.57

47.75287.762(

X

3415.221)17.747.7(52)17.787.7(62)( 224

1

i

ii XXnSSB

SSWSSBSST 34.22101.596 SSW


The statistical Model of One-Way ANOVA

ijjij euX

jjiij uXe

第 j個population

第 i 個觀察值

第 j 個 population 的平均值

Random Effect隨機誤差項

),0(~ 2NeijAssumption about


The statistical Model of One-Way ANOVA

jj tuu kj ,...,3,2,1母體 j 的平均值可以表為總母體 ( 所有k 個母體 ) 的平均值加上處理效果或因素效果 (treatment effect) 。

uutj jj 個母體的因素效果第

0....: 210 ktttHuuuuH k ....: 210 虛擬假設

等同於如果虛擬假設為真，則處理效果不存在，每一個觀察值等於 u 加上隨機誤差 eij


Derivation of the Sum-of-Squares Identity

ijjijjij etueuX jj tuu

ijjij euX

jijij

jj

uxe

uut

因素效果隨機誤差

kjni ,...2,1;,...2,1



ijjijjij etueuX

ijjij etuX jijij

jj

uxe

uut

jijjij uxuuuX

jijjij xxxxxx

ux來估計母體均數以樣本的總平均數

jj ujx 母體均數來估計以樣本的均數



jijjij xxxxxx

jijj

jijjij

xxxx

xxxxxx

2

)( 222

兩邊平方

k

j

n

i

k

j

n

ijijj

k

j

n

iij

j jj

xxxxxx1 1 1 1

22

1 1

2

k

j

n

ijij

j

xx1 1

2

k

j

k

j

n

ijijjj

j

xxxxn1 1 1

22

SSWSSBSST


Equivalence of the t test and one-way ANOVA

• 檢證Ｈ 0: u1= u2 vs. H1: u1 u2

• 根據十二章所學的 t 檢定：)-(n)-(nt

nns

xxt

p

11d.f. on,distributi ~11

)(21

21

21

221

222

211

2

nn

xxxx

sii

p



• 我們也可以用 One-way ANOVA 來作檢定• K=2 時， one-way ANOVA 檢定等於 t 檢定，且 F=t2。

knSSW

kSSB

MSW

MSBF

1

證明

2

12

212

222

11

222

211

nnxxxx

xxnxxn

ii



21

2

2212

11 nns

xxt

p

2

221

21

21

ps

xx

nn

nn



• 為了證明 F=t2，我們必須用到下列等式

21

2211

nn

xnxnx

21

221111 nn

xnxnxxx

21

1212 nn

xxnxx

21

212

nn

xxn

21

22111211 )(

nn

xnxnxnxn

21

2121 nn

xxnxx



• 將剛剛證明的等式代入

221

21

21

221

212

212

221

221

)(

)(

)()(

xxnn

nn

nn

xxnnxxnnSSB

222

211 )()( xxnxxnSSB

21

2121 nn

xxnxx

21

1212 nn

xxnxx



2

21

222

211

2

)()(p

ii Snn

xxxx

)2/(2 21

21

nnSSWnn

SSWMSW

221

21

21 )( xxnn

nnSSB

22

1t

S

SSB

knSSW

kSSB

MSW

MSBF

p


例題

• Test H0: u1 = u2

10,33 8,30 21,21 222

21121 sxsxnn

給定下列條件

分別用 t-test 及 ANOVA 來檢定

940

)10)(20()8)(20(

2

)1()1(

2

)()(

21

222

211

21

222

2112

nn

snsn

nn

xxxxS ii

p

240.321/921/9

3330

)/1/1( 212

21

nnS

xxt

p


例題

5.109

1/])5.3133)(21()5.3130)(21[(

2

12

1/

22

212

222

11

222

211

nnxxxx

xxnxxn

KnSSW

KSSB

MSW

MSBF

ii

5.3142

)33)(21()30)(21(

21

2211

nn

xnxnX

Analysis of Variance 變異數分析

Documents

Transcript of Analysis of Variance 變異數分析