第九章 两因素的方差分析 ( two-factors analysis of variance )...
description
Transcript of 第九章 两因素的方差分析 ( two-factors analysis of variance )...
第九章 两因素的方差分析( two-factors analysis
of variance )或两种方式分组的方差分析( two-way classification analysis of varianc
e ) 一、 模型的类型及交互作用的概念 在实际工作中,经常会遇到两种或两种以上的
因素,共同影响实验结果的情况。例如,一组病人同时服用两种药物,每一种药物又有不同的剂量(水平),如 A 药物有 5 个水平, B 药物有 3 个水,共有 5×3 = 15 个剂量水平。需要 15 名病人参加实验,每人接受一种水平组合,象这样的分组方式称为交叉( cross )分组。
上面讲过,因素可分作固定因素和随机因素。在两因素实验中 :
• 当两个因素都是固定因素时,称为固定模型( fixed model )。
• 两个因素均为随机因素时,称为随机模型( random model )。
• 一个因素是固定因素,另一个因素是随机因素时,称为混合模型( mixed model )。
这三种模型虽然在计算方法上没有多大不同,但在检验以及对结果解释上却截然不同。尤其是在两因素之间存在交互作用时,不同类型模型的区别就更明显。为了下面叙述方便,介绍主效应与交互作用两个基本概念。
由于因素水平的改变而造成因素效应的改变,称为该因素的主效应( main effect )。例如有下面一组实验, A 因素有两个水平, A1 和A2 ; B 因素也有两个水平, B1 和 B2 。当 A
因素从第一个水平变化到第二个水平时, A 因素的主效应为 A2 水平的平均效应减去 A1 水平的平均效应。
A1 A2
B1
B2
18 24 38 44
62
3818
2
4424
2221112212
BABABABAA
同样, B 因素的主效应:
202
2418
2
4438
2212112221
BABABABAB
若 A 、 B 之间不存在交互作用,则
22212211 BABABABA
有时会发现,某一因素在另一因素的不同水平上所产生的效应不同。例如:
A1 A2
B1
B2
18 28 30 22
A (在 B1 水平上)= A2B 1- A1B1 = 28 - 18 = 10
A (在 B2 水平上)= A2B2 - A1B2 = 22 - 30 =- 8
可以明显看出: A 的效应依 B 的水平而不同。这时我们说:在 A 和 B 因素见存在交互作用。交互作用的大小可用
12212211 BABABABA
来估计。上例的 A 、 B 间的交互作用: AB =18 + 22―30―28 =— 18 。有时交互作用相当大,因素的主效应相对来说变得相当小。在上面例子中, A 因素的主效应: A =( 28 + 22 )/ 2 -( 18 + 30 )/ 2 = 1 ,与交互作用的绝对值 18相比已经相当小,这时可认为不存在主效应。
当因素间存在交互作用时,对因素间交互作用的了解比只了解因素的主效应重要得多。因此,在两因素方差分析中,分解出因素的交互作用十分必要。两因素间是否存在交互作用,有专门的统计判断方法,一般情况下,可以根据专业知识判断。另外,做图法也能提供一些帮助。将上面两表的数据,可以做以下两图(图 2 - 1 )。
B2
B1
A1 A2
B1
B2
A1 A2
a. 不存在交互作用 b. 存在交互作用
图 2—1 因素间交互作用的图示
当 A 、 B 之间不存在交互作用时,从 B1
变化到 B2 是不依 A 水平的不同而变化,所以
B1 - B1 , B2 - B2 两线平行。当存在交互作
用时,A的效应依B的水平而不同,所以 B1
- B1 , B2 - B2 两线不平行。直观图可以帮助
判断因素之间是否存在交互作用,但在处理数据时只凭图象是不行的,需要经过严格的数据分析之后,才能最后断定。
两因素实验的典型设计是:假定 A 因素有
a 水平, B 因素有 b 水平,则每一次重复都包
括 ab 次实验,并设实验重复次数 n 次, χijk 表
示 A 因素的第 i 水平, B 因素第 j 水平和第 k
次重复的观察值。数据将以下表的形式出现。
表 2 - 7 中 A 和 B 可以是固定因素,也可
以是随机因素,因而引出三种不同的统计模型。
表 2 - 7 两因素交互分组实验的一般格式
因素 B j = 1 , 2 ,…, b总计
B1 B2 … Bb
因素Ai∥
1 ,2 ,
∶ ,a
A1
Χ111Χ112∶Χ11n
Χ121Χ122∶Χ12n
…Χ1b1Χ1b2∶Χ1bn
Χ1··
A2
Χ211Χ212∶Χ21n
Χ221Χ222∶Χ22n
…
Χ2b1Χ2b2∶Χ2bn
Χ2··
∶ ∶ ∶ … ∶ ∶
Aa
Χa11Χa12∶Χa1n
Χa21Χa22∶Χa2n
…
Χab1Χab2∶Χabn
Χa··
总计 Χ·1· Χ·2· … Χ·b· Χ1··
表 2 - 7 中的各种符号做如下说明: i·· 表示 A因素第 i 水平的所有观察值的和; ·j· 表示 B 因素第 j 水平的所有观察值的和; ij· 表示 A 的第 i 水平和 B 的第 j 水平的所有观察值的和; ··· 表示所有观察值的综合。用公式表示为:
a
i
n
k
jjijkj
b
j
n
k
iiijki
bjan
xxxx
aibn
xxxx
1 1
1 1
,,2,1,,
,,2,1,,
a
i
b
j
n
kijk
n
k
ijijijkij
abn
xxxx
bj
ai
n
xxxx
1 1 1
1
,
,,2,1
,,2,1,,
二、 固定效应模型 1. 有重复实验时 有重复实验时,观察值可以以下线性统计模型描述:
)202(
,,2,1
,,2,1
,,2,1
nk
bj
ai
x ijkijjiijk
其中,是总体效应; i 是 A 因素第 i 水平的真正效应; j 是 B 因素第 j 水平的真正效应;() i j 是在 i 和 j 之间的交互作用的效应;
i j k 是随机误差成份。当两因素均为固定因素时,各处理效应是距总平均效应的离差。因此,
)222(0
)212(0
1
1
b
jj
a
ii
交互作用的效应也是固定的,
)232(011
b
jij
a
iij
ij 是相互独立且服从 N ( 0 , 2 )的随机变量 ( 2·24 )因实验共有 n 次重复,所以实验的总次数为 abn次。
交互分组两因素固定效应模型的方差分析的零假设为:
)272(,2,1
,,2,1,0:
)262(0:
)252(0:
03
2102
2101
bj
aiH
H
H
ij
b
a
方差分析的基本思想仍然是将总平方和分解。
)282(1 1 1
2
1 1 1
2
1
22
1 1 1
2
1 1 1
2
a
i
b
j
n
kijijk
a
i
a
i
b
jjiij
b
jji
a
i
b
j
n
kijijkjiijji
a
i
b
j
n
nijk
xx
xxxxnxxanxxbn
xxxxxxxxxx
xx
于是,总平方和可分解为:由于 A 因素所引起的平方和 SSA , B 因素所引起的平方和 SSB , A 、 B 交互作用所引起的平方和SSAB 及误差平方和 SSe 。分别是:
)322(
)312(
)302(
)292(
1 1 1
2
2
1
2
1
2
a
i
b
j
n
kijijke
jiijAB
b
jjB
a
iiA
xxSS
xxxxnSS
xxanSS
xxbnSS
从 (2·32) 式可以看出,为了得到误差平方和,至少要重复两次。有了误差平方和,才能把误差与交互作用分解开。
与每一平方和所相应的自由度为: A a - 1
B b - 1
AB 交互作用 ( a - 1 )( b - 1 ) 误差 ab ( n - 1 ) 总和 abn - 1
其中总自由度、 A 因素自由度和 B 因素自由度比较简单,分别为 abn - 1 , a -1和b - 1 。交互作用的自由度,是两个因素全部水平的组合数减 1 ,再减 A 、 B 主效应自由度,即( ab - 1 )—( a―1 )—( b―1 )=( a―1 )( b―1 )。误差自由度在每一因素组合内是 n - 1 ,共有 ab 种组合,故为ab ( n - 1 )。各项的均方分别为:
)1(,
)1)(1(
1,
1
nab
SSMS
ba
SSMS
b
SSMS
a
SSMS
ee
ABAB
BB
AA
两因素固定模型方差分析表如下:
表 2 - 8 固定模型方差分析表(因素 A 、 B 固定型)
变差来源 平方和 自由度 均 方 F
因 素 A 因 素 B交互作用
AB误 差
SSA
SSB
SSAB
SSe
a- 1b- 1
(a-1)(b-1)
ab(n-1)
MSA
MSB
MSAB
MSe
MSA /MSe
MSB /MSe
MSAB /MSe
总 和 SST abn-1
实际计算时,可按下述方式进行。
)352(1
)342(1
)332(
1
22
1
22
1 1 1
22
b
jjB
a
iiA
a
i
b
j
n
kijkT
abn
xx
anSS
abn
xx
bnSS
abn
xxSS
其中 2··· / abn 称为校正项,用 C 表示。
为了得到 SSAB 需分两步计算。首先,由重复间的平均数,求出次总平方和( subtotal sum of squares ) SSST ,
)362(1
1
2
1
2
a
i
b
jijST abn
xx
nSS
这一平方和由三部分构成: ABBAST SSSSSSSS
由此可以得出, AB 交互作用平方和 SSAB , )372( BASTAB SSSSSSSS
而 )382( STTe SSSSSS
另一种计算交互作用平方和的方法,是通过计算重复间平方和得到误差平方和,
)392(1
1 1 1 1
2
1
2
a
i
b
j
a
i
b
jij
n
kijke x
nxSS
再由总平方和减去 A 因素、 B 因素及误差平方和,剩余的便是交互作用平方。
)402( eBATAB SSSSSSSSSS
例 2.3 为了从三种不同原料和三种不同发酵温度中,选出最适的条件,设计了一个两因素试验。并得到以下结果(表 2 - 9 ):
表 2 - 9 用不同原料与不同温度发酵的酒精产量
原料种类A
温 度 B
30℃ 35℃ 40℃
1
2
3
41492325
47595040
43355350
11132524
43383336
55384744
6222618
8221814
30332619
在这个试验中,温度和原料均为固定因素。每一处理有 4 次重复。因此可按上面叙述过的方法分析。将表中的每一数字均减去30 ,列成表 2 - 10.1 ,由表 2 - 10.1 中,可以计算出
00.196)4)(3)(3(
8422
abn
xC
及
a
i
b
jijST
a
i
b
j
n
kijkT
Cxn
SS
CxSS
1 1
2
1 1 1
2
50.5513196)22838(4
11
00.71701967366
表 2 - 10.1 发酵实验方差分析计算表 原料
A温度
Bij1 ij2 ij3 ij4 ij· 2
ij· ∑2ijk
1
2
3
303540
303540
303540
11-19-24
1713-22
13250
19-1718
298-8
583
-7-5-4
203
-12
2317-4
-5-6
-12
106
-16
2014-11
18-47-48
7630-58
6164-12
32422092304
5776900
3364
37214096
144
556 711 800
1630 278 948
1123 1174 146
∑=84
22838 7366
利用 χij·列列成表 2 - 10.2 。
表 2 - 10.2 发酵实验方差分析表
温 度 Bi·· 2
i·· 30 35 40
原 1 料 2 A 3
18 -47 -48
76 30 -58
61 54 -12
-7748
113
59292304
12769
·j·
2·j·
155 47 -118
24025 2209 13924
8440158
21002
由表 2 - 10.2 中可以计算出
50.165650.551300.7170
75.80858.315017.155450.5513
58.3150196)40158()4)(3(
11
17.1554196)21002()4)(3(
11
1
2
1
2
STTe
BASTAB
b
jjB
a
iiA
SSSSSS
SSSSSSSS
Cxan
SS
Cxbn
SS
列成方差分析表: 表 2 - 11 发酵实验方差分析表
变差来源 平方和 自由度 均 方 F
原料 A温度 B
AB误 差
1554.173150.58808.75
1656.50
22 4
27
777.091575.29202.1961.35
12.67**25.68**
3.30*
总 和 7170.00 35** = 0.01 * = 0.05
原料和温度在 α = 0.01 水平上拒绝 H0 ;交互作用在 α = 0.05 水平上拒绝 H0 。因此酒精的产量不仅与原料与温度有关,而且与两者的交互作用也有关。
三、 随机效应模型 如果因素 A 和因素 B 都是随机因素,则构
成随机效应模型。例如,将同一种作物种在不同地块上,并施以不同数量的农家肥,考查不同地块和不同施肥量对作物产量的影响。不同地块是随机选出来的,属随机因素。农家肥的肥力水平,是很难人为控制的,即使施用相同的数量 , 其效应值也不会完全相同。因此,肥料也书随机因素。
随机效应模型的每一观察值,可用以下线性统计模型描述:
)442(
,,2,1
,,2,1
,,2,1
nk
bj
ai
x ijkijjiijk
零假设分别是:
0:
0:
0:
203
202
201
H
H
H
方差分析的方法与固定模型的分析一样,分别计算出 SST 、 SSA 、 SSB 和 SS e 。
对 H03 : 2 = 0 的检验统计量应当是(具 (a
- 1) (b - 1) , ab(n - 1)自由度):
)452( e
AB
MS
MSF
与 F(a - 1) (b―1), ab ( n―1), 做比较,当 F< F 时,接受 H03 : 2
= 0 的假设;若 F > F ,拒绝H03 : 2
= 0 的假设。
对 H01 : 2 = 0 的假设,使用统计量(具 (a -
1) , (a - 1) (b - 1)自由度) )462(
AB
A
MS
MSF
与 F(a - 1), (a―1) (b―1), 做比较,当 F< F 时,接受 H01 : 2
= 0 的假设;若 F> F ,拒绝 H01 : 2
= 0 的假设。
对 H02 : s2b = 0 的假设,使用统计量(具 (b
- 1) , (a - 1) (b - 1)自由度)
)472( AB
B
MS
MSF
与 F(b - 1), (a―1) (b―1), 做比较,当 F< F 时,
接受 H02 : 2 = 0 的假设;若 F> F ,拒绝
H02 : 2 = 0 的假设。
表 2 - 14 随机效应模型方差分析表(因素 A 、 B 随机型)
变 差 来 源 平方和 自由度 均 方 F
因 素 A因 素 B
交互作用 AB误 差
SSA
SSB
SSAB
SS e
a - 1b - 1
(a - 1)(b- 1)
ab(n - 1)
MSA
MSB
MSAB
MS e
MSA / MSAB
MSB / MSAB
MSAB / MS e
总 和 SST abn - 1
随机效应模型的方差分析表如下:
例 2.6 为了研究不同地块中施用不同数量农家肥对作物产量的影响,设计了一个两因素试验。试验结果列在下表中。
地 块 B
一号地 二号地 三号地
施肥量A
100kg200kg300kg400kg
8.69 8.47 8.88 8.7210.82 10.8611.16 11.42
8.80 8.74 9.68 9.5411.00 10.9210.97 11.13
9.49 9.37 9.39 9.5911.07 11.0111.00 10.90
解 前面已经说过,这是一随机模型。随机模型的各项平方和的计算与固定模型是一样的。将上表中的 ijk 每一个均减去 9.5列成下表:
表 2 - 15.1 作物产量方差分析计算表
施 地 肥 量 块 ij1 ij2 ij· 2
ij· ∑2ijk
一 100 二 三
-0.81-0.70-0.01
-1.03-0.76-0.13
-1.84-1.46-0.14
3.38562.13160.0196
1.71701.06760.0170
一 200 二 三
-0.620.18-0.11
-0.780.040.09
-1.400.22-0.02
1.96000.04840.0004
0.99280.03400.0202
一 300 二 三
1.321.501.57
1.361.421.51
2.682.923.08
7.18248.52049.4864
3.59204.26644.7450
一 400 二 三
1.661.471.50
1.921.631.40
3.583.102.90
12.81649.61008.4100
6.44204.81784.2100
13.62 63.5772 32.9218
利用 χijk列,列成下表:
表 2 - 15.2 作物产量方差分析计算表
地 块i· 2
i··一 二 三
施 肥 量
100200300400
-1.84-1.402.683.58
-1.460.222.923.10
-0.14-0.023.082.90
-3.44-1.208.689.58
11.83361.4400
75.342491.7764
·i·
2·i·
3.029.1204
4.7822.8484
5.8233.8724
和 13.62 65.8412
180.3924
由表 2 - 15.1 计算出
0592.247294.7)5772.63(2
11
1924.257294.79218.32
7294.7)2)(3)(4(
62.13
1 1
2
1 1 1
2
22
a
i
b
jijST
a
i
b
j
n
kijkT
Cxn
SS
CxSS
abn
xC
由表 2 - 15.2 计算出
229.1
1332.10592.241924.25
5008.07294.7)2)(4(
8412.651
3360.227294.7)2)(3(
3924.1801
1
2
1
2
BASTAB
STTe
b
jjB
a
iiA
SSSSSSSS
SSSSSS
Cxan
SS
Cxbn
SS
列成方差分析表 :
变 差 来 源 平方和 自由度 均 方 F
施肥量 A地 块 B
交互作用AB误 差
22.33600.50081.22291.1327
32 612
7.45530.25040.20380.0944
36.53**1.232.16
总 和 25.1924 23
** = 0.01
从以上方差分析表中,可以看出所选择的不同地块对产量没有显著影响。但不同施肥两对产量的影响极为显著。
四、 混合模型 在两因素交叉分组实验中,若一个因素 ( 如 A 因
素 ) 是固定型,另一个因素 ( 如 B 因素 ) 是随机型,则称为混合模型。在混合模型中,每一观察值 χijk 的线性统计模型为:
)482(
,,2,1
,,2,1
.,2,1
nk
bj
ai
x ijkijjiijk
其中 i 是固定效应, j 是随机效应,交互作用 ()ij ,被认定随机效应。因为固定因素的全部交互作用效应之和为 0 ,所以在固定因素的某个水平上,交互作用的成分不是独立的。
对于 H01 : αi = 0 的检验的统计量为
(具 a―1 , (a―1)(b―1)自由度):
AB
A
MS
MSF
对于 H02 := 0 的检验的统计量为(具
b―1 , ab(n―1)自由度):
e
B
MS
MSF
对于 H03 : σ 2 αβ = 0 的检验的统计量为(具 (a - 1)(b―1) , ab(n―1)自由度):
e
AB
MS
MSF
混合模型方差分析表如下: 表 2 - 16 混合模型方差分析表( A 固定, B 随
机) 变 差 来 源 平方
和自由度 均 方 F
因 素 A因 素 B
交互作用AB误 差
SSA
SSB
SSAB
SS e
a - 1b - 1
(a - 1)(b -1)
ab(n - 1)
MSA
MSB
MSAB
MS e
MSA /MSAB
MSB / MSe
MSAB /MS e
总 和 SST abn - 1
例 2·7 表 2 - 17 所列出的数据是四个受试者在四种速度下工作,即正常速度的 60%、 80%、100%、 120%所得到的能量消耗的比值,试验共有 16 种处理,每一处理重复观察 2 次,共做 32 次观察。
表 2 - 17 四个受试者在四种速度下工作的能量消耗
受 试 时 间 B
一 二 三 四
工 作 的 相对速度( 正常速度的百分数) A
6080100120
2.70 3.301.38 1.352.35 1.952.26 2.13
1.71 2.141.74 1.561.67 1.503.41 2.56
1.90 2.003.14 2.291.63 1.053.17 3.18
2.72 1.853.51 3.151.39 1.722.22 2.19
解 首先,看因素的类型。因素 A 是从 60~120%这个范围内,人为地选出的四个水平,这四个水平是可以严格控制的,所以因素 A 为固定型;因素 B 的四个水平,是从受试者人群中随机抽取的,所以因素 B 为随机型。本试验属于混合效应模型。具体计算过程不再重复,下面给出方差分析表
表 2 - 18 能量消耗实验方差分析表
变 差 来 源 平方和 自由度 均 方 F
相对速度 A 实验对象 B交互作用 A误 差
3.99480.45418.41231.7902
3 3 916
1.33160.15140.93470.1119
1.42 1.358.35
总 和 14.6514 31
首先,检验假设 0: 2
03 H
35.81119.0
9347.0
e
AB
MS
MSF
因为 F> F9 , 16 , 0.05 ,所以 A 、 B 之间存在交互作用。检验
35.11119.0
1514.0
0: 202
e
B
MS
MSF
H
F< F3 , 16 , 0.05 ,所以实验对象个体之间的差异不显著。
最后,检验
42.19347.0
3316.1
0:01
AB
A
i
MS
MSF
H
F< F3 , 16 , 0.01 ,接受 H01 。因素 A 是不显著
的。在这四种速度下,工作的能量消耗没有显著不同。要提醒大家的是,在混合模型的方差分析时,正确区分因素的类型,正确地使用检验的统计量是非常重要的。
在随机效应模型和混合效应模型中,不设置
重复,同样会有固定效应模型中的问题,即因素的
假互作用与实验误差无法区分,全部归于误差项。
特别是混合模型中,随机因素的各水平之间实际存
在的差异,往往检验不出来,结果降低了实验的可
靠性。因此,在条件允许的情况下,不论哪一种模
型,最好都设重复。
五、两个以上因素的方差分析六、缺失数据的估计 弥补缺失数据的原则:使补上缺失的数据
之后,所得到的误差平方和最小。七、数据变换 对数变换、平方根变换、反正弦变换等等。