第五章 统计描述 参数估计与假设检验
-
Upload
ignatius-kerr -
Category
Documents
-
view
152 -
download
3
description
Transcript of 第五章 统计描述 参数估计与假设检验
1
第五章 统计描述 参数估计与假设检验
数理统计是从对随机现象的观测所得之
资料出发,用概率论的理论与方法,来研
究随机现象,其基本问题是随机抽样并根
据所抽得的样本来推断总体的情况.
2
所谓总体是指在研究目的之下所能确定的最大观察范围 .
按照随机性原则,即保证总体中每一观察单位都有同等的机会被抽取到的原则,从总体中抽取部分观察单位形成样本 .
样本中所含样本点的个数称为样本含量.
3
对样本的观察数据有三类:
计量数据
品质数据
等级数据
4
计量数据是指用定量的方法测定观察单位的某数量特征所得数据,如身高、体重等.
品质数据是指观察单位属性描述之类的数据,如性别、血型、民族等.
等级数据是指观察单位某种属性描述存在不同程度与等级差别的数据,如职称、学历等.
本章主要内容是统计描述、参数估计与假设检验及其 R 软件操作.
5
11-1 计量数据的统计描述11-1-1 统计软件 R 简述
R 软件具有开放的统计编程环境,它提供了若干统计程序包以及各种数学计算与统计计算的函数.用户还可根据自己的需要编写自己的 R 函数来扩展现有的 R 语言.
6
更值得一提的是, R 是一种完全免费的共享的统计软件,目前由 R 核心开发小组维护,他们将全球优秀的统计应用软件打包提供给用户.用户可以通过 R 软件的网站 (http://www.r-project.org) 了解有关 R
软件的最新信息和使用说明,得到最新版本的 R 软件和基于 R 的应用统计软件包.
7
R 软件可以在 UNIX , Windows
或 Macintosh 操作系统上运行,它自带
一个非常实用的帮助系统,并具有很强
的作图能力.
8
R 软件中数据的组织方式常用的一般有
三种:向量、矩阵、数据框.
9
建立向量的命令是 c ( ) ,如下述命令是将一列数据组成的数组存储在变量 x 中.
> x<-c (3, 2, 9,18,8,0,7,5)
10
建立矩阵的常用命令是 matrix ( ) ,如下述命令是将向量 x 定义成 2 行 4 列矩阵,仍保存在变量 x 中,元素按行排列,即第一行的元素是 3, 2, 9,18 ,第二行的元素是8,0,7,5 .
> x<-matrix(x,nrow=2,ncol=4,byrow=TRUE)
11
或者使用命令 dim( ) ,也可实现上述功
能
> dim(x)=c(2,4)
此时,变量 x 不再是一维向量,而是二维
矩阵.
12
建立数据框的方法常见的有两种 :
第一种是使用命令 data.frame( )
第二种是使用命令 read.table ( )
现示例如后
13
现有如下形式的记录单
name sex age height weight
Alice F 13 56.5 84.0
Becka F 14 64.3 90.0
Kathy F 12 59.8 84.5
14
下述命令是将上述记录单数据读入内存并存储于数据框变量 rt 中
> rt<-data.frame(
name=c("Alice","Becka", "Kathy"),
sex=c("F","F", "F"),
age=c(13,14, 12),
height=c(56.5,64.3,59.8),
weight=c(80.0,90.0,84.5)
)
15
上述数据框变量 rt 的另一种建立是主样的 :
首先利用编辑器,建立如前所示记单格式的文本文件,也可将 Excel工作表文件另存为制表符分隔的文本文件,不妨设文件名是“ example.txt” .
16
然后通过下述命令将文本文件“ exa
mple.txt” 中所含的记录单,读入内存,以数据框的形式存储于变量 rt 中,其中文件名前可带路径.
> rt<-read.table("example.txt",head=TRUE)
17
11-1-2 平均水平或集中趋势 1 .计量资料的频数分布 首先看一个实例 例1 现有某地某年 110名 7岁男童身高(厘米)资料如下 :
118.1 108.2 118.9 110.8 118.2 123.0 113.0 117.2 122.7 112.4120.0 119.6 113.2 119.7 114.8 116.2 114.7 118.3 120.3 123.5122.5 122.0 117.0 120.7 114.3 122.5 119.7 116.8 119.8 119.7112.7 129.3 121.8 117.7 124.1 121.5 126.1 122.9 128.0 119.8117.2 114.3 124.1 120.0 121.5 120.0 130.5 120.8 126.6 120.2120.4 113.2 116.0 129.1 118.4 117.1 114.9 116.4 119.0 124.4121.2 121.0 115.4 116.3 125.5 112.2 125.2 114.9 124.4 112.3114.8 113.0 120.8 112.4 118.5 122.8 120.1 120.1 118.4 117.9120.7 125.2 118.0 126.2 122.1 120.7 117.4 119.1 122.8 123.8111.5 119.3 125.0 122.4 110.3 114.3 123.1 125.1 120.5 116.3130.8 132.5 116.3 127.1 120.6 119.5 120.5 125.6 123.2 116.8
18
这一组数据的最小值是 108.2 ,最大值是 132.5 ,在这一范围内, 110 个观察数据是如何分布的呢?是均匀分布还是非均匀分布;如果是非均匀分布,那么是靠近 108.
2 的数据较多还是靠近 132.5 的数据较多还是其它分布特征.
19
为了解数据的分布特征,通常的做法是
将从 108.2 到 132.5 的区间平均分成若干个
小组段,计数每一个组段中观察值出现的
频数,并据此绘成直方图.
手工完成这一工作是一件十分繁锁的事
件 .
20
下面用 R 操作如下:
用向量形式输入数据,并用绘制直方图
命令 hist ( ) 如下:
> x<-c (118.1,108.2,118.9,…,116.8)
> hist(x,nclass=10)
21
22
其中,参数 nclass=10 是指定分组个数,
一般实际分组个数比指个数略大,大多数
情况下,该参数可以省略而采用系统默认
分组个数.
23
从输出的直方图可以看出,这 110 个数
据在从 108.2 到 132.5 的区间中并不是均匀
分布的,而是中间位置( 119.0)附近的数
据较多,两侧的数据较少,左右基本对称.
称这种分布类型为对称分布.
24
同时增加观察数据个数(不是 110 而是1100 或 11000 或更多)与分组个数,则可以预见,所得到的直方图中的直条将逐渐变窄,其顶端将逐渐接近于后图所示的钟形曲线,两头低,中间高,左右对称,近似于数学上的正态分布.
25
26
如果频数分布的最高峰不在中间,左
右不对称,那么称这种分布类型为偏态分
布.另外,还会有多峰分布的情况,等等.
27
2 .算术均数
平均数用来反映一组计量资料的平均水平或集中趋势,它常作为一组数据的代表值.常用平均数有算术均数、几何均数、中位数.
算术均数,简称均数,一个统计总体的均数常用字母 μ表示,从统计总体的抽样而得样本的样本均数常用 表示.x
28
29
该命令是将存在向量 x 中的观察数据求算术均数,并将计算结果存在在变量 m 中.针对例 1 的数据,上述命令得到的结果是 1
19.72cm .
均数适用于对称分布资料,尤其是正态分布资料.
30
31
例 2 中国从 1996年到 2006年 10年间的 GD
P年发展速度分别是1.110 1.069 1.062 1.106 1.105 1.097 1.129 1.177 1.150 1.147
它们的连乘积则是 2006年相对于 1996年的发展速度,因而这 10年的平均发展速度用它们的几何平均数来表示.
32
R 软件操作如下:
> x<-c(1.110,1.069,1.062,1.106,1.105,1.097,1.129,1.177,1.150,1.147)
> lnx<-log(x)
> exp(mean(lnx))
运算结果是 1.1147 ,于是中国从 1996年到 200
6年 10年间的 GDP年年平均发展速度是 111.47
% ,平均增长速度是 11.47% .
33
对同一组资料而言,算术均数的值不小
于几何均数的值.
34
4 .中位数
根据一组资料所绘制的直方图如果不是中间高,两头低,左右对称时,而是高峰偏左或偏右或出现多峰等情形,分布类型不明,那么这一组资料的平均水平或集中趋势就应采用较为稳健、不收极端数据影响的中位数指标.
中位数是指将一组数据顺序排列后处于中间位置的数值,一般用 M 来表示.
35
对于对称分布来说,算术均数与中位数理论上是相等的.
在例 1 中,算术均数是 119.72cm ,用下述命令所得到的中位数则是 119.9cm .
> x<-c (118.1,108.2,118.9,…,116.8)
> m<-median(x)
36
如果数据总个数是奇数个,那么中位数
等于处于中间位置的数据,如果数据总个
数是偶数个,那么中位数等于处于中间两
个数据的和的一半.
37
11-1-3 变异程度或离散趋势
对一组计量资料的完整刻画,不仅要指
出其平均水平或集中趋势,还要指出该组
资料的离中程度或离散趋势,离散趋势反
映了数据之间的变异程度.
38
下面有两组数据:
甲: 10 , 20 , 30 , 40 , 50 , 60 , 70 , 80 , 90
乙: 30 , 35 , 40 , 45 , 50 , 55 , 60 , 65 , 70
这两组数据的平均水平一致,算术均数均是 5
0 ,但数据之间的变异程度不同,甲组数据较为离散,变异程序较大,而乙组数据则较为集中,变异程序较小.
39
反映数据变异程度或离散趋势的指标有多种,这里主要介绍常用的几个.
• 极差
• 方差
• 标准差
• 变异系数
40
1 .极差
极差,又称为全距,是指一组计量资料最大值与最小值的差,一般有 R表示.例 1 中 110 个数据的差计算过程如下:
> x<-c (118.1,108.2,118.9,…,116.8)
> R<-max(x)-min(x)
极差是一种最为粗略的离散程度描述,它只利用了最大值与最小值两个数值,而对其它所有数据置之不理,数据利用率最低.
41
2 .方差、标准差与变异系数
42
其中 n 是观察值个数.这里样本方差分
母上的是因为,如果用的话,那么算得的
样本方差总体上略小于总体方差.
43
44
45
例 1 中的数据方差、标准差及变异系数求法如下:
> x<-c (118.1,108.2,118.9,…,116.8)
> m<-mean(x)
> v<-var(x)
> s<-sd(x)
> CV<-s/m
其中, var ( ) 是方差函数, sd ( ) 是标准差函数.
46
11-1-4 正态分布
47
48
49
50
51
52
53
54
55
56
57
58
观察可知实际分布与理论分布非常接近.
在一个总休中,如果某计量属性的表现值受多种因素的影响,而每一因素的影响又是细微的,那么该属性的表现值呈正态分布,其理论依据就是数理统计中的中心极限定理.
人体的许多生理指标,偶然测量误差等服从正态分布.
59
5-2 参数估计与假设检验5-2-1 总体均数的点估计与参数估计
60
61
简单的点估计并没有指出误差或误差的
范围,有必要对问题作进一步的分析.
62
63
64
65
66
67
68
69
70
71
72
73
其中,称 为 t 分布的自由度. t 分布的的概率密度函数较为复杂,这里不再涉及了.
1n
74
75
76
77
78
79
80
81
5-2-2 总体方差的点估计与参数估计
82
83
不同自由度的卡方分布的概率密度函数的图象如图
84
85
86
87
88
89
5-2-3 假设检验
1.假设检验的基本思想
某随机事件的概率如果较小,那么在一次观察中发生的可能性就较小,某随机事件的概率如果较大,那么在一次观察中发生的可能性就较大,于是有理由认为,如果某事件在一次观察中发生了,那么它的概率一般是较大的,至少不会很小.
90
或者换一种说法,概率较小的事件在一
次观察中一般认为是不会发生的.这就是
所谓的小概率原理.
91
92
例 4 根据大量调查,已知成年健康男子每分钟的脉搏均数是 72次,在某山区随机抽查了 25名成年健康男子,计算得其每分钟脉搏的均数是 74.8次,标准差是 6.5次,能否认为该地区成年健康男子每分钟的脉搏数异于一般情况.
93
94
首先对总体作出无效假设,即认为差异
是由于抽样误差造成,也就是说均数是 74.
8 、标准差是 6.5 、样本含量是 25 的这个
样本是从总体均数为 72 的总体中随机抽取
得到的,而 72 与 74.8 之间的差异是由于
抽样造成的.
95
与无效假设相对的是备择假设,这里的
备择假设是该地区成年健康男子每分钟的
脉搏数确实异于一般情况.
96
当在无效假设的前提下,发生了小概率
事件,那么就拒绝无效假设,也就接受了
备择假设.
97
98
99
100
101
102
103
2 .总体均数假设检验的 R 软件操作
总体均数的假设检验一般选择与例 4 类似
的 t 检验, R 软件中 t 检验函数是 t.test( ) ,
该命令的操作常见格式如下:
t.test(x , y , mu = 0 , var.equal = FALSE , conf.level = 0.9
5)
104
其中, x 与 y 是存放样本数据的向量,如果只
有 x没有 y ,则作一个样本均数的 t 检验,否则
作两个样本均数差异的 t 检验, mu 是样本要与之
比较的总体均数,默认是 0 , var.equal 用以指明
两个样本方差是否齐,默认是不齐, conf.level 是
置信度,默认是 0.95 ,此时检验水平是 0.05余类
推.该命令还可作为总体均数的区间估计用.
105
106
107
软件输出是:
One Sample t-test
data: x
t = -3.4783, df = 19, p-value = 0.002516
alternative hypothesis: true mean is not equal to 225
95 percent confidence interval:
172.3827 211.9173
sample estimates:
mean of x
192.15
108
109
例5 (配对资料的 t 检验)为研究某铁剂治疗和饮食治疗营养性缺铁性贫血的效果,将 16名患者按年龄、体重、病程和病情相近的原则配成 8 对,分别使用饮食疗法和补充铁剂治疗的方法, 3 个星期后测得两种患者血红蛋白如下表所示,问两种方法治疗后的患者血红蛋白有无差异?
配对号 1 2 3 4 5 6 7 8
铁剂治疗 113 120 138 120 100 118 138 123
饮食治疗 138 116 125 136 110 132 130 110
110
该题的 R 操作是 > x=c(113, 120, 138, 120, 100, 118, 138, 123)
> y=c(138, 116, 125, 136, 110, 132, 130, 110)
> d=x-y
> t.test(d)
或者 > t.test(x-y)
111
软件输出是: One Sample t-test
data: d
t = -0.6513, df = 7, p-value = 0.5357
alternative hypothesis: true mean is not equal to 0
95 percent confidence interval:
-15.62889 8.87889
sample estimates:
mean of x
-3.375
112
结果表现,原假设即无效假设成立的条件下,发生了概率是 0. 5357 的事件,这不是一个小概率事件,于是,没有理由拒绝无效假设,不认为两种疗法治疗后的营养性缺铁性贫血患者的治疗后的血红蛋白有差异.
113
例 6 ( 样本均数与样本均数差异的 t 检验 ) 某克山病区测得 11例急性克山病患者与 13名健康人的血磷值(mg%)如下,问该地区急性克山病患者与健康人的血磷值是否不同?
患者: 2.60, 3.24, 3.73, 3.73, 4.32, 4.73, 5.18, 5.58,
5.78, 6.40, 6.53
健康人: 1.67, 1.98, 1.98, 2.33, 2.34, 2.50, 3.60, 3.73,
4.14, 4.17, 4.57, 4.82, 5.78
114
该题的 R 操作是
> x=c(2.60,3.24,……,6.40,6.53)
> y=c(1.67,1.98,……,4.82,5.78)
> t.test(x,y,var.equal = T)
115
软件输出是: Two Sample t-test
data: x and y
t = 2.5394, df = 22, p-value = 0.01868
alternative hypothesis: true difference in means is not equal to 0
95 percent confidence interval:
0.2486260 2.4639614
sample estimates:
mean of x mean of y
4.710909 3.354615
116
结果表现,原假设即无效假设成立的条件下,发生了概率是 0.01893 的小概率事件,于是,拒绝无效假设,接受备择假设,认为该地区急性克山病患者与健康人的血磷值具有显著性差异,顺便说一句,该统计结论成立的概率是 1-0.01893 ,而错误的概率是 0.01893 .
117
这里选择的是认为两个样本方差齐.两
个样本方差一个是 1.698 ,另一个是 1.701 ,
有差异,但它们的差异是由于抽样的原因
(方差齐),还是其它原因(方差不齐),
要通过方差齐性检验确定.
118
5-2-4 两个样本的方差齐性检验
119
120
121
122
123
124
5-2-5 正态性检验
一组计量资料是否来源于一个正态总体,
从分布直方图中只能得到一个大概的映象,
更进一步的推断则需要进行假设检验.统
计学中正态性检验的方法很多,这里仅介
绍一种——正态性 W 检验方法.
125
利用 Shapiro-Wilk(夏皮罗 -威尔克)W 统计量作的正态性检验,又称为 W
检验.命令函数是 shapiro.test( ) .
在上一个章节的例 1 中, 110名身高数据是否来自于一个正态总体,检验如下:
> x=c(118.1,108.2,118.9,……,116.8)
> shapiro.test(x)
126
软件输出是
Shapiro-Wilk normality test
data: z
W = 0.9931, p-value = 0.8592
结果显示, W 统计量是 0.9931 ,概率 p 值是 0.8592>0.05 ,故认为数据来源于一个正态总体.
127
再如: > x=c(1:100) ;x
[1] 1 2 3 4 5 6 7 8 9 10 11 12 13 [14] 14 15 16 17 18 19 20 21 22 23 24 25 26 [27] 27 28 29 30 31 32 33 34 35 36 37 38 39 [40] 40 41 42 43 44 45 46 47 48 49 50 51 52 [53] 53 54 55 56 57 58 59 60 61 62 63 64 65 [66] 66 67 68 69 70 71 72 73 74 75 76 77 78 [79] 79 80 81 82 83 84 85 86 87 88 89 90 91 [92] 92 93 94 95 96 97 98 99 100
> shapiro.test(x)
128
软件输出是: Shapiro-Wilk normality test
data: x
W = 0.9547, p-value = 0.001722
此时,概率值是 0.001722<0.05 .这里命令 x=c(1:100) 的功能是形成一个 1 到 100这 100 个自然数向量,显然是均匀分布,而不是正态分布.
129
5-2-5 假设检验的两种错误
在假设检验的过程中,有时会犯两种类型的错误,一种错误是无效假设确实正确,但却拒绝了无效假设,这种错误称为失真,失真的概率失真的概率等于 R 软件输出的假设检验概率,一般小于检验标准;另一种错误是无效假设确实是错误的,却没有拒绝,这种错误称为存伪 .
130
存伪的概率与失真的概率是相关联的.将检验标准取得很小,减小了失真的概率,但同时必然会增加存伪的概率,检验标准取得较大,可以减小存伪的概率,但同时又必然会增加失真的概率.同时减少两种错误的概率,只有一个方法,那就是增加样本含量.
131
5-3 品质数据与等级数据的 统计描述与假设检验5-3-1 品质数据的统计描述
在某统计总体中,对观察单位诸如“性别”之类的品质属性的处理,往往是分类计数,即列举该品质属性的所有可能的表现值并归类计数,然后按下式计算某属性表现概率,简称为率.
132
现概率总体中某品质属性的表
%100统计总体观察单位总数
察单位数具有某种属性表现的观
133
比如,在研究新疆维吾尔族自治区人口
的民族组成时,该自治区的所有在籍人口
构成统计总体,品质属性标识是“民族”,
如果要考察新疆哈萨克族人群规模,那么
有
134
%100”“
新疆总人口数
人口数哈萨克族新疆
的概率哈萨克族属性是民族新疆人 ”“”“
135
如果统计总体的某品质属性只有两种表现值,那么针对该品质属性而言,该统计总体是一个二项总体.在统计总体总量非常大的情况下,对该总体的 n次随机观察(也就是从该总体随机抽取样本含量为 n
的样本),可看成 n 重贝努里试验.
136
如果统计总体的某品质属性有不止两种表现值,那么针对该品质属性某一表现值,也可将该统计总体看成一个二项总体.如“户籍”属性的“北京”与“非北京”,“血型”属性的“ A 型”与“非 A 型”等等.
对于等级属性,也可针对某一等级的值,将问题归为二项分布问题.
137
设有一个二项总体,某品质属性的表现
概率记为 π ,多数性况下,总体概率常常
是未知的,统计学的做法是从该总体中抽
取一个样本,算得样本率,记之为 p ,并
用样本率 p 作为总体概率的估计值,这就
是总体率的点估计.
138
从一个样本所包含的信息中,除了能
得到总体率的点估计值外,能否得到总体
率的 95% 或 99% 的区间估计呢?同时能
否进行总体率与样本率之间差别的假设检
验呢?答案是肯定的,具体理论阐述不再
涉及,这里只介绍 R 软件的操作.
139
5-3-2 总体率的区间估计与假设检验
二总体率的区间估计与假设检验函数是binom.test( ) ,具体格式如下:
binom.test(x, n, p = 0.5,conf.level = 0.95)
其中 x 是表现次数, n 是观察次数, p 是原假设的概率,默认是 0.5 , conf.level 是置信度默认是 0.95 .
140
例 1 有一批蔬菜种子的平均发芽率是 0.8
5 ,现随机抽取 500粒,用某种试剂作浸种处理,结果有 445粒发芽,试问这种处理方法对发芽率有无影响?
在 R 软件中执行命令
> binom.test(445,500,p=0.85)
141
软件输出是 Exact binomial test
data: 445 and 500
number of successes = 445, number of trials = 500, p_value = 0.01207
alternative hypothesis: true probability of success is not equal to 0.85
95 percent confidence interval:
0.8592342 0.9160509
sample estimates:
probability of success
0.89
142
结果显示,假设检验概率值是 0.01207 ,
按 0.05 的检验水准,拒绝无效假设,接受
备择假设,认为这种处理方法对发芽率有
影响,点估计值是 0.89 ,大于 0.85 ,可认
为使用该试剂作浸种处理可提高了发芽率.
143
例 2 如何估计某一鱼塘中的鱼有多少尾?
一般的做法是:首先从鱼塘中打一网鱼,假设计数有 100尾,做上记号,放回鱼塘,再打一网鱼,假设计数 120尾,其中有 8尾是有记号的,则使用 R 软件作全塘鱼记号表现率的区间估计如下:
> binom.test(8,120)
144
结果显示: Exact binomial test
data: 8 and 120
number of successes = 8, number of trials = 120, p_value < 2.2e-16
alternative hypothesis: true probability of success is not equal to 0.5
95 percent confidence interval:
0.02921918 0.12713675
sample estimates:
probability of success
0.06666667
145
在结果显示中,其它数据没有价值,用
记号表现计数 100除以 95% 的区间估计端
点 0.02921918 与 0.12713675 ,得到该鱼塘
中总尾数 95% 的区间估计,计算结果是 78
7至 3422 .
146
5-3-3 四格表资料的假设检验 假设有两个计数样本,其具体数据形式如下表格所示
阴性 阳性 合计 阳性率
样本一 a b a+b p1=b/(a+b)
样本二 c d c+d p2=d/(c+d)
合计 a+c b+d a+b+c+d —
147
试问,这两个样本是来源于同一个总体,
还是来源于不同的总体.换言之,这两个
样本率之间的差别有无统计意义?
148
上述形式的数据,其原始数据就是图中
所示的两行两列的四个数据,所以,称这
种资料为四格表资料.四格表资料假设检
验的 R 操作可使用命令函数 chisq.test( )
(卡方检验),也可使用命令函数 fisher.te
st( )(费舍尔检验).
149
chisq.test( ) 常用格式如下:
chisq.test(x, correct = TRUE)
其中, x 是存在四格表原始数据的 2 行
2 列矩阵,参数 correct 用于指明是否校正,
默认做法是校正.何时校正,何时不校正,
理论上迄今仍然没有一个统一的说法 .
150
一般认为 n= a+b+c+d >40且所有格子理论频数(某格的理论频数下面在例 3 中解释)均大于 1 时,才可选择命令函数 chis
q.test( ) .当所有格子的理论频数均大于 5
时不需校正,如果有某格的理论频数处于 1
与 5 之间,则应选择校正.
151
当条件 n= a+b+c+d >40 与所有格子理论频数均大于 1这两个条件有一个不满足时,应该使用命令函数 fisher.test( ) , fishe
r.test( ) 的常用格式如下:fisher.test(x, conf.level = 0.95)
其中, x 是存在四格表原始数据的 2 行2 列矩阵,参数 conf.level 用以指定置信水平,默认是 0.95 .
152
例 3 为研究吸烟人群与不吸人群的肺癌患病率是否不同,调查了 63名肺癌患者与 43名非肺癌患者是否吸烟的情况,资料如下表
患肺癌 未患肺癌 合计
吸烟 60( 54.68) 32( 37.32) 92
不吸烟 3( 8.32) 11( 5.68) 14
合计 63 43 106
153
无效假设认为吸烟人群与不吸人群的
肺癌患病率没有不同,因而可计算受调查
的 106人的合计阳性是 63/106=59.43% ,
故 92名吸烟者中患肺癌的理论频数是 92×
59.43%=54.68 ,余类推.
154
观察可知,四个格子的理论频数均大于 5 ,故采用未校正的卡方检验如下:
> x=c(60,3,32,11)
> dim(x)=c(2,2)
> chisq.test(x,correct=FALSE)
其中命令 dim(x)=c(2,2) 的作用是将 x 变成按列排列的 2 行 2 列矩阵 .
155
显示结果: Pearson's Chi-squared test
data: x
x-squared = 9.6636, df = 1, p-value = 0.001880
结果表明,概率值是 0.001880 ,按 0.0
5 检验水平,拒绝无效假设,认为吸烟人群与不吸人群的肺癌患病率不同,或者说,吸烟与患肺癌有关.
156
例 4 为比较两种工艺对产品质量是否有影响,对其产品进行抽样检查,其结果如下表所示,试进行分析.
合格 不合格 合计
工艺一 3 4 7
工艺二 6 4 10
合计 9 8 17
157
这是一个小样本的情况,总例数 17<40 ,
故采用费舍尔精确检验如下:
> x=c(3,6,4,4)
> dim(x)=c(2,2)
> fisher.test(x)
158
显示结果是: Fisher's Exact Test for Count Data data: x p-value = 0.6372 alternative hypothesis: true odds ratio is not equal
to 1 95 percent confidence interval: 0.04624382 5.13272210 sample estimates: odds ratio 0.521271
159
结果表明,假设检验概率是 0.6372 ,不拒绝无效假设,不能认为两种工艺对产品质量有影响.最后指出:如果对不符合卡方检验的资料用卡方检验或者应该使用校正的卡方检验时而使用了未校正的卡方检验,那么 R 软件将在输出结果的同时给出一个警告.
160
5-3-4 列联表资料的假设检验
四格表资料只有 2 行 2 列,如果原始数据的行数或列数大于 2 时,那么称之为行 ×
列表或列联表资料.列联表资料的假设检验与四格表资料的假设检验完全类似,用于多个样本率的比较.
161
例5 在一次社会调查中,以问卷的方式调查了
总共 901人的年收入及对工作的满意程度,其中
年收入(记该因素为 A)分为小于 12000 元、 12
000~30000 元、 30000 元 ~50000 元及超过 50000
元共 4档.对工作的满意程度(记该因素为 B)
分为很不满意、较不满意、基本满意、很满意共
4档.调查结果用 4×4 列联表表示如后
162
收入分组 很不满意 较不满意 基本满意 很满意 合计
<12000 20 24 80 82 206
12000~30000 22 38 104 125 289
30000~50000 13 28 81 113 235
>50000 7 18 54 92 171
合计 62 108 319 412 901
163
> x=c(20,22,13,7,24,38,28,18,80,104,81,54,82,125,113,92)
> dim(x)=c(4,4)
> chisq.test(x)
Pearson's Chi-squared test
data: x
X-squared = 11.9886, df = 9, p-value = 0.2140
假设检验概率是 0.2140 ,大于 0.05 ,不拒绝无效假设,
不能认为年收入与工作满意度有关.
164
例 6 在某中学高中一年级男生中抽取 300
名考察其两个属性:一个是 1500米长跑,
另一个是平均每天锻炼时间,得到如下的 4
×3 列联表资料,试问,平均每天锻炼时间
与 1500米长跑成绩是否有关.
165
1500米长跑成绩
每天锻炼时间合计
2小时以上 1~2小时 1小时以下
5’00’’~ 45 12 10 67
5’30’’~ 46 20 28 94
6’00’’~ 28 23 30 81
6’30’’~ 11 12 35 58
合计 130 67 103 300
166
> x=c(45,46,28,11,12,20,23,12,10,28,30,35)
> dim(x)=c(4,3)
> chisq.test(x)
Pearson's Chi-squared test
data: x
X-squared = 40.401, df = 6, p-value = 3.799e-07
结果显示,假设检验概率值是 3.799×4-7 ,远小于 0.05 ,故认为平均每天锻炼时间与 1500
米长跑成绩有关.