等级资料常用检等级资料常用检验方法验方法
临床流行病学应用研究室 周罗晶
在医学资料中,特别是临床医学资料中,常常遇到一些定性指标,如临床疗效的评价、疾病的临床分期、症状严重程度的临床分级、中医诊断的一些临床症状等,对这些指标常采用分成若干等级然后分类计数的办法来解决它的量化问题,这样的资料我们在统计学上称为有序变量( ordered variable )或半定量资料,也称为等级资料( ranked data )。
等级资料定义:
等级资料划分的两种情况:
特点:观察结果具有等级差别。
按性质划分:如药物疗效分为痊愈、显效、好转、无效;麻醉效果分为Ⅰ、Ⅱ、Ⅲ、Ⅳ级等。按数量分组:数据两端不能确切测定的计量资料。如抗体滴度分为 >1:20,1:20,1:40,1:80,<1:80;年龄分为 <10,10~, 20~,40~,≥60 等。
?等级资料的分析方法是否和一般计数资料的检验方法相同呢?
等级资料的分析应该选用什么方法?
实例 1 考察硝苯地平治疗老年性支气管炎的疗效,治疗组 60 人,用硝苯地平治疗,对照组 58 人,常规治疗,两组患者的性别、年龄、病程无显著性差异,治疗结果见表 1 。
表 1 治疗组与对照组疗效比较
例 数 百分比(%) 组别 例数
无效 有效 显效 无效 有效 显效
治疗组 60 6 19 35 10.00 31.67 58.33
对照组 58 14 20 24 24.14 34.48 41.38
在变量窗口“ variable view” 中设定变量 在数据窗口“ data view”中录入数据 使用“ Weight Cases” 过程权重记录 SPSS 软件默认一行就是一条记录,而我们是以频数格式录入数据,即相同的观测值只录入一次,另加一个频数变量( count )用于记录该数值共出现的次数。因此我们使用此过程:
1 、建立数据库
2 、卡方检验分析结果:
Value df Asymp. Sig.
(2-sided)
Pearson Chi-Square 5.244 2 .073
Likelihood Ratio 5.346 2 .069
Linear-by-Linear
Association 5.046 1 .025
N of Valid Cases 118
两组疗效的构成百分比差异无统计学意义。
两组的疗效无差别。
结论:
( ×)
一般的 χ2 检验不适用于有序分类资料——“等级”、“程度”、“优劣”的比较分析。因为检验只利用了两组构成比提供的信息,损失了有序指标包含的“等级”信息。
注意:注意:
例如,假定两组的显效例数和有效例数互换,见表2。
表 2 治疗组与对照组疗效比较
例 数 百分比(%) 组别 例数
无效 有效 显效 无效 有效 显效
治疗组 60 6 35 19 10.00 58.33 31.67
对照组 58 14 24 20 24.14 41.38 34.48
显然,两组反映的信息是不同的,但由于两组的结构百分比无变化(仅仅是位置不同),不改变检验结果。( χ2=5.224 , P>0.05 )
等级资料正确的统计分析方法:
非参数统计的秩和检验 Kendall 、 spearman 等级相关 CMH 卡方检验 Ridit 分析 线性趋势卡方检验 有序变量的 Logistic 回归分析
一、非参秩和检验
由于非参数检验法不考虑数据的分布规律,检验不涉及总体参数,检验统计量多是人们在总结经验的基础上创造出来的,所以这类检验方法的特点是针对性强。但是不同设计、不同目的所用的非参数检验法是不同的。
单向有序行列表
在表的两个方向上的分类中,一个方向(横向)无顺序和等级概念,另一个方向(纵向)是有顺序的分类,称为单向有序行列表。
a.两组独立样本等级资料比较的 Mann- Whitney 秩和检验
以表 1为例。将无效、有效、显效三个疗效等级数量化,数值用平均秩号,然后比较各组平均秩号的大小。
治疗组 对照组 合计 秩次范围 平均秩次
无效 6 14 20 1-20 10.5
有效 19 20 39 21-59 40
显效 35 24 59 60-118 89
合计 60 58 118
两组的平均秩号分别为:
治疗组: R1= (6×10.5+19×40+35×89)/60 =65.6
对照组: R2=( 14×10.5+20×40+24×89) /58=53.1
经秩和检验, u=2.169, P<0.05,两组疗效差异有统计学意义,因为治疗组平均秩号大于对照组,所以治疗组疗效好。
计算两组秩号并进行秩和检验
Analyze —— Nonparametric Tests —— 2 independent Samples —— Test variable List : result —— Grouping variable : group —— Define groups : group1 : 1 ; group2 : 2 ,—— Test Type : Mann-Whitney —— OK
SPSS 窗口操作过程:
Ranks
GROUP N Mean Rank Sum of
Ranks
RESULT 1 60 65.63 3938.00
2 58 53.16 3083.00
Total 118
分析结果:
Test Statistics
RESULT
Mann-Whitney U 1372.000
Wilcoxon W 3083.000
Z -2.169
Asymp. Sig. (2-tailed) .030
结论:两组疗效差异有统计学意义,且治疗组效果好于对照组。
μ=-2.169 , P<0.05
同样方法,对表 2 数据进行秩和检验,结果如下:
GROUP N Mean Rank Sum of Ranks
RESULT 1 60 61.57 3694.00
2 58 57.36 3327.00
Total 118
Test Statistics
RESULT
Mann-Whitney U 1616.000
Wilcoxon W 3327.000
Z -.731
Asymp. Sig. (2-tailed) .465
μ=0.731 , P>0.05
结论:两组疗效差异没有统计学意义。
b.两组配对样本等级资料比较的 Wilcoxon 秩和检验
c. 多组等级资料比较的 Kruskal-Wallis 秩和检验
该方法对 K (K>2)组独立样本进行 K个总体分布函数相同假设的检验,是在 Wilcoxon 秩和检验基础上扩展的方法,称为K-W 检验。
例 2 对 54 例牙病患者的 64 颗患牙的根端形态不同分为 3 种, X 线片显示喇叭口状为 A 型,管壁平行状为 B 型,管壁由聚状为 C 型
表 3 不同根端形态分型的疗效比较
根端形态 牙数 成功 进步 失败
A型 18 3 9 6
B型 24 10 10 4
C型 22 10 11 1
合计 64 23 30 11
比较不同根端形态患牙的疗效有否差别。
1 、建立数据库
1.1 定义变量 group: 1 A 型 2 B 型 3 C型
result: 1 成功 2 进步 3 失败
count: 例数
1.2 录入数据
1.3 权重频数
SPSS 软件操作步骤:
Analyze —— Nonparametric Tests —— K independent Samples —— Test variable List : result —— Grouping variable : group —— Define range : minimum : 1 ; maximum : 3—— Continue —— Test Type : Kruskal-Wallis H——OK
2 、分析:
3 、结果
Ranks
GROUP N Mean Rank
RESULT 1 18 40.92
2 24 30.88
3 22 27.39
Total 64
Test Statistics
RESULT
Chi-Square 6.528
df 2
Asymp. Sig. .038
结论:按 α=0.05的检验水平,三组间差异有统计学意义。
H =6.528 , P =0.038
计算结果中显示的 χ2 值并不是 χ2
检验,只是 Kruskal-Wallis Test 的检验统计量 H ,此时近似 χ2 分布,所以按 χ2 分布的近似值来确定概率,它的自由度 υ = 组数 -1 。
注意:注意:
双向有序资料行列表—— Kendall 等级相关法和 Spearman 等级相关分析法
例 3 某病病情与疗效的关系
表 4 某病病情与疗效的关系(1)
病 情 疗效
极重 重 中 轻
恶化 30 20 20 10
无效 20 30 10 20
有效 10 10 30 30
表 5 某病病情与疗效的关系(2)
病 情 疗效
极重 重 中 轻
恶化 20 20 30 10
无效 10 30 20 20
有效 30 10 10 30
两表的区别仅在于病情“极重”组和“中”组的数据进行了互换。
分别对上面两个表格数据进行 χ2 检验和多组等级资料比较的 Kruskal-Wallis 秩和检验。
对于表 4 :
χ2=40.000 , P=0.000
H=24.896 , P=0.000
对于表 5 :
χ2=40.000 , P=0.000
H=24.896 , P=0.000
两种检验都无法表达表4 和表 5 的差别,直观地看,表 4的资料显示病情越轻者疗效越好,表 5却未显示这种趋势来。
此时我们选用 Kendall 和 Spearman 等级相关分析法分别计算相关系数 t和 rs 。
计算公式:
m
mn
S
1
2
2
t = n :总例数 m :最长对角线上的格子数 S :专用统计量
Kendall 等级相关意义:当一个变量的等级为标准时,另一个变量的等级与它不一致的情况(可分析两个以及多个变量间的等级相关性)。
rs = 1- )1(
6 2
nn
d n :总例数
d :每一对值的等级差
Spearman 等级相关意义:两个变量之间的等级相关性。
(只适用于分析两个变量关系)
Spearman 等级相关公式:
1. 建立数据库2. 录入数据3. 权重频数4.界面操作(以表 4 为例):Analyze —— Correlate —— Bivariate
——Row(s) :疗效 —— Column(s) :病情 —— Statistics —— Kendall’s tau-b
, Spearman—— OK
SPSSSPSS 操作演示:操作演示:
病情 疗效
Correlation Coefficient
1.000 .275
Sig. (2-tailed) . .000 病情
N 240 240 Correlation Coefficient
.275 1.000
Sig. (2-tailed) .000 .
Kendall's tau_b
疗效
N 240 240 Correlation Coefficient
1.000 .320
Sig. (2-tailed) . .000 病情
N 240 240 Correlation Coefficient
.320 1.000
Sig. (2-tailed) .000 .
Spearman's rho
疗效
N 240 240
表 4 检验结果:
病情 疗效 Correlation Coefficient
1.000 .039
Sig. (2-tailed) . .480 病情
N 240 240 Correlation Coefficient
.039 1.000
Sig. (2-tailed) .480 .
Kendall's tau_b
疗效
N 240 240 Correlation Coefficient
1.000 .046
Sig. (2-tailed) . .482 病情
N 240 240 Correlation Coefficient
.046 1.000
Sig. (2-tailed) .482 .
Spearman's rho
疗效
N 240 240
表 5 检验结果:
重复测量等级资料时间趋势检验 —— CMH卡方检验
实例 4 在某药治疗闭塞性动脉炎的临床试验中 ,治疗 26 例下肢溃疡的病人溃疡改善情况见表 6 ,评价该药有无促进溃疡愈合的作用。
表 6 溃疡改善程度(例数)
溃疡改善程度 第 1周 第 2周 第 3周
溃疡面积不变 14 12 7
≤溃疡面积缩小 20% 2 4 5
溃疡面积缩小 20%~50% 8 7 6
≥溃疡面积缩小 50% 2 3 6
完全治愈 0 0 2
合计 26 26 26
本例特点: 1.个体的重复测量
2.溃疡随时间的变化趋势
CMH卡方检验 , Cochran-Mantel-Hans
el 检验简称 ,包括非零相关、行平分差和一
般联系 3 种检验方法。对于这种重复测量的等
级变量 ,行列变量均为等级变量 ,应该作非零
相关检验。本方法仅限于检验线性趋势。
计算公式:
Qcs =
c
jjai
r
iicj
r
i
c
jijaici
nuanuc
nuaucn
1
2
1
2
2
1 1
)1(
结果: χ2 = 4.7424 , P = 0.0294
结论:溃疡改善程度随着治疗时间延长有变好的趋势。
多组等级资料的两两比较—— Ridit 分析
Ridit 是“ Relative to an identified distribution integral transformation” 的首个字母缩写,意指对于一个确认的分布作积分变换。 Ridit 分析是一种关于等级资料进行对比组与标准组比较的假设检验方法,其基本思想是先确定一个标准组作为特定总体,求得各等级的 Ridit 值,标准组平均Ridit 值理论上可以证明等于 0.5 ,其他各组与标准组比较,看其可信区间是否与 0.5 重叠,来判断组间的统计学显著性,最后得出专业解释。
Ridit 分析适用范围:
1. 两组或两组以上等级资料的比较和分析
2. 两端数据不确切的计量资料分组转换成计数资料的分析,如血清滴度等。
特点:简便、直观、适用性广。
RiditRidit 分析关键步骤:分析关键步骤:
一、确定标准组:
1.利用已知的标准分布(传统方法)作为标准组。如某药物大规模的观察研究结果,计算不同疗效的 R值。
2. 以例数最多的一组作为标准组。
3.各组的例数都差不多时,可把各组观察结果合并起来作为标准组。
二、计算标准组的 Ridit 值:
三、利用对照组计算各组的平均R值
四、置信区间判断
五、统计检验 : u 检验、 t 检验、 χ2 检验
RiditRidit 分析关键步骤:分析关键步骤:
RiditRidit 分析(实例分析(实例 5 5 ):):
糖衣 黄体酮 复方 合计
无效 48 5 13 66
好转 184 16 36 126
显效 77 18 11 106
控制 52 19 17 88
合计 361 58 77 496
表 7 三种方剂对某妇科病患者治疗效果比较
PEM3.1 操作过程:
1. 建立数据库
1.1 定义变量名
1.2 录入数据
2.界面操作:
其他统计分析 —— Ridit 分析 —— 分析目的:多个样本比较 —— 分组变量:分组 —— 类别变量 :类别 —— 频数变量:例数 —— 确定
主要结果:
检验水准 : α=0.05
选用同一参照组 ( 各样本合计为参照组 )
样本数 k=3
等 级 数 : 4
主要结果:
参照组各等级 R 值的计算
等级
(1)
频数
(2)
(2)/2
(3)
(2)累
计
(4)
(3)+(4)
移下一行
(5)
R=(5)/N
(6)
1 66 33 0 33 0.0665
2 236 118 66 184 0.3710
3 106 53 302 355 0.7157
4 88 44 408 452 0.9113
各样本平均 R─────────────────── 样本名 频数合计 平均R ─────────────────── 第 1 组 361 0.4819 第 2 组 58 0.6287 第 3 组 77 0.4881───────────────────
主要结果:
卡方检验 : 卡方值 = 13.0887 自由度 v= 3 概 率 P= 0.0044 结论:三种药物对妇科病的疗效差异有统计 学意义。
主要结果:
三者之间究竟有何种差异呢?三者之间究竟有何种差异呢?
1.标准组平均R值 : = 248.00/496 =0.5 2.标准组方差、标准差的计算:
1
2
2
2
nn
fRfR
SR
2RR SS
标准组 f R fR fR2 无效 66 0.0665 4.39 0.29 好转 236 0.3710 87.56 32.48 显效 106 0.7157 75.86 54.30 控制 88 0.9113 80.19 73.08 合计 496 248.00 160.15
方差 = [160.16 – 248^2/496]/( 496-1 ) = 0.0730
标准差 = 0.2702
标准组方差、标准差的计算
对比组平均 R 值
糖衣 黄体酮 复方 合计
无效 48 5 13 66
好转 184 16 36 126
显效 77 18 11 106
控制 52 19 17 88
合计 361 58 77 496
n
fRR
糖衣组 =
= 0.4819
黄体酮组 = 0.6287
复方组 = 0.4881
527718448
9113.0527157.0773710.01840665.048
如果等级是由劣到优的顺序排列,则平均 Ridit 值越大越好,否则越小越好。但我们不能单纯以各组平均 Ridit值的大小来判断各组的差异,因为 Ridit 值是一个点估计,没有考虑抽样误差,而样本正好等于总体指标的可能性很小,因此应该结合可信区间或统计检验方法综合判断。
注意:
计算对比组可信区间
n
SS R
R
RSR 2
对比组标准误:
对比组 95%可信区间:
计算对比组 95%CI 并进行判断
糖衣组 95%CI: 0.4534~0.5103
黄体酮组 95%CI : 0.5578~0.6997
复方组 95%CI: 0.4265~0.5497判断:通过可信区间比较对比组与标准组的差别。看对比组 95% 可信区间是否包括标准组 Ridit 值( 0.5),不包括,则 P<0.05,差别有统计学意义。否则反之。
1 图 不 同 方 剂 对 妇 科 病 疗 效 比 较
糖衣
黄体酮
复方
0 . 0
0 . 5
1 . 0
Ridi
t值
对比组 95%CI图
标准组
多个对比组的两两比较
21
212
21
22
21
21
nn
nnS
RR
SS
RRu
RRR
21
21
2,1
12
1
12
1
NN
RRU
统计界限: u<1.96,P>0.05,差异无统计意义
u≥1.96,P≤0.05,差异有统计意义
u≥2.58,P≤0.01,差异有统计意义
u 1,2 =3.84, u 1,3=0.18, u 2,3 =2.99
小 结