多元统计分析
-
Upload
jeremy-caldwell -
Category
Documents
-
view
104 -
download
0
description
Transcript of 多元统计分析
![Page 1: 多元统计分析](https://reader035.fdocument.pub/reader035/viewer/2022082201/56812d68550346895d9278aa/html5/thumbnails/1.jpg)
23/4/19 1
多元统计分析
暨南大学统计系 王斌会
Discriminant Analysis
-判别分析判别分析
![Page 2: 多元统计分析](https://reader035.fdocument.pub/reader035/viewer/2022082201/56812d68550346895d9278aa/html5/thumbnails/2.jpg)
判别分析 判别分析是多元数据分析的重要方法之一,
本章主要讨论利用软件技术快速、有效地进行个案判别的方法和一般步骤。其中包括:
1 .判别分析的基本思想 2 .判别分析的过程 3 . SPSS 的判别分析 4 .判别分析的结果评述 5 .应用判别分析
![Page 3: 多元统计分析](https://reader035.fdocument.pub/reader035/viewer/2022082201/56812d68550346895d9278aa/html5/thumbnails/3.jpg)
判别分析 判别分析的目的是对已知分类的数据
建立由数值指标构成的分类规则,然后把这样的规则应用到未知分类的样本中去分类。例如,我们有了患胃炎的病人和健康人的一些化验指标,就可以从这些化验指标发现两类人的区别。把这种区别表示为一个判别公式,然后对怀疑患胃炎的人就可以根据其化验指标用判别公式诊断。
![Page 4: 多元统计分析](https://reader035.fdocument.pub/reader035/viewer/2022082201/56812d68550346895d9278aa/html5/thumbnails/4.jpg)
SPSS 的 Discriminant 过程 Discriminant 过程根据已知的观测量分类和表明观
测量特征的变量值推导出判别函数,并把各观测量的自变量值代入到判别函数中,根据判别函数对观测量所属类别进行判别。对比原始数据的分类和按判别函数所判内分类,给出错分概率。
Discriminant 过程的大部分功能都可以通过对话框来指定,还有一些功能可以在 Syntax 夜中给予补充或修改。例如,指定各类的先验概率;显示旋转方式和结构矩阵;限制提取的判别函数的数目;读取一个相关矩阵;分析后把相关矩阵写入文件;指定对参与分析的观测量进行回代分类,对没有参与分析的观测量进行预测分类等。
![Page 5: 多元统计分析](https://reader035.fdocument.pub/reader035/viewer/2022082201/56812d68550346895d9278aa/html5/thumbnails/5.jpg)
判别分析的方法与模型 判别分析的方法有参数方法和非参数方法。参数方法
假定每个类的观测来自(多元)正态分布总体,各类的分布的均值(中心)可以不同。非参数方法不要求知道各类所来自总体的分布,它对每一类使用非参数方法估计该类的分布密度,然后据此建立判别规则。
用数学的语言来说,判别问题可以表述为:对于 m类总体 G1 , G2 ,……, Gm ,其分布函数分别为 f1(y), f2(y) ,…… fm(y) ,对于一个给定样品 y ,我们要判断出这个样本来自哪个总体。判别分析的主要问题就是如何寻找最佳的判别函数和建立判别规则。
![Page 6: 多元统计分析](https://reader035.fdocument.pub/reader035/viewer/2022082201/56812d68550346895d9278aa/html5/thumbnails/6.jpg)
判别函数 从研究角度考虑,我们可以把判别函数分为两大类,最佳
型判别函数和固定型判别函数,一个最佳型的判别函数仅根据所采用的判别规则而定,而固定型判别函数的形式是由经验或部分经验选定的,所用的规则仅用来确定判别函数的未知参数。
就函数类型而言,一般的判别函数有两类,即线性函数和非线性函数。比如,对于固定型判别函数,我们可以将其表示为:
在求判别函数的未知参数 Ci 时,可由各种各样的最优规则,常用的有 Fisher 准则、 Bayes 准则、最小二乘准则等。
n
kkknnN XCXCXCXCXXXfy
1221121 ),,,(
![Page 7: 多元统计分析](https://reader035.fdocument.pub/reader035/viewer/2022082201/56812d68550346895d9278aa/html5/thumbnails/7.jpg)
SPSS 的判别分析方法
为研究舒张期血压和血浆胆固醇对冠心病的作用,某医院测定了 50-59 岁冠心病人 15 例和正常人 16 例的舒张压和胆固醇指标,结果如下,试作判别分析,建立判别函数以便在临床中用于筛选冠心病人。
![Page 8: 多元统计分析](https://reader035.fdocument.pub/reader035/viewer/2022082201/56812d68550346895d9278aa/html5/thumbnails/8.jpg)
简单的评论
![Page 9: 多元统计分析](https://reader035.fdocument.pub/reader035/viewer/2022082201/56812d68550346895d9278aa/html5/thumbnails/9.jpg)
判别分析过程 单击 Analyze 菜单选 Classify 中的 Discriminant...
项,弹出 Discriminant Analysis 对话框。从对话框左侧的变量列表中选“指标”,点击钮使之进入 Grouping Variable 框,并点击 Define Range... 钮,在弹出的 Discriminant Analysis:Define Range 对话框中,定义判别原始数据的类别区间,本例为两类,故在Minimum 处输入 1 、在 Maximum 处输入 2 ,点击 Continue 钮返回 Discriminant Analysis 对话框。再从对话框左侧的变量列表中选舒张压、胆固醇,点击钮使之进入 Independents 框,作为判别分析的基础数据变量。
![Page 10: 多元统计分析](https://reader035.fdocument.pub/reader035/viewer/2022082201/56812d68550346895d9278aa/html5/thumbnails/10.jpg)
判别分析的主对话框
![Page 11: 多元统计分析](https://reader035.fdocument.pub/reader035/viewer/2022082201/56812d68550346895d9278aa/html5/thumbnails/11.jpg)
逐步判别主要方法及统计量
![Page 12: 多元统计分析](https://reader035.fdocument.pub/reader035/viewer/2022082201/56812d68550346895d9278aa/html5/thumbnails/12.jpg)
计算结果Analysis Case Processing Summary
31 100.0
0 .0
0 .0
0 .0
0 .031 100.0
Unweighted CasesValid
Missing or out-of-rangegroup codesAt least one missingdiscriminating variableBoth missing orout-of-range groupcodes and at least onemissing discriminatingvariableTotal
Excluded
Total
N Percent
![Page 13: 多元统计分析](https://reader035.fdocument.pub/reader035/viewer/2022082201/56812d68550346895d9278aa/html5/thumbnails/13.jpg)
原始数据统计量表
Group Statistics
15 15.00015 15.00016 16.00016 16.00031 31.00031 31.000
舒张压胆固醇舒张压胆固醇舒张压胆固醇
指标1.00
2.00
Total
Unweighted WeightedValid N (listwise)
![Page 14: 多元统计分析](https://reader035.fdocument.pub/reader035/viewer/2022082201/56812d68550346895d9278aa/html5/thumbnails/14.jpg)
Wilks' Lambda 统计量表
Test of Function(s)
Wilks' Lambda
Chi-square df Sig.
1 .447 22.571 2 .000
![Page 15: 多元统计分析](https://reader035.fdocument.pub/reader035/viewer/2022082201/56812d68550346895d9278aa/html5/thumbnails/15.jpg)
类均值处的线性判别函数
Functions at Group Centroids
1.112-1.042
指标1.002.00
1Function
Unstandardized canonical discriminantfunctions evaluated at group means
![Page 16: 多元统计分析](https://reader035.fdocument.pub/reader035/viewer/2022082201/56812d68550346895d9278aa/html5/thumbnails/16.jpg)
结果分析 用户可通过判别方程的标准化系数,确定各变量对结果的作用大小
。如本例舒张压( X1 )的标准化系数( 0.88431 )大于胆固醇( X2 )的标准化系数( 0.82306 ),因而舒张压对冠心病的影响作用大于胆固醇。考察变量作用大小的另一途径是使用变量与函数间的相关系数,本例显示 X1 的变量与函数间的相关系数为 0.62454 , X2 为0.54396 ,同样表明舒张压对冠心病的影响作用大于胆固醇。根据系统显示的非标准化判别方程系数,得到判别方程为: D = 0.6379195X1 + 0.8001452X2 - 10.7532968 依此方程,病人组的中心得分点为 1.11198 ,正常人组的中心得分点为 -1.04248 。本例为二类判别,二类判别以 0 为分界点,若将某人的舒张压和胆固醇值代入判别方程,求出的判别分 >0 的为冠心病人,判别分 <0 的为正常人。
![Page 17: 多元统计分析](https://reader035.fdocument.pub/reader035/viewer/2022082201/56812d68550346895d9278aa/html5/thumbnails/17.jpg)
小结 判别分析是数据分类的另外一种方法,
是以特征判别函数为主要工具,依照一定的规则判断某个样品的归属的统计分析方法。判别分析的方法有参数方法和非参数方法。参数方法假定每个类的观测来自(多元)正态分布总体,各类的分布的均值(中心)可以不同。非参数方法不要求知道各类所来自总体的分布,它对每一类使用非参数方法估计该类的分布密度,然后据此建立判别规则。判别分析的主要问题就是如何寻找最佳的判别函数和建立判别规则。