多元统计分析

17
22/8/21 1 多多 多多多 暨暨暨暨 暨暨 暨暨暨 Discriminant Analysis 多多多多 多多多多

description

多元统计分析. - 判别分析. 暨南大学统计系 王斌会. Discriminant Analysis. 判别分析. 判别分析是多元数据分析的重要方法之一,本章主要讨论利用软件技术快速、有效地进行个案判别的方法和一般步骤。其中包括: 1 .判别分析的基本思想 2 .判别分析的过程 3 . SPSS 的判别分析 4 .判别分析的结果评述 5 .应用判别分析. 判别分析. - PowerPoint PPT Presentation

Transcript of 多元统计分析

Page 1: 多元统计分析

23/4/19 1

多元统计分析

暨南大学统计系 王斌会

Discriminant Analysis

-判别分析判别分析

Page 2: 多元统计分析

判别分析 判别分析是多元数据分析的重要方法之一,

本章主要讨论利用软件技术快速、有效地进行个案判别的方法和一般步骤。其中包括:

1 .判别分析的基本思想 2 .判别分析的过程 3 . SPSS 的判别分析 4 .判别分析的结果评述 5 .应用判别分析

Page 3: 多元统计分析

判别分析 判别分析的目的是对已知分类的数据

建立由数值指标构成的分类规则,然后把这样的规则应用到未知分类的样本中去分类。例如,我们有了患胃炎的病人和健康人的一些化验指标,就可以从这些化验指标发现两类人的区别。把这种区别表示为一个判别公式,然后对怀疑患胃炎的人就可以根据其化验指标用判别公式诊断。

Page 4: 多元统计分析

SPSS 的 Discriminant 过程 Discriminant 过程根据已知的观测量分类和表明观

测量特征的变量值推导出判别函数,并把各观测量的自变量值代入到判别函数中,根据判别函数对观测量所属类别进行判别。对比原始数据的分类和按判别函数所判内分类,给出错分概率。

Discriminant 过程的大部分功能都可以通过对话框来指定,还有一些功能可以在 Syntax 夜中给予补充或修改。例如,指定各类的先验概率;显示旋转方式和结构矩阵;限制提取的判别函数的数目;读取一个相关矩阵;分析后把相关矩阵写入文件;指定对参与分析的观测量进行回代分类,对没有参与分析的观测量进行预测分类等。

Page 5: 多元统计分析

判别分析的方法与模型 判别分析的方法有参数方法和非参数方法。参数方法

假定每个类的观测来自(多元)正态分布总体,各类的分布的均值(中心)可以不同。非参数方法不要求知道各类所来自总体的分布,它对每一类使用非参数方法估计该类的分布密度,然后据此建立判别规则。

用数学的语言来说,判别问题可以表述为:对于 m类总体 G1 , G2 ,……, Gm ,其分布函数分别为 f1(y), f2(y) ,…… fm(y) ,对于一个给定样品 y ,我们要判断出这个样本来自哪个总体。判别分析的主要问题就是如何寻找最佳的判别函数和建立判别规则。

Page 6: 多元统计分析

判别函数 从研究角度考虑,我们可以把判别函数分为两大类,最佳

型判别函数和固定型判别函数,一个最佳型的判别函数仅根据所采用的判别规则而定,而固定型判别函数的形式是由经验或部分经验选定的,所用的规则仅用来确定判别函数的未知参数。

就函数类型而言,一般的判别函数有两类,即线性函数和非线性函数。比如,对于固定型判别函数,我们可以将其表示为:

在求判别函数的未知参数 Ci 时,可由各种各样的最优规则,常用的有 Fisher 准则、 Bayes 准则、最小二乘准则等。

n

kkknnN XCXCXCXCXXXfy

1221121 ),,,(

Page 7: 多元统计分析

SPSS 的判别分析方法

为研究舒张期血压和血浆胆固醇对冠心病的作用,某医院测定了 50-59 岁冠心病人 15 例和正常人 16 例的舒张压和胆固醇指标,结果如下,试作判别分析,建立判别函数以便在临床中用于筛选冠心病人。

Page 8: 多元统计分析

简单的评论

Page 9: 多元统计分析

判别分析过程 单击 Analyze 菜单选 Classify 中的 Discriminant...

项,弹出 Discriminant Analysis 对话框。从对话框左侧的变量列表中选“指标”,点击钮使之进入 Grouping Variable 框,并点击 Define Range... 钮,在弹出的 Discriminant Analysis:Define Range 对话框中,定义判别原始数据的类别区间,本例为两类,故在Minimum 处输入 1 、在 Maximum 处输入 2 ,点击 Continue 钮返回 Discriminant Analysis 对话框。再从对话框左侧的变量列表中选舒张压、胆固醇,点击钮使之进入 Independents 框,作为判别分析的基础数据变量。

Page 10: 多元统计分析

判别分析的主对话框

Page 11: 多元统计分析

逐步判别主要方法及统计量

Page 12: 多元统计分析

计算结果Analysis Case Processing Summary

31 100.0

0 .0

0 .0

0 .0

0 .031 100.0

Unweighted CasesValid

Missing or out-of-rangegroup codesAt least one missingdiscriminating variableBoth missing orout-of-range groupcodes and at least onemissing discriminatingvariableTotal

Excluded

Total

N Percent

Page 13: 多元统计分析

原始数据统计量表

Group Statistics

15 15.00015 15.00016 16.00016 16.00031 31.00031 31.000

舒张压胆固醇舒张压胆固醇舒张压胆固醇

指标1.00

2.00

Total

Unweighted WeightedValid N (listwise)

Page 14: 多元统计分析

Wilks' Lambda 统计量表

Test of Function(s)

Wilks' Lambda

Chi-square df Sig.

1 .447 22.571 2 .000

Page 15: 多元统计分析

类均值处的线性判别函数

Functions at Group Centroids

1.112-1.042

指标1.002.00

1Function

Unstandardized canonical discriminantfunctions evaluated at group means

Page 16: 多元统计分析

结果分析 用户可通过判别方程的标准化系数,确定各变量对结果的作用大小

。如本例舒张压( X1 )的标准化系数( 0.88431 )大于胆固醇( X2 )的标准化系数( 0.82306 ),因而舒张压对冠心病的影响作用大于胆固醇。考察变量作用大小的另一途径是使用变量与函数间的相关系数,本例显示 X1 的变量与函数间的相关系数为 0.62454 , X2 为0.54396 ,同样表明舒张压对冠心病的影响作用大于胆固醇。根据系统显示的非标准化判别方程系数,得到判别方程为: D = 0.6379195X1 + 0.8001452X2 - 10.7532968 依此方程,病人组的中心得分点为 1.11198 ,正常人组的中心得分点为 -1.04248 。本例为二类判别,二类判别以 0 为分界点,若将某人的舒张压和胆固醇值代入判别方程,求出的判别分 >0 的为冠心病人,判别分 <0 的为正常人。

Page 17: 多元统计分析

小结 判别分析是数据分类的另外一种方法,

是以特征判别函数为主要工具,依照一定的规则判断某个样品的归属的统计分析方法。判别分析的方法有参数方法和非参数方法。参数方法假定每个类的观测来自(多元)正态分布总体,各类的分布的均值(中心)可以不同。非参数方法不要求知道各类所来自总体的分布,它对每一类使用非参数方法估计该类的分布密度,然后据此建立判别规则。判别分析的主要问题就是如何寻找最佳的判别函数和建立判别规则。