基于结构方程模型的葡萄酒评价 - Tongji University ·...

24
1 基于结构方程模型的葡萄酒评价 摘要 本文基于某年份葡萄酒的评价结果及这些葡萄酒和酿酒葡萄的成分数据,分 析不同品酒员的评价差异和评价的可信度,并建立了多元回归模型研究葡萄的理 化指标与葡萄酒质量的关系,筛选出重要的指标,然后对酿酒葡萄分级。最后通 过建立结构方程模型,分析酿酒葡萄理化指标、葡萄酒理化指标、葡萄酒质量之 间复杂的关系,并得出最优化的关系模型。 对于数据的差异性判断,由于评价结果不服从正态分布,所以不满足 t 检验 F 检验的前提,故利用符号秩检验判断两组评价结果的差异性,得出两组结果 有显著差异的结论。然后根据评价结果数据的一致性和稳定性,采用克隆巴赫系 数,再用 SPSS 统计软件,得出第一组的可信度大于第二组。 对于酿酒葡萄的分级,将红葡萄与白葡萄分类讨论,以红葡萄为例。由于酿 酒葡萄的理化指标较多,且与葡萄酒质量存在逻辑上的因果关系,因此我们先利 用多元线性回归分析,得到对酿酒而言重要的 6 个指标及其回归系数。再根据修 正后的理化指标进行聚类分析,得到树型图,最后将红葡萄分为了 4 个等级,且 葡萄总黄酮的含量对分级有很大的影响。 对于葡萄的理化指标和酒的理化指标的关系,这是一个多自变量多因变量问 题,且各指标之间的关系复杂,不宜使用传统的相关性分析、多元线性回归。我 们采用结构方程模型,确定潜变量和可测变量,利用 Amos17.0 软件进行模型的 建立和修正,最终得到一个拟合度为 0.714 的结构方程模型。模型筛选出联系较 大的葡萄的 6 个指标与酒的 6 个指标,并且得出了“葡萄理化”潜变量每提升 1 个单位,“葡萄酒理化”潜变量将提升0.909个单位的结论。 对于问题 4,在问题 3 中所得到的模型基础上,增加逐渐潜变量和相应的可 测变量。先增加潜变量葡萄酒质量,得到葡萄的理化指标对酒的质量的影响有直 接影响和间接影响。并且,可以定量地得出影响的程度。但是,在增加潜变量葡 萄的芳香物质和酒的芳香物质之后,最优模型的拟合度增加到 0.873,说明除了葡 萄和葡萄酒的理化指标对酒的质量有影响之外,芳香物质,特别是其中的醇类, 对酒的质量有明显影响。 值得一提的是,本问题所涉及的数据量大,数据关系复杂,且存在一些异常 值或缺失值,处理难度大。但是,结构方程模型有如下优点:同时处理多个因变 量、容许自变量和因变量含测量误差、估计因子结构和因子关系、估计整个模型 的拟合程度。 关键词:葡萄酒 符号秩检验 多元线性回归 聚类分析 结构方程模型

Transcript of 基于结构方程模型的葡萄酒评价 - Tongji University ·...

Page 1: 基于结构方程模型的葡萄酒评价 - Tongji University · 样品酒的评价存在成对关系。判定结果可信程度关键是看组内10个品酒员评价 一致性程度。

1

基于结构方程模型的葡萄酒评价

摘要

本文基于某年份葡萄酒的评价结果及这些葡萄酒和酿酒葡萄的成分数据,分

析不同品酒员的评价差异和评价的可信度,并建立了多元回归模型研究葡萄的理

化指标与葡萄酒质量的关系,筛选出重要的指标,然后对酿酒葡萄分级。最后通

过建立结构方程模型,分析酿酒葡萄理化指标、葡萄酒理化指标、葡萄酒质量之

间复杂的关系,并得出最优化的关系模型。

对于数据的差异性判断,由于评价结果不服从正态分布,所以不满足 t 检验

和 F 检验的前提,故利用符号秩检验判断两组评价结果的差异性,得出两组结果

有显著差异的结论。然后根据评价结果数据的一致性和稳定性,采用克隆巴赫系

数,再用 SPSS 统计软件,得出第一组的可信度大于第二组。

对于酿酒葡萄的分级,将红葡萄与白葡萄分类讨论,以红葡萄为例。由于酿

酒葡萄的理化指标较多,且与葡萄酒质量存在逻辑上的因果关系,因此我们先利

用多元线性回归分析,得到对酿酒而言重要的 6 个指标及其回归系数。再根据修

正后的理化指标进行聚类分析,得到树型图,最后将红葡萄分为了 4 个等级,且

葡萄总黄酮的含量对分级有很大的影响。

对于葡萄的理化指标和酒的理化指标的关系,这是一个多自变量多因变量问

题,且各指标之间的关系复杂,不宜使用传统的相关性分析、多元线性回归。我

们采用结构方程模型,确定潜变量和可测变量,利用 Amos17.0 软件进行模型的

建立和修正,最终得到一个拟合度为 0.714 的结构方程模型。模型筛选出联系较

大的葡萄的 6 个指标与酒的 6 个指标,并且得出了“葡萄理化”潜变量每提升 1

个单位,“葡萄酒理化”潜变量将提升 0.909 个单位的结论。

对于问题 4,在问题 3 中所得到的模型基础上,增加逐渐潜变量和相应的可

测变量。先增加潜变量葡萄酒质量,得到葡萄的理化指标对酒的质量的影响有直

接影响和间接影响。并且,可以定量地得出影响的程度。但是,在增加潜变量葡

萄的芳香物质和酒的芳香物质之后,最优模型的拟合度增加到 0.873,说明除了葡

萄和葡萄酒的理化指标对酒的质量有影响之外,芳香物质,特别是其中的醇类,

对酒的质量有明显影响。

值得一提的是,本问题所涉及的数据量大,数据关系复杂,且存在一些异常

值或缺失值,处理难度大。但是,结构方程模型有如下优点:同时处理多个因变

量、容许自变量和因变量含测量误差、估计因子结构和因子关系、估计整个模型

的拟合程度。

关键词:葡萄酒 符号秩检验 多元线性回归 聚类分析 结构方程模型

Page 2: 基于结构方程模型的葡萄酒评价 - Tongji University · 样品酒的评价存在成对关系。判定结果可信程度关键是看组内10个品酒员评价 一致性程度。

2

一、问题重述

通过聘请一批有资质的评酒员品评葡萄酒,并对其打分求和从而确定葡萄酒

的质量。另外酿酒葡萄的好坏与所酿葡萄酒的质量肯定有直接的关系,葡萄酒和

酿酒葡萄的理化指标也会在一定程度上反映葡萄酒和葡萄的质量。请尝试建立数

学模型讨论下列问题:

1. 分析附件 1中两组评酒员的评价结果有无显著性差异,哪一组结果更可信?

2. 根据酿酒葡萄的理化指标和葡萄酒的质量对这些酿酒葡萄进行分级。

3. 分析酿酒葡萄与葡萄酒的理化指标之间的联系。

4.分析酿酒葡萄和葡萄酒的理化指标对葡萄酒质量的影响,并论证能否用葡萄

和葡萄酒的理化指标来评价葡萄酒的质量?

二、问题分析

2.1分析评价结果

分析两组评价结果有无显著性差异的方法有很多,如 T检验,F 检验等。但

先注意分析对象的数据分布特征是否符合所用的检验方法。同时应注意两组对各

样品酒的评价存在成对关系。判定结果可信程度关键是看组内 10 个品酒员评价

一致性程度。

2.2酿酒葡萄分级

为全面表征葡萄与酒性质问题背景中提供了大量指标的测定结果。但由于各

指标间存在一定程度的相关性导致提供的信息存在重叠,加大了分析难度,因此

必须简化理化和芳香物质指标。分级可采用聚类的思路,但应当就聚类涉及的指

标地位不等同在模型中做出修正。

2.3分析指标与质量间关系

良好的葡萄指标属性是产生高质量葡萄酒的前提,但葡萄酒的品质也受到酿

造工艺等因素的影响。由于好葡萄不一定能酿出好酒,所以指标与质量间属于多

原因多结果的关系。因此指标属性能在多大程度上表征品质水平需要在建模过程

中考虑。同时,酒与葡萄各自的理化指标有多种,彼此间关系错综复杂,单纯用

线性相关模型,虽然可解释一定的因果关系,但无法对间接影响做出很好的说明。

三、符号说明

符号说明

符号 说明

葡萄酒的分数

d𝑖 成对观察数据

威尔科克森检验统计量

𝛼 威尔科克森检验统计量临界值

原假设

显著性水平

Page 3: 基于结构方程模型的葡萄酒评价 - Tongji University · 样品酒的评价存在成对关系。判定结果可信程度关键是看组内10个品酒员评价 一致性程度。

3

秩和检验的系数

∂ 克隆巴赫系数

秩和检验的系数

测验题数目

Si2 每样酒样品得分的分差

St2 所以酒样品所得总分的分差

标准差

𝐺𝑝 类 p

𝐺𝑞 类 q

𝐷𝑝𝑞 每对样本点之间的平均距离总和

𝐺𝑛 新类

𝐺𝑘 任意类

A∗ 归一化后的指标

A 指标

回归系数

X∗ 理化指标的修正系数

理化指标

ij 标准化之后的样本阵元

Xij 样本阵元

相关系数矩阵

rij 相关系数矩阵元素

单位特征向量

四、模型的建立与求解

4.1问题一模型的建立与求解

4.1.1结果显著性检验

针对问题一,对附件一提供的各样本评价数据进行正态分布检验,因为样本

量数据少于 50,选择W检验,发现第一组红葡萄酒打分 = . 315 < . 5,不服

从正态分布,偏度-1.039,为负偏态,因此常用于判断显著性的 t 检验和 F 检验

均无法进行;由于符号秩检验并不要求成对数据之差服从正态分布,故选择符号

秩检验判断两组结果差异显著性大小。同时,由于第一二组各酒样本总体评价存

在一一对应的关系,用符号秩检验更利于表征这种关系。具体步骤如下

1.求出成对观测数据的差d𝑖,并将d𝑖的绝对值按大小顺序编上等级(曼-惠特尼 U

检验)。

2.等级编号完成以后恢复正负号,分别求出正等级之和 +和负等级之和 −,

选择 +和 −中较小的一个作为威尔科克森检验统计量 。

3.根据显著性水平 查附表,得到临界值 𝛼,若 < α,则拒绝原假设 。

输出结果如下表:

Page 4: 基于结构方程模型的葡萄酒评价 - Tongji University · 样品酒的评价存在成对关系。判定结果可信程度关键是看组内10个品酒员评价 一致性程度。

4

表 4-1 符号秩检验结果

N 秩均值 秩和

第二组-第一组 负秩 9a 12.39 111.5

正秩 19b 15.5 294.5

结 c

总数 28

第二组-第一组

Z

-2.084(基于负秩)

渐进显著性

0.037

a.第二组<第一组 b.第二组=第一组 c.第二组=第一组

由于 = . 37 < . 5,故认为两组评分有显著性差别。

4.1.2可信度评价

通常用测量结果(数据)一致性或稳定性的程度评判结果信度。由于本问题

没有进行多次重复测量,所以主要采用反映内部一致性的指标来测量数据的信度

利用克隆巴赫系数估量葡萄酒品尝评分的内部一致性,对每份样品的不同评价

(取各指标总分)进行组内横向比较,作为信度的指标。克隆巴赫系数克服了部

分折半法的缺点,是目前社会科学研究最常使用的信度分析方法。

根据克隆巴赫系数公式,

∂ =n

n−1∗ (1 −

∑Si2

St2 ) (1)

为信度系数, 为测验题目数,Si2为每份酒样品得分的方差,St

2为所有酒样

品所得总分的方差,计算得第一二组信度系数如下:

表 4-2 信度系数

组号 Cronbach's Alpha 项数

第一组 0.951 55

第二组 0.929 55

因此第一组结果比第二组更可信。随后的问题分析与模型建立均以第一组结果为

准。(注:上述过程均利用 SPSS17.0统计软件计算完成)

4.2问题二模型的建立与求解

对于问题二,根据第一问选择可信度更高的第一组,利用第一组 10个品酒员

对每份酒样品打分的均值作为葡萄酒质量的指标向量,,根据葡萄理化指标建立

葡萄对葡萄酒质量的多元线性回归方程,不考虑二级变量并剔除相关性弱的葡萄

理化性质变量,,,根据相关性强的指标变量和葡萄酒质量,采用 SAS 软件提供的

类平均聚类分析的方法对酿酒葡萄进行分级。

4.2.1模型的假设

(1)假设第一问中得出的可信度较高组的评分可以代表葡萄酒的质量。

(2)酿酒葡萄的好坏主要以所酿造的酒的品质来评判。即对应好品质的葡萄酒

的葡萄更有可能分在品质好的级别上。

(3)红葡萄和白葡萄存在差异,应该区分进行聚类分析。

4.2.2多元线性回归方程的建立

首先对于提供的附件二中的原始数据进行简单的处理,依据拉依达准则[1]

(即 3 准则)修改异常值,并且以该异常值所在数列的平均值作为修改后的数

Page 5: 基于结构方程模型的葡萄酒评价 - Tongji University · 样品酒的评价存在成对关系。判定结果可信程度关键是看组内10个品酒员评价 一致性程度。

5

据。

首先对每一个一级理化指标对相对应的葡萄酒的品质做相关性的分析,应用

SAS统计软件,进行第一步的筛选得到如下结果:

表 4-3 不同葡萄理化指标与葡萄酒品质相关性高的指标列表 1

红葡萄: 葡萄总黄酮 总酚 白藜芦醇 PH值 可滴定酸 A B

白葡萄: 葡萄总黄酮 总酚 果皮质量 B

得出的结果只是单一自变量和因变量之间的相关性分析结果,接下来所要做

的是对初步筛选的因子做多元线性回归的分析,然而,由于不能排除因变量之间

线性无关或者不共线,为了避免出现多重共线性的影响,需要对自变量做共线性

的诊断,文章选取 SAS 软件对变量做共线性的诊断,结果输出如下:

表 4-4 红葡萄初步筛选的理化指标多重共线性诊断

Root MSE Dependent Mean Coeff Var R-Square Adj R-Sq

6.0817 73.0556 8.3248 0.4987 0.3140

表 4-5 红葡萄初步筛选的理化指标多重共线性诊断 1

Parameter Estimates

Label DF Parameter

Estimate

Standard

Error t Value Pr>|t| Tolerance

Variance

Inflation

Intercept 1 52.11930 25.18338 2.07 0.0524

0

葡萄总黄酮 1 0.77328 0.59512 1.30 0.2094 0.29722 3.36448

白藜芦醇 1 0.59919 0.47170 1.27 0.2193 0.60441 1.65451

总酚 1 -0.05792 0.34653 -0.17 0.8690 0.26947 3.71095

PH 值 1 3.76156 6.28335 0.60 0.5565 0.59861 1.67053

可滴定酸 1 0.25657 1.17161 0.22 0.8290 0.55531 1.80080

A 1 -2.06042 2.73676 -0.75 0.4608 0.60241 1.66000

B 1 -3.30252 2.89160 -1.14 0.2676 0.70031 1.42794

观察此表可以发现变量葡萄总黄酮和总酚对应的 olera ce(容忍度)和Varia ce

i flatio (方差膨胀系数)较为相近,且显著的小于和大于其他的自变量,容忍

度衡量的是此自变量不能被其他自变量解释的部分,因此容忍度越小,说明此自

变量和其他变量存在共线性;类似的,方差膨胀系数在数值上是容忍度的倒数,

它的值越大说明共线性的存在使方差变大[2].因此,变量葡萄总黄酮和变量总酚

之间可能存在强共线性,再分析自变量的显著性检验结果(表中第七列),知道

总酚的p值为 0.8690(>0.05),因此不能拒绝自变量总酚前对应的回归系数为零

的原假设,即可将变量总酚剔除出多元线性回归模型。剔除的结果如下:

表 4-6 剔除变量总酚后各变量共线性诊断结果

Root MSE Dependent Mean Coeff Var R-Square Adj R-Sq

5.9321 73.0556 8.1200 0.4979 0.3473

Page 6: 基于结构方程模型的葡萄酒评价 - Tongji University · 样品酒的评价存在成对关系。判定结果可信程度关键是看组内10个品酒员评价 一致性程度。

6

表 4-7剔除变量总酚后各变量共线性诊断结果

Parameter Estimates

Label DF Parameter

Estimate

Standard

Error t Value Pr>|t| Tolerance

Variance

Inflation

Intercept 1 52.49690 24.46473 2.15 0.0443

0

葡萄总黄酮 1 0.70018 0.39365 1.78 0.0905 0.64630 1.54727

白藜芦醇 1 0.56697 0.41993 1.35 0.1920 0.72554 1.37828

PH 值 1 3.63616 6.08491 0.60 0.5568 0.60727 1.64671

可滴定酸 1 0.20799 1.10705 0.19 0.8529 0.59174 1.68994

A 1 -1.94256 2.57928 -0.75 0.4601 0.64525 1.54979

B 1 -3.39962 2.76294 -1.23 0.2328 0.72977 1.37030

由上表可以看见,剔除了变量总酚之后,剩下的变量之间共线性的关系已经不强,

可以将剩下的变量作为评价因子,筛选的步骤结束。所得到的红白葡萄酒的评价

因子如下:

表 4-8 不同葡萄理化指标与葡萄酒品质相关性高的指标列表 2

红葡萄: 葡萄总黄酮 白藜芦醇 PH 值 可滴定酸 A B

白葡萄: 葡萄总黄酮 果皮质量 总酚

B

分别可以得到对应的多元线性回归方程组:

对于红葡萄:

红葡萄酒质量= 52.49690+14.34663*葡萄总黄酮+6.97789*白藜芦醇

+14.37497*PH 值+1.93706*可滴定酸-5.56867*A-0.72525*B

白葡萄酒质量= 75.50536-0.88921*葡萄总黄酮-0.01396*总酚

-6.07656*果皮质量+0.26234*B

4.2.3聚类分析模型的建立

在 SAS 的操作聚类分析的过程中,选用类平均法(Average Linkage)的进

行聚类分析,操作代码见附录。得到对不同葡萄品质的分级。采用的类平均法的

原理和方法如下:

类平均法是用两类样品两两之间平方距离的平均值的平均值作为类之间的距离。

如𝐺𝑝和𝐺𝑞两类,可以计算每类中每对样本点之间的平均距离。

𝐷𝑝𝑞 =1

𝑁𝑝𝑁𝑞∑ ∑ 𝑑(𝑥𝑖 , 𝑥 )𝑖∈𝐺𝑞𝑖∈𝐺𝑝

(2)

若d( , y) = |𝑥 − y|2,则新类𝐺𝑛与其他任意类𝐺𝑘之间的距离系数由递推公式决定。

𝐷𝑘𝑛 =𝑁𝑝𝐷𝑘𝑝+𝑁𝑞𝐷𝑘𝑞

𝑁𝑛 (3)

即在并类过程中,以类别样本点之间的平均距离作为依据并类,直到把所有样本

归为一类。

考虑到各个理化指标对葡萄的质量体现的作用并不一致,。无法直接对指标 X、Y

做差求平方,利用公式A∗ =A

max(A)对筛选后的理化指标值进行标准化处理后对葡

Page 7: 基于结构方程模型的葡萄酒评价 - Tongji University · 样品酒的评价存在成对关系。判定结果可信程度关键是看组内10个品酒员评价 一致性程度。

7

萄酒质量重新回归,将回归系数 作为聚类模型中理化指标值的修正系数:

X∗ = ∙ √𝛽 (4)

将修正后指标X∗代入聚类模型。

红葡萄,有如下的聚类结果:

图 4-1 红葡萄类平均聚类分析结果图

上图为树型图,横轴为红葡萄的样品名,纵轴代表类间的平均距离。根据资料的

查找和主观的判断,如图添加一条横线,将红葡萄聚成四类(数字代表样品号):

第一类:10,25,26,27;

第二类:2,19,13;

第三类:9;

第四类:1,21,22,6,12,15,18,3,8,14,23,4,11,7,5,17,24,16,20;

对每一类分别计算平均得分,如下表:

表 4-9 红葡萄分级表

红葡萄组别 平均分 分类等级

第一组 72.55 三

第二组 77.83 二

第三组 81.50 一

第四组 71.96 四

计算每个等级红葡萄各理化指标均值得到下表:

表 4-10各等级红葡萄不同理化指标均值

等级 葡萄总黄酮 白藜芦醇 PH值 可滴定酸 A B

1 1.000 0.399 0.946 0.632 0.502 -1.766

2 0.498 0.530 0.960 0.585 0.289 -6.766

3 0.221 0.367 0.891 0.718 0.620 -4.797

4 0.367 0.284 0.876 0.739 0.511 -1.373

等级一优于其他等级的主要原因很可能是因为葡萄总黄酮的含量远大于其他三

组。

同样的,在对白葡萄进行相同的分析处理,结果输出如下图:

Page 8: 基于结构方程模型的葡萄酒评价 - Tongji University · 样品酒的评价存在成对关系。判定结果可信程度关键是看组内10个品酒员评价 一致性程度。

8

图 4-2 白葡萄类平均聚类分析结果图

将白葡萄分成四类,分别为:

第一组:13;

第二组:2,21,4,17,22,9,14,26,23,28,11,6,7,18;

第三组:15,24,27;

第四组:1,3,10,12,20,5,8,25,19,16,15,24,27;

对每一类分别计算平均得分,如下表:

表 4-11 白葡萄分级表

白葡萄组别 平均分 分类等级

第一组 65.90 四

第二组 75.32 一

第三组 69.73 三

第四组 74.03 二

4.2.4模型评价

通过以上的模型建立,以及最后的数据分析,假设上述聚类分析是合理的,

但在分析的过程中,可以看见,一些对应葡萄酒评分较高的葡萄并没有落在等级

高的组中,并且评分低的葡萄也没有落在等级高的组中,从这我们可以看出,品

质差的葡萄不能酿出好的葡萄酒,品质好的葡萄并不一定能酿出质量高的葡萄酒,

可能会涉及许多其他的因素,如酿造的过程,工艺水平还有葡萄酒本身的理化指

标;简单的聚类之后,葡萄的分级与所酿葡萄酒的评价等级没有必然一一对应的

关系,但可以得出与题设一样的结论,酿酒葡萄的好坏与所酿葡萄酒的质量有直

接的关系。

4.3问题三模型建立与求解

针对问题 3,要寻找酿酒葡萄和葡萄酒的理化指标间的联系,但是两者各自

的理化都有很多种且关系错综复杂。如果用相关性分析模型,虽然可以得到各个

指标之间的统计规律,却无法解释其中的因果关系。如果用多元线性回归分析,

虽然可以揭示一定的因果关系,但是只能得出指标间的直接效应而不能显示可能

存在的间接效应,而且不能很好的解决共线性的问题。

结构方程模型是一种建立、估计和检验因果关系的方法,可以处理多个原因、多

Page 9: 基于结构方程模型的葡萄酒评价 - Tongji University · 样品酒的评价存在成对关系。判定结果可信程度关键是看组内10个品酒员评价 一致性程度。

9

个结果的关系以及存在不可直接观测的变量问题。这都是传统的统计方法不能很

好解决的问题。因此我们采用结构方程模型来寻求各个变量之间的联系,利用标

准化后的理化指标数据进行分析,对结构方程模型进行拟合、修正、解释。

4.3.1模型假设

1.结构方程模型假设条件

(1)连续的正态内生变量

(2)合理的样本量

(3)完整的数据或者对不完整数据要适当处理

以上的假设对本文需要解决的问题而言都是满足的。

2.潜变量和可测变量的设定

模型中包含两个因素(潜变量):葡萄的理化指标、葡萄酒的理化指标。前者是

前提变量,后者是结果变量。前提变量影响结果变量。

参考第二问中的回归结果,挑选对酿酒有较大影响的指标。以红葡萄为例,筛选

出的指标(并对其编号)有:

表 4-12 红葡萄的理化性质酒筛选指标

红葡萄 葡萄总黄酮 白藜芦醇 PH 值 可滴定酸 A B DPPH 自由基 L 单宁 花色苷

编号 a1 a2 a3 a4 a5 a6 a7 a8 a9 a10

此处,先暂时忽略二级指标。即可以先确定了一级指标的联系之后,再将与一级

指标有关系的二级指标纳入结构方程之中。

对葡萄酒的理化指标而言,由于个数不太多,可将一级指标全部纳入可测变量:

表 4-13红葡萄的理化性质酒筛选指标

红葡萄酒 花色苷 单宁 总酚 酒总黄酮 白藜芦醇 DPPH 半抑制体积 L A B

编号 b1 b2 b3 b4 b5 b6 b7 b8 b9

潜变量和可测变量之间的联系是单向的,潜变量决定了可测变量,但可测变量不

能决定潜变量。

4.3.2数据的处理

1.归一化处理

由于每个指标值间的数据差异较大,量纲不同,所以输入结构方程模型前,

需做归一化处理。以红葡萄的总黄酮为例,对 27个样本,有一个一维向量

A = (…… .),归一化处理后为。

𝐴∗ =𝐴

max(𝐴1…𝐴27) (5)

2.缺失或异常值处理

对缺失的进行补全,采用该组的平均值。对异常值,修改到正常范围即可。

这样可以避免删除整条葡萄样本数据。

4.3.3结构方程模型建立

利用软件 Amos17.0 进行模型的建立和处理。构建如图所示的初始模型。

Page 10: 基于结构方程模型的葡萄酒评价 - Tongji University · 样品酒的评价存在成对关系。判定结果可信程度关键是看组内10个品酒员评价 一致性程度。

10

图 4-3 初始模型路径图

4.3.4模型拟合

拟合过程中选用最大似然估计(Maximun Likelihood)进行模型运算,并且

对默认的路径系数标准化处理。在 Analysis Property 中的 output 项中选择

Standard Estimates 这样得到的路径系数才具有可比性。拟合结果如下:

图 4-4 程序运行 1

4.3.5路径系数的显著性

参数估计结果如下图所示,模型评价要考察模型结果中估计出的参数是否具

有统计意义,需要对路径系数进行统计显著性检验,原假设系数等于零。Amos

提供了一种简单的方法,叫 CR(Critical Ratio)。CR值是一个 Z统计量,为参

Page 11: 基于结构方程模型的葡萄酒评价 - Tongji University · 样品酒的评价存在成对关系。判定结果可信程度关键是看组内10个品酒员评价 一致性程度。

11

数估计值与其标准差的比。同时,Amos给出了 CR统计检验的相伴概率 P,若给

定一个置信度α,则当 P值≤(1-α)时可以拒绝原假设,即认为该路径可以接受,

否则不能拒绝原假设。

表 4-14 程序运行结果 1

Regression Weights:(Group number l-Default model)

Estimate SE CR P

Estimate SE CR P

ptjlh<---ptlh 6.406

b3 <---ptlh 0.188

a1 <---ptlh 1.000

a6 <---ptlh -1.418 3.119 -0.455 0.649

a2 <---ptlh 0.683 0.343 1.992 0.046 a7 <---ptlh 1.000 0.174 5.762 ***

a3 <---ptlh 0.125 0.082 1.521 0.128 a8 <---ptlh -0.116 0.052 -2.251 0.024

a4 <---ptlh -0.251 0.195 -1.286 0.198 a9 <---ptlh 1.366 0.289 4.734 ***

a5 <---ptlh -0.821 0.235 -3.490 *** a10<---ptlh 1.633 0.282 5.791 ***

b4 <---ptlh 0.194

b6 <---ptlh 0.287

b5 <---ptlh 0.056

b7 <---ptlh -0.189

b1 <---ptlh 0.145

b8 <---ptlh -0.054

b2 <---ptlh 0.194

b9 <---ptlh 0.001

表 4-15 程序运行结果 2

Variances:(Group number l-Default model)

Estimate SE CR P

Estimate SE CR P

z1 0.021 0.008 2.557 0.010 d5 0.057 0.016 3.601 ***

z2 0.190

c6 5.097 1.414 3.604 ***

c1 0.010 0.003 3.108 0.002 c7 0.006 0.002 2.786 0.005

c2 0.057 0.016 3.568 *** c8 0.001 0.000 3.556 ***

c3 0.003 0.001 3.584 *** c9 0.025 0.008 3.257 0.001

c4 0.019 0.005 3.590 *** c10 0.015 0.005 2.762 0.006

c5 0.022 0.006 3.465 *** d6 0.076 0.022 3.515 ***

d1 0.015 0.004 3.485 *** d7 0.018 0.005 3.430 ***

d2 0.006 0.002 2.970 0.003 d8 0.037 0.010 3.599 ***

d3 0.001 0.001 1.482 0.138 d9 0.045 0.012 3.606 ***

d4 0.008 0.003 3.189 0.001

假定置信度为 95%,则 P值的结果表明,葡萄理化指标到 a3,a4,a6 的路径参数

不显著。该路径不可接受,在修正模型时,应该去掉该路径。

4.3.6模型拟合评价

在结构方程模型中,用统计运算方法(如最大似然法)估计模型参数,使得

样本方差协方差矩阵 S与理论方差协方差矩阵 T的差异最小,即残差矩阵(W-S)

各个元素接近于 0。下面是该模型得出的拟合指数:

Page 12: 基于结构方程模型的葡萄酒评价 - Tongji University · 样品酒的评价存在成对关系。判定结果可信程度关键是看组内10个品酒员评价 一致性程度。

12

表 4-16 程序运行结果 3

Model Fit Summary

CMIN

Model NPAR CMIN

Default model 40 -1341.239

RMR,GFI

Model RMR GFI AGFI PGFI

Default model 0.034 0.512

AIC

Model AIC BCC BIC CAIC

Default model -1261.239 -994.573 -1209.41 -1169.41

(1)绝对拟合指数 RMR的值为 0.034,小于 0.05,说明拟合情况很好。

(2)绝对拟合指数 GFI的值为 0.512,不大于 0.9,说明拟合情况欠佳。

总体来说,拟合情况不是很良好,模型需要进一步修正。

4.3.7模型修正

为进一步提高模型效果,可以通过参数显著性结果和模型修正指标进行模型

扩展或模型限制。Amos 中的修正指数(Modification Index)用于模型扩展,

临界比率(Critical Ratio)用于模型限制。修正时,去掉一些未通过检验的路

径,并增添一些因果上的外接路径,使模型得到不断的修正。修正后的结果如下:

图 4-5程序运行 2

Page 13: 基于结构方程模型的葡萄酒评价 - Tongji University · 样品酒的评价存在成对关系。判定结果可信程度关键是看组内10个品酒员评价 一致性程度。

13

表 4-17 程序运行结果 4

Standardized Regression Weights:

(标准化路径系数)

Estimate

Estimate

ptj<---pt 0.909 a7 <---pt 0.865

a1 <---pt 0.830 a8 <---pt -0.460

a5 <---pt -0.615 a9 <---pt 0.798

b4 <---ptj 0.912 a10<---pt 0.897

b1 <---ptj 0.765 b6 <---ptj 0.738

b2 <---ptj 0.936 b7 <---ptj -0.824

b3 <---ptj 0.982

所有路径系数均显著。拟合指数如下:

表 4-18程序运行结果 5

Model Fit Summary

CMIN

Model NPAR CMIN

Default model 28 -1012.27

RMR,GFI

Model RMR GFI AGFI PGFI

Default model 0.004 0.714

AIC

Model AIC BCC BIC CAIC

Default model -956.266 -900.266 -919.982 -891.982

与初始模型相比,拟合情况有了明显的提高。RMR由 0.034变成 0.004,GFI由

0.512变成 0.714。

4.3.8模型解释

最终得到修正后的模型的可测变量如下:

表 4-19 修正后的模型的可测变量

红葡萄 葡萄总黄酮 A DPPH 自由基 L 单宁 花色苷

编号 a1 a5 a7 a8 a9 a10

红葡萄酒 酒总黄酮 A DPPH 半抑制体积 L 单宁 花色苷

编号 b4 b8 b6 b7 b2 b1

这说明这些可测变量之间的联系很强。

Page 14: 基于结构方程模型的葡萄酒评价 - Tongji University · 样品酒的评价存在成对关系。判定结果可信程度关键是看组内10个品酒员评价 一致性程度。

14

图 4-6 程序运行 3

因此,对于第三问的问题,通过以上的分析,可以得出以下结论:

(1)在葡萄酒和酿酒葡萄的理化指标之间,通过数据的分析,可以找到只有以

上最终得到的几个指标之间存在联系,其他的指标之间可以认为不存在必然的联

系。

(2)葡萄到葡萄酒的路径系数是 6.68,标准化之后的系数为 0.909,即当其他

条件不变时,“葡萄理化”潜变量每提升 1个单位,“葡萄酒理化”潜变量将提升

0.909个单位。

(3)不能够得出葡萄酒和酿酒葡萄存在联系的理化指标之间的线性关系,即每

一个指标到潜变量(葡萄的理化指标和葡萄酒的理化指标)的路径只有一个方向,

不可逆。

4.问题四模型建立与求解

4.1模型构建

下面来研究葡萄理化、葡萄酒理化及葡萄酒质量这三个潜变量的关系。由于酒的

质量可能会受酒的理化性质和葡萄的理化性质的影响,且结合模型 3 的分析,三

个潜在变量的关系可以初步确定,且葡萄酒质量的可测变量为品酒师所给出的分

数,所以利用结构方程模型建立如下的初始模型,来研究葡萄和酒的理化指标对

酒的质量产生的影响。

Page 15: 基于结构方程模型的葡萄酒评价 - Tongji University · 样品酒的评价存在成对关系。判定结果可信程度关键是看组内10个品酒员评价 一致性程度。

15

图 4-7 程序运行 4

模型的拟合指数如下:

表 4-20 程序运行结果 6

Model Fit Summary

CMIN

Model NPAR CMIN

Default model 46 -1223.301

RMR,GFI

Model RMR GFI AGFI PGFI

Default model 0.39 0.501

AIC

Model AIC BCC BIC CAIC

Default model -1131.301 -744.901 -1071.692 -1025.692

可以看出拟合效果不佳,需要进行修正。类似于模型 3的操作,并不断地进行修

正和调整最后得到的最优模型如下图所示:

Page 16: 基于结构方程模型的葡萄酒评价 - Tongji University · 样品酒的评价存在成对关系。判定结果可信程度关键是看组内10个品酒员评价 一致性程度。

16

图 4-8 程序运行 5

图 4-9 程序运行 6

拟合指数如下表所示:

表 4-21程序运行结果 7

Model Fit Summary

CMIN

Model NPAR CMIN

Default model 37 -943.166

RMR,GFI

Model RMR GFI AGFI PGFI

Default model 0.09 0.645

AIC

Page 17: 基于结构方程模型的葡萄酒评价 - Tongji University · 样品酒的评价存在成对关系。判定结果可信程度关键是看组内10个品酒员评价 一致性程度。

17

Model AIC BCC BIC CAIC

Default model -869.166 -768.257 -821.220 -784.220

各个路径系数如下表所示:

表 4-22程序运行结果 8

Regression Weights:(Group number l-Default model)

Estimate SE CR P Estimate(标准化)

ptjlh <--- ptlh 6.311

0.908

ptjzl <--- ptjlh -0.452

-0.851

ptjzl <--- ptlh 6.276

1.699

ptjzl <--- z3 0.068

0.125

b1 <---ptjlh 0.150

0.792

a7 <--- ptlh 1.000 0.171 5.831 *** 0.888

a8 <--- ptlh -0.107 0.046 -2.337 0.019 -0.399

a9 <--- ptlh 1.339 0.289 4.639 *** 0.769

a10 <---ptlh 1.636 0.278 5.884 *** 0.893

b7 <---ptjlh -0.195

-0.841

f1 <--- ptjzl 8.241

0.620

a5 <--- ptlh -0.834 0.233 -3.583 *** -0.637

a2 <--- ptlh 0.640 0.345 1.852 0.064 0.362

a1 <--- ptlh 1.000

0.834

b3 <---ptjlh 0.189

0.976

b4 <---ptjlh 0.196

0.908

b6 <---ptjlh 0.294

0.738

b2 <---ptjlh 0.197

0.937

由上面的结果可知,葡萄理化指标提升 1个单位,对葡萄酒质量的直接影响是增

加 1.699 个单位,间接影响是 0.908*(-0.851)=(-0.773),即减少 0.773 个

单位,所以总影响为1.699 − .773 = .926。

另外,模型的拟合度不是很高,GFI=0.645小于 0.9,RMR=0.09大于 0.05。这有

可能是由于模型中忽略了某些潜变量,如葡萄酒的芳香物质含量、葡萄的芳香物

质含量。这些元素都有可能成为潜变量,因为通过生活经验我们得知,芳香物质

的含量对酒的品质有一定影响。下面在修正后的模型的基础上加入两个潜变量,

重新建立模型,再进行拟合及修正,得到最优的模型。

4.2芳香物质的指标处理

主成分分析能将许多相关的随机变量压缩成少量的综合指标,同时又能反映

原来较多因素的信息[3]。按照主成分分析的理论,若前 R个主成分的累计贡献

率达到了 85%的原则,则这 R个主成分能反映足够的信息[4]。分别研究红白葡

萄 55个指标、葡萄酒 73个指标,构造样本指标含量矩阵,对样本阵元按如下公

式进行如下标准化变换:

ij =Xij−Xj̅̅̅

Sj, i = 1,2,… , ; j = 1,2,… , p (6)

Page 18: 基于结构方程模型的葡萄酒评价 - Tongji University · 样品酒的评价存在成对关系。判定结果可信程度关键是看组内10个品酒员评价 一致性程度。

18

其中

Xj̅ =∑ Xij

i=1

, Sj

2 =∑ (Xij−X̅j) 2

i=1

−1; (7)

得标准化阵 Z;对标准化阵 Z 求相关系数矩阵: = rij p p =

n−1

其中 rij =∑ kj∗ kj

n−1, i, j = 1,2,… , p;

通过解样本相关矩阵 的特征方程得p个特征根,确定主成分。

按使信息的利用率达 85%以上的原则确定 值,对每个 , j = 1,2, . . . , , 解方程

组 = 得单位特征向量 ;

将标准化后的指标变量转换为主成分: ij = i j

o,j=1,2,…,m,U1 称为第一主成分, 2

称为第二主成分,„, 𝑝 称为第p 主成分;

最后对 个主成分进行加权求和,即得最终评价值,权数为每个主成分的方差

贡献率,得到主成分压缩后的芳香物质指标个数为:红葡萄酒 10个,红葡萄 7

个,白葡萄酒 12个,白葡萄 9个。(见附表)

表 4-23程序运行结果 9

Eigenvalues of the Correlation Matrix

Eigenvalue Difference Proportion Cumulative

1 24.3059 18.6133 0.4419 0.4419

2 5.69254 0.63656 0.1035 0.5454

3 5.05598 0.83666 0.0919 0.6374

4 4.21932 0.66683 0.0767 0.7141

5 3.55249 1.01943 0.0646 0.7787

6 2.53306 0.74058 0.0461 0.8247

7 1.79248 0.0326 0.8573

以红葡萄所含芳香物质指标压缩为例(下面模型修正以红葡萄为例),经主成分

分析之后指标由 55 个减少为 7 个。该 7 个成分的累计贡献率已经达到 85.73%,

能够较为全面的反映出果实品质的主要信息。通过相关系数分析该 7 个主成分中

其主要作用的芳香物质,可以发现主成分的划分基本以醇、醛、脂为界,这也在

一定程度上说明了此处运用主成分归类的科学性。

表 4-24主成分决定性因素确定

主成份 sum 醇 脂 醛 酮 有机酸 萜烯 其他 决定因素

1 5.41 1.48 2.45 0.42 0.64 -0.01 -0.08 0.52 脂

2 2.29 1.21 -0.43 0.27 -0.06 0.36 0.15 0.8 醇

3 1.19 -0.93 0.69 1.07 0.19 0.1 0.08 -0.01 醛

4 2.26 1.31 0.46 0.39 -0.14 -0.03 0.3 -0.04 醇

Page 19: 基于结构方程模型的葡萄酒评价 - Tongji University · 样品酒的评价存在成对关系。判定结果可信程度关键是看组内10个品酒员评价 一致性程度。

19

5 1.5 0.18 0.25 1.02 -0.14 0.09 0.3 -0.19 醛

6 1.25 0.36 1.01 0.41 -0.23 -0.02 -0.18 -0.1 脂

7 0.69 -0.31 0.58 0.55 0.14 -0.22 0.11 -0.17 脂

(注:主成分分析过程利用 SAS9.0软件完成)

4.2.1模型建立

初始模型如下:

图 4-10 程序运行 7

修正后的模型为:

Page 20: 基于结构方程模型的葡萄酒评价 - Tongji University · 样品酒的评价存在成对关系。判定结果可信程度关键是看组内10个品酒员评价 一致性程度。

20

图 4-11 程序运行 8

表 4-25程序运行结果 10

Model Fit Summary

CMIN

Model NPAR CMIN

Default model 34 -225.823

RMR,GFI

Model RMR GFI AGFI PGFI

Default model 0.069 0.873

AIC

Model AIC BCC BIC CAIC

Default model -157.823 -115.323 -113.765 -79.765

4.2.2结果分析

加入红葡萄和红葡萄酒的芳香物质后,再次检验模型拟合性质,结果 GFI

由 0.645 上升到 0.873;而 RMR 由 0.09 下降到 0.069,模型拟合性质明显变好。

说明除了葡萄和葡萄酒的理化指标影响葡萄酒的质量之外,芳香物质也有明显影

响。模型中的 4、Q4主要代表醇类物质,说明芳香物质中,主要是醇类物质对

葡萄酒的质量产生影响。

Page 21: 基于结构方程模型的葡萄酒评价 - Tongji University · 样品酒的评价存在成对关系。判定结果可信程度关键是看组内10个品酒员评价 一致性程度。

21

五、评价与推广

由于我们要对所建模型进行总体评估,为了能更全面的分析,不妨引入企业

管理学中的 SWOT分析法,其中四个字母分别代表优势、劣势、机会、威胁。

优势:本问题所涉及的数据量大,数据关系复杂,且存在一些异常值或缺失值,

处理难度大。但是,结构方程模型有如下优点:同时处理多个因变量、容许自变

量和因变量含测量误差、估计因子结构和因子关系、估计整个模型的拟合程度。

劣势:不能得到各个指标之间的定量关系。另外,数据信息利用不完全,没有充

分的利用二级指标,更重要的是没有从化学反应的角度去找寻个理化性质这件的

联系。

机会:可以继续对数据进行分析,寻求二级指标与一级指标的联系,或者与潜变

量的联系。

缺点:模型的准确性得不得很好的验证。

六、参考文献

[1]杨希冬,实验数据异常值的剔除方法,唐山师专学报,第 20卷第 5 期,1998.5

[2]刘荣,冯国生,丁维岱,SAS统计分析与应用,北京:机械工业出版社,2011.9

[3]Guo B L, Yang J X, Li Y C, et al. The application of principal component analysis on

mainly economic characters and superior variety selection of apricot for nucleolus

using[ J ]. Scientia Silvae Sinicae ,2000, 36 (6) :53 - 56.

[4]聂继云,李明强,张桂芳,等.白梨品质评价指标的聚类分析[J].中国果树,

2000

Page 22: 基于结构方程模型的葡萄酒评价 - Tongji University · 样品酒的评价存在成对关系。判定结果可信程度关键是看组内10个品酒员评价 一致性程度。

22

七、附录

7.1处理过的部分数据

白葡萄筛选理化指标(部分)

白葡萄

单宁 总酚 酒总黄

白藜芦

DPPH半抑制体

L a b

酒样品1 1.6198

93

1.2635

24

0.1046

93

0.3089

59

0.034757 102.1

1

-0.5

1

2.1

1

酒样品2 1.2334

23

1.1037

09

0.5104

68

0.2154

2

0.033079 101.8

5

-0.5

9

3.1

6

酒样品3 2.0093

8

1.8202

95

3.6693

47

0.3483

57

0.047357 101.7

9

-0.4

8

2.9

4

酒样品4 2.0166

83

1.4852

01

1.1319

71

0.1118

7

0.052556 101.7 -0.8

7

4.0

5

酒样品5 1.5946

63

1.5367

54

1.4144

72

0.3126

73

0.040647 101.8

2

-1.1

5

4.3

7

酒样品6 1.2888

29

1.1758

84

0.0790

11

0.1757

48

0.041951 102.0

7

-0.5

8

2.6

4

酒样品7 1.3740

29

1.2016

6

3.9313

03

0.3711

27

0.052183 101.8

6

-0.2

6

2.2

6

酒样品8 1.5127

84

0.4721

86

0.5772

41

0.5844

11

0.039177 102.1 -0.6

8

2.6

1

酒样品9 1.8438

48

1.2867

22

0.0995

57

0.1993

12

0.04002 101.7

3

-0.7

9

3.8

8

酒样品

10

2.0580

66

1.3253

87

1.5634

27

0.0323

71

0.064016 102.0

5

-0.4

9

2.2

7

酒样品

11

1.4154

12

1.2764

12

2.2568

4

0.1074

15

0.024261 101.9

3

-0.5

1

2.6

1

酒样品

12

2.3073

79

1.9981

53

1.4915

18

0.4334

84

0.081703 101.9

2

-0.6 3.0

4

酒样品

13

1.5152

18

1.3563

19

2.0359

75

0.5871

06

0.046958 102.2

1

-0.5

5

2.1

1

酒样品

14

1.3204

74

1.3202

32

2.5444

78

1.2057

97

0.049067 102.0

5

-0.6

3

2.6

8

红葡萄酒主成分分析

Eigenvalues of the Correlation Matrix

Eigenvalue Difference Proportion Cumulative

1 15.4515 5.16331 0.2117 0.2117

2 10.2882 1.92351 0.1409 0.3526

3 8.36471 1.77462 0.1146 0.4672

Page 23: 基于结构方程模型的葡萄酒评价 - Tongji University · 样品酒的评价存在成对关系。判定结果可信程度关键是看组内10个品酒员评价 一致性程度。

23

4 6.59009 0.66769 0.0903 0.5575

5 5.9224 1.19019 0.0811 0.6386

6 4.73221 1.46737 0.0648 0.7034

7 3.26484 0.31422 0.0447 0.7481

8 2.95062 0.55721 0.0404 0.7886

9 2.39342 0.24052 0.0328 0.8213

10 2.1529 0.0295 0.8508

7.2问题二模型建立部分代码

SAS:

1.回归过程

ods graphics on;

proc corr data=work.finals plots=matrix;

var _corl0 _corl2 _corl3 _corl4 _corl5 _corl6 _corl7 _corl8 _corl9 _corl10 _corl11 _corl12 _corl13

_corl14 _corl15 _corl16 _corl17 _corl18 _corl19 _corl20 _corl21 _corl22 _corl23 _corl24 _corl25

_corl26 _corl27 _corl28 L A B ;

run;

proc reg data=work.finals;

model _corl0=_corl2 _corl3 _corl4 _corl5 _corl6 _corl7 _corl8 _corl9 _corl10 _corl11 _corl12

_corl13 _corl14 _corl15 _corl16 _corl17 _corl18 _corl19 _corl20 _corl21 _corl22 _corl23 _corl24

_corl25 _corl26 _corl27 _corl28 L A B / dw vif tol;

run;

ods graphics off;

2.聚类过程

ods graphics on;

proc cluster data=wei.jl2

outtree=tree1

method=average

ccc pseudo;

id _COL0;

run;

proc tree data=tree1;

id _COL0;

run;

ods graphics off;

问题四模型建立部分代码:

SAS 主成分分析

proc princomp data=zcf.test1 n=4 out=w1 outstat=w2;

var x1-x8;

run;

Page 24: 基于结构方程模型的葡萄酒评价 - Tongji University · 样品酒的评价存在成对关系。判定结果可信程度关键是看组内10个品酒员评价 一致性程度。

24