第十章 多维标度法

60
第第第 第第第第第 第 第 第第第 第第第第第第第 (Classical MDS) 第第第 第第第第第第 (WMDS) 第第第 第第第第第第第第第

description

第一节 引 言. 第二节 古典多维标度法 (Classical MDS). 第三节 权重多维标度 (WMDS). 第四节 实例分析与计算实现. 第十章 多维标度法. 第一节 引 言. - PowerPoint PPT Presentation

Transcript of 第十章 多维标度法

Page 1: 第十章    多维标度法

第十章 多维标度法

第一节 引 言

第二节 古典多维标度法 (Classical MDS)

第三节 权重多维标度 (WMDS)

第四节 实例分析与计算实现

Page 2: 第十章    多维标度法

第一节 引 言

在实际中我们会经常遇到这些的问题,给你一组城市,你总能从地图上测出任何一对城市之间的距离。但若给你若干城市的距离,你能否确定这些城市之间的相对位置呢?假定你知道只是哪两个城市最近,哪两个城市次近等等,你是否还能确定它们之间的相对位置呢?假定通过调查了解了 10 种饮料产品在消费者心中的相似程度,你能否确定这些产品在消费者心理空间中的相对位置呢?在实际中我们常常会遇到类似这样的问题。

多维标度法( Multidimensional Scaling )就是解决这类问题的一种方法,它是一种在低维空间展示“距离”数据结构的多元数据分析技术,简称 MDS 。

多维标度法起源于心理测度学,用于理解人们判断的相似性。Torgerson 拓展了 Richardson 及 Klingberg 等人在三、四十年代的研究,具有突破性地提出了多维标度法,后经

Page 3: 第十章    多维标度法

Shepard 和 Kruskal 等人进一步加以发展完善。多维标度法现在已经成为一种广泛用于心理学、市场调查、社会学、物理学、政治科学及生物学等领域的数据分析方法。

多维标度法解决的问题是:当 n 个对象( object )中各对对象之间的相似性(或距离)给定时,确定这些对象在低维空间中的表示(感知图 Perceptual Mapping ),并使其尽可能与原先的相似性(或距离)“大体匹配”,使得由降维所引起的任何变形达到最小。多维空间中排列的每一个点代表一个对象,因此点间的距离与对象间的相似性高度相关。也就是说,两个相似的对象由多维空间中两个距离相近的点表示,而两个不相似的对象则由多维空间两个距离较远的点表示。多维空间通常为二维或三维的欧氏空间,但也可以是非欧氏三维以上空间。

Page 4: 第十章    多维标度法

多维标度法内容丰富、方法较多。按相似性(距离)数据测量尺度的不同 MDS 可分为:度量 MDS 和非度量 MDS 。当利用原始相似性(距离)的实际数值为间隔尺度和比率尺度时称为度量 MDS(metric MDS) ,当利用原始相似性(距离)的等级顺序(即有序尺度)而非实际数值时称为非度量MDS(nonmetric MDS) 。按相似性(距离)矩阵的个数和 MDS 模型的性质 MDS 可分为:古典多维标度 CMDS (一个矩阵,无权重模型)、重复多维标度 Replicated MDS (几个矩阵,无权重模型)、权重多维标度 WMDS (几个矩阵,权重模型)。本章仅介绍常用的古典多维标度法和权重多维标度法。

Page 5: 第十章    多维标度法

第二节 古典多维标度法 (Classical MDS)

一 相似与距离的概念

二 古典多维标度分析的思想及方法

三 度量 MDS 的古典解

四 非度量 MDS 的古典解 (nonmetric MDS)

Page 6: 第十章    多维标度法

首先我们提出这样一个问题,表 10.1 是美国十城市之间的飞行距离,我们如何在平面坐标上据此标出这 10 城市之间的相对位置,使之尽可能接近表中的距离数据呢?

Page 7: 第十章    多维标度法

表 10.1 美国 10 城市间的飞行距离

1=Atlanta , 2=Chicago, 3=Denver, 4=Houston, 5=Los Angeles

6=Miami , 7=New York, 8=San Francisco , 9=Seattle, 10=Washington. DC

1 2 3 4 5 6 7 8 9 10

1

2

3

4

5

6

7

8

9

10

0

587

1212

701

1936

604

748

2139

2182

543

587

0

920

940

1745

1188

713

1858

1737

597

1212

920

0

879

831

1726

1631

949

1021

1494

701

940

879

0

1374

968

1420

1645

1891

1220

1936

1745

831

1374

0

2339

2451

347

959

2300

604

1188

1726

968

2339

0

1092

2594

2734

923

748

713

1631

1420

2451

1092

0

2571

2408

205

2139

1858

949

1645

347

2594

2571

0

678

2442

2182

1737

1021

1891

959

2734

2408

678

0

2329

543

597

1494

1220

2300

923

205

2442

2329

0

Page 8: 第十章    多维标度法

一、相似与距离的概念

在解决上述问题之前,我们首先明确与多维标度法相关的数据概念。

1.相似数据与不相似数据 相似数据:如果用较大的数据表示非常相似,用较小的

数据表示非常不相似,则数据为相似数据。如用 10 表示两种饮料非常相似,用 1 表示两种饮料非常不相似。

不相似数据:如果用较大的数值表示非常不相似,较小的数值表示非常相似,则数据为不相似数据,也称距离数据。如用 10 表示两种饮料非常不相似,用 1 表示两种饮料非常相似。

2.距离阵 定义 10.1 一个 n n阶的矩阵 D=(dij ) n n ,如果满足条件:

Page 9: 第十章    多维标度法

(1) D D

(2) 0, 0, , 1, 2, ,ij iid d i j n

则矩阵D为广义距离阵, ijd 称为第 i点与第 j点间的距离。

定义 10.2 对于一个 n n 的距离阵 ( )ij n nd D ,如果存在某个正

整数 r和 rR 中的 n个点 1 2, , , nX X X ,使得 2 ( ) ( ) , 1, 2, ,ij i j i jd X X X X i j n

则称D为欧氏距离阵

3.相似系数阵

定义 10.3 一个 n n 阶的矩阵 ( )ij n nc C ,如果满足条件:

(1) C C

(2) , 1, 2, ,ij iic c i j n

则矩阵C为相似系数阵, ijc 称为第 i点与第 j点间的相似系数。

Page 10: 第十章    多维标度法

在进行多维标度分析时,如果数据是多个分析变量的原始数据,则要根据聚类分析中介绍的方法,计算分析对象间的相似测度;如果数据不是广义距离阵,要通过一定的方法将其转换成广义距离阵才能进行多维标度分析。

Page 11: 第十章    多维标度法

二、古典多维标度分析的思想及方 法

设 r维空间中的 n个点表示为 1 2, , , nX X X ,用矩阵表示为

1 2( , , , )nX X X X 。在多维标度法中,我们称X为距离

阵D的一个拟合构图,求得的 n个点之间的距离阵 D̂称为D的拟合距离阵,D̂和D尽可能接近。如果 ˆ D D,则称X为D的一个构图。 我们假设有 n个城市对应欧氏空间的 n个点,其距离阵为D,它们所对应的空间的维数为 r,第 i个城市对应的点记为 iX ,则 iX 的坐标记作 1 2( , , , )i i i irX X X X 。

设 ( )ij n nb B ,其中:

2 2 2 22

1 1 1 1

1 1 1 1( )

2

n n n n

ij ij ij ij ijj i i j

b d d d dn n n

Page 12: 第十章    多维标度法

2ijd 为 i城市与 j城市之间的距离。那么,如果一个 n× n的

距离阵D是欧氏距离阵的充要条件是 0B 。 首 先考虑必 要性, 设 D 是欧氏 距离阵 ,则存在

1 2, , , nX X X rR ,使得 2 ( ) ( )

2

ij i j i j

i i j j j i i j

i i j j i j

d X X X X

X X X X X X X X

X X X X X X

(10.1)

2

1 1 1

1 1 2n n n

ij j j i i i ji i i

d X X X X X Xn n n

(10.2)

Page 13: 第十章    多维标度法

2

1 1 1

1 1 2n n n

ij i i j j i jj j j

d X X X X X Xn n n

(10.3)

2 22

1 1 1 1

1 1 1 1

1 1 1( )

1 1 2

n n n n

ij ijj i i j

n n n n

i i j j i ji j i j

d dn n n

X X X X X Xn n n

(10.4)

由(10.1)、(10.2)、(10.3)和(10.4)式,得知

Page 14: 第十章    多维标度法

2 2 2 22

1 1 1 1

1 1 1 1( )

2

n n n n

ij ij ij ij ijj i i j

b d d d dn n n

1 1 1 1

1 2 2 2(2 )

2

n n n n

i j i j i j i jj i i j

X X X X X X X Xn n n

( )i j i jX X X X X X X X

( ) ( )i jX X X X

其中,1

1 n

ii

X Xn

。用矩阵表示为:

1

1

( )

( ) ( , , ) 0

( )ij n n n

n

X X

b X X X X

X X

B

Page 15: 第十章    多维标度法

这里,我们称B为X的中心化内积阵。 再来考虑充分性,如果假设 0B ,我们欲指出X正好为D的一个构图,且D是欧氏型的。

记 1 2 r 为 B的正特征根, 1 2, , , r 对应的单位

特征向量为 1 2, , , re e e , 1 2( , , , )re e eΓ 是单位特征向量为

列组成的矩阵,则 1 1 2 2( , , , ) ( )r r ij n re e e x X ,X

矩阵中每一行对应空间中的一个点,第 i 行即为 iX 。令

1 2( , , , )rdiag Λ ,那么,

B XX ΓΛΓ (10.6) 1/ 2X ΓΛ (10.7)

Page 16: 第十章    多维标度法

即 ij i jb X X 。由于,

2 2 2 22

1 1 1 1

1 1 1 1( )

2

n n n n

ij ij ij ij ijj i i j

b d d d dn n n

因此,

2

( ) ( ) 2

2

i j i j i i j j i j

ii jj ij ij

X X X X X X X X X X

b b b d

这样说明X正好是X正好为D的一个构图,D是欧氏型的。 通过上面的讨论我们知道,只要按公式(10.5)求出各个点对之间的内积,求得内积矩阵B的 r个非零特征值及所对应的一组特征向量,据公式(10.7)即可求出X矩阵的 r个列向量或空间 n个点的坐标。

Page 17: 第十章    多维标度法

这里需要特别注意,并非所有的距离阵都存在一个 r 维的欧氏空间和 n 个点,使得 n 个点之间的距离等于 D 。因而,并不是所有的距离阵都是欧氏距离阵,还存在非欧氏距离阵。

当距离阵为欧氏时,可求得一个 D 的构图 X ,当距离阵不是欧氏时,只能求得 D 的拟合构图。在实际应用中,即使 D为欧氏,一般也只求 r =2 或 3 的低维拟合构图。

值得注意的是,由于多维标度法求解的 n 个点仅仅要求它们的相对欧氏距离与 D 相近,也就是说,只与相对位置相近而与绝对位置无关,根据欧氏距离在正交变换和平移变换下的不变性,显然所求得解并不唯一。

Page 18: 第十章    多维标度法

三、度量 MDS 的古典解

根据上述古典多维标度法的基本思想及方法,可给出求古典解的一般步骤:

(1)根据距离阵数据,按照公式(10.5)计算出 ijb ;

(2)根据 ijb 构造出内积矩阵 B;

(3)计算内积矩阵 B的特征值 1 2 n 和 r个最大

特征值 1 2 0r 对应的单位特征向量。其中,r的确定有两种方法:一是事先确定 r =1,2或 3;二是通过计算前 r个大于零的特征值占全体特征值的比例确定。

1 20

1 2

r

n

0 预先给定的变差贡献比例。

Page 19: 第十章    多维标度法

( 4 )根据( 10.7 )式计算 ,得到 r 维拟合构图(简称古典解)。 这里需要注意,如果λi中有负值,表明 D 是非欧氏型的。(一)已知距离矩阵的 CMDS 计算

以前述美国 10 城市间的飞行距离数据来说明古典度量多维标度法的计算过程。

表 10.1 美国 10 城市间的飞行距离为比率测度。数值越大表明距离越远,数值越小表明距离越短,符合广义距离阵的定义,又只涉及一个距离阵,因此为度量 CMDS 。

根据上述度量古典 CMDS 的计算方法,首先可求得内积矩阵,结果见表 10.2 。

Page 20: 第十章    多维标度法

537138 227674.7 -348122 198968.7 -808343 894857.1 696696.2 -1005131 -1050183 656444.9

227674.7 262780.5 -174029 -134310 -593986 234414.3 585085 -580732 -315384 488486.2

-348122 -174029 235561.7 -92439.5 569636.6 -563061 -504420 681440.4 658370.2 -462937

198968.7 -134310 -92439.5 352200.4 29298.47 516284.3 -124221 -162952 -550030 -32799.4

-808343 -593986 569636.6 29298.47 1594273 -1129628 -1498685 1750892 1399106 -1312563

894857.1 234414.3 -563061 516284.3 -1129628 1617392 920343.3 -1541762 1866872 918032

696696.2 585085 -504420 -124221 -1498685 920343.3 1415758 -1583181 -1129543 1222167

-1005131 -580732 681440.4 -162952 1750892 -1541762 -1583181 2027920 1845928 -1432422

-1050183 -315384 658370.2 -550030 1399106 -1866872 -1129543 1845928 2123620 -1115010

656444.9 488486.2 -462937 -32799.4 -1312563 918032 1222167 -1432422 -1115010 1070601

表 10.2 美国 10城市内积矩阵

B

Page 21: 第十章    多维标度法

B的特征值:λ1=9582144,λ2=1686820,λ3=8157,λ4=1433, λ5 =509,λ6=26,λ7=0.35,λ8= -898,λ9=-5468,λ10= -35479。

1 22

1 2 10

9582144 16868209582144 1686820 8157 1433 509 26 0.35 898 5468 354790.995969

因此取 r =2。按照(10.7)式得到如下结果:

Page 22: 第十章    多维标度法

11 e 22 e 1e 2e

-718.759 142.994 -0.23219 0.110099

-382.056 -340.84 -0.12342 -0.26243

481.602 -25.285 0.155581 -0.01947

-161.466 572.77 -0.05216 0.441007

1203.738 390.100 0.388867 0.30036

-1133.53 581.907 -0.36618 0.448043

-1072.24 -519.024 -0.34638 -0.39963

1420.603 112.589 0.458925 0.086689

1341.723 -579.739 0.433442 -0.44637

-979.622 -335.473 -0.31647 -0.2583

Page 23: 第十章    多维标度法

10 个城市的坐标分别为: ( -718.759 , 142.9942 ),( -382.056 , -340.84 ),( 4

81.602 , -25.285 ),( -161.466 , 572.77 ),( 1203.738 ,390.100 ),( -1133.53 , 581.907 ),( 1072.24 , -519.024 ),( 1420.603 , 112.589 ),( 1341.723 , -579.739 ),( -979.622 , -335.473 )。

计算结果表明,较大的特征值有两个,说明在二维平面上表示 10 城市间的相对位置是合适的。由于有特征值小于零,表明距离阵不是欧氏型,其结果为拟合构图。在此,城市是“对象”,飞行里程是“相似性”。图 10.1 给出了 MDS反映美国 10座城市相对位置的感知图。图中的 10 个点,每个点代表一个城市,相近的点代表飞行距离短的城市,相距较远的点代表飞行距离远的城市。

Page 24: 第十章    多维标度法

图 10.1 10 城市坐标感知图

Page 25: 第十章    多维标度法

(二)已知相似矩阵的 CMDS计算 如果已知的数据不是 n个对象之间的某种距离,而是 n个对象间的某种相似性测度,只需将相似系数阵C转换为广义距离阵D,其他计算与上述方法相同。令

1 2( 2 )ij ii jj ijd c c c (10.8)

由定义 10.3可知, 2 0ii jj ijc c c ,显见 0,ii ij jid d d ,

故D为距离阵。根据数学定理易知,当 0C 时,由(10.8)式定义的距离阵为欧氏型。 【例 10.2】为了分析下列六门课程之间的结构关系,根据劳雷和马克斯维尔得到的相关系数矩阵(详见表 10.3),使用多维标度法用图形直观的反映这六门课之间的相似性。

Page 26: 第十章    多维标度法

相关系数的值越大,表示课程越相似,相关系数值越小,表明课程越不相似,显而易见,相关系数矩阵为相似系数矩阵,记为 C 。

盖尔语 英语 历史 算术 代数 几何

盖尔语 1 0.439 0.41 0.288 0.329 0.248

英语 0.439 1 0.351 0.354 0.32 0.329

历史 0.41 0.351 1 0.164 0.19 0.181

算术 0.288 0.354 0.164 1 0.595 0.47

代数 0.329 0.32 0.19 0.595 1 0.464

几何 0.248 0.329 0.181 0.47 0.464 1

表 10.3 6门课程相关系数阵

Page 27: 第十章    多维标度法

根据变换( 10.8 )式可得到距离阵 D ,见表 10.4 。在此基础上,根据( 10.5 )式得到内积矩阵 B ,具体结果见表 10.5 。

0 1.059245 1.086278 1.193315 1.158447 1.2263768

1.059245 0 1.139298 1.136662 1.16619 1.1584472

1.086278 1.139298 0 1.293058 1.272792 1.2798437

1.193315 1.136662 1.293058 0 0.9 1.029563

1.158447 1.16619 1.272792 0.9 0 1.0353743

1.226377 1.158447 1.279844 1.029563 1.035374 0

表 10.4 距离阵 D

Page 28: 第十章    多维标度法

表 10.5 内积矩阵

0.547111 -0.02706 0.026778 -0.19106 -0.15456 -0.201222

-0.02706 0.520778 -0.04539 -0.13822 -0.17672 -0.133389

0.026778 -0.04539 0.686444 -0.24539 -0.22389 -0.198556

-0.19106 -0.13822 -0.24539 0.494778 0.085278 -0.005389

-0.15456 -0.17672 -0.22389 0.085278 0.485778 -0.015889

-0.20122 -0.13339 -0.19856 -0.00539 -0.01589 0.5544444

计算B的特征值,结果如下:

λ1=1.142875,λ2=0.6232836,λ3=0.602,λ4=0.525,λ5=0.396,λ6=-0.000005。

Page 29: 第十章    多维标度法

从结果知距离阵 D 不是欧氏型,我们取 r=2 ,由( 10.7 )式求得 D 的古典解,结果如下:

图 10.2 大体反映了这六门课程的基本结构,从图中可以直观的看出,算术、代数、几何较为相近,英语和盖尔语较为相近,而历史课程与其他课程的差异性较大。

1e 2e 1 1e 2 2e

0.3775357 0.3376794 0.403606 0.266592

0.2258566 0.6106644 0.241453 0.482109 0.5805312 -0.643831 0.620619 -0.50829

-0.428132 0.0506569 -0.4577 0.039993

-0.394165 -0.049315 -0.42138 -0.03893

-0.36163 -0.305851 -0.3866 -0.24146

Page 30: 第十章    多维标度法

图 10.2 六门课程的古典解感知图

Page 31: 第十章    多维标度法

四、非度量 MDS 的古典解 (nonmetric MDS)

在实际问题中,我们涉及更多的是不易量化的相似性测度,如两种颜色的相似性,虽然我们可以用 1 表示颜色非常相似,10 表示颜色非常不相似,但是这里的数字只表示颜色之间的相似或不相似程度,并不表示实际的数值大小,因而是定序尺度,这时是由两两颜色间的不相似数据 ij 形成“距离”矩阵。对于非度量的不相似性矩阵,我们如何进行多维标度分析呢?假定有一个 n 个对象的不相似矩阵 ( ij)n n ,要寻找 n 个对象的一个 r 维拟合构造点 X 。下面介绍 Kruskal 的非度量 MDS 分析方法。

为了寻找一个较好的拟合构造点,我们可以从某一个拟合构造点开始,即先将 n 个对象随意放置在 r 维空间,形成一个感知图,用 Xi =(Xi 1 , Xi 2 ,…, Xir) ′ 表示 i 对象在 r 维空间的坐标,对象 i 与 j 在 r 维空间的距离为 :

2 2 21 1 2 2( ) ( ) ( )ij i j i j ir jrd X X X X X X

Page 32: 第十章    多维标度法

然后微调 n个对象在空间的位置,改进空间距离 ijd 与不相

似数据 ij 间的匹配程度,直到匹配性无法改进为止。显然,定量测度 ijd 与 ij 间的匹配性是问题的难点。因为,对于定序尺度 ij 来说,如何量化它与 ijd 间的对应程度是解决

问题的关键。Kruskal提出了用最小平方单调回归的方法,

确定 ij 的单调转换 ˆijd 。然后,又提出用以测度偏离完美

匹配程度的量度 STRESS,称之为应力。定义为

2 2ˆ( )ij ij iji j i j

STRESS d d d (10.9)

Page 33: 第十章    多维标度法

ijd 与ˆijd 之间差异越大,STRESS 值越大,表明匹配性也

就越差。非度量多维标度法就是要采用迭代方法,找到使STRESS 尽可能地小的 r维空间中 n个对象的坐标。对于找到的拟合构造点,当 STRESS=0 时,表示拟合完美,

ˆij ijd d ;当 0<STRESS≤ 2.5%时,表示拟合非常好;当

2.5 % <STRESS≤ 5% 时 , 表 示 拟 合 好 ; 当 5 %<STRESS≤ 10% 时 , 表 示 拟 合 一 般 ; 当 10 %<STRESS≤ 20%时,表示拟合差。 另一种测量偏离完美匹配的量度是由塔卡杨(Takane)等人提出,已成为一个更受欢迎的准则。对给定维数 r,将这个量度记为 S应力,其定义为:

S应力= 1 22 2 2 4ˆ( )ij ij ijd d d (10.10)

Page 34: 第十章    多维标度法

也就是说, S应力是将( 10.9 )式中的 dij 和 用它们的平方代表后所得到的量度。 S应力的值介于 0 和 1 之间。典型的情况是:此值小于 0.1意味着感知图是 n 个对象的一个好的几何表示。

在非度量 MDS 分析过程中,另一个需要解决的问题是感知图空间维数 r 的确定。我们可以制作应力 -r 图确定感知图的维数r 。从前述可知,对每一个 r ,可以找到使应力达到最小的点结构。随着 r 的增加,最小应力将在运算误差的范围内逐渐下降,且当 r =n-1 时达到零。从 r = 1开始,可将应力 S ( r )对r作图。这些点随 r 的增加而呈下降排列。若找到一个 r ,上述下降趋势到这一点开始接近水平状态,即形成一个“肘”形曲线,这个 r便是“最佳”维数。

非度量 MDS虽然是基于非度量尺度数据的分析方法,但是,当定量尺度的距离阵中的数据不可靠,而距离大小的顺序可靠时,采用非度量 MDS 比度量 MDS 得到的结果更接近与实际。

ˆijd

Page 35: 第十章    多维标度法

第三节 权重多维标度 (WMDS)

以上我们的讨论都是以单个“距离”阵数据出发进行的,但在实践中,往往需要确定多个距离阵数据的感知图,比如由10 个人分别对 5 种饮料进行两两相似评测,结果就会得到 10 个相似性矩阵,那么,我们如何根据这 10 个人的评测结构得出 5 种饮料的相似性感知图呢?显然,按照古典多维的方法,我们只能是每一个相似性矩阵确定一个感知图, 10 个人分别确定 10 个感知图。但是,往往我们想要得到的是这 10 个人共同的一个感知图而非 10 个。这一节将介绍由 Carroll 和 Chang 提出的解决这类问题的多维标度方法——权重多维标度法( WMDS )。基础权重多维标度法也称权重个体差异欧氏距离模型。

Page 36: 第十章    多维标度法

设由m个个体对 n个对象进行比较评测,得到m个 n n 不相似(相似)矩阵,然后将其转换为距离阵。每个距离阵都有自己的拟合构造空间,权重个体差异欧氏距离模型通过给予不同个体不同的权重综合得到m个个体的公共拟合构造空间。设 itX 表示 i对象在公共拟合构造空间的t维坐标,则

对于 i对象第 k 个个体在公共拟合构造空间的 t维坐标为 kitY

1/ 2kit kt itY w X (10.11)

Page 37: 第十章    多维标度法

其中 1/ 2ktw 为第 k个个体在 t维的权重。对于第 k 个个体,对

象 i和 j的欧氏距离为:

( ) ( ) 2

1

( )r

k kkij it jt

t

d Y Y

(10.12)

将(10.11)式代入(10.12)式可得

2 21 1 1( ) ( )kij k i j kr ir jrd w X X w X X

(10.13)

注意:(10.13)式中 1 2( , , , )k k k krw w w w 是个体间唯一不同的参数,而分析对象在公共感知图中的坐标则所有个体都相同。在此基础上可依据古典MDS求内积的(10.5)式得到如下公式:

Page 38: 第十章    多维标度法

2 2 2 22

1 1 1 1

1

1 1 1 1( )

2

n n n n

kij kij kij kij kiji j i j

r

kt it jtt

b d d d dn n n

w X X

(10.14) Carroll和 Chang采用非线性迭代最小平方法求得 X的最优解,得到公共拟合构造点。

Page 39: 第十章    多维标度法

第四节 实例分析与计算实现

一 多维标度法在 SPSS 中的实现

二 利用 SPSS 对本章美国十城市的例子 进行多维标度

Page 40: 第十章    多维标度法

一、多维标度法在 SPSS 中的实现 —— 实例 1

以 SPSS自带文件World95.sav 为例,对亚洲国家和地区的17 个国家的人口寿命情况进行分析。

(一)操作步骤: 1. 在 Data→Select case 对话框的 If 过滤条件中输入过滤条件 “ region=3” 。得到 17 个国家和地区。

2. 主菜单中选择 Analyze→Scale→Multidimensional Scaling (ALSCAL) 。就进入多维标度法的主对话框(图 10.3 )。在左上方是变量列表选择以下变量: urban (城市人口比例), lifeexpf (女性平均寿命), lifeexpm (男性平均寿命), gdp_cap (人均 GDP ), death_rt (千人死亡率),birth_rt (千人出生率), literacy (受教育人口比例)。由于原始数据不是距离阵,因此需要在下方 Distances单选项中选择 Create distances from data ,这时 Measure子对话框被激活,默认计算 Euclidean distance ,即欧氏距离。

Page 41: 第十章    多维标度法

图 10.3 多维标度法的主对话框

Page 42: 第十章    多维标度法

3. 点击进入Measure子对话框,对距离阵进行设定,(图 10.4 )。由于我们的变量都是连续数值型的,所以应在 Measure单选项中选择 Interval 。并在其下方的 Transform Values栏中选择变量标准化变换的方式,这里我们选择 Z scores和 By variable ,表示对变量进行正态标准化。然后在 Create Distance Matrix单选项中选择 Between cases ,表示计算样品之间的距离阵。设置完毕后,点击 Continue回到主对话框。

Page 43: 第十章    多维标度法

图 10.4 Measure子对话框

Page 44: 第十章    多维标度法

4. 在主对话框中点击进入Model子对话框,如图 10.5 。这里可以设定变量取值的类型。在 Level of Measurement 中选择 Interval ,即连续取值的数值型变量。其他设置无需改变,点击 Continue返回主对话框。

图 10.5 Model子对话框

Page 45: 第十章    多维标度法

5. 点击进入 Options子对话框(图 10.6 ),该对话框中提供了一些结果显示的选择。 Display栏中默认不输出任何图表。选择 Group plots项可得到多维标度图 , 这里图表的维度由 Model 中的 Dimensions 中填入最小维度 Minimum 和最大维度 Maximum 决定;择选 Data matrix项可得到距离阵和拟合构造点的坐标;而 Model and options summary 是显示出多维标度法中的参数设置,计算方法等。这里我们选择 Group plots 和 Data matrix项后,点击 Continue返回主对话框,再点击 OK运行。

Page 46: 第十章    多维标度法

图 10.6 Options子对话框

Page 47: 第十章    多维标度法

(二)结果分析:1. 样品验证表,发现有一个样品存在缺失值。查原始数据后发现 Taiwan缺少千人死亡率,该样品被去除。国家地区的编号如下(表 10.6 )。

Afghanistan var1 Indonesia var7 S . Korea var13

Bangladesh var2 Japan var8 Singapore var14

Cambodia var3 Malaysia var9 Taiwan *

China var4 N. Korea var10 Thailand var15

Hong Kong var5 Pakistan var11 Vietnam var16

India var6 Philippines var12

表 10.6 国家和地区的编号

Page 48: 第十章    多维标度法

2. SPSS 会依次输出原始距离阵(表 10.7 ),古典解的迭代过程和有关压力指标值(表 10.8 ),拟合构造点在二维空间中的坐标(表 10.9 ),以及最优标度的距离阵(表 10.10 )。在表 3 中, Young 氏压力指标值为 0.02289 , K压力指标为0.03880 ,都小于 0.05 。 RSQ=0.99485 。这些都说明模型拟合效果很好。

Raw (unscaled) Data for Subject 1

1 2 3 4 5

1 0

2 3.15 0

3 1.794 1.451 0

4 5.822 3.144 4.177 0

5 7.905 5.685 6.554 3.59 0

表 10.7 原始距离阵(部分)

Page 49: 第十章    多维标度法

Iteration history for the 2 dimensional solution (in squared distances)

Young's S-stress formula 1 is used.

Iteration S-stress Improvement

1 .03057

2 .02463 .00594

3 .02338 .00124

4 .02289 .00049

Iterations stopped because

S-stress improvement is less than .001000

Stress and squared correlation (RSQ) in distances

RSQ values are the proportion of variance of the scaled data (disparities)

in the partition (row, matrix, or entire data) which

is accounted for by their corresponding distances.

Stress values are Kruskal's stress formula 1.

For matrix

Stress = .03880 RSQ = .99485

表 10.8 压力指标检验

Page 50: 第十章    多维标度法

Configuration derived in 2 dimensions Stimulus Coordinates

Dimension Stimulus

Number

Stimulus Name 1 2

1 VAR1 2.8077 -.7825 2 VAR2 1.4351 .0200

3 VAR3 1.9799 -.2425

4 VAR4 -.1950 .5249

5 VAR5 -1.7190 -.7151

表 10.9 拟合点的在 2 维标度中的坐标(部分)

Page 51: 第十章    多维标度法

3. 接下来是欧氏距离下的 16 个国家和地区的拟合构造点的二维图(图 10.7 ),从图上可以看出比较发达的地区基本都在第三个象限,如香港,日本,新加坡。而中国和泰国,菲律宾等国较为接近。而线性拟合散点图(图 10.8 )从图形上告诉我们采用欧氏距离来拟合原始数据的距离阵是非常合适的。

Optimally scaled data (disparities) for subject 1

1 2 3 4 5

1

2

3

4

5

.000

1.676

.856

3.293

4.553

.000

.648

1.673

3.210

.000

2.298

3.736

.000

1.942

.000

表 10.10 最优标度的距离阵(部分)

Page 52: 第十章    多维标度法

-3 -2 -1 0 1 2 3

Dimension 1

-0.5

0.0

0.5

Dim

en

sio

n 2

VAR1

VAR2

VAR3

VAR4

VAR5

VAR6

VAR7

VAR8

VAR9

VAR10

VAR11

VAR12

VAR13

VAR14

VAR15VAR16

Euclidean distance model

Derived Stimulus Configuration

图 10.7 拟合构造点的二维坐标图

Page 53: 第十章    多维标度法

0 1 2 3 4 5

Disparities

0

1

2

3

4

5

Dis

tan

ce

s

Euclidean distance model

Scatterplot of Linear Fit

图 10.8 欧氏距离下的线性拟合散点图

Page 54: 第十章    多维标度法

二、利用 SPSS 对本章美国十城市的例子进行多维标度

(一)操作步骤: 1. 打开文件之后,在主对话框的 distances单选项中选择 Data are distances ,此时 shape 对话框被激活(图 10.9 ),默认距离形式为 Square symmetric 。

若原始数据的距离是对称的,则只需要输入三角阵即可,运算中 SPSS 会自动填充,如本例; Square asymmetric 表示不对称的距离阵;而 Rectangular 表示距离阵不是方阵,这时需要指定矩阵使用的行数 Number of rows ,该数值必需大于等于 4 。本例中选择 Square symmetric ,点击 Continue返回主对话框。

图 10.9 shape子对话框

Page 55: 第十章    多维标度法

2. 在 Options子对话框中选中 Group plots ,点击 Continue返回,再点击 OK运行。(二)结果分析:1. 首先观察压力指标(表 10.11 ), Young 氏指标值为 0.00291 , K 氏指标值为 0.00272 , RSQ=0.99996 ,说明欧氏距离模型拟合效果很好。

Page 56: 第十章    多维标度法

Iteration history for the 2 dimensional solution (in squared distances)

Young's S-stress formula 1 is used.

Iteration S-stress Improvement

1 .00291

Iterations stopped because

S-stress is less than .005000

Stress and squared correlation (RSQ) in distances

RSQ values are the proportion of variance of the scaled data (disparities)

in the partition (row, matrix, or entire data) which

is accounted for by their corresponding distances.

Stress values are Kruskal's stress formula 1.

For matrix

Stress = .00272 RSQ = .99996

表 10.11 压力指标检验

Page 57: 第十章    多维标度法

2. 拟合点的坐标(表 10.12 ),二维坐标图(图 10.10 )以及线性拟合散点图(图 10.11 )。从图 10.11 可以看出采用欧氏距离的拟合标度非常符合原始距离阵。各个城市之间的距离可以非常好地用图 10.10 中的散点来表示。

-2 -1 0 1 2

Dimension 1

-0.5

0.0

0.5

Dim

en

sio

n 2

atlanta

chicago

denver

houston

losangeles

miami

newyork

sanfran

seattlewashdc

Euclidean distance model

Derived Stimulus Configuration

图 10.10 欧氏距离模型下的二维散点图

Page 58: 第十章    多维标度法

Configuration derived in 2 dimensions

Stimulus Coordinates

Stimulus

Number

Dimension

Stimulus

Name

1 2

1

2

3

4

5

6

7

8

9

10

atlanta

chicago

denver

houston

losangel

miami

newyork

sanfran

seattle

washdc

.9575

.5090

-.6416

.2151

-1.6036

1.5101

1.4284

-1.8925

-1.7875

1.3051

-.1905

.4541

.0337

-.7631

-.5197

-.7752

.6914

-.1500

.7723

.4469

表 10.12 拟合点坐标

Page 59: 第十章    多维标度法

0 1 2 3 4

Disparities

0

1

2

3

4

Dis

tan

ce

s

Euclidean distance model

Scatterplot of Linear Fit

图 10.11 拟合散点图

Page 60: 第十章    多维标度法

本章结束