第五章 统计数据关系的分析

117
1 第第第 计计计计计计计计

description

第五章 统计数据关系的分析. §5.1 相关分析. 变量间的关系可以分为两类 : 函数关系和相关关系。. 相关关系是研究变量间的相关关系的。. 相关分析方法 : 提出统计指标来描述变量间的相关关系。. 相关的分类 : a. 有正相关和负相关之分。 正相关 : 变量的增减性一致 ; 负相关 : 变量的增减性相反。 b. 有直线相关和曲线相关之分。. - PowerPoint PPT Presentation

Transcript of 第五章 统计数据关系的分析

Page 1: 第五章 统计数据关系的分析

1

第五章统计数据关系的分析

Page 2: 第五章 统计数据关系的分析

2

§5.1 相关分析

Page 3: 第五章 统计数据关系的分析

3

变量间的关系可以分为两类 : 函数关系和相关关系。

Page 4: 第五章 统计数据关系的分析

4

相关关系是研究变量间的相关关系的。

Page 5: 第五章 统计数据关系的分析

5

相关分析方法 : 提出统计指标来描述变量间的相关关系。

Page 6: 第五章 统计数据关系的分析

6

相关的分类 :a. 有正相关和负相关之分。

正相关 : 变量的增减性一致 ;负相关 : 变量的增减性相反。

b. 有直线相关和曲线相关之分。

Page 7: 第五章 统计数据关系的分析

7

例 : 从某大学男生中随机抽取 10名 , 测得其身高 , 体重数值如下 (米 , 公斤 ):(1.71,65),(1.63,63),(1.84,70),(1.90,75),(1.58,60),(1.60,55),(1.75,64),(1.78,69),(1.80,65),(1.64,58)考察体重与身高的关系 .

Page 8: 第五章 统计数据关系的分析

8

画散点图 : X- 身高 , Y- 体重在坐标平面上描出点 (Xi,Yi) , i=1,2…n

0

20

40

60

80

1. 5 1. 6 1. 7 1. 8 1. 9 2

x

y

Page 9: 第五章 统计数据关系的分析

9

定义 : 设样本为 (Xi,Yi) i=1,2, …,n

为 X与 Y 的样本相关系数 .

n

iYn

iY

n

iXn

iX

n

iYXn

iYiX

r

1

22

1

22

1

Page 10: 第五章 统计数据关系的分析

10

1. 为 1时 Y与 X 是完全的直线关系2. 为 0时 Y与 X 没有一点直线关系3. 接近 1时 Y与 X 的直线关系越强 4. 接近 0时 Y与 X 的直线关系越弱

1r

r

r

r

r

Page 11: 第五章 统计数据关系的分析

11

r 的等级分类 :1. 0<︱ r ≤︱ 0.3, 微弱相关 ;2. 0.3<︱ r ≤︱ 0.5, 低度相关 ;3.0.5<︱ r ≤︱ 0.8, 显著相关 ;4. ︱ r︱ >0.8 , 高度相关。

Page 12: 第五章 统计数据关系的分析

12

41790

1

2

n

i

iY

9088.0

24.6410417902723.1107935.29

4.64723.11088.1114

r

7935.29,4.64

,723.1,88.1114

1

2

1

n

i

i

i

n

i

i

XY

XYX

Page 13: 第五章 统计数据关系的分析

13

§5.2 回归分析5.2.1 一元线性回归分析

Page 14: 第五章 统计数据关系的分析

14

回归分析也是研究变量间的相关关系的。

Page 15: 第五章 统计数据关系的分析

15

回归分析方法 : 先提出一个模型把变量联系起来 , 然后把它加工成方程 , 此方程经检验有效后可用来预报。

Page 16: 第五章 统计数据关系的分析

16

一 . 一元线性回归模型 :Y=a+bX+其中 Y 为可观测随机变量 ,X 为可观测非随机变量 , 为不可观测随机变量 ,a,b 是常数。

Page 17: 第五章 统计数据关系的分析

17

任务是找 a,b 的估计代入后去除 .

=a+bXY

Page 18: 第五章 统计数据关系的分析

18

二 . 参数 a,b 的估计

Page 19: 第五章 统计数据关系的分析

19

Yi=a+bXi+i, ,i =1,2…n .

Q(a,b)=

使 Q(a,b) 达到最小的 a,b 的值称为 a,b 的最小二乘估计 , 这时称 =a+bX 为一元线性回归方程 , 它的图象称为回归直线。

ibXaiY ˆ

n

i ii

n

i iibXaYYY

1

2

1

Y

Page 20: 第五章 统计数据关系的分析

20

XbYaXnX

YXnYXb n

i i

n

i ii

;1

22

1

问题的解为:

Page 21: 第五章 统计数据关系的分析

21

对前例 :

7935.29,4.64

,723.1,88.1114

1

2

1

n

i

i

i

n

i

i

XY

XYX

6.49

1

22

1

n

i

i

n

i

ii

XnX

YXnYX

b

6.216.49723.14.64 XbYa

Page 22: 第五章 统计数据关系的分析

22

因此所求的一元线性回归方程为 : = -21.06+49.6XY

Page 23: 第五章 统计数据关系的分析

23

三 . 一元线性回归方程的有效性检验

Page 24: 第五章 统计数据关系的分析

24

记SSY= 称为总偏差平方和

SSR= 称为回归平方和 SSE= 称为误差平方和

n

iYiY

1

2

n

iYiY

1

n

iiYiY

1

Page 25: 第五章 统计数据关系的分析

25

定理 : 下面分解式成立 SSY=SSR+SSE

Page 26: 第五章 统计数据关系的分析

26

10 SSY

SSR1. 比值为 1时 Y与 X 是完全的直线关系2. 比值为 0时 Y与 X 没有一点直线关系3. 比值接近 1时 Y与 X 的直线关系越强 4. 比值接近 0时 Y与 X 的直线关系越弱

Page 27: 第五章 统计数据关系的分析

27

定理 : 2rSSY

SSR

Page 28: 第五章 统计数据关系的分析

28

四 . 预测 :设回归方程为 : =a+bX经检验有效后可应用它进行预测 .当 X=x0

时 ,Y0 的预测值为 :

Y

00ˆ bxaY

Page 29: 第五章 统计数据关系的分析

29

5.2.2 多元线性回归分析

Page 30: 第五章 统计数据关系的分析

30

k 元线性回归模型 :Y=b0+b1X1+…bkXk+

Page 31: 第五章 统计数据关系的分析

31

样本为 :(Yi,Xi1,Xi2, …,Xik) i=1,2, …,n

Page 32: 第五章 统计数据关系的分析

32

Q(b0,b1, …,bn)

=

使 Q(b0,b1, …,bn) 达到最小的 b0,b1, …,bn 的值依次称为 b0,b1, …,bn 的最小二乘估计 .

n

iikXkbiXbiXbbiY

1

222110

Page 33: 第五章 统计数据关系的分析

33

这时称 =b0+b1X1+…bkXk

k 元线性回归方程 .

Y

Page 34: 第五章 统计数据关系的分析

34

其中 是 bi 的最小二乘估计 ,i=0,1,2, …,k

knknn

k

k

n b

bb

b

XXX

XXXXXX

X

Y

YY

Y

ˆ

ˆˆ

ˆ,

1

11

, 1

0

~

21

22221

11211

2

1

~

ˆib

Page 35: 第五章 统计数据关系的分析

35

最小二乘估计的表达式 .

~

'1'

~ˆ YXXXb

Page 36: 第五章 统计数据关系的分析

36

5.2.3 可线性化模型的回归分析

Page 37: 第五章 统计数据关系的分析

37

1. 一元曲线回归模型例 : 双曲线回归模型为 :

Y=a+b +X

1

Page 38: 第五章 统计数据关系的分析

38

令 原模型可化为 : Y=a+b + 应用数据 i=1,2, …,n求得回归方程 =a+b

XX

1

X

Y X

iYiX

iYiX ,1

,

Page 39: 第五章 统计数据关系的分析

39

由此可得双曲线回归方程 : =a+bY X

1

Page 40: 第五章 统计数据关系的分析

40

2. 多项式回归模型 :Y=令则原模型化为 k 元线性回归模型 :

kk XbXbXbb 2

210

kk XXXXXX ,,, 2

21

kk XbXbbY 110

Page 41: 第五章 统计数据关系的分析

41

设样本为 :(Xi,Yi), i=1,2, …,n由 可以得到 X1,X2,

…,Xk 的取值 , 从而可求得 b0,b1, …,bk 的最小二乘估计 .

ii XX

Page 42: 第五章 统计数据关系的分析

42

k 元线性回归方程 : =b0+b1X1+…bkXk

等量代换得 k 阶多项式回归方程 :

Y

kk XbXbXbbY 2

210ˆ

Page 43: 第五章 统计数据关系的分析

43

§5.3. 动态数列分析

Page 44: 第五章 统计数据关系的分析

44

概念回忆 : 按时间次序排列的数据序列 . 也称动态数列或时间数列 .

Page 45: 第五章 统计数据关系的分析

45

 

5.3.1 动态数列的影响因素

Page 46: 第五章 统计数据关系的分析

46

一 . 时间序列的构成要素 时间序列各项指标数值的不同,是由许多因素共同作用的结果。影响因素归纳起来大体有四类。

Page 47: 第五章 统计数据关系的分析

47

一、长期趋势 (T) 。指现象在一段较长的时间内发展水平持续的沿着一个方向,逐渐向上或向下变动或保持平稳的趋势。

Page 48: 第五章 统计数据关系的分析

48

例如粮食生产由于种植方法的不断改良、日益发达的农田水利等因素的影响,从较长时间来看,总趋势是持续增加,向上发展的 . 认识和掌握事物的长期趋势,可以把握事物发展变化的基本特点。

Page 49: 第五章 统计数据关系的分析

49

二、季节变动 (S) 。指现象受季节性因素影响而发生的变动。其变动的特点是,在一年或更短的时间内使现象呈周期性重复的变化。引起季节变动的原因既有自然因素,也有人为因素,如气候条件、节假日以及风俗习惯等等。认识和掌握季节变动,对管理部门作决策有重要的作用 .

Page 50: 第五章 统计数据关系的分析

50

三、循环变动 (C) 。指现象发生周期比较长的涨落起伏的变动 .通常周期少则三年 , 一般在五年以上 .

Page 51: 第五章 统计数据关系的分析

51

四 . 不规则变动 (R) 。指除了受以上各种变动的影响以外,还受偶然因素或不明原因而引起的变动 . 其变化无规则可循 .

Page 52: 第五章 统计数据关系的分析

52

二 . 时间序列模型 设 X 表示指标值 ,T,S,C,R分别表示四种构成因素 .称 X=f(T,S,C,R) 为时间序列模型 .

Page 53: 第五章 统计数据关系的分析

53

5.3.2 动态数列模型 ( 两种常见的时间序列模型 )

Page 54: 第五章 统计数据关系的分析

54

⑴ 加法模型 X=T+S+C+R其中 T 取非负值 ,S,C取值可正可负 , 要求它们的平均值为 0.

Page 55: 第五章 统计数据关系的分析

55

当时间序列指标值是年度数据 , 这时不能考虑 S, 当时间序列指标值只有若干年 (<10年 ) 的月份或季度数据 , 这时不能考虑 C. 有下面特例 : X= T+S+R; X= T+C+R;

Page 56: 第五章 统计数据关系的分析

56

⑵乘法模型 X=T×S×C×R这时 T,S,C均取非负值 , 要求平均值为 1.特例 : X= T×S×R; X= T×C×R;

Page 57: 第五章 统计数据关系的分析

57

模型的选择先介绍时间序列图设时间序列为 : 时间 t1,t2,…,tn

指标值 x1,x2,…,xn

在坐标平面上描点 (ti,xi),i=1,2,…,n, 依次用线连接这些点就是时间序列图 .

Page 58: 第五章 统计数据关系的分析

58

若时间序列图夹在两条平行线之间 , 可选用加法模型 ; 若时间序列图夹在两条喇叭型线之间 , 可选用乘法模型 .

Page 59: 第五章 统计数据关系的分析

59

5.3.3 动态数列的直观预报法

Page 60: 第五章 统计数据关系的分析

60

直观预报法中简单易用的是建立方程进行预报。

Page 61: 第五章 统计数据关系的分析

61

方法 . 设指标值用 X 表示 , 时间用 t 表示 .建立数学模型 X=f(t) 来预测 , 它是一种简单的方法。

Page 62: 第五章 统计数据关系的分析

62

根据现象发展的表现形态的不同,可分为直线模型和曲线模型。可以画散点图选择。

Page 63: 第五章 统计数据关系的分析

63

设时间序列为 :时间 t1,t2,…,tn指标值 x1,x2,…,xn

在坐标平面上描点(ti,xi),i=1,2,…,n, 这些点组成的图就是散点图 .

Page 64: 第五章 统计数据关系的分析

64

若散点分布在一条直线附近可选用直线方程 ; 若散点分布在一条曲线附近可选用曲线方程 .

Page 65: 第五章 统计数据关系的分析

65

例 4.5.1 根据某地1995年~ 2000年粮食产量的资料,试预测 2001年该地粮食产量。表 : 某地 1995年~

2000年粮食产量的资料

年 份 时间代码

粮食产量(万吨 )

1995 1 85.6

1996 2 91.0

1997 3 96.1

1998 4 101.2

1999 5 107.0

2000 6 112.2

Page 66: 第五章 统计数据关系的分析

66

0

20

40

60

80

100

120

0 2 4 6 8

Page 67: 第五章 统计数据关系的分析

67

解 : t=21, X=593.1, =91, Xt=2168.9

2t

23.806

2132.5

6

1.593

32.5

6

21691

6

21

6

9169.2168

22 2

tbXa

tnt

tXnXtb

Page 68: 第五章 统计数据关系的分析

68

∴所求的直线趋势方程为 : =80.23+5.32tX

Page 69: 第五章 统计数据关系的分析

69

有了趋势方程可以进行预则 . 在本例中若要预测 2002年该地的粮食产量 ,把 2002年对应的时间代码 t=8 代入即可得到预则值 . =80.23+5.32×8 =122.79(万吨 )X

Page 70: 第五章 统计数据关系的分析

70

Page 71: 第五章 统计数据关系的分析

71

5.3.4 加法模型与乘法模型的预报方法

Page 72: 第五章 统计数据关系的分析

72

一 . 时间序列各种因素的测定

Page 73: 第五章 统计数据关系的分析

73

(一 ) 长期趋势的测定 长期趋势是时间数列的主要构成要素之一,它是指现象在较长时期内持续发展变化的一种趋向或状态。

Page 74: 第五章 统计数据关系的分析

74

通过对现象发展的长期趋势的测定与分析 , 可以掌握其活动的规律性 ,并对未来的发展趋势作出推断 .此外 , 测定长期趋势的目的之一 , 也是为了将其从时间数列中予以消除 , 以便观察与测定其他各影响因素。

Page 75: 第五章 统计数据关系的分析

75

长期趋势的分析方法 : 为了体现这种趋势的状态和走句 ,需要把波动修匀 . 长期趋势的测定方法有多种,这里只介绍几种常用的方法。

Page 76: 第五章 统计数据关系的分析

76

1. 随手描绘法 画出时间序列图 ,由图的走向大致可以看出长期趋势是否存在 .

Page 77: 第五章 统计数据关系的分析

77

2. 时期扩大法 通过扩大原时间数列的时间间隔,构造一个新的时间数列来体现是否存在长期趋势 .

Page 78: 第五章 统计数据关系的分析

78

3.移动平均法 移动平均法是测定长期趋势的一种比较简单、有效的常用方法。

Page 79: 第五章 统计数据关系的分析

79

从时间数列的第一项开始 , 按一定项数 . 求序时平均数 , 逐项移动,得出一个由移动平均数构成的时间数列,由这些平均数形成的新的时间数列对原时间数列的波动起到一定修匀作用,削弱了原数列中短期偶然因素的影响,从而呈现出现象发展的长期趋势。

Page 80: 第五章 统计数据关系的分析

80

按 K 项移动的计算公式 :

k

XXXX k

21

1

k

XXXX k 132

2

k

XXXX kiiii

11

Page 81: 第五章 统计数据关系的分析

81

移动平均法根据资料的特点及研究的具体任务 ,选择移动平均的项数 .

Page 82: 第五章 统计数据关系的分析

82

奇数项移动平均的所得值应放在中间一项对应的位置上,偶数项移动平均的所得值应放在中间二项位置中间,它须要移正平均 ,即再作一次二项移动平均,才得到最后的趋势值。

Page 83: 第五章 统计数据关系的分析

83

Page 84: 第五章 统计数据关系的分析

84

被移动平均的项数越多 , 对原数列的修匀作用就越大 ,但得到的新动态数列项数越少 .

Page 85: 第五章 统计数据关系的分析

85

4. 数学模型法 . 设指标值用 X 表示 , 时间用 t 表示 .建立数学模型 X=f(t) 来测定长期趋势 , 是应用较广的一种方法 .

Page 86: 第五章 统计数据关系的分析

86

现象发展的长期趋势根据其表现形态的不同,可分为直线趋势和曲线趋势。可以画散点图选择 .

Page 87: 第五章 统计数据关系的分析

87

设时间序列为 :时间 t1,t2,…,tn指标值 x1,x2,…,xn

在坐标平面上描点(ti,xi),i=1,2,…,n, 这些点组成的图就是散点图 .

Page 88: 第五章 统计数据关系的分析

88

若散点分布在一条直线附近可选用直线方程 ; 若散点分布在一条曲线附近可选用曲线方程 .

Page 89: 第五章 统计数据关系的分析

89

A. 直线趋势方程 =a+bt其中 a,b 可由下面计算公式得到 :

X

tbXatnt

tXnXtb

,

22

Page 90: 第五章 统计数据关系的分析

90

用上述公式来计算的方法称为最小二乘法 . 其中时间 t 可选时间代码 , t=1,2,…,n 来代替原来时间 t1,t2,…,tn, 这样计算简单 , 不影响问题的讨论 .

Page 91: 第五章 统计数据关系的分析

91

例 .根据某地 1995~2000年粮食产量的资料应用最小二乘法建立直线趋势方程 .

Page 92: 第五章 统计数据关系的分析

92

  年 份 时间代码 粮食产量 (万

吨 )

1995 1 85.6

1996 2 91.0

1997 3 96.1

1998 4 101.2

1999 5 107.0

2000 6 112.2

Page 93: 第五章 统计数据关系的分析

93

B. 曲线趋势方程

Page 94: 第五章 统计数据关系的分析

94

(二 ) 季节变动分析 常见的方法有按月 ( 或季 )平均法和移动平均趋势剔除法 . 主要是计算季节比率 ( 也称季节指数 ) 来反映季节变动 . 季节比率高受季节变动影响处于高峰 ; 季节比率小受季节变动影响处于低潮 .

Page 95: 第五章 统计数据关系的分析

95

前提条件 : 要有若干年的分期( 如月或季度 )资料 .(一 )  按月 ( 或季 ) 平均法季节比率 = 同月 ( 或同季度 )平均数除以所有月 ( 或季度 )平均数 .可用下式表示 :

一般 N=4或 12

NiX

XS ii ,,2,1,

Page 96: 第五章 统计数据关系的分析

96

注 : 对乘法模型当 Si≠N时 , 要计算调整的季节比率 :

i=1,2,…,N

N

j

j

ii

S

NSS

1

Page 97: 第五章 统计数据关系的分析

97

例 . 某地区鸡蛋产量资料如下 :(单位 :吨 )

Page 98: 第五章 统计数据关系的分析

98

  1月 2月 3月 4月 5月

6月

1996年 39 63 232 302 268 201

1997年 49 93 240 327 297 249

1998年 49 120 250 350 320 290

合 计 137 276 722 979 885 740

7月 8月 9月 10月

11月

12月

1996年 136 88 56 42 44 48

1997年 145 84 64 63 63 65

1998年 150 80 72 80 80 63

合 计

431 252 192 185 187 176

Page 99: 第五章 统计数据关系的分析

99

试根据上表资料 ,采用按月平均法计算 1,4,7三个月的季节比率 ,并回答这几个月的季节比率说明什么问题 .

Page 100: 第五章 统计数据关系的分析

100

解 : 36∵ 个月鸡蛋总产量=51622 36∴ 个月鸡蛋总月平均数 =5162÷36=143.39 再计算三年同月平均数 :1月 137÷3=45.674月 979÷3=326.337月 431÷3=143.67

Page 101: 第五章 统计数据关系的分析

101

∴1,4,7月的季节比率分别为 :S1=45.67÷143.43=31.85%S4=326.33÷143.39=227.58%S7=143.67÷143.39=100.19%计算结果表明 1月的季节比率为 31.85%处于淡季 ; 4月的季节比率为 227.58 %处于旺季 ;7月的季节比率为 100.19%处于不淡不旺季 .

Page 102: 第五章 统计数据关系的分析

102

(二 )    移动平均趋势剔除法 该方法的基本思想是先将时间数列中的长期趋势予以消除,然后再计算季节比率来测定季节变动。其中数列中的长期趋势值可采用移动平均法求得。称为移动平均趋势剔除法 . 此方法比按月 (季 ) 平均法精细 .

Page 103: 第五章 统计数据关系的分析

103

下面介绍此方法 . 假定时间数列模型为 :X=T×S×R

Page 104: 第五章 统计数据关系的分析

104

可将移动平均趋势剔除法测定季节变动的步骤概括如下:( 1 )根据各年的月(季)资料,计算 12 项(或 4 项)移动平均趋势值T ;( 2 )将各实际值除以相应的趋势值,即得 X/ T=S×R;( 3 )将 S×R 重新按月(季)排列,求得同月(同季)平均数,再将其除以总平均数,即得季节比率 Si 。

Page 105: 第五章 统计数据关系的分析

105

二 . 加法模型和乘法模型的预报若用上面模型 : X=T×S×R预报公式为 :

iSTX ˆˆ

Page 106: 第五章 统计数据关系的分析

106

若要用过去 , 现在资料预报将来某时刻的指标值 . 先可以计算趋势值数列 (ti,Ti), 利用此数列给出将来某时刻 T 的估计值 , 再用移动平均趋势剔除法计算得季节比率 Si . 这样再用预报公式可得预报值 .

Page 107: 第五章 统计数据关系的分析

107

例 . 某地区记录的 4年中为某类商品登的广告数资料如下:

季年份

1 2 3 4

1996 59 71 43 65

1997 62 80 52 75

1998 62 82 48 72

1999 65 85 55 82

Page 108: 第五章 统计数据关系的分析

108

试应用乘模型预测 2000年第 1季度、第 2季度的广告数 .

Page 109: 第五章 统计数据关系的分析

109

年份 . 季度

广告数 X 四项移动 ,再移正平均T

X / T

1996 . 1 59 — —

2 71 — —

3 43 59.9 0.7

4 65 61.4 1.1

1997 . 1 62 63.6 1.0

2 80 66.0 1.2

3 52 67.3 0.8

4 75 67.5 1.1

Page 110: 第五章 统计数据关系的分析

110

1998 . 1 62 67.3 0.9

2 82 66.4 1.2

3 48 66.4 0.7

4 72 67.2     1.1

1999 . 1 65 68.4 1.0

2 85 70.5 1.2

3 55 — —

4 82 — —

Page 111: 第五章 统计数据关系的分析

111

季年份

1 2 3 4

1996 — — 0.7 1.1

1997 1.0 1.2 0.8 1.1

1998 0.9 1.2 0.7 1.1

1999 1.0 1.2 — —

Si 0.97 1.2 0.73 1.1

Page 112: 第五章 统计数据关系的分析

112

建立直线趋势方程 :由 (ti,Ti),i=1,2, …,n

38.61

71.022

tbTa

tnt

TtntTb

Page 113: 第五章 统计数据关系的分析

113

因此直线趋势方程为 :

tT 71.038.61ˆ

03.72

1571.038.61ˆ1.2000

T

74.72

1671.038.61ˆ2.2000

T

Page 114: 第五章 统计数据关系的分析

114

所以 2000年第 1季度的 ,第 2季度广告数的预测值分别为 :

=69.87≈70(个)

=87.288≈87(个)

97.003.72ˆˆ11.20001.2000 STX

2.174.72ˆˆ22.20002.2000 STX

Page 115: 第五章 统计数据关系的分析

115

Page 116: 第五章 统计数据关系的分析

116

Page 117: 第五章 统计数据关系的分析

117