第三章

182
第第第 第第第第第第第第

description

第三章. 平稳时间序列分析. 本章结构. ARMA 模型 平稳序列建模 序列预测. 3. 1 ARMA 模型的性质. AR 模型( Auto Regression Model) MA 模型( Moving Average Model) ARMA 模型( Auto Regression Moving Average model ). AR 模型 的定义. 具有如下结构的模型称为 阶自回归模型,简记为 特别当 时,称为中心化 模型. AR(P) 序列中心化变换. 称 为 的中心化序列 ,令. 自回归系数多项式. - PowerPoint PPT Presentation

Transcript of 第三章

第三章

平稳时间序列分析

本章结构

ARMA 模型 平稳序列建模 序列预测

3.1 ARMA 模型的性质 AR 模型( Auto Regression Model ) MA 模型( Moving Average Model) ARMA 模型( Auto Regression

Moving Average model)

AR 模型的定义 具有如下结构的模型称为 阶自回归模型,

简记为

特别当 时,称为中心化 模型

tsEx

tsEVarE

xxxx

ts

sttt

p

tptpttt

,0

,0)(,)(0)(

02

22110

p)( pAR

00 )( pAR

AR(P) 序列中心化变换 称 为 的中心化序列 ,令

p

1

0

1

tt xy

}{ ty }{ tx

自回归系数多项式 引进延迟算子,中心化 模型又可以简

记为

自回归系数多项式

)( pAR

ttxB )(

pp BBBB 2

211)(

AR 模型平稳性判别 判别原因

AR 模型是常用的平稳序列的拟合模型之一,但并非所有的 AR 模型都是平稳的

判别方法 单位根判别法 平稳域判别法

例 3.1: 考察如下四个模型的平稳性

1(1) 0.8t t tx x

1(2) 1.1t t tx x

1 2(3) 0.5t t t tx x x

tttt xxx 11 5.0)4(

e<-rnorm(1000) x1=e;x2=e;x3=e;x4=e for(i in 3:1000) {x1[i]=0.8*x1[i-1]+e[i] x2[i]=-1.1*x2[i-1]+e[i] x3[i]=x3[i-1]-0.5*x3[i-2]+e[i] x4[i]=x4[i-1]+0.5*x4[i-2]+e[i] }

par(mfrow=c(2,2)) ts.plot(x1) ts.plot(x2) ts.plot(x3) ts.plot(x4)

例 3.1 平稳序列时序图

1(1) 0.8t t tx x 1 2(3) 0.5t t t tx x x

例 3.1 非平稳序列时序图

1(2) 1.1t t tx x tttt xxx 11 5.0)4(

AR 模型平稳性判别方法 特征根判别

AR(p) 模型平稳的充要条件是它的 p 个特征根都在单位圆内

根据特征根和自回归系数多项式的根成倒数的性质,等价判别条件是该模型的自回归系数多项式的根都在单位圆外

平稳域判别 平稳域

},,,{ 21 单位根都在单位圆内p

AR(1) 模型平稳条件 特征根

平稳域

1〈

AR(2) 模型平稳条件 特征根 平稳域

2

4

2

4

22

112

22

111

}11,{ 12221 ,且

例 3.1 平稳性判别

8.01 0.8

1.11 1.1

2

11

i

2

12

i

2 2 1 2 10.5, 0.5, 1.5

2

311

2

312

2 2 1 2 10.5, 1.5, 0.5

模型 特征根判别 平稳域判别 结

论(1) 平稳

(2)非

平稳

(3) 平稳

(4)非

平稳

平稳 AR 模型的统计性质 均值 方差 协方差 自相关系数 偏自相关系数

均值 如果 AR(p) 模型满足平稳性条件,则有

根据平稳序列均值为常数,且 为白噪声序列,有

推导出

p

1

0

1

)( 110 tptptt xxEEx

TtEEx tt ,0)(,

}{ t

Green 函数定义 AR 模型的传递形式

其中系数 称为 Green 函数},2,1,{ jG j

jtj

jj

p

ijt

jii

p

i jt

jii

p

it

i

itt

Gk

BkB

k

Bx

00 1

1 01

)(1)(

Green 函数递推公式 原理

方法 待定系数法

递推公式

pk

pk

jGG

Gk

kkj

j

kkj ,0

,,

,2,1

1

1

0

其中

tttt

tt BGBBGx

xB

)()()(

)(

方差 平稳 AR 模型的传递形式

两边求方差得

函数为GreenGGxVar jj

jt ,)( 2

0

2

jtj

jt Gx

0

例 3.2: 求平稳 AR(1) 模型的方差 平稳 AR(1) 模型的传递形式为

Green 函数为

平稳 AR(1) 模型的方差

iti

it

i

itt B

Bx

01

01

1

)(1

,1,0,1 jG jj

21

22

0

21

0

2

1)()(

j

jt

jjt VarGxVar

协方差函数 在平稳 AR(p) 模型两边同乘 ,再求期望

根据

得协方差函数的递推公式

)()()()( 11 kttktptpkttktt xExxExxExxE ktx 1, k

0)( ktt xE 1, k

pkpkkk 2211

例 3.3: 求平稳 AR(1) 模型的协方差 递推公式

平稳 AR(1) 模型的方差为

协方差函数的递推公式为

0111 kkk

21

2

0 1

1,1 2

1

2

1

kkk

例 3.4: 求平稳 AR(2) 模型的协方差 平稳 AR(2) 模型的协方差函数递推公式为

2

1

)1)(1)(1(

1

2211

2

011

2

21212

20

kkkk ,

自相关系数 自相关系数的定义

平稳 AR(P) 模型的自相关系数递推公式

0 k

k

1 1 2 2k k k p k p

常用 AR 模型自相关系数递推公式 AR(1) 模型

AR(2) 模型

0,1 kkk

2

11

0,1

2211

2

1

k

k

k

kk

k

AR 模型自相关系数的性质 拖尾性

呈复指数衰减1

( )p

ki i

i

k c

不能恒等于零pccc ,,, 21

1

( )p

ki i

i

k c

0

par(mfrow=c(2,2)) acf(x1) acf(x2) acf(x3) acf(x4)

例 3.5— 自相关系数按复指数单调收敛到零

1(1) 0.8t t tx x

例 3.5:— 1(2) 0.8t t tx x

例 3.5: 考察如下 AR 模型的自相关图

tttt

tttt

ttt

ttt

xxx

xxx

xx

xx

21

21

1

1

5.0)4(

5.0)3(

8.0)2(

8.0)1(

例 3.5:— 自相关系数呈现出“伪周期”性

1 2(3) 0.5t t t tx x x

例 3.5:— 自相关系数不规则衰减

1 2(4) 0.5t t t tx x x

偏自相关系数 定义对于平稳 AR(p) 序列,所谓滞后 k 偏自相关系数

就是指在给定中间 k-1 个随机变量 的条件下,或者说,在剔除了中间 k-1 个随机变量的干扰之后, 对 影响的相关度量。用数学语言描述就是

121 ,,, kttt xxx

ktx tx

2,,,)ˆ[(

)]ˆ)(ˆ[(11

ktkt

ktktttxxxx

xExE

xExxExEkttktt

偏自相关系数的计算 滞后 k 偏自相关系数实际上就等于 k 阶

自回归模型第 k 个回归系数的值。

02211

202112

112011

kkkkkkk

kkkkk

kkkkk

])ˆ[(

)]ˆ)(ˆ[(2

ktkt

ktktttkk

xExE

xExxExE

偏自相关系数的截尾性 AR(p) 模型偏自相关系数 P 阶截尾

pkkk ,0

par(mfrow=c(2,2)) pacf(x1) pacf(x2) pacf(x3) pacf(x4)

例 3.5 续 : 考察如下 AR 模型的偏自相关图

tttt

tttt

ttt

ttt

xxx

xxx

xx

xx

21

21

1

1

5.0)4(

5.0)3(

8.0)2(

8.0)1(

例 3.5— 理论偏自相关系数 样本偏自相关图

1(1) 0.8t t tx x

0.8 , 1

0 , 2kk

k

k

例 3.5:— 理论偏自相关系数 样本偏自相关图

1(2) 0.8t t tx x

0.8 , 1

0 , 2kk

k

k

例 3.5:— 理论偏自相关系数 样本偏自相关图

1 2(3) 0.5t t t tx x x

2, 1

30.5 , 2

0 , 3kk

k

k

k

例 3.5:— 理论偏自相关系数 样本偏自相关系数图

1 2(4) 0.5t t t tx x x

2, 1

30.5 , 2

0 , 3kk

k

k

k

MA 模型的定义 具有如下结构的模型称为 阶自回归模型,

简记为

特别当 时,称为中心化 模型

q)(qMA

0 )(qMA

1 1 2 2

2

0

( ) 0 ( ) , ( ) 0,

t t t t q t q

q

t t t s

x

E Var E s t

移动平均系数多项式 引进延迟算子,中心化 模型又可以简

记为

阶移动平均系数多项式

)(qMA

tt Bx )(q

qq BBBB 2

211)(

MA 模型的统计性质 常数均值

常数方差

)( qtqtttt EEx 2211

2221

2211

)1(

)()(

q

qtqtttt VarxVar

MA 模型的统计性质 自协方差函数 P 阶截

尾 自相关系数 P 阶截尾

q k

qk

kkq

iikik

q

k

,0

1 ,)(

0 ,)1(

2

1

2221

qk

qk

k

q

kq

iikik

k

,0

1 ,1

0 ,1

221

1

常用 MA 模型的自相关系数 MA(1) 模型 MA(2) 模型

2, 0

1, 1

0, 1

21

1

k

k

k

k

3, 0

2, 1

1, 1

0, 1

22

21

2

22

21

211

k

k

k

k

k

MA 模型的统计性质 偏自相关系数拖尾

))(( 11111 qktqktqtqtkk

零不会在有限阶之后恒为不恒为零 kkq ,1

例 3.6: 考察如下 MA 模型的相关性质

21

21

1

1

16

25

4

5)4(

25

16

5

4)3(

5.0)2(

2)1(

tttt

tttt

ttt

ttt

x

x

x

x

e<-rnorm(1000) x1=e;x2=e;x3=e;x4=e for(i in 3:1000) {x1[i]=e[i]-2*e[i-1] x2[i]=e[i]-0.5*e[i-1] x3[i]=e[i]-4/5*e[i-1]+16/25*e[i-2] x4[i]=e[i]-5/4*e[i-1]+25/16*e[i-2] }

par(mfrow=c(2,2)) ts.plot(x1) ts.plot(x2) ts.plot(x3) ts.plot(x4)

par(mfrow=c(2,2)) acf(x1) acf(x2) acf(x3) acf(x4)

par(mfrow=c(2,2)) pacf(x1) pacf(x2) pacf(x3) pacf(x4)

MA 模型的自相关系数截尾 11 2t t tx () 12 0.5t t tx ()

MA 模型的自相关系数截尾 1 2

4 163

5 25t t t tx () 1 2

5 254

4 16t t t tx ()

MA 模型的偏自相关系数拖尾 11 2t t tx () 12 0.5t t tx ()

MA 模型的偏自相关系数拖尾 1 2

4 163

5 25t t t tx () 1 2

5 254

4 16t t t tx ()

MA 模型的可逆性 MA 模型自相关系数的不唯一性

例 3.6 中不同的 MA 模型具有完全相同的自相关系数和偏自相关系数

2121

11

16

25

4

5)4(

25

16

5

4)3(

5.0)2(2)1(

tttttttt

tttttt

xx

xx

可逆的定义 可逆 MA 模型定义

若一个 MA 模型能够表示称为收敛的 AR模型形式,那么该 MA 模型称为可逆 MA模型

可逆概念的重要性 一个自相关系数列唯一对应一个可逆 MA

模型。

可逆 MA(1) 模型 1 tttx

1

1 tttx

21

t

t

B

x

1

tt

B

x

1

1

可逆,1 可逆,1

MA 模型的可逆条件 MA(q) 模型的可逆条件是:

MA(q) 模型的特征根都在单位圆内

等价条件是移动平滑系数多项式的根都在单位圆外

11

i

1i

逆函数的递推公式 原理

方法 待定系数法

递推公式

qk

qk

jII

Ik

kkj

j

kkj ,0

,,

,2,1

1

1

0

其中

tttt

tt xxBIBxBI

Bx

)()()(

)(

例 3.6 续 : 考察如下 MA 模型的可逆性

21

21

1

1

16

25

4

5)4(

25

16

5

4)3(

5.0)2(

2)1(

tttt

tttt

ttt

ttt

x

x

x

x

(1)—(2) 逆函数

逆转形式

不可逆 122 1 tttx

可逆 15.05.0 1 tttx

0

5.0k

ktk

t x

1,5.0

1

kI

kk

(3)—(4)

逆函数

逆转形式

可逆 1,125

16

5

412221 ttttx

,1,0,23,0

133,)1( 1

nnk

nnkI

kn

k

013

13

03

3 8.0)1(8.0)1(n

ntnn

nnt

nnt xx

不可逆 116

25

16

25

4

5221 ttttx

ARMA 模型的定义 具有如下结构的模型称为自回归移动平

均模型,简记为

特别当 时,称为中心化 模型

),( qpARMA

tsEx

tsEVarE

xxx

ts

sttt

qp

qtqttptptt

,0

,0)(,)(0)(

002

11110

00 ),( qpARMA

系数多项式 引进延迟算子,中心化 模型又可以

简记为

阶自回归系数多项式

阶移动平均系数多项式

),( qpARMA

tt BxB )()(

qq

q BBBB 2211)(

pp

p BBBB 2211)(

平稳条件与可逆条件 ARMA(p,q) 模型的平稳条件

P 阶自回归系数多项式 的根都在单位圆外 即 ARMA(p,q) 模型的平稳性完全由其自回归部分

的平稳性决定 ARMA(p,q) 模型的可逆条件

q 阶移动平均系数多项式 的根都在单位圆外 即 ARMA(p,q) 模型的可逆性完全由其移动平滑部

分的可逆性决定

0)( B

0)( B

传递形式与逆转形式 传递形式 逆转形式

1

1 )()(

jjtjt

tt

G

BBx

1,

1

1

0

kGG

Gk

jjjkjk

1

1 )()(

jjtjt

tt

xIx

xBB

1,

1

1

0

kII

Ik

jjjkjk

ARMA(p,q) 模型的统计性质 均值

协方差

自相关系数

ptEx

1

0

1

)(0

2

ikiiGGk

0

2

0

)0(

)()(

jj

jkjj

G

GGk

k

ARMA 模型的相关性 自相关系数拖尾 偏自相关系数拖尾

例 3.7: 考察 ARMA 模型的相关性 拟合模型 ARMA(1,1): 并直观地考察该模型自相关系数和偏自

相关系数的性质。

10.5 0.8t t t tx x

e<-rnorm(1000) x5=e for(i in 3:1000) x5[i]=0.5*x5[i-1]+e[i]-0.8*e[i-1] par(mfrow=c(2,2)) ts.plot(x5) acf(x5);pacf(x5)

自相关系数和偏自相关系数拖尾性 样本自相关图 样本偏自相关图

ARMA 模型相关性特征

模型 自相关系数 偏自相关系数

AR(P) 拖尾 P 阶截尾

MA(q) q 阶截尾 拖尾

ARMA(p,q) 拖尾 拖尾

3.3 平稳序列建模 建模步骤 模型识别 参数估计 模型检验 模型优化 序列预测

建模步骤平稳非白噪声序列

计算样本相关系数

模型识别

参数估计

模型检验

模型优化

序列预测

YN

计算样本相关系数 样本自相关系数 样本偏自相关系数

n

tt

kn

tktt

k

xx

xxxx

1

2

1

)(

))((̂

D

Dkkk ˆ

ˆˆ

模型识别 基本原则

选择模型

拖尾 P 阶截尾 AR(P)

q 阶截尾 拖尾 MA(q)

拖尾 拖尾 ARMA(p,q)

kk̂k̂

模型定阶的困难 因为由于样本的随机性,样本的相关系数不会

呈现出理论截尾的完美情况,本应截尾的 或 仍会呈现出小值振荡的情况

由于平稳时间序列通常都具有短期相关性,随着延迟阶数 , 与 都会衰减至零值附近作小值波动?当 或 在延迟若干阶之后衰减为小值波动时,什么情况下该看作为相关系数截尾,什么情况下该看作为相关系数在延迟若干阶之后正常衰减到零值附近作拖尾波动呢?

k k̂ kk̂

kk̂

k̂ kk̂

样本相关系数的近似分布 Barlett

Quenouille

nn

Nk ,)1

,0(~̂

nn

Nkk ,)1

,0(~̂

模型定阶经验方法 95%的置信区间

模型定阶的经验方法 如果样本 ( 偏 ) 自相关系数在最初的 d 阶明显大于

两倍标准差范围,而后几乎 95%的自相关系数都落在 2倍标准差的范围以内,而且通常由非零自相关系数衰减为小值波动的过程非常突然。这时,通常视为 ( 偏 ) 自相关系数截尾。截尾阶数为 d。

2 2ˆPr 0.95

2 2ˆPr 0.95

k

kk

n n

n n

例 2.5 续 选择合适的模型 ARMA 拟合 1950 年—— 1998 年北京市城乡居民定期储蓄比例序列。

x<-scan() 83.5 63.1 71 76.3 70.5 80.5 73.6 75.2 69.1 71.4 73.6 78.8 84.4 84.1 83.3 83.1 81.6 81.4 84 82.9 83.5 83.2 82.2 83.2 83.5 83.8 84.5 84.8 83.9 83.9 81 82.2 82.7 82.3 80.9 80.3 81.3 81.6 83.4 88.2 89.6 90.1 88.2 87 87 88.3 87.8 84.7 80.2

par(mfrow=c(3,1)) ts.plot(x) acf(x) pacf(x)

序列自相关图

序列偏自相关图

拟合模型识别 自相关图显示延迟 3 阶之后,自相关系数全部衰

减到 2倍标准差范围内波动,这表明序列明显地短期相关。但序列由显著非零的相关系数衰减为小值波动的过程相当连续,相当缓慢,该自相关系数可视为不截尾

偏自相关图显示除了延迟 1 阶的偏自相关系数显著大于 2倍标准差之外,其它的偏自相关系数都在 2倍标准差范围内作小值随机波动,而且由非零相关系数衰减为小值波动的过程非常突然,所以该偏自相关系数可视为一阶截尾

所以可以考虑拟合模型为 AR(1)

例 3.8美国科罗拉多州某一加油站连续 57天的 OVERSHORT

序列

x<-scan() 78 -58 53 -63 13 -6 -16 -14 3 -74 89 -48 -14 32 56 -86 -66 50 26 59 -47 -83 2 -1 124 -106 113 -76 -47 -32 39 -30 6 -73 18 2 -24 23 -38 91 -56 -58 1 14 -4 77 -127 97 10 -28 -17 23 -2 48 -131 65 -17

par(mfrow=c(3,1)) ts.plot(x) acf(x) pacf(x)

序列自相关图

序列偏自相关图

拟合模型识别 自相关图显示除了延迟 1 阶的自相关系数在 2倍标准差范围之外,其它阶数的自相关系数都在 2倍标准差范围内波动。根据这个特点可以判断该序列具有短期相关性,进一步确定序列平稳。同时,可以认为该序列自相关系数 1 阶截尾

偏自相关系数显示出典型非截尾的性质。 综合该序列自相关系数和偏自相关系数的性质,

为拟合模型定阶为 MA(1)

例 3.9 1880-1985 全球气表平均温度改变值差分序列

x<-scan() -0.4 -0.37 -0.43 -0.47 -0.72 -0.54 -0.47 -0.54 -0.39 -0.19 -0.4 -0.44 -0.44 -0.49 -0.38 -0.41 -0.27 -0.18 -0.38 -0.22 -0.03 -0.09 -0.28 -0.36 -0.49 -0.25 -0.17 -0.45 -0.32 -0.33 -0.32 -0.29 -0.32 -0.25 -0.05 -0.01 -0.26 -0.48 -0.37 -0.2 -0.15 -0.08 -0.14 -0.13 -0.12 -0.1 0.13 -0.01 0.06 -0.17 -0.01 0.09 0.05 -0.16 0.05 -0.02 0.04 0.17 0.19 0.05 0.15 0.13 0.09 0.04 0.11 -0.03 0.03 0.15 0.04 -0.02 -0.13 0.02 0.07 0.2 -0.03 -0.07 -0.19 0.09 0.11 0.06 0.01 0.08 0.02 0.02 -0.27 -0.18 -0.09 -0.02 -0.13 0.02 0.03 -0.12 -0.08 0.17 -0.09 -0.04 -0.24 -0.16 -0.09 0.12 0.27 0.42 0.02 0.3 0.09 0.05

x<-diff(x)

par(mfrow=c(3,1)) ts.plot(x) acf(x) pacf(x)

序列自相关图

序列偏自相关图

拟合模型识别 自相关系数显示出不截尾的性质 偏自相关系数也显示出不截尾的性质 综合该序列自相关系数和偏自相关系数

的性质,可以尝试使用 ARMA(1,1) 模型拟合该序列

参数估计 待估参数

个未知参数

常用估计方法 矩估计 极大似然估计 最小二乘估计

2p q 2

1 1, , , , , , ,p q

矩估计 原理

样本自相关系数估计总体自相关系数

样本一阶均值估计总体均值,样本方差估计总体方差

1 1 1 1

1 1

ˆ( , , , , , )

ˆ( , , , , , )

p q

p q p q p q

n

ii

xx

n

2

221

2212 ˆ

ˆˆ1

ˆˆ1ˆ x

q

p

例 3.10:求 AR(2) 模型系数的矩估计 AR(2) 模型 Yule-Walker 方程

矩估计( Yule-Walker 方程的解)

tttt xxx 2211

2112

1211

121

21 ˆ

ˆ1

ˆ1ˆ

21

212

2 ˆ1

ˆˆˆ

例 3.11:求MA(1) 模型系数的矩估计 MA(1) 模型 方程

矩估计

11 tttx

2 20 1 1 1

1 220 11 1

(1 )

1

1

21

1 ˆ2

ˆ411ˆ

例 3.12:求 ARMA(1,1) 模型系数的矩估计

ARMA(1,1) 模型 方程

矩估计

1111 tttt xx

1 1 1 1 11 2

0 1 1 1

2 1 1

( )(1 )

1 2

11

22

1

2

2

11

21 ˆ

ˆ21,

2,2

4

2,2

4

ˆ,ˆ

ˆˆ

c

ccc

ccc

对矩估计的评价 优点

估计思想简单直观 不需要假设总体分布 计算量小(低阶模型场合)

缺点 信息浪费严重

只用到了 p+q 个样本自相关系数信息,其他信息都被忽略 估计精度差

通常矩估计方法被用作极大似然估计和最小二乘估计迭代计算的初始值

极大似然估计 原理

在极大似然准则下,认为样本来自使该样本出现概率最大的总体。因此未知参数的极大似然估计就是使得似然函数(即联合密度函数)达到最大的参数值

},,,);~(max{)~,;ˆ,,ˆ,ˆ( 21121 kk xpxxL

似然方程

由于 和 都不是 的显式表达式。因而似然方程组实际上是由 p+q+1 个超越方程构成,通常需要经过复杂的迭代算法才能求出未知参数的极大似然估计值

( )S ln

0~)

~(

2

1~

ln

2

1)~;

~(~

02

)~

(

2)~;

~(

2

422

Sxl

Snxl

对极大似然估计的评价 优点

极大似然估计充分应用了每一个观察值所提供的信息,因而它的估计精度高

同时还具有估计的一致性、渐近正态性和渐近有效性等许多优良的统计性质

缺点 需要假定总体分布

最小二乘估计 原理

使残差平方和达到最小的那组参数值即为最小二乘估计值

2

11111 )(min

)~

(min)ˆ(

n

tqtqtptptt xxx

QQ

条件最小二乘估计 实际中最常用的参数估计方法 假设条件

残差平方和方程

解法 迭代法

0,0 txt

n

i

t

itit

n

it xxQ

1

2

11

1

2 ][)~

(

对最小二乘估计的评价 优点

最小二乘估计充分应用了每一个观察值所提供的信息,因而它的估计精度高

条件最小二乘估计方法使用率最高 缺点

需要假定总体分布

arima(x, order = c(0, 0, 0), seasonal = list(order = c(0, 0, 0), period = NA), xreg = NULL, include.mean = TRUE, transform.pars = TRUE, fixed = NULL, init = NULL, method = c("CSS-ML", "ML", "CSS"), n.cond, optim.method = "BFGS", optim.control = list(), kappa = 1e6)

例 2.5 续 确定 1950 年—— 1998 年北京市城乡居民定期储蓄比例序列拟合模型的口径 拟合模型: AR(1) 估计方法:极大似然估计 模型口径

ttt xx 169.017.25

17.16)ˆ( 2 Var

x1<-scan() 83.5 63.1 71 76.3 70.5 80.5 73.6 75.2 69.1 71.4 73.6 78.8 84.4 84.1 83.3 83.1 81.6 81.4 84 82.9 83.5 83.2 82.2 83.2 83.5 83.8 84.5 84.8 83.9 83.9 81 82.2 82.7 82.3 80.9 80.3 81.3 81.6 83.4 88.2 89.6 90.1 88.2 87 87 88.3 87.8 84.7 80.2

arima(x1, order = c(1, 0, 0),method = "ML")

例 3.8续 确定美国科罗拉多州某一加油站连续 57天的 OVERSHORTS 序列拟合模型的口径 拟合模型: MA(1) 估计方法:条件最小二乘估计 模型口径

tt Bx )82303.01(40351.4

929.2178)ˆ( 2 Var

x2<-scan() 78 -58 53 -63 13 -6 -16 -14 3 -74 89 -48 -14 32 56 -86 -66 50 26 59 -47 -83 2 -1 124 -106 113 -76 -47 -32 39 -30 6 -73 18 2 -24 23 -38 91 -56 -58 1 14 -4 77 -127 97 10 -28 -17 23 -2 48 -131 65 -17

arima(x2,order=c(0,0,1))

例 3.9续 确定 1880-1985 全球气表平均温度改变

值差分序列拟合模型的口径 拟合模型: ARMA(1,1) 估计方法:条件最小二乘估计 模型口径

11 9.0407.0003.0 tttt xx

016.0)ˆ( 2 Var

x3<-scan() -0.4 -0.37 -0.43 -0.47 -0.72 -0.54 -0.47 -0.54 -0.39 -0.19 -0.4 -0.44 -0.44 -0.49 -0.38 -0.41 -0.27 -0.18 -0.38 -0.22 -0.03 -0.09 -0.28 -0.36 -0.49 -0.25 -0.17 -0.45 -0.32 -0.33 -0.32 -0.29 -0.32 -0.25 -0.05 -0.01 -0.26 -0.48 -0.37 -0.2 -0.15 -0.08 -0.14 -0.13 -0.12 -0.1 0.13 -0.01 0.06 -0.17 -0.01 0.09 0.05 -0.16 0.05 -0.02 0.04 0.17 0.19 0.05 0.15 0.13 0.09 0.04 0.11 -0.03 0.03 0.15 0.04 -0.02 -0.13 0.02 0.07 0.2 -0.03 -0.07 -0.19 0.09 0.11 0.06 0.01 0.08 0.02 0.02 -0.27 -0.18 -0.09 -0.02 -0.13 0.02 0.03 -0.12 -0.08 0.17 -0.09 -0.04 -0.24 -0.16 -0.09 0.12 0.27 0.42 0.02 0.3 0.09 0.05

arima(x3,order=c(1,1,1)) x4=diff(x3) arima(x4,order=c(1,0,1))

模型检验 模型的显著性检验

整个模型对信息的提取是否充分 参数的显著性检验

模型结构是否最简

模型的显著性检验 目的

检验模型的有效性(对信息的提取是否充分) 检验对象

残差序列 判定原则

一个好的拟合模型应该能够提取观察值序列中几乎所有的样本相关信息,即残差序列应该为白噪声序列

反之,如果残差序列为非白噪声序列,那就意味着残差序列中还残留着相关信息未被提取,这就说明拟合模型不够有效

假设条件 原假设:残差序列为白噪声序列

备择假设:残差序列为非白噪声序列

0 1 2 0, 1mH m :

mkmH k ,:至少存在某个 1,01

检验统计量 (ljung-box test) LB 统计量 R(Box.test) Box.test (x, lag = 1, type =

"Ljung") 22

1

ˆ( 2) ( ) ~ ( )

mk

k

LB n n mn k

例 2.5 续 检验 1950 年—— 1998 年北京市城乡居民定期储蓄比例序列拟合模型的显著性

残差白噪声序列检验结果延迟阶数 LB 统计量 P 值 检验结论

6 5.83 0.3229拟合模型显著有效

12 10.28 0.505018 11.38 0.8361

x1<-scan() 83.5 63.1 71 76.3 70.5 80.5 73.6 75.2 69.1 71.4 73.6 78.8 84.4 84.1 83.3 83.1 81.6 81.4 84 82.9 83.5 83.2 82.2 83.2 83.5 83.8 84.5 84.8 83.9 83.9 81 82.2 82.7 82.3 80.9 80.3 81.3 81.6 83.4 88.2 89.6 90.1 88.2 87 87 88.3 87.8 84.7 80.2

xr1=resid(arima(x1,order=c(1,0,0))) Box.test (xr1, lag = 1, type = "Ljung") Box.test (xr1, lag = 6, type = "Ljung") Box.test (xr1, lag = 12, type = "Ljung") Box.test (xr1, lag = 18, type = "Ljung")

参数显著性检验 目的

检验每一个未知参数是否显著非零。删除不显著参数使模型结构最精简

假设条件

检验统计量mjHH jj 10:0: 10

)(~)

~(

ˆmnt

QamnT

jj

jj

例 2.5 续 检验 1950 年—— 1998 年北京市城乡居民定期储蓄比例序列极大似然估计模型的参数是否显著

参数检验结果检验参数 t统计量 P 值 结论

均值 46.12 <0.0001 显著

6.72 <0.0001 显著1

mar=arima(x1,order=c(1,0,0)) abs(mar$coef)/

sqrt(diag(mar$var.coef))

1-pnorm(abs(mar$coef)/sqrt(diag(mar$var.coef)))

例 3.8续 :对 OVERSHORTS 序列的拟合模型进行检验

残差白噪声检验

参数显著性检验

检验参数 t统计量 P 值 结论均值 - 3.75 <0.0004 显著

10.60 <0.0001 显著

延迟阶数 LB 统计量 P 值 结论6 3.15 0.6772 模型显著

有效12 9.05 0.6171

1

x2<-scan() 78 -58 53 -63 13 -6 -16 -14 3 -74 89 -48 -14 32 56 -86 -66 50 26 59 -47 -83 2 -1 124 -106 113 -76 -47 -32 39 -30 6 -73 18 2 -24 23 -38 91 -56 -58 1 14 -4 77 -127 97 10 -28 -17 23 -2 48 -131 65 -17

mar2=arima(x2,order=c(0,0,1)) xr2=resid(mar2) Box.test (xr2, lag = 6, type = "Ljung") Box.test (xr2, lag = 12, type = "Ljung") 1-pnorm(abs(mar2$coef)/

sqrt(diag(mar2$var.coef))) abs(mar2$coef)/

sqrt(diag(mar2$var.coef))

例 3.9续 : 对 1880-1985 全球气表平均温度改变值差分序列拟合模型进行检验

残差白噪声检验

参数显著性检验

检验参数 t统计量 P 值 结论16.34 <0.0001 显著

3.5 0.0007 显著

延迟阶数 LB 统计量 P 值 结论6 5.28 0.2595 模型显著

有效12 10.30 0.4247

1

1

x3<-scan() -0.4 -0.37 -0.43 -0.47 -0.72 -0.54 -0.47 -0.54 -0.39 -0.19 -0.4 -0.44 -0.44 -0.49 -0.38 -0.41 -0.27 -0.18 -0.38 -0.22 -0.03 -0.09 -0.28 -0.36 -0.49 -0.25 -0.17 -0.45 -0.32 -0.33 -0.32 -0.29 -0.32 -0.25 -0.05 -0.01 -0.26 -0.48 -0.37 -0.2 -0.15 -0.08 -0.14 -0.13 -0.12 -0.1 0.13 -0.01 0.06 -0.17 -0.01 0.09 0.05 -0.16 0.05 -0.02 0.04 0.17 0.19 0.05 0.15 0.13 0.09 0.04 0.11 -0.03 0.03 0.15 0.04 -0.02 -0.13 0.02 0.07 0.2 -0.03 -0.07 -0.19 0.09 0.11 0.06 0.01 0.08 0.02 0.02 -0.27 -0.18 -0.09 -0.02 -0.13 0.02 0.03 -0.12 -0.08 0.17 -0.09 -0.04 -0.24 -0.16 -0.09 0.12 0.27 0.42 0.02 0.3 0.09 0.05

mar3=arima(x3,order=c(1,1,1)) xr3=resid(mar3) Box.test (xr3, lag = 12, type =

"Ljung") Box.test (xr3, lag =6, type = "Ljung") abs(mar3$coef)/

sqrt(diag(mar3$var.coef)) 1-pnorm(abs(mar3$coef)/

sqrt(diag(mar3$var.coef)))

模型优化 问题提出

当一个拟合模型通过了检验,说明在一定的置信水平下,该模型能有效地拟合观察值序列的波动,但这种有效模型并不是唯一的。

优化的目的 选择相对最优模型

例 3.13: 拟合某一化学序列

x4<-scan() 1: 47 2: 64 3: 23 4: 71 5: 38 6: 64 7: 55 8: 41 9: 59 10: 48 11: 71 12: 35 13: 57 14: 40 15: 58 16: 44 17: 80 18: 55 19: 37 20: 74 21: 51 22: 57 23: 50 24: 60 25: 45 26: 57 27: 50 28: 45 29: 25 30: 59 31: 50 32: 71 33: 56 34: 74 35: 50 36: 58 37: 45 38: 54 39: 36 40: 54 41: 48 42: 55 43: 45 44: 57 45: 50 46: 62 47: 44 48: 64 49: 43 50: 52 51: 38 52: 59 53: 55 54: 41 55: 53 56: 49 57: 34 58: 35 59: 54 60: 45 61: 68 62: 38 63: 50 64: 60 65: 39 66: 59 67: 40 68: 57 69: 54 70: 23 71:

par(mfrow=c(3,1)) ts.plot(x4) pacf(x4) acf(x4)

mar4=arima(x4,order=c(0,0,2)) xr4=resid(mar4) Box.test (xr4, lag = 6, type = "Ljung") Box.test (xr4, lag = 12, type = "Ljung") 1-pnorm(abs(mar4$coef)/

sqrt(diag(mar4$var.coef))) abs(mar4$coef)/

sqrt(diag(mar4$var.coef))

mar42=arima(x4,order=c(1,0,0)) xr42=resid(mar42) Box.test (xr42, lag = 6, type = "Ljung") Box.test (xr42, lag = 12, type = "Ljung") 1-pnorm(abs(mar42$coef)/

sqrt(diag(mar42$var.coef))) abs(mar42$coef)/

sqrt(diag(mar42$var.coef))

序列自相关图

序列偏自相关图

拟合模型一 根据自相关系数 2 阶截尾,拟合 MA(2)

模型 参数估计

模型检验 模型显著有效 三参数均显著

tt BByield )31009.032286.01(17301.51 2

拟合模型二 根据偏自相关系数 1 阶截尾,拟合 AR(1) 模型 参数估计

模型检验 模型显著有效 两参数均显著

Byield t

t 42481.0126169.51

问题 同一个序列可以构造两个拟合模型,两

个模型都显著有效,那么到底该选择哪个模型用于统计推断呢?

解决办法 确定适当的比较准则,构造适当的统计量,确定相对最优

AIC准则 最小信息量准则( An Information

Criterion) 指导思想

似然函数值越大越好 未知参数的个数越少越好

AIC 统计量)(2)ˆln( 2 未知参数个数 nAIC

SBC准则 AIC准则的缺陷

在样本容量趋于无穷大时,由 AIC准则选择的模型不收敛于真实模型,它通常比真实模型所含的未知参数个数要多

SBC 统计量

))(ln()ˆln( 2 未知参数nnSBC

例 3.13 续 用 AIC准则和 SBC准则评判例 3.13 中

两个拟合模型的相对优劣

结果 AR(1) 优于 MA(2)

模型 AIC SBC

MA(2) 536.4556 543.2011AR(1) 535.7896 540.2866

mar4$aic mar42$aic

序列预测 线性预测函数

预测方差最小原则

10

t i t ii

x C x

( )ˆ ( ) min ( )

t lx t tVar e l Var e l

序列分解

1 1 1 1 1 1

ˆ( ) ( )t l t l t l l t l t l t

t t

x G G G G

e l x l

预测误差 预测值

)]([),,(

)(ˆ),,(

1

1

leVarxxxVar

lxxxxE

tttlt

ttlt

误差分析 估计误差

期望

方差

1111)( tlltltt GGle

1

0

22)]([l

iit GleVar

0)]([ leE t

AR(p) 序列的预测 预测值

预测方差

95%置信区间

)(ˆ)1(ˆ)(ˆ 1 plxlxlx tpt

221

21 )1()]([ lt GGleVar

1

2 2 21 1

12

ˆ ( ) 1t lx l z G G

例 3.14 已知某超市月销售额近似服从 AR(2) 模

型(单位:万元 /每月)

今年第一季度该超市月销售额分别为:101 , 96 , 97.2万元

请确定该超市第二季度每月销售额的 95%的置信区间

1 210 0.6 0.3 , ~ (0,36)t t t t tx x x N

例 3.14解:预测值计算 四月份

五月份

六月份

12.973.06.010)1(ˆ 233 xxx

432.973.0)1(ˆ6.010)2(ˆ 333 xxx

5952.97)1(ˆ3.0)2(ˆ6.010)3(ˆ 333 xxx

例 3.14解:预测方差的计算 GREEN 函数

方差

0

1 1 0

2 1 1 2 0

1

0.6

0.36 0.3 0.66

G

G G

G G G

6416.64)()]3([

96.48)()]2([

36)]1([

222

21

203

221

203

2203

GGGeVar

GGeVar

GeVar

例 3.14解:置信区间 公式

估计结果

))]([96.1)(ˆ,)]([96.1)(ˆ( 3333 leVarlxleVarlx

预测时期 95%置信区间四月份 ( 85.36 , 108.8

8 ) 五月份 ( 83.72 , 111.1

5) 六月份 ( 81.84 , 113.3

5)

例 2.5:北京市城乡居民定期储蓄比例序列拟合与预测图

MA(q) 序列的预测 预测值

预测方差

ql

qllx

q

liilti

t

,

,)(ˆ

ql

qlleVar

q

l

t,)1(

,)1()]([

2221

221

21

例 3.15 已知某地区每年常驻人口数量近似服从MA(3) 模型

(单位:万):

最近 3年的常驻人口数量及一步预测数量如下:

预测未来 5年该地区常住人口的 95%置信区间

121 2.06.08.0100 tttttx

年份 统计人数 预测人数2002 104 1102003 108 1002004 105 109

例 3.15解:随机扰动项的计算

4109105)1(ˆ

8100108)1(ˆ

6110104)1(ˆ

20032004

200220031

200120022

xx

xx

xx

t

t

t

例 3.15解:估计值的计算

100)5(ˆ

100)4(ˆ

8.1002.0100)3(ˆ

962.06.0100)2(ˆ

2.1092.06.08.0100)1(ˆ

1

21

t

t

tt

ttt

tttt

x

x

x

x

x

例 3.15解:预测方差的计算

51)1()]5([

51)1()]4([

50)1()]3([

41)1()]2([

25)]1([

223

22

21

223

22

21

222

21

221

2

t

t

t

t

t

eVar

eVar

eVar

eVar

eVar

例 3.15解:置信区间的计算

预测年份 95%置信区间2005 ( 99, 119 ) 2006 ( 83 , 109 ) 2007 ( 87 , 115) 2008 ( 86 , 114) 2009 ( 86 , 114)

ARMA(p,q) 序列预测 预测值

预测方差

0,

1,)(ˆ)(ˆ

kx

kkxkx

kt

tt

221

21

10 )()]([ lt GGGleVar

例 3.16 已知模型为:

且 预测未来 3 期序列值的 95%的置信区间。

1 10.8 0.6t t t tx x 0025.02

100 0.3x 100 0.01

例 3.16解:估计值的计算

14976.0)2(ˆ8.0)3(ˆ

1872.0)1(ˆ8.0)2(ˆ

234.06.08.0)1(ˆ

100100

100100

100100100

xx

xx

xx

例 3.16解:预测方差的计算 Green 函数

方差16.0

2.0

1

112

1011

0

GG

GG

G

002664.0)()]3([

0026.0)()]2([

0025.0)]1([

222

21

20100

221

20100

220100

GGGeVar

GGeVar

GeVar

例 3.16解:置信区间的计算

时期 95%置信区间101 ( 0.136 , 0.332) 102 ( 0.087 , 0.287) 103 (- 0.049, 0.251)

修正预测 定义

所谓的修正预测就是研究如何利用新的信息去获得精度更高的预测值

方法 在新的信息量比较大时——把新信息加入到旧的信息中,重新拟合模型

在新的信息量很小时——不重新拟合模型,只是将新的信息加入以修正预测值,提高预测精度

修正预测原理 在旧信息的基础上, 的预测值为

假设新获得一个观察值 ,则 的修正预测值为

修正预测误差为

预测方差为

ltx

11)(ˆ ttlt GGlx

ltx

1tx

)(ˆ)1(ˆ 1111111 lxGGGGlx ttltltltlt

2201 )1( tlltt GGle

222

201 )()]1([ lt GGleVar

一般情况 假设新获得 p 个观察值 ,则

的修正预测值为

修正预测误差为

预测方差为

ptt xx ,,1

ltx

)(ˆ)(ˆ 11 lxGGplx ttlptplpt

110)( ptplltpt GGple

221

20 )()]([ plpt GGpleVar

例 3.14 续 :假如四月份的真实销售额为 100 万元,求二季度后两个月销售额的修正预测值 计算四月份的预测误差

计算修正预测值

计算修正方差

4 4 3ˆ (1) 100 97.12 2.88x x

50.99)3(ˆ)2(ˆ

16.99)2(ˆ)1(ˆ

3424

3414

xGx

xGx

96.48)()]2([)]2([

36)]1([)]1([22

12034

22034

GGeVareVar

GeVareVar

修正置信区间

预测时期 修正前置信区间 修正后置信区间四月份 ( 85.36 , 108.8

8 ) 五月份 ( 83.72 , 111.1

5) ( 87.40, 110.9

2) 六月份 ( 81.84 , 113.3

5) ( 85.79, 113.2

1)

par(mfrow=c(3,1)) ts.plot(lh) pacf(lh) acf(lh) lhp=predict(arima(lh, order =

c(1,0,0)), n.ahead = 12)