第二章 回归模型 学习要求:掌握一元及多元线性回归模型的基本理论与方 法、参数的普通最小二乘估计式及相关性质、对模型的经济意
第四章 多元线性回归模型
-
Upload
russell-barron -
Category
Documents
-
view
104 -
download
8
description
Transcript of 第四章 多元线性回归模型
1
第四章 多元线性回归模型
简单线性回归模型的推广
2
第一节 多元线性回归模型的概念 在许多实际问题中,我们所研究的因变量的变动可能不仅与一个解释变量有关。因此,有必要考虑线性模型的更一般形式,即多元线性回归模型: t=1,2,…,n
在这个模型中, Y 由 X1,X2,X3, …XK 所解释,有 K+1 个未知参数 β0 、 β1 、 β2 、… βK 。
这里,“斜率” βj 的含义是其它变量不变的情况下, Xj 改变一个单位对因变量所产生的影响。
tktkttt XXXY uβ...βββ 22110
3
例 1 : 其中, Y= 在食品上的总支出 X= 个人可支配收入 P= 食品价格指数
用美国 1959-1983 年的数据,得到如下回归结果(括号中数字为标准误差): Y 和 X 的计量单位为 10 亿美元 ( 按 1972 不变价格计算).
uβββ 210 PXY
)114.0()003.0()6.9(
99.0739.0112.07.116ˆ 2 RPXY
),(数总消费支出价格平减指
食品价格平减指数1001972100 P
4
多元线性回归模型中斜率系数的含义
上例中斜率系数的含义说明如下: 价格不变的情况下,个人可支配收入每上升 10亿美元( 1 个 billion ),食品消费支出增加 1.12亿元( 0.112 个 billion )。
收入不变的情况下,价格指数每上升一个点, 食品消费支出减少 7.39 亿元( 0.739 个 billion )
5
例 2 :
其中, Ct= 消费, Dt= 居民可支配收入 Lt= 居民拥有的流动资产水平 β2 的含义是,在流动资产不变的情况下,可支配收入变动一个单位对消费额的影响。这是收入对消费额的直接影响。
收入变动对消费额的总影响 = 直接影响 + 间接影响。 (间接影响:收入影响流动资产拥有量影响消费额)
但在模型中这种间接影响应归因于流动资产,而不是收入,因而, β2 只包括收入的直接影响。 在下面的模型中:
这里, β 是可支配收入对消费额的总影响,显然 β 和 β2
的 含义是不同的。
tttt uLDC 321 βββ
ntuDC ttt ,...,2,1,
6
回到一般模型 t=1,2,… , n
即对于 n 组观测值,有
tktkttt XXXY uβ...βββ 22110
nKnKnnnn
KK
KK
uXXXXY
uXXXXY
uXXXXY
β...ββββ
......
β...ββββ
β...ββββ
3322110
2232322212102
1131321211101
7
其矩阵形式为:
其中
nY
Y
Y
Y...
2
1
Knn
K
K
XX
XX
XX
X
...1
............
...1
...1
1
212
111
uXY
nK
u
u
u
u...
,
...
2
1
2
1
0
8
第二节 多元线性回归模型的估计
多元线性回归模型的估计与双变量线性模型类似,仍采用最小二乘法。当然,计算要复杂得多,通常要借助计算机。理论推导需借助矩阵代数。下面给出最小二乘法应用于多元线性回归模型的假设条件、估计结果及所得到的估计量的性质。
一.假设条件( 1 ) E(ut)=0, t=1,2,…,n
( 2 ) E(ui uj)=0, i≠j ( 3 ) E(ut
2)=σ2, t=1,2,…,n ( 4 ) Xjt 是非随机量, j=1,2, … k t=1,2, … n
9
除上面 4 条外,在多个解释变量的情况下,还有两个条件需要满足:
( 5 )( K+1 ) < n; 即观测值的数目要大于待估计的参数的个数 (要有足够数量的数据来拟合回归线)。
( 6 )各解释变量之间不存在严格的线性关系。
10
上述假设条件可用矩阵表示为以下四个条件:(1) E(u)=0
(2)
由于
显然, 仅当 E(ui uj)=0 , i≠j
E(ut2) = σ2, t=1,2,…,n
这两个条件成立时才成立,因此, 此条件相当前面条件 (2), (3) 两条,即各期扰动项互不相关,并具有常数方差。
n I uu E2 ,
) (
221
22212
12121
212
1
......
.................................
......
......
......
nnn
n
n
n
n uuuuu
uuuuu
uuuuu
uuu
u
u
u
uu
nIuuE 2)(
11
( 3 ) X 是 是一个非随机元素矩阵。
( 4 ) Rank(X) = (K+1) < n. ------ 相当于前面 (5) 、 (6) 两条
即矩阵 X 的秩 = ( K+1)< n
当然,为了后面区间估计和假设检验的需要,还要加 上一条:
( 5 ) ~ , t=1,2,…n),0( 2Ntu
12
二.最小二乘估计我们的模型是:
t=1,2,…n
问题是选择 ,使得残差平方和最小。 残差为:
k ˆ,....,ˆ,ˆ10
KtKtt
ttt
XXY
YYe
β....βˆ
ˆ
110
tktkttt XXXY uβ...βββ 22110
13
要使残差平方和
为最小,则应有:
我们得到如下 K+1 个方程(即正规方程):
21102 β...βˆ KtKttt XXYeS
0ˆ
...,,0ˆ
,0ˆ
10
K
SSS
14
按矩阵形式,上述方程组可表示为:
tktKtKtktkt
ttKttKttt
ttKttKtt
tKtKt
YXXXXX
YXXXXXX
YXXXXX
YXXn
2
110
2212120
112
1110
110
β......ββ
........................
β......ββ
β......ββ
β......ββ
15
=
)'( XX
β 'X Y
即 YXXX 'β)'(
21
1
2
11
1
...
............
...
...
KttKtKt
Ktttt
Ktt
XXXX
XXXX
XXn
Kβ
...
β
β
1
0
nKnKK
n
Y
Y
Y
XXX
XXX
...
...
............
...
1...11
2
1
21
11211
16
上述结果,亦可从矩阵表示的模型
出发,
完全用矩阵代数推导出来。
残差可用矩阵表示为:
其中:
βXY
YY
e
e
e
n
e...
2
1
uXY
17
残差平方和
)()(
YYYY
)β()β(
XYXY
)β)(β(
XYXY
ββββ XXXYYXYY
eeeS t2
18
注意到上式中所有项都是标量,且
故
令
用矩阵微分法,我们可得到
与采用标量式推导所得结果相同。由上述结果,我们有
β)ˆ( XYYX
βββ2 XXYXYYS
0β
)(
S
YXXX
β
YXXX
1)(β
19
YXXX
1)(β
三 . 最小二乘估计量 的性质 我们的模型为
估计式为 1. 的均值
β
β
βˆ XY
uXY
)uβ()( 1 XXXX
u)(β)( 11 XXXXXXX
u)(β 1 XXX
20
(由假设 3 ) ( 由假设 1)
即
这表明, OLS 估计量 是无偏估计量。
β
KKK E
E
E
E
β
...
β
β
)β(
......
)β(
)β(
β
...
β
β
1
0
1
0
1
0
β
)u()(β)β( 1
EXXXE
21
2. 的方差
为求 Var( ) ,我们考虑
这是一个( K+1 ) *(K+1) 矩阵,其主对角线上元素即构成 Var( ) ,非主对角线元素是相应的协方差,如下所示:
β
β
β
ββββE
22
)β(...)β,β()β,β(
............
)β,β(...)β()β,β(
)β,β(...)β,β()β(
10
1101
0100
KKK
K
K
VarCovCov
CovVarCov
CovCovVar
下面推导此矩阵的计算公式 .
KK
KK
E ββ...ββββ
ββ
...
ββ
ββ
110011
00
23
由上一段的结果,我们有因此,
uXXX
1)(ββ
11 uu XXXEXXX
11 XXXuuXXXE
uuββββ 11 XXXXXXEE
121 XXXIXXX n
211 XXXXXX
21 XX
24
如前所述,我们得到的实际上不仅是 的方差,而且是一个方差 -协方差矩阵,为了反映这一事实,我们用下面的符号表示之:
展开就是:
21)()β( XXCovVar
β
21
10
1101
0100
)(
)β()β,β()β,β(
............
)β,β(...)β()β,β(
)β,β(...)β,β()β(
XX
VarCovCov
CovVarCov
CovCovVar
KKK
K
K
25
3. 2 的估计 与双变量线性模型相似, 2 的无偏估计量是
这是因为我们在估计 的过程中,失去了(K+1 )个自由度。
4. 高斯 -马尔科夫定理
对于 以及标准假设条件( 1 ) - ( 4 ),
普通最小二乘估计量是最佳线性无偏估计量( BLUE)
)1(ˆ
2
2
Kn
et
kβ,...β,β 10
uβ XY
26
我们已在上一段中证明了无偏性,下面证明线性和最小方差性。证明的路子与双变量模型中类似,只不过这里我们采用矩阵和向量的形式。 由 OLS 估计量 的公式
可知 , 可表示为一个矩阵和应变量观测值向量 的乘积:
其中 是一个 (K+1)*n 非随机元素矩阵。
因而显然有 是线性估计量。
YXXX
1)(β
Y
Yk
XXXk 1)(
27
现设 为 的任意一个线性无偏估计量,即
其中 是一个 (K+1)*n 非随机元素矩阵。则
显然,若要 为无偏估计量,即 ,只有
, 为( K+1 )阶单位矩阵。
* Yc*
c
ucXcuXcYc )(*
Xc
uEcXc
ucXcEE
)(
)()( *
*)(E*
IXc I
28
的方差为:
我们可将 写成
从而将 的任意线性无偏估计量 与 OLS 估计量 联系起来。
*
cc
cuVarc
ucVar
ucXcVarVar
2
*
)(
)(
)()(
DXXXc 1)(
c
*
29
由 可推出:
即 因而有
由 从而 ,因此上式中间两项为 0 ,我们有
I Xc
IXDXXXX 1)(
IXDI
0XD
DDXXXDDXXXXXXXXX
DXXXDXXX
DXXXDXXXcc
1111
11
11
)()()()(
)()(
)()(
0XD 0DX
DDXXcc 1)(
30
因此
最后的不等号成立是因为 为半正定矩阵。这就证明了 OLS估计量 是 的所有线性无偏估计量中方差最小的。至此,
我们证明了高斯 -马尔科夫定理。
)ˆ(
)ˆ(
)(
)(
*)(
2
212
12
2
Var
DDVar
DDXX
DDXX
ccVar
DD
31
第三节 拟合优度
一.决定系数 R2
对于双变量线性模型
Y=α+βX + u我们有
其中, = 残差平方和
2
22 1
YY
eR
2e
32
对于多元线性模型
我们可用同样的方法定义决定系数:
为方便计算,我们也可以用矩阵形式表示 R2
uXXY KK ...110
TSS
RSS
TSS
ESSR
YY
eR
1
1
2
2
22
或
总变差解释变差
33
我们有:残差 ,其中,残差平方和:
YY
e
e
e
n
e...
2
1
βXY
)()(
2
YYYY
eeet
)β()β(
XYXY
)β)(β(
XYXY
ββββ XXXYYXYY
YXXXXXXYYXYY
1)(βββ
βXYYY
YXXYYXYY
βββ
34
而 将上述结果代入 R2 的公式,得到:
2222YnYYYnYYY
这就是决定系数
R2 的矩阵形式。
2
22 1
YY
eR
2
22
YY
eYY
2
2 )ˆ(
YnYY
XYYYYnYY
2
2ˆ
YnYY
YnXY
35
二.修正决定系数:
残差平方和的一个特点是,每当模型增加一个解释变量,并用改变后的模型重新进行估计,残差平方和的值会减小。 由此可以推论,决定系数是一个与解释变量的个数有关的量: 解释变量个数增加 减小 R2 增大
也就是说,人们总是可以通过增加模型中解释变量的方法来增大 R2 的值。因此,用 R2 来作为拟合优度的测度,不是十分令人满意的。
为此,我们定义修正决定系数 ( Adjusted )如下:
2R
2e
2R 2R
36
是经过自由度调整的决定系数,称为修正决定系数。
我们有:( 1 )
( 2 )仅当 K=0 时,等号成立。即
( 3 )当 K 增大时,二者的差异也随之增大。
( 4 ) 可能出现负值。
2R22 RR
22 RR
2R
)1(
)1(1
2
22
nYY
KneR
2
2
)1(
)1(1
YYKn
en
1
)1)(1(1
2
Kn
Rn
37
三.例子 下面我们给出两个简单的数值例子,以帮助理解这两节的内容 .
例 1 Yt = 1 + 2X2 t + 3X3 t + u t
设观测数据为: Y : 3 1 8 3 5 X2 : 3 1 5 2 4 X3 : 5 4 6 4 6 试求各参数的 OLS 估计值,以及 。
解:我们有
22 RR 和
38
641
421
651
411
531
5
3
8
1
3
XY
1298125
815515
25155
641
421
651
411
531
64645
42513
11111
XX
39
109
76
20
5
3
8
1
3
64645
42513
11111
YX
5.1
5.2
4
109
76
20
4/102/38
2/3110/45
810/4510/267
109
76
20
1298125
815515
25155
)(ˆ
1
1 YXXX
40
故回归方程为: 32 5.15.24ˆ XXY
2
22
ˆ
YnYY
YnXYR
5.106
5.1
5.2
4
1097620ˆ
XY
108
5
3
8
1
3
53813
YY
41
805
538135
22
Yn
9464.028
5.26
80108
805.1062
R
8928.0)35(
)9464.01(41
)1(
)1)(1(1
22
kn
RnR
42
例 2. 设 n = 20, k = 3, R2 = 0.70 求 。 解:
下面改变 n 的值,看一看 的值如何变化。我们有
若 n = 10 ,则 = 0.55
若 n = 5 , 则 = - 0.20 由本例可看出, 有可能为负值。这与 R2 不同 ( )。
2R
644.0)420(
)70.01(191
)1(
)1)(1(1
22
kn
RnR
2R
2R
10 2 R
2R
2R
43
第四节 非线性关系的处理
迄今为止,我们已解决了线性模型的估计问题。但在实际问题中,变量间的关系并非总是线性关系,经济变量间的非线性关系比比皆是。如大家所熟悉的柯布 -道格拉斯生产函数 :
就是一例。
在这样一些非线性关系中,有些可以通过代数变换变为线性关系处理,另一些则不能。下面我们通过一些例子来讨论这个问题。
LAKQ
44
一 . 线性模型的含义 线性模型的基本形式是 :
其特点是可以写成每一个解释变量和一个系数相乘的形式。
线性模型的线性包含两重含义:
( 1 )变量的线性 变量以其原型出现在模型之中,而不是以 X2或 Xβ
之 类的函数形式出现在模型中。
( 2 )参数的线性 因变量 Y 是各参数的线性函数。
......22110 XXY
45
二.线性化方法 对于线性回归分析,只有第二种类型的线性才是重要的,因为变量的非线性可通过适当的重新定义来解决。例如,对于
此方程的变量和参数都是线性的。如果原方程的扰动项满足高斯—马尔可夫定理条件,重写的方程的扰动项也将满足。
...
,,
...
332211
4
3322
211
4
3322
211
ZZZY
X
XZXZXZ
X
XXXY
该关系即可以重写为:
只需定义
46
参数的非线性是一个严重得多的问题,因为它不能仅凭重定义来处理。可是,如果模型的右端由一系列的 Xβ或 eβ
X 项相乘,并且扰动项也是乘积形式的,则该模型可通过两边取对数线性化。例如,需求函数
其中, Y= 对某商品的需求 X= 收入 P= 相对价格指数 ν=扰动项
可转换为:
PXY
logloglogloglog PXY
47
用 X,Y,P的数据,我们可得到 logY,logX和 logP,从而可以用 OLS法估计上式。 logX的系数是 β 的估计值,经济含义是需求的收入弹性, logP的系数将是 γ的估计值,即需求的价格弹性。
[ 注释 ] 弹性( elasticity ):一变量变动 1% 所引起的另一变量变动的百分比:
需求的收入弹性:收入变化 1% ,价格不变时,所引起的商品需求量变动的百分比。 需求的价格弹性:价格变化 1% ,收入不变时,所引起的商品需求量变动的百分比。
Y
X
X
Y
48
三.例子
例 1 需求函数 本章 §1 中,我们曾给出一个食品支出为因变量,个人可支配收入和食品价格指数为解释变量的线性回归模型例子。现用这三个变量的对数重新估计(采用同样的数据),得到如下结果(括号内数字为标准误差):
回归结果表明,需求的收入弹性是 0.64, 需求的价格弹性是 0.48 ,这两个系数都显著异于 0 。
)12.0()03.0()42.0(
99.0log48.0log64.082.2log 2 RPXY
49
例 2.柯布 -道格拉斯生产函数 生产函数是一个生产过程中的投入及其产出之间的一种关系。著名的柯布 -道格拉斯生产函数( C-D函数)为
用柯布和道格拉斯最初使用的数据(美国 1899-1922 年制造业数据)估计经过线性变换的模型
得到如下结果(括号内数字为标准误差) :
从上述结果可以看出,产出的资本弹性是 0.23,产出的劳动弹性为 0.81 。
LAKQ
logloglogloglog LKAY
)15.0()06.0()43.0(
96.0log81.0log23.018.0ˆlog 2 RLKY
50
例 3 .货币需求量与利率之间的关系 M
r=2 r
M=a(r-2)b
(a>0,b<0)
M = a(r - 2)b
这里,变量非线性和参数非线性并存。对此方程采用对数变换 logM=loga+blog(r-2)
令Y=logM, X=log(r-2), β1= loga, β2=b 则变换后的模型为:
Yt=β1+β2Xt + ut
51
将 OLS 法应用于此模型,可求得 β1 和 β2 的估计值从而可通过下列两式求出 a 和 b 估计值:
应当指出,在这种情况下,线性模型估计量的性质(如
BLUE, 正态性等)只适用于变换后的参数估计量 ,而
不一定适用于原模型参数的估计量 和 。
21ˆ,ˆ
2
1
ˆˆ
ˆ)ˆlog(
b
a
21ˆˆ 和
a b
52
例 4.上例在确定货币需求量的关系式时,我们实际上给模型加进了一个结束条件。根据理论假设,在某一利率水平上,货币需求量在理论上是无穷大。我们假定这个利率水平为 2% 。假如不给这一约束条件,而是从给定的数据中估计该利率水平的值,则模型变为:
M = a(r - c)b
式中 a,b,c均为参数。仍采用对数变换,得到
log(Mt) = loga + blog(rt - c) + ut t=1,2,…,n 我们无法将 log(rt-c)定义为一个可观测的变量 X, 因为这里有一个未知量 c 。也就是说,此模型无法线性化。在这种情况下,只能用估计非线性模型参数值的方法。
53
四.非线性回归
模型 Y = a(X - c)b
是一个非线性模型, a 、 b 和 c 是要估计的参数。此模型无法用取对数的方法线性化,只能用非线性回归技术进行估计,如非线性最小二乘法( NLS)。该方法的原则仍然是残差平方和最小。计量经济软件包通常提供这类方法,这里给出有关非线性回归方法的大致步骤如下:
54
非线性回归方法的步骤
1. 首先给出各参数的初始估计值(合理猜测值) ;2. 用这些参数值和 X 观测值数据计算 Y 的各期预测值 (拟合 值) ;
3.计算各期残差,然后计算残差平方和∑ e2; 4.对一个或多个参数的估计值作微小变动; 5.计算新的 Y预测值 、残差平方和∑ e2; 6.若新的∑ e2 小于老的∑ e2 ,说明新参数估计值优于老估 计值,则以它们作为新起点; 7.重复步骤 4 , 5 , 6 ,直至无法减小∑ e2 为止。 8.最后的参数估计值即为最小二乘估计值。
Y
Y
Y
55
第五节 假设检验
一.系数的显著性检验1. 单个系数显著性检验 目的是检验某个解释变量的系数 βj 是否为 0 ,即该解释变量是否对因变量有影响。
原假设: H0 : βj=0 备择假设: H1 : βj≠0
检验统计量是自由度为 n-K-1 的 t 统计量:
~ t(n-K-1))ˆ(
ˆ
)ˆ(
ˆ
j
j
j
j
VarSet
56
单个系数显著性检验的检验统计量是自由度为 n-K-1 的 t 统计量:
~ t(n-K-1)
其中, 为矩阵 主对角线上第
j+1 个元素。而
)ˆ(
ˆ
)ˆ(
ˆ
j
j
j
j
VarSet
)ˆ( jVar 21 ˆ)( XX
1
ˆ
1ˆ
2
2
kn
XYYY
kn
et
57
例:柯布 -道格拉斯生产函数
用柯布和道格拉斯最初使用的数据(美国 1899-1922 年制造业数据)估计经过线性变换的模型
得到如下结果(括号内数字为标准误差) :
)15.0()06.0()43.0(
96.0log81.0log23.018.0ˆlog 2 RLKY
请检验“斜率”系数和的显著性。
解: (1) 检验的显著性
原假设: H0 : = 0
备择假设: H1 : ≠ 0
logloglogloglog LKAY
58
由回归结果,我们有: t= 0.23/0.06=3.83
用 =24- 3= 21查 t 表, 5% 显著性水平下, tc =2.08.
∵t= 3.83 tc = 2.08 , 故拒绝原假设 H0 。
结论:显著异于 0 。
(2) 检验 的显著性
原假设: H0 : = 0
备择假设: H1 : ≠ 0
由回归结果,我们有: t= 0.81/0.15=5.4
∵t= 5.4 tc = 2.08 , 故拒绝原假设 H0 。
结论:显著异于 0 。
59
2.若干个系数的显著性检验(联合假设检验)
有时需要同时检验若干个系数是否为 0 ,这可以通过建立单一的原假设来进行。
设要检验 g 个系数是否为 0 ,即与之相对应的 g 个解释变量对因变量是否有影响。不失一般性,可设原假设和备择假设为:
H0: β1 =β2 = … =βg =0 H1: H0 不成立 ( 即 X1, …Xg 中某些变量对 Y 有 影响 )
60
分析: 这实际上相当于检验 g 个约束条件 β1= 0 , β2 = 0 ,… , βg = 0 是否同时成立。
若 H0 为真,则正确的模型是:
据此进行回归(有约束回归),得到残差平方和
SR 是 H0 为真时的残差平方和。 若 H1 为真,正确的模型即原模型:
tKtKtt XXY uβ...ββ 110
tKtKtggt XXY uβ...ββ 110
2110 β...ββ KtRktg
Rg
RtR XXYS
61
据此进行无约束回归(全回归),得到残差平方和
S 是 H1 为真时的残差平方和。
如果 H0 为真,则不管 X1, …Xg 这 g 个变量是否包括在模型中,所得到的结果不会有显著差别,因此应该有: S ≈ SR
如果 H1 为真,则由上一节中所讨论的残差平方和∑ e2 的特点,无约束回归增加了变量的个数,应有
S < SR
通过检验二者差异是否显著地大,就能检验原假设是否成立。
2k110 β...ββ Kttt XXYS
62
所使用的检验统计量是: ~ F(g, n-K-1)
其中, g 为分子自由度, n-K-1 为分母自由度。
使用 的作用是消除具体问题中度量单位
的影响, 使计算出的 F 值是一个与度量单位无关的量。
)1(
KnS
gSSF R
S
SSR
63
例:给定 20 组 Y, X1, X2, X3 的观测值,试检验模型 中 X1 和 X3 对 Y 是否有影响?
解:( 1 )全回归
估计
得到: S =∑e2 = 25
( 2 )有约束回归 估计
得到: SR =∑e2 = 30
ttttt XXXY uββββ 3322110
ttt XY uββ 220
64
原假设 H0: β1 = β3 = 0 备择假设 H1: H0 不成立
我们有: n=20, g=2, K=3
用自由度( 2 , 16 )查 F分布表, 5% 显著性水平下, FC=3.63
∵F=1.6< FC =3.63, 故接受 H0 。
结论: X1 和 X3 对 Y无显著影响
6.1
1625
22530
)1(
KnS
gSSF R
65
3.全部斜率系数为 0 的检验
上一段结果的一个特例是所有斜率系数均为 0 的检验,即回归方程的显著性检验:
H0 : β1 =β2 = … = βK = 0
也就是说,所有解释变量对 Y均无影响。
注意到 g=K , 则该检验的检验统计量为:
2)( YYSR
22
t
)(e
Y
YY
ut 时,模型为
)1(
)(
)1(
)(2
22
Kne
KeYY
KnS
KSSF R
66
分子分母均除以 ,有
从上式不难看出,全部斜率为 0 的检验实际是检验 R2 的值是否显著异于 0 ,如果接受原假设,则表明因变量的行为完全归因于随机变化。若拒绝原假设,则表明所选择模型对因变量的行为能够提供某种程度的解释。
2)( YY
1)(
)(1
2
2
2
2
KnYY
e
KYY
e
F)1()1( 2
2
KnR
KR
67
二.检验其他形式的系数约束条件
上面所介绍的检验若干个系数显著性的方法,也可以应用于检验施加于系数的其他形式的约束条件,如
检验的方法仍是分别进行有约束回归和无约束回归,求出各自的残差平方和 SR 和 S ,然后用 F 统计量进行检验。当然,单个系数的假设检验,如 H0 : 3=1.0 ,亦可用 t 检验统计量进行检验。
1,1
1,
5.2,0.1
3
243
42
68
例: Cobb-Douglas生产函数 Y=AKαLβν 试根据美国制造业 1899-1922 年数据检验规模效益不变的约束: α+β=1
解:( 1 )全回归
( 2 )有约束回归: 将约束条件代入,要回归的模型变为: Y=AKαL1-αν 为避免回归系数的不一致问题, 两边除以 L ,模型变换为: Y/L=A(K/L)αν
252)15.0()06.0()43.0(:
96.0log81.0log23.018.0ˆlog 2
FSe
RLKY
69
回归,得:
由软件包可得到约束回归和全回归的残差平方和分别为 SR=0.0716 S=0.0710 ( 3 )检验 原假设 H0:α+β= 1 备择假设 H1:α+β≠1 本例中, g=1, K=2, n=24
0.38,63.0
)04.0()02.0(:
)/log(25.002.0)/log(
2
FR
Se
LKLY
18.0
210710.0
10710.00716.0
)1(
KnS
gSSF R
70
用自由度( 1 , 21 )查 F 表, 5% 显著性水平下, Fc=4.32
∵F=0.18< Fc=4.32 故接受原假设 H0:α+β= 1
( 4 )结论 我们的数据支持规模收益不变的假设。
71
第六节 预测 我们用 OLS 法对多元回归模型的参数进行了估计之后,如果结果理想,则可用估计好的模型进行预测。与双变量模型的作法类似,预测指的是对各自变量的某一组具体值
来预测与之相对应的因变量值 。当然,要进行预测,有一个假设前提应当满足,即拟合的模型在预测期也成立。 点预测值由与给定的诸 X 值对应的回归值给出,即
而预测期的实际 Y 值由下式给出:
其中 u0 是从预测期的扰动项分布中所取的值。
)...1( 02010 kXXXC
ˆˆ...ˆˆˆˆ020210100
CXXXY kk
0Y
00020210100 ... uCuXXXY kk
72
预测误差可定义为:
两边取期望值,得
因此, OLS预测量 是一个无偏预测量。
000 YYe
)ˆ(0 Cu
0
)ˆ()()( 00
ECuEeE
0CY
73
预测误差的方差为:
从 的定义可看出, 为正态变量的线性函数,因此,它本身也服从正态分布。故
))(1(
)(
)ˆ()()(
12
212
00
CXXC
CXXC
CVarCuVareVar
0e 0e
)(
)(
0
00
eSe
eEe)1,0(~
)(1 1
0 NCXXC
e
74
由于 为未知,我们用其估计值代替它,有
则 的 95%置信区间为:
(其中, )
)1(ˆ 2 knet
)1(~)(1ˆ
ˆ
1
00
kntCXXC
YY
CXXCtC 1025.0 )(1ˆˆ
0ˆ YC
0Y
75
例 用书上 P79 例 4.3 的数据,预测 X2=10 , X3=10 的 Y 值。
解:
由例 4.3 我们已得到:
因此
的 95%置信区间为:
或 3.66至 23.65 之间 .
14)10(5.1)10(5.240 Y
7.6
10
10
1
4/102/38
2/3110/45
810/4510/267
)10101()( 1
CXXC
5.106ˆ XY 108YY
75.0125
5.106108
1
ˆ
1ˆ
2
2
kn
XYYY
kn
et
7.6175.0303.414 0Y
76
第七节 虚拟变量( Dummy variables )一.虚拟变量的概念
在回归分析中,常常碰到这样一种情况,即因变量的波动不仅依赖于那种能够很容易按某种尺度定量化的变量(如收入、产出、价格、身高、体重等),而且依赖于某些定性的变量(如性别、地区、季节)。 在经济系统中,许多变动是不能定量的。如政府的更迭(工党 -保守党)、经济体制的改革、固定汇率变为浮动汇率、从战时经济转为和平时期经济等。这样一些变动都可以用大家所熟悉的 0-1 变量来表示,用 1 表示具有某一“品质”或属性,用 0 表示不具有该“品质”或属性。这种变量在计量经济学中称为“虚拟变量”。虚拟变量使得我们可以将那些无法定量化的变量引入回归模型中。下面给出几个可以引入虚拟变量的例子。
77
例 1 :你在研究学历和收入之间的关系,在你的样本中,既 有女性又有男性,你打算研究在此关系中,性别是否 会导致差别。
例 2 :你在研究某省家庭收入和支出的关系,采集的样本中 既包括农村家庭,又包括城镇家庭,你打算研究二者 的差别。
例 3 :你在研究通货膨胀的决定因素,在你的观测期中,有 些年份政府实行了一项收入政策。你想检验该政策是 否对通货膨胀产生影响。
上述各例都可以用两种方法来解决,一种解决方法是分别进行两类情况的回归,然后看参数是否不同。另一种方法是用全部观测值作单一回归,将定性因素的影响用虚拟变量引入模型。
78
二.虚拟变量的使用方法
1. 截距变动 设 Y 表示消费, X 表示收入,我们有: } 假定 β 不变。
对于 5 年战争和 5 年和平时期的数据,我们可分别估计上述两个模型,一般将给出 的不同值。 现引入虚拟变量 D, 将两式并为一式: 其中,
XY
uXY
2
1
和平时期:战时:
β
uDXY 210 0 战时D=
1 平时
79
此式等价于下列两式: }截距变动,斜率不变
在包含虚拟变量的模型中, D 的数据为 0 , 0 , 0 , 0, 0 , 1 , 1 , 1 , 1 , 1 。
估计结果如下图所示:
应用 t 检验, β2 是否显著 可以表明截距项在两个时 期是否有变化。
uXY
uXY
120
10
平时:战时:
Y 平时
战时
α 2-α 1=β 2
α 1=β 0
X
80
2. 斜率变动 如果我们认为战时和平时的消费函数中,截距项不变,而斜率不同,即 β 变动,则可用下面的模型来研究两个时期边际消费倾向的差异:
其中, D={ 不难看出,上式相当于下列两式:
同样,包括虚拟变量的模型中, β2 是否显著可以表明斜率在两个时期是否变化。
uDXXY
uXDY
)(
)(
21
21
即:
平时战时
1
0
uXY
uXY
)( 21
1
Y 战时 平时
α
X
81
3.斜率和截距都变动在这种情况下,模型可设为:
其中, D={ 此式等价于下列两个单独的回归式:
uDXXDY
uXDDY
)(
)()(
4321
4321
即:
平时战时
1
0
uXY
uXY
)(平时:战时:
4321
31
)(
引进了虚拟变量的回归模型对于检验两个时期中是否 发生结构性变化很方便。 如上例中,相当于检验 H0: β2=β4=0
82
4.季节虚拟变量的使用
许多变量展示出季节性的变异 ( 如商品零售额、电和天然气的消费等 ) ,我们在建立模型时应考虑这一点,这有两种方法: ( 1 ) 在估计前对数据进行季节调整; ( 2 ) 采用虚拟变量将季节性差异反映在模型中。
例:设 Y=购买汽车的实际支出额 X= 实际总消费支出
用美国 1973 ( 1 ) -1980(2) 的季度数据(按 1975 年价格计算),得回归结果如下:
)5.0()6.1(:)(
0281.00133.00.765ˆ 2
t
RXY
83
这一结果很不理想,低 R2 值,低 t 值, X 的符号也不对。考虑到可能是季节性变异的问题,我们建立下面的模型:
其中, Q1={
Q2={
Q3={ 请注意我们仅用了 3 个虚拟变量就可表示 4 个季度的情况。
uXQQQY 43322110
其它季度季度
0
11
其它季度季度
0
21
其它季度季度
0
31
各季度的截距分别为:1季度: 0 + 1
2季度: 0 + 2
3季度: 0 + 3
4季度: 0
84
估计结果如下:
结果仍不理想,但好多了。四个季度的截距项分别为: -1039.2 , -1122.7 , -1161.4 , -1455.8 。
所得到的实际总支出的参数估计值( 0.1044 )是一个不受季节变动影响的估计值。
65.0
1044.034.29421.3336.41681.1455
2
)5.4()9.5()4.6(1
)2.7()5.3(:)(
R
XQQQYt
85
第四章 小结本章将双变量模型的结果推广到了多元线性回归模型的一般情形。一、多元线性回归模型的估计
多元线性回归模型的矩阵形式为 Y=Xβ+μ若满足以下四条假设条件: 1 、 E ( μ ) =0 2 、 E ( μμ’ ) = 2 In
3 、 X 是一个非随机元素矩阵 4 、 Rank ( X ) =k+1<n
则 OLS 估计量 = ( X’X ) -1X’Y为最佳线性无偏估计量( BLUE )。其方差 -协方差矩阵为 Var-cov ( ) = ( X’X ) -12
该矩阵主对角线元素为诸 的方差。
β
β
j
86
二、拟合优度多元线性回归模型的决定系数为:
R2 =
由于当模型增加解释变量后,残差平方和的值会减小,为了使拟合优度的测度反映这一特点,可采用经过自由度调整的决定系数,即修正决定系数 :
2
2
2
2
'
ˆ'
)(1
YnYY
YnXY
YY
e
2R
1
1)1(1
)1/()(
)1/(1 2
2
22
kn
nR
nYY
kneR
87
三、非线性关系的处理
线性模型的含义包括变量的线性和参数的线性。对于仅存在变量非线性的模型,可采用重新定义的方法将模型线性化。 存在参数非线性的模型,则仅有一部分可通过代数变换(主要是取对数)的方法将模型线性化。对于那些无法线性化的模型,只能采用非线性估计技术(如 NLS 法)估计模 型。
88
四、假设检验
检验解释变量的系数是否为 0 的假设检验称为系数的显著性检验。这种检验实际上是检验所涉及的解释变量是否对因变量有影响。 检验单个系数 βj 是否为 0 的检验统计量
~ t(n-k-1 )
其中 Var ( )为矩阵 主对角线上第 j+1 个元素,而
n 和 k分别是观测值数目和解释变量的个数。
)ˆ(
ˆ
j
j
Vart
j
1
ˆ''
1ˆ
22
kn
XYYY
kn
et
21 ˆ)( XX
89
涉及几个参数的联合假设检验的检验统计量
F= ~ F ( g , n-k-1 )
其中 SR 为有约束回归的残差平方和, S 为无约束回归(全回归)的残差平方和。 g 为原假设中约束条件个数,(对于涉及几个参数的显著性检验, g 为原假设中为 0 参数的个数)。
检验全部“斜率”系数均为 0 的检验统计量为 F = =
)1/(
/)(
knS
gSSR
)1/(
/)(
knS
kSSR
)1/()1(
/2
2
knR
kR
90
五、虚拟变量
我们应用虚拟变量的目的是将那些无法定量化的变量引入到模型中。这样,一些定性因素对因变量的影响,如不同时期、不同地区、不同季节、不同经济政策的影响等,可放在一个模型中予以考虑。
91
第四章 习题
1 、某经济学家试图解释某一变量 Y 的变动。他收集了 Y 和 5个可能的解释变量 X1 ~ X5 的观测值(共 10 组),然后分别作三个回归,结果如下(括号中为 t统计量):
( 1 ) = 51.5 + 3.21X1t R2 = 0.63 (3.45) (5.21)( 2 ) = 33.43 + 3.67X1t + 4.62X2t + 1.21X3t R2 = 0.75 (3.61) (2.56) (0.81) (0.22)( 3 ) = 23.21 + 3.82X1t + 2.32X2t + 0.82X3t + 4.10X4t + 1.21X5t
(2.21) (2.83) (0.62) (0.12) (2.10) (1.11) R2 = 0.80
你认为应采用哪一个结果?为什么?
tY
tY
tY
92
2 、为研究旅馆的投资问题,我们收集了某地的 1987-1995年的数据来估计收益生产函数 R=ALαKβeu
其中 R=旅馆年净收益(万元), L=土地投入, K= 资金投入, e 为自然对数的底。设回归结果如下(括号内数字为标准误差):
= -0.9175 + 0.273lnL + 0.733lnK R2 = 0.94 (0.212) (0.135) (0.125)
( 1 )请对回归结果作必要说明;( 2 )分别检验 α 和 β 的显著性;( 3 )检验原假设: α=β= 0;
Rln
93
3 、我们有某地 1970-1987 年间人均储蓄和收入的数据,用以研究文革期间和文革后储蓄和收入之间的关系是否发生显著变化。引入虚拟变量后,估计结果如下(括号内数据为标准差):
= -1.7502 + 1.4839D + 0.1504Xt - 0.1034D·Xt
(0.3319) (0.4704) (0.0163) (0.0332)
R2 = 0.9425
其中: Y= 人均储蓄, X= 人均收入,
请检验两时期是否有显著的结构性变化。
年年
19871979,1
19781970,0D
tY