第第第第 9 章章章章 面板数据模型与应用...

43
1 9 面板数据模型 面板数据模型 面板数据模型 面板数据模型与应用 与应用 与应用 与应用 1.面板数据定义 2.面板数据模型分类 3.面板数据模型估计方法 4.面板数据模型的检验与设定 5.面板数据建模案例分析 6.面板数据的单位根检验 7.面板数据模型的协整检验 8EViwes 应用 9.面板数据研究新进展(态面板数据模型、非均衡面板数据模型、离散面板数据模 型、面板数据非平稳性、面板数据的协积) 1.面板数据定义 时间序列数据或截面数据都是一维数据。时间序列数据是变量按时间得的数据;截面 数据是变量在固定时点的一组数据。面板数据是同时在时间截面上取得的二维数据。所以, 面板数据(panel data)也称作时间序列与截面混合数据(pooled time series and cross section data)。面板数据是截面上个体在不同时点的重复观测数据。 panel 原指对一组固定调查对象的多次观测,近年来 panel data 已经成为专业术语。 面板数据示意图见图 1。面板数据从横截面(cross section)看,是由若干个体(entity, unit, individual)在某一时点构成的截面观测值,从纵面(longitudinal section)看每个个体都是 一个时间序列。 2 1978-2005 中国各省级地区消费性支出占可支配收入比例走图(价格平减过) 面板数据分两种特征:(1)个体数少,时间长。(2)个体数多,时间短。面板数据主要 指后一种情形。 面板数据用双下标变量表示。例如

Transcript of 第第第第 9 章章章章 面板数据模型与应用...

Page 1: 第第第第 9 章章章章 面板数据模型与应用 1.面板数据定义ceaf.dufe.edu.cn/uploadfiles/ggl/docs/面板数据模型与应用1.pdf · 6 y1t = α1 + X1t 'β +ε1t,

1

第第第第 9 章章章章 面板数据模型面板数据模型面板数据模型面板数据模型与应用与应用与应用与应用

1.面板数据定义

2.面板数据模型分类

3.面板数据模型估计方法

4.面板数据模型的检验与设定

5.面板数据建模案例分析

6.面板数据的单位根检验

7.面板数据模型的协整检验

8.EViwes应用

9.面板数据研究新进展(动态面板数据模型、非均衡面板数据模型、离散面板数据模

型、面板数据非平稳性、面板数据的协积)

1.面板数据定义

时间序列数据或截面数据都是一维数据。时间序列数据是变量按时间得到的数据;截面

数据是变量在固定时点的一组数据。面板数据是同时在时间和截面上取得的二维数据。所以,

面板数据(panel data)也称作时间序列与截面混合数据(pooled time series and cross section

data)。面板数据是截面上个体在不同时点的重复观测数据。

panel 原指对一组固定调查对象的多次观测,近年来 panel data已经成为专业术语。

面板数据示意图见图 1。面板数据从横截面(cross section)看,是由若干个体(entity, unit,

individual)在某一时点构成的截面观测值,从纵剖面(longitudinal section)看每个个体都是

一个时间序列。

图 2 1978-2005中国各省级地区消费性支出占可支配收入比例走势图(价格平减过)

面板数据分两种特征:(1)个体数少,时间长。(2)个体数多,时间短。面板数据主要

指后一种情形。

面板数据用双下标变量表示。例如

Page 2: 第第第第 9 章章章章 面板数据模型与应用 1.面板数据定义ceaf.dufe.edu.cn/uploadfiles/ggl/docs/面板数据模型与应用1.pdf · 6 y1t = α1 + X1t 'β +ε1t,

2

yi t, i = 1, 2, …, N; t = 1, 2, …, T

i 对应面板数据中不同个体。N 表示面板数据中含有 N 个个体。t 对应面板数据中不同时点。

T 表示时间序列的最大长度。若固定 t 不变,yi ., ( i = 1, 2, …, N)是横截面上的 N 个随机变量;

若固定 i 不变,y. t, (t = 1, 2, …, T)是纵剖面上的一个时间序列(个体)。

利用面板数据建立模型的好处是:(1)由于观测值的增多,可以增加估计量的抽样精

度。(2)对于固定效应模型能得到参数的一致估计量,甚至有效估计量。(3)面板数据建模

比单截面数据建模可以获得更多的动态信息。

例如 1990-2000年 30个省份的农业总产值数据。固定在某一年份上,它是由 30个农业

总产值数字组成的截面数据;固定在某一省份上,它是由 11年农业总产值数据组成的一个

时间序列。面板数据由 30个个体组成。共有 330个观测值。

对于面板数据 yi t, i = 1, 2, …, N; t = 1, 2, …, T,如果每个个体在相同的时期内都有观测

值记录,则称此面板数据为平衡面板数据(balanced panel data)。若面板数据中的个体在相

同时期内缺失若干个观测值,则称此面板数据为非平衡面板数据(unbalanced panel data)。

案例 1(file:5panel02):1996-2002年中国东北、华北、华东 15个省级地区的居民家庭

固定价格的人均消费(CP)和人均收入(IP)数据见 file:panel02。数据是 7 年的,每一年

都有 15个数据,共 105组观测值。

人均消费和收入两个面板数据都是平衡面板数据,各有 15个个体。人均消费和收入的

面板数据从纵剖面观察分别见图 2和图 3。从横截面观察分别见图 4和图 5。横截面数据散

点图的表现与观测值顺序有关。图 4和图 5中人均消费和收入观测值顺序是按地区名的汉语

拼音字母顺序排序的。

19

96

19

99

20

02

安徽河北江苏

内蒙古山西 0

2000

4000

6000

8000

10000

12000 安徽北京福建河北黑龙江吉林江苏江西辽宁内蒙古山东上海山西天津浙江

图 3 15个省级地区的人均消费序列(个体)(file:5panel02)

1996

1998

2000

2002

安徽福建

黑龙

江江苏辽宁

山东

山西

浙江

0

2000

4000

6000

8000

10000

12000

14000安徽

北京

福建

河北

黑龙江

吉林

江苏

江西

辽宁

内蒙古

山东

上海

山西

天津

浙江

图 4 15个省级地区的人均收入序列(个体)(file:5panel02)

Page 3: 第第第第 9 章章章章 面板数据模型与应用 1.面板数据定义ceaf.dufe.edu.cn/uploadfiles/ggl/docs/面板数据模型与应用1.pdf · 6 y1t = α1 + X1t 'β +ε1t,

3

安徽

河北

江苏

内蒙古

山西

1996

1998

2000

2002

0

2000

4000

6000

8000

10000

120001996

1997

1998

1999

2000

2001

2002

图 5 7个人均消费横截面数据(含 15个地区) (每条连线表示同一年度 15个地区的消费值)

安徽

河北

江苏

内蒙古

山西

199

6 1999 20

020

200040006000

8000

10000

12000

14000

1996

1997

1998

1999

2000

2001

2002

图 6 7个人均收入横截面数据(含 15个地区) (每条连线表示同一年度 15个地区的收入值)

用 CP表示消费,IP表示收入。AH, BJ, FJ, HB, HLJ, JL, JS, JX, LN, NMG, SD, SH, SX, TJ,

ZJ 分别表示安徽省、北京市、福建省、河北省、黑龙江省、吉林省、江苏省、江西省、辽

宁省、内蒙古自治区、山东省、上海市、山西省、天津市、浙江省。

15个地区 7年人均消费对收入的面板数据散点图见图 6和图 7。图 6中每一种符号代表

一个省级地区的 7个观测点组成的时间序列。相当于观察 15个时间序列。图 7中每一种符

号代表一个年度的截面散点图(共 7个截面)。相当于观察 7个截面散点图的叠加。

2000

3000

4000

5000

6000

7000

8000

9000

10000

11000

2000 4000 6000 8000 10000 12000 14000

IPCROSS

CP1996CP1997CP1998CP1999CP2000CP2001CP2002

IP

7.8

8.0

8.2

8.4

8.6

8.8

9.0

9.2

9.4

8.0 8.2 8.4 8.6 8.8 9.0 9.2 9.4 9.6

LOG(IPCROSS)

LOG(CP1996)LOG(CP1997)LOG(CP1998)LOG(CP1999)

LOG(CP2000)LOG(CP2001)LOG(CP2002)

图 6 对数的人均消费对收入的面板数据散点图 图 7 对数的人均消费对收入的面板数据散点图

Page 4: 第第第第 9 章章章章 面板数据模型与应用 1.面板数据定义ceaf.dufe.edu.cn/uploadfiles/ggl/docs/面板数据模型与应用1.pdf · 6 y1t = α1 + X1t 'β +ε1t,

4

2000

3000

4000

5000

6000

7000

8000

9000

10000

11000

2000 4000 6000 8000 10000 12000 14000

CP_IAHCP_IBJCP_IFJCP_IHBCP_IHLJ

CP_IJLCP_IJSCP_IJXCP_ILNCP_INMG

CP_ISDCP_ISHCP_ISXCP_ITJCP_IZJ

IP_I

为了观察得更清楚,图 8给出北京和内蒙古 1996-2002年消费对收入散点图。从图中可

以看出,无论是从收入还是从消费看内蒙古的水平都低于北京市。内蒙古 2002年的收入与

消费规模还不如北京市 1996年的大。图 9给出该 15个省级地区 1996和 2002年的消费对收

入散点图。6年之后 15个地区的消费和收入都有了相应的提高。

2000

3000

4000

5000

6000

7000

8000

9000

10000

11000

2000 4000 6000 8000 10000 12000 14000

cp_bj cp_nmg

IP_I

2000

3000

4000

5000

6000

7000

8000

9000

10000

11000

2000 4000 6000 8000 10000 12000 14000

CP_1996 CP_2002

IP_T

图 8 北京和内蒙古 1996-2002年消费对收入散点图 图 9 1996和 2002年 15个地区的消费对收入散点图

2.面板数据模型分类

用面板数据建立的模型通常有 3种,即混合模型、固定效应模型和随机效应模型。

2.1 混合模型(Pooled model)。

如果一个面板数据模型定义为,

yit = α + Xit 'β +εit, i = 1, 2, …, N; t = 1, 2, …, T (1)

其中 yit为被回归变量(标量),α表示截距项,Xit 为 k ×1阶回归变量列向量(包括 k 个回归

量),β为 k ×1阶回归系数列向量,εit为误差项(标量)。则称此模型为混合模型。混合模型

的特点是无论对任何个体和截面,回归系数α和β都相同。

如果模型是正确设定的,解释变量与误差项不相关,即 Cov(Xit,εit) = 0。那么无论是

N→∞,还是 T→∞,模型参数的混合最小二乘估计量(Pooled OLS)都是一致估计量。

以案例 1(file:5panel02)为例得到的混合模型估计结果如下:

Page 5: 第第第第 9 章章章章 面板数据模型与应用 1.面板数据定义ceaf.dufe.edu.cn/uploadfiles/ggl/docs/面板数据模型与应用1.pdf · 6 y1t = α1 + X1t 'β +ε1t,

5

图 9 EViwes 6 混合模型的估计结果

LnCPit = 0.0187 + 0.9694 LnIPit +εit

(0.2) (79.2)

R2 = 0.984, SSE = 0.1702, DW = 0.62

可以加 AR(1)项克服自相关,

LnCPit = 0.0922 + 0.9595 LnIPit + 0.7383 AR(1) +εit

(0.3) (26.1) (9.0)

R2 = 0.984, SSE = 0.0801, DW = 2.0

2.2 固定效应模型(fixed effects regression model)。

固定效应模型分为 3种类型,即个体固定效应模型、时点固定效应模型和个体时点双固

定效应模型。下面分别介绍。

2.2.1个体固定效应模型(entity fixed effects model)

如果一个面板数据模型定义为,

yit = αi + Xit 'β +εit, i = 1, 2, …, N; t = 1, 2, …, T (3)

其中αi 是随机变量,表示对于 i 个个体有 i 个不同的截距项,且其变化与 Xit 有关系;Xit 为 k

×1阶回归变量列向量(包括 k 个回归量),β为 k ×1阶回归系数列向量,对于不同个体回归

系数相同,yit为被回归变量(标量),εit 为误差项(标量),则称此模型为个体固定效应模型。

个体固定效应模型(3)的强假定条件是,

E(εitαi, Xit) = 0, i = 1, 2, …, N

αi 作为随机变量描述不同个体建立的模型间的差异。因为αi 是不可观测的,且与可观测

的解释变量 Xit的变化相联系,所以称(3)式为个体固定效应模型。

个体固定效应模型也可以表示为

yit = α1 D1 + α2 D2 + … +αN DN + Xit 'β +εit, t = 1, 2, …, T (4)

其中

Di = =

其他,

,个个体如果属于第 ,

,0

..., ,2 ,1,1 Nii

个体固定效应模型(3)还可以用多方程表示为

Page 6: 第第第第 9 章章章章 面板数据模型与应用 1.面板数据定义ceaf.dufe.edu.cn/uploadfiles/ggl/docs/面板数据模型与应用1.pdf · 6 y1t = α1 + X1t 'β +ε1t,

6

y1t = α1 + X1t 'β +ε1t, i = 1(对于第 1个个体或时间序列),t = 1, 2, …, T

y2t = α2 + X2t 'β +ε2 t, i = 2(对于第 2个个体或时间序列),t = 1, 2, …, T

yN t = αN + XN t 'β+ε N t, i = N(对于第 N 个个体或时间序列),t = 1, 2, …, T

注意:

(1)在 EViews输出结果中αi 是以一个不变的常数部分和随个体变化的部分相加而成。

(2)在 EViews 5.0以上版本个体固定效应对话框中的回归因子选项中填不填 c输出结

果都会有固定常数项。

对于个体固定效应模型,个体效应αi 未知,E(αi Xit)随 Xit而变化,但不知怎样与 Xit变

化,所以 E(yit Xit)不可识别。对于短期面板数据,个体固定效应模型是正确设定的,β的混

合 OLS 估计量不具有一致性。相应解释见 3.1 小节。但是对个体固定效应模型可以识别边

际效应。

β = ∂ E(yit αi, Xit)/∂ Xit

个体固定效应模型的估计方法有多种,首先设法除去αi 的影响,从而保证β估计量的一

致性。(详见第 3节,面板数据模型估计方法。)

下面解释设定个体固定效应模型的原因。假定有面板数据模型

yit = β0 + β1 xit +β2 zi +εit, i = 1, 2, …, N; t = 1, 2, …, T (5)

其中β0为常数,不随时间、截面变化;zi 表示随个体变化,但不随时间变化的难以观测的变

量。

以案例 1为例,省家庭平均人口数就是这样的一个变量。对于短期面板来说,这是一个

基本不随时间变化的量,但是对于不同的省份,这个变量的值是不同的。

上述模型可以被解释为含有 N 个截距,即每个个体都对应一个不同截距的模型。令αi =

β0 +β2 zi,于是(5)式变为

yit = αi + β1 xit +εit, i = 1, 2, …, N; t = 1, 2, …, T (6)

这正是个体固定效应模型形式。对于每个个体回归函数的斜率相同(都是β1),截距αi 却因

个体不同而变化。可见个体固定效应模型中的截距项αi 中包括了那些随个体变化,但不随时

间变化的难以观测的变量的影响。αi是一个随机变量。因为 zi 是不随时间变化的量,所以当

对个体固定效应模型中的变量进行差分时,可以剔除那些随个体变化,但不随时间变化的难

以观测变量的影响,即剔出αi 的影响。

以案例 1(file:5panel02)为例得到的个体固定效应模型估计结果如下:

Page 7: 第第第第 9 章章章章 面板数据模型与应用 1.面板数据定义ceaf.dufe.edu.cn/uploadfiles/ggl/docs/面板数据模型与应用1.pdf · 6 y1t = α1 + X1t 'β +ε1t,

7

图 10 个体固定效应模型的 EViwes 6估计结果

输出结果的方程形式是

tLncp1

∧= γ 安徽+ 1β Lnip1t = (0.6878 – 0.0039) + 0.89 Lnip1t

(5.4) (60.6)

tLncp 2

∧= γ 北京+ 1β Lnip2t = (0.6878 + 0.0821) + 0.89 Lnip 2t

(5.4) (60.6)

。。。

tLncp15

∧= γ 浙江+ 1β Lnip15t = (0.6878 + 0.0434) + 0.89 Lnip 15t

(5.4) (60.6)

R2 = 0.9937, SSEr = 0.0667, t0.05 (89) = 1.98, DW = 1.51

从结果看,北京、上海、浙江是自发消费(消费函数截距)最大的 3个地区。

注意:带 AR 项的个体固定效应模型基础上同样可以做是否取混合模型的 F检验。

2.2.2 时点固定效应模型(time fixed effects model)

如果一个面板数据模型定义为,

yit = γt + Xit 'β +εit, i = 1, 2, …, N (7)

Page 8: 第第第第 9 章章章章 面板数据模型与应用 1.面板数据定义ceaf.dufe.edu.cn/uploadfiles/ggl/docs/面板数据模型与应用1.pdf · 6 y1t = α1 + X1t 'β +ε1t,

8

其中γt 是模型截距项,随机变量,表示对于 T 个截面有 T 个不同的截距项,且其变化与 Xit

有关系;yit为被回归变量(标量),εit 为误差项(标量),满足通常假定条件。Xit 为 k ×1阶

回归变量列向量(包括 k 个回归变量),β为 k ×1 阶回归系数列向量,则称此模型为时点固

定效应模型。

时点固定效应模型也可以加入虚拟变量表示为

yit =γ0 + γ1 W1 + γ2 W2 + … +γ T WT + Xit 'β +εit, i = 1, 2, …, N; t = 1, 2, …, T (8)

其中

Wt = =

,0

; ..., ,2 ,1 ,1

)( 。

个截面不属于第其他

个截面如果属于第

t

t Tt

模型(8)还也可以用多方程表示为

yi1 = (γ0 + γ1) + X1t 'β+ εi1, t = 1,(对于第 1个截面),i = 1, 2, …, N

yi2 = (γ0 + γ2) + X2t 'β + εi2, t = 2,(对于第 2个截面),i = 1, 2, …, N

yiT = (γ0 + γT) + XN t 'β + εiT, t = T,(对于第 T 个截面),i = 1, 2, …, N

设定时点固定效应模型的原因。假定有面板数据模型

yit = γ0 + β1 xit +γ2 zt +εit, i = 1, 2, …, N; t = 1, 2, …, T (9)

其中γ0为常数,不随时间、截面变化;zt表示随不同截面(时点)变化,但不随个体变化的

难以观测的变量。

以案例 1 为例,“全国零售物价指数”就是这样的一个变量。对于不同时点,这是一个

变化的量,但是对于不同省份(个体),这是一个不变化的量。

上述模型可以被解释为含有 T 个截距,即每个截面都对应一个不同截距的模型。令γt = γ0

+γ2 zt,于是(9)式变为

yit = γt + β1 xit +εit, i = 1, 2, …, N; t = 1, 2, …, T (10)

这正是时点固定效应模型形式。对于每个截面,回归函数的斜率相同(都是β1),γt 却

因截面(时点)不同而异。可见时点固定效应模型中的截距项γt 包括了那些随不同截面(时

点)变化,但不随个体变化的难以观测的变量的影响。γt是一个随机变量。

Page 9: 第第第第 9 章章章章 面板数据模型与应用 1.面板数据定义ceaf.dufe.edu.cn/uploadfiles/ggl/docs/面板数据模型与应用1.pdf · 6 y1t = α1 + X1t 'β +ε1t,

9

图 11 EViwes 5.1时点固定效应模型估计结果

以例 1为例得到的时点固定效应模型估计结果见图 11,代数式如下:

1iLncp∧

= γ 0 + γ 1996 + 1β Lnipi1 = (-0.2474 + 0.0257) + 1.00 Lnipi1 , t = 1996

(-2.1) (72.9)

2iLncp∧

= γ 0 + γ 1997 + 1β Lnipi2 = (-0.2474 + 0.0266) + 0.78Lnipi2 , t = 1997

(-2.1) (72.9)

7iLncp∧

= γ 0 + γ 2002 + 1β Lnipi7 = (-0.2474 – 0.0204) + 0.78 Lnipi7 , t = 2002

(-2.1) (72.9)

R2 = 0.9867, SSEr = 4028843, t0.05 (97) = 1.98

注意:时点固定效应模型中不可以加 AR 项。

2.2.3 个体时点固定效应模型(time and entity fixed effects model)

如果一个面板数据模型定义为,

yit = α0 +αi +γt + Xit 'β +εit, i = 1, 2, …, N; t = 1, 2, …, T (11)

其中 yit为被回归变量(标量);αi是随机变量,表示对于 N 个个体有 N 个不同的截距项,且

其变化与 Xit有关系;γt是随机变量,表示对于 T 个截面(时点)有 T 个不同的截距项,且

其变化与 Xit 有关系;Xit为 k ×1阶回归变量列向量(包括 k 个回归量);β为 k ×1阶回归系数

Page 10: 第第第第 9 章章章章 面板数据模型与应用 1.面板数据定义ceaf.dufe.edu.cn/uploadfiles/ggl/docs/面板数据模型与应用1.pdf · 6 y1t = α1 + X1t 'β +ε1t,

10

列向量;εit为误差项(标量)满足通常假定(εit Xit, αi, γt) = 0;则称此模型为个体时点固定效

应模型。

个体时点固定效应模型还可以表示为,

yit = α0 +α1 D1+α2 D2 +…+αN DN + γ1W1+ γ2W2 +…+γ TWT + Xit 'β +εit, (12)

其中

Di = =

其他,

,个个体如果属于第 ,

,0

..., ,2,1,1 Nii (13)

Wt = =

,0

;,...,2,1 ,1

)( 。

个截面不属于第其他

个截面如果属于第

t

t Tt (14)

如果模型形式是正确设定的,并且满足模型通常的假定条件,对模型(12)进行混合

OLS 估计,全部参数估计量都是不一致的。正如个体固定效应模型可以得到一致的、甚至

有效的估计量一样,一些计算方法也可以使个体时点双固定效应模型得到更有效的参数估计

量。

以例 1为例得到的截面、时点固定效应模型估计结果如下:

图 12 EViwes 5.1截面、时点双固定效应模型估计结果

注意:

Page 11: 第第第第 9 章章章章 面板数据模型与应用 1.面板数据定义ceaf.dufe.edu.cn/uploadfiles/ggl/docs/面板数据模型与应用1.pdf · 6 y1t = α1 + X1t 'β +ε1t,

11

(1)对于第 1个截面(t=1)EViwes输出结果中把(α1 +γi), (i = 1, 2, …, N)估计在一起。

(2)对于第 2, …, T 个截面(t=1)EViwes输出结果中分别把(α1 +αt), (t = 2, …, T)估计

在一起。

输出结果如下:

1996,1

∧Lncp = γ 0 +α 1+ γ 1996 + 1β Lnip1,1996 = 2.40 - 0.04 - 0.06 + 0.70 Lnip1,1996 (安徽省)

1996,2

∧Lncp = γ 0 +α 2+ γ 1996 + 1β Lnip2,1996 = 2.40+0.17 – 0.06 + 0.70Lnip 2,1996(北京市)

1997,1

∧Lncp =γ 0 +α 1+ γ 1997 + 1β Lnip1,1997 = 2.40 – 0.04 +0.02 + 0.70Lnip1,1997(安徽省)

1997,2

∧Lncp =γ 0 +α 2+ γ 1997 + 1β Lnip2,1997 = 2.40 + 0.17 +0.02 +0.70 Lnip2,1997(北京市)

2002,15

∧Lncp = γ 0 +α 15 + γ 2002+ 1β Lnip15,2002 = 2.40 +0.12+0.06+0.70 Lnip15,2002(浙江省)

R2 = 0.9947, SSEr = 0.0562, t0.05 (83) = 1.98

注意:(1)个体时点固定效应模型中不可以加 AR 项。

(2)在上述三种固定效应模型中,个体固定效应模型最为常用。

2.3 随机效应模型

对于面板数据模型

yit = αi + Xit'ββββ +εit, i = 1, 2, …, N; t = 1, 2, …, T (15)

如果αi 为随机变量,其分布与 Xit 无关; Xit为 k ×1阶回归变量列向量(包括 k 个回归量),

ββββ为 k ×1 阶回归系数列向量,对于不同个体回归系数相同,yit为被回归变量(标量),εit为

误差项(标量),这种模型称为个体随机效应模型(随机截距模型、随机分量模型)。其假定

条件是

αi∼ iid(α, σα2)

εit ∼ iid(0, σε2)

都被假定为独立同分布,但并未限定何种分布。

同理也可定义时点随机效应模型和个体时点随机效应模型,但个体随机效应模型最为常

用。

这里所说的个体随机效应模型其实是有别于真正的随机效应模型。

个体随机效应模型又称为等相关模型(Equicorrelated model)。原因如下。随机效应模

型可以看作是混合模型的特例。对于个体随机效应模型 yit = αi + Xit 'ββββ +εit,可以把αi 并入误差

项εit。模型改写为

yit = Xit 'β + (αi +εit) = Xit 'β + uit (16)

其中 uit = (αi +εit)。如果有αi∼(α, σα2),εit ∼(0, σε

2)成立,那么,

Cov(uit,uis) = Cov[(αi +εit)( αi +εis)] =

=+≠

st

st

,

,22

2

εα

α

σσσ (17)

因为对于 t ≠ s,有

Page 12: 第第第第 9 章章章章 面板数据模型与应用 1.面板数据定义ceaf.dufe.edu.cn/uploadfiles/ggl/docs/面板数据模型与应用1.pdf · 6 y1t = α1 + X1t 'β +ε1t,

12

r(uit,uis) = ( , )

( ) ( )it is

it is

Cov u u

Var u Var u=

22

2

εα

α

σσσ

+ (18)

相关系数 r(uit,uis)与 (t – s) 即相隔期数长短无关。所以个体随机效应模型也称作等相关模

型,或者可交换误差模型(exchangeable model)。

对于个体随机效应模型,E(αi Xit) = α,则有,E(yit xit) = α + Xit'β,对 yit可以识别。所

以随机效应模型参数的混合 OLS估计量具有一致性,但不具有有效性。

例 1的个体随机效应模型估计结果如下:

图 13 个体随机效应模型估计结果

注意:术语“随机效应模型”和“固定效应模型”用得并不十分恰当,容易产生误解。

其实固定效应模型应该称之为“相关效应模型”,而随机效应模型应该称之为“非相关效应

模型”。因为固定效应模型和随机效应模型中的αi都是随机变量。

3.面板数据模型估计方法

面板数据模型中β的估计量既不同于截面数据估计量,也不同于时间序列估计量,其性

质随设定固定效应模型是否正确而变化。回归变量 xit 可以是时变的,也可以是非时变的。

3.1 混合最小二乘(Pooled OLS)估计

混合 OLS估计方法是在时间上和截面上把 NT 个观测值混合在一起,然后用 OLS法估

计模型参数。给定混合模型

yit = α + Xit 'ββββ +εit, i = 1, 2, …, N; t = 1, 2, …, T (19)

把上模型写成向量形式, uWγy +=

Page 13: 第第第第 9 章章章章 面板数据模型与应用 1.面板数据定义ceaf.dufe.edu.cn/uploadfiles/ggl/docs/面板数据模型与应用1.pdf · 6 y1t = α1 + X1t 'β +ε1t,

13

其中 ( )'''1 Nyyy …= 和 ( )'''1 Nuuu …= 是 NT×1阶列向量。γγγγ=(αααα ββββ ′′′′)′′′′, 是(k+1)×1阶列向

量。W 是 NT×(k+1)阶矩阵,其第 1列是单位列向量。假定条件是 E(u∣W) = 0,误差项 u 是

严格外生的。E(u u′′′′∣W) = ΩΩΩΩ,则γγγγ的混合 OLS估计公式是 =γ (W′′′′W)-1W′′′′y

如果模型是正确设定的,且解释变量与误差项不相关,即 Cov(Xit,εit) = 0。那么无论是

N→∞,还是 T→∞,模型参数的混合最小二乘估计量都具有一致性。

对混合模型通常采用的是混合最小二乘(Pooled OLS)估计法。

然而,在误差项服从独立同分布条件下由 OLS法得到的方差协方差矩阵,在这里通常

不会成立。因为对于每个个体 i 及其误差项来说通常是序列相关的。NT 个相关观测值要比

NT 个相互独立的观测值包含的信息少。从而导致误差项的标准差常常被低估,估计量的精

度被虚假夸大。

如果模型存在个体固定效应,即αi 与 Xit 相关,那么对模型应用混合 OLS估计方法,估

计量不再具有一致性。解释如下:

假定模型实为个体固定效应模型 yit = αi + Xit 'β +εit,但却当作混合模型来估计参数,则

模型可写为

yit = α + Xit 'β + (αi -α +εit) = α + Xit 'β + uit (20)

其中 uit = (αi -α +εit)。因为αi 与 Xit相关,也即 uit 与 Xit 相关,所以个体固定效应模型的参数

若采用混合 OLS估计,估计量不具有一致性。

3.2平均数(between)OLS估计

平均数 OLS估计法的步骤是首先对面板数据中的每个个体求平均数,共得到 N 个平均

数(估计值)。然后利用 yit 和 Xit的 N 组观测值估计参数。以个体固定效应模型

yit = αi + Xit 'β +εit (21) 为例,首先对面板中的每个个体求平均数,从而建立模型

iy = αi + iX 'β + iε , i = 1, 2, …, N (22)

其中 iy = ∑=

−T

tityT

1

1,

iX = ∑=

−T

titT

1

1 X , iε = ∑=

−T

titT

1

1 ε ,i = 1, 2, …, N。变换上式得

iy = α +iX 'β +(α i - α + iε ), i = 1, 2, …, N (23)

上式称作平均数模型。对上式应用 OLS估计,则参数估计量称作平均数 OLS估计量。此条

件下的样本容量为 N,(T=1)。

如果iX 与(α i - α + iε )相互独立,α和β的平均数 OLS估计量是一致估计量。平均数 OLS

估计法适用于短期面板的混合模型和个体随机效应模型。对于个体固定效应模型来说,由于

αi 和 Xit相关,也即αi 和 iX 相关,所以,回归参数的平均数 OLS估计量是非一致估计量。

3.3 离差变换(within)OLS估计

对于短期面板数据,离差变换 OLS 估计法的原理是先把面板数据中每个个体的观测值

变换为对其平均数的离差观测值,然后利用离差变换数据估计模型参数。具体步骤是,对于

个体固定效应模型

yit = αi + Xit'β +εit (24) 中的每个个体计算平均数,可得到如下模型,

Page 14: 第第第第 9 章章章章 面板数据模型与应用 1.面板数据定义ceaf.dufe.edu.cn/uploadfiles/ggl/docs/面板数据模型与应用1.pdf · 6 y1t = α1 + X1t 'β +ε1t,

14

iy = αi + iX 'β + iε

其中 iy 、iX 、 iε 的定义见(22)式。上两式相减,消去了αi,得

yit - iy = (Xit - iX )'β + (εit - iε )

此模型称作离差变换数据模型。对上式应用 OLS估计,

ββββ =

∑∑

∑∑

= =

= =

′−−

−−

N

i

T

t

N

i

T

tiit yy

1 1

1 1

))((

))((

iitiit

iit

XXXX

XX

所得β的估计量称作离差变换 OLS估计量。对于个体固定效应模型,β的离差变换 OLS估计

量是一致估计量。

如果εit 还满足独立同分布条件,β的离差变换 OLS估计量不但具有一致性而且还具有有

效性。如果对固定效应αi感兴趣,也可按下式估计。

iα = iy -iX ' ββββ (27)

利用中心化(或离差变换)数据,计算回归参数估计量 ββββ 的方差协方差矩阵如下,

∧Var ( ββββ ) = 2σ

1

1 1

))((

= =

′−−∑∑

N

i

T

tiitiit XXXX (28)

其中 2σ =kNNT

N

i

T

tit

−−

∑∑= =1 1

2ε。

个体固定效应模型的估计通常采用的就是离差变换(within)OLS估计法。

在短期面板条件下,即便αi 的分布、以及αi 和 Xit 的关系都已知到,αi 的估计量仍不具

有一致性。当个体数 N 不大时,可采用 OLS虚拟变量估计法估计αi 和β。

离差变换 OLS 估计法的主要缺点是不能估计非时变回归变量构成的面板数据模型。比

如 Xit = Xi(非时变变量),那么有iX = Xi,计算离差时有 Xi - iX = 0。

3.4 一阶差分(first difference)OLS估计

在短期面板条件下,一阶差分 OLS 估计就是对个体固定效应模型中的回归量与被回归

量的差分变量构成的模型的参数进行 OLS估计。具体步骤是,对个体固定效应模型

yit = αi + Xit 'β +εit

取其滞后一期关系式

yit-1 = αi + Xit-1'β +εit-1

上两式相减,得一阶差分模型(αi被消去)

yit -yit-1 = (Xit - Xit -1) 'β + (εit -εit-1) , i = 1, 2, …, N; t = 1, 2, …, T

对上式应用 OLS 估计得到的β的估计量称作一阶差分 OLS 估计量。尽管αi 不能被估计,β的估计量是一致估计量。

在 T>2,εit独立同分布条件下得到的β的一阶差分 OLS 估计量不如离差变换 OLS 估计

Page 15: 第第第第 9 章章章章 面板数据模型与应用 1.面板数据定义ceaf.dufe.edu.cn/uploadfiles/ggl/docs/面板数据模型与应用1.pdf · 6 y1t = α1 + X1t 'β +ε1t,

15

量有效。

3.5 随机效应(random effects)估计法(可行 GLS(feasible GLS)估计法)

有个体固定效应模型

yit = αi + Xit 'β +εi

αi,εit 服从独立同分布。对其作如下变换

yit - iyλ = (1-λ )µ + (Xit - λiX )'β + vit (29)

其中 vit = (1-λ )αi + (εit - λ iε )渐近服从独立同分布,λ = 1-22

αε

ε

σσ

σ

T+,应用 OLS估计,

则所得估计量称为随机效应估计量或可行 GLS估计量。当 λ = 0时,(29)式等同于混合 OLS

估计;当 λ =1时,(29)式等同于离差变换 OLS估计。

对于随机效应模型,可行 GLS 估计量不但是一致估计量,而且是有效估计量,但对于

个体固定效应模型,可行 GLS估计量不是一致估计量。

面板数据模型估计量的稳健统计推断。在实际的经济面板数据中,N 个个体之间相互独

立的假定通常是成立的,但是每个个体本身却常常是序列自相关的,且存在异方差。为了得

到正确的统计推断,需要克服这两个因素。

对于第 i 个个体,当 N→∞,Xi⋅的方差协方差矩阵仍然是 T×T 有限阶的,所以可以用以

前的方法克服异方差。采用 GMM 方法还可以得到更有效的估计量。

EViwes中对随机效应模型的估计采用的就是可行(feasible )GLS估计法。

4.面板数据模型检验与设定方法

(1)面板数据模型中参数约束是否成立的 Wald检验

)1(1

)('

)1( )ˆ())ˆ(()ˆ( ×−

××= mmmmW βββ ffVarf ∼ χ 2(m)

其中 f(β) 表示由约束条件组成的列向量。m 表示被检验的约束条件的个数,

[ ]'

)()(

)(ˆ

)ˆ()ˆ(

ˆ)ˆ(

))ˆ((mk

kkkm ×

××

∂∂

∂∂

=βββ

βββ f

Varf

fVar ,其中 k 表示解释变量个数。

(2)面板数据模型中丢失变量或存在多余变量的检验

F =)1/(

/)(

−−−

kNTSSE

mSSESSE

u

ur ∼ F (m, NT- k -1)

其中 SSEr 表示施加约束条件后估计模型的残差平方和;SSEu 表示未施加约束条件的估计

模型的残差平方和;m 表示约束条件个数;N×T 表示面板数据样本容量(N 表示个体数,T

表示个体长度);k 表示非约束面板数据模型中被估参数的个数。

判别规则是,若 F < Fα (m, NT- k -1),约束条件成立,

若 F > Fα (m, NT- k -1),约束条件不成立。

LR = -2 [ log L( β~ , 2~σ ) - log L( β , 2σ ) ]∼ χ 2(m)

其中 logL( β~ , 2~σ )表示约束模型的对数似然函数极大值,logL( β , 2σ )表示非约束模型的对数

似然函数极大值,m 表示面板数据模型中约束条件个数。

Page 16: 第第第第 9 章章章章 面板数据模型与应用 1.面板数据定义ceaf.dufe.edu.cn/uploadfiles/ggl/docs/面板数据模型与应用1.pdf · 6 y1t = α1 + X1t 'β +ε1t,

16

4.1 F 检验

面板数据建模的一项重要任务就是判别模型中是否存在个体固定效应。以个体随机效

应模型 yit = αi + Xit 'β +εit,为例,无论是固定效应还是随机效应模型,αi 都被看作是随机变量,

并都有假定条件

E(yit αi, Xit) = αi + Xit 'β

下面介绍两种检验方法,F 检验和 Hausman检验。

先介绍 F 检验原理。F 统计量定义为

F = )/(

/)(

kTSSE

mSSESSE

u

ur

−−

(30)

其中 SSEr 表示施加约束条件后估计模型的残差平方和,SSEu 表示未施加约束条件的估计

模型的残差平方和,m 表示约束条件个数,T 表示样本容量,k 表示未加约束的模型中被估

参数的个数。在原假设“约束条件真实”条件下,F 统计量渐近服从自由度为( m , T – k )的

F 分布。

F ∼ F(m , T – k )

以检验建立混合模型还是个体固定效应模型为例,介绍 F 检验的应用。建立假设

H0:αi =α。模型中不同个体的截距相同(真实模型为混合模型)。

H1:模型中不同个体的截距项αi 不同(真实模型为个体固定效应模型)。

F 统计量定义为:

F=)/(

)]()/[()(

kNNTSSE

kNNTkNTSSESSE

u

ur

−−−−−−−

=)/(

/)(

kNNTSSE

NSSESSE

u

ur

−−−

(31)

其中 SSEr 表示约束模型,即混合估计模型的残差平方和,SSEu 表示非约束模型,即个体固

定效应模型的残差平方和。约束条件为 N 个。k 表示公共参数个数。

以案例 1为例,已知 SSEr= 4824588,SSEu=2270386,个体数 15。

F= )/(

/)(

kNNTSSE

NSSESSE

u

ur

−−−

=)115105/(0667.0

14/)0667.01702.0(

−−− =

00075.0

00074.0 = 9.87 (32)

F0.05 (14, 89) = 1.78

因为 F= 9.87 > F0.05 (14, 89) = 1.78,推翻原假设,比较上述两种模型,建立个体固定效应模

型比混合模型更合理。

EViews中称作多余的固定效应检验,使用 F 和 LR 两个统计量。在固定效应模型估计

窗口中的 View 键选 Fix/Random Effects Testing, Redundant Fixed Effects-Likelihood Ratio功

能。

(file:5panel02)

因为概率小于 0.05,推翻原假设,两相比较,应该建立个体固定效应模型。

Page 17: 第第第第 9 章章章章 面板数据模型与应用 1.面板数据定义ceaf.dufe.edu.cn/uploadfiles/ggl/docs/面板数据模型与应用1.pdf · 6 y1t = α1 + X1t 'β +ε1t,

17

4.2 Hausman检验

对同一参数的两个估计量差异的显著性检验称作 Hausman检验,简称 H 检验。H 检验

由 Hausman 1978年提出,是在 Durbin(1914)和 Wu(1973)基础上发展起来的。所以 H

检验也称作 Wu-Hausman检验,和 Durbin-Wu-Hausman检验。

先介绍 Hausman检验原理。

例如在检验单一方程中某个回归变量(解释变量)的内生性问题时得到相应回归参数的

两个估计量,一个是 OLS估计量、一个是 2SLS估计量。其中 2SLS估计量用来克服回归变

量可能存在的内生性。如果模型的解释变量中不存在内生性变量,那么 OLS估计量和 2SLS

估计量都具有一致性,都有相同的概率极限分布。如果模型的解释变量中存在内生性变量,

那么回归参数的 OLS 估计量是不一致的而 2SLS估计量仍具有一致性,两个估计量将有不

同的概率极限分布。

更一般地,假定得到 q 个回归系数的两组不同方法估计量θ 和θ~,则 H 检验的零假设

和被择假设是:

H0:plim(θ -θ~ ) = 0

H1:plim(θ -θ~ ) ≠ 0

假定两个估计量的差作为统计量也具有一致性,在 H0 成立条件下,统计量 N (θ -θ~ )

渐近服从正态分布。

N (θ -θ~ ) d

→ N(0, VH)

其中 VH 是 N (θ -θ~ )的极限分布方差矩阵。则 H 检验统计量定义为

H = (θ -θ~ )' (N-1HV )-1 (θ -θ~ ) → χ2(q) (33)

其中(N-1HV )是(θ -θ~ )的估计的方差协方差矩阵。在 H0成立条件下,H 统计量渐近服从χ2(q)

分布。其中 q 表示零假设中约束条件个数。

H 检验原理很简单,但实际中 VH 的一致估计量 HV 并不容易求。一般来说,

N-1HV = Var(θ -θ~ ) = Var(θ )+Var(θ~ )-2Cov(θ ,θ~ ) (34)

Var(θ ),Var(θ~ )在一般软件计算中都能给出。但 Cov(θ ,θ~ )不能给出。致使 H 统计量(33)

在实际中无法使用。

实际中也常进行如下检验。

H0:模型中所有解释变量都是外生的。

H1:其中某些解释变量都是内生的。

在原假设成立条件下,解释变量参数的 OLS估计量θ 是有效估计量。则有 Cov(θ ,θ~ ) =

Var(θ )。于是(34)式变为

N-1HV = Var(θ -θ~ ) = Var(θ )+Var(θ~ )-2Cov(θ ,θ~ ) = Var(θ~ )-Var(θ ) (35)

把(35)式结果代入(33)式,得

H = (θ -θ~ )' ( )~

(θ∧

Var - )ˆ(θ∧

Var )-1 (θ -θ~ ) (36)

其中 )~

(θ∧

Var 和 )ˆ(θ∧

Var 分别是对 Var(θ~ )和 Var(θ )的估计。与(34)式比较,这个结果只要

求计算 Var(θ )和 Var(θ~ ),H 统计量(36)具有实用性。

Page 18: 第第第第 9 章章章章 面板数据模型与应用 1.面板数据定义ceaf.dufe.edu.cn/uploadfiles/ggl/docs/面板数据模型与应用1.pdf · 6 y1t = α1 + X1t 'β +ε1t,

18

当θ表示一个标量时,H 统计量(36)退化为,

H = 22

2

~ˆ)

~ˆ(

SS −−θθ

∼χ2(1)

其中2S

~和

2S 分别表示θ~和θ 的样本方差值。

H 检验用途很广。可用来做模型丢失变量的检验、变量内生性检验、模型形式设定检验、

模型嵌套检验、建模顺序检验等。

下面详细介绍面板数据中利用 H 统计量进行模型形式设定的检验。

假定面板模型的误差项满足通常的假定条件,如果真实的模型是随机效应模型,那么β的离差变换 OLS估计量 Wβ 和可行 GLS法估计量 REβ~ 都具有一致性。如果真实的模型是个

体固定效应模型,则参数β的离差变换 OLS 法估计量 Wβ 是一致估计量,但可行 GLS 估计

量 REβ~ 是非一致估计量。那么,当对一个面板模型同时进行离差变换 OLS估计和可行 GLS

估计时,如果回归系数的两种估计结果差别小,说明应该建立随机效应模型;如果回归系数

的两种估计结果差别大,说明应该建立个体固定效应模型。可以通过H统计量检验( REβ~ - Wβ )

的非零显著性,检验面板数据模型中是否存在个体固定效应。

离差变换 OLS估计 可行 GLS估计 估计量之差

个体随机效应模型 估计量具有一致性 估计量具有一致性 小

个体固定效应模型 估计量具有一致性 估计量不具有一致性 大

原假设与备择假设是

H0: 个体效应与回归变量无关(个体随机效应模型)

H1: 个体效应与回归变量相关(个体固定效应模型)

注意:EViews 5.1、6.0可以直接进行 Hausman检验。

案例案例案例案例 1(file:5panel02):1996-2002年中国东北、华北、华东 15个省级地区的居民家庭

固定价格的人均消费(CP)和人均收入(IP)关系研究

(1)在个体固定效应输出结果窗口检验应该建立混合模型还是个体固定效应模型。

检验结果是

Page 19: 第第第第 9 章章章章 面板数据模型与应用 1.面板数据定义ceaf.dufe.edu.cn/uploadfiles/ggl/docs/面板数据模型与应用1.pdf · 6 y1t = α1 + X1t 'β +ε1t,

19

F= )/(

/)(

kNNTSSE

NSSESSE

u

ur

−−−

=)214105/(0667.0

14/)0667.01702.0(

−−− =

00075.0

00074.0 = 9.87

从输出结果看,个体固定效应模型中αi有 15个,混合模型中截距项是 1 个,所以约束

条件是 14 个(分子自由度)。个体固定效应模型(非约束模型)的自由度是

NT-N-k=15×7-(15+1)=89。其中 15是αi个数,1是β个数。

因为 F统计量对应的 p值< 0.05(近似为零),所以推翻原假设(混合模型),即应该建

立个体固定效应模型。

检验应该建立混合模型还是双固定效应模型。

F 统计量自由度的说明:(1)第一自由度 15-1=14,第二自由度 105-14-6-2=83。

(2)第一自由度 7-1=6,第二自由度 105-14-6-2=83。

(3)第一自由度 15-1+7-1=20,第二自由度 105-14-6-2=83。

结论是建立双固定效应模型也比混合模型好。

(2)在个体随机效应输出结果窗口检验应该建立个体随机效应模型还是个体固定效应

模型。

EViews中称作相关随机效应 Hausman检验,使用 Hausman统计量。在随机效应模型估

计窗口中的View 键选 Fix/Random Effects Testing, Correlated Random Effects-Hausman Test功

能。检验结果是

Page 20: 第第第第 9 章章章章 面板数据模型与应用 1.面板数据定义ceaf.dufe.edu.cn/uploadfiles/ggl/docs/面板数据模型与应用1.pdf · 6 y1t = α1 + X1t 'β +ε1t,

20

Hausman检验结果(file:5panel02)

因为 Hausman统计量对应的 p值< 0.05(为 0.0003),所以推翻原假设(个体随机效应

模型),即应该建立个体固定效应模型。

这个计算过程也可以自己计算:

Wβ =0.892481,s( Wβ ) = 0.014739(个体固定效应模型估计结果,对应图 10);

REβ~ =0.917660,s( REβ~ ) = 0.012976(个体随机效应模型估计结果,对应图 13)

H = 2

)~

(2

)ˆ(

2)~ˆ(

REWssREW

ββ

ββ−

− = 22

2

)012976.0()014739.0(

)917660.0892481.0(

− = 12.98

因为 H =12.98 > χ20.05 (1) = 3.8,所以模型存在个体固定效应。应该建立个体固定效应模

型。

最终确定的是建立个体固定效应模型。

个体固定效应模型的预测。在 EViews个体固定效应回归结果窗口点击 Proc键,选 make

model功能,将打开一个对话窗。点击 solve键。在打开的对话窗中可以选择动态预测和静

态预测。

图 10 是不带 AR(1)项的个体固定效应模型对安徽省、北京市人均食品支出的样本内静

态预测结果。图 11 是带 AR(1)项的个体固定效应模型对安徽省、北京市人均食品支出的样

本内静态预测结果。

8.08

8.12

8.16

8.20

8.24

8.28

8.32

8.36

8.40

8.44

8.48

1996 1997 1998 1999 2000 2001 2002

LNCPAHLNCPAH (Baseline)

8.5

8.6

8.7

8.8

8.9

9.0

9.1

9.2

9.3

1996 1997 1998 1999 2000 2001 2002

LNCPBJLNCPBJ (Baseline)

图 10 不带 AR(1)项的个体固定效应模型预测结果

Page 21: 第第第第 9 章章章章 面板数据模型与应用 1.面板数据定义ceaf.dufe.edu.cn/uploadfiles/ggl/docs/面板数据模型与应用1.pdf · 6 y1t = α1 + X1t 'β +ε1t,

21

8.08

8.12

8.16

8.20

8.24

8.28

8.32

8.36

8.40

8.44

8.48

1996 1997 1998 1999 2000 2001 2002

LNCPAHLNCPAH (Baseline)

8.5

8.6

8.7

8.8

8.9

9.0

9.1

9.2

9.3

1996 1997 1998 1999 2000 2001 2002

LNCPBJLNCPBJ (Baseline)

图 11 带 AR(1)项的个体固定效应模型预测结果

5.面板数据建模案例分析

案例 2(file:5panel01a)美国公路交通事故死亡人数与啤酒税的关系研究

见 Stock J H and M W Watson, Introduction to Econometrics, Addison Wesley, 2003第 8章。

美国每年有 4万高速公路交通事故,约 1/3涉及酒后驾车。这个比率在饮酒高峰期会上升。

早晨 1∼3点 25%的司机饮酒。饮酒司机出交通事故数是不饮酒司机的 13倍。现有 1982∼1988

年 48个州共 336组美国公路交通事故死亡人数(number)与啤酒税(beertax)的数据。

1.0

1.5

2.0

2.5

3.0

3.5

4.0

4.5

0.0 0.4 0.8 1.2 1.6 2.0 2.4 2.8

BEER82

VF

R82

VFR82 vs. BEER82

1.2

1.6

2.0

2.4

2.8

3.2

3.6

0.0 0.4 0.8 1.2 1.6 2.0 2.4

BEER88

VF

R88

VFR88 vs. BEER88

图 1 1982年数据散点图(5panel01a-graph01) 图 2 1988年数据散点图(5panel01a- graph07)

1982年数据的估计结果(散点图见图 1)

∧number 1982 = 2.01 + 0.15 beertax1982

(0.15) (0.13)

1988年数据的估计结果(散点图见图 2)

∧number 1988 = 1.86 + 0.44 beertax1988

(0.11) (0.13)

Page 22: 第第第第 9 章章章章 面板数据模型与应用 1.面板数据定义ceaf.dufe.edu.cn/uploadfiles/ggl/docs/面板数据模型与应用1.pdf · 6 y1t = α1 + X1t 'β +ε1t,

22

0.5

1.0

1.5

2.0

2.5

3.0

3.5

4.0

4.5

0.0 0.4 0.8 1.2 1.6 2.0 2.4 2.8

BEERTAX

VF

R

图 3 混合估计共 336个观测值。估计结果仍不可靠。((((file: 5panel01b))))

1982∼1988年混合数据估计结果(file: 5panel01b,散点图见图 3)

∧number 1982∼1988 = 1.85 + 0.36 beertax1982∼1988

(42.5) (5.9) SSE = 98.75

显然以上三种估计结果都不可靠(回归参数符号不对)。原因是啤酒税之外还有许多因

素(如各州的路况、车型、交通立法等因素)影响交通事故死亡人数。从面板理论上说,不

知混合模型是不是最优的模型形式。

按个体固定效应模型估计

∧number it = 2.375 +… - 0.66 beertax it

(24.5) (-3.5)

R2 = 0.91, SSE=10.35,(file:5panel01ch8-pool1, pool1)

用 F 检验判断应该建立混合模型还是个体固定效应模型。

H0:αi =α。混合模型(约束截距项为同一参数)。

H1:αi各不相同。个体固定效应模型(截距项任意取值)

F= )2/(

/)(

−−−

NNTSSE

NSSESSE

u

ur (以 EViwes5.0计算自由度)

Page 23: 第第第第 9 章章章章 面板数据模型与应用 1.面板数据定义ceaf.dufe.edu.cn/uploadfiles/ggl/docs/面板数据模型与应用1.pdf · 6 y1t = α1 + X1t 'β +ε1t,

23

= 10.520361.0

8809.1

)49336/(35.10

)148/()35.1075.98( ==−

−−

F0.05 (47, 287) = 1.4

因为 F= 52.10 > F0.05 (47, 287) = 1.4,推翻原假设,比较上述两种模型,建立个体固定效应模

型更合理。

为什么建立个体固定效应模型更合理?因为在进行离差变换 OLS 估计过程中剔除了那

些影响交通事故数,但没有在模型中列出的重要解释变量。

按双固定效应模型估计

∧number it = 2.37 +… - 0.646 beertax it

(23.3) (-3.25) SSE=9.92

用 F 检验判断应该建立混合模型还是个体时点双固定效应模型。

H0:αi =α。γt =γ。混合模型(约束截距项为同一参数)。

H1:αi,γt各不相同。个体时点双固定效应模型(截距项任意取值)

F= )/(

)/()(

kTNNTSSE

TNSSESSE

u

ur

−−−+−

(以 EViwes5.0计算自由度)

= 48.470353.0

6760.1

)748336/(92.9

)17148/()92.975.98( ==−−

−+−−

F0.05 (53, 281) = 1.38

因为 F= 47.48 > F0.05(55, 279) = 1.38,推翻原假设,比较上述两种模型,建立个体时点双固

定效应模型比混合模型合理。

以上两种模型回归系数的估计结果非常近似。F 检验也说明,建立个体固定效应模型和

双固定效应模型都要比混合模型合理。所以回归参数- 0.66和- 0.646要比混合模型参数 0.36

合理。

H 检验的 EViews输出结果见图 15-12。

Page 24: 第第第第 9 章章章章 面板数据模型与应用 1.面板数据定义ceaf.dufe.edu.cn/uploadfiles/ggl/docs/面板数据模型与应用1.pdf · 6 y1t = α1 + X1t 'β +ε1t,

24

图 15-12 H 检验的 EViews输出结果

比较个体固定效应模型和个体随机效应模型,因为相应 p 值小于 0.05,结论是应该建立

个体固定效应模型。

因为差分 OLS 估计也是估计固定效应模型的一种方法,下面讨论面板差分数据得到的

估计结果。利用 1988年和 1982年数据的差分数据得估计结果(散点图见图 4)。这个估计

结果在符号上也是合理的。(file:5panel01a,eq01)

∧number 1988 -

∧number 1982 = -0.072 - 1.04 (beertax1988 - beertax1982)

(0.065) (0.36)

-.6

-.4

-.2

.0

.2

.4

.6

-1.6 -1.2 -0.8 -0.4 0.0 0.4 0.8

VFR88-VFR82

BE

ER

88-B

EE

R82

图 4 差分数据散点图(File:5panel01a- graph08)

注意:应该通过散点图选择面板数据模型的形式,这里主要指建立线性的还是非线性的

模型。

【案例案例案例案例 3】(file: 5cobbdoug01) 摘自摘自摘自摘自 Murray 的现代计量经济学的现代计量经济学的现代计量经济学的现代计量经济学

Page 25: 第第第第 9 章章章章 面板数据模型与应用 1.面板数据定义ceaf.dufe.edu.cn/uploadfiles/ggl/docs/面板数据模型与应用1.pdf · 6 y1t = α1 + X1t 'β +ε1t,

25

资本和劳动对产出有多大贡献一直是经济学中长期存在的一个问题。在估计生产函数

时,可以得到劳动和资本贡献的一种度量指标。哈佛大学的格里历切斯(Zvi Griliches)和

巴黎国民统计局的马里斯(Jacques Mairesse),多次利用大型的企业面板数据估计了柯布-

道格拉斯生产函数。马里斯提供的面板数据包含了来自 16个国家的 625个企业长达 8年的

共 5000组观测数据。

0.00E+00

2.00E+07

4.00E+07

6.00E+07

8.00E+07

1.00E+08

1.20E+08

1.40E+08

0.0E+00 1.0E+07 2.0E+07 3.0E+07 4.0E+07

KAPITAL

OU

TP

UT

0.00E+00

2.00E+07

4.00E+07

6.00E+07

8.00E+07

1.00E+08

1.20E+08

1.40E+08

0 200000 600000 1000000

LABOR

OU

TP

UT

625个企业的产出分别对资本和劳动力的散点图 (file: 5cobbdoug01a)

4

6

8

10

12

14

16

18

20

6 8 10 12 14 16 18

LOGKAP

LO

GO

UT

4

6

8

10

12

14

16

18

20

2 4 6 8 10 12 14

LOGLABOR

LOG

OU

T

625个企业的对数的产出分别对对数的资本和对数的劳动力的散点图 (file: 5cobbdoug01a)

Page 26: 第第第第 9 章章章章 面板数据模型与应用 1.面板数据定义ceaf.dufe.edu.cn/uploadfiles/ggl/docs/面板数据模型与应用1.pdf · 6 y1t = α1 + X1t 'β +ε1t,

26

0.00E+00

5.00E+06

1.00E+07

1.50E+07

2.00E+07

2.50E+07

3.00E+07

0 50000 100000 150000 200000 250000

SER01SER02SER03SER04SER05SER06SER07SER08SER09SER10

SER11SER12SER13SER14SER15SER16SER17SER18SER19SER20

SER21SER22SER23SER24SER25SER26SER27SER28SER29

LABOR

0

200000

400000

600000

800000

1000000

1200000

1400000

0 200000 400000 600000 800000 1000000

SER01SER02SER03SER04SER05SER06SER07SER08SER09SER10

SER11SER12SER13SER14SER15SER16SER17SER18SER19SER20

SER21SER22SER23SER24SER25SER26SER27SER28SER29

KAPITAL

29个企业的产出分别对资本和劳动力的散点图 (file: 5cobbdoug01a)

Page 27: 第第第第 9 章章章章 面板数据模型与应用 1.面板数据定义ceaf.dufe.edu.cn/uploadfiles/ggl/docs/面板数据模型与应用1.pdf · 6 y1t = α1 + X1t 'β +ε1t,

27

6

8

10

12

14

16

18

6 8 10 12 14 16 18

LOG(SER01)LOG(SER02)LOG(SER03)LOG(SER04)LOG(SER05)LOG(SER06)LOG(SER07)LOG(SER08)LOG(SER09)LOG(SER10)

LOG(SER11)LOG(SER12)LOG(SER13)LOG(SER14)LOG(SER15)LOG(SER16)LOG(SER17)LOG(SER18)LOG(SER19)LOG(SER20)

LOG(SER21)LOG(SER22)LOG(SER23)LOG(SER24)LOG(SER25)LOG(SER26)LOG(SER27)LOG(SER28)LOG(SER29)

LOG(KAPITAL)

6

8

10

12

14

16

18

2 4 6 8 10 12 14

LOG(SER01)LOG(SER02)LOG(SER03)LOG(SER04)LOG(SER05)LOG(SER06)LOG(SER07)LOG(SER08)LOG(SER09)LOG(SER10)

LOG(SER11)LOG(SER12)LOG(SER13)LOG(SER14)LOG(SER15)LOG(SER16)LOG(SER17)LOG(SER18)LOG(SER19)LOG(SER20)

LOG(SER21)LOG(SER22)LOG(SER23)LOG(SER24)LOG(SER25)LOG(SER26)LOG(SER27)LOG(SER28)LOG(SER29)

LOG(LABOR)

29个企业的对数的产出分别对对数的资本和对数的劳动力的散点图 (file: 5cobbdoug01a)

图 1-1 给出了如下柯布-道格拉斯生产函数用对数形式估计的个体随机效应、截面固定

效应的模型估计结果:

1 20i i i iQ L Kβ ββ ε=

Page 28: 第第第第 9 章章章章 面板数据模型与应用 1.面板数据定义ceaf.dufe.edu.cn/uploadfiles/ggl/docs/面板数据模型与应用1.pdf · 6 y1t = α1 + X1t 'β +ε1t,

28

……………….

图 1-1 个体随机、时点固定效应模型估计结果

资本和劳动的系数估计值 0.30和 0.69与我们利用美国数据得到的结果相似。如果市场

是完全竞争的,而且企业是利润最大化的,那么,这些估计值就与规模报酬不变的生产技术

相一致,其中劳动得到产出的 70%,资本得到产出的 30%。注意到,该表还报告了个体误

差成分和随机误差项因观测而异的成分的方差估计值(在这种情况下,总干扰方差的 93%

来自于个体误差成分)。还注意到,个体随机、时点固定效应模型估计结果中的设定还包含

了一个时间的“固定效应”;也就是说,模型中为每个年度包含了一个虚拟变量。这些年度虚

拟变量描述了生产技术的逐年变化。

固定效应估计没有考虑解释变量在样本中不同个体之间的所有变异。检查这种变异是必

要的;我们不希望丢弃一些信息。适当的检验方法就是对所有个体效应都相等这个原假设进

行 F 检验。由于我们对每个企业和每个年度都使用了一个虚拟变量,所以我们要分别对每

组虚拟变量进行检验,然后再对它们一起进行检验。检验结果拒绝了虚拟变量“个体截距无

差异”的原假设。

下面是建立双固定效应模型还是混合模型的 F与χ2检验结果。

Page 29: 第第第第 9 章章章章 面板数据模型与应用 1.面板数据定义ceaf.dufe.edu.cn/uploadfiles/ggl/docs/面板数据模型与应用1.pdf · 6 y1t = α1 + X1t 'β +ε1t,

29

(1)第一自由度 625-1=624,第二自由度 5000-624-7-3=4366

(2)第一自由度 8-1=7,第二自由度 5000-624-7-3=4366

(3)第一自由度 625-1+8-1=631,第二自由度 5000-624-7-3=4366

图 1-3 多余的个体固定效应检验

个体固定效应估计结果:

。。。。。。。

图 1-2 个体固定效应模型估计结果

关于 c(2)+c(3)=1(规模报酬不变)的 Wald检验结果:

Page 30: 第第第第 9 章章章章 面板数据模型与应用 1.面板数据定义ceaf.dufe.edu.cn/uploadfiles/ggl/docs/面板数据模型与应用1.pdf · 6 y1t = α1 + X1t 'β +ε1t,

30

625个企业存在规模报酬不变特征。

下面是建立随机效应模型还是个体固定效应模型的χ2检验结果。

图 1-4 豪斯曼检验结果

本例应该建立个体固定效应或双固定效应模型。

【例 4】(5panel04,2120061743-model)加入人力资本的生产函数研究—基于我国省级地区

面板数据分析

一.问题概述

在宏观经济学的新增长理论中,经济学家提出人力资本这一概念,将其加入到生产函数

中,以此试图解释收入的地区差异。但是实物资本和人力资本在生产函数中究竟各起到什么

样的作用呢?

设 y 为人均产出,k 为人均实物资本, edu 是人均受教育年数。假设每个人的人力资本

量仅取决于他所接受的教育年数 edu。显然,人们接受教育越多,其人力资本就越多。

我们可以将人均产出分解为人均实物资本的贡献、人力资本的贡献和一个剩余的贡献。

剩余贡献反映的不仅是技术和知识,还包括了既定实物资本量和劳动服务量外产出的所有决

定因素。

二.数据分析

我们将以中国 29个省级地区(不包括重庆、西藏和港澳台地区)1987-2001年间 15年

的面板数据来对我国的生产函数进行分析,其中宁夏缺少 1987-1989年的三组数据,所以一

共有 432组数据。

y 表示人均国内生产总值(单位:元),k 表示人均资本形成总额(单位:元),edu 表

示人均受教育的时间(单位:年)。具体数据见附录。用 BJ、TJ、HEB、SXC、NMG、LN、

JL、HLJ、SH、JS、ZJ、AH、FJ、JX、SD、HEN、HUB、HUN、GD、GX、HN、SC、GZ、

YN、SX、GS、QH、NX、XJ 分别表示北京、天津、河北、山西、内蒙古、辽宁、吉林、

黑龙江、上海、江苏、浙江、安徽、福建、 江西、山东、河南、湖北、 湖南、 广东、广

西、海南、四川、贵州、云南、陕西、甘肃、 青海、宁夏和新疆。

y 和 k 数据均来自中经网统计数据库(http://202.113.20.216:90/zonghe.htm),edu 数据来

自复旦大学陈钊等 2004年的论文《中国人力资本和教育发展的区域差异-对于面板数据的估

算》。

人均受教育时间是平衡面板数据,但人均产出和人均资本存量不是平衡面板数据,29

个地区 15年人均产出对人均物质资本存量面板数据散点图见图 1。其中图 1-a给出的是人均

Page 31: 第第第第 9 章章章章 面板数据模型与应用 1.面板数据定义ceaf.dufe.edu.cn/uploadfiles/ggl/docs/面板数据模型与应用1.pdf · 6 y1t = α1 + X1t 'β +ε1t,

31

产出对人均物质资本存量的板数据散点图,图 1-b给出了 lny 和 lnk 的面板数据散点图,取

了对数后,人均产出与人均资本的线性关系十分明显。异方差不再存在。

0

5,000

10,000

15,000

20,000

25,000

30,000

35,000

40,000

0 2,500 5,000 7,500 10,000 12,500 15,000

YBJ YTJ YHEBYSXC YNMG YLNYJL YHLJ YSHYJS YZJ YAHYFJ YJX YSDYHEN YHUB YHUNYGD YGX YHNYSC YGZ YYNYSX YGS YQHYNX YXJK

图 1-a人均产出对人均资本的面板数据散点图(file:2120061743-plot,graph01)

6

7

8

9

10

11

5.0 5.5 6.0 6.5 7.0 7.5 8.0 8.5 9.0 9.5 10.0

LNYAH01 LNYBJ01 LNYGD01LNYGS01 LNYGX01 LNYGZ01LNYHEB01 LNYHEN01 LNYHLJ01LNYHN01 LNYHUB01 LNYHUN01LNYJL01 LNYJS01 LNYJX01LNYLN01 LNYNMG01 LNYNX01LNYQH01 LNYSC01 LNYSD01LNYSH01 LNYSXC01 LNYTJ01LNYXJ01 LNYYN01 LNYZJ01

LOG(K)

图 1-b对数形式人均产出对人均资本的面板数据散点图(file:2120061743-plot,graph02)

同理,图 2-a给出人均产出 y 对人均教育时间 edu 的面板数据散点图。数据存在异方差,

且关系为指数形式。图 2-b给出对数形式的人均产出 lny 对人均教育时间 edu 的面板数据散

点图。lny 与人均受教育时间 edu 存在线性关系。

0

5,000

10,000

15,000

20,000

25,000

30,000

35,000

40,000

4 5 6 7 8 9 10 11

YAH YBJ YFJYGD YGS YGXYGZ YHEB YHENYHLJ YHN YHUBYHUN YJL YJSYJX YLN YNMGYNX YQH YSCYSD YSH YSXYSXC YTJ YXJYYN YZJ

EDU

Page 32: 第第第第 9 章章章章 面板数据模型与应用 1.面板数据定义ceaf.dufe.edu.cn/uploadfiles/ggl/docs/面板数据模型与应用1.pdf · 6 y1t = α1 + X1t 'β +ε1t,

32

图 2-a人均产出对人均受教育时间的面板数据散点图(file:2120061743-plot,graph03)

6

7

8

9

10

11

4 5 6 7 8 9 10 11

LNYAH01 LNYBJ01 LNYGD01LNYGS01 LNYGX01 LNYGZ01LNYHEB01 LNYHEN01 LNYHLJ01LNYHN01 LNYHUB01 LNYHUN01LNYJL01 LNYJS01 LNYJX01LNYLN01 LNYNMG01 LNYNX01LNYQH01 LNYSC01 LNYSD01LNYSH01 LNYSXC01 LNYTJ01LNYXJ01 LNYYN01 LNYZJ01EDU

图 2-b 对数形式人均产出对人均受教育时间的面板数据散点图(file:2120061743-plot,graph04)

结合图形分析,建立如下计量模型:

ititititit ueduLnkcLny +++= βα

混合模型估计结果:

ititit eduLnkLny 0835.08113.06672.1 ++=∧

(26.5) (58.5) (6.84)

做删去人力资本 eduit的 Wald和 F 检验。从两个解释变量的个体固定效应模型中删去人

力资本 eduit得 Wald和 F 检验结果:

Page 33: 第第第第 9 章章章章 面板数据模型与应用 1.面板数据定义ceaf.dufe.edu.cn/uploadfiles/ggl/docs/面板数据模型与应用1.pdf · 6 y1t = α1 + X1t 'β +ε1t,

33

选 Wald-Corfficient Restrictions,去掉 eduit。因只检验 eduit系数是否为零,所以

W ∼ χ 2(1),

F ∼ F (1, 432-29-2)

检验结果显示不应该删去 eduit 变量。

三.模型估计与分析

(1)模型估计

我们首先使用混合模型估计,估计结果如下:

Lnyit = 1.67 + 0.81 Lnkit + 0.08 eduit + uit (1)

(26.4) (58.5) (6.8)

R2 = 0.96, DW = 0.37,SSE = 12.0

被估参数均通过显著性检验,回归方程拟和的效果也较好,但 DW 值太低,存在正自

相关。在混合模型中加入 AR(1) 后的输出结果:

Lnyit = 6.21 + 0.45 Lnkit + 0.05 eduit + 0.96 AR(1) + vit (2)

(8.8) (13.4) (6.8) (83.6)

R2 = 0.99, DW = 2.1, SSE = 3.07

Page 34: 第第第第 9 章章章章 面板数据模型与应用 1.面板数据定义ceaf.dufe.edu.cn/uploadfiles/ggl/docs/面板数据模型与应用1.pdf · 6 y1t = α1 + X1t 'β +ε1t,

34

参数通过显著性检验,AR(1) 的回归参数显著的不为零,DW 的值说明模型已消除了自相关。

再建立个体固定效应模型,估计结果如下:

Lnyit= (1.19-0.49) + (1.19-0.17) D2 +…+ (1.19-0.01) D29 + 0.76 Lnkit + 0.21eduit+uit (3)

(21.7) (48.8) (11.3)

R2 = 0.98, SSE= 4.4, DW = 1.06

其中虚拟变量 D2、D3 …,D29 的定义为:

=

= 0

293 2iii 1

其它

,,,个个体,属于第如果 …

iD

模型(3)的 DW 值太小,模型可能存在自相关。加入 AR(1)后的个体固定效应模型估计

结果如下:

Lnyit= (1.65-0.34)+(1.65-0.12) D2+…+ (1.65-0.23) D29+0.75Lnkit+0.16eduit+0.58 AR(1)+vit (4)

(34.5) (7.9) (12.5)

Page 35: 第第第第 9 章章章章 面板数据模型与应用 1.面板数据定义ceaf.dufe.edu.cn/uploadfiles/ggl/docs/面板数据模型与应用1.pdf · 6 y1t = α1 + X1t 'β +ε1t,

35

R2 = 0.99, SSE = 3.2, DW = 2.09

其中虚拟变量 D2 、D3 …,D29 的定义为:

=

= 0

293 2iii 1

其它

,,,个个体,属于第如果 …

iD

模(4)与(3)相比,已消除自相关。

下面用 F 统计量检验是应该建立混合模型还是个体固定效应模型,原假设与备择假设

分别为:

H0 :模型中不同个体的截距相同

H1 :模型中不同个体的截距不同

对模型(1)和(3)进行考察:

7.24)2-29-432/(4.4

)28/()4.4-(12.0

)--/(

)/()-( ===KNNTSSE

NSSESSEF

U

UR

F = 24.7 > F0.05 (28,401),所以推翻原假设。比较上述两个模型,个体固定效应模型(3)比

混合模型(1)合理。

接下来考察个体随机效应模型,估计结果如下:

Lnyit= (1.26-0.43)+(1.26-0.15) D2 +…+(1.26-0.23) D29 +0.78 Lnkit+0.18eduit+uit (5)

(21.9) (54.0) (10.7)

R2 = 0.98, SSE = 4.9, DW= 0.92, T= 432

Page 36: 第第第第 9 章章章章 面板数据模型与应用 1.面板数据定义ceaf.dufe.edu.cn/uploadfiles/ggl/docs/面板数据模型与应用1.pdf · 6 y1t = α1 + X1t 'β +ε1t,

36

其中虚拟变量 D2 、D3 …,D29 的定义为:

=

= 0

293 2iii 1

其它

,,,个个体,属于第如果 …

iD

下面进行 Hausman检验是应该建立个体随机效应模型(5)还是个体固定效应模型(3)。原

假设和备择假设分别为:

H0 :个体随机效应模型

H1 :个体固定效应模型

因为 H = 22.4 > χ2

0.05 (2) = 6.0,结论仍然是,模型存在个体固定效应,应该建立个体固

定效应模型。

由(5)式,经济含义是,人均产出 yit对人均资本 kit 的弹性系数是 0.75。人均资本每增

加 1%,人均产出增加 0.75%。对数的人均产出 Lnyit对人均受教育时间 eduit 求导数

itit

it deduy

dy16.0=

人均受教育时间每增加 1年,人均产出 yit增加 16%。

【例 5】(file:5expend-zhang)怎样建立非线性面板数据模型

全国省级地区城镇居民人均食品支出与收入的关系研究(1985∼2005)。

为均衡面板数据,包括 28个省市自治区,不包括西藏、新疆和重庆市,21年共 588个

观测值。

图 1给出 28个省级地区 1985∼2005年城镇居民人均食品支出的面板数据 3维图。

1985 199

0

199

5

2000 2005

F1A

NH

F1G

UD

F1HE

B

F1H

UN

F1LI

N

F1S

AX

F1SI

C

0

500

1000

1500

2000

2500

3000

3500

4000

4500

5000

图 1a 28个省级地区城镇居民人均食品支出 3 维图(file:5expend-zhang)

Page 37: 第第第第 9 章章章章 面板数据模型与应用 1.面板数据定义ceaf.dufe.edu.cn/uploadfiles/ggl/docs/面板数据模型与应用1.pdf · 6 y1t = α1 + X1t 'β +ε1t,

37

0

1000

2000

3000

4000

5000

F1A

NH

F1B

EJ

F1F

UJ

F1G

AS

F1G

UD

F1G

UX

F1G

UZ

F1H

AN

F1H

EB

F1H

EN

F1H

LJ

F1H

UB

F1H

UN

F1J

IL

F1J

IS

F1J

IX

F1L

IN

F1N

IX

F1N

MG

F1Q

IH

F1S

AX

F1S

HD

F1S

HH

F1S

HX

F1S

IC

F1T

IJ

F1Y

UN

F1Z

EJ

图 1b 28个省级地区城镇居民人均食品支出箱图(file:5expend-zhang)

图 2给出 28个省级地区 1985∼2005年城镇居民人均收入的面板数据 3维图。

1985

1989

1993

1997

2001

2005

I1ANH

I1GAS

I1GUZ

I1HEN

I1HUN

I1JIX

I1NMG

I1SHD

I1SIC

I1ZEJ

0

2000

4000

6000

8000

10000

12000

14000

16000

18000

20000

图 2a 28个省级地区城镇居民人均收入 3 维图(file:5expend-zhang)

0

5000

10000

15000

20000

I1A

NH

I1B

EJ

I1F

UJ

I1G

AS

I1G

UD

I1G

UX

I1G

UZ

I1H

AN

I1H

EB

I1H

EN

I1H

LJ

I1H

UB

I1H

UN

I1JI

L

I1JI

S

I1JI

X

I1LI

N

I1N

IX

I1N

MG

I1Q

IH

I1S

AX

I1S

HD

I1S

HH

I1S

HX

I1S

IC

I1T

IJ

I1Y

UN

I1Z

EJ

图 2b 28个省级地区城镇居民人均收入箱图(file:5expend-zhang)

首先用混合数据把 28个地区的数据混合在一起(非面板数据)分析分省城镇居民人均

食品支出(food)与城镇居民人均收入(income)的关系,从而确定建立何种类型的模型最

合理。28个省市自治区,21年共 588组观测值。

Page 38: 第第第第 9 章章章章 面板数据模型与应用 1.面板数据定义ceaf.dufe.edu.cn/uploadfiles/ggl/docs/面板数据模型与应用1.pdf · 6 y1t = α1 + X1t 'β +ε1t,

38

0

1000

2000

3000

4000

5000

0 4000 8000 12000 16000 20000

income

food

图 3 Food和 income的混合数据散点图(file:5expend-zhang-2,group03)

首先通过散点图研究。food 和 income的混合数据散点图如图 3(file:income-food)。

显然变量 food和 income之间存在非线性关系和异方差,建立线性模型是不合理的。

注意:如果不看散点图,还误以为线性模型是一个很好的回归结果。

把 income取成对数形式,尝试建立半对数模型。图 4显示,建立半对数模型也不合理。

0

1000

2000

3000

4000

5000

6.0 6.5 7.0 7.5 8.0 8.5 9.0 9.5 10.0

log(income)

food

-1000

0

1000

2000

3000

4000

5000

0 4000 8000 12000 16000 20000

I1

F1

F1 vs. Log I1

Page 39: 第第第第 9 章章章章 面板数据模型与应用 1.面板数据定义ceaf.dufe.edu.cn/uploadfiles/ggl/docs/面板数据模型与应用1.pdf · 6 y1t = α1 + X1t 'β +ε1t,

39

图 4 Food和 log(income)的混合数据散点图(对数拟合)(file:5expend-zhang-2)

-2000

-1000

0

1000

2000

3000

4000

5000

0 4000 8000 12000 16000 20000

I1

F1

F1 vs. Inverse of I1

0

1000

2000

3000

4000

5000

0 4000 8000 12000 16000 20000

I1

F1

F1 vs. Polynomial (degree=2) of I1

图 5 倒数拟合(file:5expend-zhang-2) 图 6 2次多项式拟合(file:5expend-zhang-2)

尝试建立倒数模型(见图 5)和 2次多项式模型(见图 6),但倒数模型不合理,2次多

项式模型拟合的可以,但未克服异方差。

进一步观察 log(food)和 log(log(income) )的散点图,如图 8。log(Food)和 log(log(income) )

存在满意的线性关系,同时,不存在异方差。所以讨论建立面板数据模型时,应该建立关于

log(Food)和 log(log(income) ) 的面板数据模型。

5.5

6.0

6.5

7.0

7.5

8.0

8.5

9.0

6.0 6.5 7.0 7.5 8.0 8.5 9.0 9.5 10.0

LOG(CINCOME)

LOG(Cfood)

5.5

6.0

6.5

7.0

7.5

8.0

8.5

9.0

1.80 1.85 1.90 1.95 2.00 2.05 2.10 2.15 2.20 2.25 2.30

log(log(income))

log(food)

图 7 log(Food)和 log(income)的混合数据散点图 图 8 log(Food)和 log(log(income) )的散点图

首先用混合数据(非面板数据)估计模型。得回归结果如下,

logfood = - 5.8117 + 6.2072 log(logincome) (1)

(-61.7) (137.3)

R2 = 0.97,DW=2.0, N×T= 588

本来总样本容量应该是 N×T= 21×31 = 651,但西藏、新疆、重庆的数据有缺失。

F 检验结果显示混合模型与个体固定效应模型相比较,应该建立个体固定效应模型。

Page 40: 第第第第 9 章章章章 面板数据模型与应用 1.面板数据定义ceaf.dufe.edu.cn/uploadfiles/ggl/docs/面板数据模型与应用1.pdf · 6 y1t = α1 + X1t 'β +ε1t,

40

Hausman检验结果显示个体随机效应模型与个体固定效应模型相比较,应该建立个体固

定效应模型。

建立带有两个误差自回归项的个体固定效应模型如下:

logfood = - 4.9784 + … + 5.8147 log(logincome) +1.0093 AR(1) -0.3349 AR(2) (2)

(-34.9) (86.4) (24.7) (-8.4)

R2 = 0.995,DW=2.2, N×T= 532

图 7 混合数据估计结果(file:5expend-zhang)

上式两侧求导,

t

t

tt

tincome

dfincome

incomelogfood

dfood 18147.5=

得弹性函数,

tt

t

t

tincomelogincome

dfincome

food

dfood 18147.5=

上式说明(1)式中人均食品支出对人均收入的弹性系数是随着城镇人均收入的增加而

减小。当城镇人均收入为 1000元时,

84.0)1000(

18147.5 ==

logincome

dfincome

food

dfood

t

t

t

t

人均食品支出对人均收入的弹性系数是 0.84。当城镇人均收入增长到 15000元时,

60.0)15000(

18147.5 ==

logincome

dfincome

food

dfood

t

t

t

t

人均食品支出对人均收入的弹性系数下降到 0.60。城镇人均食品支出对人均收入的弹性系数

随着人均收入的提高而递减。

Page 41: 第第第第 9 章章章章 面板数据模型与应用 1.面板数据定义ceaf.dufe.edu.cn/uploadfiles/ggl/docs/面板数据模型与应用1.pdf · 6 y1t = α1 + X1t 'β +ε1t,

41

下面讨论用个体固定效应模型预测。在 EViews 个体固定效应回归结果窗口点击 Proc

键,选 make model功能,将打开一个对话窗。点击 solve键。在打开的对话窗中可以选择动

态预测和静态预测。图 14是对安徽省人均食品支出的样本内静态预测结果。

0

500

1,000

1,500

2,000

2,500

3,000

86 88 90 92 94 96 98 00 02 04

F1ANHF1ANH (Baseline)

0

1,000

2,000

3,000

4,000

5,000

86 88 90 92 94 96 98 00 02 04

F1BEJF1BEJ (Baseline)

图 9 安徽省城镇人均食品支出的静态预测结果 图 10 北京市人均食品支出的静态预测结果

注意:一定要通过散点图分析模型形式,本例如果不分析散点图,直接建立全对数模型

如下:

Lnfood = 1.4092 + … + 0.7105 Lnincome +1.0465 AR(1) -0.3311 AR(2) (3)

(14.9) (64.0) (25.3) (-8.2)

R2 = 0.995,DW=2.2, N×T= 532

还以为建立了非常好的模型,但显然不如模型(2)更合理。

【案例案例案例案例 6】(5engle-model,5engle-plot)中国城、乡恩格尔系数与人均收入的关系研究(省

级地区面板数据)

以中国 31个省级地区(不包括重庆、西藏和港澳台地区)1985-2005年间 21年的面板

数据来进行分析。

ratio表示恩格尔系数,cratio表示城镇的恩格尔系数,rratio表示农村的恩格尔系数;

income表示人均收入(单位:人民币元),cincome表示城镇人均收入(单位:人民币

元),rincome表示农村人均收入(单位:人民币元)。

用 beijing、tianjin、hebei、shanxi、neimengguo、liaoning、jilin、heilongjiang、shanghai、

jiangsu、zhejiang、anhui、fujian、jiangxi、shandong、henan、hubei、hunan、guangdong、guangxi、

hainan、sichuan、guizhou、yunnan、shannxi、gansu、qinghai、ningxia、xinjiang、chongqing

和 xizang分别表示北京、天津、河北、山西、内蒙古、辽宁、吉林、黑龙江、上海、江苏、

Page 42: 第第第第 9 章章章章 面板数据模型与应用 1.面板数据定义ceaf.dufe.edu.cn/uploadfiles/ggl/docs/面板数据模型与应用1.pdf · 6 y1t = α1 + X1t 'β +ε1t,

42

浙江、安徽、福建、 江西、山东、河南、湖北、 湖南、 广东、广西、海南、四川、贵州、

云南、陕西、甘肃、 青海、宁夏、新疆、重庆和西藏。以上数据均来自中国宏观经济数据

库。

图 1给出城镇恩格尔系数与人均收入的面板数据散点图。

.2

.3

.4

.5

.6

.7

.8

0 4000 8000 12000 16000 20000

CBEIJINGCTIANJINCHEBEICSHANXICNEIMENGGUOCLIAONINGCJILINCHEILONGJIANGCSHANGHAICJIANGSUCZHEJIANGCANHUICFUJIANCJIANGXICSHANGDONG

CHENANCHUBEICHUNANCGUANGDONGCGUANGXICHAINANCCHONGQINGCSICHUANCGUIZHOUCYUNNANCXIZANGCSHANNXICGANSUCQINGHAI

CINCOME

图 1 城镇恩格尔系数对城镇居民收入的面板散点图((((file:5engle-plot,cc))))

.2

.3

.4

.5

.6

.7

0 4000 8000 12000 16000 20000

CINCOME

CR

AT

IO

CRATIO vs. CINCOME

.30

.35

.40

.45

.50

.55

.60

.65

.70

0 4000 8000 12000 16000 20000

CINCOME

CR

AT

IO

CRATIO vs. Inverse of CINCOME

图 2 散点图与线性拟合((((5engle-plot,cc0)))) 图 3 散点图与半倒数函数拟合((((5engle-plot,cc0))))

.2

.3

.4

.5

.6

.7

0 4000 8000 12000 16000 20000

CINCOME

CR

AT

IO

Inverse of CRATIO vs. CINCOME

图 4 散点图与半倒数函数拟合((((5engle-plot,cc0))))

通过散点图分析,应该建立如图 4的半倒数模型。(为什么线性函数不合理?)

混合估计结果如下:

1/cratioit = 3.2049 + 4.09×10-5 cincomeit + 0.9824AR(1) + vit (1)

Page 43: 第第第第 9 章章章章 面板数据模型与应用 1.面板数据定义ceaf.dufe.edu.cn/uploadfiles/ggl/docs/面板数据模型与应用1.pdf · 6 y1t = α1 + X1t 'β +ε1t,

43

(108.4) (28.2) (66.4)

R2 = 0.94, DW = 1.9, SSE = 5.4

个体固定效应模型估计结果如下:

1/cratioit = 1.7913 +…+ 8.80×10-5 cincomeit + 0.8211 AR(1) + vit (2)

(42.8) (16.5) (32.8)

R2 = 0.94, DW = 1.8, SSE = 5.1

F 检验结果显示混合模型(不带 AR 项)与个体固定效应模型(不带 AR 项)相比较,

应该建立个体固定效应模型。

Hausman检验结果显示个体随机效应模型与个体固定效应模型相比较,应该建立个体固

定效应模型。

如果建立线性模型:

cratioit = 0.47 - 1.05×10-5 cincomeit + 0.94uit-1+vit (3)

(14.8) (-5.9) (58.1)

R2 = 0.93, DW = 2.06, SSE = 0.02

虽然参数通过显著性检验,可决系数也很高,但模型不合理(随着收入的提高,恩格尔系数

将变成复值)。