Material2 teoria ADE 11-12 - uva. · PDF file5 Gujarati (2006): Principios de...

Material Docente de

Econometría Curso 2011-2012. Segunda parte

Esquemas de teoría

Cuarto curso de Administración y Dirección de Empre sas

Profesores: Jesús Cavero Álvarez Carmen Lorenzo Lago Mercedes Prieto Alaiz

Material Docente de Econometría

Segunda parte

Curso 2011-2012

Tema 7.- Heteroscedasticidad ......................................................................... 1

Tema 8.- Análisis de regresión con series temporales. Autocorrelación ........ 15

Tema 9.- Regresores estocásticos ..................................................................... 35

Tema 10.- Modelos dinámicos ........................................................................... 43

Tema 11.- Introducción a los modelos de ecuaciones simultáneas .................... 49

Econometría Curso 2011-12

1

TEMA 7: HETEROSCEDASTICIDAD

7.1.- Planteamiento general

Una de las hipótesis básicas del modelo de regresión lineal clásico,

0 1 1 2 2 1,2, ,i i i k ki iY X X X i Nβ β β β ε= + ⋅ + ⋅ + + ⋅ + =L K ,

o, en forma matricial, εβ += XY es que la matriz de varianzas-covarianzas de las

perturbaciones es ( ) IE 2' σεε = , siendo I la matriz identidad. Esto es, las varianzas de las

perturbaciones son iguales (hipótesis de igualdad de varianzas u homoscedasticidad) y las

covarianzas entre las mismas son nulas (hipótesis de incorrelación):

( )( )

2 1,2, ,

, 0 , 1,2, ,i

i j

Var i N

Cov i j N i j

ε σε ε

= =

= = ≠

K

K

Si no se verifica cualquiera de las dos hipótesis, las varianzas no son constantes

(heteroscedasticidad) o las covarianzas no son todas nulas (autocorrelación de las

perturbaciones), tendremos que,

( ) Ω= 2' σεεE donde I≠Ω

Este modelo se conoce como Modelo de Regresión Lineal Generalizado (MRLG).

Por tanto, el problema de heteroscedasticidad se produce cuando las varianzas de las

perturbaciones son desiguales, esto es, ( ) NicteVar ii ,...,2,12 =∀≠= σε y, por ello,

( )

=

2

2

2

2

1

'

....00

................

0....0

0....0

N

E

σ

σσ

εε

Si expresamos ( ) NiwVar iii ,...,2,122 =∀== σσε , entonces

( ) Ω= 2' σεεE , donde

=Ω

Nw

w

w

....00

................

0....0

0....0

2

1

Para explicar mejor la diferencia entre heteroscedasticidad y homoscedasticidad,

vamos a analizar un modelo de regresión de dos variables en el que la variable dependiente

Y es el ahorro personal y la variable explicativa la renta personal disponible (X). La Figura

1a) muestra que a medida que aumenta la renta personal disponible, también aumenta, de

media, el ahorro, pero la varianza del ahorro en torno a su valor medio permanece igual

para todos los niveles de renta personal disponible, (recuérdese que la recta de regresión

poblacional muestra el valor medio de la variable dependiente para determinados valores de

la variable explicativa). Este es el caso de la homoscedasticidad o igual varianza. Por otra

parte, como muestra la Figura 1b), aunque el nivel medio de los ahorros aumenta a medida

que lo hace la renta personal disponible, la varianza del ahorro no permanece igual para

todos los niveles de renta. Aquí aumenta con la renta personal disponible. Este es el caso de

la heteroscedasticidad o varianza desigual. Dicho de otra manera la figura b) muestra que la


2

gente de rentas elevadas ahorra, de media, más que la gente de rentas bajas, pero también

hay más variabilidad en sus ahorros.

Figura 11

(a)Homoscedasticidad (igual varianza) (b) Heteroscedasticidad (varianza desigual)

Simbólicamente podemos expresar la heteroscedasticidad como

( ) NiwVarXYVar iiii ,...,2,1)/( 22 =∀=== σσε

Obsérvese el subíndice de 2

iσ , que es un recordatorio de que la varianza de iε ya no es

constante sino que varía con cada observación.

Causas: La heteroscedasticidad se presenta, normalmente, cuando trabajamos con datos de

corte transversal.

• La naturaleza del modelo. Ejs.: ahorro en función del ingreso (a mayor ingreso, más

posibilidades de selección respecto a la forma de disponer de dicho ingreso, mayor

probabilidad de que la varianza del ahorro aumente con el ingreso), estudios sobre

los beneficios de empresas (mayor varianza de los beneficios al aumentar el tamaño

de la empresa) …

• Datos agrupados (sumas o medias de grupos). Si los datos de los que se dispone

corresponden a medias de grupos o colectivos, el modelo a estimar sería:

hkhkhoh XXY εβββ +++= .....11 H1h L= y puede demostrarse fácilmente que la

varianza de cada perturbación depende del tamaño del grupo o colectivo al que

corresponde [ ( )h

hN

Var2σε = ].

• Errores de especificación del modelo: en general, algún error de omisión, cambio

estructural no incorporado,…

1 Gujarati (2006): Principios de Econometría. McGraw Hill.


3

Consecuencias de aplicar MCO a un modelo con heteroscedasticidad

Bajo los supuestos del MRLC los estimadores MCO son los mejores estimadores lineales, e

insesgados, pues son los que tienen varianza mínima: son eficientes. En el caso de que

exista heteroscedasticidad (o autocorrelación) en el modelo las principales consecuencias

son las siguientes:

1) Los estimadores MCO siguen siendo lineales, insesgados, consistentes y con

distribución normal pero ya no tienen varianza mínima. Esto es así incluso en

grandes muestras.

2) Las formulas habituales para calcular las varianzas de los estimadores dejan de ser

correctas y suelen dar varianzas sesgadas.

- La expresión habitual de la matriz de Var-Cov de MCOβ es ( )∑ −=ββ σˆˆ12 ' XX sin

embargo, si existe heteroscedasticidad se demuestra que

( )( ) ( ) ( ) 1121

ˆˆ1

)'(')'(]''''['ˆˆ −−−− Ω==−−=∑ XXXXXXXXXXXXEE σεεββββββ

- 2S , el estimador convencional de 2σ , ya no es un estimador insesgado y

recuérdese que 2S interviene en el estimador de las varianzas de los

estimadores. 2S también deja de ser consistente.

3) Los EMCO del vector paramétrico no coinciden con los EMV ya que ( ) IE 2' σεε ≠

4) Como consecuencia, los contrastes de hipótesis y los intervalos de confianza

basados en el la t y F ya no son válidos. Por tanto, existe la posibilidad de extraer

conclusiones erróneas si se utilizan los procedimientos convencionales de

contrastación de hipótesis.

7.2.- Procedimientos para detectar la heteroscedasticidad:

La heteroscedasticidad, como la autocorrelación, es un problema de las perturbaciones,

que son variables inobservables. Entonces, para detectarla vamos a utilizar los residuos de

la estimación mínimo cuadrática ordinaria, cuyos valores se pueden considerar como

estimaciones de las perturbaciones. Entre los métodos de detección de la

heteroscedasticidad hay que distinguir los procedimientos gráficos y los procedimientos

inferenciales.

• Análisis gráfico de los residuos

Es un método orientativo, útil cuando no tenemos información sobre la existencia de

heteroscedasticidad, ni sobre la estructura de las varianzas de las perturbaciones, pero se

piensa que dicha varianza es función de algún regresor.

1) Diagrama de dispersión con cada uno de los regresores, jiX , en el eje de abcisas y los

residuos, los residuos al cuadrado o su valor absoluto, 2, ii ee o || ie , en el eje de ordenadas.

Si dependiendo de los valores de jX , los residuos son significativamente distintos de

tamaño, este hecho indicaría que la dispersión de las perturbaciones depende del valor de

jX y, por tanto, sus varianzas no serían constantes. Esta circunstancia se visualiza muy

bien en un diagrama de dispersión entre el regresor y los residuos. La Figura 2 muestra una


4

forma habitual de heteroscedasticidad: como se observa, los residuos son mayores

(positivos o negativos) para valores grandes del regresor.

Figura 22

Por su parte, un diagrama de dispersión entre un regresor y los residuos al cuadrado

no sólo puede servir para mostrar indicios de heteroscedasticidad; en este caso, la forma de

la nube de puntos ( ), 2

iji eX puede sugerir la forma funcional que presenta la

heteroscedasticidad. Así, la nube de puntos de la Figura 3 indicaría que 2

ie depende lineal o

cuadráticamente de jiX . Dado que 2

ie se puede considerar una estimación de ( )iVar ε ,

estimación con un único valor muestral3, el gráfico sugeriría cual es el regresor culpable de

la heteroscedasticidad y la forma funcional de la misma. En este caso, ( ) jii XVar 2σε = o

( ) 22

jii XVar σε = .


3 Dado que la perturbación iε es inobservable, podemos considerar el residuo ie como una muestra de

tamaño 1 de la variable iε . Dado que ( ) 0iE ε = , entonces,

( ) 22 )(~~

iii eErVa == εε

esto es, estimamos la media de las perturbaciones al cuadrado con la media de los cuadrados de la muestra de

residuos, pero como sólo se dispone de un valor muestral, ie , esta media será 2ie .

Variable explicativa X

Res

iduo

s

0


5

Figura 34

La Figura 4 representa posibles patrones para 2

ie y, por tanto, para ( )iVar ε . Así, la Figura

4c) siguiere una forma lineal, mientras que 4d) y 4e) cuadrática. Por su parte 4a) refleja la

no existencia de heteroscedasticidad y la forma en el caso de 4b) es más difícil de ajustar.

Figura 45

Puede que la heteroscedasticidad no esté provocada por un único regresor, sino

conjuntamente por varios. En este caso, sería conveniente obtener el diagrama de dispersión

con la estimación de la variable a explicar, iY (que no es más que una combinación lineal

de los regresores) , en el eje de abcisas, y los residuos, los residuos al cuadrado o su valor

absoluto en el eje de ordenadas. De esta manera, detectaríamos la heteroscedasticidad

causada por los regresores conjuntamente.




Res

iduo

s al

cua

drad

o

0


6

2) Otra representación gráfica para detectar la heteroscedasticidad es el diagrama de

dispersión entre cada una de las variables explicativas, jiX , en el eje de abcisas y la

variable a explicar, iY , en el eje de ordenadas.

En muchas ocasiones, el ajuste lineal entre Y y jX es más o menos bueno (residuos

pequeños) para valores pequeños de jX , mientras que este ajuste empeora para valores

grandes de jX (residuos grandes). La Figura 5 muestra este hecho que pone en evidencia la

heteroscedasticidad del modelo.

Figura 56

• Pruebas estadísticas (contrastes de hipótesis)

La hipótesis nula en todas las pruebas es la hipótesis de homoscedasticidad, es decir,

varianzas constantes de las perturbaciones y la hipótesis alternativa presencia de

heteroscedasticiad. Así,

( ) ( ) 22: σεε == iio EVarH

Por tanto, se trata de probar si el valor esperado de 2

iε se relaciona o no con una o

más variables explicativas y dado que este valor no es observable utilizaremos en su lugar 2

ie . De esta manera, si la Ho es falsa, 2

ie será cualquier función de una o más variables

explicativas.

Con esta idea vamos a plantear varios contrastes que no sólo nos permitirán detectar

la posible existencia (o no) de heteroscedasticidad sino que, en el caso de que la haya,

algunos permitirán darnos una idea sobre la forma que adopta la misma.

Contraste asintótico de White

La idea del test7 se basa en ver si los residuos mínimo cuadráticos ordinarios al

cuadrado son de algún modo función de los regresores; en este caso, deduciríamos que la

varianza de las perturbaciones son función de los regresores y, por tanto, no son constantes

(heteroscedasticidad). El test de White analiza la significación de una regresión auxiliar


7 Es un test asintótico basado en los multiplicadores de Lagrange.


Var

iabl

e a

expl

icar

Y


7

que trata de explicar los residuos al cuadrado de la regresión inicial, 2ie , a partir de los

regresores, sus cuadrados y sus productos cruzados dos a dos.

H0: Homoscedasticidad

H1: Heteroscedasticidad

El procedimiento es el siguiente:

1) Se estima el modelo por MCO calculando los residuos MCO: ei

2) Se estima una regresión auxiliar de los residuos MCO al cuadrado frente a cada uno

de los regresores, cada uno de los regresores al cuadrado y los productos cruzados

de los regresores dos a dos.

3) Cuando N aumenta, se demuestra que 2

)(

2

auxkauxRN χ→ . Siendo 2auxR el coeficiente

de determinación de la regresión auxiliar realizada en 2) y la distribución 2)aux(kχ

tiene como grados de libertad el nº de regresores de la regresión auxiliar excluido el

término constante.

Valores pequeños del estadístico indicarían que la regresión auxiliar no es

significativa ( 2auxR pequeño), que los residuos al cuadrado y, por tanto, las varianzas de las

perturbaciones, no dependen de los regresores. De este modo, valores pequeños de 2N R⋅

llevarían a no rechazar (aceptar) la homoscedasticidad. En cambio, valores grandes

llevarían a rechazar la homoscedasticidad.

Contrastes basados en regresiones

Estos contrastes siguen la misma idea del test de White y suponen que las varianzas

de las perturbaciones son función de una o varias variables, generalmente, variables

explicativas del modelo econométrico propuesto.

El procedimiento concreto de la prueba Park consiste en plantear regresiones de los

residuos al cuadrado en función de una o varias variables explicativas y analizar la

significación conjunta de la regresión. Las variables explicativas incluidas pueden aparecer

en sus niveles o como funciones de ellas, por ejemplo, al cuadrado, el inverso, etc.

Si la regresión es significativa indica que existe heteroscedasticidad y nos da la

pauta sobre la estructura de la varianza de las perturbaciones. En el caso de que existan

varias regresiones con significación conjunta se elige aquella que proporcione mejores

resultados.

Este contraste también se puede realizar utilizando como variable a explicar los

residuos en valor absoluto como aproximación de la raíz de la varianza de las

perturbaciones (la desviación típica). Este es el caso planteado por Glejser introduciendo

una sola variable explicativa y en él, como ya es sabido, la significación conjunta no es más

que la significación individual.

La ventaja de estos contrastes es que permiten detectar no sólo la existencia de

heteroscedasticidad sino también la forma. Esto último es importante para poder solucionar

el problema.

Contraste de Goldfeld y Quandt

Esta prueba supone que existe una relación creciente (o decreciente) entre la Var (εi) y el

valor de uno de los regresores: )(2

jii Xh=σ , es decir, 222jii Xσσ = o bien

2

22 1

ji

iX

σσ = . De


8

esta forma para los valores grandes de Xji la varianza será mayor si la hipótesis es cierta (si

es decreciente la varianza será menor).

La hipótesis a contrastar es:

HO: Homocedasticidad 22 σσ =i una constante

H1: Heteroscedasticidad )(2jii Xh=σ

El procedimiento del test es el siguiente:

1) Se ordenan las observaciones según los valores crecientes de Xj.

2) Se suprimen un nº central de observaciones (c), generalmente un cuarto o un tercio

de todas las observaciones (esto no es imprescindible pero es más fácil detectar el

problema), dividiendo la muestra en dos submuestras del mismo tamaño, la primera

con los valores más pequeños de la variable y la segunda con los más grandes.

3) Se estima por MCO cada una de las submuestras con (N-c)/2 observaciones cada

una, siendo c el número de observaciones eliminadas.

4) Calculamos sus respectivas SCR

5) Se construye un estadístico F de la forma:

12

12

−−−

−−−→k

cN

kcN

FmenorSCR

mayorSCR o bien

12

12

2

2−−−

−−−→k

cN

kcN

FmenorS

mayorS

Valores pequeños del estadístico indicarían que no hay grandes diferencias entre las

varianzas estimadas en las dos submuestras y, por tanto, las varianzas de las perturbaciones

serán constantes. De este modo, valores pequeños del estadístico llevarían a no rechazar la

hipótesis de homoscedasticidad8. En cambio, valores grandes llevarían a rechazarla.

Además, si mayorSCR corresponde a la segunda muestra, se rechazará frente a 222jii Xσσ = ,

mientras que si mayorSCR corresponde a la primera nos indica que la homoscedasticidad se

rechaza frente a 2

22 1

ji

iX

σσ = .

7.3.- Estimación del modelo

A) Mínimos cuadrados ponderados

Para ver en qué consiste el método de Mínimos Cuadrados Ponderados (MCP)

vamos a ver intuitivamente por qué no son eficientes los estimadores de MCO. Para ello

vamos a partir de un modelo de dos variables representado en la Figura 6. La Figura 6a)

muestra una población hipotética Y frente a diversos valores de la variable X. Como se

comprueba, la varianza de la distribución de Y correspondiente a una determinada X no es

constante, lo que indica la presencia de heteroscedasticidad en el modelo. Supongamos que

elegimos aleatoriamente un valor Y para cada valor X. Las Y seleccionadas están marcadas

con un punto y constituyen la muestra representada en la Figura 6b) a partir de la cual

estimamos el modelo.

8 Nótese que si no se rechaza la hipótesis nula no significa que no exista heteroscedasticidad, dado que ésta

podría estar asociada a otra variable y, tal vez haya que repetir el proceso con otras variables.


9

Como ya vimos en los primeros temas, si estimamos la recta de regresión

poblacional a partir de nuestra muestra seleccionada (Figura 6b) utilizando MCO, lo que

hacemos es minimizar la suma de los errores al cuadrado.

MCO ∑iie2min

Es decir, cada error recibe la misma ponderación independientemente de que

provenga de una población con una varianza más elevada o una varianza pequeña (compara

los puntos Y1 e Yn). Esto no parece muy razonable. Lo ideal es que diéramos más

ponderación a las observaciones provenientes de poblaciones con menor varianza (más

representativas de su valor medio) que a las de varianza mayor (menos representativas de

su valor medio). Esto nos permitirá estimar con mayor precisión la recta de regresión

poblacional y es precisamente lo que hace el Método de Mínimos Cuadrados Ponderados,

en el que minimizamos

MCP ∑

i i

ie2

minσ

por tanto, damos más peso a las observaciones con menor desviación típica y menos a las

que tienen una desviación típica mayor.

Figura 69

¿Cómo se obtienen los estimadores de MCP?

Estimador de Aitken o de MCG o de MCP (cuando se conoce 2

iσ )

Se obtiene minimizando la suma de los cuadrados de los residuos ponderados:

∑

i i

ie2

minσ

El resultado es el siguiente: ( ) YXXXYXXXMCG

111111''')'(

~ −−−−−− ΩΩ=ΣΣ=β



10

Forma alternativa de derivar el estimador MCGβ~ :

La vía para obtener los estimadores de MCP consiste en transformar el modelo de

cara a que las varianzas de las perturbaciones del modelo transformado sean constantes. Si

eso se logra, el modelo transformado no presentará problemas de heteroscedasticidad y será

un MRLC con lo que la estimación por MCO proporcionará los mejores estimadores,

pudiéndose aplicar los procedimientos de inferencia habituales. De este modo, los

estimadores MCP son los estimadores MCO del modelo transformado.

Por ejemplo, si partimos de un modelo con dos variables explicativas,

0 1 1 2 2 , 1,2, ,i i i iY X X i Nβ β β ε= + ⋅ + ⋅ + = K ,

con heteroscedasticidad ( 2)( iiVar σε = , suponemos que 2

iσ es conocida) los mejores

estimadores (ELIO) son los estimadores MCP. Para obtenerlos transformaremos dicho

modelo dividiéndolo por la raíz cuadrada de la varianza de las perturbaciones, es decir, por

la desviación típica. El modelo transformado resultante será:

22

22

2

11

22

1

i

i

i

i

i

i

i

o

i

i XXY

σ

ε

σβ

σβ

σβ

σ+++=

O lo que es lo mismo,

i

i

i

i

i

i

o

i

iv

XXY+++=

2

22

2

11

22

1

σβ

σβ

σβ

σ

donde la perturbación,

2i

iiv

σ

ε=

cumple la hipótesis de homoscedasticidad,

cteVarvVar

i

ii

ii

ii ===== 1)var(

)(

1)()(

2

2

222 σσ

εσσ

ε

Si sustituimos ( ) ii wVar 2σε =

, el modelo transformado vendría dado por:

i

i

kik

i

i

i

o

i

i vw

X

w

X

ww

Y+++= βββ .......

1 11


i

ii

w

vε

=

cumple la hipótesis de homoscedasticidad,

ctew

w

ww

VarvVar

i

i

i

ii

ii ===== 2

2

2)var(

)(

1)()( σ

σε

ε


11

Así, el modelo transformado no presenta el problema de la heteroscedasticidad (es

un MRLC) y los mejores estimadores se obtienen aplicando el método MCO habitual. Los

estimadores MCO de 21 ,, βββo de este modelo transformado son los estimadores por

Mínimos Cuadrados Ponderados (MCP), llamados también de Mínimos Cuadrados

Generalizados; donde cada observación de Y, X1 y X2 se pondera (es decir, se divide) por

la desviación típica ( iσ ) o por la raíz cuadrada de wi. Las observaciones de distribuciones

con mayor varianza (o desviación típica) tienen menos peso que aquellas que provienen de

distribuciones con varianza menor. Como el modelo transformado es un MRLC los

estimadores MCO (y, por tanto, los MCP) serán ELIO y consistentes.

Obsérvese que lo que se hace para conseguir perturbaciones con igual varianza es tipificar

cada variable ( iZε ), esto es,

2)(

)(

i

i

i

iiii

Var

EZV

σ

εεεεε =−==

Estimador de Aitken Factible o de MCGF o de MCPF (cuando no se conoce 2

iσ pero se

formulan hipótesis sobre su comportamiento)

( ) YXXXF

11

1 ˆ'ˆ'~ −−− ΩΩ=β

Donde se ha estimado la matriz de varianzas-covarianzas de las perturbaciones, es

decir, se han estimado los elementos de la diagonal principal, las varianzas de las

perturbaciones.

El conocimiento de la auténtica varianza de las perturbaciones es muy infrecuente.

Por ello es necesario plantearse ¿qué ocurre si no conocemos la auténtica varianza de las

perturbaciones? La respuesta es recurrir a algún supuesto o hipótesis sobre 2iσ y

transformar el modelo de regresión original para que el modelo transformado cumpla el

supuesto de homoscedasticidad.

A la hora de hacer supuestos o hipótesis sobre la forma de la heteroscedasticidad,

los gráficos y contrastes desarrollados anteriormente sirven de guía. Las hipótesis más

frecuentes consisten en suponer que las varianzas de las perturbaciones son proporcionales

a los valores absolutos de un determinado regresor, o bien a los cuadrados de los valores de

dicho regresor o de Y estimado. Es decir, la verdadera varianza es:

( ) ii wVar 2σε =

Como no se conoce, wi, se estima a través de

Partiendo de cualquiera de estos supuestos la forma de proceder es la misma que si

la varianza fuera conocida. Así, si suponemos que ( ) ii wVar 2σε = y que 2ˆjii Xw = , el

modelo transformado vendrá dado por:

222

11

22.......

1

ji

i

ji

kik

ji

i

ji

o

ji

i

XX

X

X

X

XX

Y εβββ +++=

iw

22 ˆˆˆˆiijiijii YwbienoXwbienoXw ===


12

O lo que es lo mismo

iji

kik

ji

i

jio

ji

i vX

X

X

X

XX

Y+++= βββ .......

1 11


ji

iiX

vε

=

Puede o no cumplir la hipótesis de homoscedasticidad,

??)var()(

1)()(

2

2

2====

ji

i

i

jiji

i

iX

w

XXVarvVar

σεε

¿constante?

Estimando el modelo transformado por MCO, se obtienen los estimadores MCPF

(Mínimos cuadrados ponderados factibles). Pero las propiedades de dichos estimadores

dependen de que se haya utilizado un buen estimador (en general, consistente) de la matriz

de varianzas covarianzas de las perturbaciones (por tanto, de wi). En caso de que así fuera,

en el modelo transformado no habría heteroscedasticidad.

Por lo tanto, en este caso es necesario comprobar que el modelo transformado ya no

tiene heteroscedasticidad. Para ello se pueden utilizar los gráficos y contrastes vistos

anteriormente. De esta manera, si podemos aceptar que en el modelo transformado la

perturbación es homoscedástica, afirmaremos que hemos estimado correctamente la matriz

de varianzas covarianzas de las perturbaciones y, consecuentemente el estimador MCPF

tiene las propiedades asintóticas del estimador MCP. En caso contrario, la estimación

ponderada no mejora ninguna de las propiedades del EMCO del modelo original. De hecho,

si no se estima adecuadamente ∑= 2σ Ω, el EMCGF no tiene ninguna propiedad.

B) Mínimos Cuadrados Ordinarios con la matriz de varianzas y covarianzas de White

A veces resulta difícil encontrar una hipótesis adecuada para la estructura de la

varianza de las perturbaciones (2iσ ). En estos casos la estimación ponderada no

proporciona mejores estimadores que aplicar MCO al modelo original. Por ello, en estas

situaciones es conveniente seguir estimando el modelo original por MCO pero calculando

bien los estimadores de las varianzas de los estimadores para que la inferencia realizada a

partir de los resultados del modelo así estimado sea válida.

White ha desarrollado un procedimiento para calcular correctamente la desviación

típica de los estimadores MCO en presencia de heteroscedasticidad, que permite poder

seguir utilizando los test de la t y de la F, aunque sólo son válidos asintóticamente, es decir,

en muestras grandes.

El estimador consistente de ∑ ββ ˆˆ de White es: ( ) ( ) 11'ˆ'ˆ −−=Σ XXVXXNWHITE

donde

= X

e

e

XN

V

N

2

2

1

'1ˆ O , siendo ei el error mínimo cuadrático ordinario.


13

C) Formas alternativas para corregir la heterosce dasticidad

Existen otras vías para solventar los problemas de heteroscedasticidad que no pasan

por cambiar el método de estimación sino que conllevan realizar transformaciones en los

datos para que la variabilidad se reduzca. Concretamente, la transformación de los datos

tomando logaritmos soluciona en muchos casos los problemas de heteroscedasticidad

detectados. Otras posibilidades son deflacionar las series (si es que son monetarias) o

trabajar en ratios.

La siguiente tabla resume el comportamiento de los tres estimadores, MCO, MCG y

MCGF, en un modelo RLNG (heteroscedasticidad y/o autocorrelación):

Comparación entre estimadores en el MRLNG

EMCO ≠≠≠≠ EMV EMCG = EMV EMCGF

( ) YXXX ''ˆ 1−=β ( ) YXXX 111 ''~ −−− ΩΩ=β ( ) YXXXF

11

1 ˆ'ˆ'~ −−− ΩΩ=β

Lineal ELIO y eficiente Propiedades finitas y

Insesgado Consistente distribuciones exactas

No óptimo y no eficiente Normal desconocidas

Consistente Distrib. exactas válidas Si Ω es consistente, en general:

Normal 2

*S insesgado, consistente Consistente

Distrib. Exactas no válidas ( )∑−−Ω=

MCG

XXβ

σ~

112 ' Asintóticamente Eficiente

S2 sesgado, inconsistente ( ) 112

*~ '−−Ω= XXSS

MCGβ Asintóticamente Normal

Expresiones habituales para MCG

S ββ ~~ insesgado Distribuciones asintót. válidas

las varianzas incorrectas Si Ω no es consistente:

Expresión correcta: No se puede asegurar

( ) ( )∑−

Ω−

=β σˆ1

''1

'2

XXXXXX ninguna propiedad


14


15

TEMA 8. ANÁLISIS DE REGRESIÓN CON SERIES TEMPORALES. AUTOCORRELACIÓN


Cuando se proponen modelos econométricos, es muy importante tener en cuenta la

naturaleza de los datos. En concreto, cuando se trabaja con series de tiempo existe un orden

natural, aquel que impone el tiempo. Además, con los datos temporales es muy probable

que las observaciones estén correlacionadas a lo largo del tiempo. Por ejemplo, la inversión

realizada por una empresa durante un mes es seguro que esté determinada por los tipos de

interés o de la propia inversión de la empresa en meses pasados. Por lo tanto, los efectos de

los cambios en las variables no son todos instantáneos, sino que se dejan notar a lo largo de

tiempo. En principio, se pueden considerar tres formas de plantear estas relaciones

dinámicas10

:

a) Especificar un modelo cuya variable dependiente sea función de los valores actuales

y pasados de las variables explicativas (Tema 10).

b) Especificar un modelo en el que aparezca la variable dependiente retardada entre

sus regresores (Temas 9 y 10).

c) Especificar un modelo donde las relaciones dinámicas se introduzcan mediante la

perturbación aleatoria. Por ejemplo, podemos suponer que

)(1−=

ttf εε

O lo que es lo mismo )(1 ttf εε =+ . En este caso, se dice que las perturbaciones están

autocorrelacionadas o que existe autocorrelación (esta es la cuestión que trataremos en este

tema). Por lo tanto, la perturbación aleatoria afecta no sólo al valor actual de la variable

dependiente, Yt, sino también a Yt+1,, Yt+2,…,

Cuando existe autocorrelación, se rompe con la hipótesis de incorrelación entre las

perturbaciones del modelo de regresión clásico ( ) 0=stE εε . Por tanto, suponemos que:

( )( )( )

==∀≠

=

−22

....2,10

0

σεεε

ε

t

stt

t

E

sE

E

La matriz de varianzas y covarianzas de las perturbaciones será:

( )( ) ( )

( )

≠≠≠

=

==

2

2

2

2

T22

T1212

2 0

00

Cov

CovCov

'E

σ

σσ

σ

εεσεεεεσ

ΩσεεMK

K

K

MK

K

K

Causas de la autocorrelación

1) La autocorrelación se produce principalmente cuando trabajamos con datos de series

temporales. En este caso, la propia inercia de las series económicas hace que efectos de

situaciones pasadas influyan en el momento actual. Por otra parte, si la variable

10

Como veremos posteriormente, las tres formas de introducir relaciones dinámicas están relacionadas y no

son tan diferentes como se podría pensar en un principio.


16

endógena presenta una tendencia creciente y las variables explicativas no explican

dicho comportamiento, será la perturbación quien recoja dicha tendencia y esto se

manifiesta en la existencia de autocorrelación positiva.

2) Existencia de errores de especificación como: omisión de variables relevantes (que

recojan ciclos, tendencias, variable endógena retardada) o mala especificación

funcional.

3) Existencia de relaciones dinámicas entre las variables.

4) Manipulación de datos, como por ejemplo, la desestacionalización de una serie

mediante la utilización de medias móviles.

Dependiendo de la causa de la autocorrelación, el procedimiento para corregirla será

uno u otro. Si se debe a un error de especificación lo que hay que hacer es solucionar dicho

error y, por tanto, antes de actuar sobre la autocorrelación primero hay que evaluar el

modelo.

8.2.- Estructuras de dependencia temporal.

Un modelo con autocorrelación presenta una matriz de varianzas y covarianzas de

las perturbaciones que puede tener, en general, 2

)1T(T − covarianzas desconocidas además

del parámetro de la varianza, 2σ , y, por tanto, ya que sólo disponemos de T observaciones,

supone un problema de estimación irresoluble. Aún suponiendo, como vamos a hacer, que

las perturbaciones son procesos débilmente estacionarios, es decir, que sus momentos de

primer y segundo orden no dependen del tiempo (en concreto, para las covarianzas entre las

distintas observaciones nos encontramos que sólo dependen de la distancia entre dichas

observaciones)11

, el número de parámetros de dicha matriz sería igual a T y, en general, en

el modelo tendríamos T+K+1 parámetros a estimar. Por ello, es necesario establecer

posibles estructuras de enlace entre las perturbaciones que reduzcan dichos parámetros

desconocidos. Así:

( )

( ) ( ) ( )( ) ( )

( )

=

=Ω=

T

T

T

Var

CovVar

CovCovVar

E

ε

εεεεεεεε

σεεMK

K

K

22

1211

2'

−

−

o

To

To

γ

γγγγγ

MO

K

K

2

11

Los esquemas más utilizados son:

Proceso autorregresivo de orden p: AR(p):

tptpttt u++++= −−− εφεφεφε ...2211 donde ut es un ruido blanco (variable aleatoria que

cumple las hipótesis clásicas). A los coeficientes φ se les impone ciertas restricciones para

que se cumpla una condición de estacionariedad que veremos más adelante.

Proceso AR(1)

El esquema autorregresivo más habitual es el de orden 1 (AR(1)): ttt u+= −1ερε

donde ut es un ruido blanco(variable aleatoria que cumple las hipótesis clásicas) y ρ es el

11

Esto significa, por ejemplo, que )(Cov...)(Cov)(Cov)(Cov 1tt873221 +==== εεεεεεεε .


17

parámetro a estimar. Imponemos la restricción de que 1<ρ denominada “condición de

estabilidad del modelo” o “condición de estacionariedad”. Esta condición asegura que el

modelo AR(1) tiene media constante y varianza finita. Veamos cómo sería en este caso la

matriz de varianzas y covarianzas de las perturbaciones

Partiendo del esquema AR(1) para la perturbación: ttt u+= −1ερε

Sustituimos en él la expresión para el periodo t-1: 121 −−− += ttt uερε

Tenemos, por tanto: [ ] t1t2t2

t1t2tt uuuu ++=++= −−−− ρερρερε

Y haciendo sucesivas sustituciones: ∑∞

=−∞−

∞ +=0τ

ττρερε ttt u

Por la condición de estacionariedad 0→∞ρ y, entonces: ∑∞

=−=

0ττ

τρε tt u

Momentos:

* ( ) ( ) 00

== −

∞

=∑ ττ

τρε tt uEE

* ( ) ( ) ( )∑∑∞

=

∞

=− +++===

===0

42222

2

0

2

0...1.....

τ

τ

ττ

τ ρρσσρρεεγuuttt

uEEVar

( )02

2

2

1γ

ρσσεγ ε =−

=== u

toVar

* ( ) ( ) ( )[ ]0

2

1111... ργρσρεεεεεεγ ε ===+=== +++ ttttttt

uEECov puesto que ( ) 01 =+ttuE ε

* ( ) ( ) ( )0

222

1222γρσρεερεεεεγ ε ===== +++ tttttt

EECov

En general:

* ( ) ( ) ,...2,1sECov 0s2s

sttstts =∀==== ++ γρσρεεεεγ ε

La matriz de varianzas-covarianzas será:

( ) Ω=

−=

=

−−−

−

−

−

−−−

−

−

−

2

321

32

2

12

2

2

321

32

2

12

2'

1

1

1

1

1

1

1

1

1

1

u

TTT

T

T

T

u

TTT

T

T

T

E σ

ρρρ

ρρρρρρρρρ

ρσ

ρρρ

ρρρρρρρρρ

σεε ε

K

KKKKK

K

K

K

K

KKKKK

K

K

K

Relacionado con las matriz de varianzas y covarianzas se definen las funciones de

autocorrelación simple (FAS) y parcial (FAP).


18

La FAS de las perturbaciones se calcula a partir de los coeficientes de correlación

entre perturbaciones de diferentes periodos ( sρ ). Así, para cada valor del retardo

s=0,1,2,3... y cada momento t, la función sería 0)()(

),(

γγ

εεεερ s

stt

stt

sVarVar

Cov==

+

+

La FAP de las perturbaciones se obtiene calculando la correlación entre las

perturbaciones de diferentes periodos, pero eliminando el efecto de las perturbaciones

intermedias. Así, para cada valor del retardo s=1,2,3... y cada momento t, la función es

igual al coeficiente de correlación parcial entre tε y st+ε que denotaremos por •sρ .

s

*s

sR

R=

•ρ

sR es el determinante de la matriz de correlaciones de s filas y s columnas y *

sR es el

determinante de la matriz anterior en la que la última columna se sustituye por un vector de

valores ( )sρρρ K21 .

Las FAS y FAP de los esquemas débilmente estacionarios siguen comportamientos

conocidos y ellas, junto con su representación gráfica (correlogramas), sirven de base para

identificar los diferentes esquemas.

( ) ss

stts Corr ρσ

σρεερε

ε === + 2

2

FAS

===

=,...2,1

010

s

sss ρ

ρρ

Correlogramas (FAS)

FAP

11 ρρ =•

011 2

22

21

212

2 =−−=

−−

=• ρ

ρρρρρρ

Así,

≥==

=•

2s0

1s1s

ρρρ

ρs

ρ>0

s

ρ<0

s

ρs


19

Correlograma (FAP)

En definitiva, en un proceso AR(1), la FAS va decreciendo con todos los

coeficientes distintos de cero, mientras que la FAP sólo tendría el primer coeficiente

distinto de cero. Se dice que el proceso AR(1) tiene memoria infinita.

Proceso AR(p)

Generalizando para un AR(p), se demuestra que la matriz de varianzas y covarianza

depende de “p” parámetros, además de la varianza de las perturbaciones. La FAS sigue un

comportamiento decreciente, la FAP sólo presenta p coeficientes distintos de cero, los p

primeros. Por ejemplo, en un AR(2) serán sólo dos coeficientes, los 2 primeros.

Proceso de medias móviles de orden q: MA(q)

qtqttt uuu −− −−−= θθε .....11 donde ut es un ruido blanco. A los coeficientes θ también se

les impone ciertas restricciones. Normalmente, trabajaremos con órdenes pequeños.

Proceso MA(1)

El más frecuente es el de medias móviles de orden 1(MA(1)): 11 −−= ttt uu θε donde

ut es un ruido blanco y 11 <θ es una condición de invertibilidad.

Calculemos cómo serían sus varianzas y covarianzas

* ( ) 0=tE ε

* ( ) ( )22 1 θσεγ +==uto

Var

* ( ) 2

11 , uttCov θσεεγ −== +

* ( ) 0, 22 == +ttCov εεγ

* ( ) 20, ≥∀== + sCov stts εεγ

Por lo tanto la matriz de varianzas y covarianzas será:

( )

( )( )

( )

( )

Ω=

+

+−−+−

−+

= 2

2

2

2

2

2'

1000

010

01

001

uuE σ

θ

θθθθθ

θθ

σεε

K

KKKKK

K

K

K

ρs•

ρ>0

s

ρ<0

s

ρs•


20

FAS:

≥∀=

=+

−=

=

==

20

11

01

2

1

s

s

s

o

s

oo

ss

γγ

θθ

γγ

γγρ

Correlograma (FAS)

FAP

Correlograma (FAP)

En un proceso MA(1) la FAS tendrá sólo un coeficiente de autocorrelación distinto

de cero mientras que será la FAP la que irá decreciendo hacia cero. Se dice que un proceso

MA(1) sólo tiene memoria de un periodo.

Proceso MA(q)

Generalizando para un MA(q), la matriz de varianzas y covarianzas depende,

además de la varianza de las perturbaciones, de “q” parámetros. La FAS se anula para

retardos mayores que “q”, tiene, por tanto, una memoria limitada de q periodos. La FAP no

se anula, sus coeficientes decrecen hacia 0.

ρs•

θ <0

s

θ >0

s

ρs•

ρs

θ <0

s

θ >0

s

ρs

( )( )

( )( )( )

∀−

−−

=−

−−=−−

=+

−=

=

+

•

s1

1

2s1

1

1

1s1

1s2

2s

6

22

21

212

21

s

θθθ

θθθ

ρρρ

θθρ

ρ


21

Proceso autorregresivo de medias móviles de orden p, q: ARMA(p,q)

Estos procesos son una generalización de los procesos AR y MA.

qtqttptpttt uuu −−−−− −−−++++= θθεφεφεφε ........... 112211 donde ut es un ruido blanco.

Normalmente utilizaremos órdenes pequeños. ARMA(1,1)

1111 −− −+= tttt uu θεφε

Estos procesos, igual que los anteriores, se caracterizan por la FAS y la FAP, pero

en la práctica son más difíciles de identificar. En los ARMA(p,q), la FAS se comporta

como la de un AR(p) para valores de s>q. Respecto a la FAP ésta se comporta como la de

un MA(q) para s >p.

De todos estos esquemas el más utilizado en el contexto de los modelos de regresión

es el AR(1), pues representa de forma aceptable las correlaciones encontradas entre

perturbaciones. Otras estructuras son complejas de manejar y no han ofrecido ventajas

relativas superiores. Además, Es más adecuado mejorar la especificación del modelo

original para que la perturbación no presente complicados esquemas de correlación.

8.3.- Procedimientos para detectar la autocorrelación

• Métodos gráficos

1. Representaciones gráficas de los residuos te frente al tiempo

2. Representaciones gráficas de los residuos te frente a 1−te

Figura 112

12

Gujarati (2006): Principios de Econometría. McGraw Hill.


22

Figura 1113

3. Identificación de los residuos (combinación de métodos gráficos y contrastes)

En la práctica la perturbación no es observable y no se pueden calcular los

verdaderos coeficientes de correlación simple y parcial, sino que hay que obtener

estimadores de dichas funciones utilizando las series de los residuos de mínimos cuadrados

ordinarios.

Así, la función de autocorrelación simple muestral (FASE) se calcula como:

∑

∑

=

+

−

==T

t

t

stt

sT

ts

e

ee

1

2

1ρ

Y la función de autocorrelación parcial muestral (FAPE) como:

s

*s

sR

Rˆ =

•ρ

Donde las matrices se calculan a partir de los coeficientes de correlación estimados

que a su vez utilizan las series de los residuos mínimo cuadráticos.

13

Gujarati (2006): Principios de Econometría. McGraw Hill.


23

El comportamiento de los coeficientes estimados no es exactamente el de los

teóricos. Dado que son variables aleatorias con distribución conocida, se decide si el

coeficiente es cero o no mediante la aplicación de contrastes o a partir del cálculo de su

intervalo de confianza.

En un MA(q):

H0: qsS >∀= 0ρ

HA: 0≠Sρ

)ˆ21(1

)ˆ(ˆ))ˆ(,0(ˆ1

2∑=

+=→s

j

jsssT

raVdondeVarN ρρρρ

En un AR(p):

H0: ps0S >∀=•

ρ

HA: 0S ≠•ρ

T

1)ˆ(raVdonde))ˆ(Var,0(Nˆ

s.ss ≅→••

ρρρ

• Contrastes estadísticos

Todos ellos utilizan para su elaboración los residuos obtenidos en la estimación

mínimo cuadrática ordinaria y plantean en la hipótesis nula la ausencia de autocorrelación.

La hipótesis alternativa difiere de unos contrastes a otros planteando distintos procesos de

correlación entre las perturbaciones según los casos.

1.- Contraste de Durbin-Watson

La hipótesis nula del contraste plantea la ausencia de autocorrelación, mientras que

la alternativa considera la existencia de autocorrelación mediante un AR(1):

( )ttt u+= −1ρεε . Es un contraste de una sola cola según se establezca que ρ < 0 o ρ > 0, es

decir:

00:

0:

1

0

><=

ρρρ

oH

H

El estadístico del contraste se define como:

( )

∑

∑

=

=−−

=T

t

t

T

t

tt

e

ee

d

1

2

2

2

1

donde e son los residuos MCO.

Se suele considerar la siguiente aproximación: )ˆ1(2 ρ−=d siendo ρ el coeficiente de

correlación muestral entre te y 1−te y, por lo tanto, como ρ está comprendido entre -1 y 1,

el estadístico de Durbin-Watson estará comprendido entre 0 y 4:

1ˆ −=ρ ⇒ d=4 ⇒ Existe Autocorrelación negativa

0ˆ =ρ ⇒ d=2 ⇒ No existe autocorrelación


24

1ˆ =ρ ⇒ d=0 ⇒ Existe Autocorrelación positiva

La distribución de probabilidad exacta del estadístico es difícil de encontrar, ya que,

como demostraron Durbin y Watson, depende en forma complicada, de los valores de las X

en una muestra dada. Sin embargo, Durbin y Watson tabularon un límite inferior (dL) y un

límite superior (dU) para diferentes tamaños muestrales y diferente número de regresores,

de forma que al comparar el valor muestral del estadístico con esas cotas se puede tomar

una decisión sobre la posible presencia de autocorrelación.

Durbin y Watson sólo buscaron dichas cotas para el caso de autocorrelación positiva,

por lo que el contraste es de una cola. No obstante debido a la simetría del estadístico

también es posible contrastar el caso de autocorrelación negativa.

Autoc. Posit. Zona duda Incorrelación Zona duda Autoc.Negat.

0 dL dU 2 4-dU 4-dL 4

Inconvenientes:

1. No es válido cuando el modelo no tiene término constante.

2. No se puede utilizar si el modelo incluye regresores estocásticos y por lo tanto no se

puede utilizar en los llamados modelos autorregresivos (modelos en los que la

variable endógena retardada está entre los regresores). Para ese caso Durbin

propuso:

)1,0()ˆ(1

ˆ NTVar

Th a

i

→−

=β

ρ

donde )ˆ( iVar β es la varianza del parámetro que acompaña al primer retardo de la

variable endógena (en la práctica se utiliza 2ˆi

Sβ ) y ρ es el estimador de ρ obtenido a

partir de la regresión de te sobre 1−te .

3. Existen dos zonas de indeterminación en las cuales el contraste no nos dice nada y

hemos de recurrir a otro.

4. Para un T pequeño y un k grande, las condiciones del contraste no son muy fiables.

5. La hipótesis alternativa que se propone es la de un AR(1). Wallis hizo una extensión

del test de Durbin-Watson para el caso de series trimestrales con problemas de

estacionalidad y propuso un estadístico de Durbin-Watson modificado:

( )

∑

∑

=

=−−

=T

t

t

T

t

tt

e

ee

d

1

2

5

2

4

4


25

2.- Contraste de Breusch y Godfrey

Hipótesis:

)()(:

)0...(:

1

210

mMAomARH

aciónautocorreldeAusenciaH m ==== ρρρ

Es un contraste asintótico de multiplicadores de Lagrange.

Procedimiento:

1) Estimar el modelo por MCO y calcular los residuos: β−= ˆXYe

2) Hacer la regresión auxiliar de dichos residuos sobre m retardos suyos y todas las

variables explicativas del modelo (tanto exógenas como endógenas retardadas). El

número de retardos es el del orden del esquema AR o MA que estamos suponiendo

en la hipótesis alternativa.

3) Bajo la H0 el estadístico es: 22

m

a

auxRT χ→

Donde m es el orden del esquema propuesto en la hipótesis alternativa.

Este contraste se puede utilizar cuando la variable endógena aparece retardada como un

regresor.

Nota: En teoría para realizar la regresión auxiliar se pierden m observaciones, pero el

programa Eviews toma los valores de los errores retardados m periodos iguales a cero.

8.4.- Estimación del modelo

Vamos a considerar dos formas de estimar un modelo con autocorrelación, en el caso

más relevante, cuando la matriz de varianzas y covarianzas de las perturbaciones es

desconocida: mínimos cuadrados no lineales y MCO utilizando la corrección de Newey-

West.

A) Mínimos cuadrados no lineales.

Consideremos el modelo original

tktkttXXY εβββ ++++= ...

110

En un principio, supondremos que las perturbaciones siguen un esquema AR(1):

ttt u+= −1ερε .

Dado que 1tttu −−= ερε es una variable aleatoria que cumple las hipótesis

clásicas, por ser un ruido blanco, podemos intentar buscar una trasformación del modelo

original que conserve los parámetros de interés y que esté en función de ut.

Si multiplicamos al modelo expresado en la observación t-1 por ρ obtenemos:

1111101... −−−− ++++=

tktkttXXY ρερβρβρβρ

Si restamos, miembro a miembro, el modelo expresado en la observación t y el

modelo expresado en la observación t-1 multiplicado por ρ , obtenemos


26

( ) ( ) ( ) 11111101 ...1 −−−− −+−++−+−=− ttktktktttt XXXXYY ρεερβρββρρ

Este modelo se conoce como el modelo en diferencias generalizado. Es un modelo

que cumple las hipótesis clásicas si realmente el esquema de las perturbaciones del modelo

original es un AR(1). Además está en función de los parámetros de interés ( β y ρ ).

A) Si ρ fuera conocido podríamos aplicar MCO sobre el modelo en diferencias

generalizado, obteniendo unos estimadores que son ELIO y consistentes. Al estimador del

vector paramétrico, se le denomina estimador de mínimos cuadrados generalizados.

B) Sin embargo, generalmente, ρ es desconocido y debe tratarse como un parámetro

adicional a estimar. En este caso se puede proceder de dos formas diferentes.

1.- Una forma es mediante algún método secuencial, con el que se estima primero

ρ y después β . El proceso se puede repetir hasta conseguir un determinado nivel de

precisión en las estimaciones. Ejemplos de este método secuencial son Cochrane-Orcutt y

el bietápico de Durbin.

2.- La otra forma de estimar el modelo es mediante algún método que proporcione

simultáneamente un estimador para β y para ρ . Para obtener los estimadores hay que

tener en cuenta que el modelo en diferencias generalizado se puede expresar como

( ) 111111101 ...1 −−−− −+−++−+−+= ttktkktktttt XXXXYY ρεερββρβββρρ

Obtenemos una ecuación donde la perturbación cumple las hipótesis clásicas

( )ttt u=− −1ρεε , pero que no es lineal en los k+2 parámetros de los que depende.

Este modelo se puede estimar minimizando la suma de cuadros de los errores

mediante de algún algoritmo de optimización no lineal. Precisamente, este es el

procedimiento que utiliza el programa Eviews.

Si la perturbación siguiera un esquema AR de mayor orden o un MA la forma de

proceder sería muy similar.

Propiedades de los estimadores cuando ρ es desconocido:

Los estimadores que se obtienen se denominan estimadores factibles. Las propiedades

del estimador factible dependen de si la estructura que se ha supuesto para las

perturbaciones es correcta o no. Por ello es importante comprobar si las perturbaciones de

dicho modelo están o no autocorrelacionadas utilizando el test de Breusch-Godfrey. Si no

presentan autocorrelación entonces el estimador factible tiene buenas propiedades

asintóticas (consistente, asintóticamente eficiente y la distribución asintótica es una

normal), aunque se desconocen las propiedades finitas. Si la estructura que hemos supuesto

para las perturbaciones es incorrecta (la perturbación del modelo resultante no cumple las

hipótesis clásicas), el estimador factible ni siquiera tiene estas propiedades.

B) MCO utilizando la corrección de Newey-West

Como ya hemos comentado cuando las perturbaciones están autocorrelacionadas, se

viola una de las hipótesis clásicas. Las consecuencias de aplicar MCO a un modelo en el

que hay autocorrelación son las mismas que aplicar MCO a un modelo con

heteroscedasticidad.


27

a) El estimador de MCO sigue siendo un estimador lineal, insesgado y consistente,

pero ya no es óptimo. Es posible encontrar un estimador alternativo con menor

varianza.

b) ( ) 12

ˆˆ '−≠Σ XXσ

ββ. Por tanto, las expresiones habituales de las varianzas de los

estimadores por MCO no son correctas y consecuentemente los contrastes

realizados a partir de ellas no son adecuados .

No obstante, podemos estimar el modelo por MCO, pero corrigiendo las desviaciones

típicas de los estimadores por el procedimiento de Newey-West. Dicho procedimiento

obtiene desviaciones típicas de los estimadores consistentes ante la presencia de

autocorrelación y/o heteroscedasticidad (a diferencia del procedimiento de White que sólo

está diseñado para casos de heteroscedasticidad). Dado que se consigue consistencia, es

evidente, que el procedimiento (implementado entre los resultados de la mayoría de

paquetes estadísticos) será válido si la muestra es grande. De esta manera, la estimación

MCO proporcionaría estimadores que son, como ya sabemos, insesgados y consistentes

(aunque no eficientes) y que, con la corrección de Newey-West presentarían estimaciones

consistentes de sus varianzas que podríamos utilizar para realizar inferencia, siempre de

forma asintótica.

C) Otras formas alternativas de estimación

Otra forma alternativa de estimación sería añadir dinámica al modelo, es decir,

introducir en el modelo como regresor la variable endógena retardada. Consistiría en

plantear una especificación alternativa para el modelo, tal que el modelo estático no sería

más que un modelo restringido del dinámico bajo una alternativa que podría ser cierta o

falsa.

8.5.- Predicción

Supongamos que hemos obtenido el estimador factible de los parámetros del

modelo, β~ y ρ .

A la hora de predecir podemos hacerlo a partir del modelo de diferencias

generalizadas deshaciendo posteriormente la transformación o directamente a partir del

modelo original estimado por Mínimos cuadrados generalizados. Vamos a plantearlo de

esta última forma incluyendo el esquema de autocorrelación en la perturbación:

tktkttXXY εβββ ++++= ...

110

Por tanto: ktkttt XXY βββε +++−= ...110

Además suponemos que: ttt u+= −1ερε

De esta forma sustituyendo en el modelo: ttktktt uXXY +++++= −1110 ... ρεβββ

La predicción en T+1 sería: TkTkTT eXXY ~~~...

~~ˆ111101 ρβββ ++++= +++

Donde kTkTTT XXYe βββ ~...

~~~110 +++==

La predicción para el período T+2:

1221102~~~

...~~ˆ

++++ ++++= TkTkTT eXXY ρβββ


28

Dado que: 11 ++ += TTT uερε

y que TT ee ~~~1 ρ=+

TkTkTT eXXY ~~~...

~~ˆ 2

221102 ρβββ ++++= +++

Generalizando para el período T+s: T

s

skTksTsT eXXY ~~~...

~~ˆ110 ρβββ ++++= +++

Analizar las propiedades de este predictor no es tarea sencilla, ya que depende de la

distribución conjunta de β~ y ρ . Una aproximación de la desviación típica del error de

predicción se puede obtener, considerando que ρ es conocido.


29

Apéndice.- Representaciones de FAS y FAP de diferentes esquemas

AR


30

MA


31

ARMA(1,1)


32

Ejemplos de correlogramas de algunos esquemas

RUIDO BLANCO


33


34

AR(1)


35

TEMA 9. REGRESORES ESTOCÁSTICOS

9.1.- Posible carácter estocástico de las variables explicativas

La presencia de regresores estocásticos en un modelo incumple la hipótesis clásica

de que la matriz de variables explicativas X es no estocástica, hipótesis que implicaba que

los valores de las variables explicativas se mantendrían fijos si pudiésemos repetir el

experimento.

El problema fundamental cuando en un modelo hay regresores estocásticos es que

no se garantizan ciertas propiedades del EMCO que sí se cumplían en temas anteriores. Si

X no es estocástica y se cumplen las hipótesis sobre ε, el EMCO es el mejor estimador

posible entre los estimadores lineales e insesgados (el de mínima varianza).

Cuando X es aleatoria, el supuesto crucial es la relación entre dichas variables y la

perturbación aleatoria. A nivel estadístico, podríamos medir la relación entre X y ε a partir

del coeficiente de correlación lineal. Sin embargo, dado que dicho coeficiente sólo mide

dependencia lineal, lo que vamos a estudiar, puesto que ambas son variables aleatorias, es

el valor esperado de ε dado cualquier valor de X: E(ε|X).

En los temas anteriores suponíamos que las variables explicativas no eran aleatorias

y que, además, 0)( =εE , es decir, que en promedio los factores no observables se anulaban

para todos los individuos de la población. Todo ello implicaba que E(ε|X)=0, pues como X

es fija E(ε|X)=E(ε) y como E(ε)=0, finalmente, E(ε|X)=0.

Cuando hay regresores estocásticos, podemos seguir manteniendo el supuesto

0)( =εE , pero lo que ya no está claro es que se cumpla que E(ε|X)=0, el supuesto de

media condicional nula.

Al ser X aleatoria se define la matriz de momentos poblacionales de los regresores

en el momento t como ΣXX y suponemos que está definida en el campo real.

Si ΣXX es finita y además no singular ⇒ Existe 1−Σ XX

Llamando 'tX al vector fila que recoge las observaciones de todos los regresores en

el momento t: 'tX =(1 X1t X2t ... Xkt) la matriz ΣXX sería la siguiente:

( ) ( )

( ) ( )( ) ( ) ( )

( ) ( ) ( )

=

==Σ

21

1211

1

11'

1

1

1

ktkttkt

ktttt

ktt

ktt

kt

tttXX

XEXXEXE

XXEXEXE

XEXE

XX

X

XEXXE

L

MMMM

L

L

LM

A esta matriz se le llama también matriz de momentos contemporáneos por estar

referida a un mismo periodo t.

En esta situación se cumplen las siguientes propiedades:

• plim 2' σεε =T

• plim XXT

XX Σ=' finita y no singular ( plim 1

1' −

−

Σ=

XX

T

XX).


36

9.2.- Variables contemporáneamente exógenas y estrictamente exógenas

A) Los regresores Xjt ∀ j=1,...,k son contemporáneamente exógenos cuando se cumple:

( ) ( ) tXEXXXE ttktttt ∀== 0|,...,,| '21 εε

Esto implica que εt y las variables explicativas están contemporáneamente

incorrelacionadas, es decir, Cov(εt,Xjt)=0 para todo j. Por tanto, también ( ) .0=jtt XE ε

Nota: Cuando hablamos de contemporaneidad nos referimos a las variables tal como

aparecen en el modelo, es decir, el vector 'tX puede tener como uno de sus elementos Yt-1.

B) Los regresores Xjt ∀ j=1,...,k son estrictamente exógenos cuando se cumple:

( ) TtXE t ,...,10| =∀=ε

Esto significa que εt no se correlaciona con ninguna variable explicativa en ningún periodo:

( ) TttjXCov jtt ,...2,1',0, ' =∀∀=ε . Por tanto, también ( ) .0' =jtt XE ε

Esta condición es mucho más fuerte que la anterior ya que suponemos que para cada t, el

valor esperado de εt, dadas las variables explicativas en todos los periodos, es cero.

C) Los regresores no son exógenos ni estricta ni contemporáneamente cuando:

( ) 0X|E t ≠ε

Los supuestos A) y B) son muy importantes para definir las propiedades de los estimadores

de MCO en regresores estocásticos, especialmente cuando trabajamos con series

temporales:

1) Si se da el supuesto A) es decir, existe exogeneidad contemporánea entre los

regresores y las perturbaciones ⇒ el EMCO es consistente, pero no es insesgado.

2) Si se cumple el supuesto B) es decir, existe exogeneidad estricta entre los regresores

y las perturbaciones ⇒ el EMCO es insesgado, eficiente y consistente.

3) Si no se cumple ni siquiera el supuesto A), el estimador de MCO es sesgado e

inconsistente.

9.3.- Propiedades de los estimadores de MCO en modelos con regresores estocásticos

β = (X’X)-1

X’Y = β + (X’X)-1

X’ε

1) β no es lineal en Y por ser X aleatoria y por tanto β es una función estocástica de X y

ε o de X y de Y.

2) Insesgadez

E( β ) = E(β + (X’X)-1

X’ε) = β+ EX[E((X’X)-1

X’ε|X)]= β+ EX[(X’X)-1

X’E(ε|X)]

Supuestos:

a) Exogeneidad estricta: E(ε|X)=0 ⇒ EX[(X’X)-1

X’E(ε|X)]=0 ⇒ E( β ) =β ⇒

insesgado

Por propiedad de la esperanza [ ] [ ])|),((),( xyxhEEyxhE x=


37

b) Exogeneidad contemporánea: E(εt|Xt)=0, pero E(εt|Xs)≠0 ⇒ EX[(X’X)-1

X’E(ε|X)] ≠

0⇒ E( β )≠β ⇒ sesgado

3) β no es óptimo en el sentido indicado hasta ahora pues no es lineal, pero:

a) Si las variables explicativas son estrictamente exógenas, β es eficiente (de mínima

varianza entre los insesgados), siendo su matriz de varianzas y covarianzas:

ββΣ ˆˆ =E[( β -β)( β -β)’]=E[(X’X)

-1X’εε’X(X’X)

-1]=EX[E((X’X)

-1X’εε’X(X’X)

-1|X)]=

=EX[ (X’X)-1

X’ E(εε’ |X)X(X’X)-1

)] =σ2 EX[ (X’X)

-1X’X(X’X)

-1)] =σ2

EX[ (X’X)-1

]

b) Si las variables explicativas son contemporáneamente exógenas no tiene sentido

hablar de eficiencia pues el estimador es sesgado. Pero es asintóticamente eficiente.

4) Consistencia

εββ ')'lim(ˆlim 1 XXXpp −+= = T

Xp

T

Xp

T

XXp XX

εβεβ 'lim*

'lim

'lim 1

1

−−

Σ+=

+

El estimador será consistente si el T

Xp

ε'lim =0

T

Xp

ε'lim =

=

=

=

∑

∑∑

0

0

0

)(

)(

)(

1lim

111

1lim

112

1

21

11211

MMMM

L

MLMM

L

L

ktt

tt

t

ktt

tt

t

TkTkk

T

XE

XE

E

X

X

Tp

XXX

XXX

Tp

ε

εε

ε

εε

ε

εε

Esto se cumplirá si )( tE ε =0 y, por lo menos, las variables explicativas son

contemporáneamente exógenas, pues en este caso ( ) ( )jttjtt XEX εε == 0cov . En definitiva,

no hace falta la exogeneidad estricta para que el estimador sea consistente, aunque si se da,

por supuesto, también lo será.

Propiedades del estimador 2S

1) Insesgadez

El S2 es insesgado sólo si se da la exogeneidad estricta.

2) Consistencia

El S2 es consistente si se da la exogeneidad estricta o la contemporánea.

Distribución de los EMCO

Estrictamente la distribución exacta de β no se conoce ya que depende no sólo de la

distribución de ε que podemos seguir considerando Normal, sino también de la de X que es

desconocida. Además, β no es lineal en Y y por tanto, β no sigue una distribución normal.

Los estadísticos que contrastan las restricciones lineales, tanto individuales como conjuntas,

no siguen una distribución exacta conocida, en concreto no siguen una t ni una F

respectivamente.

=σ2I

≠0


38

Sin embargo, Wooldridge establece que, si los regresores son estrictamente

exógenos, la distribución de β condicionada a X es normal y, por tanto, los estadísticos t y

F son válidos si hablamos de distribuciones condicionadas. En cambio, si los regresores son

contemporáneamente exógenos las distribuciones finitas no son válidas y tendremos que

recurrir a las asintóticas.

Recordemos que ( )

→−−1

2 'lim,0ˆ

T

XXpNT a σββ

Esto implica que su distribución asintótica nos va a permitir justificar el uso de las

distribuciones habituales, aunque sólo tendrán validez de forma aproximada. En este

sentido, también podríamos utilizar los contrastes asintóticos de Wald, LM o RV.

Resumen:

A) Si los regresores son estrictamente exógenos los resultados son muy similares a los

del MRLC pero condicionado todo por X.

• β es insesgado, eficiente y consistente y coincide con el estimador de MV.

• S2 es insesgado y consistente.

• Hablando de distribuciones condicionadas a X los test de hipótesis son válidos para

muestras finitas y no es necesario recurrir a la teoría asintótica.

B) Si los regresores son sólo contemporáneamente exógenos

• β es sesgado, y, por tanto, no eficiente (ni óptimo), pero sí es consistente y

asintóticamente eficiente.

• S2 es sesgado pero consistente.

• Como S2 es sesgado entonces 12

ˆˆ )'( −= XXSS ββ es sesgado, pero su utilización está

justificada en base a la distribución asintótica.

• Los contrastes son válidos asintóticamente.

• Hay que recurrir al comportamiento asintótico de los estimadores y contrastes.

C) Cuando ni siquiera se cumple la exogeneidad contemporánea, la estimación de MCO no

es válida porque no se cumple ninguna propiedad. En este caso, hay que recurrir a otro

método de estimación que se denomina de Variables Instrumentales.

• β es sesgado e inconsistente.

• S2 es sesgado e inconsistente.

• No disponemos de una distribución asintótica, a partir del EMCO, para aproximar la

distribución exacta de los estadísticos cuando T tiende a infinito.


39

9.4.- Modelos con variables estocásticas correlacionadas con la perturbación. Método de variables instrumentales

Este método consiste en encontrar una matriz de variables, Z, tales que cumplan los

requisitos siguientes:

• Las variables Z están incorrelacionadas con las perturbaciones, es decir,

0'

lim =T

Zp

ε

• Las variables Z están fuertemente correlacionadas con las variables X, es decir,

ZXT

XZp Σ='

lim finita y no singular

• Las variables Z tienen buenas propiedades en el límite, es decir, ZZT

ZZp Σ='

lim .

A estas variables Z1,...,Zk se las llama instrumentos o variables instrumentales.

Nota: Si algún regresor no está correlacionado con las perturbaciones puede utilizarse él

mismo como variable instrumental.

El estimador de variables instrumentales se define como:

( ) ( ) εββ ''''ˆ 11ZXZYZXZVI

−− +==

Propiedades

• No es lineal en Y pues también depende de X y de Z (que son aleatorias).

• No es insesgado: X no es ni contemporáneamente exógena por lo que 0)/( ≠XE ε

y ββ ≠)ˆ(E .

• Por lo anterior, no es eficiente ni óptimo.

• Es consistente: ββεββ =Σ+=

+= −−

0'

lim'

limlimˆlim 1

1

ZXVIT

Zp

T

XZppp

• Distribución asintótica: ( ) ( )VI

a

VI VNT ,0ˆ →− ββ

donde )'( 112 −− ΣΣΣ= ZXZZZXVIV σ es la matriz de varianzas-covarianzas asintótica de dicha

distribución.

Un estimador de dicha matriz es:

11

2 '''ˆˆ

−−

=T

ZX

T

ZZ

T

XZV VIVI σ

donde 1

ˆ'

2

−−=

kT

ee VIVIVIσ es un estimador consistente de σ2

y VIVI XYe β−=

Una aproximación del estimador de VVI es: ( ) ( ) 112ˆ '''ˆ

−−= ZXZZXZS VIVI

σβ

Nota: No se puede decir que el estimador de VI es eficiente pues la elección de

instrumentos diferentes genera distintos estimadores por VI. Lo que sí se puede afirmar, sin

embargo, es que cuanto mayor sea la correlación entre X y Z más eficiente asintóticamente

será el estimador por variables instrumentales.


40

9.5.- Errores en las variables

Sea el modelo Y = Xβ + ε donde, por error, no disponemos de observaciones de Y ni de X

sino de unos datos aproximados Y* y X* donde:

Y*=Y+V X*=X+U

Siendo U y V matrices aleatorias de errores de medida que cumplen las hipótesis

clásicas y además están incorrelacionadas entre sí y cada una de ellas con X y ε.

El modelo estimado es un modelo en el que los regresores y las perturbaciones están

correlacionados incluso contemporáneamente:

εβ += XY ⇒ ( ) εβ +−=− UXVY ** ⇒43421

W

UVXY βεβ −++= ** ⇒ WXY += β**

Simplificando a un modelo de dos variables:

ttt XY εββ ++= 10 ⇒ ttttt uXvY εββ +−+=− )( *

10

* ⇒

⇒−+++=4434421

tw

ttttt uvXY 1

*

10

* βεββ ttt wXY ++= *

10

* ββ ⇒ tttt uvw 1βε −+=

( ) ( ) 01 =−+= tttt uvEwE βε

),(),( **

tttt wXEwXCov = = ( )( )[ ]ttttt uvuXE 1βε −++ =

( ) ( ) ( ) ( ) ( ) ( )2

11 ttttttttttt uEvuEuEuXEvXEXE βεβε −++−+ ( )2

1 tuEβ−= = 02

1 ≠− uσβ

Por lo tanto, los estimadores de MCO son sesgados e inconsistentes y habría que

utilizar el método de variables instrumentales para obtener estimadores consistentes. Por

otra parte, si el error en los datos sólo afectase a la variable Y, no surgiría el problema

anterior.

9.6.- Test de exogeneidad de Hausman

La consistencia de los EMCO en los modelos con regresores estocásticos depende de la

hipótesis T

Xp

ε'lim =0.

Hausman propuso un estadístico para contrastar esta hipótesis:

0'

lim:0 =T

XpH

ε

0'

lim:1 ≠T

XpH

ε

La lógica del contraste es comparar el comportamiento de dos estimadores MCOβ y

VIβ , cuyas distribuciones asintóticas son:

( ) ( )MCO

a

MCO VNT ,0ˆ →− ββ y ( ) ( )VI

a

VI VNT ,0ˆ →− ββ

donde 12 −Σ= XXMCOV σ y )'( 112 −− ΣΣΣ= ZXZZZXVIV σ .


41

Bajo la hipótesis nula 0'

lim:0 =T

XpH

ε, tanto MCOβ como VIβ son consistentes,

sin embargo, bajo la alternativa 0'

lim:1 ≠T

XpH

ε, sólo lo es VIβ . Si la hipótesis nula es

cierta entonces ( ) 0ˆˆlim =− VIMCOp ββ y el valor de ( )VIMCO ββ ˆˆ − debería ser pequeño; al

contrario, si la hipótesis nula no es cierta.

El estadístico de Hausman se define, bajo la H0 , como:

( ) [ ] ( ) 21

' ˆˆˆˆˆˆH

a

VIMCOMCOVIVIMCOHausman VVTH χββββ →−−−=−

donde H es el número de regresores que se quiere ver si son o no exógenos, VIV y MCOV son

estimadores consistentes de VVI y de VMCO, es decir,

11

2 '''ˆˆ

−−

=T

ZX

T

ZZ

T

XZVVI σ

y

1

2 'ˆˆ

−

=T

XXVMCO σ y

2σ el estimador consistente de 2σ utilizando el estimador de

VI para obtener los residuos.

Si el valor del estadístico de Hausman supera el valor crítico se rechaza la H0 de que

no hay correlación entre los regresores y la perturbación; en caso contrario, se acepta la no

existencia de correlación entre los regresores y la perturbación.

Este contraste se puede realizar también a partir de una serie de regresiones auxiliares:

1) Realizar la regresión de las variables que posiblemente sean endógenas sobre los

instrumentos y las exógenas del modelo y quedarnos o bien con los residuos o con el

valor estimado.

2) Introducir en la regresión original los valores estimados (o los residuos) y contrastar si

son o no significativos, de modo que si no lo son aceptaríamos la H0 y si lo son la

rechazaríamos.


42


43

TEMA 10. MODELOS DINÁMICOS


Los modelos estudiados hasta ahora eran modelos estáticos en los que todas las

variables estaban referidas al mismo periodo de tiempo. Estos modelos se plantean cuando

se considera que un cambio en X en el momento t ejerce un efecto inmediato en Y.

Sin embargo, la Teoría Económica sugiere que, en muchos casos, las relaciones

entre las variables son dinámicas, de forma que el efecto de una variable jX sobre Y no

tiene por qué ser instantáneo y se puede distribuir en distintos periodos de tiempo.

Vamos a distinguir dos tipos de modelos dinámicos:

a) Modelos autorregresivos.

b) Modelos de retardos distribuidos.

Nota: En este tema vamos a utilizar frecuentemente el llamado operador de retardo (que se

denota por L o B) y que retarda la variable a la que acompaña del siguiente modo:

stt

s XXL −=

De esta forma: 1−= tt XLX ; 2

2

−= tt XXL ; stt

s XXL −= ; 1)1( −−=− ttt XXXL .

10.2.- Modelos autorregresivos

Son aquellos en los que se plantea como regresor la variable endógena retardada en

algún periodo de tiempo. Un ejemplo sería: tttt YXY εβββ +++= −1210

Este tipo de modelos son estocásticos ya que la variable Yt-1 es aleatoria. Además, no

podemos considerar que los regresores sean estrictamente exógenos ya que podemos

comprobar que Yt-1 estará relacionada con ,...., 21 −− tt εε . Por tanto, no se va a cumplir que

E(εt | X)=0 ∀ t=1,...,T

Sin embargo, si εt cumple las hipótesis clásicas, podemos aceptar la exogeneidad

contemporánea, de tal forma que ( ) 0| ' =tt XE ε y se cumple que 0'

lim =T

Xp

ε. Los

EMCO son sesgados y no eficientes, pero son consistentes y las distribuciones asintóticas

son válidas, es decir, los resultados habituales de inferencia estadística son válidos

asintóticamente.

Si εt está autocorrelacionada, ni siquiera se cumpliría el supuesto de regresores

contemporáneamente exógenos, 0'

lim ≠T

Xp

ε y, por tanto, el EMCO no tiene ninguna

propiedad y la inferencia no es válida ni asintóticamente. El estimador consistente será el de

Variables Instrumentales donde podríamos tomar como instrumento de Yt-1 a Xt-1.

En la práctica, cuando nos encontremos con un modelo autorregresivo lo que hay

que analizar, en principio, es si la perturbación está autocorrelacionada o no (con el

contraste de la h de Durbin el de Breusch-Godfrey) y si existe relación contemporánea entre

los regresores y la variable endógena (con el contraste de Hausman).

En algunos modelos econométricos, la introducción de ciertas hipótesis teóricas

también da lugar a la aparición de la variable endógena retardada entre los regresores. Dos

ejemplos son los siguientes:


44

Modelo de expectativas adaptativas o adaptables

Estos modelos plantean que el comportamiento de los agentes económicos depende

de las expectativas que se formen sobre la evolución futura de determinadas variables

económicas. A su vez, el tratamiento de esas expectativas se realiza suponiendo una

hipótesis sobre su formación. Concretamente, la hipótesis de expectativas adaptativas

supone que las expectativas se actualizan cada periodo en función de la diferencia entre la

última observación de la variable y la expectativa para ese periodo:

( )ttttttt XEXXEXE 111 −−+ −=− λ con 10 << λ

Ejemplo: Demanda de saldos monetarios reales (Yt) en función del valor esperado en t de la

tasa de inflación (X) futura, es decir, de EtXt+1.

tttt XEY εββ ++= +110

Si, suponemos que: ( )ttttttt XEXXEXE 111 −−+ −=− λ 10 << λ

O, también, que la expectativa de inflación futura que hoy se forma el individuo es

una combinación lineal del valor actual de la tasa de inflación y de la expectativa de

inflación que se formó en el periodo anterior: ( ) ttttt XEXXE 11 1 −+ −+= λλ

Operando, obtenemos: ( ) ttttt XXEXE λλ =−− −+ 11 1 ⇒ ( ) ttt XXELL λλ =+− +11

⇒ ( ) t

t

tt XLLLL

XXE

)1(11 λ

λλ

λ+−

=+−

=+

Sustituyendo en el modelo: ( ) ttt XLL

Y ελ

λββ ++−

+=1

10

Y, finalmente: tttt vYXY +−++= −110 )1( λλβλβ donde 1)1( −−−= tttv ελε

El modelo resultante es un modelo autorregresivo y por lo tanto, a la hora de elegir

el método más adecuado para estimar sus parámetros, habrá que analizar si vt presenta

autocorrelación o no y realizar el test de Hausman.

Modelo de ajuste parcial

Estos modelos plantean que hay situaciones en que la relación entre variables no se

ajusta de forma inmediata en un periodo t, sino que tarda un tiempo (un periodo de ajuste).

Ejemplo: Supongamos que queremos estudiar el nivel “deseado” de capital en una

economía ( )*tY en función del nivel de producto (Xt):

ttt XY εββ ++= 10*

Y que se especifica el siguiente mecanismo por el que el nivel de stock de capital

observado se ajusta al nivel deseado (modelo de ajuste parcial: el stock observado varía de

un periodo a otro en una proporción de su distancia respecto al stock deseado):

)( 1*

1 −− −=− tttt YYYY δ con 10 << δ

Operando en el modelo de ajuste parcial tenemos:

1* )1( −−+= ttt YYY δδ ⇒ 1

* )1( −−−= ttt YYY δδ ⇒ 1* )1(1

−−−= ttt YYYδ

δδ


45

Sustituyendo ( )*tY en el modelo: ttttt XYYY εββ

δδ

δ++=−−= − 101

* )1(1

Y, despejando: tttt YXY δεδδβδβ +−++= −110 )1(

El modelo resultante, al igual que en expectativas adaptativas, es un modelo

autorregresivo, y por lo tanto, habrá que analizar si sus perturbaciones están o no

autocorrelacionadas y realizar el test de Hausman para elegir el método de estimación

adecuado.

10.3.- Modelos con retardos distribuidos o escalonados. Estructura finita e infinita de retardos

Son aquellos en los que una o más variables exógenas influyen en la variable

endógena con algún retardo. Son modelos del tipo:

ttttt XXXY εββββ +++++= −− ...213112110

Dentro de estos modelos vamos a plantear dos posibilidades:

1) Modelos con estructura finita de retardos: t

n

i

itit XY εβα ++= ∑=

−0

2) Modelos con estructura infinita de retardos: ti

itit XY εβα ++= ∑∞

=−

0

A cada parámetro βi se le llama coeficiente de retardo y a la secuencia βi (∀ i=1,

2,...) se le llama estructura del retardo.

La interpretación de estos coeficientes es muy interesante y está asociada al conocido

concepto de multiplicadores cuya descripción puede realizarse en torno a dos preguntas:

1) ¿Qué efecto tendrá sobre Y un cambio concreto en un momento determinado de la

variable X?

2) ¿Qué efecto tendrá sobre Y una desviación permanente de X respecto a su valor

inicial?

1) Ante una variación concreta de una unidad en X en el momento t, 0β es el cambio

inmediato en Y en el momento t, 1β es el cambio en Y un periodo después de la

modificación temporal y 2β es el cambio en Y dos periodos después de la modificación

temporal y así sucesivamente.

Al coeficiente 0β se le denomina multiplicador de impacto o a corto plazo y a la secuencia

( 0β , 1β , 2β ,…) se le denomina función de respuesta al impulso.

Si por ejemplo suponemos un modelo con retardos distribuidos finitos de segundo orden

(n=2), el efecto de X sobre Y sólo se mantiene durante dos periodos después de la

modificación. Si el modelo es de infinitos retardos el efecto de X sobre Y se mantendría de

forma indefinida.

2) Un cambio permanente en X a partir del momento t produce un cambio en Y, si

suponemos un modelo con retardos distribuidos finitos con n=2, igual a 0β en t, igual a

0β + 1β en t+1 e igual a 210 βββ ++ en t+2 y siguientes (puesto que es un modelo con

retardos distribuidos finitos de segundo orden). Si el modelo fuera de infinitos retardos


46

el cambio en t sería igual a 0β , en t+1 igual a 0β + 1β , en t+2 igual a 210 βββ ++ , en

t+3 igual a 3210 ββββ +++ , y así sucesivamente.

A la suma de todos los coeficientes de retardo (en el caso de finitos retardos con n=2:

210 βββ ++ y en el de infinitos retardos ∑∞

=0iiβ ) se le denomina multiplicador de largo

plazo y a la secuencia ( 0β , 0β + 1β , 0β + 1β + 2β ) si se trata de un polinomio con 2

retardos se le denomina función de respuesta al escalón. La respuesta al escalón en un

modelo con infinitos retardos sería ( 0β , 0β + 1β , 0β + 1β + 2β , 3210 ββββ +++ ,…..).

Si tipificamos los coeficientes dividiéndolos por su suma (multiplicador a largo plazo):

calculamos la proporción del efecto total que se deja notar en el periodo i después del

cambio en Xt.

En modelos de retardos distribuidos finitos

∑=

=n

ii

ii

0

*

β

ββ

En modelos con infinitos retardos

∑∞

=

=

0

*

ii

ii

β

ββ

1) Modelos con estructura finita de retardos o con retardos distribuidos finitos

Son aquellos en los que suponemos que los efectos de una o varias variables

explicativas sobre la variable endógena no se producen de forma instantánea sino que

perduran durante un cierto periodo de tiempo que suponemos finito. Por ejemplo:

t

n

i

itit XY εβα ++= ∑=

−0

Problemas en la estimación de estos modelos

1) La elección de n: Un valor pequeño puede ocasionar error de especificación por

omisión o en la forma funcional, y un valor de n grande nos puede dejar sin grados

de libertad.

2) Posible existencia de multicolinealidad y, por tanto, posibilidad de estimaciones

imprecisas de los parámetros.

3) Si el modelo no está especificado dinámicamente de forma correcta podría haber

autocorrelación.

Todo ello nos lleva a utilizar, cuando hay problemas, ciertas hipótesis sobre la

estructura del retardo.

Estructura polinomial de Almon

Sea el modelo con estructura finita de retardos

t

n

iitit XY εβα ++= ∑

=−

0

t=n+1,...,T

Supongamos la siguiente estructura polinomial

m

mi iaiaiaa ++++= ...2

210β donde i=0,1,2,...n con n>m


47

Dando valores a i tendremos un sistema de ecuaciones que relaciona los n+1

coeficientes de retardos β con los m+1 coeficientes de la estructura polinomial. Para

simplificar vamos a suponer un polinomio de grado 2:

00 a=β

2101 aaa ++=β

2

2102 22 aaa ++=β

……………………..

2

210 nanaan ++=β

En definitiva, consiste en imponer restricciones sobre los n+1 coeficientes del

retardo y el problema radica en estimar el modelo con retardos finitos sujeto a la

restricción de que los coeficientes de retardo siguen una distribución polinomial.

Por tanto, introduciendo las restricciones en el modelo:

( ) t

Z

n

i

it

Z

n

i

it

Z

n

i

itt

n

i

itt

ttt

XiaiXaXaXiaiaaY εαεα ++++=++++= ∑∑∑∑=

−=

−=

−=

−

4342143421321210

0

2

2

0

1

0

0

0

2

210

ttttt ZaZaZaY εα ++++= 221100

Estimaríamos este modelo restringido por MCO obteniendo α , 0a , 1a y 2a y a

continuación desharíamos el cambio para obtener α , 0β , 1β , 2β ,…, nβ

αα ˆˆ =

00ˆˆ a=β

2101ˆˆˆˆ aaa ++=β

2

2102 2ˆ2ˆˆˆ aaa ++=β

....................................................

2

210ˆˆˆˆ nanaan ++=β

Nota: en la estimación con Eviews éste centra el polinomio de modo que:

( ) ( ) ( )mmi ciaciaciaa −++−+−+= ...2

210β siendo

=impar esn si

2

1

par esn si 2n-

n

c

2) Modelos con estructura infinita de retardos.

Una alternativa al planteamiento de truncar la distribución de retardos a un número

finito consiste en especificar una distribución con infinitos retardos. Esta especificación es

aceptable especialmente cuando se trabaja con observaciones frecuentes o cuando esta

estructura se deriva de distintas consideraciones teóricas. El modelo sería:


48

t

i

itit XY εβα ++= ∑∞

=−

0

Obviamente, aún suponiendo que cumple las hipótesis clásicas, la estimación sin

restricciones de este modelo no es posible ya que necesitaríamos estimar infinitos

parámetros con una muestra siempre finita.

La forma de proceder en estos casos es establecer alguna hipótesis sobre los

coeficientes de retardo de modo que podamos reducir su número. Koyck propuso que los

coeficientes de retardo, aunque infinitos, decrecían en progresión geométrica de la forma: i

i βλβ = con 10 << λ para i=0,1,...

Introduciendo las restricciones, el modelo quedaría

t

i

it

i

t XY εβλα ++= ∑∞

=−

0

⇔ ( ) ttttt XXXY ελλβα +++++= −− ...2

2

1

Si escribimos el modelo para 1−tY , lo multiplicamos por λ y hacemos 1−− tt YY λ obtenemos

finalmente:

( ) )(1 11 −− −++−=− ttttt XYY λεεβλαλ

y despejando tY :

( )4342143421

tv

ttttt YXY 11

*

1 −− −+++−= λεελβλαα

⇔tttt vYXY +++= −1

* λβα

El modelo resultante es un modelo autorregresivo por lo que habrá que analizar si

sus perturbaciones están o no autocorrelacionadas y realizar el test de Hausman para elegir

el método de estimación adecuado.

Una vez obtenidos los estimadores más adecuados para α*, β y λ y teniendo en cuenta que

i

i βλβ = y que )1(* λαα −= , podemos calcular los estimadores de los parámetros del

modelo original: i

i λββ ˆˆˆ = y λ

ααˆ1

ˆˆ

*

−= .


49

TEMA 11. INTRODUCCIÓN A LOS MODELOS DE ECUACIONES SIMULTÁNEAS

12.1.- Planteamiento del problema

Los modelos analizados en los temas anteriores eran modelos uniecuacionales, es

decir, modelos que recogían la relación causa-efecto que existía entre una variable

endógena (Y) y un conjunto de variables exógenas (X).

Este planteamiento no es, sin embargo, el más adecuado para modelizar la

interdependencia que existe entre las variables económicas ya que la cadena causal entre

ellas no siempre es unidireccional, es decir, una variable puede ser a la vez causa y efecto.

Por ello, para modelizar este tipo de relaciones es necesario recurrir a estructuras más

complejas, como los llamados modelos de ecuaciones simultáneas o modelos

multiecuacionales.

Se trata de modelos formados por más de una ecuación y en los que variables que

son explicadas en alguna de las ecuaciones, pueden aparecer como explicativas en otra u

otras.

El caso más sencillo es un modelo de dos ecuaciones. Por ejemplo:

tttt

ttttt

uXYY

uXXYY

23321122

12211112211

++=+++=

βγββγ

t=1,2,…T

En él se explica el comportamiento de dos variables endógenas (Y1 e Y2) a partir de tres

variables predeterminadas (X1, X2 y X3). En la primera ecuación la variable endógena Y1 se

modeliza como función de las variables predeterminadas X1 y X2 y de la endógena Y2 que

en esta ecuación aparece como explicativa. De la misma forma, la variable endógena Y1 se

incluye, en la segunda ecuación, como una variable explicativa. Ambas ecuaciones no se

pueden considerar por separado, porque las relaciones se producen simultáneamente.

Además Y1t aparece en la segunda ecuación como explicativa, pero por la primera

ecuación es función de Y2t que a su vez depende de u2t, de modo que Y1t es función de u2t,

por lo tanto Y1t no es contemporáneamente exógena, y lo mismo ocurre con Y2t. También es

absurdo plantearnos en este tipo de modelos la hipótesis de que las perturbaciones u1t y u2t

están incorrelacionadas, ya que, por ejemplo, ),( 211 ttt YYfu = pero )( 22 tt ufY = .

Especificación de un modelo lineal de ecuaciones simultáneas

Un modelo lineal multiecuacional para el periodo t puede especificarse mediante un

sistema de g ecuaciones en las que aparecen g variables endógenas ),...,,( 21 gYYY y k

variables predeterminadas ),...,,( 21 kXXX .

0......

0......

0......

22112211

222221122222112

112211111221111

=++++++++

=++++++++=++++++++

gtktkgtgtggtggtgtg

tktkttgtgtt

tktkttgtgtt

uXXXYYY

uXXXYYY

uXXXYYY

βββγγγ

βββγγγβββγγγ

M

Matricialmente el sistema, para el periodo o la observación t, se puede expresar:

0''' =++Γ ttt uXY β

donde ( )ktttt XXXX ,...,, 21

' =


50

( )gtttt YYYY ,...,, 21

' =

( )gtttt uuuu ,...,, 21

' =

=Γ

gggg

g

g

γγγ

γγγγγγ

L

MLMM

L

L

21

22221

11211

=

kgkk

g

g

βββ

ββββββ

β

L

MLMM

L

L

21

22221

11211

Para todas las observaciones, t=1,…,T sería:

0=++Γ uXY β

donde:

=

=

kTTT

k

k

TXXX

XXX

XXX

X

X

X

X

L

MLMM

L

L

M

21

22212

12111

'

'

2

'

1

=

=

gTTT

g

g

TYYY

YYY

YYY

Y

Y

Y

Y

L

MLMM

L

L

M

21

22212

12111

'

'

2

'

1

=

=

gTTT

g

g

Tuuu

uuu

uuu

u

u

u

u

L

MLMM

L

L

M

21

22212

12111

'

'

2

'

1

La especificación anterior se conoce como forma estructural del modelo, pero el

sistema de ecuaciones simultáneas se puede especificar también en forma reducida

expresando cada variable endógena en función de las variables predeterminadas.

gtktkgtgtggt

tktkttt

tktkttt

vXXXY

vXXXY

vXXXY

++++=

++++=++++=

πππ

ππππππ

...

...

...

2211

222221122

112211111

M

O bien en forma matricial que puede deducirse a partir de la forma estructural:

0''' =++Γ ttt uXY β ⇒ '''

ttt uXY −−=Γ β ⇒ 1'1'' −− Γ−Γ−= ttt uXY β ⇒'''

ttt vXY +Π=

donde 1−Γ−=Π β y 1'' −Γ−= tt uv

=Π

kgkk

g

g

πππ

ππππππ

L

MLMM

L

L

21

22221

11211

( )gtttt vvvv ,...,, 21

' =

Para todas las observaciones, t=1,…,T sería: vXY +Π= donde 1−Γ−= uv , siendo

=

=

gTTT

g

g

Tvvv

vvv

vvv

v

v

v

v

L

MLMM

L

L

M

21

22212

12111

'

'

2

'

1


51

Hipótesis del modelo de ecuaciones simultáneas

Para la forma estructural del modelo:

1) ( ) 0' =tuE ∀ t

( ) ( )001 LL =gtt uuE

2) [ ] Σ='

tt uuE ∀ t siendo Σ una matriz simétrica y definida positiva

[ ] =

=

2

21

2

2

212

121

2

1

'

gttgttgt

gttttt

gttttt

tt

uuuuu

uuuuu

uuuuu

EuuE

L

MLMM

L

L

Σ=

2

21

2

2

212

112

2

1

ggg

g

g

σσσ

σσσσσσ

L

MLMM

L

L

Esta hipótesis recoge:

En la diagonal principal: que en la primera ecuación hay homoscedasticidad pues

( ) 2

11 σ=tuE para todo t, lo mismo en la segunda y en todas las demás.

En el resto de elementos: ( ) 1221 σ=ttuuE para todo t, lo que significa que las perturbaciones

de la ecuación 1 y 2 están correlacionadas para el mismo instante de tiempo y la correlación

es la misma para cualquier instante de tiempo

( ) ( ) ( ) ( ) 12212212211121 ... σ===== TTtt uuEuuEuuEuuE y lo mismo ocurre con el resto de

ecuaciones. Es decir, existe correlación contemporánea entre las perturbaciones de dos

ecuaciones y no cambia al cambiar el instante de tiempo considerado.

3) [ ] 0' =st uuE ∀ t≠s

[ ] ( ) =

=

=

gsgtsgtsgt

gststst

gststst

gss

gt

t

st

uuuuuu

uuuuuu

uuuuuu

Euu

u

u

EuuE

L

MLMM

L

L

LM

21

22212

12111

1

1

'0

000

000

000

=

L

MLMM

L

L

Significa que las perturbaciones correspondientes a distintos periodos de tiempo están

incorrelacionadas, sean perturbaciones de una misma ecuación ( )( )011 =stuuE o de

distintas ecuaciones ( )( )021 =stuuE .

4) ( )Σ→ ,0Nut ∀ t

5) Las variables predeterminadas (Xt) no son aleatorias, o si lo son, serán

estrictamente exógenas o contemporáneamente exógenas.

6) La matriz Γ no es singular, es decir, 0≠Γ .

Además las perturbaciones en la forma reducida ( tv ) tienen las mismas características

que las vistas para las perturbaciones en la forma estructural.

12.2.- Identificación de un sistema de ecuaciones simultáneas

La estimación de la forma reducida del modelo siempre es posible, ya que se

especifica de modo que, en cada ecuación, aparece sólo una variable endógena en

función de las predeterminadas. Sin embargo, la estimación relevante, desde el punto de

vista de la Economía, es la correspondiente a la forma estructural, que contienen las

relaciones derivadas de los modelos de la Teoría Económica.


52

Las relaciones entre los parámetros de ambas formas están recogidas en el sistema

de ecuaciones 1−Γ−=Π β donde hay (gxk) parámetros de la forma reducida y

(gxg)+(gxk) parámetros de la forma estructural.

La identificación de un modelo de ecuaciones simultáneas consiste en saber, si a

partir de un conjunto de observaciones muestrales, que permite la estimación de la forma

reducida es posible estimar los parámetros de la forma estructural. El análisis se hace

para cada ecuación (de la forma estructural) y si es posible se dice que la ecuación está

identificada, y si no lo es, que no está identificada. Además, cuando la ecuación está

identificada se puede distinguir según que la solución sea única o no, entre identificación

exacta y sobreidentificación, respectivamente.

Para saber cómo es la identificación de la ecuación, sin necesidad de intentar

resolver el sistema, se utilizan las denominadas condiciones de orden (que es una

condición necesaria pero no suficiente) y condiciones de rango (que es una condición

necesaria y suficiente). Estas condiciones, si en el sistema existen restricciones de

normalización y de exclusión, es decir, si en cada ecuación existe una variable endógena

con coeficiente igual a 1 o –1 y algunos parámetros que acompañan a las variables

predeterminadas son cero en algunas ecuaciones, se pueden expresar como se muestra a

continuación.

Condición de orden

Para aplicar esta condición a una ecuación, se compara el número de variables, tanto

endógenas como predeterminadas, excluidas en la ecuación, 2g y 2k , con el número de

ecuaciones del sistema menos una (g-1), de modo que:

- Si 122 −<+ gkg la ecuación no está identificada (no hace falta aplicar después la

condición de rango, pues no se va a cumplir).

- Si 122 −=+ gkg la ecuación puede estar exactamente identificada. Lo estará si se

cumple la de rango.

- Si 122 −>+ gkg la ecuación puede estar sobreidentificada. Lo estará si se cumple

la de rango.

Por lo tanto, la condición de orden es: 122 −≥+ gkg

Condición de rango

La aplicación de esta condición requiere obtener la matriz de coeficientes de la

forma estructural, A, que es igual a: ( )'|' βΓ=A . Sea A* la submatriz de A formada por

los coeficientes que en las demás ecuaciones del sistema acompañan a las variables

excluidas de la ecuación que se quiere identificar, de modo que:

- Si 1)( * −≠ gArg entonces la ecuación no está identificada

- Si 1)( * −= gArg entonces la ecuación está identificada, pero puede estar

exactamente identificada o sobreidentificada, para saberlo recurrimos a la

condición de orden.

Por tanto, la condición de rango es: 1)( * −= gArg

Si todas las ecuaciones del sistema están identificadas se dice que el sistema está

identificado. Si sólo lo están algunas, sólo esas se pueden estimar.


53

12.3.- Estimación de un sistema de ecuaciones simultáneas

Los métodos de estimación en modelos de ecuaciones simultáneas se clasifican

en:

a) Métodos con información limitada

b) Métodos con información completa

Los primeros se caracterizan porque estiman cada una de las ecuaciones del sistema

por separado y proporcionan estimaciones menos eficientes al utilizar menos

información, ya que no utilizan ninguna información sobre la matriz de varianzas-

covarianzas contemporánea de las perturbaciones de la forma estructural, es decir, de Σ.

Por su parte, los métodos con información completa consideran toda la información

del modelo para su estimación conjunta, aunque si hay errores de especificación en una

ecuación, se trasladan a todo el sistema, y en ese caso, este tipo de métodos serían menos

eficientes que los de información limitada, ya que en ellos el error de especificación de

una ecuación sólo la afecta a ella.

Entre los que utilizan información limitada, los más utilizados son, Mínimos

Cuadrados Indirectos (MCI), Variables Instrumentales (VI), Mínimos Cuadrados en dos

etapas (MC2E) y Máxima Verosimilitud con información limitada.

Entre los que utilizan información completa, los más utilizados son Mínimos

Cuadrados en tres etapas (MC3E) y Máxima Verosimilitud con información completa.

De todos estos métodos, los de Máxima verosimilitud son los más complejos y no

los vamos a abordar en esta introducción así como el Método de Mínimos Cuadrados en

tres Etapas. El método de Mínimos Cuadrados Ordinarios en la forma estructural, por su

parte, generalmente no se utiliza puesto que requiere el cumplimiento de las hipótesis

clásicas y en los sistemas de ecuaciones es frecuente la dependencia entre la

perturbación y la matriz de regresores.

Además, la utilización de un método u otro está condicionada por el resultado de la

identificación de las ecuaciones.

- Si la ecuación no está identificada no se pueden estimar los parámetros de la forma

estructural.

- Si la ecuación está identificada se pueden estimar por Mínimos Cuadrados Indirectos

(MCI), por Variables Instrumentales (VI) o por Mínimos Cuadrados en dos etapas

(MC2E). Si está exactamente identificada se obtiene una única solución y los

métodos coinciden. Si está sobreidentificada, se obtienen varias soluciones.

-

1) Mínimos Cuadrados Indirectos

La aplicación de este método parte, en primer lugar, de la obtención de los

estimadores de la forma reducida ( )Π por MCO para después aplicar la relación 1−Γ−=Π β , es decir, 1ˆˆˆ −Γ−=Π β para despejar los elementos de β y Γ .

Si la ecuación no está identificada, para algún parámetro de la forma estructural no

obtendremos solución.

Si la ecuación está sobreidentificada, para algún parámetro de la forma estructural

obtendremos más de una solución.

Si la ecuación está exactamente identificada, para cada parámetro de la forma estructural

obtendremos una solución.


54

Como los resultados (cuando los haya) son funciones de estimadores consistentes y

asintóticamente eficientes, estos también lo serán.

2) Variables Instrumentales

- Si la ecuación está exactamente identificada, Variables Instrumentales proporciona

un resultado para cada estimador, pues disponemos del número exacto de

instrumentos necesarios.

- Si la ecuación está sobreidentificada, tenemos excesivos instrumentos y, por lo tanto,

obtenemos varios estimadores de Variables Instrumentales.

- Si la ecuación no está identificada, no hay instrumentos suficientes y no podemos

estimar por VI.

3) Mínimos Cuadrados en dos Etapas

Es el estimador de Variables Instrumentales que utiliza todos los instrumentos

disponibles, o un instrumento que es combinación lineal de ellos. Es el mejor de todos

los estimadores de Variables Instrumentales.

Aunque la ecuación esté sobreidentificada, este método proporciona una solución

única.

Comparación entre estos estimadores

- Si la ecuación está exactamente identificada

EMCI=EVI=EMC2E

Propiedades: consistentes y asintóticamente eficientes.

- Si la ecuación está sobreidentificada

Si por ejemplo para un parámetro obtenemos por MCI dos soluciones, una coincide con

una de VI (usando un instrumento) y la otra con la otra utilizando el otro instrumento.

El EMC2E combina las dos soluciones y propone un resultado que es el mejor, puesto

que todos los estimadores son consistentes, pero el más eficiente es el de MC2E que es

el de VI que usa como instrumento una combinación lineal de los instrumentos.

Material2 teoria ADE 11-12 - uva. · PDF file5 Gujarati (2006): Principios de...

Documents

Transcript of Material2 teoria ADE 11-12 - uva. · PDF file5 Gujarati (2006): Principios de...