Análisis de regresión lineal. Inferencia

Análisis de regresión lineal. Inferencia

Tema 4

Econometría y predicción Matilla, M., Pérez, P. y Sanz, B. McGraw Hill

Supuestos

Supuesto 1 Tiene dos partes,

1.1 Linealidad: 𝑌 = 𝛽0 + 𝛽1𝑋1 +⋯+ 𝛽𝑘𝑋𝑘 + 𝜀

1.2 No multicolinealidad perfecta: (X’X) es de rango completo

Las variables pueden ser no lineales …

La multicolinealidad perfecta impediría el cálculo de (X’X)-1

y por tanto de𝛃 = 𝐗′𝐗

− 1(𝐗′𝐘)


Supuestos

Supuesto 2: Esperanza condicionada nula o exogeneidad:

Otros factores incluidos en i no están correlacionados con Xi, es decir dado Xi, la esperanza del error es cero. El resto de los factores puede influir pero

su efecto neto es nulo. Implica E(Yi|Xi)=0+1X1.


2

3

4

5

6

7

0 1 2 3 4 5 6

X

Y

( ) = =0 1,2,...,i i i nX

Supuestos

Supuesto 3: Muestra aleatoria: (X1i, X2i …, Xki, Yi), son i.i.d.

Es un supuesto sobre la forma en la que la muestra ha sido extraída. En el ejemplo de los fertilizantes, si asignamos aleatoriamente el tratamiento (fertilizante), podemos suponer que el conjunto de parcelas con fertilizante y el de parcelas sin fertilizante, son iguales por todo lo demás.


Supuestos

Supuesto 4: Para series de tiempo no suele cumplirse supuesto anterior. El concepto equivalente es el de estacionaridad

- La función de distribución conjunta no cambia con el tiempo, y

- A medida que el desfase temporal aumenta las variables tienden a la independencia

Con estos cuatro supuestos, ya podemos obtener un resultado

importante, en concreto la insesgadez de 𝛃𝑀𝐶𝑂


Decimos que un estimador መ𝛽𝑗 es insesgado si,

El sesgo de un estimador es la diferencia entre መ𝛽𝑗 y 𝛽𝑗

La insesgadez nos indica que el estimador MCO j está centrado en el parámetro poblacional j. Es una propiedad exacta.

( ) =ˆ j j

Insesgadez del estimador MCO


Diferencia entre un estimador sesgado y uno insesgado

Concepto de sesgo


Estimador insesgado: E( )=

.0

.1

.2

.3

.4

.5

.0

.1

.2

.3

.4

.5

b

Diferencia entre un estimador sesgado y uno insesgado

Concepto de sesgo


Estimador sesgado: E( )=b. Sesgo=b− > 0

Sesgo

El estimador MCO es insesgado

En regresión simple 𝑌𝑖 = 𝛽0+ 𝛽1𝑋𝑖 + 𝜀𝑖,

Entonces,



2

1 1

1 12 2 2 2

( )ˆ i i i i i i i i i i

i i i i

x y x x x x x

x x x x

+ += = = = +

1 1 12 2

1 12

ˆ( | ) |

( | )

i i i i

i i

i i

i

x xE X E E X

x x

x E X

x

= + = +

= + =

El estimador MCO es insesgado

En regresión múltiple,



1

1

1

ˆ( ) [ ( ) | ]

[( ) | ]

) ( | )

E E

E

E

−

−

−

= + =

= +

= + =

β | X β X'X X' X

β X'X X' X

β X'X X' X β

1 1 1ˆ ( ) ( ) ( ) ( ) − − −= = + = +β X'X X'Y X'X X' Xβ β X'X X'

En una regresión simple, usamos como estimador de la pendiente,

Estudiar el sesgo

Otros estimadores


11

1

ˆ n

n

Y Y

X X

−=

−

Supuesto 5: Grandes atípicos poco frecuentes

Con los supuestos anteriores podemos encontrar la distribución asintótica del estimador MCO. Dos resultados fundamentales en este sentido son,

Ley de los grandes números. Bajo ciertas condiciones, la media de una muestra de Y, Ῡ, converge en probabilidad a la media poblacional, (además sabemos que 𝜎 ത𝑌 = 𝜎𝑌/ 𝑛)

Teorema Central del Límite: Si (Y1, Y2, …, Yn) es una muestra aleatoria con E(Y)= y var(Y) = 2, entonces cuando n tiende a infinito,

Supuestos


( ) ( )4 40 , 0ji iX Y

( )( )

20,1dn nY Y

n Nn

− −= ⎯⎯→

La aplicación de la LGN y el TCL permite afirmar, bajo los supuestos anteiores, que si n es grande la distribución del estimador MCO es aproximadamente normal,

La ventaja de este resultado es que se obtiene con un conjunto mínimo de supuestos. Si la muestra es grande, la distribución asintótica proporciona una aproximación bastante precisa.

El inconveniente es que exige elevados tamaños muestrales. En la práctica se considera que para n > 100 se puede emplear la distribución normal.

Distribución asintótica del estimador


( )2

ˆ

ˆ

ˆˆ , o (0,1)

j

j

j jd d

j jN N

−⎯⎯→ ⎯⎯→

Distribución asintótica de መ𝛽1 en reg. simple.


Sabemos que መ𝛽1 − 𝛽1 =σ 𝑥𝑖𝜀𝑖σ 𝑥1

2 =𝑛−1 σ 𝑥𝑖𝜀𝑖

𝑛−1 σ 𝑥12 =

ത𝑣𝑖

𝑣𝑎𝑟(𝑋𝑖)

▪ ҧ𝑣𝑖 es una media y por el TCL ത𝑣𝑖

𝜎ഥ𝑣→ 𝑁 0,1 con 𝜎ത𝑣

2 = Τ𝜎𝑣2 𝑛

▪ Por tanto ҧ𝑣𝑖 → 𝑁 0, 𝑣𝑎𝑟( ҧ𝑣𝑖) (por S5 𝑣𝑎𝑟( ҧ𝑣𝑖) existe y es finita)

▪ Y ത𝑣𝑖

𝑣𝑎𝑟(𝑋𝑖)→ 𝑁 0,

𝑣𝑎𝑟(ത𝑣𝑖)

𝑣𝑎𝑟 𝑋𝑖2 = 𝑁 0,

𝑣𝑎𝑟(𝑣𝑖)

𝑛 𝑣𝑎𝑟 𝑋𝑖2

▪ Como መ𝛽1 = 𝛽1 +ത𝑣𝑖

𝑣𝑎𝑟(𝑋𝑖), se deduce que,

▪ መ𝛽1→𝑑𝑁 𝛽1,

𝑣𝑎𝑟(𝑣𝑖)

𝑛 𝑣𝑎𝑟 𝑋𝑖2

Varianza de . Bajo los supuestos anteriores, es posible demostrar que en regresión simple, Yi = 0+ 1Xi+i,

Propiedades de los estimadores MCO


1

2

ˆ1 2

var( )1ˆvar( )[var( )]

i i

i

x

n x

= =

1

Consistencia. Decimos que un estimador es consistente si,

Abreviadamente,

A medida que n crece, መ𝛽 está cada vez más cerca de y en el límite coinciden



( )ˆ ˆ, 0, Pr | | 0p

n nsi → − =

ˆlim nn

→

=

Consistencia del estimador MCO


n=50

n=100

n=10

Teniendo en cuenta la insesgadez, la consistencia del estimador MCO se deduce de,



1

2

ˆ1 2

var( )1ˆvar( )[var( )]

i i

i

x

n x

= =

Supuesto 6. Homoscedasticidad, o varianza de los errores constante,

Supuestos adicionales (MCRL)


( ) 2var i =X

homocedasticidad heterocedasticidad

X1X2

X3

X1 X2 X3

Supuesto 7. No autocorrelación: los errores no están autocorrelacionados,

Teniendo en cuenta estos dos supuestos adicionales, la varianza de 𝛃 queda



( ) ( )cov , | 0,t s t sE t s = X X

( )( ) ( )( )

( )

1 1

1 1 1 1

1 1 2 1

ˆ ˆ ' | ( ) ( ) ' |

) ( ) | ( ) ( ) ( )

( )( ) ( ) ( )

E E

E E

E

− −

− − − −

− − −

=

= =

= =

β -β β -β X X'X X'ε X'X X'ε X

X'X X'εε'X X'X X X'X X' εε' X X'X

εε' X'X X'X X'X X'X

Además puede demostrarse el siguiente teorema

Teorema de Gauss-Markov.

Bajo los supuestos anteriores los estimadores MCO son lineales, insesgadosy óptimos (ELIO): no hay ningún otro estimador lineal e insesgado, que tenga menos varianza que el estimador MCO.

No excluye que pueda haber estimadores con menos varianza, pero serán sesgados o no lineales



El estimador MCO es un estimador lineal. Para verlo, consideremos el

modelo de regresión simple 𝑌𝑖 = 𝛽0+ 𝛽1𝑋𝑖 + 𝜀𝑖 ,

Por ejemplo,

መ𝛽 es un estimador lineal


1 2 2ˆ , donde

i i ii i i

i i

x y xw y w

x x = = =

Xi Yi xi yi xi2 xiyi

1 1 -2 -1 4 2

3 2 0 0 0 0

5 3 2 1 4 2

9 6 8

1 2

4ˆ 0.58

i i

i

x y

x = = =

31 21 1 1 2 2 3 3 1 2 32 2 2

ˆ

1 1 2 2 4( 2) 0 (2) 0 0.5

8 8 8 8 8

i i i

xx xw y w y w y y y y

x x x = + + = + +

− = − + + = + + = =

𝛃𝑀𝐶𝑂 = (𝐗′𝐗)−1𝐗′𝐘 = 𝐀𝐘 definimos otro estimador lineal e insegado𝛃# = 𝐃 + 𝐀 𝐘, D es una matriz de constantes

i. Se deduce 𝛃#= 𝛃 + 𝐃𝐗𝛃 + (𝐃 + 𝐀)𝜀 y 𝐸 𝛃# = 𝛃 + 𝐃𝐗𝛃 𝐃𝐗=0

ii. 𝛃#= 𝛃 + 𝐃 + 𝐀 𝜀 = 𝛃 + 𝐂𝜀 𝛃# − 𝛃 = 𝐂𝜀

iii. 𝐸 (𝛃# − 𝛃)(𝛃# − 𝛃)′ = 𝐸 𝐂𝜀𝜀′𝐂′ =𝐂𝐸 𝜀𝜀′ 𝐂′ = 𝜎𝜀2𝐂𝐂′

iv. 𝑣𝑎𝑟 𝛃# = 𝜎𝜀2 𝐃𝐃′ + 𝐃𝐀′ + 𝐀𝐃′ + 𝐀𝐀′

v. Pero 𝐃𝐀′ = 𝐃𝐗(𝐗′𝐗)−1= 0 = 𝐀′𝐃

vi. 𝑣𝑎𝑟 𝛃# = 𝜎𝜀2 𝐃𝐃′ + 𝐀𝐀′ = 𝜎𝜀

2𝐃𝐃′ + 𝜎𝜀2𝐀𝐀′

vii. Y 𝜎𝜀2𝐀𝐀′ = 𝜎𝜀

2(𝐗′𝐗)−1𝐗′𝐗(𝐗′𝐗)−1= 𝜎𝜀2(𝐗′𝐗)−1= 𝑣𝑎𝑟 𝛃

viii. 𝑣𝑎𝑟 𝛃# = 𝜎𝜀2𝐃𝐃′ + 𝑣𝑎𝑟 𝛃 (csqd)

Teorema de Gauss Markov (demostración)


Supuesto 8

Normalidad: los errores se distribuyen de forma normal con media nula y varianza constante,

i→ N(0, 2)

Con el supuesto de normalidad,

• La distribución de los estimadores es exactamente normal,

• Los estimadores MCO son los de menor varianza entre la clase de los estimadores insesgados, lineales o no lineales



( )2ˆ ,jj jN →

Hemos visto que,

Tenemos todos los elementos para hacer inferencia.

Pero en , no es conocido. Podemos sustituirlo por su estimador insesgado,

Pero entonces la distribución del estadístico cambia y

Contraste individual o de la t


ˆ(0,1)

ˆvar( )

j j

j

N

−→

1 12

1

ˆ

ˆˆvar( )nt

−

−→

2ˆ1n k

=− −

ε'ε

2 1ˆvar( ) ( )−=β X'X 2



( )

( )

( ) ( )

1 1 1 1

2 2 22

2

1 1

2

221 1

1 1

2222 2

2

2

ˆ ˆ

/ ˆ/

2

ˆ( )

ˆ / 2

ˆ( ) ˆ / / (0,1)

ˆ / /

1

1 2ˆ / 2

i ii

i

i

ii

n

nii

xx

n

x

n

xx N

tnn

−

−

− −

−

−=

−

−−

= = = →−−

Lo ilustramos para la regresión simple,

En general,

Es una matriz cuadrada y simétrica,

Varianza de 𝛃


2 1ˆ ˆvar( ) ( )−=β X'X

12 1· 1

21 2· 1

1·1 1·2

11

22

1· 1

k

k

k kk k

a aa

aa a

a a a + +

+

+

+ +

En general,

Es una matriz cuadrada y simétrica,


2 1ˆ ˆvar( ) ( )−=β X'X

12 1· 1

21 2· 1

1

11

22

1··1 1·2 1k k

k

k

k k

a a

a a

a

a

a

a

a

+

+

+ + + +

Covarianzas

Varianzas

Varianza de 𝛃

Para estimar,

Disponemos de una muestra de 526 individuos y,

𝐗𝐗 =526 6608

87040, (𝐗′𝐗)−1=

.041107 −.003121.000248

,

𝐗′𝐘 =853.8411059.64

, 𝐘′𝐘 = 1534.34, 𝑆𝐶𝑅 = 120,73 𝑦 ത𝑌 = 1.6233

Obtener,

a) La estimación de la ecuación de salarios

b) El coeficiente de determinación

c) El estimador de la varianza de los errores

d) Las varianzas y covarianzas de los estimadores


0 1log( )i i iSalario Educ = + +

Varianza de 𝛃

a) 𝛃 =.041107 −.003121

.000248853.8411059.64

=0.580.08


Varianza de 𝛃. Ejemplo

a) 𝛃 =.041107 −.003121

.000248853.8411059.64

=0.580.08

b) SCT = σ𝑖 𝑌𝑖 − ത𝑌 2 = 𝐘′𝐘 − 𝑛ത𝑌2 = 148.29 y,

𝑅2 = 1 −𝑆𝐶𝑅

𝑆𝐶𝑇= 1 −

120.73

148.29= 0.186



a) 𝛃 =.041107 −.003121

.000248853.8411059.64

=0.580.08


𝑅2 = 1 −𝑆𝐶𝑅

𝑆𝐶𝑇= 1 −

120.73

148.29= 0.186

c) ො𝜎𝜀2 =

𝑆𝐶𝑅

𝑛−2=

120.73

526−2= 0.2304



a) 𝛃 =.041107 −.003121

.000248853.8411059.64

=0.580.08


𝑅2 = 1 −𝑆𝐶𝑅

𝑆𝐶𝑇= 1 −

120.73

148.29= 0.186

c) ො𝜎𝜀2 =

𝑆𝐶𝑅

𝑛−2=

120.73

526−2= 0.2304

d) ෞ𝑣𝑎𝑟 𝛃 = ො𝜎𝜀2(𝐗′𝐗)−1= 0.2304

.041107 −.003121.000248

ෞ𝑣𝑎𝑟 መ𝛽0 = 0.2304 ∗ 0.041107 = 9.47 · 10−3

ෞ𝑣𝑎𝑟 መ𝛽1 = 0.2304 ∗ 0.000248 = 5.71 · 10−5



Como ya hemos visto,

Para contratar hipótesis sobre el procedimiento es siempre el mismo:

a) Formulamos las hipótesis nula y alternativa H0: j=h, H1: j h

b) Elegimos un significatividad, y miramos el valor crítico en tablas

c) Calculamos el valor del estadístico bajo la hipótesis nula

d) Rechazamos H0 en un contraste a dos colas (H1: jh) si,

Contraste individual bilateral


( )

− −

− 1. /2

ˆ

ˆj

n k

j

ht

ee

( 1)

ˆ(0,1)

ˆ( )

j j a

n k

j

t Nee

− +

−→ ⎯⎯→

Gráficamente,

Contraste individual bilateral


-t20 . 0,025 =–2,08 t20.0,025 = 2,080

No rechazo

H0

Área=0,95

Rechazo H0

Área= 0,025

Rechazo H0

Área= 0,025

La estimación de la demanda de pollos es (variables en logs; p = precio, y = renta y errores estándar entre paréntesis),

2ˆ 2.03 0.38 0.45 , 0.98, 23

(0.12) (0.064) (0.025)i i iq p y R N= − + = =

A veces interesa contrastar si el parámetro poblacional es negativo.

La hipótesis nula será, H0: j = 0, frente a la hipótesis alternativa, H0: j < 0. Es un contraste de una cola o unilateral.

En el ejemplo anterior del pollo,

H0: 1 = 0

H1: 1 < 0

Como −0,38/0.064 = −5.94<−1.72, se rechaza H0

Contraste individual unilateral


( )

− −0 1.

ˆRe H :

ˆj

n k

j

chazamos si tee

0-t21.0,05 = –1,72

No rechazo

H0

Área=0,95

Rechazo H0

Área= 0,05 2ˆ 2.03 0.38 0.45 , 0.98, 23

(0.12) (0.064) (0.025)i i iq p y R N= − + = =

Si nos interesa contrastar si el parámetro poblacional es positivo.

La hipótesis nula será, H0: j = 0, frente a la hipótesis alternativa, H1: j > 0. Es un contraste de una cola.

En el ejemplo anterior del pollo,

H0: 2 = 0

H1: 2 > 0

Como 0,45/0,025 = 18, rechazamos H0

Contraste individual unilateral


( )

− −0 1.

ˆRe H :

ˆj

n k

j

chazamos si tee

t27.0,05 = 1,720

No rechazo H0

Área=0,95

Rechazo H0

Área= 0,052ˆ 2.03 0.38 0.45 , 0.98, 23

(0.12) (0.064) (0.025)i i iq p y R N= − + = =

Si nos interesa contrastar si el parámetro poblacional distinto de un valor determinado, la hipótesis nula será, H0: j = k, frente a la hipótesis alternativa, H1: j k. Es contraste es de dos colas.

En ejemplo anterior quiero contrastar que la elasticidad demanda-renta es 0,5:

H0: 2 = 0,5

H1: 2 0,5

No se puede rechazar H0



( )

− −

−0 1. /2

ˆRe H :

ˆj

n k

j

kchazamos si t

ee

-t27. 0,025 =–2,08 t27.0,025 = 2,080

No rechazo H0

Área=0,95 Rechazo H0

Área= 0,025

Rechazo H0

Área= 0,0252ˆ 2.03 0.38 0.45 , 0.98, 23

(0.12) (0.064) (0.025)i i iq p y R N= − + = =

0.45 0.52

0.025

−= −

Puesto que el número de observaciones es mayor que 100, podemos aproximar la tempírica a una N(0,1). Los valores de tablas para un contraste de dos colas son: al 10% Z0,05 = 1,64, al 5% Z0,025 = 1,96 y al 1% Z0,005 = 2,58.

El t empírico en todos los casos es mayor en términos absolutos a los valores críticos incluso al 1% de significatividad. Para los estudios -4,40 (-0,11/0,025); -9,27 para los ingresos (-0,62/0,067) y 2,8 para GINI (0,014/0,005). De manera que los parámetros son significativamente distintos de cero con el 99% de confianza.

Contraste individual o de la t. Ejemplo


( )( ) ( ) ( )

( )( )

= − − + +

= = =

0,437 0,023 0,054 0,005

2 2

ˆln 8,92 0,11 0,62ln 0,014

144, 0,8408, 0,8374

i i i imortalidad estudios ingreso GINI

n R R

En la práctica, teniendo en cuenta que para un nivel =0.05,

Operando tenemos,

Para el 95%, = 0,05 con n grande t 1,96, de manera que,


Intervalos de confianza

( ) ( ) − − − −− + 1. /2 1. /2ˆ ˆ ˆ ˆ

j j n k j j j n kee t ee t

( )

− − − −

− − = − =

1. /2 1. /2

ˆPr 1 0.95

ˆj j

n k n k

j

t tee

( ) =

ˆ ˆPr 1.96 0.95j jee

Un intervalo del 95% para los estudios vendrá dado por,

El intervalo también sirve para contrastar hipótesis sobre el valor de 1: no se rechazará ninguna hipótesis que postule 1 para un valor que caiga dentro del intervalo

Intervalos de confianza


( )( ) ( ) ( )

( )( )

= − − + +

= = =

0,437 0,023 0,054 0,005

2 2

ˆln 8,92 0,11 0,62ln 0,014

144, 0,8408, 0,8374


n R R

( )10.11Pr 1.96 1.96 0.95 0.155, 0.065

0.023

− − − = − −

Restricciones lineales que implican una única combinación lineal. Por ejemplo, H0: βi + βj = k, frente a la hipótesis H1: βi + βj k (test bilateral) puede contrastarse con el estadístico

Necesitamos 𝑐𝑜𝑣( መ𝛽𝑖 , መ𝛽𝑗) …

Rechazaremos H0 si el estadístico empírico es superior (en valor absoluto) al crítico en tablas para el nivel de significatividad elegido.

También pueden plantearse test a una cola H1: βi± βj > k ó H1: βi± βj < k

Restricciones lineales con la t


ˆ ˆ ˆ ˆ( ) ( )

ˆ ˆ ˆ ˆ ˆ ˆvar( ) var( ) var( ) 2cov( )

i j i j

i j i j i j

k kt

+ − + −= =

+ + + +

Por ejemplo,

Y sabemos que es,

Entonces podemos contrastar hipótesis del tipo H0: 1= 41 …

Restricciones lineales con la t


2ˆlog( ) 0.284 0.092 0.004 0.022 , 316, 526

(.104) (.007) (.0017) (.003)

sal educ exper ant R N= + + + = =

C EDUC EXPER TENURE

C 0.010856 -0.000729 -8.66E-05 2.93E-05

EDUC -0.000729 5.37E-05 3.96E-06 -2.56E-06

EXPER -8.66E-05 3.96E-06 2.97E-06 -2.70E-06

TENURE 2.93E-05 -2.56E-06 -2.70E-06 9.57E-06

2 1ˆ ( ) −X'X

1 3526 4

1 3 1 3

ˆ ˆ( 4 ) (0)0.265

ˆ ˆ ˆ ˆvar 16var 2*4cov( )t

−

− −= =

+ −

Por ejemplo, sea la regresión

Queremos contrastar la hipótesis conjunta . Entonces la ecuación restringida será

Estimadas ambas, obtenemos las respectivas SCR: SCRNR y SCRR y,

Con los supuestos del modelo SCR/g.l. 2(g.l.) y 2m/ 2

n-k-1 es una Fm, n-k-1

Restricciones lineales múltiples


0 1 1 2 2 3 3 4 4i i i i i iY X X X X = + + + + +

0 3 4: 0H = =

0 1 1 2 2i i i iY X X = + + +

, 1

( ) / ( º )

/ ( 1)

R NRm n k

NR

SCR SCR m n restriccionesF

SCR n k− −

− ==

− −

Ec. restringida

Ec. no restringida

Si tenemos en cuenta que,

Podemos despejar SCRR y SCRNR en la expresión anterior y obtener

Esta es la versión del contraste expresado en función del R2 de las regresiones restringida e irrestricta

La equivalencia se basa en el supuesto de que la variable dependiente es la misma en ambas regresiones. En otro caso la SCT no sería la misma y los estadísticos no serían equivalentes (solo valdría el primer estadístico).



2 21 y 1 NRRR NR

SCRSCRR R

SCT SCT= − = −

2 2

, 1 2

( ) /

(1 ) /( 1)

NR Rm n k

NR

R R mF

R n k− −

−=

− − −

En el ejemplo del café (p. 139)

Para contrastar que renta y precio del té no son significativos (H0: 3 =4 =0),

la ecuación restringida proporciona SCR = 0.087749 y R2=0.6490 y.

En este caso la variable dependiente es la misma y por tanto podemos usar cualquiera de las dos versiones,

El valor crítico en tablas al 5%, es 3,35: se rechaza la hipótesis nula



2,27

2,27

(0.087749 0.0686) / 23.77

0.0686 / 27

(0.7256 0.6490) / 23.76

(1 0.7256) / (32 4 1)

F

F

−= =

−= =

− − −

2ˆ 4.63 0.92 0.81 0.03 0.41 , 0.0686, 0.7256leche teq p q p yd SCR R= − − + + + = =

En el ejemplo de la demanda de café (p. 139),

Contrastar H0: 3 =4 =0. La estimación de la ecuación restringida es,

Y el estadístico de contraste,

El valor crítico en tablas al 5%, es 3,35: se rechaza la hipótesis nula



2,27

2,27

(0.7256 0.6490) / 23.76,

(1 0.7256) /(32 4 1)

(0.087749 0.0686) / 23.77

0.0686 / 27

F

F

−= =

− − −

−= =

2ˆ 4.63 0.92 0.81 _ 0.03 _ 0.41 , 32, 0.7256, 0.0686tY pre q leche pre te renta n R SCR= − − + + + = = =

2ˆ 0.583 0.92 0.63 _ , 32, 0.649, 0.0877tY pre q leche n R SCR= − − + = = =

Lo que se contrasta es que todas las variables explicativas excepto la constante son nulas (k restricciones). La ecuación restringida es entonces,

En este caso y por tanto el estadístico de contraste queda,

Igualmente, en la otra versión del contraste, SCRR = SCT y,

Este test es proporcionado automáticamente por todos los programas

Significatividad global de la regresión


2 2 2

, 1 2 2

( ) / /

(1 ) /( 1) (1 ) /( 1)

NR R NRk n k

NR NR

R R k R kF

R n k R n k− −

−= =

− − − − − −

0i iY = +

, 1

( ) / /

/( 1) /( 1)

NR NRk n k

NR NR

SCT SCR k SCE kF

SCR n k SCR n k− −

−= =

− − − −

2 0RR =



Modelo 1: MCO, usando las observaciones 1998:1-2005:4 (T = 32)

Variable dependiente: l_C_CAFE

Coeficiente Desv. Típica Estadístico t valor p

const −4.63813 2.24050 −2.070 0.0481 **

l_P_CAFE −0.916131 0.119049 −7.695 <0.0001 ***

l_C_LECHE 0.810837 0.137982 5.876 <0.0001 ***

l_P_TE 0.0334966 0.0183417 1.826 0.0789 *

l_RENTA 0.411943 0.231127 1.782 0.0859 *

Media de la vble. dep. −0.575564 D.T. de la vble. dep. 0.089807

Suma de cuad. residuos 0.068601 D.T. de la regresión 0.050406

R-cuadrado 0.725622 R-cuadrado corregido 0.684973

F(4, 27) 17.85106 Valor p (de F) 2.82e-07

Log-verosimilitud 52.91698 Criterio de Akaike −95.83396

Criterio de Schwarz −88.50528 Crit. de Hannan-Quinn −93.40471

rho 0.031733 Durbin-Watson 1.868547

Para q=2, n-k-1=28 y significatividad del 0,05, F2.28.0,05=3,34. Calculamos el estadístico,

Como el valor empírico es mayor que 3,35 rechazamos la hipótesis nula: las variables de la regresión son conjuntamente significativas.



( ) ( )( )

( )( ) = + + +

= = =

0,265 0,045 0,086

2 2

ˆ0,72 0,59ln 0,41ln

31, 0,9937, 0,9932

t t t tPIB empleo capital

n R R

= =−

− −

2,28

0,9937

2 22081 0,9937

31 2 1

F

Por ejemplo, la estimación de una función de producción, es



( )( ) ( ) ( )

( )( )

= − − + +

= = =

***

0,437 0,023 0,054 0,005

0,005

2 2

ˆln 8,92 0,11 0,62ln 0,014

144, 0,8408, 0,8374


n R R

El contraste de significatividad conjunto será,

− − = = =− − − −

2

, 1 2

/ 0.84 /3245

(1 )/( 1) (1 0.84)/140k n k

R kF

R n k

A veces las restricciones que queremos contrastar son más complicadas. Volviendo al ejemplo del café,

Supongamos que deseamos contrastar la hipótesis conjunta

Entonces la ecuación restringida será,

Formulada la ecuación restringida, la estimamos y procedemos de igual forma. La variable dependiente sigue siendo la misma en ambas regresiones: podemos emplear las dos versiones del test


0 2 4

3

: 2·

0

H

=

=

0 1 1 2 2 3 3 4 4t t t t t tY X X X X = + + + + +

( )0 1 1 4 2 4 4 0 1 1 4 2 42 2t t t t t t t t tY X X X X X X = + + + + = + + + +

La ecuación restringida arroja el siguiente resultado,

Por tanto,

No podemos rechazar la hipótesis nula al ser el valor del estadístico menor que 3,35.


2

1 2 4ˆ 4.42 0.89 0.39(2 ), 0.691, 0.07736t t t tY X X X R SCR= − − + + = =

2,27

2,27

(0.7256 0.691) / 21.71,

(1 0.7256) /(32 4 1)

(0.07736 0.0686) / 21.72

0.0686 / 27

F

F

−= =

− − −

−= =

Consideremos ahora la hipótesis,

Entonces la ecuación restringida será . Para estimar esta ecuación la escribimos de la forma,

Y tras estimarla resulta SCR = 0.729 y R2 = 0.354 . Entonces,

La forma R2 del test ahora no es válida: la variable dependiente de la ecuación restringida, Yt−X1t, no es la misma que la de la irrestricta, Yt


0 1

3

: 1

0

H

=

=

0 1 2 2 4 4t t t t tY X X X = + + + +

1 0 2 2 4 4t t t t tY X X X − = + + +

2,27

2,27

(0.0729 0.0686) / 20.846, pero

0.0686 / 27

(0.7256 0.354) / 218.28!!

(1 0.7256) /(32 4 1)

F

F

−= =

−= =

− − −

Con el 5% y dos colas, el valor crítico es 2,05 (t27.0,025 = 2,05). Los valores empíricos de contraste son respectivamente: -7,73 para el pcafé; 5,87 para la qleche; 1,64 pte y 1,78 para la YD. De manera que pte y YD no son significativamente distintas de cero con ese nivel de confianza puesto que sus valores empíricos son menores que el crítico. Nos preguntamos si son conjuntamente significativas al 5%. Para ello realizamos la ecuación restringida:

Planteamos las siguiente hipótesis:H0: pte = YD = 0. Frente a H1 = no se cumple H0.

Ejemplo


( )( ) ( )

( )( )

( )( )

( )( )

( ) = − − + + + +

= = =

2,240 0,119 0,137 0,018 0,231

2 2

ˆln 4,63 0,92ln 0,81ln 0,03ln 0,41ln

32, 0,7256, 0,6850

café café leche te tNRq p q p YD

n R R

( )( ) ( )

( )( )

( ) = − − + + = =2

0,200 0,126 0,116

ˆln 0,58 0,92ln 0,62ln , n 32, 0,6490café café leche tRq p q R

−= =

− − −2.27.0,05

(0,7256 0,6490) / 23,769 3,35

(1 0,7256) / (32 5 1)F

rechazamos la hipótesis nula y el pte y la YD son conjuntamente significativas

El valor crítico de dos colas (H1: β ≠ 0) al 5% es 2,05 (t28.0,025), y 2,76 al 1% (t28.0,005). Ambos parámetros son significativos incluso al 1% puesto que las t empíricas son mayores: 13,11 para el empleo y 4,77 en el capital.

Podemos contrastar si la función de consumo presenta rendimientos constantes como predice la teoría. Utilizando la t, la hipótesis alternativa es H1: β1 + β2 ≠ 1. La t empírica es:

(0,59+0,41-1)/(0,0452+0,0862+2·0,007489)0,5=0

de manera que no podemos rechazar la hipótesis nula de rendimientos constantes (H0: β1 + β2 = 1) puesto que el valor empírico es menor que el crítico.

De igual manera podemos recurrir a la F, para ello sustituimos en el modelo β1 = 1 - β2 y realizando operaciones sencilla calculamos el modelo restringido (MCR).

Ejemplo


( ) ( )( )

( )( )

( ) ( )

= + + +

= = = = =

0,265 0,045 0,086

2 2

ˆln( ) 0,72 0,59ln 0,41ln

31, 0,9937, 0,9932, 0,014094,cov ln ,ln 0,00749

t t t tNRPIB empleo capital

n R R SCR empleo capital

lnPIB

t

empleot

æ

èç

ö

ø÷ = 0,76

0,111( )+0,60

0,023( )ln

capitalt

empleot

æ

èç

ö

ø÷

n= 31,R2 = 0,9584,R 2 = 0,9570,SCR = 0,014108

Cuyo valor crítico es 4,20 (F1.28.0,05) el valor empírico es: [(0,014108-0,014094)/1]/[0,014094/28]=0,027 de manera que no rechazamos la hipótesis nula de rendimientos constantes. En este caso el contraste de la F no se puede hacer a partir de los coeficientes de determinación puesto que la variable explicada es diferente en la ecuación restringida.

La predicción es una de las aplicaciones del modelo de regresión

Para valores conocidos (o hipotéticos) de las variables explicativas X (X0), podemos elaborar dos tipos de pronósticos,

-Sobre el valor esperado de Y0, E(Y0|X0)

-Sobre el valor de Y0

El cálculo de los pronósticos es inmediato: si X1= c1, …, Xk = ck,

Este valor es un pronóstico tanto de E(Y0|X0) como de Y0

Predicción


= + + +00 1 1

ˆ ˆ ˆˆ ... k kY c c

La predicción debe venir acompañada de alguna medida de la incertidumbre asociada a la misma

Para ello necesitamos una medida del error que será diferente si Ŷ0 se toma como un pronóstico de E(Y0|X0) o de Y0 (más incertidumbre)

En el primer caso,

Nótese que E(e0)=0 (insesgadez). Además

Predicción


= − = + + + − − − −

= − + − + + −

0 0 0 00 1 1 0 1 1

0 0 1 1 1

ˆ ˆ ˆˆ ( | ) ... ...

ˆ ˆ ˆ( ) ( ) ... ( )

k k k k

k k k

e Y E Y c c c c

c c

X

0 2 0 1 0var( ) [ '( ) ]e −= X X'X X

En el segundo caso,

Dada la insesgadez de los estimadores MCO y el supuesto de media nula del error, se sigue que el pronóstico es un estimador insesgado

Además, las fórmulas anteriores nos permiten calcular fácilmente intervalos de confianza para la predicción: Ŷ0 t/2ee(e0)

Predicción


( ) ( )

− −

= − = + + + − − − − −

= − + − + + − −

= + = +

0 0 0 00 1 1 0 1 1

00 0 1 1 1

1 10 2 0 0 2 2 0 0

ˆ ˆ ˆˆ* ... ...

ˆ ˆ ˆ( ) ( ) ... ( ) ,

var( * ) ' 1 '

k k k k

k k k

e Y Y c c c c

c c

e X X'X X X X'X X

Una forma fácil de calcular el error estándar en el primer caso, es,

De aquí despejamos 0 y lo sustituimos en la ecuación original,

para obtener,

Si estimamos, la constante y su error estándar, nos dan lo que buscamos. Además, ya hemos visto,

Predicción


= + + +00 1 1( | ) ... k kE Y X c c

= +0 0 0 2var( * ) var[ ( | )]e E Y X

= + + + +0 1 1 ... k k iY X X

= + − + + − +01 1 1( | ) ( ) ... ( )k k kY E Y X X c X c

Volvamos al ejemplo del café. Estimamos hasta 2005q3 y elaboramos un pronóstico para 2005q4 sabiendo que los valores de las explicativas en este periodo son respectivamente, 1.756, 2.560, 1.8219 y 8.5763. La predicción será entonces,

Por lo tanto el pronóstico es ln(qcafé) = −0,5775 y el error estándar de la predicción,

El intervalo del 95% queda, −0,57750,0559·2,056

Predicción


( )( ) ( )

( )( )

( )( )

( )( )

( )= − − − + − + − + −

= = = =

0 0 0 0

0.022 0,122 0,141 0,018 0,239

2 2

ˆln 0.5775 0,92ln 0,81ln 0,03ln 0,41ln

31, 0,7256, 0,6834, 0.06859

café café leche te teq p p q q p p YD YD

n R R SCR

( )0 0 2 0 2ˆ ˆˆ ˆvar( ) var( ) var( ) 0.022 0.00264 0.00312 0.00312 0.055861

SCRY Y ee

n k

= + = + = + = = =

− −

Dado que la estimación es,

Lo lógico sería que el pronóstico en valores originales, fuese,

Sin embargo esta estimación es incorrecta y debe ser corregida por el término exp( 2/2). En este caso,

exp( 2/2)= exp[0.5*SCR/27]=exp(0.00127) = 1.001

Predicción


0ln( ) 0.5775Y = −

0 exp( 0.5775) 0.561Y = − =

Para una empresa con 2 millones de beneficios la predicción puntual del salario de alta dirección es 296,898 miles de euros (296,362+0,267993·2).

Normalmente los programas especializados muestran el error estándar de predicción. También podemos realizar la predicción de la siguiente forma:

El término constante es la predicción para unos beneficios de 2m.

Predicción. Ejemplo


( ) ( )= +

= = = =

74,362 0,026

2 2

296,362 0,267993

31, 0,7856, 0,7782, 3.514.341.

i iSalarios Benficios

n R R SCR

( )

( )

( )= + −

= = = =

74,334 0,026

55,999 0,057

2 2

296,898 0,267993 2

31, 0,7856, 0,7782, 3.514.341.

i iSalarios Benficios

n R R SCR

→ → 296,898 2.045 74,334 (144,88;448,91)IC predicción media

Para una empresa con 2 millones de beneficios la predicción del salario de alta dirección 296.362+0.27·2=296.898

Alternativamente

El término constante es la predicción para unos beneficios de 2m. El intervalo de confianza del 95% será,

296.89874,33·2.045 = (144.89, 448,9)



2296.362 0.27 , 31 0.78(74.36) (0.026)

Salario Beneficio n R= + = =

2296.898 0.27( 2), 31 0.78(74.33) (0.026)

Salario Beneficio n R= + − = =

En el 2005.4: pcafé = 5,79; qleche = 12,93; pte = 6,18; YD = 5304.

Escenario de crisis económica: –Δ10%YD manteniéndose el resto constante.

Cuya exponencial es 0,525 [exp(-0,645)].

Predicción que podemos hacer directamente en porcentaje, una caída del 10% en la YD implica (aprox.) una caída del 4,1% (0,41·10) de la cantidad.

También podríamos realizar predicciones para distintos escenarioscambiando conjuntamente precios, cantidades y renta disponible.



( )( ) ( )

( )( )

( )( )

( )( )

( ) = − − + + + +

= = =

2,240 0,119 0,137 0,018 0,231

2 2

ˆln 4,63 0,92ln 0,81ln 0,03ln 0,41ln

32, 0,7256, 0,685

café café leche te tNRq p q p YD

n R R

( ) ( )( )

( )( )

( )( )

( )( )= − − + + + = −

2,240 0,119 0,137 0,018 0,231

ˆln( ) 4,63 0,92ln 5,79 0,81ln 12,93 0,03ln 6,18 0,41ln 5305 0,9 0,645p

Es normal asociar la predicción con la con el comportamiento futuro de las variables

Para evaluar la capacidad predictiva del modelo se suele utilizar:

Raíz cuadrada del error cuadrático medio:

Error medio absoluto:

Porcentaje del error medio en términos absolutos:

U de Theil:

;

Predicción con series temporales


( )=

= −0

20 0

01

1ˆ

n

t tt

RECM y yn

=

= −0

0 0

01

1 ˆn

t tt

EMA Y Yn

=

−=

0 0 0

0 01

ˆ1100

nt t

i t

Y YPEMA

n Y

( )

( ) ( )

=

= =

−

=

+

0

0 0

20 0

01

220 0

0 01 1

1 ˆ

1 1 ˆ

n

t tt

n n

t tt t

Y Yn

U

Y Yn n

( ) ( ) ( ) ( )=

− = − + − + −0

0 0 0 0

22 20 0 0 0 0

ˆ ˆ01

restodiferencia dediferencia de varianzas medias

1 ˆ ˆ 2 1n

t t t t Y Y Y Yt

Y Y Y Y S S r S Sn

Análisis de regresión lineal. Inferencia

Documents

Transcript of Análisis de regresión lineal. Inferencia