Econometría Aplicada
Econometría AplicadaInferencia estadística, bondad de ajuste y predicción
Víctor Medina
Econometría AplicadaIntervalos de confianza
Intervalos de confianza
La pregunta que intentamos responder es en qué intervalo de valores esprobable (a un cierto nivel de confianza) que el coeficiente βj esté contenido.
Estimación del intervalo para un coeficienteSi consideramos un intervalo de confianza al 100(1− α)%, entonces laexpresión que debe cumplir nuestra variable aleatoria t es
P (−tc1 < t < tc2) = 100(1− α)%
Luego si consideramos α = 5% y que la distribución tN−K es simétrica,entonces tc1 = tc2 = t1−5%/2,N−K
I Obs. tc queda definido por los grados de libertad m = N −K y por elnivel de confianza α, no depende del coeficiente βj !
Econometría AplicadaIntervalos de confianza
Estimación del intervalo para un coeficienteI Entonces el intervalo para βj queda definido por
100(1− α)% = P (−tc < t < tc)
= P (−t1−α/2,N−K <βj − βjse(βj)
< t1−α/2,N−K)
= P (−t1−α/2,N−Kse(βj) < βj − βj < t1−α/2,N−Kse(βj))
= P (t1−α/2,N−Kse(βj) > βj − βj > −t1−α/2,N−Kse(βj))
= P (βj + t1−α/2,N−Kse(βj) > βj > βj − t1−α/2,N−Kse(βj))
I Es decir, con 100(1− α)% de confianza,
βj ∈(βj − t1−α/2,N−Kse(βj), βj + t1−α/2,N−Kse(βj)
)
Econometría AplicadaIntervalos de confianza
Ejemplo en Stata. . . identificando el intervalo de confianza(t0.975,72 ≈ 1.993).
Econometría AplicadaIntervalos de confianza
Estimación del intervalor para una combinación lineal de coeficientesEl resultado que recién presentamos se puede extender para una combinaciónlineal de los coeficientes.
I Supongamos que queremos estimar
λ = c1β1 + c2β2 + ...+ cKβK =K∑j=1
cjβj
Luego,
t = λ− λse(λ)
=∑
cj βj −∑
cjβj
se(∑
cj βj)∼ tN−K
Econometría AplicadaIntervalos de confianza
Aplicación: Si se quiere incrementar el gasto en publicidad en 800.000 pesosy bajar el precio en 400 pesos, entonces el cambio esperado en las ventas son
λ = E(V entas1)− E(V entas0)= ∆2β2 + ∆3β3
= −400β2 + 0.8β3
Y el gerente quiere estimar el incremento y un intervalo de confianza al 90%I Sabemos que el cambio estimado es
λ = −400β2 + 0.8β3 = −400 · (−0.0079079) + 0.8 · 1.862584 = 4.653227
I El valor de tc = t0.95,72 = 1.666, luego el intervalo es(λ− tcse(λ), λ+ tcse(λ)
)I Es decir
se(λ) = se(−400β2 + 0.8β3)
=√var(−400β2) + var(0.8β3) + 2cov(−400β2, 0.8β3)
=?
millones
Econometría AplicadaIntervalos de confianza
se(λ) = se(−400β2 + 0.8β3)
=√var(−400β2) + var(0.8β3) + 2cov(−400β2, 0.8β3)
=√
4002 · 1.201e−6 + 0.82 · 0.46675603 + 2 · 400 · 0.8 · 0.00001974= 0.7095896
Entonces, con un nivel del 90% decimos que el incremento en precio seráλ ∈ (4.653227− 1.666 · 0.7095896, 4.653227 + 1.666 · 0.7095896) =(3.471051, 5.835403)
Econometría AplicadaTest de hipótesis
Test de hipótesis
Básicamente los pasos de un test de hipótesis son
1. Determinar la hipótesis nula y la alternativa2. Especificar el test estadístico y su distribución si la hipótesis nula es
verdadera3. Seleccionar α y determinar la región de rechazo4. Calcular el valor del estadístico y, si se desea, el p-valor5. Concluír
Test de significancia de un coeficienteCuando construimos nuestro modelo de regresión múltiple (o simple), lohacemos creyendo que las variables explicaticas influencian la variable y.Para confirmar esta creencia, nos preguntamos si la data nos provee deevidencia suficiente.
Econometría AplicadaTest de hipótesis
Test de significancia de un coeficiente (dos colas)
I Luego, para averiguar si la variable xj se relaciona con y, testeamos lahipótesis nula
H0 : βj = c
(en particular podemos pensar que c = 0)
versus la hipótesis alternativa
H1 : βj 6= c
Para realizar el test, hacemos uso del estadístico que, si H0 es cierta, entonces
t = βj − βj√var(βj)
= βj − cse(βj)
∼ t(N−K)
En particular, si c = 0
t = βj
se(βj)∼ t(N−K)
Econometría AplicadaTest de hipótesis
Test de significancia de un coeficiente (dos colas)(Recuerde que podemos generalizar H0 : βk = c con c cualquier valor, enparticular 0)
Econometría AplicadaTest de hipótesis
Test de significancia de un coeficiente (una cola y > c)En caso de que queramos testear si el coeficiente es mayor a una constante c,entonces cambiamos nuestro planteamiento a
H0 : βj = c
versus la hipótesis alternativa
H1 : βj > c
Es decir, si nuestro estadístico t = βj−cse(βj) es mayor a nuestro valor crítico tc,
entonces rechazamos H0
Econometría AplicadaTest de hipótesis
Test de significancia de un coeficiente (una cola y < c)Para el caso que queramos testear que el coeficiente es menor a unaconstante c, tenemos
H0 : βj = c
versus la hipótesis alternativa
H1 : βj < c
Es decir, si nuestro estadístico t = βj−cse(βj) es menor a nuestro valor crítico tc,
entonces rechazamos H0
Econometría AplicadaTest de hipótesis
Test de significancia de una combinación lineal de coeficientesSiguiendo con nuestro ejemplo de Mcdonalds. . . el gerente de marketing nosasegura que una disminución en 200 pesos del índice de precio es másefectivo en el aumento de las ventas versus incrementar el gasto enpublicidad en 500.000 pesos.Es decir, nos dice que −200 · β2 > 0.5 · β3.
I Usted no acepta esta preposición a menos que se pueda verificar con ladata.
I Sabe que el cambio estimado en ventas por efecto de la disminución enprecio es −200 · (−0.0079079) = 1.58158 y por efecto de publicidad0.5 · 1.862584 = 0.931292, es decir, el gerente de mkt parece estar en locorrecto.
I Luego lo que queremos testear es
H0 : −200β2 − 0.5β3 ≤ 0
versusH1 : −200β2 − 0.5β3 > 0
Econometría AplicadaTest de hipótesis
Test de significancia de una combinación lineal de coeficientesAsumiendo que la igualdad en H0 se cumple, el estadístico t bajo la hipótesisnula es
t = −200 · β2 − 0.5 · β3
se(−200 · β2 − 0.5 · β3)∼ t72
El valor crítico a un nivel de significancia del 5% es t0.95,72 = 1.666, luegorechazamos H0 si t ≥ 1.666 (o equivalentemente p-valor< 0.05)
I Para encontrar el estadístico t, debemos calcular se(−200 · β2 − 0.5 · β3),reemplazando los valores obtenidos anteriormente, tenemos quese(−200 · β2 − 0.5 · β3) ≈ 0.408
I Luego t = 200·0.0079079−0.5·1.8625840.408 = 1.593843
I Como 1.594<1.666, entonces no existe evidencia suficiente comopara rechazar H0
I Es decir, estadísticamente no podemos estar de acuerdo con laafirmación del gerente.
Econometría AplicadaBondad de ajuste
Bondad de ajuste
Considerando el modelo yi = β1 + β2xi2 + ...+ βKxiK + ei, notamos quepodemos escribirlo como
yi = yi + ei
con yi = β1 + β2xi2 + ...+ βKxiK y ei = yi − yi, luego
yi − y = (yi − y) + ei ⇒ (yi − y)2 = (yi − y)2 + e2i + 2(yi − y)ei
Y sumando para todas las observaciones de la muestra tenemos que1
N∑i=1
(yi − y)2 =N∑i=1
(yi − y)2 +N∑i=1
e2i
I Se define la suma de cuadrados totales SST =∑N
i=1(yi − y)2
I La suma de cuadrados de la regresión SSR =∑N
i=1(yi − y)2
I Suma de los cuadrados de los residuos SSE =∑N
i=1 e2i
1Como ejercicio queda demostrar que∑N
i=1(yi − y)ei = 0. Hint: utilizar sistema de
ecuaciones para los estimadores MC.
Econometría AplicadaBondad de ajuste
Bondad de ajusteLuego tenemos SST = SSR+ SSE y se define el coeficiente dedeterminación R2
R2 = SSR
SST=∑N
i=1(yi − y)2∑N
i=1(yi − y)2
= 1− SSE
SST= 1−
∑N
i=1 e2i∑N
i=1(yi − y)2
Como se observa R2 es una medida entre la variación de la regresión (o elmodelo con todas sus variables explicativas) versus la variación total de lavariable dependiente. En otras palabras, R2 cuantifica la cantidad devariación de la variable dependiente que es explicada por el modelo.
I R2 puede tomar valores entre 0 y 1.I Valor de R2 cercanos a 1, nos dice que la variación de la variable
dependiente es explicada en gran medida por las variaciones en lasvariables explicativas.
I Valores cercanos a 0, nos dice que la variación del modelo explica pocola variación de la variable dependiente.
Econometría AplicadaRepaso: Distribuciones (antes de seguir con inferencia)
Repaso: Distribuciones (antes de seguir con inferencia)
Econometría AplicadaRepaso: Distribuciones (antes de seguir con inferencia)
Repaso: Distribuciones (antes de seguir con inferencia)
Distribución normal y normal estándarSi x ∼ N(µ, σ2), luego haciendo la transformación z = x−µ
σimplica que
z ∼ N(0, 1)
Distribución χ2
Si z ∼ N(0, 1), entonces z2 ∼ χ21. Por otra parte, si tenemos n distribuciones
independientes xi ∼ χ21, entonces
n∑i=1
xi ∼ χ2n
Distribución t-studentSi z ∼ N(0, 1) y x ∼ χ2
n y son independientes, entoncesz√x/n
∼ tn
Econometría AplicadaRepaso: Distribuciones (antes de seguir con inferencia)
DistribucionesDistribución F de FisherSi x ∼ χ2
n (chi-cuadrado grado n) e y ∼ χ2m (chi-cuadrado grado m) y son
independientes, entoncesx/n
y/m∼ Fn,m
0 1 2 3 4 5
0.0
0.4
0.8
1.2
x
Den
sida
d
F de Fisher (df1,df2)
(1,30)(3,30)(8,30)(20,30)(1,1)
Econometría AplicadaInferencia (continuación)
Test de hipótesis
Hasta ahora, tenemosI Un coeficiente
I Dos colasI Una cola
I Combinación lineal de coeficientesI Grupo de variables (hipótesis conjunta)
Test de hipótesis conjunta (F-test)El interés es testear si un conjunto de coeficientes {βj}j∈{2,...,K} son o noestadísticamente significativos para el modelo.La motivación del test es que si comparamos el modelo completo (con lasK − 1 variables explicativas) versus un modelo reducido (por ejemplo, conR− 1 variables explicativas) y medimos el aumento de sus errores alcuadrado, testeamos si esa diferencia responde a una cantidad significativa.
Econometría AplicadaInferencia (continuación)
Test de hipótesis conjunta (F-test)
H0 : βR+1 = 0 y βR+2 = 0 . . . y βK = 0
H1 : βR+1 6= 0 o βR+2 6= 0 . . . o βK 6= 0
I Modelo sin restricción (U): y = β1 + β2x2 + · · ·+ βKxKI Modelo con restricción (R): y = β1 + β2x2 + · · ·+ βRxR (quitamosK −R variables)2
Luego, se calcula para cada modelo la suma de los cuadrados de sus residuos,es decir, SSEU y SSER (note que este último siempre es mayor o igual alprimero). Y se crea el estadístico
F = (SSER − SSEU )/(K −R)SSEU/(N −K) ∼ F(K−R,N−K)
2Sin pérdida de generalidad se quitaron las últimas K − R variables, pero tengapresente que puede ser cualquier combinación posible.
Econometría AplicadaInferencia (continuación)
Test de hipótesis conjunta (F-test)
En el caso que queramos testear la significancia del modelo completo, es decir,si todos los β’s son cero versus al menos uno es distinto de cero, entonces3
H0 : β2 = 0 y β3 = 0 . . . y βK = 0
H1 : β2 6= 0 o β3 6= 0 . . . o βK 6= 0
I Modelo sin restricción (U): y = β1 + β2x2 + · · ·+ βKxKI Modelo con restricción (R): y = β1 (implica que β1 = y, es decir,SSER =
∑N
i=1(yi − yi) =∑N
i=1(yi − y) = SST )
F = (SST − SSE)/(K − 1)SSE/(N −K) ∼ F(K−1,N−K)
Este es el test que realizan los softwares estadísticos por defecto.
3Que es equivalente a considerar que R = 1
Econometría AplicadaPredicción
Predicción
I La predicción es una de las herramienta mas utilizada en econometría,ya que intenta predecir un valor futuro (series de tiempo) o un valorpara un individuo que no pertenecía a la muestra (data transversal)
I Se puede efectuar para un valor puntual y0 o bien para el valor esperadoE(y0)
Valor puntualSupongamos
I El modelo y = β1 + β2x2 + · · ·+ βKxK + e (equivalente a y = Xβ + e)y su respectiva estimación E(y) = y = β1 + β2x2 + · · ·+ βKxK(equivalente a E(y) = Xβ)
I Queremos predecir el valor y0 asociados a un vector de regresores x0icon i = 2, . . . ,K
Econometría AplicadaPredicción
Valor puntualPara predecir el valor de y0 consideramos que se rige bajo el mismo modeloy0 = β1 + β2x02 + · · ·+ βKx0K + e0, luego la estimación MCO seríay0 = xt0β, por lo tanto el error de predicción es
u0 = y0 − y0 = xt0(β − β) + e0
Que tieneI Error de estimación del vector βI Error estocástico inherente al modelo e0
Si se conservan los supuestos del modelo de regresion lineal, entonces el valoresperado del error de predicción es cero, luego
var(u0) = E(u20) = E(xt0(β − β)(β − β)tx0 + 2xt0(β − β)e0 + e2
0)= σ2 + σ2xt0(XtX)−1x0
Econometría AplicadaPredicción
Predicción de un valor puntualI Luego, bajo supuestos de normalidad del error e0, el error de predicciónu0 es una combinación lineal de dos variables normales y por lo tantotambien distribuye bajo una normal N(0, σ2
u)I Vemos que su varianza σ2
u depende de σ2 (desconocido), de los valoresxt0 (conocidos) y de X (conocidos).
I Razones análogas a las ya vistas tenemos que
y0 − y0√σ2(1 + xt0(XtX)−1x0)
∼ N(0, 1)⇒ y0 − y0√σ2(1 + xt0(XtX)−1x0)
∼ tN−K
Entonces podemos construir un intervalo de confianza para el valorfuturo y0 a un nivel α
y0 ∈ [y0 − t1−α/2,N−Kse(u0), y0 + t1−α/2,N−Kse(u0)]
Econometría AplicadaPredicción
Predicción de un valor medioSupongamos ahora que estamos interesados en estimar el valor esperadoE(y0) = xt0β.
I La predicción, al igual que en el caso anterior, será y0 = xt0βI La diferencia es que el error de predicción ahora está dado por
u∗0 = E(y0)− y0 = xt0(β − β)
I Luego la varianza es var(u∗0) = xt0var(β − β)x0 = σ2xt0(XtX)−1x0I Por lo tanto, tenemos que E(y0) a un nivel α
E(y0) ∈ [y0 − t1−α/2,N−Kse(u∗0), y0 + t1−α/2,N−Kse(u∗0)]
Econometría AplicadaPredicción
Ejemplo predicciónConsideremos la versión sencilla del ingreso vs. la escolaridad dada por
ingresoi = −0.0144 + 0.724Escolaridadi
Donde∑
x2i = 2054, N = 13, x = 12, σ2 = 0.8936. Queremos estimar la
predicción media y puntual de x0 = 20, es decir,
y0 = −0.0144 + 0.724 · 20 = 14.4656
Es fácil derivar una expresión para la varianza del error de predicción en elcaso univariado
I var(u0) = σ2 + σ2xt0(XtX)−1x0 = σ2[1 + 1N
+ (x0−x)2
(∑
x2i−Nx2)
]I var(u∗0) = σ2xt0(XtX)−1x0 = σ2[ 1
N+ (x0−x)2
(∑
x2i−Nx2)
]Luego, reemplazando tenemos
I var(u0) = 0.8936[1 + 1
13 + (20−12)2
182
]= 1.2762
I var(u∗0) = 0.8936[
113 + (20−12)2
182
]= 0.3826
Y t0.975,11 = 2.2, luego
Top Related