MODELLO DI REGRESSIONE LINEARE - UniBG · MODELLO DI REGRESSIONE LINEARE • le ipotesi del modello...
-
Upload
nguyenhanh -
Category
Documents
-
view
219 -
download
0
Transcript of MODELLO DI REGRESSIONE LINEARE - UniBG · MODELLO DI REGRESSIONE LINEARE • le ipotesi del modello...
MODELLO DI REGRESSIONELINEARE
• le ipotesi del modello di regressione clas-sico,
• stima con i metodi dei minimi quadrati edi massima verosimiglianza,
• teorema di Gauss-Markov,
• verifica di ipotesi e test di specificazionee adattamento nel modello di regressioneclassico.
• J.D. Hamilton (1995), Econometria delleserie storiche, Monduzzi.
• W. H. Greene (1993), Econometric Analy-sis, Prentice Hall.
1
MODELLO DI REGRESSIONELINEARE
yt = x′tβ + ut
• yt : variabile casuale dipendente
• x′t =[1, xt1, xt2, ..., xtp
]: vettore dei regres-
sori (deterministici o stocastici)
• β′ =[β0, β1,β2, ..., βp
]: vettore dei parametri
• ut : componente stocastica di valore attesonullo
FUNZIONE DI REGRESSIONE
E(yt|xt) = x′tβ
NOTAZIONE MATRICIALE
y = Xβ + u
• X =
x′1
x′2
x′T
matrice TxP (P = p + 1) dei
regressori
• y =
y1y2
yT
vettore delle variabili risposta
• u =
u1u2..
uT
vettore delle componenti sto-
castiche2
ASSUNZIONI DEL MODELLO DI
REGRESSIONE LINEARE CLASSICO
• A0:la funzione di regressione E( y|X) = Xβ
e correttamente specificata
• A1: u e un vettore di T variabili casuali
indipendenti
• A2: le componenti di u sono variabili casu-
ali di valore atteso nullo e varianza σ2(omoschedastiche)
• A3: le componenti di u sono variabili ca-
suali normali
3
• A4: X e una matrice di costanti note (re-
gressori non stocastici)
• A5: le colonne di X sono linearmente in-
dipendenti =⇒ X′X e invertibile
• A4bis: X e una matrice stocastica, u e X
sono stocasticamente indipendenti ovvero
in termini di densita di probabilita: f(u|X) =f(u)
• A4bisbis E(u|X) =E(u)
4
STIMA di β, σ2
Verosimiglianza
Da yt = x′tβ + ut e per le A1, A2, A3, A4
(A4bis) si ha che le yt
sono variabili casuali indipendenti normali con
valore atteso
µt = x′tβ e varianza σ2.
QUINDI ho la verosimiglianza:
L(β, σ2) =T∏
t=1
1√2πσ2
exp−
1
2σ2(yt − x
′tβ)2
e la log verosimiglianza:
L(β, σ2) = −T
2ln(2πσ2)−
1
2σ2
∑t
(yt − x′tβ)2 =
= −T
2ln(2πσ2)−
1
2σ2 (y −Xβ)′ (y −Xβ)
5
se σ2 e noto massimizzare la log verosimiglianza
equivale a minimizzare (CRITERIO DEI MIN-
IMI QUADRATI):
Q(β) = (y −Xβ)′ (y −Xβ)
6
RISULTATO FONDAMENTALE
Q(β) = (y −Xβ)′ (y −Xβ) ha un unico minimo
in
b =(X′X
)−1X′y
e importante notare che:
y −Xb = y −X(X′X
)−1X′y =(IT−M)y
dove M = X(X′X
)−1 X′ e una matrice TxT idem-
potente (M = MM). Quindi anche (IT−M) e
idempotente.
7
Ne consegue
Q(b) = (y −Xb)′ (y −Xb) =
= y′ (IT−M)y = y′y − y′My =
= y′y − y′X(X′X
)−1X′y = y′y − y′Xb
8
Verosimiglianza concentrata
Sostituendo b a β nella log verosimiglianza si
ottiene la log verosimiglianza concentrata:
L(σ2) = −T
2ln(2πσ2)−
1
2σ2Q(b)
che ha un massimo in s2 = Q(b)T .
9
CONCLUDENDO: gli stimatori M.V. sono
s2 =Q(b)
T
b =(X′X
)−1X′y
10
PROPRIETA’ DEGLI STIMATORI
A0 - A4bisbis garantiscono che
E(b) = β
E
(T
T − 1− ps2)
= E
(Q(b)
T − 1− p
)= σ2
E(b) = β e banalmente verificata infatti con-
dizionatamente ad X :
E((X′X
)−1X′y)=
(X′X
)−1X′(Xβ + u) =
=(X′X
)−1X′Xβ+E(
(X′X
)−1Xu)=
= β+E(X′X
)−1XE(u|X) =β
per la correttezza di Q(b)T−1−p si procede (con-
dizionatamente ad X) notando che :
11
E (Q(b)) = E(y′ (IT−M)y
)=
= E(traccia(y′ (IT−M)y)
)=
= E(traccia (IT−M)yy′) = traccia((IT−M)E(yy′) =
= traccia((IT−M) (σ2I + Xββ′X′
)=
= traccia((IT−M) (σ2I
)=
= σ2(traccia (IT )−traccia(M)) = (T − 1− p)σ2
dove l’ultima uguaglianza deriva da:
traccia(M) = traccia(X(X′X
)−1X′) =
= traccia((X′X
)−1X′X) =
= traccia(Ip+1) = p + 1
12
quindi
s2 =Q(b)
T − 1− p
e uno stimatore corretto per σ2
matrice varianze covarianze deicoeff. di reg. per X fissato
13
Vogliamo trovare la matrice varianze covari-anze:
V ar(β) = E(b− β)(b− β)′
Notiamo innanzitutto che:
b− β =(X′X
)−1X′ (Xβ + u)−β =
=(X′X
)−1X′u
e che E(uu′) = σ2IT per le assunzioni di in-dipendenza e omoschedasticita. Quindi:
E(b− β)(b− β)′ =(X′X
)−1X′σ2ITX
(X′X
)−1=
= σ2(X′X
)−1
Inoltre da b− β =(X′X
)−1 X′u dalla Assunzionedi Normalita, dalla proprieta di correttezza edal precedente risultato deriva che le compo-nenti bi − βi di b− β sono v.c. normali convalore atteso nullo e varianza σ2cii con cii el-emento della iesima riga e iesima colonna di(X′X
)−1 .
14
DEFINIZIONE DI Variabile Casuale Multi-
normale
Sia z = (z1, z2, ...., zT )′ un vettore di T normali
standardizzate indipendenti. La variabile ca-
suale vettoriale:
w = µ + L′z
e una variabile casuale multinormale di dimen-
sione T con valore atteso µ e matrice varianze
covarianze Ω = L′L.
Se Ω e diagonale le componenti di w sono
stocasticamente indipendenti.
Conseguenza:Cw = Cµ + CL′z e una variabile
casuale multinormale con valore atteso Mµ e
matrice varianze covarianze Ω = C(L′L
)C′.
15
fatto importante: la densita congiunta di
una una variabile casuale multinormale con
valore atteso µ e matrice varianze covarianze
Ω e:
f(w;µ,Ω)=
=1
(2π det(Ω))T/2exp
−
1
2(w − µ)′Ω−1 (w − µ)
16
esempio: nel modello di regressione classico
normale:
u = 0+(σI) z
e un vettore multinormale con con valore at-
teso µ = 0 e matrice varianze covarianze Ω =
σ2I.
esempio:b− β =(X′X
)−1 X′u =(X′X
)−1 X′ (σI) z
e un vettore multinormale con con valore at-
teso µ = 0 e matrice varianze covarianze(X′X
)−1 σ2.
Piu in generale la trasformazione lineare C (b− β)
e una variabile casuale multinormale con vet-
tore dei valori attesi nullo e matrice varianze
covarianze
σ2C(X′X
)−1C′
caso rilevante : C = x∗ . Perche?17
INFERENZA
Problemi di stima intervallare e verifica ipotesi
concernenti singli coefficienti di regressione βi
sono risolti a partire dai seguenti risultati (di-
mostrazione omessa) dipendenti in linea di-
retta dalla ipotesi di normalita indipendenza e
identica distribuzione degli errori
18
TESTS DI WALD
1-La variabile casuale
bi − βi√s2cii
e un variabile casuale pivotale di Student con
T − 1− p gradi di liberta.
2-Sotto l’ipotesi nulla Cβ = c relativa a v vin-
coli lineari:
W =1
v(Cb− c)′
[s2C
(X′X
)−1C′]−1
(Cb− c)
e una variabile casuale di tipo F con v e T−1−p
gradi di liberta.
19
PREVISIONE
si vuole prevedere y∗ = x∗′β+u cioe la risposta
in corrispondnza di x∗′. Il migliore previsore e il
valore atteso E(y∗) = x∗′β ( minimizza l’errore
quadratico di previsione E[(y∗ − g(x∗))2
]). Sic-
come i parametri non sono noti si usa il previ-
sore puntuale:x∗′b = x∗′(X′X
)−1 X′y.
Errore quadratico di previsione condizion-
ato ai regressori:
E(y∗ − x∗′(X′X
)−1X′y)2 =
= E(y∗ − x∗′β)2 + E(x∗′β − x∗′b)2 =
= σ2 + σ2x∗′(X′X
)−1x∗
Intervallo di previsione a livello 1-α:
x∗′b± t1−α/2,T−1−p(s2 + s2x∗′
(X′X
)−1x∗)
20
METODO EFFICIENTE PER
PREVISIONE
Supponiamo di dover prevedere
y∗ = X∗β + u∗
le previsioni e gli errori quadratici di previsione
sono ottenuti dalle”regressione aumentata”:
[y0
]=
[X 0X∗ −I
] [βy∗
]+
[uu∗
]lo stimatore di y∗ nel modello precedente for-
nisce le previsioni X∗b richieste e i corrispon-
denti elementi nella matrice varianze covari-
anze dello stimatore di
[βy∗
]le stime degli er-
rori quadratici di previsione (Greene pag.309).
21
Varianza spiegata Varianza Residua Indice
di determinazione Multipla
Somma dei quadrati totale e devianza totale
q2T = y′y
d2T = y′y−T y2
Somma dei quadrati spiegata e devianza spie-
gata
q2S = y′My
d2S = y′My−T y2
Somma dei quadrati residua e devianza residua
(concetti coincidenti)
q2R = y′ (IT −M)y
d2R = y′ (IT −M)y
22
I¯ndice di determinazione multipla centrato, non
centrato e corretto
R2centr =
y′My−T y2
y′y−T y2= 1−
y′ (I−M)y
y′y−T y2
R2nocentr =
y′My
y′y
R2corretto = 1−
y′(I−M)yT−p
y′y−T y2
T−1
= 1−T − 1
T − p(1−R2
centr)
23
CONFRONTO FRA MODELLI
Sia d2R1 la devianza residua del modello con p
regressori e d2R0 la devianza residua del mod-
ello con βi = 0, i = 1,2, ...., v.
la statisticad2R0−d2
R1d2R1
T−1−pv e una F di snedecor
con v e T − 1− p gdl.
Confronto con quanto detto prima!!!!!
24
UN CASO PARICOLARE
yt = β0 + β1xt + ut
X =
1 x11 x2.. ..1 xt
X′X =
[n
∑xt∑
xt∑
x2t
];
(X′X
)−1=
1
n∑
x2t − (
∑xt)
2
[ ∑x2
t −∑
xt−∑
xt n
]
X′y =
[ ∑yt∑
xtyt
]
[b0b1
]=(X′X
)−1X′y =
y − cov(xy)V ar(x) x
cov(xy)V ar(x)
25
UNA APPLICAZIONE IMPORTANTE: ef-
fetto di una nuova condizione sul valore
atteso di una risposta sperimentale.
yt = µ + δ + ut, i = 1,2,3, ....n1(on)
yt = µ + ut, i = n1 + 1, ......, n1 + n2 = n (off)
X =
1 11 1.. ..1 11 01 0.. ..1 0
26
X′X =
[n1 + n2 n1
n1 n1
];
(X′X
)−1=
1
(n1 + n2)n1 − (n1)2
[n1 −n1−n1 n1 + n2
]=
=
1n2
− 1n2
− 1n2
n−11 + n−1
2
X′y =
[ ∑n1 yt∑n11 yt
]=
[n1Mn1 + n2Mn2
n1Mn1
][
b0b1
]=(X′X
)−1X′y =
[Mn2
(Mn1 −Mn2)
]
27
VARIABILI CASUALI PIVOTALI PER
INFERENZA
Stima corretta di σ2
σ2 =
∑n1i=1(xi −Mn1)
2 +∑n2
i=n1+1(xi −Mn2)2
n1 + n2 − 2=
=(n1 − 1)S2
n1+ (n2 − 1)S2
n2
n1 + n2 − 2.
[T1T2
]=
Mn2−µ√
σ2
√n1
(Mn1−Mn2−δ)√σ2(n−11 +n−1
2
)
28
UN PROBLEMA INFERENZIALE
IMPORTANTE
La variabile casuale pivotale T di student con
n1 + n2 − 2 gdl:
(Mn1 −Mn2 − δ0)√σ2(n−11 + n−1
2
)e usata per verificare l’ipotesi H0 : δ = δ0 con-
tro alternative unilaterali e bilaterali.
29
errori correlati e o eteroschedastici
Data una matrice varianze covarianze Ω = σ2L′Linvece che u = 0+(σI) z supponiamo
u = 0+(σL′
)z
per cui
y = Xβ+(σL′
)z
e multinormale di dimensione T con valore at-teso Xβ e matrice varianze covarianze Ω = σ2L′L.
La log verosimiglianza e:
L(β,Ω)=
= −T
2ln(2π det(Ω)−
1
2σ2 (y −Xβ)′Ω−1 (y −Xβ)
Continuando ad usare b =(X′X
)−1 X′y si hache lo stesso e ancora corretto ma che
var(b) = Σ = σ2(X′X
)−1X′ΩX
(X′X
)−1
30
Conseguenze: stimatore corretto ma non piu
efficente (o a minima varianza tra gli stimatori
lineari in assenza di ipotesi di normalita).Inoltre
b− β=(X′X
)−1 X′u adesso e multinormale con
valore atteso nullo e matrice var covar Σ. I
precedenti risultati concernenti il test di Wald
non sono piu validi.
31
Stima con Ω noto
In questo caso massimizzare la verosimiglianza
equivale a minimizzare (metodo minimi quadrati
generalizzati)
QΩ(β) = (y −Xβ)′Ω−1 (y −Xβ)
il minimo si ha per (stimatore minimi quadrati
generalizzato):
b =(X′Ω−1X
)−1X′Ω−1y
ed e :
QΩ(b) =(y −Xb
)′Ω−1
(y −Xb
)
32
Log-Verosimiglianza concentrata
L(σ2) = −T
2ln(2πσ2)−
1
2σ2QΩ(b)
che ha un massimo in s2 = Q(b)T . Questo sti-
matore non e corretto ma lo e...s 2 = Q(b)
T−1−p.
I risultati inerenti il test di Wald continuano a
valere per b utilizzando pero(X′Ω−1X
)−1al
posto di(X′X
)−1 e...s 2 al posto di s2.
33
IL PROBLEMA E CHE Ω in genere non e
nota e deve essere stimata. Se al posto di Ω si
utilizza uno stimatore consistente (da trovare)
Ω i risultati precedenti continuano a valere per...b =
(X′Ω−1X
)−1X′Ω−1y con le sostituzioni:
• la corretezza diventa correttezza asintotica
• la normalita di b− β diventa normalita as-
intotica
• bi−βi√...s 2cii
e asintoticamente normale (qui cii
e un elemento della diagonale principale di(X′Ω−1X
)−1.
34
•
(Cb− c)′[...s 2C
(X′Ω−1X
)−1C′]−1
(Cb− c)
e asintoticamente una chi quadro con v
gradi di liberta
Discussione dei casi rilevanti:
• errori eteroschedastici Ω diagonale
• errori autocorrelati di tipo AR(1) o AR(m)
35
Elementi di teoria asintotica
Quanto sopra detto perche nei casi di regres-
sori stocastici o di errori non indipendenti o
eteroschedastici o in assenza della ipotesi di
normalita si ricorre a risultati asintotici.
Notiamo che
b = β+(1
TX′Ω−1X
)−1 1
TX′Ω−1u
se p lim(1T X′Ω−1X
)= Q e una matrice def.
positiva e se plim1T X′Ω−1u = 0 lo stimatore
dei minimi quadrati generalizzati e asintotica-
mente corretto e consistente inoltre se 1T X′Ω−1u
e asintoticamente normale allora lo e anche
lo stimatore b. Analoghi discorsi valgono per...b =
(1T X′Ω−1X
)−1 1T X′Ω−1y.
36
ERRORI E REGRESSORI CORRELATI
Supponiamo che la A4bisbis non sia valida
E(u|X) 6=0
In questo caso non si ha corretezza infatti:
E((X′X
)−1X′y)=
E(X′X
)−1X′(Xβ + u) =
=(X′X
)−1X′Xβ+E
E((X′X
)−1Xu)|X
=
=β+E(X′X
)−1XE(u|X) 6=β
Discussione di casi rilevanti
• errori correlati in presenza di variabili ritar-
date
• modelli ad equazioni simultanee
37
COMPONENTE STOCASTICA AR(1)
ut = ρut−1 + zt
dove le zt sono normali indipendenti di valore
atteso nullo e varianza σ2Z.
Assunzione di stazionarieta:
V ar(ut) = σ20, Cov(ut, ut′) = σ|t−t′|
dalla assunzione di stazionarieta si ricava
σ20 = ρ2σ2
0 + σ2Z
e quindi
σ20 =
σ2Z
1− ρ2
Quindi la stazionarieta implica che ρ2 < 1.
Viceversa si dimostra che ρ2 < 1 implica la
stazionarieta.
38
Se ρ2 = 1 il processo non stazionario e chiam-
ato random walk ( processo autoregressivo con
una radice unitaria).
Applicando ricorsivamente la definizione ut =
ρut−1 + zt si ottiene
ut = ρsut−s +s−1∑i=0
ρizt−i
da cui
Cov(ut, ut−s) = σs = ρsvar(ut−s) = ρs σ2Z
1− ρ2
e quindi
σ2Ω =σ2
Z
1− ρ2
1 : ρ ρ2 ρ3 ... ρT−1
ρ 1 ρ ρ2 ... ρT−2
ρ2 ρ 1 ρ ... ρT−3
... ... ... ... ... ...
... ... ... ... ... ρ
ρT−1 ρT−2 ρT−3 ... ρ 1
39
usando la stima di ρ
r =
∑Tt=2 etet−1∑T
t=1 e2t
(gli et sono residui ottenuti applcando i min-
imi quadrati ordinari) si ottiene lo stimatore:...b =
(1T X′Ω−1X
)−1 1T X′Ω−1y.
40
Oppure si puo usare il metodo di massima verosimiglianza.
Lo stimatore di massima verosimiglianza b e
ottenuto massimizzando la log verosimiglianza:
logL1 = log f(y1)+log f(y2|y1)+log(f(y3|y2)+...
Calcolo di f(y1): da y1 = x′1β+u1 con u1 nor-
male di valore atteso nullo e varianzaσ2
Z1−ρ2 si
ha :
f(y1) =1√
2πσ2
Z1−ρ2
exp
−(y1 − x′1β
)22
σ2Z
1−ρ2
Calcolo di f(yt|yt−1) : sottraendo ρ · yt−1 =
ρ(x′t−1β+ut−1
)da yt = x′tβ+ρut−1 + zt si ha
yt − ρ · yt−1 −(x′tβ−ρx′t−1β
)= zt
Si ricordi che zt e normale con valore atteso
nullo e varianza σ2Z.
41
Quindi (!!!!!!):
f(yt|yt−1) =
=1√
2πσ2Z
exp
−(yt − ρ · yt−1 − x′tβ+ρx′t−1β
)22σ2
Z
42
Quindi a meno di costanti:
logL1 = −T
2lnσ2
Z +1
2ln(1− ρ2)+
−1
2σ2Z
[√1− ρ2
(y1 − x′1β
)]2+
−1
2σ2Z
T∑t=2
(yt − ρ · yt−1 − x′tβ+ρx′t−1β
)2.
La matrice varianze covarianze degli stimatori
dei coefficienti di regressione e
σ2Z
(X′Ω−1X
)−1
che va stimata sostituendo a σ2Z e ρ le stime
di massima verosimiglianza.
43
L’ipotesi ρ = 0 puo essere verificata o con il
Tet di Durbin Watson (vedi Greene pg 538)
d =
∑Tt=2(et − et−1)
2∑Tt=1 e2t
o mediante il test del rapporto delle massime
verosimiglianze:
2(logL1 − logL0)
che ha una distr. asint chi quadro con un gdl.
E’ possibile in generale considerare errori AR(p):
ut = θ1ut−1 + θ2ut−2 + ... + θput−p + zt
44
P¯revisione passo 1 in presenza di errori AR(1)
Si deve prevedere yT+1 = xT+1β + ρuT + zT+1
Ora da yT+1− ρyT =(xT+1 − ρxT
)β + zT+1 si
ricava
yT+1 = xT+1β + ρ(yT − xTβ) + zT+1
da cui si ricava il previsore passo uno:
E(yT+1|YT ) = xT+1β + ρ(yT − xTβ)
e quindi la previsione
πT+1 = xT+1b+ρ(yT − xTb).
Analogamente la previsione a passo n e
πT+n = xT+nb+ρn(yT − xTb).
La stima dell’errore quadratico della previsionepasso uno e:
σ20 +(xT+1 − ρxT
)′ [σ2
Z
(X′Ω−1X
)−1+
σ20
T
] (xT+1 − ρxT
)45