MODELLO DI REGRESSIONE LINEARE - UniBG · MODELLO DI REGRESSIONE LINEARE • le ipotesi del modello...

MODELLO DI REGRESSIONELINEARE

• le ipotesi del modello di regressione clas-sico,

• stima con i metodi dei minimi quadrati edi massima verosimiglianza,

• teorema di Gauss-Markov,

• verifica di ipotesi e test di specificazionee adattamento nel modello di regressioneclassico.

• J.D. Hamilton (1995), Econometria delleserie storiche, Monduzzi.

• W. H. Greene (1993), Econometric Analy-sis, Prentice Hall.

1

MODELLO DI REGRESSIONELINEARE

yt = x′tβ + ut

• yt : variabile casuale dipendente

• x′t =[1, xt1, xt2, ..., xtp

]: vettore dei regres-

sori (deterministici o stocastici)

• β′ =[β0, β1,β2, ..., βp

]: vettore dei parametri

• ut : componente stocastica di valore attesonullo

FUNZIONE DI REGRESSIONE

E(yt|xt) = x′tβ

NOTAZIONE MATRICIALE

y = Xβ + u

• X =

x′1

x′2

x′T

matrice TxP (P = p + 1) dei

regressori

• y =

y1y2

yT

vettore delle variabili risposta

• u =

u1u2..

uT

vettore delle componenti sto-

castiche2

ASSUNZIONI DEL MODELLO DI

REGRESSIONE LINEARE CLASSICO

• A0:la funzione di regressione E( y|X) = Xβ

e correttamente specificata

• A1: u e un vettore di T variabili casuali

indipendenti

• A2: le componenti di u sono variabili casu-

ali di valore atteso nullo e varianza σ2(omoschedastiche)

• A3: le componenti di u sono variabili ca-

suali normali

3

• A4: X e una matrice di costanti note (re-

gressori non stocastici)

• A5: le colonne di X sono linearmente in-

dipendenti =⇒ X′X e invertibile

• A4bis: X e una matrice stocastica, u e X

sono stocasticamente indipendenti ovvero

in termini di densita di probabilita: f(u|X) =f(u)

• A4bisbis E(u|X) =E(u)

4

STIMA di β, σ2

Verosimiglianza

Da yt = x′tβ + ut e per le A1, A2, A3, A4

(A4bis) si ha che le yt

sono variabili casuali indipendenti normali con

valore atteso

µt = x′tβ e varianza σ2.

QUINDI ho la verosimiglianza:

L(β, σ2) =T∏

t=1

1√2πσ2

exp−

1

2σ2(yt − x

′tβ)2

e la log verosimiglianza:

L(β, σ2) = −T

2ln(2πσ2)−

1

2σ2

∑t

(yt − x′tβ)2 =

= −T

2ln(2πσ2)−

1

2σ2 (y −Xβ)′ (y −Xβ)

5

se σ2 e noto massimizzare la log verosimiglianza

equivale a minimizzare (CRITERIO DEI MIN-

IMI QUADRATI):

Q(β) = (y −Xβ)′ (y −Xβ)

6

RISULTATO FONDAMENTALE

Q(β) = (y −Xβ)′ (y −Xβ) ha un unico minimo

in

b =(X′X

)−1X′y

e importante notare che:

y −Xb = y −X(X′X

)−1X′y =(IT−M)y

dove M = X(X′X

)−1 X′ e una matrice TxT idem-

potente (M = MM). Quindi anche (IT−M) e

idempotente.

7

Ne consegue

Q(b) = (y −Xb)′ (y −Xb) =

= y′ (IT−M)y = y′y − y′My =

= y′y − y′X(X′X

)−1X′y = y′y − y′Xb

8

Verosimiglianza concentrata

Sostituendo b a β nella log verosimiglianza si

ottiene la log verosimiglianza concentrata:

L(σ2) = −T

2ln(2πσ2)−

1

2σ2Q(b)

che ha un massimo in s2 = Q(b)T .

9

CONCLUDENDO: gli stimatori M.V. sono

s2 =Q(b)

T

b =(X′X

)−1X′y

10

PROPRIETA’ DEGLI STIMATORI

A0 - A4bisbis garantiscono che

E(b) = β

E

(T

T − 1− ps2)

= E

(Q(b)

T − 1− p

)= σ2

E(b) = β e banalmente verificata infatti con-

dizionatamente ad X :

E((X′X

)−1X′y)=

(X′X

)−1X′(Xβ + u) =

=(X′X

)−1X′Xβ+E(

(X′X

)−1Xu)=

= β+E(X′X

)−1XE(u|X) =β

per la correttezza di Q(b)T−1−p si procede (con-

dizionatamente ad X) notando che :

11

E (Q(b)) = E(y′ (IT−M)y

)=

= E(traccia(y′ (IT−M)y)

)=

= E(traccia (IT−M)yy′) = traccia((IT−M)E(yy′) =

= traccia((IT−M) (σ2I + Xββ′X′

)=

= traccia((IT−M) (σ2I

)=

= σ2(traccia (IT )−traccia(M)) = (T − 1− p)σ2

dove l’ultima uguaglianza deriva da:

traccia(M) = traccia(X(X′X

)−1X′) =

= traccia((X′X

)−1X′X) =

= traccia(Ip+1) = p + 1

12

quindi

s2 =Q(b)

T − 1− p

e uno stimatore corretto per σ2

matrice varianze covarianze deicoeff. di reg. per X fissato

13

Vogliamo trovare la matrice varianze covari-anze:

V ar(β) = E(b− β)(b− β)′

Notiamo innanzitutto che:

b− β =(X′X

)−1X′ (Xβ + u)−β =

=(X′X

)−1X′u

e che E(uu′) = σ2IT per le assunzioni di in-dipendenza e omoschedasticita. Quindi:

E(b− β)(b− β)′ =(X′X

)−1X′σ2ITX

(X′X

)−1=

= σ2(X′X

)−1

Inoltre da b− β =(X′X

)−1 X′u dalla Assunzionedi Normalita, dalla proprieta di correttezza edal precedente risultato deriva che le compo-nenti bi − βi di b− β sono v.c. normali convalore atteso nullo e varianza σ2cii con cii el-emento della iesima riga e iesima colonna di(X′X

)−1 .

14

DEFINIZIONE DI Variabile Casuale Multi-

normale

Sia z = (z1, z2, ...., zT )′ un vettore di T normali

standardizzate indipendenti. La variabile ca-

suale vettoriale:

w = µ + L′z

e una variabile casuale multinormale di dimen-

sione T con valore atteso µ e matrice varianze

covarianze Ω = L′L.

Se Ω e diagonale le componenti di w sono

stocasticamente indipendenti.

Conseguenza:Cw = Cµ + CL′z e una variabile

casuale multinormale con valore atteso Mµ e

matrice varianze covarianze Ω = C(L′L

)C′.

15

fatto importante: la densita congiunta di

una una variabile casuale multinormale con

valore atteso µ e matrice varianze covarianze

Ω e:

f(w;µ,Ω)=

=1

(2π det(Ω))T/2exp

−

1

2(w − µ)′Ω−1 (w − µ)

16

esempio: nel modello di regressione classico

normale:

u = 0+(σI) z

e un vettore multinormale con con valore at-

teso µ = 0 e matrice varianze covarianze Ω =

σ2I.

esempio:b− β =(X′X

)−1 X′u =(X′X

)−1 X′ (σI) z

e un vettore multinormale con con valore at-

teso µ = 0 e matrice varianze covarianze(X′X

)−1 σ2.

Piu in generale la trasformazione lineare C (b− β)

e una variabile casuale multinormale con vet-

tore dei valori attesi nullo e matrice varianze

covarianze

σ2C(X′X

)−1C′

caso rilevante : C = x∗ . Perche?17

INFERENZA

Problemi di stima intervallare e verifica ipotesi

concernenti singli coefficienti di regressione βi

sono risolti a partire dai seguenti risultati (di-

mostrazione omessa) dipendenti in linea di-

retta dalla ipotesi di normalita indipendenza e

identica distribuzione degli errori

18

TESTS DI WALD

1-La variabile casuale

bi − βi√s2cii

e un variabile casuale pivotale di Student con

T − 1− p gradi di liberta.

2-Sotto l’ipotesi nulla Cβ = c relativa a v vin-

coli lineari:

W =1

v(Cb− c)′

[s2C

(X′X

)−1C′]−1

(Cb− c)

e una variabile casuale di tipo F con v e T−1−p

gradi di liberta.

19

PREVISIONE

si vuole prevedere y∗ = x∗′β+u cioe la risposta

in corrispondnza di x∗′. Il migliore previsore e il

valore atteso E(y∗) = x∗′β ( minimizza l’errore

quadratico di previsione E[(y∗ − g(x∗))2

]). Sic-

come i parametri non sono noti si usa il previ-

sore puntuale:x∗′b = x∗′(X′X

)−1 X′y.

Errore quadratico di previsione condizion-

ato ai regressori:

E(y∗ − x∗′(X′X

)−1X′y)2 =

= E(y∗ − x∗′β)2 + E(x∗′β − x∗′b)2 =

= σ2 + σ2x∗′(X′X

)−1x∗

Intervallo di previsione a livello 1-α:

x∗′b± t1−α/2,T−1−p(s2 + s2x∗′

(X′X

)−1x∗)

20

METODO EFFICIENTE PER

PREVISIONE

Supponiamo di dover prevedere

y∗ = X∗β + u∗

le previsioni e gli errori quadratici di previsione

sono ottenuti dalle”regressione aumentata”:

[y0

]=

[X 0X∗ −I

] [βy∗

]+

[uu∗

]lo stimatore di y∗ nel modello precedente for-

nisce le previsioni X∗b richieste e i corrispon-

denti elementi nella matrice varianze covari-

anze dello stimatore di

[βy∗

]le stime degli er-

rori quadratici di previsione (Greene pag.309).

21

Varianza spiegata Varianza Residua Indice

di determinazione Multipla

Somma dei quadrati totale e devianza totale

q2T = y′y

d2T = y′y−T y2

Somma dei quadrati spiegata e devianza spie-

gata

q2S = y′My

d2S = y′My−T y2

Somma dei quadrati residua e devianza residua

(concetti coincidenti)

q2R = y′ (IT −M)y

d2R = y′ (IT −M)y

22

I¯ndice di determinazione multipla centrato, non

centrato e corretto

R2centr =

y′My−T y2

y′y−T y2= 1−

y′ (I−M)y

y′y−T y2

R2nocentr =

y′My

y′y

R2corretto = 1−

y′(I−M)yT−p

y′y−T y2

T−1

= 1−T − 1

T − p(1−R2

centr)

23

CONFRONTO FRA MODELLI

Sia d2R1 la devianza residua del modello con p

regressori e d2R0 la devianza residua del mod-

ello con βi = 0, i = 1,2, ...., v.

la statisticad2R0−d2

R1d2R1

T−1−pv e una F di snedecor

con v e T − 1− p gdl.

Confronto con quanto detto prima!!!!!

24

UN CASO PARICOLARE

yt = β0 + β1xt + ut

X =

1 x11 x2.. ..1 xt

X′X =

[n

∑xt∑

xt∑

x2t

];

(X′X

)−1=

1

n∑

x2t − (

∑xt)

2

[ ∑x2

t −∑

xt−∑

xt n

]

X′y =

[ ∑yt∑

xtyt

]

[b0b1

]=(X′X

)−1X′y =

y − cov(xy)V ar(x) x

cov(xy)V ar(x)

25

UNA APPLICAZIONE IMPORTANTE: ef-

fetto di una nuova condizione sul valore

atteso di una risposta sperimentale.

yt = µ + δ + ut, i = 1,2,3, ....n1(on)

yt = µ + ut, i = n1 + 1, ......, n1 + n2 = n (off)

X =

1 11 1.. ..1 11 01 0.. ..1 0

26

X′X =

[n1 + n2 n1

n1 n1

];

(X′X

)−1=

1

(n1 + n2)n1 − (n1)2

[n1 −n1−n1 n1 + n2

]=

=

1n2

− 1n2

− 1n2

n−11 + n−1

2

X′y =

[ ∑n1 yt∑n11 yt

]=

[n1Mn1 + n2Mn2

n1Mn1

][

b0b1

]=(X′X

)−1X′y =

[Mn2

(Mn1 −Mn2)

]

27

VARIABILI CASUALI PIVOTALI PER

INFERENZA

Stima corretta di σ2

σ2 =

∑n1i=1(xi −Mn1)

2 +∑n2

i=n1+1(xi −Mn2)2

n1 + n2 − 2=

=(n1 − 1)S2

n1+ (n2 − 1)S2

n2

n1 + n2 − 2.

[T1T2

]=

Mn2−µ√

σ2

√n1

(Mn1−Mn2−δ)√σ2(n−11 +n−1

2

)

28

UN PROBLEMA INFERENZIALE

IMPORTANTE

La variabile casuale pivotale T di student con

n1 + n2 − 2 gdl:

(Mn1 −Mn2 − δ0)√σ2(n−11 + n−1

2

)e usata per verificare l’ipotesi H0 : δ = δ0 con-

tro alternative unilaterali e bilaterali.

29

errori correlati e o eteroschedastici

Data una matrice varianze covarianze Ω = σ2L′Linvece che u = 0+(σI) z supponiamo

u = 0+(σL′

)z

per cui

y = Xβ+(σL′

)z

e multinormale di dimensione T con valore at-teso Xβ e matrice varianze covarianze Ω = σ2L′L.

La log verosimiglianza e:

L(β,Ω)=

= −T

2ln(2π det(Ω)−

1

2σ2 (y −Xβ)′Ω−1 (y −Xβ)

Continuando ad usare b =(X′X

)−1 X′y si hache lo stesso e ancora corretto ma che

var(b) = Σ = σ2(X′X

)−1X′ΩX

(X′X

)−1

30

Conseguenze: stimatore corretto ma non piu

efficente (o a minima varianza tra gli stimatori

lineari in assenza di ipotesi di normalita).Inoltre

b− β=(X′X

)−1 X′u adesso e multinormale con

valore atteso nullo e matrice var covar Σ. I

precedenti risultati concernenti il test di Wald

non sono piu validi.

31

Stima con Ω noto

In questo caso massimizzare la verosimiglianza

equivale a minimizzare (metodo minimi quadrati

generalizzati)

QΩ(β) = (y −Xβ)′Ω−1 (y −Xβ)

il minimo si ha per (stimatore minimi quadrati

generalizzato):

b =(X′Ω−1X

)−1X′Ω−1y

ed e :

QΩ(b) =(y −Xb

)′Ω−1

(y −Xb

)

32

Log-Verosimiglianza concentrata

L(σ2) = −T

2ln(2πσ2)−

1

2σ2QΩ(b)

che ha un massimo in s2 = Q(b)T . Questo sti-

matore non e corretto ma lo e...s 2 = Q(b)

T−1−p.

I risultati inerenti il test di Wald continuano a

valere per b utilizzando pero(X′Ω−1X

)−1al

posto di(X′X

)−1 e...s 2 al posto di s2.

33

IL PROBLEMA E CHE Ω in genere non e

nota e deve essere stimata. Se al posto di Ω si

utilizza uno stimatore consistente (da trovare)

Ω i risultati precedenti continuano a valere per...b =

(X′Ω−1X

)−1X′Ω−1y con le sostituzioni:

• la corretezza diventa correttezza asintotica

• la normalita di b− β diventa normalita as-

intotica

• bi−βi√...s 2cii

e asintoticamente normale (qui cii

e un elemento della diagonale principale di(X′Ω−1X

)−1.

34

•

(Cb− c)′[...s 2C

(X′Ω−1X

)−1C′]−1

(Cb− c)

e asintoticamente una chi quadro con v

gradi di liberta

Discussione dei casi rilevanti:

• errori eteroschedastici Ω diagonale

• errori autocorrelati di tipo AR(1) o AR(m)

35

Elementi di teoria asintotica

Quanto sopra detto perche nei casi di regres-

sori stocastici o di errori non indipendenti o

eteroschedastici o in assenza della ipotesi di

normalita si ricorre a risultati asintotici.

Notiamo che

b = β+(1

TX′Ω−1X

)−1 1

TX′Ω−1u

se p lim(1T X′Ω−1X

)= Q e una matrice def.

positiva e se plim1T X′Ω−1u = 0 lo stimatore

dei minimi quadrati generalizzati e asintotica-

mente corretto e consistente inoltre se 1T X′Ω−1u

e asintoticamente normale allora lo e anche

lo stimatore b. Analoghi discorsi valgono per...b =

(1T X′Ω−1X

)−1 1T X′Ω−1y.

36

ERRORI E REGRESSORI CORRELATI

Supponiamo che la A4bisbis non sia valida

E(u|X) 6=0

In questo caso non si ha corretezza infatti:

E((X′X

)−1X′y)=

E(X′X

)−1X′(Xβ + u) =

=(X′X

)−1X′Xβ+E

E((X′X

)−1Xu)|X

=

=β+E(X′X

)−1XE(u|X) 6=β

Discussione di casi rilevanti

• errori correlati in presenza di variabili ritar-

date

• modelli ad equazioni simultanee

37

COMPONENTE STOCASTICA AR(1)

ut = ρut−1 + zt

dove le zt sono normali indipendenti di valore

atteso nullo e varianza σ2Z.

Assunzione di stazionarieta:

V ar(ut) = σ20, Cov(ut, ut′) = σ|t−t′|

dalla assunzione di stazionarieta si ricava

σ20 = ρ2σ2

0 + σ2Z

e quindi

σ20 =

σ2Z

1− ρ2

Quindi la stazionarieta implica che ρ2 < 1.

Viceversa si dimostra che ρ2 < 1 implica la

stazionarieta.

38

Se ρ2 = 1 il processo non stazionario e chiam-

ato random walk ( processo autoregressivo con

una radice unitaria).

Applicando ricorsivamente la definizione ut =

ρut−1 + zt si ottiene

ut = ρsut−s +s−1∑i=0

ρizt−i

da cui

Cov(ut, ut−s) = σs = ρsvar(ut−s) = ρs σ2Z

1− ρ2

e quindi

σ2Ω =σ2

Z

1− ρ2

1 : ρ ρ2 ρ3 ... ρT−1

ρ 1 ρ ρ2 ... ρT−2

ρ2 ρ 1 ρ ... ρT−3

... ... ... ... ... ...

... ... ... ... ... ρ

ρT−1 ρT−2 ρT−3 ... ρ 1

39

usando la stima di ρ

r =

∑Tt=2 etet−1∑T

t=1 e2t

(gli et sono residui ottenuti applcando i min-

imi quadrati ordinari) si ottiene lo stimatore:...b =

(1T X′Ω−1X

)−1 1T X′Ω−1y.

40

Oppure si puo usare il metodo di massima verosimiglianza.

Lo stimatore di massima verosimiglianza b e

ottenuto massimizzando la log verosimiglianza:

logL1 = log f(y1)+log f(y2|y1)+log(f(y3|y2)+...

Calcolo di f(y1): da y1 = x′1β+u1 con u1 nor-

male di valore atteso nullo e varianzaσ2

Z1−ρ2 si

ha :

f(y1) =1√

2πσ2

Z1−ρ2

exp

−(y1 − x′1β

)22

σ2Z

1−ρ2

Calcolo di f(yt|yt−1) : sottraendo ρ · yt−1 =

ρ(x′t−1β+ut−1

)da yt = x′tβ+ρut−1 + zt si ha

yt − ρ · yt−1 −(x′tβ−ρx′t−1β

)= zt

Si ricordi che zt e normale con valore atteso

nullo e varianza σ2Z.

41

Quindi (!!!!!!):

f(yt|yt−1) =

=1√

2πσ2Z

exp

−(yt − ρ · yt−1 − x′tβ+ρx′t−1β

)22σ2

Z

42

Quindi a meno di costanti:

logL1 = −T

2lnσ2

Z +1

2ln(1− ρ2)+

−1

2σ2Z

[√1− ρ2

(y1 − x′1β

)]2+

−1

2σ2Z

T∑t=2

(yt − ρ · yt−1 − x′tβ+ρx′t−1β

)2.

La matrice varianze covarianze degli stimatori

dei coefficienti di regressione e

σ2Z

(X′Ω−1X

)−1

che va stimata sostituendo a σ2Z e ρ le stime

di massima verosimiglianza.

43

L’ipotesi ρ = 0 puo essere verificata o con il

Tet di Durbin Watson (vedi Greene pg 538)

d =

∑Tt=2(et − et−1)

2∑Tt=1 e2t

o mediante il test del rapporto delle massime

verosimiglianze:

2(logL1 − logL0)

che ha una distr. asint chi quadro con un gdl.

E’ possibile in generale considerare errori AR(p):

ut = θ1ut−1 + θ2ut−2 + ... + θput−p + zt

44

P¯revisione passo 1 in presenza di errori AR(1)

Si deve prevedere yT+1 = xT+1β + ρuT + zT+1

Ora da yT+1− ρyT =(xT+1 − ρxT

)β + zT+1 si

ricava

yT+1 = xT+1β + ρ(yT − xTβ) + zT+1

da cui si ricava il previsore passo uno:

E(yT+1|YT ) = xT+1β + ρ(yT − xTβ)

e quindi la previsione

πT+1 = xT+1b+ρ(yT − xTb).

Analogamente la previsione a passo n e

πT+n = xT+nb+ρn(yT − xTb).

La stima dell’errore quadratico della previsionepasso uno e:

σ20 +(xT+1 − ρxT

)′ [σ2

Z

(X′Ω−1X

)−1+

σ20

T

] (xT+1 − ρxT

)45

MODELLO DI REGRESSIONE LINEARE - UniBG · MODELLO DI REGRESSIONE LINEARE • le ipotesi del modello...

Documents

Transcript of MODELLO DI REGRESSIONE LINEARE - UniBG · MODELLO DI REGRESSIONE LINEARE • le ipotesi del modello...