Regressione lineare con un singolo...

Regressione lineare con un singoloregressore

Eduardo Rossi2

2Universita di Pavia (Italy)

Marzo 2013

Rossi Regressione lineare semplice Econometria - 2013 1 / 45

Outline

1 Introduzione

2 Lo stimatore OLS

3 Esempio

4 Assunzioni OLS

5 Distribuzione campionaria degli stimatori OLS

6 Media e varianza campionaria stimatori OLS


Introduzione

Capitolo 4 - Regressione lineare con un singoloregressore

Il modello di regressione lineare semplice

Lo stimatore dei minimi quadrati ordinari (OLS) e la retta di regressionecampionaria

Misure di bonta della regressione campionaria

Le assunzioni dei minimi quadrati

La distribuzione campionaria dello stimatore OLS


Introduzione

Regressione lineare con un singolo regressore

La regressione lineare consente di stimare la pendenza della retta diregressione

La pendenza della retta di regressione e l’effetto atteso su Y di unavariazione unitaria in X.

Il nostro scopo ultimo e quello di stimare l’effetto causale su Y di unavariazione unitaria in X - ma per ora ci limitiamo a considerare ilproblema dell’adattamento di una retta ai dati su due variabili Y e X.


Introduzione

Regressione lineare con un singolo regressore

Il problema dell’inferenza statistica per la regressione lineare e, a livellogenerale, identico a quello della stima della media o delle differenze tra medie.L’inferenza statistica, o econometrica, sulla pendenza comporta:

1 Stima:

Come tracciare una retta attraverso i dati per stimare la pendenza dellaregressione?Risposta: minimi quadrati ordinari (OLS).Quali sono vantaggi e svantaggi dei minimi quadrati ordinari?

2 Verifica di ipotesi:

Come verificare se la pendenza e zero?

3 Intervalli di confidenza:

Come costruire un intervallo di confidenza per la pendenza?


Introduzione

Il modello di regressione lineare

La retta di regressione

TestScore = β0 + β1STR

β1 = pendenza della retta di regressione = ∆Test Score∆STR = variazione nel

punteggio nei test per una variazione unitaria in STR

Perche β0 e β1 sono parametri della “popolazione”?

Vorremmo conoscere il valore di β1.

Non conosciamo β1, perche dobbiamo stimarlo utilizzando i dati.


Introduzione

Il modello di regressione lineare

Yi = β0 + β1Xi + ui i = 1, 2, . . . , n

Abbiamo n osservazioni,(Yi, Xi), i = 1, 2, . . . , n

X e la variabile indipendente o regressore

Y e la variabile dipendente

β0 = intercetta

β1 = pendenza

ui = errore della regressione

L’errore di regressione e costituito da fattori omessi. In generale questifattori omessi sono altri fattori, diversi dalla variabile X, che influenzanoY. L’errore di regressione include anche l’errore nella misura di Y.


Introduzione

Il modello di regressione lineare: esempio

Osservazioni su Y e X (n = 7); la retta di regressione; l’errore di regressione (iltermine d’errore):


Lo stimatore OLS

Lo stimatore OLS

Come possiamo stimare β0 e β1 dai dati?

Si ricordi che lo stimatore OLS di µY : Y e

minm

m∑i=1

(Yi −m)2

Per analogia, ci concentreremo sullo stimatore dei minimi quadrati (OLS)”ordinary least squares” dei parametri ignoti β0 e β1. Lo stimatore OLS edato da

minβ0,β1

m∑i=1

(Yi − β0 − β1Xi)2


Lo stimatore OLS

Meccanismo dei minimi quadrati ordinari

La retta di regressione: TestScore = β0 + β1STR

β1 = ??


Lo stimatore OLS

Lo stimatore OLS

Lo stimatore OLS minimizza la differenza quadratica media tra i valorireali di Yi e la previsione (“valori previsti”) basata sulla retta stimata.

Questo problema di minimizzazione si puo risolvere con il calcolodifferenziale (App. 4.2).

Il risultato sono gli stimatori OLS di β0 e β1.


Lo stimatore OLS

Dato:

S(β0, β1) =

n∑i=1

(Yi − β0 − β1Xi

)2

Problema:{β0, β1} = min

β0,β1

S(β0, β1)

∂S(β0, β1)

∂β0= −2

n∑i=1


)= 0

∂S(β0, β1)

∂β1= −2

n∑i=1


)Xi = 0

nβ0 =

n∑i=1

(Yi − β1Xi

)β0 =

1

n

n∑i=1

(Yi − β1Xi

)= Y − β1X


Lo stimatore OLS

n∑i=1

(Yi − (Y − β1X)− β1Xi

)Xi = 0

n∑i=1

(Yi − Y − β1(Xi − X)

)Xi = 0

n∑i=1

(Yi − Y

)Xi − β1

n∑i=1

(Xi − X

)Xi = 0

n∑i=1

(Yi − Y

)Xi −

[ n∑i=1

(Yi − Y

)]X

− β1

n∑i=1

(Xi − X

)Xi + β1

n∑i=1

(Xi − X

)X = 0

β1

n∑i=1

(Xi − X

)2

=n∑i=1

(Yi − Y

)(Xi − X

)


Lo stimatore OLS

Lo stimatore OLS

β1 =

∑ni=1(Xi − X)(Yi − Y )∑

i(Xi − X)2=sXYs2X

β0 = Y − β1X

Valori previstiYi = β0 + β1Xi i = 1, 2, . . . , n

Residui:ui = Yi − Yi = Yi − β0 − β1Xi


Lo stimatore OLS

Residui

ui = Yi − Yi = Yi − β0 − β1Xi

= Yi − (Y − β1X)− β1Xi

= (Yi − Y )− β1(Xi − X)

ne segue che ∑i

ui =∑i

(Yi − Y )− β1

∑i

(Xi − X)

= 0


Esempio

Applicazione ai dati dei punteggi nei test dellaCalifornia

Punteggio nei test - Dimensioni delle classi

β1 = Pendenza stimata = -2,28

β0 = Intercetta stimata = 698,9

Retta di regressione stimata: TestScore = 698, 9− 2, 28 STR


Esempio

Interpretazione delle stime di pendenza e intercetta

I distretti con uno studente in piu per insegnante in media ottengonopunteggi nei test inferiori di 2,28 punti.

Cioe ∆TestScore∆STR = −2, 28.

L’intercetta (letteralmente) significa che, secondo questa retta stimata, idistretti con zero studenti per insegnante otterrebbero un punteggio neitest stimato in 698,9. Ma questa interpretazione dell’intercetta non hasenso - estrapola la linea al di fuori dell’intervallo dei dati - in questocaso, l’intercetta non ha significato dal punto di vista economico.


Esempio

Valori previsti e residui

Uno dei distretti nella banca dati e Antelope, CA, con STR = 19,33 eTestScore = 657,8

Valore previsto:

YAntelope = 698, 9− 2, 28× 19, 33 = 654, 8

residuo:uAntelope = 657, 8− 654, 8


Esempio

Misure di bonta dell’adattamento

Due statistiche di regressione forniscono misure complementari dellabonta dell’adattamento della regressione ai dati:

L’R2 della regressione misura la frazione della varianza di Y spiegatada X; e priva di unita e puo variare tra zero (nessun adattamento) e uno(perfetto adattamento);

L’errore standard della regressione (SER) misura la dimensione diun tipico residuo di regressione nelle unita di Y.


Esempio

Risultati della regressione

Dato che

ui = Yi − β0 − β1Xi∑i

ui = 0

Yi = Yi + ui

1

n

∑i

Yi =1

n

∑i

Yi

Y =¯Y


Esempio


Inoltre, i residui ui sono ortogonali a Xi

Xiui = Xi(Yi − β0 − β1Xi)∑i

Xiui =∑i

(Yi − β0 − β1Xi)Xi

=∑i

(Yi − (Y − β1X)− β1Xi)Xi

=∑i

(Yi − Y )Xi − β1

∑i

(Xi − X)Xi

con

β1 =

∑ni=1(Yi − Y )Xi∑i(Xi − X)Xi

∑i

Xiui =∑i

(Yi − Y )Xi −∑ni=1(Yi − Y )Xi∑i(Xi − X)Xi

∑i

(Xi − X)Xi = 0


Esempio


TSS = total sum of squares

SSR = sum of squared residuals

ESS = Explained sum of squares

TSS =∑i

(Yi − Yi)2 =∑i

(Yi − Yi + Yi − Yi)2

=∑i

(Yi − Yi)2 +∑i

(Yi − Yi)2 + 2∑i

(Yi − Yi)(Yi − Yi)

= SSR+ ESS + 2∑i

uiYi = SSR+ ESS

perche ∑i

uiYi =∑i

ui(β0 + β1Xi)

= β0

∑i

ui + β1

∑i

uiXi = 0


Esempio

L’R2 della regressione

L’R2 e la frazione della varianza campionaria di Yi “spiegata” dallaregressione.

Yi = Yi + ui = stima OLS + residuo OLS

Var camp.(Y ) = Var camp.(Yi) + Var camp.(ui)

Somma dei quadrati = SS “spiegata” + SS “residua”

Definizione R2:

R2 =ESS

TSS=

∑i(Yi −

¯Y )2∑

i(Yi − Y )2

R2 = 0 significa ESS = 0

R2 = 1 significa ESS = TSS

0 ≤ R2 ≤ 1

Per la regressione con una singola X, R2 coincide con il quadrato delcoefficiente di correlazione tra X e Y.


Esempio

L’errore standard della regressione (SER)

Il SER misura la dispersione della distribuzione di u.

E (quasi) la deviazione standard campionaria dei residui OLS:

SER =

√√√√ 1

n− 2

n∑i=1

(ui − ¯u)2

=

√√√√ 1

n− 2

n∑i=1

u2i

La seconda uguaglianza vale perche

¯u =1

n

n∑i=1

ui = 0


Esempio

L’errore standard della regressione (SER)

Il SER ha le unita di u, che sono le unita di Y

misura la “dimensione” media del residuo OLS (l’“errore” medio dellaretta di regressione OLS)

La radice dell’errore quadratico medio (RMSE, Root Mean Squared Error)e strettamente legata al SER:

RMSE =

√√√√ 1

n

n∑i=1

u2i

Misura la stessa cosa del SER: la differenza sta nel fattore 1/n anziche1/(n− 2).


Esempio

Nota tecnica

Perche dividere per n− 2 anziche per n− 1?

SER =

√√√√ 1

n− 2

n∑i=1

u2i

La divisione per n− 2 e una correzione dei gradi di liberta - esattamentecome la divisione per n− 1, con la differenza che per il SER sono statistimati due parametri β0 e β1), mentre in s2

Y ne e stato stimato solo unoµY .

Quando n e grande non importa se si utilizza n, n− 1 o n− 2, anche se laformula convenzionale utilizza n− 2 quando c’e un singolo regressore.


Esempio

Esempio di R2 e SER

R2 = 0, 05

SER = 18, 6

STR spiega soltanto una piccola frazione della variazione nei punteggi neitest. Ha senso questo? Significa che STR non e una variabile importante?


Assunzioni OLS


Quali sono, precisamente, le proprieta della distribuzione campionariadello stimatore OLS? Quando lo stimatore sara non distorto? Qual e lasua varianza?

Per rispondere a queste domande dobbiamo fare alcune assunzioni sullarelazione tra Y e X e su come sono ottenute (lo schema dicampionamento)

Queste assunzioni - sono tre - sono note come assunzioni dei minimiquadrati.

vedi Paragrafo 4.4.


Assunzioni OLS


Yi = β0 + β1Xi + ui i = 1, 2, . . . , n

La distribuzione di ui condizionata a Xi ha media nulla, cioe

E[ui|Xi] = 0

ui rappresenta l’influenza che altri fattori hanno sulla relazione tra Yi eXi. Quando ui > 0, Yi < E[Yi|Xi]; ui < 0, Yi > E[Yi|Xi]. L’assunzioneesclude che i fattori in ui siano correlati con Xi.Questo implica che β1 e non distorto.

{Xi, Yi}, i = 1, . . . , n, sono i.i.d.

Questo e vero se {Xi, Yi} sono ottenuti mediante campionamento casualeQuesto fornisce la distribuzione campionaria di e

Gli outlier in X e/o Y sono rari.

Tecnicamente, X e Y hanno momenti quarti finiti.Gli outlier possono risultare in valori privi di senso di β1.


Assunzioni OLS

Assunzione dei minimi quadrati n. 1

Per ogni dato valore di Xi, la media di ui e zero

E[ui|Xi] = 0


Assunzioni OLS

Minimi quadrati, Assunzione 1

Consideriamo un esperimento controllato casualizzato ideale:

X e assegnato casualmente a persone (studenti assegnati casualmente aclassi di dimensioni diverse; pazienti assegnati casualmente a trattamentimedici). La casualizzazione e svolta dal computer - senza utilizzareinformazioni sull’individuo.

Poiche X e assegnata casualmente, tutte le altre caratteristiche individuali- gli aspetti riassunti da ui - sono distribuite indipendentemente da X,percio u e X sono indipendenti.

Quindi, in un esperimento controllato casualizzato ideale, E[ui|Xi] = 0(cioe vale l’assunzione 1)

In esperimenti reali, o con dati non sperimentali, dovremo riflettere benesul fatto che E[ui|Xi = x] = 0 valga o meno.


Assunzioni OLS


{Yi, Xi}, i = 1, 2, . . . , n sono i.i.d.

Questo si verifica automaticamente se l’unita (individuo, distretto) ecampionata mediante campionamento casuale semplice:

Le unita sono scelte dalla stessa popolazione, percio {Xi, Yi} sonoidenticamente distribuite per ogni i = 1, 2, . . . , n.Le unita sono scelte a caso, percio i valori di {Xi, Yi} per unita diversesono indipendentemente distribuite.

I campionamenti non i.i.d. si incontrano principalmente quando siregistrano dati nel tempo per la stessa unita (dati panel e serie temporali).


Assunzioni OLS


Gli outlier sono rari

E[Y 4] <∞E[X8] <∞

Un outlier e un valore estremo di X o Y

A livello tecnico, se X e Y sono limitate, allora hanno momenti quartifiniti (i punteggi nei test standardizzati soddisfano questa condizione,come anche STR, reddito familiare, ecc.)

La sostanza di questa assunzione e che un outlier puo influenzarefortemente i risultati, percio dobbiamo escludere i valori estremi.

Esaminate i dati! Se avete un outlier, si tratta di un refuso? Nonappartiene al dataset? Perche e un outlier?


Assunzioni OLS

Lo stimatore OLS puo essere sensibile a un outlier

Il punto isolato e un outlier in X o Y?

In pratica, gli outlier sono spesso distorsioni dei dati (problemi nellacodifica o nella registrazione). Talvolta sono osservazioni che nondovrebbero stare nel dataset.


Distribuzione campionaria degli stimatori OLS

Distribuzione campionaria degli stimatori OLS(Paragrafo 4.5)

Lo stimatore OLS e calcolato da un campione di dati. Un campione diversoporta a un valore diverso di β1. Questa e l’origine della “incertezzacampionaria” di β1. Vogliamo:

quantificare l’incertezza campionaria associata a β1

usare β1 per verificare ipotesi quali β1 = 0.

costruire un intervallo di confidenza per β1 = 0.

Tutti questi punti richiedono di determinare la distribuzione campionariadello stimatore OLS. Due passaggi...

Quadro di riferimento probabilistico per la regressione lineareDistribuzione dello stimatore OLS



Quadro di riferimento probabilistico per la regressionelineare

Il quadro di riferimento probabilistico per la regressione lineare e riepilogatodalle tre assunzioni dei minimi quadrati.

1 Popolazione

Il gruppo di interesse (esempio: tutti i possibili distretti scolastici)

2 Variabili casuali: Y,X

Esempio: TestScore, STR

3 Distribuzione congiunta di Y,X. Assumiamo:

La funzione di regressione e lineareE[ui|Xi] = 0 (prima assunzione dei minimi quadrati)X, Y hanno momenti quarti finiti non nulli (terza assunzione)

4 La raccolta dei dati mediante campionamento casuale sempliceimplica:

{Yi, Xi}, i = 1, 2, . . . , n sono i.i.d. (seconda assunzione).



Distribuzione campionaria di β1

β1 ha una distribuzione campionaria.

Qual e E[β1]?

Se E[β1] = β1, allora lo stimatore OLS e non distorto.

Qual e V ar[β1]? (misura di incertezza campionaria)

Dobbiamo derivare una formula per poter calcolare l’errore standard di .

Qual e la distribuzione di in piccoli campioni?

E’ molto complessa, in generale.

Qual e la distribuzione di β1 in grandi campioni?

In grandi campioni, β1 ha distribuzione normale.


Media e varianza campionaria stimatori OLS

Media e varianza della distribuzione campionaria di β1

Yi = β0 + β1Xi + ui

Y = β0 + β1X + u

Yi − Y = β1(Xi − X) + (ui − u)

β1 =

∑ni=1(Xi − X)(Yi − Y )∑

i(Xi − X)2

=

∑ni=1(Xi − X)(β1(Xi − X) + (ui − u))∑

i(Xi − X)2

= β1

∑ni=1(Xi − X)(Xi − X)∑

i(Xi − X)2+

∑ni=1(ui − u)(Xi − X)∑

i(Xi − X)2

= β1 +

∑ni=1(ui − u)(Xi − X)∑

i(Xi − X)2

β1 − β1 =

∑ni=1(ui − u)(Xi − X)∑

i(Xi − X)2



Media e varianza della distribuzione campionaria di β1

Il numeratore:

n∑i=1

(Xi − X)(ui − u) =

n∑i=1

(Xi − X)ui −[ n∑i=1

(Xi − X)]u

=

n∑i=1

(Xi − X)ui − 0 u

=

n∑i=1

(Xi − X)ui

Segue che

β1 − β1 =

∑ni=1(ui − u)(Xi − X)∑

i(Xi − X)2=

∑ni=1(Xi − X)ui∑i(Xi − X)2



Media di β1

E[β1]− β1 = E

[∑ni=1(Xi − X)ui∑i(Xi − X)2

]per la legge dei valori attesi iterati:

E[β1]− β1 = E

{E

[∑ni=1(Xi − X)ui∑i(Xi − X)2

|X1, X2, . . . , Xn

]}= E

{∑ni=1(Xi − X)E [ui|X1, X2, . . . , Xn]∑

i(Xi − X)2

}= 0

per l’Assunzione 1, cioe E [ui|X1, X2, . . . , Xn] = E[ui|Xi] = 0.

β1 e non distorto: E[β1] = β1.



Varianza di β1

β1 − β1 =

∑ni=1(Xi − X)ui∑i(Xi − X)2

=1n

∑i vi

n−1n s2

X

dovevi = (Xi − X)ui

Se n e grandes2X ≈ σ2

X

e n−1n ≈ 1. Quindi

β1 − β1 ≈1n

∑i vi

σ2X

dato E[β1] = β1

V ar[β1 − β1] = V ar[β1]

V ar[β1] ≈V ar

[1n

∑i vi]

(σ2X)2



Varianza di β1

V ar

[1

n

∑i

vi

]= V ar

[1

n

∑i

(Xi − X)ui

]

Per l’assunzione 1:

E

[∑i

(Xi − X)ui

]=∑i

E[(Xi − X)ui

]= 0

Per l’assunzione 2:vi ∼ i.i.d.

Per l’assunzione 3:

V ar[(Xi − X)ui

]= E[(Xi − X)2u2

i ] = σ2v <∞

V ar

[1

n

∑i

(Xi − X)ui

]=

1

n2nσ2

v <∞



Varianza di β1

V ar[β1] ≈=1nV ar [vi]

(σ2X)2

=1

n

σ2v

(σ2X)2

E[β1] = β1.

V ar[β1] e inversamente proporzionale a n.



Distribuzione asintotica di β1

v =1

n

∑i

vi

v soddisfa le condizioni per l’applicazione dei TLC

v

σv/√n→ N(0, 1)

β1 − β1 =1n

∑i vi

n−1n s2

X

≈1n

∑i vi

V ar[Xi]

V ar[β1] =V ar[v]

[V ar(Xi)]2

=1

n

V ar[vi]

[V ar(Xi)]2

Quindi, per n grande, la distribuzione di β1

β1 ≈ N(β1,

σ2v

n(σ2X)2

)Rossi Regressione lineare semplice Econometria - 2013 44 / 45


Distribuzione asintotica di β1

Anche la distribuzione approssimata di β0 e gaussiana

β0 ≈ N(β0,

V ar[Hiui]

n[E(H2i )]2

)Hi = 1−

[ µXE(X2

i )

]Xi

La distrbuzione congiunta di β0 e β1 e bene approssimata dalla gaussianabivariata.


Regressione lineare con un singolo...

Documents

Transcript of Regressione lineare con un singolo...