Regressione lineare con un singolo...
Transcript of Regressione lineare con un singolo...
Regressione lineare con un singoloregressore
Eduardo Rossi2
2Universita di Pavia (Italy)
Marzo 2013
Rossi Regressione lineare semplice Econometria - 2013 1 / 45
Outline
1 Introduzione
2 Lo stimatore OLS
3 Esempio
4 Assunzioni OLS
5 Distribuzione campionaria degli stimatori OLS
6 Media e varianza campionaria stimatori OLS
Rossi Regressione lineare semplice Econometria - 2013 2 / 45
Introduzione
Capitolo 4 - Regressione lineare con un singoloregressore
Il modello di regressione lineare semplice
Lo stimatore dei minimi quadrati ordinari (OLS) e la retta di regressionecampionaria
Misure di bonta della regressione campionaria
Le assunzioni dei minimi quadrati
La distribuzione campionaria dello stimatore OLS
Rossi Regressione lineare semplice Econometria - 2013 3 / 45
Introduzione
Regressione lineare con un singolo regressore
La regressione lineare consente di stimare la pendenza della retta diregressione
La pendenza della retta di regressione e l’effetto atteso su Y di unavariazione unitaria in X.
Il nostro scopo ultimo e quello di stimare l’effetto causale su Y di unavariazione unitaria in X - ma per ora ci limitiamo a considerare ilproblema dell’adattamento di una retta ai dati su due variabili Y e X.
Rossi Regressione lineare semplice Econometria - 2013 4 / 45
Introduzione
Regressione lineare con un singolo regressore
Il problema dell’inferenza statistica per la regressione lineare e, a livellogenerale, identico a quello della stima della media o delle differenze tra medie.L’inferenza statistica, o econometrica, sulla pendenza comporta:
1 Stima:
Come tracciare una retta attraverso i dati per stimare la pendenza dellaregressione?Risposta: minimi quadrati ordinari (OLS).Quali sono vantaggi e svantaggi dei minimi quadrati ordinari?
2 Verifica di ipotesi:
Come verificare se la pendenza e zero?
3 Intervalli di confidenza:
Come costruire un intervallo di confidenza per la pendenza?
Rossi Regressione lineare semplice Econometria - 2013 5 / 45
Introduzione
Il modello di regressione lineare
La retta di regressione
TestScore = β0 + β1STR
β1 = pendenza della retta di regressione = ∆Test Score∆STR = variazione nel
punteggio nei test per una variazione unitaria in STR
Perche β0 e β1 sono parametri della “popolazione”?
Vorremmo conoscere il valore di β1.
Non conosciamo β1, perche dobbiamo stimarlo utilizzando i dati.
Rossi Regressione lineare semplice Econometria - 2013 6 / 45
Introduzione
Il modello di regressione lineare
Yi = β0 + β1Xi + ui i = 1, 2, . . . , n
Abbiamo n osservazioni,(Yi, Xi), i = 1, 2, . . . , n
X e la variabile indipendente o regressore
Y e la variabile dipendente
β0 = intercetta
β1 = pendenza
ui = errore della regressione
L’errore di regressione e costituito da fattori omessi. In generale questifattori omessi sono altri fattori, diversi dalla variabile X, che influenzanoY. L’errore di regressione include anche l’errore nella misura di Y.
Rossi Regressione lineare semplice Econometria - 2013 7 / 45
Introduzione
Il modello di regressione lineare: esempio
Osservazioni su Y e X (n = 7); la retta di regressione; l’errore di regressione (iltermine d’errore):
Rossi Regressione lineare semplice Econometria - 2013 8 / 45
Lo stimatore OLS
Lo stimatore OLS
Come possiamo stimare β0 e β1 dai dati?
Si ricordi che lo stimatore OLS di µY : Y e
minm
m∑i=1
(Yi −m)2
Per analogia, ci concentreremo sullo stimatore dei minimi quadrati (OLS)”ordinary least squares” dei parametri ignoti β0 e β1. Lo stimatore OLS edato da
minβ0,β1
m∑i=1
(Yi − β0 − β1Xi)2
Rossi Regressione lineare semplice Econometria - 2013 9 / 45
Lo stimatore OLS
Meccanismo dei minimi quadrati ordinari
La retta di regressione: TestScore = β0 + β1STR
β1 = ??
Rossi Regressione lineare semplice Econometria - 2013 10 / 45
Lo stimatore OLS
Lo stimatore OLS
Lo stimatore OLS minimizza la differenza quadratica media tra i valorireali di Yi e la previsione (“valori previsti”) basata sulla retta stimata.
Questo problema di minimizzazione si puo risolvere con il calcolodifferenziale (App. 4.2).
Il risultato sono gli stimatori OLS di β0 e β1.
Rossi Regressione lineare semplice Econometria - 2013 11 / 45
Lo stimatore OLS
Dato:
S(β0, β1) =
n∑i=1
(Yi − β0 − β1Xi
)2
Problema:{β0, β1} = min
β0,β1
S(β0, β1)
∂S(β0, β1)
∂β0= −2
n∑i=1
(Yi − β0 − β1Xi
)= 0
∂S(β0, β1)
∂β1= −2
n∑i=1
(Yi − β0 − β1Xi
)Xi = 0
nβ0 =
n∑i=1
(Yi − β1Xi
)β0 =
1
n
n∑i=1
(Yi − β1Xi
)= Y − β1X
Rossi Regressione lineare semplice Econometria - 2013 12 / 45
Lo stimatore OLS
n∑i=1
(Yi − (Y − β1X)− β1Xi
)Xi = 0
n∑i=1
(Yi − Y − β1(Xi − X)
)Xi = 0
n∑i=1
(Yi − Y
)Xi − β1
n∑i=1
(Xi − X
)Xi = 0
n∑i=1
(Yi − Y
)Xi −
[ n∑i=1
(Yi − Y
)]X
− β1
n∑i=1
(Xi − X
)Xi + β1
n∑i=1
(Xi − X
)X = 0
β1
n∑i=1
(Xi − X
)2
=n∑i=1
(Yi − Y
)(Xi − X
)
Rossi Regressione lineare semplice Econometria - 2013 13 / 45
Lo stimatore OLS
Lo stimatore OLS
β1 =
∑ni=1(Xi − X)(Yi − Y )∑
i(Xi − X)2=sXYs2X
β0 = Y − β1X
Valori previstiYi = β0 + β1Xi i = 1, 2, . . . , n
Residui:ui = Yi − Yi = Yi − β0 − β1Xi
Rossi Regressione lineare semplice Econometria - 2013 14 / 45
Lo stimatore OLS
Residui
ui = Yi − Yi = Yi − β0 − β1Xi
= Yi − (Y − β1X)− β1Xi
= (Yi − Y )− β1(Xi − X)
ne segue che ∑i
ui =∑i
(Yi − Y )− β1
∑i
(Xi − X)
= 0
Rossi Regressione lineare semplice Econometria - 2013 15 / 45
Esempio
Applicazione ai dati dei punteggi nei test dellaCalifornia
Punteggio nei test - Dimensioni delle classi
β1 = Pendenza stimata = -2,28
β0 = Intercetta stimata = 698,9
Retta di regressione stimata: TestScore = 698, 9− 2, 28 STR
Rossi Regressione lineare semplice Econometria - 2013 16 / 45
Esempio
Interpretazione delle stime di pendenza e intercetta
I distretti con uno studente in piu per insegnante in media ottengonopunteggi nei test inferiori di 2,28 punti.
Cioe ∆TestScore∆STR = −2, 28.
L’intercetta (letteralmente) significa che, secondo questa retta stimata, idistretti con zero studenti per insegnante otterrebbero un punteggio neitest stimato in 698,9. Ma questa interpretazione dell’intercetta non hasenso - estrapola la linea al di fuori dell’intervallo dei dati - in questocaso, l’intercetta non ha significato dal punto di vista economico.
Rossi Regressione lineare semplice Econometria - 2013 17 / 45
Esempio
Valori previsti e residui
Uno dei distretti nella banca dati e Antelope, CA, con STR = 19,33 eTestScore = 657,8
Valore previsto:
YAntelope = 698, 9− 2, 28× 19, 33 = 654, 8
residuo:uAntelope = 657, 8− 654, 8
Rossi Regressione lineare semplice Econometria - 2013 18 / 45
Esempio
Misure di bonta dell’adattamento
Due statistiche di regressione forniscono misure complementari dellabonta dell’adattamento della regressione ai dati:
L’R2 della regressione misura la frazione della varianza di Y spiegatada X; e priva di unita e puo variare tra zero (nessun adattamento) e uno(perfetto adattamento);
L’errore standard della regressione (SER) misura la dimensione diun tipico residuo di regressione nelle unita di Y.
Rossi Regressione lineare semplice Econometria - 2013 19 / 45
Esempio
Risultati della regressione
Dato che
ui = Yi − β0 − β1Xi∑i
ui = 0
Yi = Yi + ui
1
n
∑i
Yi =1
n
∑i
Yi
Y =¯Y
Rossi Regressione lineare semplice Econometria - 2013 20 / 45
Esempio
Risultati della regressione
Inoltre, i residui ui sono ortogonali a Xi
Xiui = Xi(Yi − β0 − β1Xi)∑i
Xiui =∑i
(Yi − β0 − β1Xi)Xi
=∑i
(Yi − (Y − β1X)− β1Xi)Xi
=∑i
(Yi − Y )Xi − β1
∑i
(Xi − X)Xi
con
β1 =
∑ni=1(Yi − Y )Xi∑i(Xi − X)Xi
∑i
Xiui =∑i
(Yi − Y )Xi −∑ni=1(Yi − Y )Xi∑i(Xi − X)Xi
∑i
(Xi − X)Xi = 0
Rossi Regressione lineare semplice Econometria - 2013 21 / 45
Esempio
Risultati della regressione
TSS = total sum of squares
SSR = sum of squared residuals
ESS = Explained sum of squares
TSS =∑i
(Yi − Yi)2 =∑i
(Yi − Yi + Yi − Yi)2
=∑i
(Yi − Yi)2 +∑i
(Yi − Yi)2 + 2∑i
(Yi − Yi)(Yi − Yi)
= SSR+ ESS + 2∑i
uiYi = SSR+ ESS
perche ∑i
uiYi =∑i
ui(β0 + β1Xi)
= β0
∑i
ui + β1
∑i
uiXi = 0
Rossi Regressione lineare semplice Econometria - 2013 22 / 45
Esempio
L’R2 della regressione
L’R2 e la frazione della varianza campionaria di Yi “spiegata” dallaregressione.
Yi = Yi + ui = stima OLS + residuo OLS
Var camp.(Y ) = Var camp.(Yi) + Var camp.(ui)
Somma dei quadrati = SS “spiegata” + SS “residua”
Definizione R2:
R2 =ESS
TSS=
∑i(Yi −
¯Y )2∑
i(Yi − Y )2
R2 = 0 significa ESS = 0
R2 = 1 significa ESS = TSS
0 ≤ R2 ≤ 1
Per la regressione con una singola X, R2 coincide con il quadrato delcoefficiente di correlazione tra X e Y.
Rossi Regressione lineare semplice Econometria - 2013 23 / 45
Esempio
L’errore standard della regressione (SER)
Il SER misura la dispersione della distribuzione di u.
E (quasi) la deviazione standard campionaria dei residui OLS:
SER =
√√√√ 1
n− 2
n∑i=1
(ui − ¯u)2
=
√√√√ 1
n− 2
n∑i=1
u2i
La seconda uguaglianza vale perche
¯u =1
n
n∑i=1
ui = 0
Rossi Regressione lineare semplice Econometria - 2013 24 / 45
Esempio
L’errore standard della regressione (SER)
Il SER ha le unita di u, che sono le unita di Y
misura la “dimensione” media del residuo OLS (l’“errore” medio dellaretta di regressione OLS)
La radice dell’errore quadratico medio (RMSE, Root Mean Squared Error)e strettamente legata al SER:
RMSE =
√√√√ 1
n
n∑i=1
u2i
Misura la stessa cosa del SER: la differenza sta nel fattore 1/n anziche1/(n− 2).
Rossi Regressione lineare semplice Econometria - 2013 25 / 45
Esempio
Nota tecnica
Perche dividere per n− 2 anziche per n− 1?
SER =
√√√√ 1
n− 2
n∑i=1
u2i
La divisione per n− 2 e una correzione dei gradi di liberta - esattamentecome la divisione per n− 1, con la differenza che per il SER sono statistimati due parametri β0 e β1), mentre in s2
Y ne e stato stimato solo unoµY .
Quando n e grande non importa se si utilizza n, n− 1 o n− 2, anche se laformula convenzionale utilizza n− 2 quando c’e un singolo regressore.
Rossi Regressione lineare semplice Econometria - 2013 26 / 45
Esempio
Esempio di R2 e SER
R2 = 0, 05
SER = 18, 6
STR spiega soltanto una piccola frazione della variazione nei punteggi neitest. Ha senso questo? Significa che STR non e una variabile importante?
Rossi Regressione lineare semplice Econometria - 2013 27 / 45
Assunzioni OLS
Le assunzioni dei minimi quadrati
Quali sono, precisamente, le proprieta della distribuzione campionariadello stimatore OLS? Quando lo stimatore sara non distorto? Qual e lasua varianza?
Per rispondere a queste domande dobbiamo fare alcune assunzioni sullarelazione tra Y e X e su come sono ottenute (lo schema dicampionamento)
Queste assunzioni - sono tre - sono note come assunzioni dei minimiquadrati.
vedi Paragrafo 4.4.
Rossi Regressione lineare semplice Econometria - 2013 28 / 45
Assunzioni OLS
Le assunzioni dei minimi quadrati
Yi = β0 + β1Xi + ui i = 1, 2, . . . , n
La distribuzione di ui condizionata a Xi ha media nulla, cioe
E[ui|Xi] = 0
ui rappresenta l’influenza che altri fattori hanno sulla relazione tra Yi eXi. Quando ui > 0, Yi < E[Yi|Xi]; ui < 0, Yi > E[Yi|Xi]. L’assunzioneesclude che i fattori in ui siano correlati con Xi.Questo implica che β1 e non distorto.
{Xi, Yi}, i = 1, . . . , n, sono i.i.d.
Questo e vero se {Xi, Yi} sono ottenuti mediante campionamento casualeQuesto fornisce la distribuzione campionaria di e
Gli outlier in X e/o Y sono rari.
Tecnicamente, X e Y hanno momenti quarti finiti.Gli outlier possono risultare in valori privi di senso di β1.
Rossi Regressione lineare semplice Econometria - 2013 29 / 45
Assunzioni OLS
Assunzione dei minimi quadrati n. 1
Per ogni dato valore di Xi, la media di ui e zero
E[ui|Xi] = 0
Rossi Regressione lineare semplice Econometria - 2013 30 / 45
Assunzioni OLS
Minimi quadrati, Assunzione 1
Consideriamo un esperimento controllato casualizzato ideale:
X e assegnato casualmente a persone (studenti assegnati casualmente aclassi di dimensioni diverse; pazienti assegnati casualmente a trattamentimedici). La casualizzazione e svolta dal computer - senza utilizzareinformazioni sull’individuo.
Poiche X e assegnata casualmente, tutte le altre caratteristiche individuali- gli aspetti riassunti da ui - sono distribuite indipendentemente da X,percio u e X sono indipendenti.
Quindi, in un esperimento controllato casualizzato ideale, E[ui|Xi] = 0(cioe vale l’assunzione 1)
In esperimenti reali, o con dati non sperimentali, dovremo riflettere benesul fatto che E[ui|Xi = x] = 0 valga o meno.
Rossi Regressione lineare semplice Econometria - 2013 31 / 45
Assunzioni OLS
Minimi quadrati, Assunzione 2
{Yi, Xi}, i = 1, 2, . . . , n sono i.i.d.
Questo si verifica automaticamente se l’unita (individuo, distretto) ecampionata mediante campionamento casuale semplice:
Le unita sono scelte dalla stessa popolazione, percio {Xi, Yi} sonoidenticamente distribuite per ogni i = 1, 2, . . . , n.Le unita sono scelte a caso, percio i valori di {Xi, Yi} per unita diversesono indipendentemente distribuite.
I campionamenti non i.i.d. si incontrano principalmente quando siregistrano dati nel tempo per la stessa unita (dati panel e serie temporali).
Rossi Regressione lineare semplice Econometria - 2013 32 / 45
Assunzioni OLS
Minimi quadrati, Assunzione 3
Gli outlier sono rari
E[Y 4] <∞E[X8] <∞
Un outlier e un valore estremo di X o Y
A livello tecnico, se X e Y sono limitate, allora hanno momenti quartifiniti (i punteggi nei test standardizzati soddisfano questa condizione,come anche STR, reddito familiare, ecc.)
La sostanza di questa assunzione e che un outlier puo influenzarefortemente i risultati, percio dobbiamo escludere i valori estremi.
Esaminate i dati! Se avete un outlier, si tratta di un refuso? Nonappartiene al dataset? Perche e un outlier?
Rossi Regressione lineare semplice Econometria - 2013 33 / 45
Assunzioni OLS
Lo stimatore OLS puo essere sensibile a un outlier
Il punto isolato e un outlier in X o Y?
In pratica, gli outlier sono spesso distorsioni dei dati (problemi nellacodifica o nella registrazione). Talvolta sono osservazioni che nondovrebbero stare nel dataset.
Rossi Regressione lineare semplice Econometria - 2013 34 / 45
Distribuzione campionaria degli stimatori OLS
Distribuzione campionaria degli stimatori OLS(Paragrafo 4.5)
Lo stimatore OLS e calcolato da un campione di dati. Un campione diversoporta a un valore diverso di β1. Questa e l’origine della “incertezzacampionaria” di β1. Vogliamo:
quantificare l’incertezza campionaria associata a β1
usare β1 per verificare ipotesi quali β1 = 0.
costruire un intervallo di confidenza per β1 = 0.
Tutti questi punti richiedono di determinare la distribuzione campionariadello stimatore OLS. Due passaggi...
Quadro di riferimento probabilistico per la regressione lineareDistribuzione dello stimatore OLS
Rossi Regressione lineare semplice Econometria - 2013 35 / 45
Distribuzione campionaria degli stimatori OLS
Quadro di riferimento probabilistico per la regressionelineare
Il quadro di riferimento probabilistico per la regressione lineare e riepilogatodalle tre assunzioni dei minimi quadrati.
1 Popolazione
Il gruppo di interesse (esempio: tutti i possibili distretti scolastici)
2 Variabili casuali: Y,X
Esempio: TestScore, STR
3 Distribuzione congiunta di Y,X. Assumiamo:
La funzione di regressione e lineareE[ui|Xi] = 0 (prima assunzione dei minimi quadrati)X, Y hanno momenti quarti finiti non nulli (terza assunzione)
4 La raccolta dei dati mediante campionamento casuale sempliceimplica:
{Yi, Xi}, i = 1, 2, . . . , n sono i.i.d. (seconda assunzione).
Rossi Regressione lineare semplice Econometria - 2013 36 / 45
Distribuzione campionaria degli stimatori OLS
Distribuzione campionaria di β1
β1 ha una distribuzione campionaria.
Qual e E[β1]?
Se E[β1] = β1, allora lo stimatore OLS e non distorto.
Qual e V ar[β1]? (misura di incertezza campionaria)
Dobbiamo derivare una formula per poter calcolare l’errore standard di .
Qual e la distribuzione di in piccoli campioni?
E’ molto complessa, in generale.
Qual e la distribuzione di β1 in grandi campioni?
In grandi campioni, β1 ha distribuzione normale.
Rossi Regressione lineare semplice Econometria - 2013 37 / 45
Media e varianza campionaria stimatori OLS
Media e varianza della distribuzione campionaria di β1
Yi = β0 + β1Xi + ui
Y = β0 + β1X + u
Yi − Y = β1(Xi − X) + (ui − u)
β1 =
∑ni=1(Xi − X)(Yi − Y )∑
i(Xi − X)2
=
∑ni=1(Xi − X)(β1(Xi − X) + (ui − u))∑
i(Xi − X)2
= β1
∑ni=1(Xi − X)(Xi − X)∑
i(Xi − X)2+
∑ni=1(ui − u)(Xi − X)∑
i(Xi − X)2
= β1 +
∑ni=1(ui − u)(Xi − X)∑
i(Xi − X)2
β1 − β1 =
∑ni=1(ui − u)(Xi − X)∑
i(Xi − X)2
Rossi Regressione lineare semplice Econometria - 2013 38 / 45
Media e varianza campionaria stimatori OLS
Media e varianza della distribuzione campionaria di β1
Il numeratore:
n∑i=1
(Xi − X)(ui − u) =
n∑i=1
(Xi − X)ui −[ n∑i=1
(Xi − X)]u
=
n∑i=1
(Xi − X)ui − 0 u
=
n∑i=1
(Xi − X)ui
Segue che
β1 − β1 =
∑ni=1(ui − u)(Xi − X)∑
i(Xi − X)2=
∑ni=1(Xi − X)ui∑i(Xi − X)2
Rossi Regressione lineare semplice Econometria - 2013 39 / 45
Media e varianza campionaria stimatori OLS
Media di β1
E[β1]− β1 = E
[∑ni=1(Xi − X)ui∑i(Xi − X)2
]per la legge dei valori attesi iterati:
E[β1]− β1 = E
{E
[∑ni=1(Xi − X)ui∑i(Xi − X)2
|X1, X2, . . . , Xn
]}= E
{∑ni=1(Xi − X)E [ui|X1, X2, . . . , Xn]∑
i(Xi − X)2
}= 0
per l’Assunzione 1, cioe E [ui|X1, X2, . . . , Xn] = E[ui|Xi] = 0.
β1 e non distorto: E[β1] = β1.
Rossi Regressione lineare semplice Econometria - 2013 40 / 45
Media e varianza campionaria stimatori OLS
Varianza di β1
β1 − β1 =
∑ni=1(Xi − X)ui∑i(Xi − X)2
=1n
∑i vi
n−1n s2
X
dovevi = (Xi − X)ui
Se n e grandes2X ≈ σ2
X
e n−1n ≈ 1. Quindi
β1 − β1 ≈1n
∑i vi
σ2X
dato E[β1] = β1
V ar[β1 − β1] = V ar[β1]
V ar[β1] ≈V ar
[1n
∑i vi]
(σ2X)2
Rossi Regressione lineare semplice Econometria - 2013 41 / 45
Media e varianza campionaria stimatori OLS
Varianza di β1
V ar
[1
n
∑i
vi
]= V ar
[1
n
∑i
(Xi − X)ui
]
Per l’assunzione 1:
E
[∑i
(Xi − X)ui
]=∑i
E[(Xi − X)ui
]= 0
Per l’assunzione 2:vi ∼ i.i.d.
Per l’assunzione 3:
V ar[(Xi − X)ui
]= E[(Xi − X)2u2
i ] = σ2v <∞
V ar
[1
n
∑i
(Xi − X)ui
]=
1
n2nσ2
v <∞
Rossi Regressione lineare semplice Econometria - 2013 42 / 45
Media e varianza campionaria stimatori OLS
Varianza di β1
V ar[β1] ≈=1nV ar [vi]
(σ2X)2
=1
n
σ2v
(σ2X)2
E[β1] = β1.
V ar[β1] e inversamente proporzionale a n.
Rossi Regressione lineare semplice Econometria - 2013 43 / 45
Media e varianza campionaria stimatori OLS
Distribuzione asintotica di β1
v =1
n
∑i
vi
v soddisfa le condizioni per l’applicazione dei TLC
v
σv/√n→ N(0, 1)
β1 − β1 =1n
∑i vi
n−1n s2
X
≈1n
∑i vi
V ar[Xi]
V ar[β1] =V ar[v]
[V ar(Xi)]2
=1
n
V ar[vi]
[V ar(Xi)]2
Quindi, per n grande, la distribuzione di β1
β1 ≈ N(β1,
σ2v
n(σ2X)2
)Rossi Regressione lineare semplice Econometria - 2013 44 / 45
Media e varianza campionaria stimatori OLS
Distribuzione asintotica di β1
Anche la distribuzione approssimata di β0 e gaussiana
β0 ≈ N(β0,
V ar[Hiui]
n[E(H2i )]2
)Hi = 1−
[ µXE(X2
i )
]Xi
La distrbuzione congiunta di β0 e β1 e bene approssimata dalla gaussianabivariata.
Rossi Regressione lineare semplice Econometria - 2013 45 / 45