Simpel Lineær Regression
Opsplitning af variationen
Determinations koefficient
Variansanalyse – F-test
Model-kontrol
Opbygning af statistisk model
Specificer modelLigninger og antagelser
Estimer parametre
ModelkontrolEr modellen passende
Anvend modellen
Ja
Nej
Simpel Lineær Regression - repetition
Model:
),0( iid 210 Nxy iiii
Systematisk komponent Stokastisk komponent+
Spørgsmål: ”Afhænger y lineært af x ?”.
Estimation - repetition
Vha. Mindste Kvadraters Metode finder vi regressionslinien
hvor
iiiii xbbyyye 10ˆ
iiii
x
xy
xxXYxbby
xbyb
b
1010
010
11
) |(E afestimat ˆ
afestimat
afestimat SS
SS
xbby 10ˆ
Residual:
Forklaret og uforklaret afvigelse Yi’s afvigelse fra kan opdeles i to.
.Y
X
Y
Y
Y
X
Forklaret afvigelse
Totale afvigelse
Forklaret afvigelse
X
Y
Total og forklaret variation - illustration
Den totale variationses når vi “kigger langs” x-aksen
Den uforklarede variation ses når vi “kigger langs” regressionslinien
Y
X X
Y
Den totale variation
Den totale variation for data er
”Variationen i data omkring datas middelværdi” SST = Sum of Squares Total
)()(1
2Y
n
i i SSyySST
Opslitning af den totale variation Den totale variation kan opslittes:
er den uforklarede variation.
er den forklarede variation.
SSR = Sum of Squares Regression
2
1
2
1
2
1ˆˆ
n
i i
n
i ii
n
i i yyyyyy
2
1ˆ
n
i ii yySSE
2
1ˆ
n
i i yySSR
Total og forklaret variation
Opslitning a variationen
SSRSSESST
yyyyyyn
i i
n
i ii
n
i i
2
1
2
1
2
1ˆˆ
Forklaret Uforklaret Total
Determinations koeffcienten Determinations Koeffcienten: Andelen af den totale
variation, der er forklaret.
Pr definition: 0 ≤ r2 ≤ 1.
Jo tættere r2 er på 1, jo mere af variationen i data er forklaret af modellen.
r2 >0.8 er godt! … r2 meget tæt på 1 er dog mistænkeligt.
SST
SSE
SST
SSESST
SST
SSRr
12
variation Total
variation Forklaret
Eksempler på r2
Y
X
r2 = 0 SSE
SST
Y
X
r2 = 0.90SSE
SST
SSR
Y
X
r2 = 0.50 SSE
SST
SSR
r2 og Korrelationskoefficienten r Den estimerede korrelationskoefficienten
Vis at r2 = r2 …. :-s
Ingredienser:
YX
XY
SSSS
SSr
YSSSST X
XY
SS
SSb 1
SSRSSESST
SST
SSRr 2 XYY SSbSSSSE 1
Variansanalyse-tabel Hypoteser:
H0: β=0 ”Lineær regression er ikke besværet
værd.”
H1: β≠0
Under H0 gælder SSE/2 og SSR/2 er uafhængige og 1~2~ 2
22
2
SSR
nSSE
og
Antal parametre involveret i testen.
Antal observationer minus totale antal parametre.
Variansanalyse - fortsat Af forrige slide følger:
Store værdier af F er kritiske for H0.
Med signifikansniveau α afviser vi H0, hvis
2,1 nFF
2,1~2
1
nF
MSE
MSR
nSSE
SSRF
SPSS output
21
nSSEMSESSRMRE
SSTSSESSR
12
1
nn
MSEMSRF værdip
Sums of Squares Frihedsgrader Mean Sums of Squares
F-teststørresle
403,0250,42256
044,170302 SST
SSRr
403.0635.0 2
Modelkontrol
For at kunne stole på test og estimater skal vi sikre os, at modellens antagelser er overholdt!
Er der en lineær sammenhæng mellem X og Y ?
Er fejlleddene ε1,…, ε1 uafhænige?
Følger fejlleddene ε1,…, ε1 alle N(0,2)?
Bemærk at residualet
er et estimat for εi.
Dvs. ei’erne groft sagt skal opføre sig som uafhængige N(0,2) variable!
Grafisk kontrol: Plot ei’erne mod xi eller .
Residualanalyse
iii yye ˆ
iy
Residualplot
y ellerx ˆ0
Residualer
Homoskedastisk: Residualerne ser ud til at variere ufahængigt af hinanden og x.
0
Residualer
Det buede mønster indikerer en underlæggende ikke-lineær sammenhæng.
0
Residualer
Residualerne udviser lineær trend med tiden (ellern anden variabel vi ikke har brugt). Dette indikerer at tid skulle inkluderes i modellen.
Tid
0
Residualer
Heteroskedastisk: Variansen for residualerne ændrer sig når x ændrer sig.
y ellerx ˆ
y ellerx ˆ
٪
٪
٪
√
TV-Statistik-Køkken Jeg har snydt og lavet mit eget data…
Det ligner reklame/salg data, men med flere observationer (n=30).
Residualer i SPSS
I ’Linear Regression’ vinduet vælges ’Save…’
I ’Save’ vinduet vælges ’Unstandardized’ både under ’Reresiduals’ (ei’erne) og ’Predicted Values’ ( ’erne) .iy
Efter endt regression skaber SPSS to nye søjler i ’Data Editor’, der indeholder residualer (’RES_1’) prædiktioner (’PRE_1’) .
Derefter kan man fx lave scatter plots.
Scatter plot af
residualer (ei’erne) mod ’højde’ (xi’erne) (øverst)
residualer (ei’erne) mod prædiktionerne (^yi’erne) (nederst).
Ser jo ganske usystematisk ud!
Grafiske check for NormalfordelingFor at tjekke holdbarheden af antagelsen om
normalfordelte fejlled: ( εi~N(0,σ2) ) Lav et histogram over residualerne og se
efter om det normalfordelt ud. Lave et normalfordelingsplot (Q-Q plot).
Lav et formelt χ2-test for ”goodness of fit” til en normalfordeling for residualerne
Det ser jo ca normalfordelt ud…
Histogram af residualer
Normalfordelingsplot (Q-Q plot) For hvert residual ei udregner vi
hvor li er antallet af residualer der er mindre end ei,
og mi er antallet af residualer med samme værdi som ei.
For hvert qi finder vi zi , så P(Z≤ zi )= qi , hvor Z~N(0,1).
Hvis ei’erne er normalfordelte vil et plot af (ei, zi) ligge på en ret linie.
1
21
n
mlq ii
i
Normalfordelingsplot (Q-Q plot) Nemmere med en tegning…
Vælg ’Analyze → Descriptive Statistics → Q-Q plots’
Ser helt fint ud – snor sig ikke alt for systematisk omkring linjen.
Prædiktion i SLR-modellen Punktprædiktion:
Hvilken værdi vil y forventeligt antage, hvis x antager en bestemt værdi, fx x=10 ?
Svar:
Dvs. vi prædikterer som bedste bud på punktets værdi.
Bedst ikke at prædiktere for x–værdier for langt fra, hvor vi har data
10ˆ 10 bbyGanske simpelt ved at indsætte x i den estimerede regressions linje!
xbby 10ˆ
Prædiktionsinterval for observationen
X
xx
nsnty
SS
)(11)1(ˆ
2
2
Et (1-α)100% prædiktions interval for Y|X=x er
Hvor s=√MSE.Et (1-α)100% konfidens interval for E(Y|X=x) er
X
xx
nsnty
SS
)(1)1(ˆ
2
2
Prædiktionsbånd
X
Y
Regressions- linie
Prædiktionsbånd for E[Y|X]
Prædiktionsbånd for Y|X
Prædiktionsbåndene fremkommer ved at betragte konfidensintervallets endepunkter som funktion af x.
y
x
SLR og lineær algebra Den simple lineære regressions model siger:
Hvor1,...,n er uafhængige og enfordelte 2~N(0,2) .
Det kan vi skrive som to søjle-vektore!
nnn x
x
x
x
y
y
y
y
10
3310
2210
1110
3
2
1
SLR og lineær algebra
Sådan!
Den sidste vektor kan vi skrive som en sum af vektore…
nnn x
x
x
x
y
y
y
y
10
3310
2210
1110
3
2
1
SLR og lineær algebra Modellen kan skrives vha. matrixer og vektore:
Hvor
Matricen X kaldes Design-matricen.
εXβ
nnnnnnn x
x
x
x
x
x
x
x
x
x
x
x
y
y
y
y
3
2
1
1
03
2
1
3
2
1
13
2
1
0
10
3310
2210
1110
3
2
1
1
1
1
1
1
1
1
1
nnn x
x
x
x
y
y
y
y
3
2
1
1
03
2
1
3
2
1
1
1
1
1
εβXy
SLR og lineær algebra
Regneregel fra lineære algebra:
Estimatet for er:
n
i iy1
2yyT
1
0
β
yXXXb TT 1
1
0
b
b
Top Related