Statistik Lektion 4

34
Statistik Lektion 4 Variansanalyse Modelkontrol

description

Statistik Lektion 4. Variansanalyse Modelkontrol. Eksempel. Spørgsmål : Er der sammen-hæng mellem udetempe-raturen og forbruget af gas?. Y :Forbrug af gas ( gas ) X : Udetemperatur ( temp ) Scatterplot → SPSS: Estimerede model: - PowerPoint PPT Presentation

Transcript of Statistik Lektion 4

Page 1: Statistik Lektion 4

StatistikLektion 4

Variansanalyse

Modelkontrol

Page 2: Statistik Lektion 4

Eksempel

Y : Forbrug af gas (gas) X : Udetemperatur (temp)

Scatterplot →

SPSS:

Estimerede model:

Både skæring (a) og hældning (b1) er signifikante! Fortolkning?

xy 290.0486,5ˆ

Spørgsmål: Er der sammen-hæng mellem udetempe-raturen og forbruget af gas?

R2 = 0.467

Page 3: Statistik Lektion 4

Eksempel – nu med isolering! Y : Forbrug af gas, skala (gas) XTemp : Udetemperatur, skala (temp)

XIsolering: {Før, Efter}, kategorisk (insulate)

Omkod XIsolering til binær dummy variabel XFør

XFør = 1 hvis XIsolering = Før

XFør = 0 hvis XIsolering = Efter

Model: FørFørTempTemp xxY 0

Page 4: Statistik Lektion 4

Når XIsolering = Før

Når XIsolering = Efter

To linjer med forskellig skæringspunkter! Før angiver forskellen i skæringspunkt.

TempTemp

FørTempTemp

x

xY 0

Fortolkning af model

TempTempFør

FørTempTemp

x

xY 1

Page 5: Statistik Lektion 4

To regressionslinjer med forskellige skæringer, men samme hældning

X1

Y

Linje for XFør=1

Linje for XFør=0

a

a + bFør

Page 6: Statistik Lektion 4

Eksempel og SPSS SPSS: Som før, dog er ’Insulate’ tilføjet ’Fixed factor’

Som ventet er F-testet stadig signifikant. Som ventet er R2 vokset – med nye variable kan

modellen aldrig forklare mindre end før. Bemærk at R2 er meget større!

Page 7: Statistik Lektion 4

Estimater

Estimeret model:

Prædikteret gas-forbrug for et hus før det isolering når temperatur er 7o (xTemp = 7 og XFør=1):

Eksempel og SPSS

FørTemp xxy 565,1337,0986,4ˆ

192,41565,17337,0986,4

Page 8: Statistik Lektion 4

Vekselvirkning / Interaktion

Vi kan introducere en vekselvirkning mellem kvalitative og kvantitative variable.

Y, XTemp og XFør er som før.

Introducer: XTemp,Før = XTemp∙XFør

Model FørTempFørTempFørFørTempTemp xxxY ,,

),0(~ 2 N

Page 9: Statistik Lektion 4

Fortolkning Når XIsolering = Før:

Når XIsolering = Efter:

bTemp,Før beskriver forskellen i hældningen mellem de to regressionslinjer.

TempTemp

TempFørTempFørTempTemp

x

xxxYE

00| ,

TempFørTempTempFør

TempFørTempFørTempTemp

x

xxxYE

,

, 11|

Page 10: Statistik Lektion 4

SPSS Hoved-effekt: ”Ensom” variabel Interaktionsled: Produkt af to eller flere variable I SPSS: Under ’Model’ angiv hoved-effekter og

interaktionsled. Indsæt altid hoved-effekter først!

Page 11: Statistik Lektion 4

Scatterplot → Estimater

Estimeret model:

FørTempFørTemp xxxy ,115,0130,2278.0724,4ˆ

Page 12: Statistik Lektion 4

Variansanalyse (ANOVA )

Setup: Kun kategoriske forklarende variable

Eksempel: Y: Månedlige forbrug (Amount spent - amtspend) X1: Shoppestil (Shopping style - style)

Hver anden uge: Biweekly (B) Hver uge: Weekly (W) Ofte: Often (O)

Spørgsmål: Påvirker ’style’ forbruget?

Analysis of Variance

Page 13: Statistik Lektion 4

Grafisk overblik

Page 14: Statistik Lektion 4

Omkodning vha. Dummies For at kunne anvende en MLR model må den kategoriske

style variabel omkodes til dummy variable: To binære dummy variable: XB og XW

Bemærk: k kategorier omkodes til k-1 dummy variable Model:

Style XB XW

Biweekly 1 0

Weekly 0 1

Often 0 0

WWBB xxY

Page 15: Statistik Lektion 4

Hypotesen Model:

E[Y | Style = B] = a + bB

E[Y | Style = W] = a + bW

E[Y | Style = O] = a

Bemærk: bB og bW angiver hvordan Bi-weekly og Weekly adskiller sig fra Often. Often er referencekategori.

Hypotese: Middelværdien er den samme for alle styles: H0: bB = bW = 0 H1: bB 0 og/eller bW 0

Afgøres vha. et F-test.

WWBB xxY

Page 16: Statistik Lektion 4

SPSS

Fortolkning?

a

bB

bW

Page 17: Statistik Lektion 4

To-sidet Variansanalyse

Ide: Tage højde for køn X2: Køn (Mand/Kvinde) (Gender - gender) Omkodes til dummy variabel: XM = 1 hvis X2 = Mand

Model:

Tester to nul-hypoteser: H0: bB = bW = 0 (Ingen effekt af style)

H0: bM = 0 (Ingen effekt af gender)

MMWWBB xxxY

Page 18: Statistik Lektion 4

SPSS

Page 19: Statistik Lektion 4

Interaktion?

Er der en vekselvirkning mellem gender og style?

Page 20: Statistik Lektion 4

Model med Interaktion Model:

Hypotese: Ingen interaktion H0: bBM = bWM = 0

Hypotese: Ingen hovedeffekt af style H0: bB = bW = 0

Hypotese: Ingen hovedeffekt af gender H0: bM = 0

Det hierarkiske princip: Det giver ikke mening at teste hovedeffekter, når de indgår

i en interaktion.

MWWMMBBMMMWWBB xxxxxxxY

Page 21: Statistik Lektion 4

SPSS

Bemærk: Hoved-effekter før interaktioner!

Page 22: Statistik Lektion 4

SPSS

Ifølge det hierarkiske princip er det kun test af interaktionen, der giver mening.

Konklusion?

Page 23: Statistik Lektion 4

Estimerede model

Estimerede model er: = 405,727 + 2,048 XM

-61,751 XB -44,006 XW +

67,042 XBM + 77,196 XWM

y

Page 24: Statistik Lektion 4

Modelform Modellen for forbrug forklaret ved shoppe-stil og køn kan

altså skrives som

Her er xB, xW og xM dummy variable.

At skrive formlen op kan hurtigt blive uoverskueligt. Modellens modelform kan skrives som

Forbrug = Stil + Køn + Stil*Køn

I forbindelse med analyse eller fortolkning af model-parametre er det stadig nyttigt at skrive den matematiske formel op.

MWWMMBBMMMWWBB xxxxxxxY

Page 25: Statistik Lektion 4

Modelkontrol - Motivation

Vores konklusioner om variables vigtighed baseres på p-værdi. p-værdien er en ”halesandsynlighed” i en fordeling, fx F-

fordelingen. F-fordelingen baserer sig på antagelser om at fejlleddet

e er normalfordelt og har konstant varians (homoskedastisk).

Med andre ord: For at kunne stole på vores konklusioner, skal vi checke at antagelserne om normalfordelte og homoskedasktiske fejlled passer!

Page 26: Statistik Lektion 4

Residual I den sande model har vi

Det kan vi skrive om til

Residualet, ei, er derfor et estimat af fejlleddet:

Da ei’erne er normalfordelte bør ei’erne også være det (hvis modellen da ellers er korrekt).

]|[11

XYE

xxY kk

]|[ XYEY

iii yye ˆ

Page 27: Statistik Lektion 4

Modelkontrol For at kunne stole på test og estimater skal vi sikre os, at

modellens antagelser er overholdt!

Antagelse: Middelværdi-strukturen i modellen er

Kan være svært at checke direkte, hvis vi har mange forklarende variable.

Hvis middelværdi-strukturen i modellen er korrekt, så bør middelværdien af ei’erne være ca. nul uanset værdien af . ’erne eller x’erne.

Grafisk check: plot af af ei mod . iy

iy

kk xxXYE 11)|(

Page 28: Statistik Lektion 4

Modelkontrol Antagelse: Fejlleddene e1,…, en uafhænige?

Der må ikke vær nogen systematisk sammenhæng mellem ei’erne og ’erne eller x’erne.

Grafisk check: Et plot at ei mod eller x.

Antagelse: Fejlleddene e1,…, en ~ N(0,s2)? Hvis sandt regner vi med at ei’erne er cirka

normalfordelte. Et plot at ei mod kan afsløre om variansen er konstant

(homoskedatiske fejlled). Et histogram eller QQ-plot kan afsløre om ei’erne er

normalfordelte

iy

iy

iy

Page 29: Statistik Lektion 4

Residualplot

y ellerx ˆ0

Residualer

Homoskedastisk: Residualerne ser ud til at variere ufahængigt af hinanden og x (eller ).

0

Residualer

Det buede mønster indikerer en underlæggende ikke-lineær sammenhæng.

0

Residualer

Residualerne udviser lineær trend med tiden (eller en anden variabel vi ikke har brugt). Dette indikerer at tid skulle inkluderes i modellen.

Tid

0

Residualer

Heteroskedastisk: Variansen for residualerne ændrer sig når x ændrer sig.

y ellerx ˆ

y ellerx ˆ

٪

٪

٪

y

Page 30: Statistik Lektion 4

Eksempel: Kriminalitet og Urbanisering Data for n = 67 distrikter i Florida.

yi = Crime rate xi = Urbanisering

Model:

Hvor ei ~N(0,s2)

ii xy

Page 31: Statistik Lektion 4

Residualer i SPSS

I ’Univariate’ vinduet vælges ’Save…’ I ’Save’ vinduet vælges ’Unstandardized’ både under

’Reresiduals’ (ei’erne) og ’Predicted Values’ ( ’erne) .iy

Page 32: Statistik Lektion 4

Efter endt regression skaber SPSS to nye søjler i ’Data Editor’, der indeholder residualer (’RES_1’) prædiktioner (’PRE_1’) .

Derefter kan man fx lave scatter plots.

Page 33: Statistik Lektion 4

Scatter plot af

residualer (ei’erne) mod ’urbanisering’ (xi’erne).

residualer (ei’erne) mod prædiktionerne ( ’erne) .

Ser jo ganske usystematisk ud med jævn variation!

iy

Page 34: Statistik Lektion 4

Histogrammet burde ligne en normalfordeling.Det gør det ikke helt… men det er ikke katestrofalt.

Histogram af residualer