Statistik Lektion 4

StatistikLektion 4

Variansanalyse

Modelkontrol

Eksempel

Y : Forbrug af gas (gas) X : Udetemperatur (temp)

Scatterplot →

SPSS:

Estimerede model:

Både skæring (a) og hældning (b1) er signifikante! Fortolkning?

xy 290.0486,5ˆ

Spørgsmål: Er der sammen-hæng mellem udetempe-raturen og forbruget af gas?

R2 = 0.467

Eksempel – nu med isolering! Y : Forbrug af gas, skala (gas) XTemp : Udetemperatur, skala (temp)

XIsolering: {Før, Efter}, kategorisk (insulate)

Omkod XIsolering til binær dummy variabel XFør

XFør = 1 hvis XIsolering = Før

XFør = 0 hvis XIsolering = Efter

Model: FørFørTempTemp xxY 0

Når XIsolering = Før

Når XIsolering = Efter

To linjer med forskellig skæringspunkter! Før angiver forskellen i skæringspunkt.

TempTemp

FørTempTemp

x

xY 0

Fortolkning af model

TempTempFør

FørTempTemp

x

xY 1

To regressionslinjer med forskellige skæringer, men samme hældning

X1

Y

Linje for XFør=1

Linje for XFør=0

a

a + bFør

Eksempel og SPSS SPSS: Som før, dog er ’Insulate’ tilføjet ’Fixed factor’

Som ventet er F-testet stadig signifikant. Som ventet er R2 vokset – med nye variable kan

modellen aldrig forklare mindre end før. Bemærk at R2 er meget større!

Estimater

Estimeret model:

Prædikteret gas-forbrug for et hus før det isolering når temperatur er 7o (xTemp = 7 og XFør=1):

Eksempel og SPSS

FørTemp xxy 565,1337,0986,4ˆ

192,41565,17337,0986,4

Vekselvirkning / Interaktion

Vi kan introducere en vekselvirkning mellem kvalitative og kvantitative variable.

Y, XTemp og XFør er som før.

Introducer: XTemp,Før = XTemp∙XFør

Model FørTempFørTempFørFørTempTemp xxxY ,,

),0(~ 2 N

Fortolkning Når XIsolering = Før:

Når XIsolering = Efter:

bTemp,Før beskriver forskellen i hældningen mellem de to regressionslinjer.

TempTemp

TempFørTempFørTempTemp

x

xxxYE

00| ,

TempFørTempTempFør

TempFørTempFørTempTemp

x

xxxYE

,

, 11|

SPSS Hoved-effekt: ”Ensom” variabel Interaktionsled: Produkt af to eller flere variable I SPSS: Under ’Model’ angiv hoved-effekter og

interaktionsled. Indsæt altid hoved-effekter først!

Scatterplot → Estimater

Estimeret model:

FørTempFørTemp xxxy ,115,0130,2278.0724,4ˆ

Variansanalyse (ANOVA )

Setup: Kun kategoriske forklarende variable

Eksempel: Y: Månedlige forbrug (Amount spent - amtspend) X1: Shoppestil (Shopping style - style)

Hver anden uge: Biweekly (B) Hver uge: Weekly (W) Ofte: Often (O)

Spørgsmål: Påvirker ’style’ forbruget?

Analysis of Variance

Grafisk overblik

Omkodning vha. Dummies For at kunne anvende en MLR model må den kategoriske

style variabel omkodes til dummy variable: To binære dummy variable: XB og XW

Bemærk: k kategorier omkodes til k-1 dummy variable Model:

Style XB XW

Biweekly 1 0

Weekly 0 1

Often 0 0

WWBB xxY

Hypotesen Model:

E[Y | Style = B] = a + bB

E[Y | Style = W] = a + bW

E[Y | Style = O] = a

Bemærk: bB og bW angiver hvordan Bi-weekly og Weekly adskiller sig fra Often. Often er referencekategori.

Hypotese: Middelværdien er den samme for alle styles: H0: bB = bW = 0 H1: bB 0 og/eller bW 0

Afgøres vha. et F-test.

WWBB xxY

SPSS

Fortolkning?

a

bB

bW

To-sidet Variansanalyse

Ide: Tage højde for køn X2: Køn (Mand/Kvinde) (Gender - gender) Omkodes til dummy variabel: XM = 1 hvis X2 = Mand

Model:

Tester to nul-hypoteser: H0: bB = bW = 0 (Ingen effekt af style)

H0: bM = 0 (Ingen effekt af gender)

MMWWBB xxxY

Interaktion?

Er der en vekselvirkning mellem gender og style?

Model med Interaktion Model:

Hypotese: Ingen interaktion H0: bBM = bWM = 0

Hypotese: Ingen hovedeffekt af style H0: bB = bW = 0

Hypotese: Ingen hovedeffekt af gender H0: bM = 0

Det hierarkiske princip: Det giver ikke mening at teste hovedeffekter, når de indgår

i en interaktion.

MWWMMBBMMMWWBB xxxxxxxY

SPSS

Bemærk: Hoved-effekter før interaktioner!

SPSS

Ifølge det hierarkiske princip er det kun test af interaktionen, der giver mening.

Konklusion?

Estimerede model

Estimerede model er: = 405,727 + 2,048 XM

-61,751 XB -44,006 XW +

67,042 XBM + 77,196 XWM

y

Modelform Modellen for forbrug forklaret ved shoppe-stil og køn kan

altså skrives som

Her er xB, xW og xM dummy variable.

At skrive formlen op kan hurtigt blive uoverskueligt. Modellens modelform kan skrives som

Forbrug = Stil + Køn + Stil*Køn

I forbindelse med analyse eller fortolkning af model-parametre er det stadig nyttigt at skrive den matematiske formel op.

MWWMMBBMMMWWBB xxxxxxxY

Modelkontrol - Motivation

Vores konklusioner om variables vigtighed baseres på p-værdi. p-værdien er en ”halesandsynlighed” i en fordeling, fx F-

fordelingen. F-fordelingen baserer sig på antagelser om at fejlleddet

e er normalfordelt og har konstant varians (homoskedastisk).

Med andre ord: For at kunne stole på vores konklusioner, skal vi checke at antagelserne om normalfordelte og homoskedasktiske fejlled passer!

Residual I den sande model har vi

Det kan vi skrive om til

Residualet, ei, er derfor et estimat af fejlleddet:

Da ei’erne er normalfordelte bør ei’erne også være det (hvis modellen da ellers er korrekt).

]|[11

XYE

xxY kk

]|[ XYEY

iii yye ˆ

Modelkontrol For at kunne stole på test og estimater skal vi sikre os, at

modellens antagelser er overholdt!

Antagelse: Middelværdi-strukturen i modellen er

Kan være svært at checke direkte, hvis vi har mange forklarende variable.

Hvis middelværdi-strukturen i modellen er korrekt, så bør middelværdien af ei’erne være ca. nul uanset værdien af . ’erne eller x’erne.

Grafisk check: plot af af ei mod . iy

iy

kk xxXYE 11)|(

Modelkontrol Antagelse: Fejlleddene e1,…, en uafhænige?

Der må ikke vær nogen systematisk sammenhæng mellem ei’erne og ’erne eller x’erne.

Grafisk check: Et plot at ei mod eller x.

Antagelse: Fejlleddene e1,…, en ~ N(0,s2)? Hvis sandt regner vi med at ei’erne er cirka

normalfordelte. Et plot at ei mod kan afsløre om variansen er konstant

(homoskedatiske fejlled). Et histogram eller QQ-plot kan afsløre om ei’erne er

normalfordelte

iy

iy

iy

Residualplot

y ellerx ˆ0

Residualer

Homoskedastisk: Residualerne ser ud til at variere ufahængigt af hinanden og x (eller ).

0

Residualer

Det buede mønster indikerer en underlæggende ikke-lineær sammenhæng.

0

Residualer

Residualerne udviser lineær trend med tiden (eller en anden variabel vi ikke har brugt). Dette indikerer at tid skulle inkluderes i modellen.

Tid

0

Residualer

Heteroskedastisk: Variansen for residualerne ændrer sig når x ændrer sig.

y ellerx ˆ

y ellerx ˆ

٪

٪

٪

√

y

Eksempel: Kriminalitet og Urbanisering Data for n = 67 distrikter i Florida.

yi = Crime rate xi = Urbanisering

Model:

Hvor ei ~N(0,s2)

ii xy

Residualer i SPSS

I ’Univariate’ vinduet vælges ’Save…’ I ’Save’ vinduet vælges ’Unstandardized’ både under

’Reresiduals’ (ei’erne) og ’Predicted Values’ ( ’erne) .iy

Efter endt regression skaber SPSS to nye søjler i ’Data Editor’, der indeholder residualer (’RES_1’) prædiktioner (’PRE_1’) .

Derefter kan man fx lave scatter plots.

Scatter plot af

residualer (ei’erne) mod ’urbanisering’ (xi’erne).

residualer (ei’erne) mod prædiktionerne ( ’erne) .

Ser jo ganske usystematisk ud med jævn variation!

iy

Histogrammet burde ligne en normalfordeling.Det gør det ikke helt… men det er ikke katestrofalt.

Histogram af residualer

Statistik Lektion 4

Documents

Transcript of Statistik Lektion 4