Statistik Lektion 4
-
Upload
kathleen-weaver -
Category
Documents
-
view
61 -
download
0
description
Transcript of Statistik Lektion 4
StatistikLektion 4
Variansanalyse
Modelkontrol
Eksempel
Y : Forbrug af gas (gas) X : Udetemperatur (temp)
Scatterplot →
SPSS:
Estimerede model:
Både skæring (a) og hældning (b1) er signifikante! Fortolkning?
xy 290.0486,5ˆ
Spørgsmål: Er der sammen-hæng mellem udetempe-raturen og forbruget af gas?
R2 = 0.467
Eksempel – nu med isolering! Y : Forbrug af gas, skala (gas) XTemp : Udetemperatur, skala (temp)
XIsolering: {Før, Efter}, kategorisk (insulate)
Omkod XIsolering til binær dummy variabel XFør
XFør = 1 hvis XIsolering = Før
XFør = 0 hvis XIsolering = Efter
Model: FørFørTempTemp xxY 0
Når XIsolering = Før
Når XIsolering = Efter
To linjer med forskellig skæringspunkter! Før angiver forskellen i skæringspunkt.
TempTemp
FørTempTemp
x
xY 0
Fortolkning af model
TempTempFør
FørTempTemp
x
xY 1
To regressionslinjer med forskellige skæringer, men samme hældning
X1
Y
Linje for XFør=1
Linje for XFør=0
a
a + bFør
Eksempel og SPSS SPSS: Som før, dog er ’Insulate’ tilføjet ’Fixed factor’
Som ventet er F-testet stadig signifikant. Som ventet er R2 vokset – med nye variable kan
modellen aldrig forklare mindre end før. Bemærk at R2 er meget større!
Estimater
Estimeret model:
Prædikteret gas-forbrug for et hus før det isolering når temperatur er 7o (xTemp = 7 og XFør=1):
Eksempel og SPSS
FørTemp xxy 565,1337,0986,4ˆ
192,41565,17337,0986,4
Vekselvirkning / Interaktion
Vi kan introducere en vekselvirkning mellem kvalitative og kvantitative variable.
Y, XTemp og XFør er som før.
Introducer: XTemp,Før = XTemp∙XFør
Model FørTempFørTempFørFørTempTemp xxxY ,,
),0(~ 2 N
Fortolkning Når XIsolering = Før:
Når XIsolering = Efter:
bTemp,Før beskriver forskellen i hældningen mellem de to regressionslinjer.
TempTemp
TempFørTempFørTempTemp
x
xxxYE
00| ,
TempFørTempTempFør
TempFørTempFørTempTemp
x
xxxYE
,
, 11|
SPSS Hoved-effekt: ”Ensom” variabel Interaktionsled: Produkt af to eller flere variable I SPSS: Under ’Model’ angiv hoved-effekter og
interaktionsled. Indsæt altid hoved-effekter først!
Scatterplot → Estimater
Estimeret model:
FørTempFørTemp xxxy ,115,0130,2278.0724,4ˆ
Variansanalyse (ANOVA )
Setup: Kun kategoriske forklarende variable
Eksempel: Y: Månedlige forbrug (Amount spent - amtspend) X1: Shoppestil (Shopping style - style)
Hver anden uge: Biweekly (B) Hver uge: Weekly (W) Ofte: Often (O)
Spørgsmål: Påvirker ’style’ forbruget?
Analysis of Variance
Grafisk overblik
Omkodning vha. Dummies For at kunne anvende en MLR model må den kategoriske
style variabel omkodes til dummy variable: To binære dummy variable: XB og XW
Bemærk: k kategorier omkodes til k-1 dummy variable Model:
Style XB XW
Biweekly 1 0
Weekly 0 1
Often 0 0
WWBB xxY
Hypotesen Model:
E[Y | Style = B] = a + bB
E[Y | Style = W] = a + bW
E[Y | Style = O] = a
Bemærk: bB og bW angiver hvordan Bi-weekly og Weekly adskiller sig fra Often. Often er referencekategori.
Hypotese: Middelværdien er den samme for alle styles: H0: bB = bW = 0 H1: bB 0 og/eller bW 0
Afgøres vha. et F-test.
WWBB xxY
SPSS
Fortolkning?
a
bB
bW
To-sidet Variansanalyse
Ide: Tage højde for køn X2: Køn (Mand/Kvinde) (Gender - gender) Omkodes til dummy variabel: XM = 1 hvis X2 = Mand
Model:
Tester to nul-hypoteser: H0: bB = bW = 0 (Ingen effekt af style)
H0: bM = 0 (Ingen effekt af gender)
MMWWBB xxxY
SPSS
Interaktion?
Er der en vekselvirkning mellem gender og style?
Model med Interaktion Model:
Hypotese: Ingen interaktion H0: bBM = bWM = 0
Hypotese: Ingen hovedeffekt af style H0: bB = bW = 0
Hypotese: Ingen hovedeffekt af gender H0: bM = 0
Det hierarkiske princip: Det giver ikke mening at teste hovedeffekter, når de indgår
i en interaktion.
MWWMMBBMMMWWBB xxxxxxxY
SPSS
Bemærk: Hoved-effekter før interaktioner!
SPSS
Ifølge det hierarkiske princip er det kun test af interaktionen, der giver mening.
Konklusion?
Estimerede model
Estimerede model er: = 405,727 + 2,048 XM
-61,751 XB -44,006 XW +
67,042 XBM + 77,196 XWM
y
Modelform Modellen for forbrug forklaret ved shoppe-stil og køn kan
altså skrives som
Her er xB, xW og xM dummy variable.
At skrive formlen op kan hurtigt blive uoverskueligt. Modellens modelform kan skrives som
Forbrug = Stil + Køn + Stil*Køn
I forbindelse med analyse eller fortolkning af model-parametre er det stadig nyttigt at skrive den matematiske formel op.
MWWMMBBMMMWWBB xxxxxxxY
Modelkontrol - Motivation
Vores konklusioner om variables vigtighed baseres på p-værdi. p-værdien er en ”halesandsynlighed” i en fordeling, fx F-
fordelingen. F-fordelingen baserer sig på antagelser om at fejlleddet
e er normalfordelt og har konstant varians (homoskedastisk).
Med andre ord: For at kunne stole på vores konklusioner, skal vi checke at antagelserne om normalfordelte og homoskedasktiske fejlled passer!
Residual I den sande model har vi
Det kan vi skrive om til
Residualet, ei, er derfor et estimat af fejlleddet:
Da ei’erne er normalfordelte bør ei’erne også være det (hvis modellen da ellers er korrekt).
]|[11
XYE
xxY kk
]|[ XYEY
iii yye ˆ
Modelkontrol For at kunne stole på test og estimater skal vi sikre os, at
modellens antagelser er overholdt!
Antagelse: Middelværdi-strukturen i modellen er
Kan være svært at checke direkte, hvis vi har mange forklarende variable.
Hvis middelværdi-strukturen i modellen er korrekt, så bør middelværdien af ei’erne være ca. nul uanset værdien af . ’erne eller x’erne.
Grafisk check: plot af af ei mod . iy
iy
kk xxXYE 11)|(
Modelkontrol Antagelse: Fejlleddene e1,…, en uafhænige?
Der må ikke vær nogen systematisk sammenhæng mellem ei’erne og ’erne eller x’erne.
Grafisk check: Et plot at ei mod eller x.
Antagelse: Fejlleddene e1,…, en ~ N(0,s2)? Hvis sandt regner vi med at ei’erne er cirka
normalfordelte. Et plot at ei mod kan afsløre om variansen er konstant
(homoskedatiske fejlled). Et histogram eller QQ-plot kan afsløre om ei’erne er
normalfordelte
iy
iy
iy
Residualplot
y ellerx ˆ0
Residualer
Homoskedastisk: Residualerne ser ud til at variere ufahængigt af hinanden og x (eller ).
0
Residualer
Det buede mønster indikerer en underlæggende ikke-lineær sammenhæng.
0
Residualer
Residualerne udviser lineær trend med tiden (eller en anden variabel vi ikke har brugt). Dette indikerer at tid skulle inkluderes i modellen.
Tid
0
Residualer
Heteroskedastisk: Variansen for residualerne ændrer sig når x ændrer sig.
y ellerx ˆ
y ellerx ˆ
٪
٪
٪
√
y
Eksempel: Kriminalitet og Urbanisering Data for n = 67 distrikter i Florida.
yi = Crime rate xi = Urbanisering
Model:
Hvor ei ~N(0,s2)
ii xy
Residualer i SPSS
I ’Univariate’ vinduet vælges ’Save…’ I ’Save’ vinduet vælges ’Unstandardized’ både under
’Reresiduals’ (ei’erne) og ’Predicted Values’ ( ’erne) .iy
Efter endt regression skaber SPSS to nye søjler i ’Data Editor’, der indeholder residualer (’RES_1’) prædiktioner (’PRE_1’) .
Derefter kan man fx lave scatter plots.
Scatter plot af
residualer (ei’erne) mod ’urbanisering’ (xi’erne).
residualer (ei’erne) mod prædiktionerne ( ’erne) .
Ser jo ganske usystematisk ud med jævn variation!
iy
Histogrammet burde ligne en normalfordeling.Det gør det ikke helt… men det er ikke katestrofalt.
Histogram af residualer