Statistik Lektion 8
description
Transcript of Statistik Lektion 8
StatistikLektion 8
Parrede testTest for forskel i andeleTest for ens variansGensyn med flyskræk!
Afhængige og uafhængige stikprøver Ved en uafhængig stikprøve udtages en stikprøve fra hver gruppe.
1. Mænd og kvinders løn: Tag en stikprøve fra gruppen af mænd og en stikprøve fra gruppen af kvinder og sammenlign gennemsnitslønnen for de to grupper.
2. Kilometer per liter: Tilfældig stikprøve af Fiat’er og tilfældig stikprøve af Lancia’er.
Ved en afhængig stikprøve er observationerne i de to grupper parrede. Oftest er det den samme person/genstand, der bliver observeret i to forskellige situationer.
1. Bio benzin kontra almindelig benzin: Vælg tilfældigt et antal VW Touran’er og test dem med de to forskellige typer benzin.
2. Original Nike sko kontra Super Nike sko: Vælg tilfældigt nogle personer til at løbe 5 km og lad dem teste begge par sko.
Forrige forlæsning Sammenligning af to middelværdier – kendt varians
norm. pop. eller stort n1. Hypotesetest + Konfidensinterval
Sammenligning af to middelværdier – ukendt varians normal
population1. Hypotesetest + Konfidensinterval
Parrede observationer1. Hypotesetest + Konfidensinterval
Sammenligning af to andele 1. Hypotesetest + Konfidensinterval
Test for ens varians i to populationer
Denne forlæsning
Parrede observationer
For den i’te person har vi to observationer Xi,1 og Xi,2, fx. blodtryk før og efter behandling.
For den i’te person definerer vi differencen Di = Xi,1Xi,2.
Forskelle mellem ”før” og ”efter” kan nu undersøges vha. hypotesetest af middeldifferencen, D.
Typisk antagelse er, at differencerne er normalfordelte, Di ~ N(D, D
2). Estimaterne for hhv. middelværdi og varians
betegnes og .2DsDx
Parrede observationer Udregn differencer:
Super-Original -1 -2 -1 -5 -1 1 -1 0
Nike Super 20 17 18 15 16 17 20 20
Nike Original 21 19 19 20 17 16 21 20
elte.normalford er rnedifference hvis der,frihedsgra med fordelt t Er
:lsenTeststørre
H
H
:ntervalKonfidensi rne.difference fra ud og Beregn
a
0
1
,
:
:
0
0
0 2
D
D
DD
DD
DDDD
DD
nns
xt
n
stx
sx
Statistics → Means → Paired t-test…
p-værdi = 0.08345 > 0.05, dvs. vi kan ikke afvise H0. Dvs. vi kan ikke afvise at de to sko-typer er lige gode.
Samme Historie I R Commander
Bemærk: 95% konfidensinterval for forskellen i middelværdi indeholder 0!
Bemærkninger til parret t-test Selvom vi har to sæt af observationer, så koger det ned til et
sæt af differencer. Vi tester derfor kun én middelværdi, og kan derfor ”genbruge” t-testet fra sidst.
Ved at have parrede observationer, forsvinder variationen i observationerne, der skyldes variationen i ”deltagerne”. Dette gælder kun hvis differencerne er uafhængige af før-målingerne.
Sammenligning af to andele, p1
= p2, store stikprøver
21
21
21
21 ˆ,11
)ˆ1(ˆ
ˆˆ
nn
xxp
nnpp
ppz
hvor
Hvis H0 er sand, så gælder Z ~ N(0,1).Forkast H0, når p-værdien er lille, eller sammenlign med de kritiskeværdier.
H0: p1 – p2 = 0 ( dvs. H0 : p1 = p2 ) H1: p1 – p2 ≠ 0 ( dvs. H0 : p1 ≠ p2 )
Teststørrelse
Eksempel - Titanic
Er andelen af mænd, der overlevede, pm, den samme
som andelen af kvinder, der overlevede, pk?
1981.0680168
168ˆ
mp 7156.0
317126
317ˆ
mp
Eksempel - Titanic
H0: pk = pm
H1: pk ≠ pm
H0 forkastes da p-værdien = 2·P(|Z|>18.23) ≈ 0.
23.18)848/1443/1)(3757.01(3757.0
1981.07156.0)/1/1)(ˆ1(ˆ
ˆˆ
mk
mk
nnpp
ppz
3757.0)317126()168680(
317168
ˆ
mk
mk
nn
xxp
Sammenligning af to andele, p1 - p2=D, store stikprøver
test. etvenstresid og test højresidet som laves også Kan
værdier. kritiske de med sammenlign ellerlille, er værdien-p når H Forkast
:Beslutning
:lsenTeststørre
:Hypoteser
0 ,
/)ˆ1(ˆ/)ˆ1(ˆ
ˆˆ
::
222111
21
211
210
nppnpp
Dppz
DppHDppH
Konfidens interval for differencen, p1 – p2, mellem to andele
ens. er iermiddelværd to de at om hypotesen nulforkastet havde ikke sthypotesete et at til, det svarer
0, indeholder ntervalletkonfidensi hvis før, ligesom Og
1,96.z er nterval,konfidensi 95% et for eksempelFor niveauet. konfidens fra ud igen vælges
for interval konfidens (1-
0.025
2/
2
22
1
112/21
12
)ˆ1(ˆ)ˆ1(ˆ)ˆˆ(
:%100)
z
n
pp
n
ppzpp
pp
Eksempel - Titanic
Find et 95% konfidensinterval for forskellen i andelen af overlevende blandt mænd og kvinder:
Da konfidensintervallet ikke indeholder nul, kan vi afvise H0: på signifikansniveau .
]5125.0,5673.0[0498.05175.0
317126
)7156.01(7156.0
680168
)1981.01(1981.096.1)7156.01981.0(
)ˆ1(ˆ)ˆ1(ˆ)ˆˆ( 2/
k
kk
m
mmkm n
pp
n
ppzpp
F fordelingen er fordelingen af brøken af to chi-i-anden stokastiske variable, der er uafhængige og hver er divideret med antallet af dens frihedsgrader.
F fordelingen er fordelingen af brøken af to chi-i-anden stokastiske variable, der er uafhængige og hver er divideret med antallet af dens frihedsgrader.
En F fordelt stokastisk variable med k1 og k2 frihedsgrader:
En F fordelt stokastisk variable med k1 og k2 frihedsgrader:
222
121
, 21 k
kF kk
F fordelingen og test for lighed af to populationsvarianser
543210
1.0
0.5
0.0
F
F Distributions with different Degrees of Freedom
f(F
)
F(5,6)
F(10,15)
F(25,30)
543210
1.0
0.5
0.0
F
F Distributions with different Degrees of Freedom
f(F
)
F(5,6)
F(10,15)
F(25,30)
Critical Points of the F Distribution Cutting Off a Right-Tail Area of 0.05
k1 1 2 3 4 5 6 7 8 9
k2
1 161.4 199.5 215.7 224.6 230.2 234.0 236.8 238.9 240.5 2 18.51 19.00 19.16 19.25 19.30 19.33 19.35 19.37 19.38 3 10.13 9.55 9.28 9.12 9.01 8.94 8.89 8.85 8.81 4 7.71 6.94 6.59 6.39 6.26 6.16 6.09 6.04 6.00 5 6.61 5.79 5.41 5.19 5.05 4.95 4.88 4.82 4.77 6 5.99 5.14 4.76 4.53 4.39 4.28 4.21 4.15 4.10 7 5.59 4.74 4.35 4.12 3.97 3.87 3.79 3.73 3.68 8 5.32 4.46 4.07 3.84 3.69 3.58 3.50 3.44 3.39 9 5.12 4.26 3.86 3.63 3.48 3.37 3.29 3.23 3.1810 4.96 4.10 3.71 3.48 3.33 3.22 3.14 3.07 3.0211 4.84 3.98 3.59 3.36 3.20 3.09 3.01 2.95 2.9012 4.75 3.89 3.49 3.26 3.11 3.00 2.91 2.85 2.8013 4.67 3.81 3.41 3.18 3.03 2.92 2.83 2.77 2.7114 4.60 3.74 3.34 3.11 2.96 2.85 2.76 2.70 2.6515 4.54 3.68 3.29 3.06 2.90 2.79 2.71 2.64 2.59
3.01
543210
0.7
0.6
0.5
0.4
0.3
0.2
0.1
0.0
f( F)
F
Når man skal finde det venstre kritiske punkt, kan man bruge følgende sammenhæng:
1,1,2
,2,1
1
kkkk F
F
F-tabellen – tabel 9, side 867F-fordelingen med 7 og 12 frihedsgrader
0.05
F7,12,0.05 = 3.011/F12,7,0.05 = 0.278
0.05
Det højresidet kritiske punkt:
F6,9,0.05 = 3.37
Det tilsvarende venstresidet punkt:
2439.010.4
11
05.0,6,995.0,9,6
FF
543210
0.7
0.6
0.5
0.4
0.3
0.2
0.1
0.0
F
f(F)
F6,9,0.05 = 3.37F6,9,0.95 = 1/F9,6,0.05 = 0.2439
0.05
0.05
0.90
Kritiske punkter i F fordelingenF(6, 9), = 0.10
F-fordeling med 6 og 9 frihedsgrader
22
21
1,1 21 s
sF nn
I: Tosidet test:
• 1 = 2
• H0: 1 = 2
• H1: 2
II:Ensidet test
• 12
• H0: 1 2
• H1: 1 2
I: Tosidet test:
• 1 = 2
• H0: 1 = 2
• H1: 2
II:Ensidet test
• 12
• H0: 1 2
• H1: 1 2
Test for ens variansTeststørrelsen til test for ens populations varians i to normalfordelte populationer er givet ved:
36.077.2
1
)13,8(
177.2)13,8(
28.38,13
05.0
110120913
222
221
21
F
F
F
. s .s=n=n
:værdier Kritiske
:sniveauSignifikan
2 Population 1 Population
0.36. end mindre eller 3.28 end større er ikke 1.19 da niveau,
-ssignifikan 5% et på forkastes ikke kan H
:lseTeststørre
H
H
:Hypoteser
0
19.111.0
12.08,131,1
22
21:1
22
21:0
2
2
2
2
2
1
21
s
sFnnF
Eksempel
EksempelPopulation 1 Population 2
Signifikansniveau:
Kritiske værdier:
221
1
12.0
13
s
n22
2
2
11.0
9
s
n
35.085.2
11
85.2
28.3
05.0,12,895.0,12,8
05.0,12,8
05.0,8,12
FF
F
F
Hypoteser:
Teststørrelse:
H0 kan ikke afvises på signifikans-niveau 10%, da teststørrelsen ikke er større end 3.28 eller mindre end 0.35.
22
21
22
21
:H
:H
1
0
19.111.0
12.02
2
22
21
s
sF
Vigtigste fordelinger i kurset Binomial B(n,p)
Normal N()
n
t t(n)
F F(k1,k2)
)(~
)1,0(~,,22
1
nZ
NZZZn
i
in
1i gælder
så , og uafh. Hvis
)(~)(~
)1,0(~2 ntnXZnX
NZXZ
gælder så
og og uafh. og Hvis
),(~)()()(~
)(~
212122
12
kkFkYkXkY
kXYX
gælder så og og uafh. og Hvis
),1(~)(~ 2 nFXntX gælder så Hvis
Flyskræk! Passer overskriften?
Politiken 6/12-’07
Er du tryg ved at flyve?
Ja: 86% i 2005 83% i 2007
Er der sket en statistisk signifikant ændring?
Sum selv svaret ;-)
Sidste Summeopgave
Antag at der er blevet udspurgt 1001 personer i både 2005 og 2007.
Test på signifikansniveau =0.05 om der er en forskel i andelen af folk, der er trygge ved at flyve.
Bestem p-værdien. Hvad synes I om overskriften?
Til efteråret: Økonometri
Økonometri: Statistik anvendt på økonomiske problemstillinger
Indhold: Lineær regression - Middelværdien er forklaret ved
en eller flere kontinuerte forklarende variable
Form: 7 forelæsninger efterfulgt af projekt.