Statistik Lektion 8

23
Statistik Lektion 8 Parrede test Test for forskel i andele Test for ens varians Gensyn med flyskræk!

description

Statistik Lektion 8. Parrede test Test for forskel i andele Test for ens varians Gensyn med flyskræk!. Afhængige og uafhængige stikprøver. Ved en uafhængig stikprøve udtages en stikprøve fra hver gruppe. - PowerPoint PPT Presentation

Transcript of Statistik Lektion 8

Page 1: Statistik Lektion 8

StatistikLektion 8

Parrede testTest for forskel i andeleTest for ens variansGensyn med flyskræk!

Page 2: Statistik Lektion 8

Afhængige og uafhængige stikprøver Ved en uafhængig stikprøve udtages en stikprøve fra hver gruppe.

1. Mænd og kvinders løn: Tag en stikprøve fra gruppen af mænd og en stikprøve fra gruppen af kvinder og sammenlign gennemsnitslønnen for de to grupper.

2. Kilometer per liter: Tilfældig stikprøve af Fiat’er og tilfældig stikprøve af Lancia’er.

Ved en afhængig stikprøve er observationerne i de to grupper parrede. Oftest er det den samme person/genstand, der bliver observeret i to forskellige situationer.

1. Bio benzin kontra almindelig benzin: Vælg tilfældigt et antal VW Touran’er og test dem med de to forskellige typer benzin.

2. Original Nike sko kontra Super Nike sko: Vælg tilfældigt nogle personer til at løbe 5 km og lad dem teste begge par sko.

Page 3: Statistik Lektion 8

Forrige forlæsning Sammenligning af to middelværdier – kendt varians

norm. pop. eller stort n1. Hypotesetest + Konfidensinterval

Sammenligning af to middelværdier – ukendt varians normal

population1. Hypotesetest + Konfidensinterval

Parrede observationer1. Hypotesetest + Konfidensinterval

Sammenligning af to andele 1. Hypotesetest + Konfidensinterval

Test for ens varians i to populationer

Denne forlæsning

Page 4: Statistik Lektion 8

Parrede observationer

For den i’te person har vi to observationer Xi,1 og Xi,2, fx. blodtryk før og efter behandling.

For den i’te person definerer vi differencen Di = Xi,1Xi,2.

Forskelle mellem ”før” og ”efter” kan nu undersøges vha. hypotesetest af middeldifferencen, D.

Typisk antagelse er, at differencerne er normalfordelte, Di ~ N(D, D

2). Estimaterne for hhv. middelværdi og varians

betegnes og .2DsDx

Page 5: Statistik Lektion 8

Parrede observationer Udregn differencer:

Super-Original -1 -2 -1 -5 -1 1 -1 0

Nike Super 20 17 18 15 16 17 20 20

Nike Original 21 19 19 20 17 16 21 20

elte.normalford er rnedifference hvis der,frihedsgra med fordelt t Er

:lsenTeststørre

H

H

:ntervalKonfidensi rne.difference fra ud og Beregn

a

0

1

,

:

:

0

0

0 2

D

D

DD

DD

DDDD

DD

nns

xt

n

stx

sx

Page 6: Statistik Lektion 8

Statistics → Means → Paired t-test…

p-værdi = 0.08345 > 0.05, dvs. vi kan ikke afvise H0. Dvs. vi kan ikke afvise at de to sko-typer er lige gode.

Samme Historie I R Commander

Bemærk: 95% konfidensinterval for forskellen i middelværdi indeholder 0!

Page 7: Statistik Lektion 8

Bemærkninger til parret t-test Selvom vi har to sæt af observationer, så koger det ned til et

sæt af differencer. Vi tester derfor kun én middelværdi, og kan derfor ”genbruge” t-testet fra sidst.

Ved at have parrede observationer, forsvinder variationen i observationerne, der skyldes variationen i ”deltagerne”. Dette gælder kun hvis differencerne er uafhængige af før-målingerne.

Page 8: Statistik Lektion 8

Sammenligning af to andele, p1

= p2, store stikprøver

21

21

21

21 ˆ,11

)ˆ1(ˆ

ˆˆ

nn

xxp

nnpp

ppz

hvor

Hvis H0 er sand, så gælder Z ~ N(0,1).Forkast H0, når p-værdien er lille, eller sammenlign med de kritiskeværdier.

H0: p1 – p2 = 0 ( dvs. H0 : p1 = p2 ) H1: p1 – p2 ≠ 0 ( dvs. H0 : p1 ≠ p2 )

Teststørrelse

Page 9: Statistik Lektion 8

Eksempel - Titanic

Er andelen af mænd, der overlevede, pm, den samme

som andelen af kvinder, der overlevede, pk?

1981.0680168

168ˆ

mp 7156.0

317126

317ˆ

mp

Page 10: Statistik Lektion 8

Eksempel - Titanic

H0: pk = pm

H1: pk ≠ pm

H0 forkastes da p-værdien = 2·P(|Z|>18.23) ≈ 0.

23.18)848/1443/1)(3757.01(3757.0

1981.07156.0)/1/1)(ˆ1(ˆ

ˆˆ

mk

mk

nnpp

ppz

3757.0)317126()168680(

317168

ˆ

mk

mk

nn

xxp

Page 11: Statistik Lektion 8

Sammenligning af to andele, p1 - p2=D, store stikprøver

test. etvenstresid og test højresidet som laves også Kan

værdier. kritiske de med sammenlign ellerlille, er værdien-p når H Forkast

:Beslutning

:lsenTeststørre

:Hypoteser

0 ,

/)ˆ1(ˆ/)ˆ1(ˆ

ˆˆ

::

222111

21

211

210

nppnpp

Dppz

DppHDppH

Page 12: Statistik Lektion 8

Konfidens interval for differencen, p1 – p2, mellem to andele

ens. er iermiddelværd to de at om hypotesen nulforkastet havde ikke sthypotesete et at til, det svarer

0, indeholder ntervalletkonfidensi hvis før, ligesom Og

1,96.z er nterval,konfidensi 95% et for eksempelFor niveauet. konfidens fra ud igen vælges

for interval konfidens (1-

0.025

2/

2

22

1

112/21

12

)ˆ1(ˆ)ˆ1(ˆ)ˆˆ(

:%100)

z

n

pp

n

ppzpp

pp

Page 13: Statistik Lektion 8

Eksempel - Titanic

Find et 95% konfidensinterval for forskellen i andelen af overlevende blandt mænd og kvinder:

Da konfidensintervallet ikke indeholder nul, kan vi afvise H0: på signifikansniveau .

]5125.0,5673.0[0498.05175.0

317126

)7156.01(7156.0

680168

)1981.01(1981.096.1)7156.01981.0(

)ˆ1(ˆ)ˆ1(ˆ)ˆˆ( 2/

k

kk

m

mmkm n

pp

n

ppzpp

Page 14: Statistik Lektion 8

F fordelingen er fordelingen af brøken af to chi-i-anden stokastiske variable, der er uafhængige og hver er divideret med antallet af dens frihedsgrader.

F fordelingen er fordelingen af brøken af to chi-i-anden stokastiske variable, der er uafhængige og hver er divideret med antallet af dens frihedsgrader.

En F fordelt stokastisk variable med k1 og k2 frihedsgrader:

En F fordelt stokastisk variable med k1 og k2 frihedsgrader:

222

121

, 21 k

kF kk

F fordelingen og test for lighed af to populationsvarianser

543210

1.0

0.5

0.0

F

F Distributions with different Degrees of Freedom

f(F

)

F(5,6)

F(10,15)

F(25,30)

543210

1.0

0.5

0.0

F

F Distributions with different Degrees of Freedom

f(F

)

F(5,6)

F(10,15)

F(25,30)

Page 15: Statistik Lektion 8

Critical Points of the F Distribution Cutting Off a Right-Tail Area of 0.05

k1 1 2 3 4 5 6 7 8 9

k2

1 161.4 199.5 215.7 224.6 230.2 234.0 236.8 238.9 240.5 2 18.51 19.00 19.16 19.25 19.30 19.33 19.35 19.37 19.38 3 10.13 9.55 9.28 9.12 9.01 8.94 8.89 8.85 8.81 4 7.71 6.94 6.59 6.39 6.26 6.16 6.09 6.04 6.00 5 6.61 5.79 5.41 5.19 5.05 4.95 4.88 4.82 4.77 6 5.99 5.14 4.76 4.53 4.39 4.28 4.21 4.15 4.10 7 5.59 4.74 4.35 4.12 3.97 3.87 3.79 3.73 3.68 8 5.32 4.46 4.07 3.84 3.69 3.58 3.50 3.44 3.39 9 5.12 4.26 3.86 3.63 3.48 3.37 3.29 3.23 3.1810 4.96 4.10 3.71 3.48 3.33 3.22 3.14 3.07 3.0211 4.84 3.98 3.59 3.36 3.20 3.09 3.01 2.95 2.9012 4.75 3.89 3.49 3.26 3.11 3.00 2.91 2.85 2.8013 4.67 3.81 3.41 3.18 3.03 2.92 2.83 2.77 2.7114 4.60 3.74 3.34 3.11 2.96 2.85 2.76 2.70 2.6515 4.54 3.68 3.29 3.06 2.90 2.79 2.71 2.64 2.59

3.01

543210

0.7

0.6

0.5

0.4

0.3

0.2

0.1

0.0

f( F)

F

Når man skal finde det venstre kritiske punkt, kan man bruge følgende sammenhæng:

1,1,2

,2,1

1

kkkk F

F

F-tabellen – tabel 9, side 867F-fordelingen med 7 og 12 frihedsgrader

0.05

F7,12,0.05 = 3.011/F12,7,0.05 = 0.278

0.05

Page 16: Statistik Lektion 8

Det højresidet kritiske punkt:

F6,9,0.05 = 3.37

Det tilsvarende venstresidet punkt:

2439.010.4

11

05.0,6,995.0,9,6

FF

543210

0.7

0.6

0.5

0.4

0.3

0.2

0.1

0.0

F

f(F)

F6,9,0.05 = 3.37F6,9,0.95 = 1/F9,6,0.05 = 0.2439

0.05

0.05

0.90

Kritiske punkter i F fordelingenF(6, 9), = 0.10

F-fordeling med 6 og 9 frihedsgrader

Page 17: Statistik Lektion 8

22

21

1,1 21 s

sF nn

I: Tosidet test:

• 1 = 2

• H0: 1 = 2

• H1: 2

II:Ensidet test

• 12

• H0: 1 2

• H1: 1 2

I: Tosidet test:

• 1 = 2

• H0: 1 = 2

• H1: 2

II:Ensidet test

• 12

• H0: 1 2

• H1: 1 2

Test for ens variansTeststørrelsen til test for ens populations varians i to normalfordelte populationer er givet ved:

Page 18: Statistik Lektion 8

36.077.2

1

)13,8(

177.2)13,8(

28.38,13

05.0

110120913

222

221

21

F

F

F

. s .s=n=n

:værdier Kritiske

:sniveauSignifikan

2 Population 1 Population

0.36. end mindre eller 3.28 end større er ikke 1.19 da niveau,

-ssignifikan 5% et på forkastes ikke kan H

:lseTeststørre

H

H

:Hypoteser

0

19.111.0

12.08,131,1

22

21:1

22

21:0

2

2

2

2

2

1

21

s

sFnnF

Eksempel

Page 19: Statistik Lektion 8

EksempelPopulation 1 Population 2

Signifikansniveau:

Kritiske værdier:

221

1

12.0

13

s

n22

2

2

11.0

9

s

n

35.085.2

11

85.2

28.3

05.0,12,895.0,12,8

05.0,12,8

05.0,8,12

FF

F

F

Hypoteser:

Teststørrelse:

H0 kan ikke afvises på signifikans-niveau 10%, da teststørrelsen ikke er større end 3.28 eller mindre end 0.35.

22

21

22

21

:H

:H

1

0

19.111.0

12.02

2

22

21

s

sF

Page 20: Statistik Lektion 8

Vigtigste fordelinger i kurset Binomial B(n,p)

Normal N()

n

t t(n)

F F(k1,k2)

)(~

)1,0(~,,22

1

nZ

NZZZn

i

in

1i gælder

så , og uafh. Hvis

)(~)(~

)1,0(~2 ntnXZnX

NZXZ

gælder så

og og uafh. og Hvis

),(~)()()(~

)(~

212122

12

kkFkYkXkY

kXYX

gælder så og og uafh. og Hvis

),1(~)(~ 2 nFXntX gælder så Hvis

Page 21: Statistik Lektion 8

Flyskræk! Passer overskriften?

Politiken 6/12-’07

Er du tryg ved at flyve?

Ja: 86% i 2005 83% i 2007

Er der sket en statistisk signifikant ændring?

Sum selv svaret ;-)

Page 22: Statistik Lektion 8

Sidste Summeopgave

Antag at der er blevet udspurgt 1001 personer i både 2005 og 2007.

Test på signifikansniveau =0.05 om der er en forskel i andelen af folk, der er trygge ved at flyve.

Bestem p-værdien. Hvad synes I om overskriften?

Page 23: Statistik Lektion 8

Til efteråret: Økonometri

Økonometri: Statistik anvendt på økonomiske problemstillinger

Indhold: Lineær regression - Middelværdien er forklaret ved

en eller flere kontinuerte forklarende variable

Form: 7 forelæsninger efterfulgt af projekt.