Hypotesetest og spørgeskemaerintranet.sctknud-gym.dk/lrere/HS/Noter/Hypotesetest_Nspire.pdf ·...

22
Hypotesetest og spørgeskemaer Stikprøver, binomialtest og chi^2 test er nogle af de punkter som denne note kommer ind på. Henrik S. Hansen, Sct. Knud Gymnasium VERSION 5.0 10 20 30 40 50 60 70 80 90 100 0.1 0.2 0.3 0.4 0.5 0.6 0.7 0.8 0.9 1 Antal successer Kumuleret sandsynlighed y = 1 - a Højre sidet 1 2 3 4 5 6 7 8 9 1011 12 13 14 15 1617 18 19 20 0.0001 0.0002 0.0003 0.0004 0.0005 X² = 15.8528 p = .000361 Opgaver til hæftet kan hentes her. PDF Facit kan til opgaverne kan hentes her. PDF

Transcript of Hypotesetest og spørgeskemaerintranet.sctknud-gym.dk/lrere/HS/Noter/Hypotesetest_Nspire.pdf ·...

Page 1: Hypotesetest og spørgeskemaerintranet.sctknud-gym.dk/lrere/HS/Noter/Hypotesetest_Nspire.pdf · Henrik S. Hansen, Sct. Knuds Gymnasium 3 10 20 30 40 50 60 70 80 90 100 0.1 0.2 0.3

1

10 20 30 40 50 60 70 80 90 100

0.1

0.2

0.3

0.4

0.5

0.6

0.7

0.8

0.9

1

Antal successer

Kumuleret sandsynlighed

y = 1 - a

Højre sidet

10 20 30 40 50 60 70 80 90 100

0.1

0.2

0.3

0.4

0.5

0.6

0.7

0.8

0.9

1

Antal successer

Kumuleret sandsynlighed

y = 1 - a

Højre sidet

1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20

0.0001

0.0002

0.0003

0.0004

0.0005

X² = 15.8528 p = .000361

s

Hypotesetest og spørgeskemaer

Stikprøver, binomialtest og chi^2 test er nogle

af de punkter som denne note kommer ind på.

Henrik S. Hansen, Sct. Knud Gymnasium

V E R S I O N 5 . 0

10 20 30 40 50 60 70 80 90 100

0.1

0.2

0.3

0.4

0.5

0.6

0.7

0.8

0.9

1

Antal successer

Kumuleret sandsynlighed

y = 1 - a

Højre sidet

1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20

0.0001

0.0002

0.0003

0.0004

0.0005

X² = 15.8528 p = .000361

Opgaver til hæftet kan

hentes her. PDF

Facit kan til opgaverne kan

hentes her. PDF

Page 2: Hypotesetest og spørgeskemaerintranet.sctknud-gym.dk/lrere/HS/Noter/Hypotesetest_Nspire.pdf · Henrik S. Hansen, Sct. Knuds Gymnasium 3 10 20 30 40 50 60 70 80 90 100 0.1 0.2 0.3

Henrik S. Hansen, Sct. Knuds Gymnasium

Indholdsfortegnelse Hypotesetest ..................................................................................................................................................... 1

Hypotese ........................................................................................................................................................ 1

Signifikansniveau (α) ..................................................................................................................................... 1

Binomialtest ....................................................................................................................................................... 2

Signifikansniveau (α) ..................................................................................................................................... 2

Acceptmængde .............................................................................................................................................. 2

Kritiskmængde ............................................................................................................................................... 3

χ 2-test ................................................................................................................................................................ 6

Goodness of fit .............................................................................................................................................. 6

Teststørrelse X2 .......................................................................................................................................... 7

Frihedsgrader............................................................................................................................................. 7

Signifikansniveau ....................................................................................................................................... 7

Skal vi acceptere eller forkaste H0?? ......................................................................................................... 7

P-værdi .................................................................................................................................................. 8

I praksis ...................................................................................................................................................... 8

Uafhængighedstest ....................................................................................................................................... 9

Teststørrelse X2 ........................................................................................................................................ 10

Frihedsgrader........................................................................................................................................... 10

Signifikansniveau ..................................................................................................................................... 10

Skal vi acceptere eller forkaste H0?? ....................................................................................................... 11

P-værdi ................................................................................................................................................ 11

I praksis .................................................................................................................................................... 12

χ2-fordeling. ................................................................................................................................................. 13

Stikprøver ........................................................................................................................................................ 15

Population ................................................................................................................................................... 15

Repræsentativ ............................................................................................................................................. 15

Valg af stikprøve .......................................................................................................................................... 16

Vigtige overvejelser ..................................................................................................................................... 17

Bias .............................................................................................................................................................. 18

Page 3: Hypotesetest og spørgeskemaerintranet.sctknud-gym.dk/lrere/HS/Noter/Hypotesetest_Nspire.pdf · Henrik S. Hansen, Sct. Knuds Gymnasium 3 10 20 30 40 50 60 70 80 90 100 0.1 0.2 0.3

Henrik S. Hansen, Sct. Knuds Gymnasium

1

Hypotesetest I mange tilfælde og i mange faglige sammenhænge må man træffe en afgørelse eller basere en

overbevisning på et ikke fuldstændigt informationsgrundlag. I disse noter vil vi prøve at kigge på tre

typer af test:

Binomialtest: Der testes om en primærsandsynlighed er sand

χ2-test (uafhængighed): Der testes om der gælder uafhængighed mellem flere variable.

χ2-test (Godness of fit): Der testes det observerede følger en given fordeling.

Ens for dem alle er, at vi tester en påstand (en hypotese). På baggrund af en

sandsynlighedsberegning på en given observation accepterer vi eller også forkaster vi vores

opstillede påstand (nulhypotese).

Hypotese Vi skal altså altid opstille en nulhypotese (oftest skrevet som H0)som vi tester. Hertil hører en

modhypotese (oftest skrevet som H1), som er den hypotese vi vælger hvis vi forkaster nulhypotesen.

Alt afhængig af hvilken hypotese vi tester, så kan ordlyden variere.

Signifikansniveau (α) Til en undersøgelse vælger vi et signifikans niveau (hvor stor er risikoen vi acceptere for at vi

forkaster en sand nulhypotese).

Signifikansniveauerne viser, hvor sandsynligt det er, at et resultat skyldes tilfældigheder. Det mest

brugte niveau for at et resultat er troværdigt er 5%. Det betyder, at der er 95% sandsynlighed for at

resultatet er sandt (nulhypotesen), og der er 5% sandsynlighed for fejl (at det ikke er sandt).

I andre sammenhænge bruges andre signifikansniveauer. F.eks. kræves der i medicinske sammen-

hænge et signifikansniveau på α ≤ 0,01, medens man i økonomi ofte vælger et signifikansniveau på

α ≤ 0,1.

Jo skrappere krav til undersøgelsen jo lavere signifikansniveau.

Page 4: Hypotesetest og spørgeskemaerintranet.sctknud-gym.dk/lrere/HS/Noter/Hypotesetest_Nspire.pdf · Henrik S. Hansen, Sct. Knuds Gymnasium 3 10 20 30 40 50 60 70 80 90 100 0.1 0.2 0.3

Henrik S. Hansen, Sct. Knuds Gymnasium

2

10 20 30 40 50 60 70 80 90 100

0.1

0.2

0.3

0.4

0.5

0.6

0.7

0.8

0.9

1

Antal successer

Kumuleret sandsynlighed

y = a

Venstre sidet

10 20 30 40 50 60 70 80 90 100

0.1

0.2

0.3

0.4

0.5

0.6

0.7

0.8

0.9

1

Antal successer

Kumuleret sandsynlighed

y = 1 - a/2

y = a/2

Dobbelt sidet

Binomialtest Denne test benyttes til at undersøge stikprøver, hvor antallet med en bestemt farve, politisk

holdning, eller kvalitetsniveau kan antages at være binomialfordelt. Vi antager med andre ord, at

eksperimentet/undersøgelsen har en primær sandsynlighed for succes (den kan så være kendt eller

ukendt), og at forsøget foretages n gang. (video)

Vi forudsætter yderligere, at vi har en hypotese (dvs. en påstand) om p. Hypotesen kaldes nul-

hypotesen og skrives som H0. Hertil er der altid en modhypotese (modpåstand) H1.

Et eksempel kunne være at ”75% af blomsterfrøene spirer” eller ”er det en ægte terning, når den slår

43 seksere ud af 100slag?”.

Vi tester med andre ord om en primærsandsynlighed er sand(synlig).

Nogle vigtige begreber her til inden vi begynder at lave beregninger er:

Signifikansniveau (α) For at foretage binomialtesten skal vi bruge et signifikansniveau.

Signifikansniveauerne viser, hvor sandsynligt det er, at et resultat skyldes tilfældigheder. Det mest

brugte niveau for at et resultat er troværdigt er 5%. Det betyder, at der er 95% sandsynlighed for at

resultatet er sandt (nulhypotesen), og der er 5% sandsynlighed for fejl (at det ikke er sandt).

Acceptmængde Antal mulige succeser hvis kumulerede sandsynlighed ligger inden for vores signifikans niveau.

Lidt løst skrevet er acceptmængden:

Dobbeltsidet

𝛼/2 ≤ 𝐾𝑢𝑚𝑢𝑙𝑒𝑟𝑒𝑑𝑒 𝑠𝑎𝑛𝑑𝑠𝑦𝑛𝑙𝑖𝑔ℎ𝑒𝑑 ≤ (1 −𝛼

2).

Hvilket er værdierne mellem de vandrette streger og punktet lige over

den øverste (hvilket vi gør rede for senere).

Venstresidet

𝛼 ≤ kumulerede sandsynligheder

Hvilket bliver alle værdier over den nederste linje

Page 5: Hypotesetest og spørgeskemaerintranet.sctknud-gym.dk/lrere/HS/Noter/Hypotesetest_Nspire.pdf · Henrik S. Hansen, Sct. Knuds Gymnasium 3 10 20 30 40 50 60 70 80 90 100 0.1 0.2 0.3

Henrik S. Hansen, Sct. Knuds Gymnasium

3

10 20 30 40 50 60 70 80 90 100

0.1

0.2

0.3

0.4

0.5

0.6

0.7

0.8

0.9

1

Antal successer

Kumuleret sandsynlighed

y = 1 - a

Højre sidet

Højresidet

Kumulerede 𝑆𝑆 ≤ (1 − 𝛼)

Hvilket bliver alt under den øverste linje samt punktet lige over.

Eksempelvis

Bestem acceptmængden for 120 slag med en terning

og det er en succes hvis der slåes en 5 eller en 6. Det

er kun høje værdier som er kritiske. Der testes på 5%

signifikansniveau.

Antalsparameteren er 120, den primære

sandsynlighed er 1/3. Jvf noterne om

binomialfordelingen kan jeg bestemme den nedre

grænse ved at tegne den kumulerede

sandsynlighedsfordeling for 𝑏(𝑛, 𝑝, 𝑟). Her indsætter

jeg så 0.95 øvre grænse.

Acceptmængden bliver 𝑠𝑢𝑐𝑐𝑒𝑠𝑒𝑟 = {0,1, … ,48,49}

Kritiskmængde Er de værdier som ligger udenfor vores signifikansniveau/acceptmængde. Antal mulige succeser

hvis kumulerede sandsynlighed ligger udenfor vores signifikans niveau. Lidt løst skrevet er

kritiskmængde lig med

Dobbeltsidet

kumulerede SS<α

2 ∪

α

2< kumulerede SS.

Venstresidet

Kumulerede SS < α

Højresidet

(1 − α) < kumulerede SS

Lad os vende tilbage til forsøget med slag med terning. En version af Barske Berhard og Lasse lusk

kunne være: Der bliver slået med en terning 100 gange. Der bliver slået 23 seksere. Er det en ægte

terning? (video)

Page 6: Hypotesetest og spørgeskemaerintranet.sctknud-gym.dk/lrere/HS/Noter/Hypotesetest_Nspire.pdf · Henrik S. Hansen, Sct. Knuds Gymnasium 3 10 20 30 40 50 60 70 80 90 100 0.1 0.2 0.3

Henrik S. Hansen, Sct. Knuds Gymnasium

4

Umiddelbart lyder det til at være en almindelig terning, da 1/6 af slagene burde blive en sekser

(altså ca. 17), og 23 er jo ikke langt fra……

Nulhypotesen H0: Terningen er ægte og dermed er 𝑝 =1

6 (der er ikke forskel på den

primæresandsynlighed for test terningen og en ægte terning.)

Modhypotese H1: Terningen er falsk og dermed er 𝑝 ≠1

6 (der er forskel på den

primæresandsynlighed for test terningen og en ægte terning.)

Hvis vi kort tænker tilbage til vores binomialfordeling under sandsynlighedsregning hvor vi slog 5

slag, så kunne vi opstille følgende tabel, hvor vi kendte den primære sandsynlighed:

Antal

succeser t P(X=t)

(Kumulerede SS)

𝑃(𝑋 ≤ 𝑡)

0 𝐾(5,0) ∙ (1

6)

0

∙ (5

6)

5

= 0.401878 0.401878

1 𝐾(5,1) ∙ (1

6)

1

∙ (5

6)

4

= 0.401878 0.803755

2 𝐾(5,2) ∙ (1

6)

2

∙ (5

6)

3

= 0.160751 .964506

3 𝐾(5,3) ∙ (1

6)

3

∙ (5

6)

2

= 0.03215 .996656

4 𝐾(5,4) ∙ (1

6)

4

∙ (5

6)

1

= 0.03215 .999871

5 𝐾(5,5) ∙ (1

6)

5

∙ (5

6)

0

= 0.000129 1

Lad os prøve med et større sæt. Det handler stadig om at slå seksere, men nu slår vi 100 gange med

terningen. Dette ville give os følgende graf med sandsynligheder. Fordelingen ser således ud

10 20 30 40 50 60 70 80 90 100

0.01

0.02

0.03

0.04

0.05

0.06

0.07

0.08

0.09

0.1

0.11

Sandsynlighed

Antal successer10 20 30

0.01

0.02

0.03

0.04

0.05

0.06

0.07

0.08

0.09

0.1

0.11

Antal successer

Sandsynlighed

Zoome

Page 7: Hypotesetest og spørgeskemaerintranet.sctknud-gym.dk/lrere/HS/Noter/Hypotesetest_Nspire.pdf · Henrik S. Hansen, Sct. Knuds Gymnasium 3 10 20 30 40 50 60 70 80 90 100 0.1 0.2 0.3

Henrik S. Hansen, Sct. Knuds Gymnasium

5

Det er tydeligt at se, at sandsynligheden for at slå mere end 30 seksere er stort set ikke til stede.

Da det vi skal teste er om det er sandsynligt med et signifikansniveau på 5% om vi slår 23 seksere

med en ægte terning, så lad os kigge på de kumulerede sandsynligheder.

Vælges et signifikansniveau på 5%, skal hver de to dele af den kritiske mængde, der ligger i hver

sin ende af tallinjen, have sandsynligheder, der ligger tæt på, men ikke overstiger 2.5%.

Den maksimale værdi i den nedre kritiske mængde må være det største af de tal 𝑖 ∈ 𝑍, som opfylder

at 𝑃(𝑋 ≤ 𝑖) ≤𝛼

2. Dermed må grænsen mellem acceptmængde og kritiskmængde i venstre side være

givet ved binomcdf (100,1

6, {9,10}) = {0.021292,0.042696}

Den øvre grænse findes ved at bestemme det mindste tal i, som opfylder at 𝑃(𝑋 ≥ 𝑖) ≤𝛼

2. Dermed

må grænsen mellem acceptmængde og kritiskmængde i højre side være givet ved

𝑃(𝑋 ≥ 24) = 1 − binomcdf(100,1/6,23) = 0.037864

𝑃(𝑋 ≥ 25) = 1 − binomcdf(100,1/6,24) = 0.021703

Acceptmængde={10,11,12,13,14,15,16,17,18,19,20,21,22,23,24}

Kritiskmængde={0,1,2,3,4,5,6,7,8,9,25,26,……..,100}

Så hvis vi på et signifikans niveau skal udtale os om terningen med 23 seksere, så kan vi ikke

forkaste vores nulhypotese. Terningen kan godt være ægte. Men ved 25 seksere, ville vi have

forkastet nulhypotesen og antaget at terningen var falsk.

Lav opgaver i hæftet

Læs eventuelt historien om Lasse Lusk og Barske Berhard…..

10 20 30 40 50 60 70 80 90 100

0.1

0.2

0.3

0.4

0.5

0.6

0.7

0.8

0.9

1

Antal successer

Kumuleret sandsynlighed

y = 1 - a/2

y = a/2

6 8 10 12 14 16 18 20 22 24 26 28 30

0.1

0.2

0.3

0.4

0.5

0.6

0.7

0.8

0.9

1

Antal successer

Kumuleret sandsynlighed

Zoome

y = 1- a/2

y = a/2

Page 8: Hypotesetest og spørgeskemaerintranet.sctknud-gym.dk/lrere/HS/Noter/Hypotesetest_Nspire.pdf · Henrik S. Hansen, Sct. Knuds Gymnasium 3 10 20 30 40 50 60 70 80 90 100 0.1 0.2 0.3

Henrik S. Hansen, Sct. Knuds Gymnasium

6

χ 2-test En 𝑥2-test, også kaldet en chi-i-anden test, er en test, hvor vi tester en om en given procentvis observeret

fordeling kan siges at være uændret. Med andre ord: Der er ikke forskel på det observerede og det

forventede.

Vi deler testen i to dele. En Goodnes of fit og en uafhængighedstest. Forskel er blot vi tester en fordeling

inden for en eller flere variable.

Fremgangsmåden er den samme, uanset om det er Goodnes of fit eller uafhængighed der testes.

1. Bestemmer de forventede værdier.

2. Bestemmer teststørrelsen χ 2

3. Bestemmer antal frihedsgrader

4. Bestemmer p-værdien eller den kritiske værdi

5. Accepterer eller forkaster nulhypotesen

Goodness of fit Med dette test kan vi teste om en række observerede værdier stemmer overens med tilsvarende

teoretiske/forventede værdier. Vi tester med andre ord om vores observation adskiller sig

signifikant fra en forventet fordeling. Faktisk er uafhængighedstesten, som vi skal kigge på om lidt,

en under gren af Goodness of fit, hvor vi blot har givet fordelingen på forhånd (da der skal gælde

uafhængighed/ligelig fordeling). (video).

Et eksempel kunne være at teste Mendels lov om arveegenskaber hos planter. Mendel påstod at hvis

man krydsede en rød og hvid plante, så ville man få følgende:

Far/Mor Rød Hvid

Rød Rød Lyserød

Hvid Lyserød Hvid

Vores hypoteser:

H0: Udfaldet af farver i forsøget adskiller sig ikke signifikant fra Mendels lov. Mendels lov må

gælde.

H1: Udfaldet adskiller sig signifikant fra Mendels lov. Mendels lov gælder ikke.

I et forsøg fik en gymnasieklasse følgende resultat:

Rød Lyserød Hvid I alt

Observeret 115 188 97 400

Rød ville dukke op i 25%, hvid i 25%

og lyserød i 50% af tilfældene.

Page 9: Hypotesetest og spørgeskemaerintranet.sctknud-gym.dk/lrere/HS/Noter/Hypotesetest_Nspire.pdf · Henrik S. Hansen, Sct. Knuds Gymnasium 3 10 20 30 40 50 60 70 80 90 100 0.1 0.2 0.3

Henrik S. Hansen, Sct. Knuds Gymnasium

7

Rød Lyserød Hvid I alt

Forventet 0,25 ∙ 400 = 100 0,5 ∙ 400 = 200 0,25 ∙ 400 = 100 400

Teststørrelse X2

Da vi er interesserede i at teste, om vores observerede værdier ligget ”tæt” nok på vores forventede,

så kigger vi på forskellen i mellem disse. Da vi desværre ikke kan bruge summen af afvigelserne til

noget, da disse altid vil give 0 (prøv selv ), så kigger vi på teststørrelsen som:

𝑋2 = ∑(𝑜𝑏𝑠𝑒𝑟𝑣𝑒𝑟𝑒𝑡 − 𝑓𝑜𝑟𝑣𝑒𝑛𝑡𝑒𝑡)2

𝑓𝑜𝑟𝑣𝑒𝑛𝑡𝑒𝑡

Her vil en forskel aldrig give et negativt bidrag og store forskelle vægter meget tungere.

I eksemplet fås 𝑥2 =(115−100)2

100+

(188−200)2

200+

(97−100)2

100= 3.06

Dette lyder som et lille tal, men lad os kigge nærmere på det.

Frihedsgrader

Om en teststørrelse er ”stor” eller ej afhænger stadig af vores antal frihedsgrader.

Løst oversat: Hvor mange felter i tabellen kan udfyldes frit?

I eksemplet er 𝑑𝑓 = 3 − 1 = 2

Signifikansniveau

Signifikansniveauet er vores krav til undersøgelsen. Eksempelvis vil et 5% signifikansniveau betyde,

at der er 5% sandsynlighed (risiko) for, at vi forkaster en sand nulhypotese (fejl 1). Typisk sættes

niveauet til 5%.

Skal vi acceptere eller forkaste H0??

Når vi kender teststørrelsen og antal frihedsgrader, så kan vi enten slå op i en tabel som denne

Page 10: Hypotesetest og spørgeskemaerintranet.sctknud-gym.dk/lrere/HS/Noter/Hypotesetest_Nspire.pdf · Henrik S. Hansen, Sct. Knuds Gymnasium 3 10 20 30 40 50 60 70 80 90 100 0.1 0.2 0.3

Henrik S. Hansen, Sct. Knuds Gymnasium

8

I vores tilfælde kan vi se at hvis vi skal beholde vores hypotese, så skal teststørrelsen være mindre

end 5.99 (kritiskværdi). Da dette er tilfældet, så vi må acceptere nulhypotesen, Udfaldet af farver i

forsøget adskiller sig altså ikke signifikant fra Mendels lov.

P-værdi

I stedet for at kigge på den kritiske værdi, kan vi omregne teststørrelsen til en p-værdi. Denne

fortæller os nu, om vi ligger over eller under vores kritiske værdi (som er fastsat af vores

signifikansniveau (typisk 5%)).

Hvis p-værdien er under vores signifikansniveau, så forkastes nul-hypotesen.

Hvis p-værdien er over vores signifikansniveau, så accepteres nul-hypotesen.

Fra vores viden om sandsynlighedsfordelinger (video), ved vi at p-værdien er den samlede

sandsynlighed for at få denne kombination eller det der er værre. Derfor taster vi i Nspire

𝜒2𝐶𝑑𝑓(3.06, ∞, 2) = 0.2165

Her bliver vi blot bekræftet i at nulhypotesen ikke kan forkastes. Den lader derfor til at den er sand.

I praksis

I praksis gør vi som under uafhængighedstesten, men her skal vi blot angive vores fordelinger (altså

forventede værdier) med. (video)

𝑜𝑏𝑠 ≔ {115,188,97}

𝑓𝑜𝑟𝑣 ≔ {25%, 50%, 25%} ∙ 400

Herefter vælges Godness of Fit-testen.

Den observerede liste og forventede liste

indtastes sammen med degress of freedom.

Resulstat:

Her kan vi aflæse p-værdien til 0,216

hvilket er noget større end vores

signifikansniveau på 0,05, så vores

nulhypotese må accepteres. Udfaldet

adskiller sig altså ikke signifikant fra

Mendels lov.

Lav opgaver i hæftet

Page 11: Hypotesetest og spørgeskemaerintranet.sctknud-gym.dk/lrere/HS/Noter/Hypotesetest_Nspire.pdf · Henrik S. Hansen, Sct. Knuds Gymnasium 3 10 20 30 40 50 60 70 80 90 100 0.1 0.2 0.3

Henrik S. Hansen, Sct. Knuds Gymnasium

9

Uafhængighedstest

Med dette test skal vi undersøge om der er uafhængighed mellem rækkerne i en tabel. Dette kunne

være om hvorvidt holdningen til matematik i gymnasiet er uafhængig af køn. Vores

egentlige ”tanke” er at der er forskel på køn og interesse for matematik. Vi opstiller derfor en

uafhængighedstest, som forhåbentlig kan forkastes ved et relativt lille signifikansniveau. (video)

Her er det vigtigt at påpege at antal observationer i hver enkelt celle skal være større eller lig med 5.

Hvis dette ikke er muligt, må man slå søjler sammen.

Vi laver en empirisk undersøgelse på gymnasiet, hvor vi spørger efter køn, og om matematik er et

spændende fag. Fra denne undersøgelse får vi følgende tabel.

Observerer Enig Uenig Ved ikke I alt

Dreng 58 12 10 80

Pige 36 28 22 86

I alt 94 40 32 166

Da denne form for test er en uafhængighedstest så skal nulhypotesen altid være at der gælder

uafhængighed.

H0: Holdningen til matematik er uafhængig af køn (der er ikke forskel på køn kontra holdning til

matematik)

H1: Holdningen til matematik er afhængig af køn (der er forskel på køn kontra holdning til

matematik)

Vi starter med at antage at H0 er sand, og beregner derfor andelen af forventede elever. Vi estimerer

en forventet tabel ud fra at 94

166∙ 100% = 56.6% er enige (uanset køn),

40

166∙ 100% = 24.1% er

uenig og 32

166∙ 100% = 19.3% ved ikke.

Da vores hypotese påstår at det er uafhængigt at køn, så må den procentvise fordeling være ens for

piger og drenge. Altså må vi forvente at 94

166∙ 80 = 45.3 drenge er enige osv.

Forventet Enig Uenig Ved ikke I alt

Dreng 94

166∙ 80 = 45.3

40

166∙ 80 = 19.3

32

166∙ 80 = 15.4 80

Pige 94

166∙ 86 = 48.7

40

166∙ 86 = 20.7

32

166∙ 86 = 16.6 86

I alt 94 40 32 166

Afvigelserne mellem det resultat, vi fik i forsøget, og de her udregnede værdier er et udtryk for,

hvor langt forsøget er fra den verden, der er estimeret i H0. Vi kan derfor bestemme en teststørrelse,

som siger noget om hvor stor afvigelsen er. Denne teststørrelse kan så omsættes til en p-værdi som

fortæller noget om sandsynligt det er at få vores observation eller det som er værre (altså endnu

større teststørrelse).

Page 12: Hypotesetest og spørgeskemaerintranet.sctknud-gym.dk/lrere/HS/Noter/Hypotesetest_Nspire.pdf · Henrik S. Hansen, Sct. Knuds Gymnasium 3 10 20 30 40 50 60 70 80 90 100 0.1 0.2 0.3

Henrik S. Hansen, Sct. Knuds Gymnasium

10

Teststørrelse X2

Vi kan desværre ikke bruge summen af afvigelserne til noget, da disse altid vil give 0 (prøv selv ).

Vi vælger derfor at kigge på følgende teststørrelse:

𝑋2 = ∑(𝑜𝑏𝑠𝑒𝑟𝑣𝑒𝑟𝑒𝑡 − 𝑓𝑜𝑟𝑣𝑒𝑛𝑡𝑒𝑡)2

𝑓𝑜𝑟𝑣𝑒𝑛𝑡𝑒𝑡

En stor teststørrelse tyder i denne sammenhæng på, at nulhypotesen skal forkastes (at vi ikke tror på

den). Med andre ord så får store værdier af X2 os til at tro mere på H1.

I undersøgelsen har vi

𝑋2 =(58−45.3)2

45.3+

(36−48.7)2

48.7+

(12−19.3)2

19.3+

(28−20.7)2

20.7+

(10−15.4)2

15.4+

(22−16.6)2

16.6= 15.8528

Hvornår teststørrelsen er for stor afhænger af størrelsen af vores tabel (matrix). Jo større tabel jo

større skal teststørrelsen være. Her kommer antal frihedsgrader ind i billedet.

Frihedsgrader

Løst oversat: Hvor mange felter i tabellen kan udfyldes frit?

Her skal vi huske på, at vi kender antallet af respondenter.

Generelt kan vi udregne antal frihedsgrader som 𝑑𝑓 = (antal rækker – 1) ∙ (antal kolonner − 1)

I undersøgelsen er 𝑑𝑓 = (2 − 1) ∙ (3 − 1) = 2

Når teststørrelsen er kendt og vi kender antal frihedsgrader, så skal vi anlægge et signifikansniveau.

Signifikansniveau

Det klassiske signigfikansniveau er 5% , hvilket betyder at der er 5% sandsynlighed (risiko) for at

forkaste en sand nulhypotese.

I opgaven vælger vi et signifikansniveau på 5%.

Page 13: Hypotesetest og spørgeskemaerintranet.sctknud-gym.dk/lrere/HS/Noter/Hypotesetest_Nspire.pdf · Henrik S. Hansen, Sct. Knuds Gymnasium 3 10 20 30 40 50 60 70 80 90 100 0.1 0.2 0.3

Henrik S. Hansen, Sct. Knuds Gymnasium

11

Skal vi acceptere eller forkaste H0??

Når vi kender teststørrelsen og antal frihedsgrader, så kan vi enten slå op i en tabel som denne

I vores tilfælde kan vi se at hvis vi skal beholde vores hypotese, så skal teststørrelsen være mindre

end 5.99. Det er ikke tilfældet, så vi må forkaste nulhypotesen, der er altså sammenhæng mellem

interessen for matematik og køn.

Denne teststørrelse kan også omregnes til en sandsynlighed (til en p-værdi).

P-værdi

p-værdien udtrykker sandsynligheden for at observere den (numerisk) fundne forskel, eller én der er

større, forudsat at nulhypotesen er sand. P-værdien er altså summen af sandsynlighederne for det

observerede eller værre. Denne værdi kan Nspire eller Excel give os.

Kan også betragtes som den signifikansgrænse, der lige præcis ville forkaste nulhypotesen.

Hvis vi får givet teststørrelsen og antal frihedsgrader kan vi benytte funktionerne i Nspire. Det

første billede nedenunder viser genvejen fra værktøjskassen.

Billedet til venstre viser kataloget. Her tastes blot 𝜒2𝐶𝑑𝑓(15.8528, ∞, 2) = 0.00036. (Det den gør,

er at den summere sandsynlighederne fra 15.8528 og til uendelig for en fordeling med 2

frihedsgrader (se næste afsnit). Omregnet svarer det til 0.036% for det observerede eller det som er

værre, så det observerede må være skidt . Vi forkaster altså H0 og accepterer H1, så der må være

en sammenhæng mellem køn og interesse for matematik.

Page 14: Hypotesetest og spørgeskemaerintranet.sctknud-gym.dk/lrere/HS/Noter/Hypotesetest_Nspire.pdf · Henrik S. Hansen, Sct. Knuds Gymnasium 3 10 20 30 40 50 60 70 80 90 100 0.1 0.2 0.3

Henrik S. Hansen, Sct. Knuds Gymnasium

12

I praksis

Bliver vi bedt om at test ovenstående undersøgelse med eleverne og holdning til matematik, så

benytter vi Nspire. (video)

Først opretter vi en matrice via menuen.

Så indtastes (her en 2 x 3 matrice) 𝑜𝑏𝑠 ≔ [58 12 1036 28 22

]

Så vælges en uafhængighedstest, og vores matrice indtastes.

Dette giver nu følgende resultat:

Nu kan vi vælge at kigge i en tabel med vores X2-teststørrelse, men vi kan også nøjes med at kigge

på vores p-værdi. Da denne er langt under vores signifikans niveau (den svarer til 0.036%), så

forkaster vi nulhypotesen. Havde p-værdien ligget over vores signifikansniveau så havde vi ikke

kunnet forkaste nulhypotesen.

Ultra korte version

Lav opgaver i hæftet

Page 15: Hypotesetest og spørgeskemaerintranet.sctknud-gym.dk/lrere/HS/Noter/Hypotesetest_Nspire.pdf · Henrik S. Hansen, Sct. Knuds Gymnasium 3 10 20 30 40 50 60 70 80 90 100 0.1 0.2 0.3

Henrik S. Hansen, Sct. Knuds Gymnasium

13

1 2 3 4 5 6 7 8

0.2

0.4

0.6

0.8

1

Sandsynlighed

Teststørrelse X^2

Fordeling med 1 frihedsgrad

Fordeling med 2 frihedsgrader

Fordeling med 3 frihedsgrader

Fordeling med 4 frihedsgrader

1 2 3 4 5 6 7 8 9 10 11 12 13 14

1

Teststørrelse X^2

Kumuleret sandsynlighed

df = 2

df = 3

df = 4

y = 0.95

χ2-fordeling.

Vi så under binomialtest, at sandsynlighederne

fordelte sig på en bestemt måde. På samme måde

kan vi opstille en sandsynlighed for alle

kombinationer af vores observationsmuligheder.

Som første koordinat benytter i os af teststørrelsen.

På denne måde vil der fremkomme følgende

fordelinger afhængig af antal frihedsgrader.

Vi kan se, at jo flere antal frihedsgrader der er,

jo ”fladere” bliver kurven. (video)

Disse fordelinger er kontinuerte.

Tænk på dette test som et højre siddet test (som

ved binomialtesten/fordelingen). Vi er altså

interesseret i at vide, hvor langt ud på x-aksen vi skal, før end den kumulerede sandsynlighed runder

de 0,95.

Lad os kigge på fordelingerne ud fra de kumulerede sandsynligheder. Graferne minder en del om

tilsvarende billeder under binomialtest. Her kan vi ”let” se acceptmængde og kritiskmængde.

Prøv at sammenholde de kritiske værdier med tabelværdierne fra tidligere.

Lad os prøve at kigge på fordelingen med to frihedsgrader.

Vi kan også tillade os at tænke i acceptmængde og kritiskmængde som under binomialtesten.. Her

er fordelingen kontinuert og ikke diskret som under binomialtesten. Det betyder at arealet under

grafen angiver den kumulerede sandsynlighed på det givne interval, og at ALLE teststørrelser kan

optræde.

Vi kan bestemme den eksakte teststørrelse, som markerer grænsen for de 0.95 ved følgende i Nspire:

1 2 3 4 5 6 7 8 9 10 11 12 13 14

1

Teststørrelse X^2

Kumuleret sandsynlighed

df = 2

df = 3

df = 4

y = 0.95

(5.99146, .95)

(7.81473, .95)

(9.48773, .95)

Page 16: Hypotesetest og spørgeskemaerintranet.sctknud-gym.dk/lrere/HS/Noter/Hypotesetest_Nspire.pdf · Henrik S. Hansen, Sct. Knuds Gymnasium 3 10 20 30 40 50 60 70 80 90 100 0.1 0.2 0.3

Henrik S. Hansen, Sct. Knuds Gymnasium

14

1 2 3 4 5 6 7 8 9 10 11 12 13

0.05

0.1

0.15

0.2

df = 5

Sandsynlighed

Teststørrelse X^2

1 2 3 4 5 6 7 8 9 10

integral = .95

df = 2Sandsynlighed

Teststørrelse X^2

𝑠𝑜𝑙𝑣𝑒(𝜒2𝐶𝑑𝑓(0, 𝑥, 2) = 0.95, 𝑥) = 5.99146

Dette er vores kritiske værdi, altså dén værdi, der skiller accept- og kritiskmængde. Læg mærke til

at det er den samme, som i fandt i vores skema tidligere.

Hvis vi får en teststørrelse, som falder inden for det skraverede område

(acceptmængden) fra [0;5.99146[, så vil nulhypotesen ikke kunne

forkastes.

Vores teststørrelse på 15.85 (fra eksemplet med uafhængighedstesten)

ligger langt inden i det kritiske område, og derfor må vi forkaste

nulhypotesen.

Hvis vi kigger på χ2-fordelingen for 5 frihedsgrader og

finder den teststørrelse, som vil give os en p-værdi på

0.05 (5% signifikansniveau), så får vi følgende billede:

𝑠𝑜𝑙𝑣𝑒(𝜒2𝐶𝑑𝑓(0, 𝑥, 5) = 0.95, 𝑥) = 11.07

Dette er vores kritiske værdi, altså værdien der skiller

accept- og kritiskmængde.

Så jo flere frihedsgrader jo større skal teststørrelsen

være før end det blive ”Kritisk”.

Det røde snit angiver grænsen for teststørrelsen, hvor et signifikansniveau på 5% bliver forkastet.

Prøv at kigge på tabellen fra tidligere og skab en sammen hæng…..

Den røde streg markerer ligeledes p-værdien 0.05. P-værdier mindre end 0.05 vil være at finde til

højre for den røde streg og omvendt. Jo skrappere krav til signifikans jo længere mod højre flytter vi

grænsen (den røde streg).

Page 17: Hypotesetest og spørgeskemaerintranet.sctknud-gym.dk/lrere/HS/Noter/Hypotesetest_Nspire.pdf · Henrik S. Hansen, Sct. Knuds Gymnasium 3 10 20 30 40 50 60 70 80 90 100 0.1 0.2 0.3

Henrik S. Hansen, Sct. Knuds Gymnasium

15

Stikprøver

Population I tilknytning til et observationssæt er det hensigtsmæssigt at indføre betegnelserne population og

stikprøve. Et observationssæt vil vi altid opfatte som en stikprøve fra en population. Tag et

eksempel fra den daglige nyhedsformidling:

”60% af stockholmerne er imod indførelse af bompenge for biltrafikken i Stockholm”

Fra 3. januar 2006 startede et forsøg i Stockholm, hvor man afkrævede bilister bompenge ved ind-

og udkørsel fra den svenske hovedstad. I den anledning havde man spurgt 600 stockholmere om

deres holdning til forsøget, og 60% af de adspurgte var imod forsøget.

Formålet med undersøgelsen var at belyse stockholmernes holdning til bompenge. Derfor må man

formode, at populationen var hele Stockholms befolkning. Observationssættet bestod af de 600

svar på spørgsmålet (for, imod, ved ikke), og stikprøven bestod af de 600 stockholmere, som blev

spurgt. Men det er valget af stikprøven, der i virkeligheden afgør, hvad populationen har været.

Hvis de 600 personer i stikprøven alle var bilister, så er stikprøven ikke repræsentativ for alle

stockholmere, da bilister oplagt kunne have et andet syn på bompenge end andre indbyggere. Af

samme grund ville det ikke være repræsentativt at spørge 600 tilfældigt forbipasserende på gågaden.

Repræsentativ En stikprøve skal være repræsentativ for den population, man udtaler sig om. En stikprøve anses

for repræsentativ, hvis den i alle henseender afspejler de forhold ved populationer, som kan have

betydning for resultatet af undersøgelsen. Det kan være meget svært at sikre, fordi man ikke altid på

forhånd kan vide, hvilke forhold, der har betydning.

Til demonstration af begrebet repræsentativitet, se på følgende eksempler:

Eksempel 1:

Hvis man vil undersøge, hvilken højde eleverne på et hold har, så er det ikke repræsentativt at måle

højden af de elever, der sidder på første række. Den stikprøve kan indeholde systematiske fejl, fordi

der kan være et mønster i elevernes valg af siddeplads. Måske sidder de højeste elever bagest, eller

pigerne forrest e.l.

Eksempel 2:

Hvis man vil undersøge, hvor stor en del af eleverne på en skole, der er overvægtige, er det ikke

repræsentativt at vælge de første 20 elever, der selv melder sig til en undersøgelse.

Eksempel 3:

Hvis man vil undersøge dette års karakterer i skriftlig dansk ved studentereksamen, er det ikke

repræsentativt at vælge eleverne på Sct. Knuds Gymnasium

Page 18: Hypotesetest og spørgeskemaerintranet.sctknud-gym.dk/lrere/HS/Noter/Hypotesetest_Nspire.pdf · Henrik S. Hansen, Sct. Knuds Gymnasium 3 10 20 30 40 50 60 70 80 90 100 0.1 0.2 0.3

Henrik S. Hansen, Sct. Knuds Gymnasium

16

Valg af stikprøve

Som udgangspunktet for valg af en stikprøve vil man kræve, at den er tilfældigt valgt fra

populationen, altså valgt ved en form for lodtrækning, hvor alle i populationen har samme

sandsynlighed for at komme med i stikprøven. Ved at vælge stikprøven tilfældigt undgår man

systematiske fejl i selve udvælgelsen. Men man kan naturligvis ikke gardere sig imod, at en

tilfældigt valgt stikprøve uheldigvis kommer til at indeholde systematiske fejl, der får betydning for

resultatet. I nogle stikprøvesituationer, f.eks. i politiske meningsmålinger, benytter man ofte faste

vælger-stikprøver, der er udvalgt, så de i sammensætning er repræsentative for hele

vælgerbefolkningen, en slags mini-Danmark, med hensyn til alder, køn, erhverv, indtægt osv. Det er

en anden måde at sikre sig repræsentativitet på.

Eksempel 4:

På Experimentarium i Hellerup, København, kan de besøgende besvare et ’genetisk spørgeskema’,

hvor et af spørgsmålene er, om du er venstre- eller højrehåndet. En bestemt dag er der indkommet

217 svar, hvoraf de 40 svarer venstrehåndet, og 177 svarer højrehåndet.

Observationssættet er de 217 svar (højre, venstre).

Populationen er de besøgende på Experimentarium den pågældende dag, og stikprøven er de 217

personer, der har valgt at svare på skemaet.

Eksempel 5:

I en undersøgelse af unge og religiøsitet har deltaget 462 elever i gymnasiet og hf.

På spørgsmålet ”Tror du på et liv efter døden” svarer 55% ja.

Observationssættet er de 462 svar (ja, nej, ved ikke).

Populationen er alle elever, som går i gymnasiet og hf på undersøgelsestidspunktet, og stikprøven er

de 462 elever

Eksempel 6:

På en medicinalvarefabrik producerer de gigtpiller, som skal indeholde en bestemt dosis, f.eks. 8

mg, af det aktive stof. En produktionskontrol foretages ved en dag at måle det præcise dosisindhold

i 200 tilfældige piller fra produktionen.

Observationssættet består af 200 tal (dosismålinger).

Populationen er den totale produktion af gigtpiller, og stikprøven er de 200 tilfældigt udtagne piller.

I Danmark vejes alle nyfødte børn, så den egenskab (vægten) er målt på hele populationen. Det

samme gælder alle værnepligtiges højde og alle afgivne stemmer ved et valg. Men i nogle tilfælde

er det enten umuligt eller uoverkommeligt at måle hele populationen, og i disse tilfælde er det

vigtigt at vide, hvor sikkert man kan udtale sig om den målte egenskab ved hele populationen,

selvom man kun kender den for en stikprøve. Det er jo netop, hvad man gør, når man udtaler sig om

resultatet af et forestående valg på grundlag af en ’opinionsundersøgelse’ med 1000 personer.

Page 19: Hypotesetest og spørgeskemaerintranet.sctknud-gym.dk/lrere/HS/Noter/Hypotesetest_Nspire.pdf · Henrik S. Hansen, Sct. Knuds Gymnasium 3 10 20 30 40 50 60 70 80 90 100 0.1 0.2 0.3

Henrik S. Hansen, Sct. Knuds Gymnasium

17

Vigtige overvejelser

Nogle institutioner eller virksomheder får deres viden ud fra brug af stikprøver. Her kan nævnes

Gallup, Observa, Megafon, Vilstrup, Epinion, etc. Opgaverne kan være meget forskelligartede: Det

kan være en prognose til et folketingsvalg, en brugerundersøgelse for et givet produkt, en analyse af

hvilke programmer TV-seerne ser osv. Stikprøver hentyder til, at man forsøger at sige noget om

hele populationen udfra et begrænset udpluk. I mange tilfælde er man simpelthen nødt til at bruge

denne form, da man ikke kan spørge hele Danmarks befolkning, hvad den synes om økologiske

varer eller hvilke TV-udsendelser, den ser. Det er ikke praktisk muligt, og selv om man forsøgte,

ville man ikke kunne komme i kontakt med alle. Det ville også være alt for dyrt og tidskrævende.

Derfor benytter man stikprøver. Her er det vigtigt at:

1. Nøje overvejelse af hvordan persongruppen sammensættes/udvælges.

2. Man skal være omhyggelig med, hvordan man stiller spørgsmålene.

3. Resultaterne af spørgeundersøgelsen efterbehandles statistisk.

Nogle kommentarer til ovenstående punkter:

1) Det er meget vigtigt, at man sammensætter gruppen af personer, som man udspørger, så den er

repræsentativ for hele populationen, hvad enten det er en bestemt del af befolkningen eller hele

befolkningen. Det er ingenlunde nemt. Man skal passe meget på, at der ikke kommer bias, dvs.

en skævhed, i stikprøven. Ønsker man for eksempel at finde ud af befolkningens holdning til

krigen i Afghanistan, så er det ikke særligt fornuftigt at gå ned på den lokale gågade og spørge

folk ud, om soldaterne skal trækkes hjem. Folk på gågaden er nemlig ikke særlig repræsentative

for Danmarks befolkning. Der vil formentlig være et underskud af folk i arbejde og et overskud

af husmødre. Der er altså en skævhed i sammensætningen. Man kan formode, at der vil være et

overskud af kvinder tilstede og kvinder er gennemsnitligt mere imod krig end mænd er. En

anden ting, man også skal passe på er, når udspørgeren selv vælger den, der udspørges. Der kan

nemlig være en tendens til at spørge personer på gaden, som ser venlige og imødekomne ud, og

der er en mulighed for, at denne gruppe af personer kan have en anden holdning til et

spørgsmål, end gennemsnittet af befolkningen. At spørge på Internettet skal man også være

påpasselig med, da den ældre del af befolkningen er underrepræsenteret her. Hvis man

undersøger de unges præferencer, så gør dette måske ikke så meget.

Den klassiske bommert, som ofte nævnes i forbindelse med udvælgelse af stikprøver er den, der

blev begået af Literary Digest i deres opinionsundersøgelse for valget i USA i 1936: Franklin D.

Roosevelt havde fuldført sine første 4 år som præsident, og genopstillede mod republikaneren

Alfred Landon fra Texas. Magasinet Literary Digest forudsagde en overvældende sejr til Alfred

Landon, med kun 43% af stemmerne til Roosevelt. Undersøgelsen var endda baseret på den

største stik-prøve nogensinde: 2,4 millioner! Magasinet havde et godt ry: det havde udpeget den

rigtige præsident siden 1916. Imidlertid vandt Roosevelt overvældende: med 62% mod 38% og

Literary Digest gik fallit kort efter. Hvordan kunne magasinet begå sådan en kæmpe fejl – den

største nogensinde af et etableret og vigtigt menings-målingsinstitut? Man havde jo udspurgt en

kæmpe gruppe. George Gallup var netop ved at grundlægge sit meningsmålingsinstitut og fik sit

Page 20: Hypotesetest og spørgeskemaerintranet.sctknud-gym.dk/lrere/HS/Noter/Hypotesetest_Nspire.pdf · Henrik S. Hansen, Sct. Knuds Gymnasium 3 10 20 30 40 50 60 70 80 90 100 0.1 0.2 0.3

Henrik S. Hansen, Sct. Knuds Gymnasium

18

gennembrud ved at forudsige resultatet af valget med en afvigelse på kun 1 procent, og han

havde endda kun udspurgt 50.000 personer. Det var altså ikke stikprøvens størrelse, som var

altafgørende, her var det den nye markedsanalyse-teknik med anvendelse af den repræsentative

stikprøve, der havde bestået sin prøve! Magasinets fejl bestod i at de sendte spørgsmål ud til 10

millioner mennesker med posten. Navnene fra de 10 millioner mennesker kom fra kilder som

telefonbøger og medlemmer af klubber. Denne fremgangsmåde havde en tendens til at

frasortere de fattige, hvoriblandt der ikke var mange, som var medlemmer af klubber. Og

dengang havde kun 1/4 af befolkningen telefon. Grunden til, at en sådan fejl først skete i 1936

og ikke før var, at i 1936 fulgte de politiske holdninger mere økonomiske linjer ... det havde

ikke været tilfældet tidligere, hvor rige og fattige stemte mere ensartet. Så læren af dette

eksempel er følgende: Når en udvælgelsesprocedure er skæv, så hjælper det ikke at tage en

større stikprøve. Det vil blot gentage fejltagelsen i større målestok!

Bias En anden ting, som stikprøver kan risikere at lide under er non-response bias, hvormed menes

skævhed på grund af for mange personer, som nægter at svare på spørgsmål. Det viser sig

nemlig, at gruppen af personer, som ikke svarer, undertiden adskiller sig fra resten på vigtige

områder. Faktisk led Digests undersøgelse netop heraf, idet kun 2,4 millioner ud af de 10

millioner svarede! Undersøgelser har vist, at lav-indkomst og høj-indkomstgrupperne har en

større tendens til ikke at svare, så mellem-indkomstgrupperne er overrepræsenteret. Gode

meningsmålings-institutter kender dette problem og har metoder til at tage højde for det. Hvis

man ringer til folk, så kan man for eksempel ringe tilbage gentagne gange til de folk der ikke

træffes umiddelbart.

Men hvilke metoder benyttes da? Besøgsinterviews, telefoninterviews, postomdelte interviews

eller Internet-interviews? Svaret er, at det kommer an på formålet og undersøgelsens form.

Lange og teksttunge undersøgelser egner sig ikke til oplæsning. Her er det bedre, hvis den

spurgte har noget at kigge på. Det kan også være, at respondenten skal reagere på et logo etc.

Besøgsinterviews benyttes også, men ikke så meget som tidligere. De kræver mange resurser.

Det skal dog også nævnes, at nogle undersøgelser kræver helt andre former. For eksempel TV-

seer undersøgelser, hvor et panel af personer har monteret en måler på deres TV, eller Internet-

brugere, som har installeret et særligt program for at kunne registrere deres vaner på Internettet.

Internettet er godt til at måle folks reaktion på reklamer, radiospots eller andet audiovisuelt

materiale.

En væsentlig årsag til en anden type fejl er, hvis man giver intervieweren lov til selv at vælge,

hvem der skal interviewes, eventuelt indenfor en bestemt undergruppe. Det var faktisk årsagen

til en anden kendt fejlbedømmelse ved præsidentvalget i 1948 i USA. Et problem ved at

overlade for meget til menneskets valg er, at intervieweren vil udspørge dem, der er lettest at få

fat i. I 1948 resulterede det i, at man udvalgte for mange republikanere, da de var en smule

nemmere at interviewe. Løsningen på dette problem er, at man indfører et element af

tilfældighed ved at trække lod. Det stiller dog nogle spørgsmål: Har man en liste med alle

indbyggere? Hvordan håndterer man rent praktisk, hvis en udvalgt person ikke er hjemme eller

bort-rejst? etc. For at undgå for mange praktiske problemer kan man vælge at lave

klyngestikprøver, hvormed menes, at man vælger et antal områder ud, eventuelt inddeler i et

Page 21: Hypotesetest og spørgeskemaerintranet.sctknud-gym.dk/lrere/HS/Noter/Hypotesetest_Nspire.pdf · Henrik S. Hansen, Sct. Knuds Gymnasium 3 10 20 30 40 50 60 70 80 90 100 0.1 0.2 0.3

Henrik S. Hansen, Sct. Knuds Gymnasium

19

antal undergrupper, hvori man så udtager personer ved simpel tilfældig lodtrækning. Denne

metode er især nyttig ved besøgsinterview, hvor det også gælder om at begrænse

transportomkostningerne. Der er mange variationsmuligheder her.

2) Man skal være omhyggelig med, at man stiller spørgsmål, som er klare og utvetydige. Og så

skal spørgsmålene ikke være ledende. Det duer for eksempel ikke at spørge en person, om

han/hun motionerer meget, for hvad er ”meget motion”? Man skal heller ikke anvende

fremmedord, som mange ikke kender. Spørgsmål, som lægger op til politisk korrekte svar bør

undgås.

3) Den tredje omkostning er, at de indsamlede data skal behandles statistisk. Man kan ikke bare

uden videre tælle sammen, som hvis man har data for en hel population. I ret stort omfang kan

man for eksempel korrigere for skævheder i stikprøven. Lad os se på et eksempel.

Eksempel 7:

Lad os gøre det tankeeksperiment, at man udspørger et antal personer, om de vil stemme JA

eller NEJ til den nye EU-traktat. Lad os antage, at man i stikprøven fik spurgt 47% kvinder og

53% mænd og at der blandt mændene var en gennemsnitligt Ja-procent på 58%, mens der blandt

kvinderne var en gennemsnitlig Ja-procent på 45%. Hvis man kritikløst havde godtaget denne

stikprøve som værende repræsentativ, så ville man altså få en total Ja-procent ved at udregne det

vejede gennemsnit:

%9,51519,058,053,045,047,0

Imidlertid er der relativt flere mænd end kvinder i stikprøven i forhold til hele den

stemmeberettigede del af befolkningen, hvor der er 48,8% mænd og 51,2% kvinder. Vi

korrigerer derfor ved at benytte de korrekte vægte frem for stikprøvens:

%3,51513,058,0488,045,0512,0

I praksis vil man selvfølgelig også skulle korrigere for andre størrelser end køn.

Gallup benytter også vejning til at korrigere for, at der er nogle persongrupper, som det er

sværere at få fat i end andre pr. telefon. Eksempelvis har Gallup lidt sværere ved at få fat i unge

mænd. Forhold, der typisk korrigeres for ved prognoser til folketingsvalg er køn, alder,

valgkreds, husstandsstørrelse og partivalg ved forrige folketingsvalg. Det er ikke nødvendigvis

alle skævheder, man kan veje sig ud af, så målingerne kan – udover den statistiske usikkerhed –

godt være behæftet med mindre fejl, som påvirker resultatet systematisk. Fejl af denne type er i

sagens natur ukendte, men meget tyder på, at der er tale om ret små ting.

Endelig skal det siges, at man også forsøger at tilrettelægge (stratificere) sammensætningen af

stikprøven, før undersøgelsen foretages, men det kan kun lade sig gøre, hvis man på forhånd har

de relevante oplysninger om respondenterne. Det haves ikke, hvis man ringer til tilfældige

Page 22: Hypotesetest og spørgeskemaerintranet.sctknud-gym.dk/lrere/HS/Noter/Hypotesetest_Nspire.pdf · Henrik S. Hansen, Sct. Knuds Gymnasium 3 10 20 30 40 50 60 70 80 90 100 0.1 0.2 0.3

Henrik S. Hansen, Sct. Knuds Gymnasium

20

telefonnumre. Hvis der derimod er tale om en undersøgelse baseret på et medlemsregister af en

slags, gøres det ofte. Også i tilfældet med Internet-undersøgelser, hvor Gallup på forhånd har en

masse baggrunds-oplysninger om det panel af personer, man har til rådighed.

Dette var en introduktion til den generelle del af spørgeskemaer og eventuelle fejl koblet til

undersøgelsen. Nu vender vi blikket mod de to egentlige test, som vi skal kigge nærmere på. Vi

forudsætter i det efterfølgende at vores datamateriale er i orden og uden bias.

Men stikprøver viser ikke altid sandheden. Det kan gå galt på to måder:

Fejl af type 1: En sand hypotese forkastes.

Fejl af type 2: En falsk hypotese accepteres.