Den eksperimentelle metode i statistik med DataMeter · tende statistik, og derved afgøre om den...

34
Noter til DASG-kursus i statistik den 4. september 2009 1 Den eksperimentelle metode i statistik Den naturvidenskabelige metode er i fokus efter gymnasiereformen. Det starter med naturvidenskabeligt grundforløb: Aktivitetsmappe for introkurset til Naturvidenskabeligt grundforløb 2008 Velkommen til tre dage med Dataopsamling Databehandling Datafremlæggelse Som vignetten antyder er kan den naturvidenskabelige metode bl.a. strukture- res efter tre stadier i arbejdet med data: Dataopsamling: Indsamling af data Databehandling: Bearbejdning og strukturering af data Datafremlæggelse: Formidling og fortolkning af data De samme tre stadier findes i den statistiske metode, som nok er den metode der kommer den naturvidenskabelige metode nærmest indenfor de matemati- ske fag: Også her er det helt centralt at indsamle statistiske data på forsvarlig vis, at kunne bearbejde de statistiske data med numeriske og grafiske metoder samt at kunne drage passende konklusioner af de statistiske data. Det er også karakteristisk for den statistiske metode at man kan arbejde med dataene på forskellige niveauer: Det beskrivende niveau: EDA (E xplorative D ata A nalysis – deskriptiv statistik) Det bekræftende niveau: Deduktive/induktive analyser (skøn/hypotesetest) På det laveste beskrivende niveau interesserer man sig alene for hvordan de rent faktisk indsamlede data opfører sig. Her benyttes først og fremmest for- skellige grafiske fremstillinger suppleret med udregningen af de vigtigste deskriptorer. Man har altså indsamlet en stikprøve og undersøger med passen-

Transcript of Den eksperimentelle metode i statistik med DataMeter · tende statistik, og derved afgøre om den...

Page 1: Den eksperimentelle metode i statistik med DataMeter · tende statistik, og derved afgøre om den alene skal bygge på en af de oven-nævnte metoder eller på en passende blanding

Noter til DASG-kursus i statistik den 4. september 2009

1

Den eksperimentelle metode i statistik Den naturvidenskabelige metode er i fokus efter gymnasiereformen. Det starter med naturvidenskabeligt grundforløb:

Aktivitetsmappe for introkurset til Naturvidenskabeligt grundforløb 2008

Velkommen til tre dage med

Dataopsamling Databehandling

Datafremlæggelse

Som vignetten antyder er kan den naturvidenskabelige metode bl.a. strukture-res efter tre stadier i arbejdet med data:

Dataopsamling: Indsamling af data Databehandling: Bearbejdning og strukturering af data

Datafremlæggelse: Formidling og fortolkning af data

De samme tre stadier findes i den statistiske metode, som nok er den metode der kommer den naturvidenskabelige metode nærmest indenfor de matemati-ske fag: Også her er det helt centralt at indsamle statistiske data på forsvarlig vis, at kunne bearbejde de statistiske data med numeriske og grafiske metoder samt at kunne drage passende konklusioner af de statistiske data.

Det er også karakteristisk for den statistiske metode at man kan arbejde med dataene på forskellige niveauer:

Det beskrivende niveau: EDA (Explorative Data Analysis – deskriptiv statistik) Det bekræftende niveau: Deduktive/induktive analyser (skøn/hypotesetest)

På det laveste beskrivende niveau interesserer man sig alene for hvordan de rent faktisk indsamlede data opfører sig. Her benyttes først og fremmest for-skellige grafiske fremstillinger suppleret med udregningen af de vigtigste deskriptorer. Man har altså indsamlet en stikprøve og undersøger med passen-

Page 2: Den eksperimentelle metode i statistik med DataMeter · tende statistik, og derved afgøre om den alene skal bygge på en af de oven-nævnte metoder eller på en passende blanding

Noter til DASG-kursus i statistik den 4. september 2009

2

de grafiske og numeriske metoder hvordan den pågældende stikprøve er struk-tureret. Det er dette niveau vi underviser i på C-niveau. På det højeste bekræftende niveau går man nu et skridt videre og vurderer dels om stikprøven kan opfattes som en repræsentativ stikprøve for en større popu-lation, dels om hvilke af de fundne karakteristika, det i givet fald er rimeligt at udstrække til hele populationen. Det er langt mere kompliceret at holde styr på denne problemstilling, der bygger på en blanding af deduktive og induktive me-toder, og det er dette niveau som resten af noten kommer til at beskæftige sig med. Det er dette niveau vi underviser i på B- og A-niveau. Men før vi kaster os over det bekræftende niveau er det vigtigt at gøre sig klart at det forudsætter en fortrolighed med det foregående beskrivende niveau, dvs. et rimeligt kendskab til simple deskriptorer som middelværdi, median og kvar-tiler, og en rimelig fortrolighed med brug af passende grafiske fremstillinger, som punktplot, histogrammer og boksplot. Først ser vi igen overordnet på den naturvidenskabelige metode. I bogen 'Na-turvidenskabeligt grundforløb – en introduktion til den naturvidenskabelig metodik' af Hans Marker, Lars Andersen, Carsten Ladegaard Pedersen og Stef-fen Samsøe (forlag Malling Beck – nu L&R uddannelse) formuleres den natur-videnskabelige metode også kaldet den hypotetisk-deduktive metode således (se diagram næste side). Den naturvidenskabelige metode kan selvfølgelig for-muleres på mange tilsvarende måder, men det afgørende er at man som ud-gangspunkt har en formodning om hvordan tingene hænger sammen, en så-kaldt arbejdshypotese, og at man på basis af eksperimenter/observationer, når frem til et empirisk resultat. Det er dette resultat, der så skal sammenholdes med arbejdshypotesen. Her skal man derfor på basis af hypotesen foretage en udledning/deduktion af hypotesens konsekvenser, der efterfølgende kan sammenholdes med de empiriske resultater. Denne diskussion af overens-stemmelsen mellem hypotese og resultater har så ideelt to mulige udfald:

1) Hypotesen bekræftes, idet der er en klar overensstemmelse mellem re-sultatet og hypotesen

2) Hypotesen forkastes, idet der er en klar modstrid mellem resultatet og hypotesen.

I praksis kan diskussionen ofte vise sig at være mudret og sammenhængen mellem resultatet og hypotesen er derfor uklar. Processen må så gå om igen. Hvis hypotesen bekræftes tilstrækkeligt mange gange – dvs. ved induktion - kan den til sidst ophøjes til en teori. Dette er et eksempel på anvendelsen af slutningsformen abduktion, hvor man slutter tilbage fra bekræftelsen af en påstands konsekvens til gyldigheden af selve påstanden. Som med induktionen er det ikke nogen sikker slutningsmetode (idet konsekvensen kunne være sand af andre årsager), men i praksis er det en særdeles anvendelig metode. Hvis hypotesen forkastes, må man i stedet opstille en ny hypotese, der så kan gøres til genstand for afprøvning osv.

Page 3: Den eksperimentelle metode i statistik med DataMeter · tende statistik, og derved afgøre om den alene skal bygge på en af de oven-nævnte metoder eller på en passende blanding

I den s

Vi obsindsamservatieksper Derefteter frespørgsså lilleså stordens, d

Note

statistiske

erverer etmle svar tionerne i rimentet/

er sammeemkommesmål er dae at det mr at det erder bryde

er til DAS

e metode

t stokastitil en spø et stokasindsamlin

enligner vet ud fraa m afvigeed rimeligr mere rim

er med nu

SG-kursus

går man n

sk fænomrgeskema

stisk fænongen gent

vi de obsea en arbeelsen melghed kan meligt at t

ul-hypotes

s i statisti

3

nu frem p

men (fx veaundersøgomen er atages.

erverede rejdshypotllem det o tilskrivestro på det

sen.

ik den 4. s

på tilsvare

d at kastegelse osv. at de varie

resultater tese (nul-observereds tilfældight er result

septembe

ende vis:

e med ter Det karaerer tilfæl

med de f-hypotesede og forvheder, elletatet af en

er 2009

rninger ellakteristiskldigt for h

forventeden): Det aventede reer om afvin systema

ler ved atke for ob-hver gang

e resulta-afgørendeesultat erigelsen eratisk ten-

t -g

-e r r -

Page 4: Den eksperimentelle metode i statistik med DataMeter · tende statistik, og derved afgøre om den alene skal bygge på en af de oven-nævnte metoder eller på en passende blanding

Det forudgelsen eren teststteststørrefor hvorn

Som det fastlægge

1) I dteslighdetud

2) I dregopnvergru

Den ek

- er en fæalle slags en vigtig mpetencen fænomen

Nul-hypo

Noter t

dsætter sr lille henhtørrelse, else. Det

når afvigel

ses er de fordeling

den ekspesen H0 og heden fort observer

dnytter i s

den teoregning på nå et udfar et indgåund for nu

ksperim

ælles metod statistiskemodellerintil at mode.

-otese

til DASG-

elvfølgeligholdsvis sidet forsker fordellsen er lill

der nu to gen af tes

erimentel på basis r at man rede. Det imulering

etiske mebasis af

fald, der eående kenulhypotes

mentelle

de, der kane test. Den

ngskompeteellere et st

-kursus i

g, at vi hastor! I denkellen meingen af le og hvor

principieststørrelse

lle metod af simulevil opnå kræver eg af stokas

etode opsnulhypote

er mindst ndskab til sen.

e metode

n bruges fon bygger påence: komtokastisk

Ekspesim

Tede

statistik d

4

ar en stann statistiskllem det odenne tesrnår den e

elt forskelen. Begge

de foretageringen opet udfald

et indgåenstiske fæn

stiller maesen H0 alige så sk de sands

e

or å -

- kræretisknormdelinghar ensomm

erimenmulerin

eoretiseduktio

den 4. sep

ndard for ke metodeobservereststørrelseer stor.

llige meto metoder

ger man epstiller ma, der er mnde kendsnomener.

an en sanaf sandsykævt som synligheds

Den teo

æver et godtke fordelingalfordelinggen osv. Dn tendens

me dosis te

ntel g

k on

ptember 2

hvad dete afgøres

ede resultae, der lev

oder vi kahar forde

en simuleran et skømindst ligskab til d

ndsynligheynlighedendet obsersfordeling

oretiske

t kendskabger: Binomgen, t-fordeen underli til at forsv

eori.

Fortest

2009

t vil sige adet ved hjat benytteerer stand

an benyttele og ulem

ring af nun over sa

ge så skæde metode

edsteoretin for at mrverede. Dger, der li

e metode

b til et antmialfordelinelingen, χ2

iggende mevinde i den

rdelingtstørre

at afvi-hjælp af es som darden

e til at mper:

ulhypo-ndsyn-

ævt som er, man

isk be-man vil Det kæ-gger til

e

tal teo-ngen, 2-for-etode

n vold-

gen af elsen

Page 5: Den eksperimentelle metode i statistik med DataMeter · tende statistik, og derved afgøre om den alene skal bygge på en af de oven-nævnte metoder eller på en passende blanding

Noter til DASG-kursus i statistik den 4. september 2009

5

- er kun praktisk mulig gennem brugen af computere. Den har nu opnået status som industristandard. Men der kræves en gennemregning af mange simuleringer (500-2500) for at kunne træffe en pålide-lig slutning.

- bygger på velkendte gennemprøvede eksakte matematiske metoder. Men resul-tatet af de teoretiske beregninger er ikke nødvendigvis mere præcist end resultatet af de eksperimentelle simuleringer. Den teoretiske metode bygger i praksis på ad-skillige tilnærmelser: de grundlæggende stokastiske variable er typisk kun ap-proksimativt normalfordelte ligesom den teoretiske fordeling for teststørrelsen er ofte kun en asymptotisk fordeling.

I undervisningsmæssig sammenhæng er det vigtigt at fastslå at der er fuld-stændig valgfrihed mellem at bruge de forskellige metoder. Det er lærerens an-svar i samspil med klassen at udvælge undervisningsstrategien for den bekræf-tende statistik, og derved afgøre om den alene skal bygge på en af de oven-nævnte metoder eller på en passende blanding af de to metoder. Susanne Chri-stensens noter bygger på den teoretiske metode, mens den foreliggende note præsenterer den eksperimentelle metode. Også i eksamenssammenhæng er der fuldstændig valgfrihed om man vil løse opgaverne ude fra den eksperimentelle metode ved simulering af nulhypotesen eller ud fra en teoretisk beregning.

Page 6: Den eksperimentelle metode i statistik med DataMeter · tende statistik, og derved afgøre om den alene skal bygge på en af de oven-nævnte metoder eller på en passende blanding

Noter til DASG-kursus i statistik den 4. september 2009

6

Hvad skal et program kunne for at kunne udføre en eksperimentel statistisk test?

Med udgangspunkt i DataMeter vil vi nu diskutere, hvad det er for egenskaber ved et regneark, der er væsentlige for at man kan udføre en eksperimentel test. Da TI-Nspire CAS deler fælles teknologi med DataMeter (Fathom) gælder de samme betragtninger for TI-Nspire CAS. Ser vi på regnearket i DataMeter er der fire ingredienser, der er afgørende:

1) Det skal være muligt at udtage dynamiske stikprøver. I DataMeter er det et menupunkt for skattekisten/datasættet (Udtag stikprøve). Der ud-tages en sammenhængende stikprøve for alle variablene i datasættet. Stikprøven består som standard af 10 elementer, udtrukket med tilbage-lægning, men disse parametre kan uden videre ændres efter behov.

2) Det skal være muligt at genberegne regnearket, så man får opdateret

simuleringen, hvad enten den bygger på tilfældighedsgeneratorer eller til-fældige stikprøver. I DataMeter sker der det enten ved hjælp af menu-punktet Gentag simUlering (CTRL U). I DataMeter er det et menupunkt (Gentag simulering CTRL U) eller ved hjælp af en knap på skattekisten.

2. Gentag simUlering: CTRL U Regnearket opdateres løben-de, men tilfældige rutiner som tilfældig() osv. genberegnes kun hvis man vælger Gentag simUlering!

4. Hurtig-graf: Hvis man trækker en enkelt eller to variab-le over i et grafrum kan man automatisk få oprettet et grafrum med et prik-diagram.

3. Datafangst: Udfør gentagne målinger Hvis man har oprettet en måling kan man fange et ønsket antal værdier automatisk, idet målingens værdier opdateres under au-tomatisk gentagne simuleringer.

1. Dynamisk stikprøve: Ved hjælp af menupunktet Udtag stik-prøve kan man udtræk-ke en tilfældig stikprøve fra en liste (po-pulationen) med eller uden tilbage-lægning.

Page 7: Den eksperimentelle metode i statistik med DataMeter · tende statistik, og derved afgøre om den alene skal bygge på en af de oven-nævnte metoder eller på en passende blanding

Noter til DASG-kursus i statistik den 4. september 2009

7

3) Det skal være muligt at samle målinger op for en valgt teststørrelse

knyttet til simuleringen. I DataMeter skal man først oprette målingen inde i selve skattekisten/datasættet ved at åbne for inspektøren i skat-tekisten og vælge fanebladet måling. Derefter er det et menupunkt for skattekisten (Udtag gentagne målinger).

4) Hurtig graf: Det skal være simpelt at oprette grafer for de optagne må-linger. De fleste regneark har indbygget simple rutiner, der tillader hurtig oprettelse af grafer for udvalgte grafer. I DataMeter sker det ved at træk-ke målingen over i et grafrum.

Med disse fire faciliteter til rådighed kan man bruge dynamiske stikprøver til at opbygge en simulering af nulhypotesen, genberegning af regnearket til at gentage simuleringen mange gang og opsamling af målinger til at samle test-størrelsen for de mange simuleringer i en særskilt liste, så man kan undersøge fordelingen af teststørrelsen nøjere, herunder vurdere p-værdien, og endelig udnytte hurtig-grafen til at danne sig et visuelt indtryk af fordelingen og der-ved få en første fornemmelse for hvor signifikant resultatet er. Resten er tekniske detaljer, hvor vi nu vil prøve at gennemarbejde et antal ca-ses, der kan vise den statistiske metode i praksis og også illustrere nogle af fa-ciliteter, der er i de dynamiske statistikprogrammer. Da det er nemmest at simulere en kendt fordeling starter vi med at se på goodness-of-fit testen. Den kan udføres på forskellig vis, men her gennemfører vi den i stor og grov detalje, så man kan se alle detaljerne – så kan man senere hen skyde forskellige elegante genveje, der dog i første omgang har en tendens til at skjule detaljerne. Bagefter diskuterer vi så hvordan man kan simulere uafhængigheden for to stokastiske variable. Her følger vi så også i første om-gang den samme lidt grove strategi fra goodness-of-fit testen, som viser tydeligt men lidt omstændeligt, hvad der foregår. Også her kan man så efterfølgende skyde forskellige elegante genveje, der tenderer til at skjule nogle af detaljerne.

Page 8: Den eksperimentelle metode i statistik med DataMeter · tende statistik, og derved afgøre om den alene skal bygge på en af de oven-nævnte metoder eller på en passende blanding

Noter til DASG-kursus i statistik den 4. september 2009

8

Eksempel 1:

I Susannes noter finder vi det følgende eksempel:

Danmarks statistiks opgørelse af indkomstfordelingen for personer over 15 år i Danmark år 2007 viser følgende billede:   

I=Indkomst i 1000 kr.  

I<50  50≤I<100  100≤I<150  150≤I<200  200≤I<300  300≤I<400  400≤I<500  500≤I 

% af be‐folkning  

6.4  9.3  17.8  12.3  24.3  18.0  6.6  5.3 

En markedsanalytiker har foretaget en undersøgelse af 1000 personers kendskab til et særdeles kostbart fladskærmsprodukt, men efterfølgende er der opstået tvivl om udvælgelsen af stikprøven, der er forgået som interviewundersøgelse over et par dage i et lokalt supermarked. Det frygtes, at stikprøven har fået for mange respondenter med i de lavere indkomstklasser. Heldigvis er der ble‐vet spurgt om folks indkomst, så man kan lave et test for, om indkomstfordelingen i stikprøven sy‐nes at komme fra et specielt segment af befolkningen og altså dermed ikke at have den samme fordeling som indkomstfordelingen i Danmark. Hvis det er tilfældet, kan man nemlig ikke generali‐sere undersøgelsens resultat til hele befolkningen.  

Indkomstfordelingen i stikprøven var:   

Observerede antal:  I=Indkomst i 1000 kr.  

I<50  50≤I<100  100≤I<150  150≤I<200  200≤I<300  300≤I<400  400≤I<500  500≤I 

Antal i stikprøven  

98  88  199  136  210  179  52  38 

Denne tabel skal nu overføres til en variabel obs i DataMeter med 1000 data. Da der er tale om rigtigt mange observationer er det ikke helt nemt at oprette den tilhørende liste. Vi benytter derfor ombyt-funktionen som vist:

Læg mærke til at kategorierne, dvs. indkomstintervallerne, indtastes med gåse-øjne! Det sker for at de skal opfattes som tekststrenge og ikke som formler. Vi

Page 9: Den eksperimentelle metode i statistik med DataMeter · tende statistik, og derved afgøre om den alene skal bygge på en af de oven-nævnte metoder eller på en passende blanding

Noter til DASG-kursus i statistik den 4. september 2009

9

har valgt af kalde dem kat1, … kat8 for at forenkle indskrivningen. Det er også muligt at indskrive dem som intervaller, men så bliver det lidt sværere at holde styr på dem! Derefter er det simpelt at oprette en graf for de observerede værdi-er, ligesom det er trivielt at få optalt hyppighederne i en beregningsboks som vist, hvor vi har trukket variablen obs ind i beregningsboksen:

Vi lægger nu ud med et mål for afvigelsen mellem de observerede og forventede hyppigheder. Som udgangspunkt er det naturligt at benytte summen af de kvadratiske afvigelser som et sådant mål:

Det er jo det centrale mål for afvigelser i mindste kvadraters metode. Men som påpeget af Karl Pearson i 1900 er det smart at ændre udtrykket til den vægtede sum

chi‐2  

Vi vil senere se på hvorfor det er smart at vægte de enkelte kvadratled på den-ne måde. VI får da brug for at kende de forventede hyppigheder, men de følger umiddelbart af opgaveteksten, idet vi i alt skal have 1000 værdier, hvorfor pro-centerne i tabellen skal ganges med 10!

Page 10: Den eksperimentelle metode i statistik med DataMeter · tende statistik, og derved afgøre om den alene skal bygge på en af de oven-nævnte metoder eller på en passende blanding

Noter til DASG-kursus i statistik den 4. september 2009

10

Tilbage er der blot at få udregnet chi2-teststørrelsen. Det kan gøres på mange måder, men vi vil vælge en metode, der kan virke lidt besværlig i første om-gang, men som er nem at anvende, når vi om lidt vil simulere nulhypotesen! VI opretter derfor en ny beregningsboksen og knytter den til datasættet observati-oner ved at trække datasættets titel ind i beregningsboksen. Derefter indskriver vi simpelthen formlen for teststørrelsen led for led som vist (idet vi gør flittig brug af kopier og indsæt undervejs, så vi kan genbruge det meste led for led!):

Spørgsmålet er så blot om 33.88 er en stor afvigelse, som er svær at forklare ud fra tilfældige fluktuationer i stikprøven, eller om det er en lille afvigelse, der sagtens kan tilskrives tilfældige udsving i stikprøven. Det kan man ikke umid-delbart sige noget om, da et tal i sig selv ikke har nogen absolut størrelse. Vi må først fastlægge en standard for den forventede størrelse af afvigelsen, hvis den kan tilskrives tilfældige udsving, dvs. vi må først simulere nul-hypotesen, før vi kan udtale os om hvorvidt teststørrelsen er stor eller lille. Denne simulering af nulhypotesen foregår nu ved at vi udtrækker stikprøver fra superpopulationen, dvs. fra den samlede danske befolkning. Heldigvis be-høver vi ikke konstruere en superpopulation, der indeholder alle danskere. Vi skal bare konstruere en ideel population, der afspejler den danske befolkning i den forstand at de forskellige indkomstgrupper netop forekommer med de samme andele som i den samlede befolkning. Denne ideelle population kan vi så trække stikprøver fra.

Page 11: Den eksperimentelle metode i statistik med DataMeter · tende statistik, og derved afgøre om den alene skal bygge på en af de oven-nævnte metoder eller på en passende blanding

Noter til DASG-kursus i statistik den 4. september 2009

11

Vi konstruere derfor nu et nyt datasæt hørende til simuleringen af nulhypote-sen med en variabel ideel, hvis værdier netop afspejler den nationale statistik over indkomstfordelingen. Oprettelsen af denne liste sker på samme måde som ved observationerne, så det nemmeste er at kopiere den forrige formel og så rette tallene til:

Denne superpopulation kan vi så afbilde som et søjlediagram:

Men hvis vi nu trækker en tilfældig person fra denne ideelle liste så vil sand-synligheden for at vedkommende har en lav indkomst mellem 0 og 50 kilokro-ner jo netop være 6.4 % og tilsvarende for de andre indkomstkategorier. Hvis vi ydermere laver udtrækningen MED tilbagelægning, så vil hver eneste person være trukket med de rigtige sandsynligheder, og indkomsten for to forskellige personer vil være uafhængige af hinanden. Vi kan nu med andre ord simulere nul-hypotesen, ifølge hvilken indkomstfordelingen for de udtrukne følger lands-fordelingen!

Page 12: Den eksperimentelle metode i statistik med DataMeter · tende statistik, og derved afgøre om den alene skal bygge på en af de oven-nævnte metoder eller på en passende blanding

Noter til DASG-kursus i statistik den 4. september 2009

12

Vi udtager stikprøven ved hjælp af menupunktet Udtag stikprøven (højreklik på datasættet Simulering af nulhypotesen). Der udtages da automatisk en forsmag på stikprøven med parametrene:

Da standarden netop foregår MED tilbagelægning kan vi bare ignorere denne parameter! Men vi skal have slået animationen fra, da de flyvende kugler ellers vil trække ud i det uendelige. Vi trækker nu 1000 tilfældige indkomstgrupper fra den ideelle fordelinger, idet vi jo skal matche de 1000 personer i den oprin-delige interviewundersøgelse, dvs. vi retter antallet af data til 1000. Dermed simulerer vi netop nulhypotesen, dvs. vi kan nu afbilde stikprøven og se hvor-dan den opfører sig, når vi gentager stikprøven ved at taste CTRL-U mange gange med datasættet for stikprøver markeret! Hver gang blafrer søjlerne i stikprøven så op og ned som udtryk for den naturlige variation i en stikprøve! Det ændrer ikke på det overordnede mønster, men det er tydeligt at de enkelte hyppigheder varierer ganske pænt og at der derfor godt kan være en vis afstand til den ideelle fordeling repræsenteret af de forventede hyppigheder. Husk at lade krydset stå i Erstat de eksisterende målinger, da vi ellers får akkumule-ret alle 'målingerne' i længere og længere stikprøver

Page 13: Den eksperimentelle metode i statistik med DataMeter · tende statistik, og derved afgøre om den alene skal bygge på en af de oven-nævnte metoder eller på en passende blanding

Noter til DASG-kursus i statistik den 4. september 2009

13

Vi skal så have udregnet afvigelsen fra den forventede fordeling, dvs. chi2-teststørrelsen. Vi kopierer da formlen fra før og sætter den ind i en beregnings-boks knyttet til datasættet Stikprøve fra simulering af nulhypotese, derefter udskifter vi som vist variablen obs med variablen ideel (hentet fra stikprøven!):

Page 14: Den eksperimentelle metode i statistik med DataMeter · tende statistik, og derved afgøre om den alene skal bygge på en af de oven-nævnte metoder eller på en passende blanding

Noter til DASG-kursus i statistik den 4. september 2009

14

Vi kan nu køre simulationen et antal gange fx 20 og lægger mærke til, at der dukker chi2-tesstørrelser op i tyverne, men ikke i trediverne. Så det synes ikke helt nemt at fange en teststørrelse på 33.8848! Vi bygger nu endeligt fordelingen af teststørrelsen op. Det kræver at vi lagrer teststørrelsen som en måling. Vi dobbeltklikker altså i datasættet for Stikprø-ver for Simulering af nulhypotesen.

Her opretter vi nu som vist målingen chi2_sim og indsætter formlen for test-størrelsen (som vi kopierer fra beregningsboksen). Derved er vejen åbnet for at udføre gentagne målinger på datasættet for Stikprøve for Simulering af nul-hypotesen (fx ved at højreklikke på datasættet). Der fanges som standard fem målinger af gangen og det kan være udmærket til en første orientering om hvad der sker:

Vi slår animationen fra, ligesom vi ikke har kryds i boksen Erstat de eksiste-rende målinger, da vi gerne vil have bygget flere og flere målinger op. Ved at tilføje en tabel og et grafrum kan vi nu få vist målingerne! Gentagne tryk på CTRL-U eller knappen med Ny målinger, viser da hvordan fordelingen af målin-gerne bygges stille og roligt op. Når vi har fået en god fornemmelse for hvad der sker kan vi så til sidst sætte antallet af målinger op så vi tager den resterende klump i et hug (men det tager til gengæld rimeligt lang tid, da vi hver gang skal håndtere en ny stikprøve på 1000 elementer).

Page 15: Den eksperimentelle metode i statistik med DataMeter · tende statistik, og derved afgøre om den alene skal bygge på en af de oven-nævnte metoder eller på en passende blanding

Noter til DASG-kursus i statistik den 4. september 2009

15

Efter 1000 forsøg er det ikke lykkedes os en eneste gang at nå op til de 33.8848 og kun en gange er det lykkedes at nå op på 25. Det er altså meget svært at simulere sig til en værdi, der er lige så ekstrem som den observerede og nulhy-potesen er derfor ikke troværdig! Den bør forkastes. Men inden vi forlader ek-semplet vil vi lige illustrere nogle flere karakteristiske egenskaber ved fordelin-gen. Middelværdien 6.89 ligger meget tæt ved 7. Det er ikke noget tilfælde: Det vægtede gennemsnit i Pearsons teststørrelse er netop valgt, så fordelingen af teststørrelsen får en middelværdi, der ligger tæt på antallet af frihedsgrader (og som er lig med antallet af frihedsgrader, når vi regner på den forventede teore-tiske fordeling af teststørrelsen). Antallet af frihedsgrader i en goodness-of-fit test svarer til antallet af hyppigheder, der kan vælges frit. I en stikprøve på 1000 elementer med 8 kategorier er der netop 7 frihedsgrader, for når vi har valgt 7 hyppigheder fastlægges den sidste af kravet om at summen af hyppig-hederne skal være 1000.

Det giver en første fornemmelse for hvornår en observeret teststørrelse er lille eller stor. Den skal i hvert fald et stykke over middelværdien, dvs. antallet af frihedsgrader, før der kan blive tale om at den er stor!

For nu at præcisere det har man truffet et valg af det såkaldte signifikansni-veau, som typisk er 5% eller 1%. Her vil vi illustrere det med 1%. For at en teststørrelse kan regnes for stor og nulhypotesen dermed for utroværdig, skal den være mindst lige så stor om de største 1% i fordelingen af den simulerede teststørrelse. Eller sagt med andre ord: Sandsynligheden for at den er frem-kommet ved et tilfælde ud fra nulhypotesen skal være mindre end 1% før vi forkaster nulhypotesen. Nu svarer 1% til 10 observationer ud af de 1000 må-linger, så vi skal have fat i de 10 største målinger. Det kan man nemt finde ud af ved at ordne målingerne efter størrelse, men da målingerne er fremkommet ved en datafangstkommando skal den slettes først før vi får lov til at ordne må-lingerne! Det tager selvfølgelig et stykke tid at ordne de 1000 målinger efter af-tagende størrelse, men til sidst falder det på plads:

Page 16: Den eksperimentelle metode i statistik med DataMeter · tende statistik, og derved afgøre om den alene skal bygge på en af de oven-nævnte metoder eller på en passende blanding

Noter til DASG-kursus i statistik den 4. september 2009

16

Vi ser da at man skal over 17,6 før en teststørrelse kan karakteriseres som stor.

Man kan også udregne den kritiske sandsynlighed, dvs. sandsynligheden for at simulere en teststørrelse, der er mindst lige så skæv som den observerede. Vi skal da tælle hvor mange af de simulerede teststørrelser, der er større end eller lig med den observerede. I vores tilfælde er der ingen, så vi kan vurdere den kritiske sandsynlighed p til at være mindre end 1/1000 = 0.1%, som ligger langt under signifikansniveauet, dvs. der er tale om en meget sjælden begiven-hed, når man observerer 33.8848, og dermed er nulhypotesen meget utrovær-dig. Men vi kan også kigge på den teoretiske fordeling af teststørrelsen. Vi vil da først omforme prikdiagrammet til et histogram med søjlebredden 1 og skalaen til densitet, dvs. der er tale om tæthedshistogram med det samlede areal 1:

Page 17: Den eksperimentelle metode i statistik med DataMeter · tende statistik, og derved afgøre om den alene skal bygge på en af de oven-nævnte metoder eller på en passende blanding

Noter til DASG-kursus i statistik den 4. september 2009

17

Vi ser da netop den karakteristiske form af chi2-fordelingen med 7 frihedsgra-der (den topper lidt før 7, men er til gengæld højreskæv!). Vi kan tegne den teo-retiske fordeling ved at plotte funktionen

chitæthed(x,7)

Vi ser da at den følger tæthedshistogrammet meget nøje. Vi kan derfor i praksis godt erstatte den eksperimentelle simulering med den teoretiske fordelingskur-ve. Det vil give samme resultat!

Hvis man først er blevet rigtig fortrolig med testen kan man endda regne direk-te på den teoretiske fordeling i en beregningsboks:

Her har vi først udregnet den kritiske sandsynlighed p ud fra den kumulerede fordeling chiSummeret(). Derefter har vi udregnet den kritiske teststørrelse ved signifikansniveauet 1% ud fra den inverse chi-funktion chiInv(). Men går man først i gang med slige beregninger kan man såmænd lige så godt udføre testet som et indbygget test!

Page 18: Den eksperimentelle metode i statistik med DataMeter · tende statistik, og derved afgøre om den alene skal bygge på en af de oven-nævnte metoder eller på en passende blanding

Noter til DASG-kursus i statistik den 4. september 2009

18

Kanonisk test af en fordeling: Vi trækker derfor testværktøjet ned og vælger menupunktet Test af en forde-ling:

Det åbner for den følgende dialogboks:

Vi skal først og fremmest angive navnet på den variabel, der repræsenterer den observerede stikprøve. Vi kan nu gå frem på to forskellige måder. Vi kan træk-ke variablen ind fra datasættet observationer (øverste linje), men vi kan også direkte indskrive de oplyste hyppigheder, hvilket selvfølgelig er langt nemmere! Vi anfører da at antallet af kategorier skal være 8 og at variabelnavnet skal væ-re fx indkomster:

Page 19: Den eksperimentelle metode i statistik med DataMeter · tende statistik, og derved afgøre om den alene skal bygge på en af de oven-nævnte metoder eller på en passende blanding

Noter til DASG-kursus i statistik den 4. september 2009

19

Vi kunne i princippet nu også gå ind og rette i navnene for kategorierne og fx indskrive indkomstintervallerne. Det vil gøre skemaet nemmere at tolke. Men som minimum skal vi nu indføre de observerede hyppigheder:

Page 20: Den eksperimentelle metode i statistik med DataMeter · tende statistik, og derved afgøre om den alene skal bygge på en af de oven-nævnte metoder eller på en passende blanding

Noter til DASG-kursus i statistik den 4. september 2009

20

Her skal vi nu passe lidt på for som standard tester den observationerne mod en nulhypotese, der siger at alle sandsynlighederne er lige store. Og det er jo netop ikke tilfældet her! Vi skal derfor klikke i nulhypotesen, dvs. den blå tekst var lige sandsynlige:

(Her kunne man selvfølgelig lige så godt klikke i teksten for den alterna-tive hypotese!). Herefter er det bare at udfylde den forventede sandsyn-lighedsfordeling. Derefter gøres testen færdigt og vi finder netop dels den velkendte teststørrelse 33.88, dels en testsandsynlighed, der er under 0,0001, dvs. langt under et hvert rimeligt signifikansniveau, hvorfor den observerede stikprøve passer meget dårligt sammen med nulhypotesen, som derfor er ekstremt utroværdig.

Page 21: Den eksperimentelle metode i statistik med DataMeter · tende statistik, og derved afgøre om den alene skal bygge på en af de oven-nævnte metoder eller på en passende blanding

Noter til DASG-kursus i statistik den 4. september 2009

21

Læg også mærke til at man kan få plottet data! Højreklik i testet og vælg me-nupunktet vis fordelingen af teststørrelsen:

Området under grafen vil faktisk være skraveret, men det kan man i dette eks-treme tilfælde først se, når man har pillet ret så kraftigt ved begge skalaerne, så man dels får den observerede teststørrelse 33.88 med ind på x-skalaen, dels får løftet gevaldigt på y-skalaen!

Page 22: Den eksperimentelle metode i statistik med DataMeter · tende statistik, og derved afgøre om den alene skal bygge på en af de oven-nævnte metoder eller på en passende blanding

Noter til DASG-kursus i statistik den 4. september 2009

22

Bemærkning: Læg mærke til at når man højreklikker i testet får man også mulighed for at trække reulstaterne ud som målinger! Det er uinteressant for den observerede stikprøve (som giver det samme hele tiden), men det er interessant for den simulerede stikprøve. Her kan man trække variablen ideel ind i testets øverste linje og får så netop udregnet den simulerede teststørrelse (og faktisk også p-værdien). Trækkes de ud som målinger kan man derfor nu få opbygget fordelingen for tesstørrelsen såvel som for p-værdien (der er ligefordelt over intervallet [0;1], idet alle simuleringerne er lige sandsynlige!)

Page 23: Den eksperimentelle metode i statistik med DataMeter · tende statistik, og derved afgøre om den alene skal bygge på en af de oven-nævnte metoder eller på en passende blanding

Noter til DASG-kursus i statistik den 4. september 2009

23

Et uafhængighedstest Som det sidste eksempel vil vi se på et uafhængighedstest, der samtidigt giver os mulighed for at demonstrere, hvordan man kan simulere uafhængighed af to stokastiske variable. Vi lægger ud med et fiktivt talmateriale1 der skal forestille resultatet af en spørgeskemaundersøgelse, hvor man vil belyse en eventuel sammenhæng mellem unges tøjforbrug og deres køn: Adskiller kvinder og mænd sig i deres tøjforbrug? Her er et lavt forbrug sat til at udgøre højst 1500 kr. om måneden og et højt forbrug er sat til at udgøre mindst 1500 kr. om må-neden.

køn\forbrug lavt højt i alt kvinder 98 102 200 mænd 60 100 160 i alt 158 202 360

Disse tal udgør altså vores observation. Som udgangspunkt vil vi nu teste nulhypotesen, der udsiger at der ingen sammenhæng er mellem køn og for-brug. Vi lægger da ud med at konstruere et datasæt ud fra de givne observatio-ner. Det er dette datasæt, vi vil basere vores simulering af nulhypotesen på, men først skal det opbygges. Vi skal altså som i det foregående eksempel have konstrueret variable køn og forbrug, der afspejler de fundne hyppigheder. Det sker som i det foregående eksempel ved hjælp af en ombyt-kommando: Først skal vi have opbygget listen for køn, der altså skal bestå af 200 kvinder og 160 mænd (se søjletotalerne). Så det er nemt nok. Derefter skal vi have op-bygget listerne for forbrug og det er mere kringlet: Først er der de 200 kvinder, hvoraf 98 har lavt forbrug og 102 har højt forbrug. Derefter er der de 160 mænd, hvoraf de 60 har lavt forbrug og de 100 har højt forbrug:

1 Hentet fra et udkast til noter om chi-i-anden fordelingen af E. Susanne Christensen. Lektor i statistik. Institut for Matematiske Fag. Aalborg Universitet.

Page 24: Den eksperimentelle metode i statistik med DataMeter · tende statistik, og derved afgøre om den alene skal bygge på en af de oven-nævnte metoder eller på en passende blanding

Noter til DASG-kursus i statistik den 4. september 2009

24

Vi kan så passende checke i en beregningsboks, at det er den korrekte kryds-tabel vi har fået opbygget ved at trække køn og forbrug ned i hver sin ræk-ke/søjle:

Vi kan nu også checke rådata ved at oprette søjlediagrammer for køn splittet på forbrug (idet den anden variabel forbrug trækkes direkte ind i grafrummet!). I DataMeter kan vi endda få konverteret søjlediagrammet til et blokdiagram, hvor vi direkte kan sammenligne andelene: Hvis der var perfekt lige store ande-le, ville de to andele ligge lige højt, dvs. skillekurven ville være en vandret kur-ve. Men her ses det klart at det dyre tøjforbrug hos mænd (hvor det udgør 62,5%) ligger noget højere end det tilsvarende forbrug hos kvinder (hvor det udgør 51,0%):

Page 25: Den eksperimentelle metode i statistik med DataMeter · tende statistik, og derved afgøre om den alene skal bygge på en af de oven-nævnte metoder eller på en passende blanding

Noter til DASG-kursus i statistik den 4. september 2009

25

Bortset fra at vi har fået byttet om på rækkefølgen af højt forbrug og lavt for-brug, har vi genskabt tabellen i grafisk form. Vi ser også at mænd har et noget højere forbrug end kvinder, men spørgsmålet er om det er nok til at være signi-fikant? For at afgøre det må vi først udregne teststørrelsen, dvs. forskellen mel-lem de observerede og forventede antal. Vi finder da først de forventede antal ved som forklaret i noterne at gange søjletotaler med rækketotaler og dividere med det samlede antal, dvs. her 360:

Page 26: Den eksperimentelle metode i statistik med DataMeter · tende statistik, og derved afgøre om den alene skal bygge på en af de oven-nævnte metoder eller på en passende blanding

Noter til DASG-kursus i statistik den 4. september 2009

26

(Rækketotal og Søjletotal findes som specielle funktioner i bunden af lomme-regneren. På grund af en oversættelsesfejl i datameter har vi desværre ikke ad-gang til den specielle funktion samlet total). Det er altså nemt finde de forven-tede antal og sammenligne dem med de observerede antal. Faktisk findes der en indbygget funktion Forventet, der udregner dem helt af sig selv! Men så kan vi jo finde teststørrelsen ved hjælp af samme teknik som ved Goodness-of_fit testen:

Afvigelsen mellem de observerede og forventede antal fører altså til teststørrel-sen 4,77353 og spørgsmålet er så som sædvanligt om det er et lille elle stort tal! For at undersøge det vil vi simulere uafhængigheden af de to variable (dvs. vi vil simulere nulhypotesen) ved at røre rundt i den ene variabel, dvs. permu-tere rækkefølgen helt tilfældigt, så vi bryder enhver sammenhæng mellem vær-

Page 27: Den eksperimentelle metode i statistik med DataMeter · tende statistik, og derved afgøre om den alene skal bygge på en af de oven-nævnte metoder eller på en passende blanding

Noter til DASG-kursus i statistik den 4. september 2009

27

dien for køn og værdien for forbrug. Vi vælger at røre rundt i køn og benytter derfor menupunktet

Rør rundt i en variabel hvorved vi får konstrueret et nyt datasæt, hvor der som udgangspunkt er rørt rundt i den første variabel. Men det er netop variablen køn!

Læg mærke til hvordan der er dukket mænd op blandt de første 15 adspurgte! Vi kan nu udregne krydstabellen for de omrørte data, dvs. for simuleringen af nulhypotesen ved at trække de omrørte variable ned i en beregningsboks. Læg mærke til at randværdierne, dvs. rækketotalerne og søjletotalerne er de samme som i vores observationer. Det er kun kombinationerne, der skifter værdier.

Page 28: Den eksperimentelle metode i statistik med DataMeter · tende statistik, og derved afgøre om den alene skal bygge på en af de oven-nævnte metoder eller på en passende blanding

Noter til DASG-kursus i statistik den 4. september 2009

28

Med udgangspunkt i simuleringen skal vi nu opbygge teststørrelsen, dvs. chi-kvadratet. Vi bruger da den samme formel som før, men denne gang indsættes den i en beregningsboks knyttet til de omrørte data

Vi kan nu simulere nulhypotesen ved at markere datasættet for de omrørte da-ta og taste CTRL-U (eller trække lidt i datasættet, så vi får adgang til knappen Ny omrøring):

Vi ser da at det er ikke helt nemt at fange en teststørrelse, der er mindst lige så skæv som den observerede. Fx lykkedes det ikke for mig de første tyve gange. For nu at kvalificere afgørelsen går vi på datafangst. Det kræver at vi lagrer teststørrelsen som en måling. Vi dobbeltklikker altså i datasættet for Omrø-ring af Køn og tøjforbrug.

Her opretter vi nu som vist målingen chi2_sim og indsætter formlen for test-størrelsen (som vi kopierer fra beregningsboksen). Derved er vejen åbnet for at udføre gentagne målinger på datasættet for Omrøring af Køn og tøjforbrug (fx ved at højreklikke på datasættet). Der fanges som standard fem målinger af gangen og det kan være udmærket til en første orientering om hvad der sker:

Page 29: Den eksperimentelle metode i statistik med DataMeter · tende statistik, og derved afgøre om den alene skal bygge på en af de oven-nævnte metoder eller på en passende blanding

Noter til DASG-kursus i statistik den 4. september 2009

29

Vi slår animationen fra, ligesom vi ikke har kryds i boksen Erstat de eksiste-rende målinger, da vi gerne vil have bygget flere og flere målinger op. Ved at tilføje en tabel og et grafrum kan vi nu få vist målingerne! Gentagne tryk på CTRL-U eller knappen med Ny målinger, viser da hvordan fordelingen af må-lingerne bygges stille og roligt op. Når vi har fået en god fornemmelse for hvad der sker kan vi så til sidst sætte antallet af målinger op så vi tager den reste-rende klump i et hug.

Sandsynligheden for at finde en simuleret observation, der er lige så skæv som den faktisk observerede (hvor vi har rundet ned for at være sikre på at få dem alle sammen med!) er altså 3.9%2. Den er med andre ord forholdsvis sjælden, da p-værdien ligger under den kritiske grænse på 5% (signifikansniveauet) og vi afviser derfor nulhypotesen. Vi har med andre ord påvist en statistisk sam-menhæng mellem køn og forbrug. Det behøver dog ikke være en kausal årsags-sammenhæng, idet der kan være skjulte variable, vi ikke har inddraget, som i virkeligheden er ansvarlige for sammenhængen Her ser vi nu nærmere på fordelingen af teststørrelsen, hvor vi tilføjer middel-værdien for teststørrelsen:

2 Det ligger en lille smule højt i forhold til den teoretiske værdi på 2.9%. Fortsætter man simu-leringerne med yderligere 1000 målinger falder den til 3.55%. Og så er den teoretiske værdi jo kun en approksimativ værdi.

Page 30: Den eksperimentelle metode i statistik med DataMeter · tende statistik, og derved afgøre om den alene skal bygge på en af de oven-nævnte metoder eller på en passende blanding

Noter til DASG-kursus i statistik den 4. september 2009

30

Som forventet ligger middelværdien 1,02312 meget tæt på 1, som netop er an-tallet af frihedsgrader for en 2×2 tabel. Ved at omdanne prikdiagrammet til et histogram kan vi til sidst sammenligne med den teoretiske fordeling. Vi benytter intervalbredden 0.5 og sætter skala-en til tæthed, dvs. der er tale om tæthedshistogram med det samlede areal 1:

Vi ser da netop den karakteristiske form af chi2-fordelingen med 1 frihedsgrad. Vi kan tegne den teoretiske fordeling ved at plotte funktionen

chitæthed(x,1)

Page 31: Den eksperimentelle metode i statistik med DataMeter · tende statistik, og derved afgøre om den alene skal bygge på en af de oven-nævnte metoder eller på en passende blanding

Noter til DASG-kursus i statistik den 4. september 2009

31

Vi ser da at den følger tæthedshistogrammet meget nøje. Vi kan derfor i praksis godt erstatte den eksperimentelle simulering med den teoretiske fordelingskur-ve. Det vil give samme resultat!

Hvis man først er blevet rigtig fortrolig med testen kan man endda regne direk-te på den teoretiske fordeling i en beregningsboks:

Her har vi først udregnet den kritiske sandsynlighed p = 2.89% ud fra den ku-mulerede fordeling chiSummeret(). Derefter har vi udregnet den kritiske test-størrelse 3,84 ved signifikansniveauet 5% ud fra den inverse chi-funktion chiInv(). Men går man først i gang med slige beregninger kan man såmænd lige så godt udføre testet som et indbygget test!

Page 32: Den eksperimentelle metode i statistik med DataMeter · tende statistik, og derved afgøre om den alene skal bygge på en af de oven-nævnte metoder eller på en passende blanding

Noter til DASG-kursus i statistik den 4. september 2009

32

En kanonisk chi2-test for uafhængighed Vi trækker derfor testværktøjet ned og vælger menupunktet Test af en forde-ling:

Det åbner for den følgende dialogboks:

Vi skal først og fremmest angive navnene på de to variable, der repræsenterer den observerede stikprøve. Vi kan nu gå frem på to forskellige måder. Vi kan trække variablene ind fra datasættet Køn og tøjforbrug (øverste linje), men vi kan også direkte indskrive de oplyste hyppigheder, hvilket selvfølgelig er langt nemmere! Vi anfører da at antallet af kategorier skal være 2 for begge variabel-navnene og at variabelnavnene skal være køn og forbrug:

Page 33: Den eksperimentelle metode i statistik med DataMeter · tende statistik, og derved afgøre om den alene skal bygge på en af de oven-nævnte metoder eller på en passende blanding

Noter til DASG-kursus i statistik den 4. september 2009

33

Læg mærke til at vi også kan gå ind og rette i navnene for kategorierne! Det vil gøre skemaet nemmere at tolke. Men som minimum skal vi nu indføre de ob-serverede hyppigheder:

Der ved gøres testen færdigt (inklusive beregning af de forventede værdi-er) og vi finder netop dels den velkendte teststørrelse 4,77, dels en test-sandsynlighed, der er 2,9%, dvs. et stykke under signifikansniveauet på 5%, hvorfor den observerede stikprøve passer dårligt sammen med nul-hypotesen, som derfor er utroværdig.

Page 34: Den eksperimentelle metode i statistik med DataMeter · tende statistik, og derved afgøre om den alene skal bygge på en af de oven-nævnte metoder eller på en passende blanding

Noter til DASG-kursus i statistik den 4. september 2009

34

Læg også mærke til at man kan få plottet data! Højreklik i testet og vælg me-nupunktet vis fordelingen af teststørrelsen:

Området under grafen vil da være skraveret, så man kan se det kritiske områ-de:

Bemærkning: Læg mærke til at når man højreklikker i testet får man også mulighed for at trække reulstaterne ud som målinger! Det er uinteressant for den observerede stikprøve (som giver det samme hele tiden), men det er interessant for den simulerede stikprøve, dvs. omrøringen af køn og tøjforbrug. Her kan man trække variablene køn og forbrug ind i testets øverste linje og får så netop udregnet den simulerede teststørrelse (og faktisk også p-værdien). Trækkes de ud som målinger kan man derfor nu få opbygget fordelingen for tesstørrelsen såvel som for p-værdien (der er ligefordelt over intervallet [0;1], idet alle simuleringerne er lige sandsynlige!). Her er resultatet af 1000 målinger af p-værdien: