Gegevens en hun context

Statistiek voor het secundair onderwijs Gegevens en hun context

Gegevens en hun context Basisvragen bij statistisch cijfermateriaal

Prof. dr. Herman Callaert Tabellen, grafieken en kengetallen zijn interessant om een groot aantal gegevens samen te vatten. Maar het basismateriaal voor elke studie zijn natuurlijk de oorspronkelijke gegevens zelf, samen met de informatie over de manier waarop ze werden verzameld. Onderstaande tekst vestigt de aandacht op de belangrijke vragen die je bij het interpreteren van gegevens moet kunnen beantwoorden.

Inhoud 1. Gegevensverzameling ................................................................................................ 1

1.1. Elementen ......................................................................................................... 3 1.2. Veranderlijken ................................................................................................. 3 1.3. Soorten veranderlijken .................................................................................... 4

1.3.1. Kwalitatieve veranderlijken .................................................................. 4 1.3.2. Kwantitatieve veranderlijken ............................................................... 6 1.3.3. Wijze van opmeten ................................................................................. 7

2. De context van een statistische studie ...................................................................... 8

2.1. De basisvragen ................................................................................................. 8 2.2. De concrete uitwerking .................................................................................... 9 2.3. Voorbeelden .................................................................................................... 10

2.3.1. Californische gezinnen ......................................................................... 10 2.3.2. Fisher’s Iris data .................................................................................. 11 2.3.3. Hamburgers en “other stuff” .............................................................. 12 2.3.4. De schoolbevolking ............................................................................... 13 2.3.5. De Titanic .............................................................................................. 15 2.3.6. Zelf een gegevensverzameling opstellen. ............................................ 16

Centrum voor Statistiek


Centrum voor Statistiek 1

1. Gegevensverzameling. Op de website van het WIV (Wetenschappelijk Instituut Volksgezondheid) kan je allerlei informatie vinden over de veiligheid van de voedselketen, over het leefmilieu en over de volksgezondheid. Probeer bijvoorbeeld eens volgende stappen op het internet. Surf naar http://www.iph.fgov.be/ en klik dan op: Nederlandstalige versie Departementen & Afdelingen Afdeling Epidemiologie Gezondheidsenquête Resultaten Interactieve analyses Tabellen Gebruik van alcohol Alcoholgebruik tijdens het weekend, en druk dan op de “OK” knop. Je mag nu drie parameters kiezen, bijvoorbeeld “Geslacht”, “Leeftijdsgroep”, en “Provincie”. Klik op 2001 voor de resultaten van dat jaar. Verder kan je de gekozen parameters specifiëren. Bij “Geslacht” klik je op “De beide sexen”, bij “Leeftijdsgroep” kan je bijvoorbeeld “15-24” selecteren, en bij “Provincie” kies je “Limburg”. Je krijgt dan volgende informatie.

Bovenstaande tabel geeft een samenvatting van een klein deel van de gegevens die door middel van interviews werden bekomen in de gezondheidsenquête van 2001 in België. Je bemerkt dat in die enquête 62 Limburgers uit de leeftijdsgroep van 15 tot 24 jaar werden ondervraagd. Eén van de vele vragen uit de vragenlijst was “Drinkt u gewoonlijk alcoholische dranken tijdens het weekend (vrijdag tot zondag)?”. Meer dan 50% van die 62 Limburgers antwoordde bevestigend. De gegevens zijn ook opgesplitst volgens geslacht, zodat je het gedrag van meisjes kan vergelijken met dat van jongens wat betreft alcoholgebruik tijdens het weekend. Maar je mag uit deze tabel niet zomaar conclusies trekken. In Limburg woonden er in 2001 ongeveer 104 000 mannen en vrouwen die tot de leeftijdsgroep 15-24 behoorden, en daarvan zijn er in de tabel slechts 62 vertegenwoordigd. Bovendien zegt een “ja / neen” antwoord helemaal niets over de “hoeveelheid” alcohol die gedronken wordt.

http://www.iph.fgov.be/



Tabellen, grafieken en kengetallen zijn allemaal interessant om een groot aantal gegevens overzichtelijk samen te vatten. Maar het basismateriaal voor elke studie zijn natuurlijk de oorspronkelijke gegevens zelf, samen met informatie over de manier waarop die werden verzameld. Een tweede voorbeeld, ook uitgevoerd in het kader van de volksgezondheid, halen we uit Californië, waar, in de jaren zeventig, een uitgebreide gegevensverzameling werd aangelegd bij de geboorte van een kind. Er werden toen heel veel kenmerken van dat kind opgeschreven (geslacht, bloedgroep, gewicht, lengte, tijdstip van geboorte, …), samen met kenmerken van de vader en de moeder (leeftijd, gewicht, lengte, sociale status, rookgedrag, …). Tien jaar later werd elk gezin opnieuw onderzocht. Het tienjarige kind legde toen verschillende psychologische testen af. Ook de klassieke opmetingen (zoals lengte en gewicht) werden opnieuw genoteerd, zowel van het kind als van de ouders. Een heel klein stukje uit die gegevensverzameling (ook gegevensbank, databank, of dataset genoemd) ziet er als volgt uit.

ID SEX BLGK1 LGTK1 GEWK1 LFTM1 GEWM1 GEWM2 LFTV1 SIGV1 SIGV21 J B 53.3 3.810 22 54.9 60.3 23 0 0 2 J AB 55.9 3.720 25 64.4 73.9 25 20 30 3 M O 50.8 3.180 36 56.2 66.2 42 0 0 4 M O 50.8 2.990 25 65.8 59.0 30 30 50 5 J A 50.8 2.900 25 42.2 47.2 32 3 5 6 M A 55.9 4.350 42 68.0 78.5 40 0 0 7 M AB 49.5 2.770 19 48.1 53.1 33 20 15 8 M A 53.3 3.670 36 55.8 57.6 43 6 0 9 J A 52.1 3.080 24 62.1 71.7 26 0 0 10 J A 50.8 3.220 21 49.9 51.7 28 0 0 11 M A 49.5 2.680 25 59.4 55.8 33 0 0 12 J B 53.3 4.220 36 64.4 64.4 42 0 0 13 M O 49.5 2.720 22 45.8 50.3 23 0 0 14 M A 49.5 3.670 22 61.2 60.3 30 0 0 15 J A 48.3 2.180 38 61.2 68.0 39 0 0

Bovenstaande tabel is typisch voor elk statistisch onderzoek. Gegevens moeten altijd in hun context bekeken worden, want die is belangrijk voor de verdere analyse. De minimale vragen die je bij gegevensbanken moet kunnen beantwoorden zijn: “Welke elementen zijn er hier onderzocht?”, “Welke veranderlijken zijn er bij elk element opgemeten?” en “Hoe heeft het onderzoek plaatsgevonden?”.



1.1. Elementen. “Elementen” is de verzamelnaam voor de objecten die in een statistische studie worden onderzocht. Dit kunnen personen zijn (kinderen, Vlamingen, vrouwen, …), of dieren (paarden, muizen, apen, …), of planten (irissen, eiken, tomaten, …), of zaken (gemeenten, auto’s, ringen, …). Bij het opschrijven van de gegevens komen de elementen terecht op de rijen van een rechthoekig schema (matrix). Bij elke rij hoort juist één element. In ons voorbeeld bestaan de elementen uit Californische gezinnen die in 1961 een baby kregen. Elke rij stelt dus zo’n gezin voor. Deze gezinnen hebben in de gegevensbank geen naam gekregen, maar enkel een identificatienummer (afgekort door ID). Het is niet ongewoon dat elementen enkel met een code worden geïdentificeerd wanneer de gegevens te maken hebben met “privacy” of met het “medisch geheim”. Afhankelijk van het type onderzoek kom je voor het woord “element” ook meer specifieke namen tegen, zoals “respondent” (bij een enquête), “patiënt” (bij een klinische studie), of “individu”, “deelnemer”, “geval”, enz..

1.2. Veranderlijken. Per element worden bepaalde eigenschappen opgemeten, en de resultaten hiervan komen terecht in de kolommen van de matrix. Elke kolom draagt een naam, om aan te geven over welke eigenschap het juist gaat. Een eigenschap die men aldus opmeet wordt een veranderlijke genoemd. De naam geeft dikwijls geen voldoende informatie over de context van de opmetingen. Daarom is het nodig om een precieze beschrijving van de veranderlijken te voegen bij de gegevensbank. Als je bijvoorbeeld ziet staan dat het gewicht van iemand gelijk is aan 100, dan is het wel belangrijk om te weten of dit gewicht opgemeten is in kilogram of in Engelse ponden. In het voorbeeld van de Californische databank kunnen we de veranderlijken als volgt omschrijven:

ID identificatienummer van het gezin SEX geslacht van het kind (M=meisje, J=jongen) BLGK1 bloedgroep van het kind (O A B AB) LGTK1 lengte (in cm) van het kind bij de geboorte GEWK1 gewicht (in kg) van het kind bij de geboorte LFTM1 leeftijd (in jaren) van de moeder bij de geboorte van het kind GEWM1 gewicht (in kg) van de moeder bij de geboorte van het kind GEWM2 gewicht (in kg) van de moeder tien jaar later LFTV1 leeftijd (in jaren) van de vader bij de geboorte van het kind SIGV1 sigaretten (in aantal per dag) gerookt door de vader in 1961 SIGV2 sigaretten (in aantal per dag) gerookt door de vader tien jaar later



1.3. Soorten veranderlijken. De methode die je bij je statistische analyse gebruikt wordt voor een deel bepaald door het soort gegevens waarover je beschikt. Maar ook de manier waarop je sommige gegevens zelf codeert of in groepen samenvat bepaalt mede welke statistische analyse je kan uitvoeren.

1.3.1. Kwalitatieve veranderlijken. Kwalitatieve veranderlijken beschrijven eigenschappen op een manier waarbij “wiskundige bewerkingen” niet zinvol toe te passen zijn. We onderscheiden twee soorten.

- Nominale categorische veranderlijken. Op het meest eenvoudige niveau gebruik je een gegeven enkel als een “naam” (een “label”) om een categorie te identificeren. In de meeste gevallen beperkt men zich tot een klein aantal uitkomstencategorieën. Als die categorieën zelf geen logische volgorde bezitten dan spreekt men over nominale (nomen = naam) categorische gegevens. De gegevens in de kolom “BLGK1” van onze databank zijn van dergelijk type. De letters O A B AB worden gebruikt om de bloedgroep aan te duiden, en doen dus enkel dienst als identificatie van de bloedgroep van het kind. Je bemerkt dat op die manier elk element dat in je databank terechtkomt (elk gezin) op een éénduidige manier in één en slechts één categorie terechtkomt (namelijk in de categorie waartoe de bloedgroep van het kind behoort). Men zegt dan dat “BLGK1” een categorische veranderlijke is, en dat “O A B AB” een categorisch systeem vormt. Hiermee wordt bedoeld dat elke mogelijke uitkomst steeds in één van de aangegeven categorieën terechtkomt, en dat er geen overlappende categorieën zijn (je kan niet gelijktijdig bloedgroep O en bloedgroep A hebben). Bemerk ook dat er geen logische volgorde zit in het opnoemen van de bloedgroepen (je kan evengoed over A B AB O spreken), zodat je hier met nominale categorische gegevens te maken hebt. Een ander voorbeeld uit onze databank is de veranderlijke “SEX”. Ook deze veranderlijke is gecodeerd als een categorisch systeem (een baby is ofwel een meisje ofwel een jongen, niets anders en ook niet beide tegelijkertijd). Een categorisch systeem waarbij er slechts twee categorieën bestaan wordt ook wel eens een dichotomie genoemd. En aangezien je ook hier bij het aangeven van de mogelijkheden voor het geslacht zowel M J kan zeggen als J M is deze veranderlijke nominaal. Soms gebeurt het dat nominale categorische gegevens opgetekend zijn met behulp van getallen. In dergelijke gevallen gebruik je die getallen alleen maar als “naam” of als “identificatie”. Dat is bijvoorbeeld het geval bij de rugnummers op internationale danswedstrijden. Niemand denkt eraan om met die rugnummers wiskundige bewerkingen te maken, zoals optellen of het gemiddelde berekenen.



- Ordinale categorische veranderlijken.

Soms gebeurt het dat een veranderlijke gecodeerd wordt in categorieën, waarbij deze categorieën zinvol te ordenen zijn. In dit geval spreekt men over een ordinale categorische veranderlijke. Dikwijls gebruikt men hier een codering met getallen. Dit is handig maar ook zeer gevaarlijk, en je moet dergelijke getallen altijd met grote omzichtigheid behandelen. Je mag die getallen niet letterlijk interpreteren zoals in de wiskunde, maar anderzijds leveren wiskundige bewerkingen met dergelijke getallen soms resultaten op die wel op een zinvolle manier te interpreteren zijn. Nadat een leraar je heeft uitgelegd welke soort veranderlijken er allemaal bestaan, kan je je mening geven over de snelheid waarmee die uitleg gebeurde. Je kan daarbij kiezen tussen 5 getallen: 1 = veel te traag 2 = te traag 3 = juist goed 4 = te snel 5 = veel te snel Je bemerkt hier dat er duidelijk een zinvolle volgorde in de categorieën te bespeuren valt. Bovendien kan je bepaalde wiskundige bewerkingen uitvoeren die (met voorzichtigheid) zinvol kunnen worden geïnterpreteerd. Als in de ene klas het gemiddelde van de antwoorden gelijk is aan 2 en in de andere klas 4, dan kan je daaruit afleiden dat de leerlingen van de ene klas het tempo trager vonden dan de leerlingen uit de andere klas. Maar uit het feit dat 4 het dubbele is van 2 mag je hier niet afleiden dat de uitleg in die klas juist dubbel zo snel gegeven werd als in de andere klas. Bovendien is de “afstand” tussen getallen niet hetzelfde als de “afstand” tussen de categorieën die zij coderen. Bij getallen is de afstand tussen 3 en 2 dezelfde als tussen 2 en 1 (namelijk 1), maar dit betekent niet dat het verschil tussen “veel te traag” en “traag” exact hetzelfde is als het verschil tussen “traag” en “juist goed”. Een bijkomend probleem is de keuze van de getallen die je gebruikt om te coderen. Wat dacht je van: – 2 = veel te traag – 1 = te traag 0 = juist goed 1 = te snel 2 = veel te snel Als je nu dezelfde wiskundige bewerkingen uitvoert, dan heeft de ene klas een gemiddelde van – 1 en de andere heeft + 1 als gemiddelde. Hier is het ene gemiddelde nu plots niet meer “het dubbele” van het andere.



1.3.2. Kwantitatieve veranderlijken.

Kwantitatieve veranderlijken beschrijven eigenschappen op een manier waarbij “wiskundige bewerkingen” zinvol zijn. Hierbij zijn de gegevens zelf als getallen uitgedrukt. Daarom noemt men kwantitatieve gegevens soms ook numerieke gegevens. Klassieke voorbeelden zijn: lengte, gewicht, leeftijd, kinderaantal, temperatuur, enz. Kwantitatieve gegevens hebben bijhorende eenheden, en het is belangrijk dat die altijd duidelijk worden vermeld. In onze databank beschrijft de veranderlijke “LGTK1” de lengte van het kind bij de geboorte. Er is aangegeven dat die lengte is opgemeten in centimeter. Ook “LFTV1” is een kwantitatieve veranderlijke, en die geeft aan hoe oud de vader was toen de baby geboren werd. De leeftijd van die vader is uitgedrukt in jaren. Wiskundige bewerkingen op kwantitatieve gegevens leiden tot getallen die op een zinvolle manier kunnen geïnterpreteerd worden. Maar ook hier is het gebruik van enig gezond verstand wenselijk. Het verschil tussen 4.22 en 3.22 is 1 en aangezien de geboortegewichten in kg zijn uitgedrukt zie je dat de baby van “gezin 12” 1 kg meer woog dan het kindje van “gezin 10”. Maar een mededeling dat Vlaamse gezinnen gemiddeld 1.5 kinderen hebben, bevat nuttige informatie die je toch maar best niet te letterlijk opvat. In speciale gevallen (die je niet zo heel dikwijls ontmoet) is er geen rechtstreeks verband tussen de getallen en de werkelijkheid. Dat is bijvoorbeeld het geval bij temperatuur. Het is zeker waar dat 40 °C dubbel zo veel is als 20 °C, maar van een eerste emmer met water van 40 °C kan je niet zeggen dat die “dubbel zo warm” is als een tweede emmer met water van 20 °C. Want als je bij beide emmers de temperatuur opmeet in graden Fahrenheit dan vind je 104 °F voor de eerste emmer en 68 °F voor de tweede.

- Discrete kwantitatieve veranderlijken. Sommige eigenschappen worden beschreven door hun aantal te tellen. Dat levert dan enkel gehele getallen op, zoals het aantal kinderen van een gezin, het aantal weekend ongevallen, of SIGV1, wat de notatie was voor het aantal sigaretten dat per dag door de vader werd gerookt. Gegevens die enkel maar discrete uitkomsten kunnen opleveren worden discrete veranderlijken genoemd. Voor dergelijke gegevens bestaan eigen statistische methoden.

- Continue kwantitatieve veranderlijken. Bij heel wat kwantitatieve veranderlijken (zoals lengte, gewicht, tijdsduur) stellen we ons een continuüm van mogelijke uitkomsten voor. Dergelijke veranderlijken worden continue veranderlijken genoemd. De veranderlijke “GEWM2” in onze databank beschrijft het gewicht (in kg) van de moeder bij het controlebezoek, tien jaar na de geboorte van het kind. De opmetingen zijn hier afgerond tot op één cijfer na het decimale punt. Bij continue gegevens moet je bij het opschrijven ervan altijd ergens afronden. Maar in theorie denk je toch aan een continuüm. Een voldoende precieze weegschaal zou je misschien in staat stellen om die gewichten tot op vijf decimalen te noteren. Dit is meestal niet nodig, en hoe fijn je moet opmeten hangt af van de context en van de vraagstelling. Maar als karakteristiek van de veranderlijke zelf blijf je denken aan een continuüm van mogelijke uitkomsten, en in dit geval gebruik je dan ook de aangepaste statistische technieken.



1.3.3. Wijze van opmeten. De manier waarop veranderlijken worden opgemeten kunnen mee bepalen tot welke soort zij horen. Bij leeftijd denk je automatisch aan een continue kwantitatieve veranderlijke, en dat is ook logisch. Als het over de leeftijd van mensen gaat dan denk je aan een continuüm van waarden in een interval dat loopt vanaf nul tot zeg maar 130. Bij de veranderlijke “LFTM1” in onze databank kan je vermoeden dat een interval van 10 tot 60 al ruimschoots voldoende is, want het gaat hier over de leeftijd van de moeder bij de geboorte van haar kind. In sommige studies wordt leeftijd opgesplitst in deelintervallen, en wordt enkel genoteerd in welk deelinterval iemand thuishoort. Men werkt dan bijvoorbeeld met intervallen van de vorm [0 , 10[, [10 , 20[, enz., waarbij de klassengrenzen in jaren worden uitgedrukt. Of je kan werken met de categorieën “kinderen”, “jongeren” en “volwassenen”. Je moet dus telkens goed kijken naar de manier waarop veranderlijken zijn opgemeten en naar wat men er uiteindelijk wil mee doen in de studie waarin zij voorkomen. Een ander voorbeeld is “onderwijs”. Soms is het nodig om een kwalitatieve nominale schaal te gebruiken (gemeenschapsonderwijs, provinciaal en gemeentelijk onderwijs, vrij onderwijs). Bij andere studies komt een kwalitatieve ordinale schaal van pas (basisonderwijs, secundair onderwijs, hoger onderwijs). In nog andere gevallen werk je op de kwantitatieve schaal (het aantal jaren “genoten” onderwijs).



2. De context van een statistische studie. Waarom, waar, wanneer, hoe, wie en wat: dit zijn de vragen die bij elk statistisch onderzoek moeten gesteld worden. Hierbij vragen “waarom, waar, en wanneer” naar de bedoeling van de studie en situeren zij haar in een precies kader van plaats en tijd. Hoe dan de verdere concrete uitwerking moet verlopen wordt gegeven in het antwoord op “hoe, wie, en wat”. In de praktijk staan deze vragen niet los van elkaar en is er heel wat wisselwerking over en weer vooraleer het volledige scenario (of draaiboek, of protocol) van een statistische studie is uitgewerkt.

2.1. De basisvragen. WAAROM? Elke statistische studie vertrekt vanuit een vraag. Daarbij is het de bedoeling om,

aan de hand van cijfermateriaal, een zo betrouwbaar mogelijk antwoord op deze vraag te geven. Initieel kan deze vraag redelijk precies geformuleerd zijn, zoals “is het waar dat momenteel in Vlaanderen de leerlingen van het secundair onderwijs veel te zware boekentassen naar school meenemen?”. In andere situaties kan de oorspronkelijke vraag veel vager zijn. Zo kan een minister van volksgezondheid zijn beleid willen afstemmen op de realiteit, en de vraag stellen om “gegevens over de volksgezondheid in België” bij te houden. Bij een dergelijke vraag is er eerst nog heel wat overleg nodig tussen artsen, epidemiologen, demografen en statistici, vooraleer er ook maar kan gestart worden met de concrete uitvoering.

Bij het opstellen van een statistische studie, maar ook bij het lezen van de resultaten van dergelijke studie, is het antwoord op de “waarom?” vraag meestal heel verhelderend. Waarom werd nu precies die bepaalde studie uitgevoerd, wat wilt men aantonen, en wie wilt hiervan gebruik maken? Een klinische studie die aantoont dat een nieuw geneesmiddel beter werkt dan wat er momenteel verkrijgbaar is, kan door een klassieke statistische toets bevestigd worden op basis van de beschikbare gegevens. Maar een toets alleen is geen volledig statistisch onderzoek. Als men je daarbij vertelt dat de gegevens afkomstig zijn van een studie die uitgevoerd werd uitsluitend onder het toezicht van de farmaceutische firma die dit nieuwe geneesmiddel heeft ontwikkeld, dan rijzen er toch wel bedenkingen. Analoge problemen kan je verwachten bij een enquête waarbij een drukkingsgroep, die een uitgesproken standpunt wilt bewijzen, ook zelf de vragen van de enquête heeft opgesteld. Je bemerkt hier dat de “waarom?” vraag snel kan leiden tot andere vragen, zoals “hoe” is die studie verlopen?

WAAR? Bij de verdere precisering van de “waarom?” vraag komen plaats en tijd zeker ook

aan bod. Wil je informatie over de boekentassen van leerlingen in Vlaanderen of enkel in Antwerpen? Ook bij de interpretatie van uitgevoerde studies moet je de “waar?” vraag goed in het oog houden. Gegevens kunnen afkomstig zijn uit de Russische toendra of uit de stad Hasselt. Dergelijke informatie is cruciaal, en dikwijls leidt zij tot nuancering in de besluitvorming. Onze gegevensbank bevat informatie over gezinnen in Californië, en het is helemaal niet zeker dat de geboortegewichten die daarin zijn neergeschreven je ook een beeld kunnen geven van het geboortegewicht van baby’s in Vlaanderen.



WANNEER? Juist zoals de “plaats” is ook de “tijd” een belangrijke component in een onderzoek.

Het is algemeen geweten dat Vlamingen momenteel groter zijn dan in de middeleeuwen. Een databank die de lengte van Vlamingen weergeeft kan dus best ook vermelden in welk tijdperk die gegevens werden genoteerd. Onze gegevensbank met Californische gezinnen werd opgesteld tussen 1961 en 1972, en de getallen die daarin genoteerd staan over het rookgedrag weerspiegelen misschien helemaal niet meer wat er in het huidige Californië gangbaar is.

2.2. De concrete uitwerking. Proberen te antwoorden op de basisvragen “waarom?”, “waar?”, en “wanneer?” leidt automatisch tot de nood aan het opzetten van een scenario voor de concrete aanpak van een studie. In dit scenario wordt aangegeven hoe je gaat opmeten, wie je allemaal in je onderzoek wilt betrekken, en welke veranderlijken er precies moeten genoteerd worden. Omgekeerd, als je van een uitgevoerde studie de databank bekijkt, en je kan niet antwoorden op “hoe?”, “wie?”, en “wat?”, dan kan je geen zinvolle uitspraken doen. Misschien beschik je dan wel over een groot aantal getallen, maar eigenlijk weet je niet waarover het echt gaat. WIE? Hiermee wordt bedoeld: “wie wordt er opgemeten?” (welke individuen,

respondenten, patiënten,... komen er in je databank terecht?). Indien het niet over mensen gaat dan moet je “WIE?” lezen als “WELKE elementen?”. Een antwoord op deze eerste vraag identificeert de rijen van je gegevensmatrix, want elke rij verwijst naar een element.

HOE? Hiermee wordt bedoeld: “op welke manier moeten de gegevens verzameld

worden?”. Deze vraag verwijst naar de proefopzet. Gaat het over een steekproef, en zo ja, is het een lukrake steekproef, of moet zij gestratifiëerd worden uitgevoerd? Gaat het over een observatiestudie of is het een experiment? De antwoorden op deze (en soortgelijke) vragen laten je toe om uit te maken of je de gevonden resultaten kan veralgemenen naar een grotere groep, of je van een oorzakelijk verband kan spreken of enkel van een samenhang, enz..

WAT? Hiermee wordt bedoeld: “wat wordt er bij die elementen opgemeten?”. Het

antwoord op deze vraag specifiëert de veranderlijken. Indien het over kwantitatieve veranderlijken gaat, dan hoort daar ook de eenheid bij waarin die veranderlijke wordt opgemeten. Bij categorische veranderlijken wordt aangegeven op welke manier de categorieën worden gecodeerd (hoeveel categorieën, welke code, enz.).



2.3. Voorbeelden. Hieronder staan voorbeelden zoals je die in de praktijk kan tegenkomen. Probeer bij elk voorbeeld de context van de statistische studie zo nauwkeurig mogelijk te beschrijven, en probeer daarbij te antwoorden op de vragen “waarom?”, “waar?”, “wanneer?”, “hoe?”, “wie?”, en “wat?”. Bemerk dat getallen die in een matrixvorm staan opgeschreven soms een totaal verschillende soort informatie kunnen bevatten. Enerzijds kan je te maken hebben met een echte “dataset”, en anderzijds kan je een tabel ontmoeten waarin de informatie uit een onderliggende dataset reeds is samengevat. De onderliggende dataset krijg je dan niet te zien.

2.3.1. Californische gezinnen. Hieronder herken je de dataset die je hierboven al hebt ontmoet, en die een beetje vereenvoudigd was opgeschreven om met een eenvoudig voorbeeld te kunnen beginnen. In feite is in de echte dataset alles gecodeerd met getallen, ook de nominale veranderlijken. De extra informatie die je nog nodig hebt staat hieronder aangegeven. Bemerk dat je hier maar de eerste 15 gezinnen ziet uit een databank die 200 gezinnen bevat. Die databank is zelf ontstaan door een lukrake steekproef van 200 gezinnen te trekken uit de totale gegevensbank van die studie, die destijds 1296 gezinnen heeft onderzocht.

ID SEX BLGK1 LGTK1 GEWK1 LFTM1 GEWM1 GEWM2 LFTV1 SIGV1 SIGV2 1 1 7 53.3 3.810 22 54.9 60.3 23 0 0 2 1 8 55.9 3.720 25 64.4 73.9 25 20 30 3 0 5 50.8 3.180 36 56.2 66.2 42 0 0 4 0 5 50.8 2.990 25 65.8 59.0 30 30 50 5 1 6 50.8 2.900 25 42.2 47.2 32 3 5 6 0 6 55.9 4.350 42 68.0 78.5 40 0 0 7 0 8 49.5 2.770 19 48.1 53.1 33 20 15 8 0 6 53.3 3.670 36 55.8 57.6 43 6 0 9 1 6 52.1 3.080 24 62.1 71.7 26 0 0 10 1 6 50.8 3.220 21 49.9 51.7 28 0 0 11 0 6 49.5 2.680 25 59.4 55.8 33 0 0 12 1 9 53.3 4.220 36 64.4 64.4 42 0 0 13 0 5 49.5 2.720 22 45.8 50.3 23 0 0 14 0 9 49.5 3.670 22 61.2 60.3 30 0 0 15 1 6 48.3 2.180 38 61.2 68.0 39 0 0

SEX geslacht van het kind (0=meisje, 1=jongen) BLGK1 bloedgroep van het kind met de volgende codes, waarbij ook de resusfactor

mee in rekening werd genomen: 1 O– 5 O+ 2 A– 6 A+ 3 B– 7 B+ 4 AB– 8 AB+ 9 = ontbrekend gegeven

Als je “statistische informatie” opvraagt, dan berekenen sommige rekentoestellen ook altijd automatisch het gemiddelde. Het is duidelijk dat dit in ons voorbeeld totaal geen zin heeft voor de veranderlijken “ID”, “SEX” en “BLGK1”.



2.3.2. Fisher’s Iris data.

R. A. Fisher was een vermaard statisticus en tevens een geneticus, en hij haalde heel wat van zijn gegevens uit experimenten in de biologie. Hieronder vind je een stukje van de beroemde “Fisher’s Iris data” gegevensbank. Hierin zijn voor 3 verschillende soorten irisbloemen (Iris Setosa, Iris Verginica, en Iris Versicolor) de lengte en de breedte opgemeten (in mm) van zowel kelkblad (sepal) als bloemblad (petal). Onderstaande informatie vind je op volgende website: http://lib.stat.cmu.edu/DASL/Datafiles/Fisher'sIris.html . Probeer nu deze dataset zo nauwkeurig mogelijk te beschrijven.

Datafile Name: Fisher's Iris Reference: Fisher, R. A. (1936). The Use of Multiple Measurements in Taxonomic Problems. Annals of Eugenics 7, 179-188. Description: This is a dataset made famous by Fisher, who used it to illustrate principles of discriminant analysis. It contains 6 variables with 150 observations. Number of cases: 150 Variable Names: Code = flower species as a code (1=Setosa, 2=Versicolor, 3=Verginica) The Data: Code Species name Petal width Petal length Sepal width Sepal length 1 I. Setosa 02 14 33 50 3 I. Verginica 24 56 31 67 3 I. Verginica 23 51 31 69 1 I. Setosa 02 10 36 46 3 I. Verginica 20 52 30 65 3 I. Verginica 19 51 27 58 2 I. Versicolor 13 45 28 57 2 I. Versicolor 16 47 33 63 3 I. Verginica 17 45 25 49 2 I. Versicolor 14 47 32 70 1 I. Setosa 02 16 31 48 3 I. Verginica 19 50 25 63 1 I. Setosa 01 14 36 49 1 I. Setosa 02 13 32 44 2 I. Versicolor 12 40 26 58 3 I. Verginica 18 49 27 63 2 I. Versicolor 10 33 23 50 1 I. Setosa 02 16 38 51 1 I. Setosa 02 16 30 50 3 I. Verginica 21 56 28 64 1 I. Setosa 04 19 38 51 1 I. Setosa 02 14 30 49 2 I. Versicolor 10 41 27 58 2 I. Versicolor 15 45 29 60 1 I. Setosa 02 14 36 50 3 I. Verginica 19 51 27 58 1 I. Setosa 04 15 34 54 3 I. Verginica 18 55 31 64

http://lib.stat.cmu.edu/DASL/Datafiles/Fisher'sIris.html



2.3.3. Hamburger en “other stuff”. Hopelijk vind je gezondheid belangrijk, en dan probeer je niet te roken, regelmatig te sporten, en goed te letten op wat je eet. Maar om te weten of je gezond eet moet je natuurlijk weten wat je aan het eten bent. Een grote hamburgerketen, McDonalds, geeft die informatie in een voedingswaardetabel die je kan vinden op: http://www.mcdonalds.be/nl/ . Kan je onderstaande gegevensmatrix zo nauwkeurig mogelijk beschrijven? Kan je ook een zinvol voorstel doen over de manier waarop die informatie zou verzameld zijn, of kan verzameld worden? Voedingswaardetabel: Sandwiches

Sandwiches gewicht volume

kJ kcal Eiwitten

(g) Vetten

(g) Suiker

(g) Zout (g)

Allergieinformatie

Hamburger 103 g 1058 251 12,7 8,1 31,7 1,3

Cheeseburger 117 g 1252 298 15,5 12,0 32,0 1,7

Royal Cheese 209 g 2166 517 32,3 26,6 37,2 2,5

Big Mac™ 211 g 2116 505 25,7 25,4 43,4 2,4

McDeluxe™ 215 g 1952 466 28,4 22,6 37,4 1,2

McChicken™ 164 g 1680 400 17,5 18,9 40,1 2,0

Filet-O-Fish™ 144 g 1419 338 14,6 14,7 37,0 1,7

McVeggie™ 170 g 1705 408 8,5 16,1 57,0 1,6

Chicken McNuggets™ (6 stuks)

109 g 1068 256 20,3 15,0 9,9 1,1

McMarins™ (vis) 120 g 1128 276 18 22,8 0 1,7

© 2000 McDonald's Nederland B.V. Alle rechten voorbehouden. © 2001 McDonald's Belgium. Alle rechten voorbehouden

Hoe leest u de tabel? In de eerste kolom vindt u de naam van het McDonald's product. Naast de naam staat het gewicht van dat specifieke product. In de volgende kolommen krijgt u informatie over de calorische waarden in kilojoules en kilocalorieën. Eiwit, vet, koolhydraten en zout staan weergegeven in grammen.

Heeft u een voedselallergie of -intolerantie? In de tabel staat vermeld welke meest bekende stoffen voorkomen in McDonald's producten. De allergene stoffen zijn weergegeven middels symbolen. U kunt dus precies zien wat u wel en niet mag eten bij McDonald's. Azo-kleurstoffen komen niet voor in onze producten.

Verklarende symbolen

dit product bevat (koe)melkbestanddelen

dit product bevat kippenei

dit product bevat soja

dit product bevat gluten

dit product bevat cacao

dit product bevat noten of pinda's

dit product bevat vis

dit product bevat vlees

Bovenstaande waarden zijn gemiddelden. McDonald's is niet aansprakelijk voor eventuele afwijkingen vastgesteld bij individuele analyses.

http://www.mcdonalds.be/nl/



Als je naar http://www.mcdonalds.be/nl/ surft, en dan klikt op “restaurants” en daarna op “voedingstips”, dan zie je daar een voedselpiramide staan (niet opgesteld door McDonalds maar overgenomen uit andere bronnen). Op deze piramide is er echter ook heel wat kritiek, zoals je kan lezen op http://www.hsph.harvard.edu/nutritionsource/pyramids.html . Zo zie je maar dat wetenschappelijke bevindingen ook evolueren naarmate nieuwe onderzoeksresultaten bekend geraken (en statistiek speelt daarin een zeer grote rol!).

2.3.4. De schoolbevolking. Op http://aps.vlaanderen.be/statistiek/cijfers/onderwijs/leerlingen/ondeleer004.xls kan je onderstaande tabel vinden, en op http://aps.vlaanderen.be/sgml/reeksen/1797.htm staat informatie over de gegevens in die tabel, die hieronder gedeeltelijk is overgenomen. Deze tabel is een typisch voorbeeld van een selectieve samenvatting van oorspronkelijke gegevens (die meestal ook nog veel andere informatie bevatten). Probeer een zinvol voorstel te formuleren van de minimale gegevensbank die jij zou opstellen (en op welke manier) zodanig dat je daaruit de onderstaande tabel zou kunnen distilleren. Beschrijf die gegevensbank nauwkeurig.

NAAM Schoolbevolking in het gewoon secundair onderwijs naar geslacht en onderwijsvorm

DIMENSIES Ruimte Vlaamse Gemeenschap Schooljaar Geslacht Onderwijsvorm

BRON M.V.G., dep. Onderwijs FRED-fiche http://aps.vlaanderen.be/sgml/reeksen/1797.htm

Onderwijsvorm 2001 -2002

Jongens Meisjes Totaal Onthaalklas anderstalige nieuwkomers 999 811 1,810 1ste graad 70,802 67,299 138,101 ASO 47,155 60,088 107,243 TSO 51,193 36,697 87,890 KSO 1,832 2,950 4,782 BSO (1) 37,543 36,710 74,253 Totaal 209,524 204,555 414,079

ASO = algemeen secundair onderwijs TSO = technisch secundair onderwijs KSO = kunstsecundair onderwijs BSO = beroepssecundair Onderwijs

(1) Met inbegrip van het modulair onderwijs. Reeks: Schoolbevolking voltijds gewoon secundair onderwijs (ID: 1797) Beschrijving: De schoolbevolking in het Vlaams voltijds gewoon secundair onderwijs Bron: Onderwijsinstellingen

http://www.mcdonalds.be/nl/

http://www.hsph.harvard.edu/nutritionsource/pyramids.html

http://aps.vlaanderen.be/statistiek/cijfers/onderwijs/leerlingen/ondeleer004.xls

http://aps.vlaanderen.be/sgml/reeksen/1797.htm

http://aps.vlaanderen.be/sgml/reeksen/1797.htm



Statistische eenheid: leerling Dimensie en aggregatieniveau

[Dim.] geslacht [Agg.] jongens/meisjes [Dim.] graad [Agg.] 1ste graad, 2e graad, 3e graad, 4de graad

[Dim.] leeftijd [Agg.] geboortejaar [Dim.] leerjaar [Agg.] onthaalklas voor anderstalige nieuwkomers

1ste leerjaar A, 1ste leerjaar B, 2de leerjaar van de 1ste graad, beroepsvoorbereidend jaar, 1ste, 2de en 3de leerjaar van de 2de graad, 1ste, 2de en 3de leerjaar van de 3de graad, 1ste, 2de en 3de leerjaar van de 4de graad

[Dim.] onderwijsnet [Agg.] gemeenschapsonderwijs, gesubsidieerd vrij onderwijs, gesubsidieerd officieel onderwijs

[Dim.] ruimte [Agg.] Vlaamse Gemeenschap - provincie - arrondissement/ (+BSD-scholen in Duitsland)

[Dim.] tijd [Agg.] schooljaar [Dim.] soort onderwijs [Agg.] gewoon onderwijs [Dim.] soort programma [Agg.] voltijds onderwijs [Dim.] studierichting [Agg.] alle georganiseerde studierichtingen en

beroepenvelden [Dim.] onderwijsniveau [Agg.] secundair onderwijs [Dim.] onderwijsvorm [Agg.] algemeen secundair onderwijs (ASO), technisch

secundair onderwijs (TSO), kunstsecundair onderwijs (KSO), beroepssecundair onderwijs (BSO)

[Dim.] soort inrichtende macht [Agg.] ARGO, Privaatrechtelijk rechtspersoon, Provincie, Gemeente, Vlaamse Gemeenschapscommissie

Type gegevens: administratieve registratiegegevens Volledigheid: Volledig Begin tijdreeks: 1977-1978 Update tijdreeks: Jaarlijks Betrouwbaarheid: Betrouwbaar Verzamelprocedure: Tellingen op de officiële tellingsdatum (vanaf het schooljaar 1991-1992 is

dit 1 februari ) Populatie: Alle leerlingen in het Vlaams voltijds gewoon secundair onderwijs Aandachtspunten De eerste graad omvat het eerste en het tweede leerjaar van het secundair onderwijs. Het eerste leerjaar B is een leerjaar voor kinderen die een leerachterstand opgelopen hebben of minder geschikt zijn voor overwegend theoretisch onderwijs. Na het eerste leerjaar B kunnen de leerlingen ofwel naar het 2de beroepsvoorbereidend jaar, ofwel naar het eerste leerjaar A. Vanaf de tweede graad worden vier onderwijsvormen onderscheiden (ASO, TSO, KSO en BSO), waarbinnen de leerling voor een bepaalde studierichting kiest. Definitie * Ingeschreven leerling : een leerling die voldoet aan de toelatingsvoorwaarden tot het leerjaar waarin hij is ingeschreven én die het geheel van de vorming van dit leerjaar daadwerkelijk volgt, behoudens in geval van gewettigde afwezigheid.



2.3.5. De Titanic. Op 14 april 1912 botste de Titanic tegen een ijsberg en zonk. Deze gebeurtenis is uitvoerig gedocumenteerd, en er is zelfs een film over gemaakt. Tussen de vele plaatsen op het internet waar je over de Titanic informatie kan vinden, staat ook een verwijzing naar kenmerken van alle opvarenden. Op basis van deze informatie (zie ook: http://ssi.umh.ac.be/titanic.html ), kan je de volgende gegevensverzameling opstellen, waarbij je zou kunnen afspreken om onderstaande codering te gebruiken:

ID identificatienummer voor elk van de 2201 personen die op 14 april 1912 op de Titanic aanwezig was.

KLAS naast de bemanning (code 4) staat hier opgetekend of de passagier in eerste

klas, in tweede klas of in derde klas reisde (met respectievelijke codes 1, 2, en 3).

LEEFTIJD hierbij is enkel aangegeven of het over een kind (code 1) of over een

volwassene gaat (code 2).

GESLACHT met vrouw = 0 en man = 1.

UITKOMST waarbij opgetekend staat of deze persoon de ramp overleefd heeft (code 0) of verdronken is (code 1).

Een klein deel van deze gegevensverzameling ziet er dan als volgt uit.

ID KLAS LEEFTIJD GESLACHT UITKOMST 1 4 2 1 1 2 4 2 1 1 3 2 2 0 0 4 4 2 1 0 5 4 2 1 1 6 1 2 1 1 7 4 2 1 0 8 2 2 1 1 9 4 2 0 0 10 3 2 1 1 11 3 1 1 1 12 3 2 1 1

Welk verhaal vertelt de elfde rij in je dataset over de passagier met identificatie ID = 11?

http://ssi.umh.ac.be/titanic.html



2.3.6. Zelf een gegevensverzameling opstellen. Vooraleer je begint op te meten moet je eerst goed nadenken over wat je nu eigenlijk juist wilt bestuderen. Doe dit eens voor je eigen klas. Formuleer een eigenschap waarin je geïnteresseerd bent en die je op basis van cijfermateriaal wilt beschrijven. Dit kan een enkelvoudige eigenschap zijn zoals de lengte van je medeleerlingen, of hun favoriete Vlaamse zanger, of het aantal sigaretten dat zij per dag roken, enz.. Maar je kan ook een verband bestuderen. Misschien wil je weten of de mate van sympathie voor een leerkracht samenhangt met je resultaten op zijn of haar vak, of misschien vraag je je af of er een verband is tussen het aantal uren dat je TV kijkt en je BMI (body mass index), enz.. En misschien wil je voor alle bovenstaande vragen een mogelijk verschil tussen jongens en meisjes kunnen illustreren. Zonder in te gaan op de verscheidenheid van statistische methoden die je nodig hebt om bovenstaande vragen met behulp van een volledig statistisch onderzoek te beantwoorden (wat ook zijn invloed heeft op de manier waarop moet worden opgemeten) is het hier enkel de bedoeling om eigenschappen van je totale klas met eenvoudige beschrijvende statistiek voor te stellen. En in dit kader wordt aan u gevraagd om aan te geven op welke manier welke gegevens moeten worden opgemeten. Vooraleer aan de opmetingen te beginnen moet je dus een schema maken van de structuur van de gegevensverzameling (de matrix) waarin de getallen daarna zullen terechtkomen. Geef een nauwkeurige beschrijving van de dataset. Benoem de rijen en de kolommen. Geef voor elke veranderlijke aan van welke soort zij is. Zeg hoe de categorische veranderlijken gecodeerd worden en wat de eenheid is waarin kwantitatieve veranderlijken zullen worden opgemeten. Stel je voor dat je dit onderzoek nu ook echt uitvoert en geef een zo zinvol mogelijk antwoord op de vragen: “waarom?”, “waar?”, “wanneer?”, “hoe?”, “wie?”, en “wat?”.

Gegevens en hun context

Documents

Transcript of Gegevens en hun context