Sisällysluettelo - Terkko · Normanin ja Steinerin ’Biostatistics, The Bare Essentials’ on...

242
Sisällysluettelo Johdanto 1 Tilastollisten menetelmien käytöstä . . . . . . . . . . . . . . 1 Oppikirjoista . . . . . . . . . . . . . . . . . . . . . . . . . . 1 Ohjelmistoista . . . . . . . . . . . . . . . . . . . . . . . . . 3 Lääketieteellisten artikkelien laatu tilastollisesti tarkasteltuna . 5 Tutkimusprosessi . . . . . . . . . . . . . . . . . . . . . . . . 5 Tilastollinen päättely . . . . . . . . . . . . . . . . . . . . . . 6 Viitteet . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 8 Kirjallisuutta . . . . . . . . . . . . . . . . . . . . . . . . . . 9 Ohjelmia . . . . . . . . . . . . . . . . . . . . . . . . . . . . 9 Tutkimustyypit ja -asetelmat 11 Kokeelliset tutkimukset . . . . . . . . . . . . . . . . . . . 11 Kokonaistutkimukset . . . . . . . . . . . . . . . . . . . . . 13 Otantatutkimukset . . . . . . . . . . . . . . . . . . . . . . 14 Meta-analyysi . . . . . . . . . . . . . . . . . . . . . . . . 17 Kirjallisuutta . . . . . . . . . . . . . . . . . . . . . . . . . 19 Aineistokoko ja tutkimuksen voima-analyysi 21 Johdanto . . . . . . . . . . . . . . . . . . . . . . . . . . . 21 Otoskoon määrittämiseen liittyvät avainkysymykset . . . . 23 Yhden binomijakaumaa noudattavan suhdeluvun testaaminen 24 Kahden binomijakaumaa noudattavan suhdeluvun vertailu . 25 Kahden suhdeluvun ekvivalenttisuuden testaaminen . . . . 30 Kvantitatiivinen lopputulos, kahden keskiarvon vertailu . . 31 Muita otoskoon laskentatilanteita . . . . . . . . . . . . . . 36 Kommentteja . . . . . . . . . . . . . . . . . . . . . . . . . 36 Viitteet . . . . . . . . . . . . . . . . . . . . . . . . . . . . 37 Kirjallisuutta . . . . . . . . . . . . . . . . . . . . . . . . . 38 Ohjelmia . . . . . . . . . . . . . . . . . . . . . . . . . . . 38 Satunnaistaminen ja sokkouttaminen 39 Yleistä . . . . . . . . . . . . . . . . . . . . . . . . . . . . 39 Yksinkertainen (rajoittamaton) satunnaistaminen . . . . . . 41 Korvaamismenettely . . . . . . . . . . . . . . . . . . . . . 42 “Korttipakan sekoittamis” -menettely . . . . . . . . . . . . 42 Satunnaiset permutoidut lohkot . . . . . . . . . . . . . . . 42 Harhaisen kolikon menetelmä . . . . . . . . . . . . . . . . 43 Ositettu satunnaistaminen (’stratified randomization’) . . . . . . . . . . . . . . . . . . 43 Minimointimenettely . . . . . . . . . . . . . . . . . . . . . 44 Epäsymmetrisesti tasapainotetut menetelmät . . . . . . . . 46 Lähtötason vertailut ja puutteet satunnaistamisessa . . . . . 46 Viitteet . . . . . . . . . . . . . . . . . . . . . . . . . . . . 48 Biostatistiikan kurssit 1999 i Sisällysluettelo

Transcript of Sisällysluettelo - Terkko · Normanin ja Steinerin ’Biostatistics, The Bare Essentials’ on...

Page 1: Sisällysluettelo - Terkko · Normanin ja Steinerin ’Biostatistics, The Bare Essentials’ on hauskasti ja selkeästi kirjoitettu kirja. Tekstiä on sopivasti höystetty huumorilla.

SisällysluetteloJohdanto 1

Tilastollisten menetelmien käytöstä . . . . . . . . . . . . . . 1Oppikirjoista . . . . . . . . . . . . . . . . . . . . . . . . . . 1Ohjelmistoista . . . . . . . . . . . . . . . . . . . . . . . . . 3Lääketieteellisten artikkelien laatu tilastollisesti tarkasteltuna . 5Tutkimusprosessi . . . . . . . . . . . . . . . . . . . . . . . . 5Tilastollinen päättely . . . . . . . . . . . . . . . . . . . . . . 6Viitteet . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 8Kirjallisuutta . . . . . . . . . . . . . . . . . . . . . . . . . . 9Ohjelmia . . . . . . . . . . . . . . . . . . . . . . . . . . . . 9

Tutkimustyypit ja -asetelmat 11Kokeelliset tutkimukset . . . . . . . . . . . . . . . . . . . 11Kokonaistutkimukset . . . . . . . . . . . . . . . . . . . . . 13Otantatutkimukset . . . . . . . . . . . . . . . . . . . . . . 14Meta-analyysi . . . . . . . . . . . . . . . . . . . . . . . . 17Kirjallisuutta . . . . . . . . . . . . . . . . . . . . . . . . . 19

Aineistokoko jatutkimuksen voima-analyysi 21

Johdanto . . . . . . . . . . . . . . . . . . . . . . . . . . . 21Otoskoon määrittämiseen liittyvät avainkysymykset . . . . 23Yhden binomijakaumaa noudattavan suhdeluvun testaaminen 24Kahden binomijakaumaa noudattavan suhdeluvun vertailu . 25Kahden suhdeluvun ekvivalenttisuuden testaaminen . . . . 30Kvantitatiivinen lopputulos, kahden keskiarvon vertailu . . 31Muita otoskoon laskentatilanteita . . . . . . . . . . . . . . 36Kommentteja . . . . . . . . . . . . . . . . . . . . . . . . . 36Viitteet . . . . . . . . . . . . . . . . . . . . . . . . . . . . 37Kirjallisuutta . . . . . . . . . . . . . . . . . . . . . . . . . 38Ohjelmia . . . . . . . . . . . . . . . . . . . . . . . . . . . 38

Satunnaistaminen ja sokkouttaminen 39Yleistä . . . . . . . . . . . . . . . . . . . . . . . . . . . . 39Yksinkertainen (rajoittamaton) satunnaistaminen . . . . . . 41Korvaamismenettely . . . . . . . . . . . . . . . . . . . . . 42“Korttipakan sekoittamis” -menettely . . . . . . . . . . . . 42Satunnaiset permutoidut lohkot . . . . . . . . . . . . . . . 42Harhaisen kolikon menetelmä . . . . . . . . . . . . . . . . 43Ositettu satunnaistaminen(’stratified randomization’) . . . . . . . . . . . . . . . . . . 43Minimointimenettely . . . . . . . . . . . . . . . . . . . . . 44Epäsymmetrisesti tasapainotetut menetelmät . . . . . . . . 46Lähtötason vertailut ja puutteet satunnaistamisessa . . . . . 46Viitteet . . . . . . . . . . . . . . . . . . . . . . . . . . . . 48

Biostatistiikan kurssit 1999 i Sisällysluettelo

Page 2: Sisällysluettelo - Terkko · Normanin ja Steinerin ’Biostatistics, The Bare Essentials’ on hauskasti ja selkeästi kirjoitettu kirja. Tekstiä on sopivasti höystetty huumorilla.

Aineiston kerääminen ja sen alustava käsittely 51Otantamenetelmiä . . . . . . . . . . . . . . . . . . . . . . . 51Aineiston käsittely . . . . . . . . . . . . . . . . . . . . . . 53Keskiluvut . . . . . . . . . . . . . . . . . . . . . . . . . . 58Hajonnan mitat . . . . . . . . . . . . . . . . . . . . . . . . 59Jakauman vinous ja huipukkuus . . . . . . . . . . . . . . . 60Jakauman normaalisuus . . . . . . . . . . . . . . . . . . . . 60Graafiset kuvaajat . . . . . . . . . . . . . . . . . . . . . . . 60Viitteet . . . . . . . . . . . . . . . . . . . . . . . . . . . . 61Ohjelmia ja kirjallisuutta . . . . . . . . . . . . . . . . . . . 61

Luottamusväliestimointi 63Yleistä . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 63Normaalijakaumaan perustuvat luottamusvälit . . . . . . . . 66Keskiarvon luottamusväli . . . . . . . . . . . . . . . . . . . 66Keskiarvojen erotuksen luottamusväli . . . . . . . . . . . . 67Mediaanien ja muiden prosenttipisteiden luottamusvälit . . . 68Mediaanien erotuksen luottamusväli . . . . . . . . . . . . . 69Suhdeluvun luottamusväli (tarkka väli) . . . . . . . . . . . . 70Suhdelukujen erotuksen luottamusväli . . . . . . . . . . . . 71Lukumäärän luottamusvälit . . . . . . . . . . . . . . . . . . 73Lukumäärien suhteen luottamusväli Poisson-jakauman tapauksessa 74Luottamusvälit preferensseille . . . . . . . . . . . . . . . . 75Multinomijakaumaan perustuva luottamusväli . . . . . . . . 76Eksponenttijakaumaan perustuva luottamusväli . . . . . . . 77Altistus- ja vaarasuhteen luottamusvälit . . . . . . . . . . . 78Viitteet . . . . . . . . . . . . . . . . . . . . . . . . . . . . 79Ohjelmia . . . . . . . . . . . . . . . . . . . . . . . . . . . 79

Tilastollisten testien valinta ja toteuttaminen 81Hypoteesien testaaminen . . . . . . . . . . . . . . . . . . . 81Monivertailut . . . . . . . . . . . . . . . . . . . . . . . . . 82Parametrinen ja ei-parametrinen testi . . . . . . . . . . . . . 83P-arvon käyttöön liittyviä rajoitteita ja ongelmia . . . . . . . 84Tilastollisten testien valintaperusteet . . . . . . . . . . . . . 85Normaalisuuden testaaminen . . . . . . . . . . . . . . . . . 91Varianssien homogeenisuustestit . . . . . . . . . . . . . . . 92Permutaatiotesti riippuville otoksille . . . . . . . . . . . . . 92Parittainen t-testi . . . . . . . . . . . . . . . . . . . . . . . 94Wilcoxonin parittainen testi . . . . . . . . . . . . . . . . . . 94McNemarin testi . . . . . . . . . . . . . . . . . . . . . . . 97Yleistetty McNemarin testi . . . . . . . . . . . . . . . . . . 99LR-testi siirtymätodennäköisyysmatriiseille . . . . . . . . 100Riippumattomien ryhmien t-testi . . . . . . . . . . . . . . 101Mann-Whitneyn U-testi . . . . . . . . . . . . . . . . . . . 102Wilcoxonin järjestyslukujen summatesti . . . . . . . . . . 103Binomiaalisten suhdelukujen trenditesti . . . . . . . . . . 105

Sisällysluettelo ii Seppo Sarna

Page 3: Sisällysluettelo - Terkko · Normanin ja Steinerin ’Biostatistics, The Bare Essentials’ on hauskasti ja selkeästi kirjoitettu kirja. Tekstiä on sopivasti höystetty huumorilla.

χ2-nelikenttätesti . . . . . . . . . . . . . . . . . . . . . . . 107Fisherin tarkka nelikenttätesti . . . . . . . . . . . . . . . . 108Fisherin kontingenssitaulutesti 2×k taulukoille . . . . . . . 110Mantel-Haenszelin nelikenttätesti . . . . . . . . . . . . . . 110Kruskal-Wallisin yksisuuntainen varianssianalyysi . . . . . 113Monivertailut - Dunnin testi . . . . . . . . . . . . . . . . . 114Jonckheere-Terpstra trenditesti . . . . . . . . . . . . . . . . 114Friedmanin testi ja Pagen testi . . . . . . . . . . . . . . . . 116Kaksisuuntainen ei-parametrinen varianssianalyysi . . . . . 118Eloonjäämiskäyrien vertailu . . . . . . . . . . . . . . . . . 119Pearsonin korrelaatiokerroin . . . . . . . . . . . . . . . . . 119Spearmanin järjestyskorrelaatiokerroin . . . . . . . . . . . 121Kendallin Tau ja Somerin D . . . . . . . . . . . . . . . . . 122Cohenin kappa ja painotettu kappa . . . . . . . . . . . . . . 122Kirjallisuutta . . . . . . . . . . . . . . . . . . . . . . . . . 124

Biostatistisia näkökohtia artikkelin kirjoittamisessa 125Yleistä monimuuttujamenetelmistä 129

Monimuuttuja-analyysi: mistä siinä on kyse? . . . . . . . . 129Monimuuttujamenetelmien luokittelu . . . . . . . . . . . . 130Kirjallisuutta . . . . . . . . . . . . . . . . . . . . . . . . . 131

Lineaarinen monimuuttujaregressioanalyysi 133Regression käsite . . . . . . . . . . . . . . . . . . . . . . . 133Yksinkertainen lineaarinen regressio . . . . . . . . . . . . . 133Regressiomallit ja niiden käyttö . . . . . . . . . . . . . . . 135Analysointitavat . . . . . . . . . . . . . . . . . . . . . . . 136Mihin olettamuksiin mallit perustuvat? . . . . . . . . . . . 138Box – Cox muunnos . . . . . . . . . . . . . . . . . . . . . 139Residuaalien tulkinta . . . . . . . . . . . . . . . . . . . . . 139Kuinka kertoimet tulkintaan? . . . . . . . . . . . . . . . . 141Standardoidut regressiokertoimet . . . . . . . . . . . . . . 142Neliösummat . . . . . . . . . . . . . . . . . . . . . . . . . 142Mallin selitysaste . . . . . . . . . . . . . . . . . . . . . . . 143Varianssianalyysitaulukko . . . . . . . . . . . . . . . . . . 144Multikollineaarisuus . . . . . . . . . . . . . . . . . . . . . 144Residuaalien kvantitatiiviset analysointimenetelmät . . . . . 145Puuttuvat havaintoarvot . . . . . . . . . . . . . . . . . . . 146Regressioanalyysin yhteys erotteluanalyysiin . . . . . . . . 147Kirjallisuutta . . . . . . . . . . . . . . . . . . . . . . . . . 147

Varianssi- ja kovarianssianalyysi 149Varianssianalyysin ongelma-asettelut . . . . . . . . . . . . 149Mallityypit . . . . . . . . . . . . . . . . . . . . . . . . . . 149Yksisuuntainen (parametrinen) varianssianalyysi . . . . . . 150Varianssien homogeenisuustestit . . . . . . . . . . . . . . . 151Parittaiset vertailut . . . . . . . . . . . . . . . . . . . . . . 151

Biostatistiikan kurssit 1999 iii Sisällysluettelo

Page 4: Sisällysluettelo - Terkko · Normanin ja Steinerin ’Biostatistics, The Bare Essentials’ on hauskasti ja selkeästi kirjoitettu kirja. Tekstiä on sopivasti höystetty huumorilla.

Monivertailut (post-hoc -vertailut) . . . . . . . . . . . . . 152Monivälitestit (“multiple range” -testit) . . . . . . . . . . 155Kaksisuuntainen varianssianalyysi . . . . . . . . . . . . . 155Toistomittausten varianssianalyysi . . . . . . . . . . . . . 158

Ristiintaulukkoanalyysit 1611. Laatueroasteikollinen R×C-taulukko . . . . . . . . . . . 1622. Yhteen suuntaan järjestetty R×C-taulukko . . . . . . . . 1643. Kahteen suuntaan järjestetty R×C-taulukko . . . . . . . 165Viitteet . . . . . . . . . . . . . . . . . . . . . . . . . . . 165

Loglineaariset mallit 167Käsitteitä . . . . . . . . . . . . . . . . . . . . . . . . . . 167Mallin parametrin skaalaus . . . . . . . . . . . . . . . . . 168Yhteensopivuustestit . . . . . . . . . . . . . . . . . . . . 168Analysointivaiheet . . . . . . . . . . . . . . . . . . . . . 169Esimerkkejä . . . . . . . . . . . . . . . . . . . . . . . . . 170Viitteet . . . . . . . . . . . . . . . . . . . . . . . . . . . 177

Logistinen monimuuttujamalli 179Logistinen malli . . . . . . . . . . . . . . . . . . . . . . . 179Olettamuksista . . . . . . . . . . . . . . . . . . . . . . . 180Sairastumisvaaran arviointi . . . . . . . . . . . . . . . . . 180Mallin parametrien tulkinta . . . . . . . . . . . . . . . . . 182Kerrointen merkitsevyyden testaaminen ja luottamusvälit . 184Interaktion hallinta . . . . . . . . . . . . . . . . . . . . . 185Sekoittavien tekijöiden hallinta . . . . . . . . . . . . . . . 186Mallin valinta . . . . . . . . . . . . . . . . . . . . . . . . 189Muuttujien valintaongelmia . . . . . . . . . . . . . . . . . 189Kirjallisuutta . . . . . . . . . . . . . . . . . . . . . . . . 189

Eloonjäämisanalyysi 191Väestöelinaikataulut ja -mallit . . . . . . . . . . . . . . . 191Kohortti (seuranta-) eloonjäämisanalyysit . . . . . . . . . 192Eloonjäämistaulut . . . . . . . . . . . . . . . . . . . . . . 192Kaplan-Meier -menetelmä . . . . . . . . . . . . . . . . . 193Eloonjäämiskäyrien vertailu . . . . . . . . . . . . . . . . 194Parametriset mallit . . . . . . . . . . . . . . . . . . . . . 197Coxin malli . . . . . . . . . . . . . . . . . . . . . . . . . 197Kirjallisuutta . . . . . . . . . . . . . . . . . . . . . . . . 198

Sanastoa 199Englannista suomeen . . . . . . . . . . . . . . . . . . . . 222

Sisällysluettelo iv Seppo Sarna

Page 5: Sisällysluettelo - Terkko · Normanin ja Steinerin ’Biostatistics, The Bare Essentials’ on hauskasti ja selkeästi kirjoitettu kirja. Tekstiä on sopivasti höystetty huumorilla.

Johdanto

Tilastollisten menetelmien käytöstä Tilastollisten menetelmien käyttö lääketieteellisissä julkaisuissa on erittäin yleistä. On arvioi-tu (Emerson & Colditz 1983), että noin kolmessa neljästä julkaistusta tutkimuksesta on käytet-ty merkittävässä määrin tilastollisia menetelmiä. Tästä johtuen useimmissa arvostetuissa tie-teellisissä lehdissä on viime vuosina alettu kiinnittää erityistä huomiota tilastollisten menetel-mien riittävälle ja oikealle käytölle. Monet lehdet, kuten. esim British Medical Journal jaLancet ovat luoneet erillisen tilastollisen arviointijärjestelmänsä tavanomaisen arviointijärjes-telmän täydennykseksi. Näissä lehdissä on julkaistu myös hyviä ohjeistoja tilastollisten mene-telmien asiallisesta käytöstä ja siitä mihin asioihin lääketieteellisiin lehtiin kirjoittavien tutki-joiden tulisi kiinnittää erityistä huomiota (Altman ym. 1983, Gore ym. 1992).

Kliinisissä kokeissa (’clinical trials’) edellytetään nykyisin, että tilastollista asiantuntemustakäytetään jo tutkimuksen suunnitteluvaiheesta alkaen. Myös muuntyyppisissä kliinisissä tutki-muksissa, joissa tilastollisten menetelmien käyttö on relevanttia, tulisi tilastollista asiantunte-musta hyödyntää mahdollisimman varhaisesta vaiheesta alkaen. Hyvin suunnitellun ja toteute-tun, mutta huonosti tai puutteellisesti analysoidun tutkimuksen voi yleensä saada julkaisukun-toon uudelleenanalysoinnilla. Huonosti suunnitellun, hallinnoidun ja toteutetun tutkimuksentuloksia ei hyvälläkään tilastollisella analyysilla saa tieteellisesti luotettaviksi.

Vain osassa lääketieteellisistä julkaisuista tilastotieteen asiantuntija on tutkimuksen tekijöidenjoukossa. Tästä syystä lääkäritutkijoiden tulisikin myös itse perehtyä tilastotieteen peruskäsit-teisiin ja -menetelmiin riittävässä määrin, jotta heidän tutkimuksiensa laatu olisi myös tilastol-lisesti pätevää. Valtaosa kliinikoista ei itse suorita tutkimuksia, vaan he ovat muiden suoritta-mien tutkimusten hyödyntäjiä, tutkimustulosten siirtäjiä kliiniseen käyttöön. Myös tämän ryh-män kohdalla tilastollisten menetelmien tuntemisesta on hyötyä; on tärkeää kyetäerottelemaan jyvät akanoista ja ottamaan kliiniseen käyttöön vain tieteellisesti luotettavia tu-loksia.

OppikirjoistaViime vuosina on ilmestynyt ilahduttavan paljon hyviä biostatistiikan kirjoja, jotka tarjoavatlääketieteellisiin lehtiin kirjoittaville ja kirjoituksia hyödyntäville hyvän perustietopaketin tut-kimusasetelmista ja tavallisimmin käytetyistä tilastollisista menetelmistä sekä niiden oikeastakäytöstä. Monissa kirjoissa sisällön pääpaino on selkeästi asetettu menetelmävalintoihin, käyt-töedellytyksiin ja analyysien tuottamien tulosten tulkintaan, eikä niinkään analyysien tekni-seen suorittamiseen. Tilastollisten algoritmien sisältö matemaattisine kaavoineen ja erilaisetestimointitekniikat ovat asioita, joista ohjelmia hyödyntävän ei tarvitse tietää juuri mitään.

Mitä biostatistiikan peruskirjoja lääketieteen tutkijan ja kliinikon kannattaa kirjahyllyynsähankkia? Valintaan vaikuttaa aikaisempi perehtyneisyys biostatistiikkaan, kuinka paljon bio-statistisia menetelmiä työssään tarvitsee ja ehkä jossain määrin kirjan hinta. Joitakin peruskir-

Biostatistiikan peruskurssi 1999 1 Johdanto

Page 6: Sisällysluettelo - Terkko · Normanin ja Steinerin ’Biostatistics, The Bare Essentials’ on hauskasti ja selkeästi kirjoitettu kirja. Tekstiä on sopivasti höystetty huumorilla.

joja tutkijan tai tutkijayhteisön kirjahyllyssä olisi kuitenkin hyvä olla. Seuraavassa esitelläänjoukko sellaisia alkeis- tai peruskirjoja, joista erityisesti kliinisten alojen tutkijat hyötyvät eni-ten.

Campbellin ja Machinin ’Medical Statistics. A Commonsense Approach’ on nimensä mukai-sesti helppotajuinen peruskirja. Kirja on tarkoitettu lääketieteen ja sairaahoitoalan opiskelijoil-le, mutta se on hyödyllinen myös potilaita hoitaville lääkäreille muistuttamaan tilastollistentutkimusasetelmien ja tulosten tulkinan olennaisimmista asioista. Kirjan sisältää paljon hyviäkäytännön ohjeita myös lääketieteellisiin lehtiin kirjoittaville tutkijoille. Kirja on selkeästi kir-joitettu ja siinä on hyvät lähdeviitteet niihin menetelmiin, esim. monimuuttujamenetelmiin,jotka on rajattu kirjan ulkopuolelle. Molemmilla kirjan tekijöistä laaja opetus ja konsultointi-kokemus. Se näkyy erityisesti esimerkkien valinnassa. Esimerkit ovat aitoja ja ne on otettu te-kijöiden omista tutkimuksista tai lääketieteellisestä kirjallisuudesta. BMJ:n lukijoille monetesimerkeistä ovat hyvinkin tuttuja. Kirja sisältää runsaasti tehtäviä vastauksineen. Niiden avul-la lukijan on helppo evaluoida asioiden omaksumista. Hyvä kirja perusopetukseen. Hinnal-taan se on edullinen, $40 internet-kirjakaupassa http://www.amazon.com.

Altmanin kirja ’Practical Statistics for Medical Research’ on erittäin hyvä biostatistiikan pe-rusoppikirja ja vankka lähdeteos. Kirja on tarkoitettu ennenkaikkea lääketieteen tutkijoille jakliinikoille, jotka haluavat saada hyvän yleiskäsityksen tilastollisista pääperiaatteista ja mene-telmistä, mutta se on erinomainen kirja myös lääketieteen opiskelijoille ja statistikoille, jotkahaluavat suuntautua kliiniseen biostatistiikkaan. Avainkäsitteet on määritelty selkeästi ja sisäl-lön pääpaino on ennenkaikkea lääketieteellisten tutkimusten suunnittelun ja analysoinnin käy-tännön näkökohdissa. Kirjan sisältö on kattava sisältäen jopa joidenkin monimuuttujamenetel-mienkin perusteet, tosin hyvin suppeasti. Kirjan rakennuselementteinä on käytetty Altmanininlukuisia yleistajuisia biostatistisia, mm. BMJ:ssä julkaistuja, artikkeleita vuosien varrelta. Kir-ja sisältää paljon sellaista hyödyllistä tietoa, mitä ei yleensä ole saatavilla yhdestä lähteestä.Siinä on paljon hyviä esimerkkejä ja harjoitustehtäviä todellisista kliinisistä tutkimuksista täy-dellisine tutkimusaineistoineen, joten kirjaa voidaan erinomaisesti hyödyntää sekä perus- ettäjatko-opetuksessa. Kirjan hinta on $65 (amazon).

Dunnin ja Everittin kirjan ’Clinical biostatistics, An Introduction to Evidence-Based Medi-cine’ alaotsikko paljastaa, että kyseessä ei ole tavanomainen oppikirja vaan nykysuuntauksenmukainen ongelmalähtöinen esitys. Kirja on mielenkiintoisesti kirjoitettu, mutta on sisällöl-tään se on melko suppea ja aihevalinnoiltaan tavallisista oppikirjoista poikkeava; mm. tilastol-lista testausta siinä ei käsitellä juuri ollenkaan, eikä monia muitakaan alkeisoppikirjojen käsit-telemiä aiheita, kuten yksinkertaista regressioanalyysiä. Yksinään tämä kirja ei tutkijalle riitä.Runsas melko vaikeasti todettavien painovirheiden määrä häiritsee jonkin verran lukemista.Suositeltavaa luettavaa kaikesta huolimatta. Kirjan hinta £11 sterling.

Glantzin ’Primer of Biostatistics’ on nimensä mukaisesti vasta-alkajille tarkoitettu biostatistii-kan alkeisoppikirja, joka on ollut jo vuosia tutkijoiden käytössä. Uusin painos ilmestyi syksyl-tä -97. Rakenteeltaan kirja on tavanomainen oppikirja, joka kattaa kliinisen tutkijan kannaltakaikki olennaiset perusasiat ja se on hyvin kirjoitettu. Painoasu ei ole luettavuuden kannaltaparas mahdollinen. Kirjan hinta on $32 (amazon).

Wassertheil-Smollerin ’Biostatistics and Epidemiology’ on terveydenhuoltohenkilöstöllesuunnattu alkeisoppikirja, joka sisältää biostatistiikan ohella myös tärkeimmät epidemiolo-gian peruskäsitteet ja määritelmät. Kirja on helppolukuinen, hinnaltaan edullinen ($32, ama-

Johdanto 2 Seppo Sarna

Page 7: Sisällysluettelo - Terkko · Normanin ja Steinerin ’Biostatistics, The Bare Essentials’ on hauskasti ja selkeästi kirjoitettu kirja. Tekstiä on sopivasti höystetty huumorilla.

zon) ja soveltuu hyvin perusopetukseen lääketieteen opiskelijoille. Se ei edellytä juuri mitäänlähtötietoja.

Normanin ja Steinerin ’Biostatistics, The Bare Essentials’ on hauskasti ja selkeästi kirjoitettukirja. Tekstiä on sopivasti höystetty huumorilla. Kirjan sisällössä ja esimerkeissä näkyy teki-jöiden monialainen koulutus ja suuntautuneisuus ennenkaikkea kliiniseen psykologiaan ja kas-vatustieteisiin. Kirja soveltuu hyvin myös itseopiskeluun. Käsitteet on selkeästi määritelty jateksti on helposti omaksuttavaa. Kirjan ulkoasu on hyvä. Sisältö on peruskirjaksi hyvinkinkattava. Kirjaa voi varauksetta suositella aloittelijallekin.

Satunnaistetut kliiniset kokeet näyttelevät tärkeää roolia uusien hoitojen ja lääkkeiden kehitte-lyssä. Tutkimustulosten oikeellisuus riippuu oleellisesti siitä kuinka hyvin tutkimus on organi-soitu ja toteutettu. Pocockin kirja ’Clinical Trials, A Practical Approach’ tarjoaa lyhyen mie-lenkiintoisen katsauksen kliinisten kokeiden historiaan ja tiiviin ja kattavan esityksen niidenyleisperiaatteista, suunnittelusta ja toteuttamisesta. Kirjoittajan laaja käytännön kokemus ja sy-vällinen perehtyneisyys aihepiiriin näkyy kirjan sisällössä ja tekstissä. Tilastollisia menetel-miä käsittelevä osa on suppea, mutta sisältää kuitenkin kaikkein olennaisimman. Kaikkien nii-den, jotka joutuvat jollain muotoa kliinisten kokeiden kanssa tekemisiin kannattaa ehdotto-masti lukea tämä kirja ja mahdollisesti hankkia se kirjahyllyynsä. Tekijä on kirjoittamut myösmonia hyviä yleistajuisia artikkeleita tästä aiheesta (esim. Pocock 1985 ja 1987).

Biostatistiikan perusasiat jo osaavalle voi suositella Altmanin kirjan vaihtoehdoksi Armitagenja Berryn ’Statistical Methods in Medical Research’. Se on uusittu versio perinteikkäästä pel-kastään Armitagen nimissä kulkeneesta monelle tutkijalle hyvinkin tutusta oppikirjasta. Olen-naisimmat muutokset aiempiin painoksiin verrattuna on tapahtunut niissä kappaleissa, jotkakäsittelevät eloonjäämismenetelmiä, sekventiaalisia ja epidemiologisia menetelmiä. Aihepiiril-tään se kattaa suunnilleen samat asiat kuin Altmanin kirja, mutta se on esitykseltään jonkinverran syvällisempi ja edellyttää lukijalta enemmän perustietoja. Kirja on kuitenkin kirjoitettuei-matematiikoille. Sisältö kattaa hyvin kaikki ne tilastolliset perustekniikat, joita useimmitenlääketieteellisissä tutkimuksissa käytetään.

Suomenkielisiä biometrian oppikirjoja on niukasti saatavilla. Rannan, Ritan ja Koukin kirjoit-tama ’Biometria’ niminen kirja on suunnattu ekologeille, mikä tarkoittaa ennenkaikkea esi-merkkien substanssivalikoimaa. Sinäsä kirja kattaa hyvin myös ne tilastolliset perusmenetel-mät, joita lääketieteilijätkin käyttävät. Kirja on selkeästi ja hyvin kirjoitettu. Jonkinasteisia vai-keuksia kliinikolle voi syntyä, kun hän yrittää muodostaa analogioita kirjan esimerkeistäomaan tutkimustilanteeseensa.

Lääketieteessä käytetään paljon ei-parametrisia tilastollisia menetelmiä. Niiden perusasiat onyleensä riittävästi kuvattu yllä luetelluissa perusoppikirjoissa. Mikäli joku kuitenkin haluaayksityiskohtaisempaa tietoa näistä menetelmistä, niin kannattaa tutustua klassiseen Siegelin jaCastellanin kirjaan ’Non-parametric Statistics for the Behavioral Sciences’.

OhjelmistoistaMikrotietokoneiden helpot käyttöliittymät ja uudet ohjelmistot ovat viime vuosina mahdollis-taneet tilastollisten menetelmien käytön kohtuullisella vaivannäöllä myös muillekin kuin am-

Biostatistiikan peruskurssi 1999 3 Johdanto

Page 8: Sisällysluettelo - Terkko · Normanin ja Steinerin ’Biostatistics, The Bare Essentials’ on hauskasti ja selkeästi kirjoitettu kirja. Tekstiä on sopivasti höystetty huumorilla.

mattilaisille. Monissa ohjelmissa on lisäksi sisäänrakennettuna tilastollisten menetelmien käy-töstä opastavia ’tutor’-järjestelmiä.

Ohjelmistopaketeista SPSS, Statistica, Systat, BMDP, SAS ja S-Plus lienevät tavallisimminkäytettyjä yleisohjelmia lääketieteilijöiden keskuudessa PC-puolella. Näistä kaikista on saata-vissa myös Windows versiot, jotka toimivat Windows 3.1x, Windows 95 ja Windows NT ym-päristöissä. SPSS:n uusin versio 9.0 on helppokäyttöinen ja sen menetelmätarjonta on moni-puolinen. BMDP:n New System on vielä melko keskeneräinen, joskin ohjelmistotoimittaja onlupaillut kehittyneempää versiota lähiaikoina. Systatin ja Statistican etuja ovat mm. hyvä gra-fiikka, ja Systat 8.0:n alla voi ajaa myös BMDP-ohjelmia. Monipuolisimmat mahdollisuudetkokeneemmille käyttäjälle tarjoavat SAS, S-Plus ja BMDP Professional. Ohjelmiston valin-nan ratkaisee paljolti ympärillä toimiva tiedeyhteisö ja erilaiset tottumiskysymykset. Tiedosto-jen siirtoa eri tilastopakettien, tietokanta- ja taulukkolaskinohjelmien välillä voidaan kätevästisuorittaa DBMS/Copy -ohjelmalla.

Yleisohjelmien ohella tarjolla on myös hyviä erityisohjelmia. Esimerkiksi eksakteihin testei-hin erikoistunut StatXact 4 ja epidemiologisten aineistojen mallittamiseen ja testaamiseen so-veltuva Egret ovat hyviä ja paljon käytettyjä ohjelmistoja. Mac-puolella tilastollisten ohjelmi-en tarjonta on perinteisesti ollut aina niukempaa kuin PC-puolella. Yleisohjelmista StatView5.0 ja Statistica lienevät yleisimmin käytettyjä lääkäritutkijoiden keskuudessa.

Kliinisissä tutkimuksissa voimalaskelmat ovat tärkeitä. nQuery 3.0 ja PASS 6.0 ovat tähän tar-koitukseen soveltuvia helppokäyttöisiä ja monipuolisia erityisohjelmia. Egret Siz on tärkeätyöväline epidemiologisten tutkimusten suunnittelussa. Se on helppokäyttöinen, tehokas ja so-fistikoitu paketti aineistokoon arviointiin epälineaarisia malleja käytettäessä. Yleisohjelmillaaineistokoon arviointimahdollisuuksia ei juurikaan ole.

Varsinaisten tilastopakettien ohella perusstatistiikkaa voidaan laskea myös useimmilla tauluk-kolaskinohjelmilla, esim. Excel, joka on suunnilleen sama ohjelma sekä PC- että Mac-puolel-la. Perehtymällä näihin ohjelmiin vähän syvällisemmin, käyttäjä voi helposti itse täydentää oh-jelman tarjoamaa perusvalikoimaa tekemällä ns. makroja, sellaisista tilastollista suureista, joi-den algoritmi (ratkaisumenetelmä) on verrattain helppo, esimerkiksi useimmat tässämonisteessa olevat laskentakaavat.

Satunnaistamislistojen (’randomization list’) tekeminen on keskeisellä osalla monien kliinis-ten tutkimusten alkuvaiheessa. Niitä voidaan helposti tehdä MedStat-ohjelmalla useimpiinkliinisissä tutkimuksissa esille tuleviin tilanteisiin. Excel-käyttäjien on myös helppo ohjelmoi-da kaikki tässä monisteessa kuvatut satunnaistamisalgoritmit.

Nykysin useimmat arvostetut lehdet vaativat perinteisesti lääketieteellisissä julkaisuissa esitet-tyjen P-arvojen (tilastollinen merkitsevyys, ’statistical significance’) ohella myös luottamus-välejä (’confidence interval’), esimerkiksi hoitokokeissa lopputulosmuuttujien (’outcomemeasure’) arviota esitettäessä. Tilastollisten yleispakettien tulosteisiin on mahdollista saadajonkin verran luottamusvälejä. Hämmästyttäviä puutteita tässä suhteessa niissä kuitenkinesiintyy. Läheskään kaikkia aivan tavallisimpiakaan kliinisissä tutkimuksissa tarvittavia luot-tamusvälejä ei niistä löydy ja tutkija joutuu turvautumaan erityisohjelmiin tai rakentamaantaulukkolaskinohjelmaansa niistä makron. Hyvä eritysohjelma PC-puolella luottamusvälilas-kentaan on BMJ:n markkinoima CIA-ohjelma, johon sisältyy myös pieni kirja (Gardner jaAltman 1989). Ohjelma on erittäin helppokäyttöinen.

Johdanto 4 Seppo Sarna

Page 9: Sisällysluettelo - Terkko · Normanin ja Steinerin ’Biostatistics, The Bare Essentials’ on hauskasti ja selkeästi kirjoitettu kirja. Tekstiä on sopivasti höystetty huumorilla.

Lääketieteellisten artikkelien laatutilastollisesti tarkasteltuna

Nykyisin monet lääkäritutkijat käyttävätkin jo näitä paketteja sujuvasti ja asiantuntemuksella.Hyvistä tilastotieteen kirjoista ja ohjelmista on ollut selkeästi havaittavissa oleva hyöty. Tilas-tollisten menetelmien tietämys ja käyttö on selvästi viime vuosina parantunut lääketieteellisis-sä tutkimuksissa. Silti runsaasti parantamisen varaa on vielä olemassa, minkä osoittaa Lance-tissa julkaistu tutkimus (Gore, Jones ja Thompson 1992). Kun yhteensä 191 Lancet-lehdenalustavan arvioinnin läpäissyttä tutkimusta aikaväliltä marraskuu 1990 ja kesäkuu 1991 arvioi-tiin uudelleen tilastolliselta kannalta erityisen refereeryhmän toimesta, niin tulos oli pääpiir-teissään seuraava:

• Vain 54% käsikirjoituksista katsottiin hyväksyttäviksi tai hyväksyttäviksi korjauk-sen jälkeen.

• Muita joko suositeltiin hylättäviksi (14%) tai olennaista korjausta vaativiksi (32%).• Menetelmien kuvaukset olivat puutteellisia noin puolessa käsikirjoituksista.• Noin joka neljännessä oli abstrakti tai johtopäätökset puutteellisia.• Huomattavia virheellisyyksiä tilastollisessa päättelyssä (’statistical inference’)

esiintyi 48 artikkelissa. Näissä artikkeleissa esiintyi puutteellisuuksia myös tutki-muksen suunnittelun (’study design’) suhteen.

Tilastollinen raati kiinnitti erityistä huomiota siihen olivatko tehdyt johtopäätökset perusteltu-ja tutkimusasetelman ja suoritettujen tilastollisten analyysien pohjalta.

Ohjeita lääketieteellisiin lehtiin kirjoittaville tutkijoille on julkaistu useita: Altman, Gore,Gardner ja Pocock 1983, Gardner ja Altman 1989 ovat suositeltavaa luettavaa. Näissä kirjoi-tuksissa olevien ohjeiden suhteen lienee statistikkojen keskuudessa laaja konsensus.

TutkimusprosessiTutkimus on monivaiheinen ja monimutkainen kokonaisuus. Sitä voidaan luonnehtia prosessi-na, joka alkaa tutkimuksen suunnittelusta ja joka useimmiten päätyy tulosten julkaisemiseenja niiden hyödyntämiseen. Tutkimusprosessin eri vaiheita ovat:

• Ongelman realisoituminen(tiedostamisen aste ja tärkeys)

• Tutkimuksen yleissuunnittelu(resurssien kartoitus, aikaisempien tutkimusten arviointi)

• Ongelman tieteellinen lähestymistapa(tutkimustyypin, -asetelman ja -menetelmien valinta)

• Aineiston valinta(kohdeperusjoukon ’populaation’ määrittely, otantamenetelmien valinta)

• Tietojen kerääminen(mittarit ja mittaamismenetelmät, tietojen luotettavuus ja sen turvaaminen)

• Tietojen tallennus, muokkaaminen ja esikäsittely(virheiden tarkistus, poikkeavien arvojen ’outlier’ etsintä, jakaumien muodot)

Biostatistiikan peruskurssi 1999 5 Johdanto

Page 10: Sisällysluettelo - Terkko · Normanin ja Steinerin ’Biostatistics, The Bare Essentials’ on hauskasti ja selkeästi kirjoitettu kirja. Tekstiä on sopivasti höystetty huumorilla.

• Tulosten analysointi (menetelmävalinnat)

• Tulosten tiivistäminen ja esittäminen(tunnusluvut, taulukointitekniikka ja graafiset kuvaajat)

• Tulosten tulkinta ja johtopäätöstenteko(laajuus, yleistettävyys ja kliininen merkitys)

• Tieteellinen julkaisu tai tutkimusraportti(julkaisufoorumin valinta)

• Tulosten käyttö (väärinkäyttö)(tiedon vastaanotto, tulkinta ja sovellukset)

Kaikkiin edellä mainittuihin tutkimusprosessin vaiheisiin liittyy monia virhe- ja harhamahdol-lisuuksia (’bias’) sekä salakuoppia (’pitfalls’), joihin kokenutkin tutkija saattaa langeta. Tilas-tolliseen tutkimukseen liittyvät harhat voidaan määritellä sellaisina tulkintoina ja toimenpitei-nä missä tahansa tutkimusprosessin vaiheessa, jotka johtavat systemaattiseen poikkeamaan to-dellisuudesta. Harhasta voidaan myös käyttää nimitystä systemaattinen virhe (’systematicerror’). Erilaisia harhatyyppejä on kirjallisuudessa kuvattu useita kymmeniä (Sackett 1979).

Kriittisen tutkimuksen olennainen osa on harhamahdollisuuksien jatkuva arviointi tutkimuk-sen kaikissa vaiheissa. Harhamahdollisuuksien painottuminen vaihtelee kliinisen tutkimukseneri osa-alueilla, tutkimustyypistä riippuen.

Kliinisiä kokeita varten on laadittu erityinen normisto, GCTP (’Good Clinical Trial Practice’),jossa yksityiskohtaisesti määritellään kuinka tulisi menetellä, jotta tutkimus täyttäisi kaikiltaosin mahdollisimman hyvin tieteellisyyden kriteerit. GCTP:stä on olemassa myös ns. Pohjois-maiset ohjeet (NLN Publ 28, 1989), jotka ovat lähes yhteneväiset kansainvälisten ohjeidenkanssa. Laboratoriopuolella on vastaavankaltaiset ohjeet, GLP (’Good Laboratory Practice’),joissa laboratoriotutkimusten ja -käytäntöjen normit. Monia näissä normistoissa määriteltyjäasioita tulisi noudattaa suunniteltaessa ja toteutettaessa myös muun tyyppisiä kliinisiä tutki-muksia.

Tilastollinen päättelyTilastollisen päättelyn (’Statistical inference’) perusideana on tehdä johtopäätöksiä (päätel-miä) otoksesta (tai otoksista, ’samples’) perusjoukkoa (’population’) koskeviksi. Perusjoukko-ja on käsitteellisesti kahta tyyppiä:

• kohdeperusjoukko (’target population’) ja• otosperusjoukko (’population sampled’).

Mikäli otanta on asianmukaisesti suoritettu siten, että tutkittavat on valittu toisistaan riippu-matta ja satunnaisesti, niin otantatutkimuksen tulokset ovat yleistettävissä otosperusjoukkoakoskeviksi otoskoon sallimalla varmuudella. Kohdeperusjoukkoa koskeviksi saatuja tuloksiaei kuitenkaan ilman muuta voida yleistää. Pitää ensin tutkia, onko otosperusjoukko mahdolli-sesti valikoitunut jollakin mekanismilla tavoiteperusjoukosta ja mitkä tekijät ovat olleet syynätähän valikoitumiseen.

Johdanto 6 Seppo Sarna

Page 11: Sisällysluettelo - Terkko · Normanin ja Steinerin ’Biostatistics, The Bare Essentials’ on hauskasti ja selkeästi kirjoitettu kirja. Tekstiä on sopivasti höystetty huumorilla.

Esim. Tutkitaan nivelreuman etenemiseen vaikuttavia tekijöitä ja niidenvälisiä riippuvuussuhteita. Otosperusjoukon muodostaa esimerkiksiReumasäätiön sairaalassa hoidettavat potilaat. Otos (tutkimusaineisto)kerätään jollain otantamenetelmistä näiden potilaiden joukosta.Saadut tulokset voidaan yleistää sairaalassa hoidettuihin potilaisiin,mutta ei välittömästi kaikkiin nivelreumatapauksiin. Valikoivanatekijänä on tässä tapauksessa mm. taudin vaikeusaste. Lievimpiänivelreumatapauksia ei hoideta erikoissairaalassa ja riippuvuus-suhteet saattavat lievemmissä tapauksissa olla aivan erilaiset kuinvaikeimmissa tapauksissa.

Kliinisissä tutkimuksissa, erityisesti hoitokokeissa tutkittavien joukko ei yleensä muodostaselkeää otosta mistään perusjoukosta, vaan se valikoituu sisäänotto- ja poisuljentakriteerienperusteella tutkimuksen tavoitteiden kannalta mahdollisimman tarkoituksenmukaiseksi. Tilas-tollisia päätelmiä tehtäessä tämä pitää ottaa huomioon, yleistyksiä esim. hoituloksista tai hoi-toeroista ei voi varauksettomasti tehdä jotakin muuta kuin tutkittavien edustamaa perusjouk-koa koskeviksi.

Esim. SAVE-tutkimus (Moyé et al. 1991) Satunnaistettu lumehoitokontrolloitukaksoissokkotutkimus ACE-estäjähoidon vaikutuksesta sydäninfarktin jälkeiseen kuolleisuuteen vasemman kammion vajaatoimintaa potevilla potilailla.

Kyseessä oli monikeskustutkimus, jonka potilasmateriaali seulottiin sepelvaltimotautihoitoyksiköistä USA:ssa kolmen vuoden ajalta. Seulot-tavien määrä oli kaikkiaan 95 856. Näistä 36 010:lla potilaalla todettiin kliininen sydäninfarkti, olivat selvinneet hengissä 72 tuntia infarktin jäl-keen ja olivat iältään 21-79 vuotiaita (potilasjoukko A). Erilaisin pois-suljennoin potilasjoukkoa rajattiin ja päädyttiin 2231:een potilaaseen (potilasjoukko B), jotka satunnaistetiin SAVE-tutkimukseen. Merkittä-vin poissulku tapahtui, kun kaikki ne potilaat, joilla ejektiofraktio oli yli 40% suljettiin tutkimuksen ulkopuolelle. Potilasjoukko B oli siten 6.1% potilasjoukosta A.

Tutkimuksessa todettiin selvä myönteinen vaikutus kuolleisuuteen ACE-estäjähoidolla. Tutkimuksen tuloksia hyödynnettiin välittömästi mm. lääkemainonnassa ja rohkeasti yleistettiin hoidon myönteiset vaikutukset lähes kaikkiin infarktitapauksiin. Näin rajuihin yleistyksiin ei voida kuitenkaan yllä kuvatun tutkimuksen perusteella mennä, sillä todettu myönteinen tulos pätee ainoastaan sellaiseen perusjoukkoon, jota potilasjoukko B, satunnaistetut potilaat, edustaa. Myöhemmin on tosin suoritettu tutkimuksia, joiden perusteella ACE-hoidon käyttöindikaatioita on voitu olennaisestikin laajentaa.

Tilastollinen päättely voidaan jakaa kahteen päätyyppiin:• estimointiin (arviointi) ja• hypoteesien testaamiseen.

Biostatistiikan peruskurssi 1999 7 Johdanto

Page 12: Sisällysluettelo - Terkko · Normanin ja Steinerin ’Biostatistics, The Bare Essentials’ on hauskasti ja selkeästi kirjoitettu kirja. Tekstiä on sopivasti höystetty huumorilla.

Estimointia on kahta tyyppiä:

piste-estimointia (’point estimation’) jaluottamusväliestimointia (’confidence interval estimation’).

Piste-estimointi tarkoittaa sitä, että perusjoukon tuntemattomia suureita arvioidaan yhdelläotoksesta laskettavalla luvulla, piste-estimaatilla. Esim. jakauman keskeisyyttä jollakin keski-luvulla. Piste-estimaatin luotettavuutta arvioidaan keskivirheellä (’standard error’), SE(⋅).

Hypoteesien testaamisessa voidaan erottaa kaksi päätyyppiä:• yksi testattava suure• simultaaniset testaukset; monta samanaikaisesti testattavaa suuretta

Menetelmätyypit:• parametriset menetelmät (’parametric methods’)• ei-parametriset menetelmät (’non-parametric methods’)

Mallien rakentaminen:• yhden muuttujan mallit (’univariate models’), esim. y = a + bx

• monimuuttujamallit (’multivariate models’), esim. logit(y) = a + Σ bi xi

Mallien rakentamiseen (’modelling’) liittyy sekä mallin parametrien (a, b, ...) estimointia ettäerilaisia testejä

• muuttujien merkitsevyys• muuttujien väliset yhdysvaikutukset (’interactions’)• mallin hyvyys (’goodness of the fit’)

ViitteetAltman DG, Gore SM, Gardner MJ, Pocock SJ. Statistical guidelines for contributors to medi-

cal journals. BMJ 1983; 286: 1489-1493.

Emerson JD, Colditz GA. Use of statistical analysis in the New England Journal of Medicine.N. Eng. J. Med. 309, 709-713.

Gore S, Jones G, Thompson SG. Lancet’s statistical review process: areas for improvementsby authors. Lancet 1992; 340: 100-102.

Moyé LA, Pfeffer MA, Braunwald E for the SAVE investigators. Rationale, Design and Base-line Characteristics of the Survival and Ventricular Enlargement Trial. Am J Cardiol 68:70D-79D, 1991.

Pocock SJ. Current issues in the design and interpretation of clinical trials. BMJ 1985; 290:39-42.

Sackett DL. Bias in analytic research. J Chron Dis 1979; 32: 51-63.

Good clinical trial practice. Nordic guidelines. NLN publ. No 28. Nordiska Läkemedelsnämn-den, Nordic Council on Medicines, Uppsala 1989.

Johdanto 8 Seppo Sarna

Page 13: Sisällysluettelo - Terkko · Normanin ja Steinerin ’Biostatistics, The Bare Essentials’ on hauskasti ja selkeästi kirjoitettu kirja. Tekstiä on sopivasti höystetty huumorilla.

KirjallisuuttaAltman DG. Practical statistics for medical research. Chapman & Hill, London 1991.

ISBN 0 412 27630 5 (HB).

Armitage P, Berry G. Statistical methods in medical research. Blackwell Sci. Publ., Boston1987. ISBN 0-632-01501-2.

Campbell MJ, Machin D. Medical statistics, a commonsense approach. John Wiley & Sons,Chichester 1993. ISBN 0-471-93764-9.

Dunn G, Everitt B. Clinical Biostatistics. An introduction to Evidence-Based Medicine. Edward Arnols, London 1995. ISBN 0 340 59531 0.

Glantz SA. Primer of biostatistics. Second edition. McGraw-Hill, Singapore 1997. ISBN 0-07-024268-2.

Norman GR, Steiner DL. Biostatistics, the bare essentials. Mosby year book, Inc, St Louis1994. ISBN 1-55664-369-1.

Pocock SJ. Clinical Trials, A practical approach. John Wiley & Sons, Chichester 1983. ISBN 0-471-90155-5.

Pocock SJ, Hughes MD, Lee RJ. Statistical problems in the reporting of clinical trials. A Survey of Three Medical Journals. N Eng J Med 1987; 317: 426-32.

Ranta E, Rita H, Kouki J. Biometria. Yliopistopaino, Helsinki 1994. ISBN 951-570-085-X.

Senn S. Cross-over trials in clinical research. John Wiley & Sons, Chichester 1993. ISBN: 0-471-93493-3.

Siegel S, Castellan NJ. Nonparametric statistics for the behavioral sciences. McGraw-Hill,Singapore 1988. ISBN 0-07-100326-6.

OhjelmiaAxum versio 5.0. Maahantuoja Zenex. Fax: 09-692 4389

• Grafiikkaohjelma, hinta 1600,- mk

BMDP New System. Statistical Solutions, LTD, Irlanti, 1995. Fax: +353-21-319630.

CIA (Confidence Interval Analysis). Gardner MJ, Gardner SB, Winter PD. CIA (Versio 0.5).BMJ, Tavistock Square, London WC1H 9JR.

DBMS/COPY versio 6. Conceptual Software, Inc. Houston, Texas. Fax +1-713-721 4298

FigP versio 7.0. Biosoft, USA. Fax: (314) 524-8129. http://www.biosoft.com• Hyvä julkaisugrafiikkaohjelma, hinta $500.

Biostatistiikan peruskurssi 1999 9 Johdanto

Page 14: Sisällysluettelo - Terkko · Normanin ja Steinerin ’Biostatistics, The Bare Essentials’ on hauskasti ja selkeästi kirjoitettu kirja. Tekstiä on sopivasti höystetty huumorilla.

nQuery Advisor versio 3.0. Statistical Solutions, LTD, Irlanti, 1997. Fax: +353-21-319 630,http://www.statsol.ie

• Aineistokoon arviointiohjelma, hinta £395.

Medstat versio 2.12. The Astra Group A/S, Denmark, 1991.• Vanha DOS-ohjelma, hankala käyttöliittymä.

SAS 7.0. Suomessa ohjelmaa myy mm. SAS-Instituutti.

SigmaPlot, Statistical Solutions LTD. Fax: +353-21-319 630, http://www.statsol.ie• Hyvä grafiikkaohjelma, hinta £295

S-PLUS 4.0. Suomessa ohjelmaa myy mm. Invarianssi Tietojärjestelmät Oy, fax: 09-640 261,http://www.clinet.fi/~invari/

Solas versio 1.0. Statistical Solutions, LTD, Irlanti, 1997. Fax: +353-21-319630• Puuttuvien tietojen käsittelyohjelma, hinnaltaan kallis £495

SPSS 9.0. SPSS ASC International bv. Suomessa ohjelmaa myy mm. Action Office Oy, fax 09-524 854

• Monilla yliopistoilla ja korkeakouluilla on SPSS:stä edullinen kampuslisenssi.

Statistica. StatSoft. Tulsa, USA. Fax: +1-918-749 2217. Suomessa ohjelmaa myy mm.SmartSystems, fax: 02-233 3386.

StatXact 4 for Windows. CYTEL Software Corporation 1998, 675 Massachusetts Ave., Cam-bridge, MA 02139, USA. Fax: (617) 661-4405. Kaikkia CYTEL:in tuotteita myy jousta-vasti nk. ’päivän hintaan’ myös tanskalainen Spadille Biostatistics Aps. Fax:+45-48 48 4200, http://www.cytel.com

SYSTAT 8.0 for Windows. Statistical Solutions, LTD. Fax: +353-21-319 630,http://www.statsol.ie

Johdanto 10 Seppo Sarna

Page 15: Sisällysluettelo - Terkko · Normanin ja Steinerin ’Biostatistics, The Bare Essentials’ on hauskasti ja selkeästi kirjoitettu kirja. Tekstiä on sopivasti höystetty huumorilla.

Tutkimustyypit ja -asetelmat

Lääketieteessä samaa ongelmaa voidaan lähestyä monin eri tutkimustyypein ja -asetelmin. Ti-lastollista käsittelyä vaativat lääketieteelliset tutkimukset voidaan jakaa kahteen päätyyppiin:1) kokeelliset (’experimental’, ’intervention’) tutkimukset ja 2) havainnoivat (’survey’) tutki-mukset. Kokeellisille tutkimuksille on tyypillistä tutkijan aktiivinen rooli havaintoyksiköiden(esim. potilaiden) jakamisessa tutkittaviin ryhmiin ja koejärjestelyitä ja -olosuhteita luonnehti-vien parametriasetusten määrittelyssä (esim. annosten määrittely annos-vaste-tutkimuksissa).Kokeellisissa tutkimuksissa tutkittavien (koe-eläimet, ihmiset,...) jako ryhmiin tapahtuu koe-suunnitelman mukaisesti. Havainnoivissa tutkimuksissa tutkijalla on passiivisempi rooli rekis-teröidessään tutkittavaan ilmiöön liittyviä tapahtumia tutkimussuunnitelman mukaisissa ryh-missä. Näissä tutkimuksissa tutkijalla ei ole mahdollisuutta suoranaisesti vaikuttaa tutkittavi-en jakautumiseen tutkittaviin ryhmiin, esimerkiksi jollekin vaaratekijälle altistuneisiin(’exposed group’) ja altistumattomiin (’non-exposed group’).

Havainnoivia tutkimuksia on kahta tyyppiä:• kokonaistutkimukset (’population studies’) ja • otantatutkimukset (’sample studies’).

Otantatutkimukset voidaan edelleen jakaa kahteen tyyppiin riippuen siitä suoritetaanko otantataudin tai vaikutuksen vai altistustekijän, ominaisuuden tai oletetun syytekijän suhteen.

Tutkimuksen aikasuuntauksen ja tutkittavien tietojen rekisteröintitavan mukaan tutkimuksetvoidaan edelleen jakaa

• poikkileikkaustutkimuksiin (’cross-sectional’),• takeneviin (’retrospective’),• eteneviin (’prospective’) ja• molempisuuntaisiin (’ambispective’) tutkimuksiin.

Kokeelliset tutkimukset Käyttö: Lääke- ja hoitokokeet, interventiotutkimukset (väestökokeet)

Havaintoyksiköt: koe-eläimet, ihmiset, mallit

Kliininen koe (’clinical trial’) on mikä tahansa ihmisillä suoritettu kokeellinen tutkimus, jokaperustuu tarkkaan etukäteissuunnitelmaan (’protocol’) ja jonka tavoitteena on löytää mahdolli-simman hyvä hoitomenetelmä uusille tuleville potilaille. Lääkekokeet luokitellaaan tavallises-ti koesuunnittelultaan neljään eri vaiheeseen (faasiin, ’phase’). Faasi I:n tutkimukset suorite-taan tavallisesti terveillä vapaaehtoisilla ja ne tähtäävät lähinnä lääkkeen imeytymisen ja meta-boloitumisen selvittelyyn sekä turvallisten lääkeannosten löytämiseen. Faasi II:npienimuotoisilla, aineistokooltaan yleensä korkeintaan 100-200 potilaan tutkimuksilla haetaanalustavaa selvyyttä lääkkeiden tehoon ja sivuvaikutuksiin. Faasi III:n tutkimukset ovat täyslaa-

Biostatistiikan peruskurssi 1999 11 Tutkimustyypit ja -asetelmat

Page 16: Sisällysluettelo - Terkko · Normanin ja Steinerin ’Biostatistics, The Bare Essentials’ on hauskasti ja selkeästi kirjoitettu kirja. Tekstiä on sopivasti höystetty huumorilla.

juisia lääkkeen tai hoidon tehon luotettavaan selvittelyyn tähtääviä tutkimuksia. Lääkkeenmarkkinoille tulon tai hoidon laajamittaisen käyttöönoton jälkeisiä seuranta- ja monitorointi-tutkimuksia kutsutaan faasi IV:n tutkimuksiksi.

Huomattava osa faasi III:n tutkimuksista on sellaisia, että niissä vertaillaan kokeiltavana ole-vaa hoitoa tai interventiotoimenpidettä johonkin kontrollina olevaan hoitoon tai toimenpitee-seen. Vertailtavia ryhmiä voi olla myös useita ja niiden tulee olla mahdollisimman samankal-taisia muiden paitsi tutkittavan tekijän (esim. lääkehoidon) suhteen. Vertailtavien ryhmien sa-mankaltaisuudella taustatekijöiden (esim. ikä, sukupuoli, taudin vaikeusaste) suhteen pyritäänvarmistamaan se, että mikäli tutkittavien ryhmien välillä todetaan ero, niin se todella johtuututkittavasta tekijästä eikä taustatekijöistä. Samankaltaisuus pyritään takaamaan siten, että tut-kimukseen soveltuvien henkilöiden sijoittelussa vertailtaviin ryhmiin käytetään satunnaista-mismenettelyä (’randomization’). Valtaosa faasi III:n tutkimuksista on nykyisin satunnaistettu-ja.

Yksi satunnaistamismenettelyn syistä on estää subjektiivisuuden vaikutus tutkimuksen tulok-siin. Satunnaistamismenettelyllä vertailtavista ryhmistä tulisi lähtötilanteessa täysin samankal-taisia, mikäli satunnaistamismenettelyä voitaisiin jatkaa rajatta. Käytännössä kuitenkin joudu-taan tyytymään melko pieniin ryhmäkokoihin ja huomattaviakin eroja taustatekijöiden suh-teen saattaa ryhmien välillä esiintyä. Jokaisessa satunnaistetussa kliinisessä kokeessa on syytäsuorittaa ryhmien vertailu kaikkien relevanttien taustatekijöiden suhteen, jotta voitaisiin var-mistua siitä, kuinka hyvin ryhmät ovat lähtötilanteessa tasapainossa.

Mikäli käytetään yksinkertaista satunnaistamista ja ryhmäkoot ovat pieniä, niin ryhmistä voitulla huomattavastikin erisuuruiset. Samansuuruisten ryhmien aikaansaamiseksi täytyy käyt-tää nk. rajoitettuja tai lohkosatunnaistamismenetelmiä (’block randomization’).

Mikäli satunnaistaminen on suoritettu siten, että tutkittavat henkilöt eivät tiedä mihin ryh-mään he kuuluvat, mutta tutkija ja/tai muu hoitohenkilökunta tietää, kyseessä on yksöissokko-koe (’single blind’), mutta jos kumpikaan osapuoli ei tiedä ryhmiin sijoittelua ennen tutkimuk-sen päättymistä (mieluiten ennen tutkimusten analysointia), niin kyseessä on kaksoissokko-koe (’double blind’). Näistä jälkimmäinen sisältää vähemmän harhamahdollisuuksia.

Yksinkertaisen satunnaistamismenettelyn asemesta voidaan käyttää monimutkaisempiakinmenetelmiä takaamaan vertailtavien ryhmien vertailukelpoisuutta lähtötilanteessa. Eräs tällai-nen menettely on ositettu satunnaistaminen (’stratified randomization’). Tällöin potilaat jae-taan taustatekijöiden mukaan ositteisiin ja suoritetaan satunnaistaminen kussakin ositteessaerikseen. Kliinisessä kokeessa päästään harvoin täysin satunnaiseen valintaan. Varsin tavalli-nen on esim. tilanne, että tutkija ottaa hoitoryhmään ne potilaat, jotka tulevat hänen klinikal-leen ja naapuriklinikalla hoidetut potilaat muodostavat verrokkiryhmän. Tällainen asetelmaon kuitenkin varsin altis kritiikille ja harhamahdollisuuksille.

Toisinaan on epäeettistä tai mahdotonta suorittaa puhdas satunnaistaminen (esim. fataalit sai-raudet, potilaan saama hyöty jne.). Näissä tilanteissa on erityisen tärkeää tutkimustuloksia ana-lysoitaessa tutkia huolella ryhmien vertailukelpoisuutta ja käyttää tarvittaessa erilaisia adjus-tointitoimenpiteitä analyysivaiheessa, esim. erilaisten tilastollisten mallien avulla.

Monissa lääkekokeissa voidaan säästää tutkittavien määrässä suorittamalla nk. ristikkäistutki-mus (’cross-over trial’). Tässä tutkimussuunnitelmassa potilaat jaetaan satunnaistamalla tutki-

Tutkimustyypit ja -asetelmat 12 Seppo Sarna

Page 17: Sisällysluettelo - Terkko · Normanin ja Steinerin ’Biostatistics, The Bare Essentials’ on hauskasti ja selkeästi kirjoitettu kirja. Tekstiä on sopivasti höystetty huumorilla.

muksen alkaessa esim. ryhmiin A ja B, jotka saavat tiettyä hoitoa määrätyn pituisen ajan, jon-ka jälkeen seuraa puhdistumisajanjakso, (’wash-out’), jolloin koehenkilöt eivät saa mitään tut-kimustuloksiin vaikuttavaa hoitoa. Tämän jälkeen seuraa kolmas tutkimusajanjakso, jolloinne potilaat, jotka aloittivat hoidolla A saavat ajanjaksona hoitoa B ja päinvastoin. Ristikkäis-tutkimusasetelmassa ei siten ole erillistä kontrolliryhmää, vaan potilaat toimivat itsensä kont-rolleina. Lueteltujen kolmen tutkimusvaiheen lisäksi tutkimukseen liitetään usein lumehoito-jaksot eri tutkimusvaiheiden alkuun ja loppuun.

Ristikkäistutkimusasetelma soveltuu sellaisiin tutkimuksiin, joissa hoidon tai lääkkeen vaiku-tus on lyhytkestoinen, sillä muuten ei voida yhdistää tutkimustuloksia tutkimusjaksoista 1 ja 3ja siten menetetään asetelman käytön peruste, säästövaikutus potilasmäärissä. Mikäli edellises-tä tutkimusvaiheesta lääkkeen tai hoidon efekti jää päälle (’carry-over effect’), niin tutkimus-periodi pitää ottaa huomioon tutkimustuloksia analysoitaessa. Tällaisissa tilanteissa tutkimus-tulosten tulkinta on usein vaikeaa.

Kliinisissä tutkimuksissa suoritetaan usein samoista potilaista toistomittauksia, käytetään tois-tomittausasetelmia (’repeated measures designs’). Niiden käytön perusideana on vähentää yk-silöiden välisen vaihtelun vaikutusta tutkittavaan asiaan, esimerkiksi hoitojen vaikutukseen.Samoin kuin ristikkäsiasetelmassa, toistoasetelmassakin aikaansaadaan säästöjä koe-eläin taihenkilömäärissä. Sama voima (’power’) saavutetaan pienemmällä tutkittavien määrällä kuinjos jokaisesta tutkittavasta olisi vain yksi mittausarvo. Toistoasetelmat antavat monia mahdol-lisuuksia tutkia mm. ajan ja erilaisten olosuhteiden sekä niiden yhdysvaikutusten (’interacti-on’) vaikutusta koe- tai hoitotuloksiin.

Valtaosa kliinisistä kokeista ovat luonteeltaan vertailevia, ja todettu ero ryhmien (esim. hoito-ja vertailuryhmän) välillä voi johtua seuraavista syistä:

• Otosvaihtelusta tai sattumasta• Sisäisistä eroavuuksista ryhmien välillä

(esim. prognoosiin vaikuttavat tekijät)• Eroista ryhmien käsittelyssä ja seurannassa

(esim. hoitoryhmän intensiivisempi seuranta)• Todellinen ero ryhmien välillä tutkittavan asian suhteen

KokonaistutkimuksetKäyttö: hallinnolliset kartoitukset, väestötilastot

Havaintoyksiköt: henkilöt, kuolintodistukset, sairaalastapoistot, väestö- ja tautiryhmät

Kokonaistutkimus kohdistuu koko perusjoukkoon; esimerkiksi rutiinisti suoritetut väestötilas-toinnit, ovat luonteeltaan kokonaistutkimuksia. Niitä käytetään silloin, kun halutaan saada eh-dottoman tarkka tieto tutkittavista asioista.

Kokonaistutkimus luo usein hypoteeseja ja antaa vihjeitä mahdollisista riippuvuuksista sekätarjoaa tutkimusaineistoja muun tyyppisille tutkimuksille. Kokonaistutkimuksen haittoja ovatkalleus, hitaus ja usein laadunvalvonnan vaikeus.

Biostatistiikan peruskurssi 1999 13 Tutkimustyypit ja -asetelmat

Page 18: Sisällysluettelo - Terkko · Normanin ja Steinerin ’Biostatistics, The Bare Essentials’ on hauskasti ja selkeästi kirjoitettu kirja. Tekstiä on sopivasti höystetty huumorilla.

Otantatutkimukset

Poikkileikkaustutkimukset (’cross-over studies’)

Käyttö:• Yleiskartoitukset• Vallitsevuudet (’prevalence’)• Riippuvuudet tautien tai riskitekijöiden välillä• Seurantatutkimusten osana

Koska poikkileikkaustutkimukset eivät sisällä aikatekijää, ei todettujen riippuvuuksien perus-teella voida päätellä mitään syy-seuraus -suhteesta.

Kohorttitutkimusten (seurantatutkimusten) tiedonkeruujärjestelmä pohjautuu usein poikkileik-kaustutkimuksiin.

Tapaus-verrokkitutkimukset (’case-control’ tai ’case-referent’ studies)

Tapaus-verrokkitutkimuksen perusasetelmassa on kyse vertailusta kahden ryhmän välillä. Toi-sen ryhmän ( ’tapaukset’) muodostavat ne henkilöt, joilla on tutkimuksen kohteena oleva tautija toisen ne henkilöt, joilla tätä tautia ei ole (’verrokit’). Tapaus-verrokki -tutkimusta nimite-tään myös sairauslähtöiseksi tutkimukseksi. Tutkimuksessa kerätään altistus- ja vaaratekijätie-toja kummastakin ryhmästä (yleensä takenevasti, retrospektiivisesti) ja tutkitaan, esiintyyköjokin tietty tekijä tai tekijäyhdistelmä useammin tai voimakkaampana tapauksilla kuin verro-keilla.

Tapaus-verrokkiasetelmasta on olemassa kaksi variaatiota• kaltaistettu (’matched’) ja• kaltaistamaton asetelma (’unmatched’).

Kaltaistetussa asetelmassa tapaukset ja verrokit on valittu siten, että ne ovat samankaltaisiatiettyjen tekijöiden (ikä, sukupuoli jne. suhteen). Kaltaistus on eräs vakiointikeinoista, jollapyritään poistamaan kaltaistustekijöiden vaikutus tutkittavasta ilmiöstä, eli vaara- tai altistus-tekijän ja taudin välisestä yhteydestä. Yleensä tekijöitä, joiden suhteen kaltaistus suoritetaanei saisi olla kovin monta, sillä muuten vaanii ylikaltaistuksen vaara; kaltaistuksella poistetaanosa tutkittavaa vaikutusta. Kaltaistamattomassa asetelmassa tutkittavien tulisi olla otoksia vas-taavista perusjoukoista.

Tapaus-verrokkitutkimusta edeltää tavallisesti sairastavuus tai kuolleisuustutkimus, jonka poh-jalta todettu (tai todetut) yhteydet tiettyjen altistus- tai vaaratekijöiden ja taudin (tai tekijöidenaiheuttaman vaikutuksen) välillä halutaan varmentaa. Pääasiallisin ero poikkileikkaustutki-mukseen verrattuna on aikatekijän olemassaolo.

Tapaus-verrokkitutkimuksesta saatavien tulosten oikeellisuuden kannalta keskeisiä seikkojaovat:

• tapausten ja verrokkien määrittelykriteerin (tai kriteerien) oikeellisuus

Tutkimustyypit ja -asetelmat 14 Seppo Sarna

Page 19: Sisällysluettelo - Terkko · Normanin ja Steinerin ’Biostatistics, The Bare Essentials’ on hauskasti ja selkeästi kirjoitettu kirja. Tekstiä on sopivasti höystetty huumorilla.

• sekä tapaus- että verrokkiryhmän edustavuus• tapaus- ja verrokkiryhmän vertailukelpoisuus• altistus- ja vaaratekijätietojen tarkkuus ja oikeellisuus

Kaikkiin näihin kohtiin liittyy lukuisia harhamahdollisuuksia. Mikäli ryhmien määritettelykri-teeri (tai kriteerit) ovat puutteellisia, saattaa osa tapauksista olla sellaisia, ettei heillä olekaantutkimuksen kohteena olevaa tautia (väärät positiiviset), vastaavasti osa verrokkiryhmään kuu-luvista saattaa kuulua sinne virheellisesti (väärät negatiiviset). Nämä luokitusvirheet voivatpeittää alleen todellisen riippuvuuden joko täydellisesti tai osittain tai ne saattavat synnyttääharhaisen riippuvuuden altistus- tai vaaratekijöiden ja taudin välillä.

Mikäli edustavuus on puutteellinen, putoaa tutkimukselta pohja pois joko täysin tai osittain,sillä tilastollisessa tutkimuksessa pyritään siihen, että todetut tulokset voidaan yleistää perus-joukkoa koskeviksi.

Verrokkiryhmän valinta tapaus-verrokkitutkimuksissa on usein vaikea tehtävä. Usein verrok-kiryhmä joudutaan keräämään eri lähteistä kuin tapaukset ja tällöin vertailukelpoisuus saattaaolla puutteellinen. Riippuvuudet voivat tällöin tulla joko liian voimakkaiksi tai liian heikoiksiriippuen siitä onko verrokkiryhmä liian ’huono’ tai ’hyvä’.

Tietojen keruu tapaus-verrokkitutkimuksissa joudutaan usein suorittamaan takenevasti ja täl-laisten historiatietojen luotettavuus ei aina ole paras mahdollinen. Myös tästä saattaa syntyäharhaisia tutkimustuloksia. Esimerkiksi tapauksilta altistus- ja vaaratekijätiedot saattavat ollahuolellisemmin ja/tai useammin tallennettuja kuin verrokeilta ja haastattelu- ja kyselytutki-muksissa tapaukset saattavat muistaa verrokkeja paremmin altistus- ja vaaratekijähistoriansa.Tällöin seurauksena on harhainen tai liian voimakas riippuvuus altistus- tai vaaratekijän ja tau-din välillä.

Myös usein ne henkilöt, joilla on sekä tutkimuksen kohteena tauti että jokin siihen liittyvävaaratekijä, saattavat tulla suuremmalla todennäköisyydellä valituksi tutkimusaineistoon(otokseen) kuin ne henkilöt, joilla on pelkästään ko. tauti tai vaaratekijä. Tuloksena on harhai-sen korkea vaaratekijän esiintyvyys tapausten joukossa.

Tapaus-verrokkitutkimuksessa ei ole mahdollista suoraan arvioida altistus- tai vaaratekijänvaikutuksen suuruutta, lisääntynyttä vaaraa tapauksilla. Epäsuorasti arviointi on kuitenkinmahdollista. Arviointi perustuu olettamuksiin:

• taudin ilmaantuvuus on alhainen perusjoukossa• sekä tapaukset että verrokit muodostavat kumpikin erikseen satunnaisotoksen

vastaavista perusjoukoista

Vain harvoissa tapaus-verrokkitutkimuksissa tämä jälkimmäinen olettamus on tarkalleen voi-massa, mutta käytännössä poikkeamat siitä eivät yleensä ole ratkaisevia tulosten merkitsevyy-den kannalta.

Tapaus-verrokki -asetelman etuja ovat:• taloudellisuus• nopea toteuttaminen• riittävät määrät tapauksia helposti saatavissa• aineisto helposti kerättävissä.

Biostatistiikan peruskurssi 1999 15 Tutkimustyypit ja -asetelmat

Page 20: Sisällysluettelo - Terkko · Normanin ja Steinerin ’Biostatistics, The Bare Essentials’ on hauskasti ja selkeästi kirjoitettu kirja. Tekstiä on sopivasti höystetty huumorilla.

Kohorttitutkimukset, seurantatutkimukset (’cohort study’ tai ’follow-up study’)

Sana kohortti merkitsee henkilöjoukkoa, jolla on jokin yhteinen ominaisuus ja jota seurataantietyn ajan tutkimuksen kohteena olevien tapahtumien rekisteröimiseksi. Tämä yhteinen omi-naisuus voi olla esimerkiksi tietyn altistus- tai vaaratekijän olemassaolo tai puuttuminen tainiiden voimakkuus. Pääasiallisin ero tapaus-verrokkitutkimukseen verrattuna on, että vertailta-vat ryhmät muodostetaan altistus- tai vaaratekijätietojen perusteella ja seurannan tarkoitukse-na on rekisteröidä kuinka paljon tutkimuksen kohteena olevaa tautia ilmaantuu eri ryhmissä jatehdä tämän perusteella johtopäätökset altistus- tai vaaratekijän ja taudin ilmaantuvuuden väli-sestä yhteydestä.

Tässä tutkimusasetelmassa on mahdollista suoraan arvioida johonkin altistus- tai vaarateki-jään (olemassaoloon tai voimakkuuteen) liittyvä lisääntynyt tai vähentynyt sairastumisvaara.

Tietojen keruu kohorttitutkimuksessa voi tapahtua ajallisesti myös takenevasti tai molem-pisuuntaisesti. Kohorttitutkimus aloitetaan lähtötutkimuksella (poikkileikkaustutkimus), jonkayhteydessä

• varmistutaan, että seurattavista ryhmistä poissuljetaan ne henkilöt, jotka tutkimuk-sen lähtötilanteessa sairastavat seurannan kohteena olevaa tautia tai eivät voi siihenjostain teknisestä syystä johtuen sairastua

• määritellään altistus- tai vaaratekijätietoihin perustuvat kriteerit, joiden perusteellaseurattavat ryhmät muodostetaan.

Tässä tutkimusasetelmassa on lukuisia etuja verrattuna tapaus-verrokki-asetelmaan:• voidaan tutkia ryhmien vertailukelpoisuutta jo tutkimuksen lähtöhetkellä ja tarkas-

tella jo ennakkoon, minkä muuttujien suhteen erilaiset korjaukset (adjustoinnit)analyysivaiheessa ovat tarpeen

• lisääntyneen vaaran suora arviointi on mahdollista• on helpompi välttää harhaisuutta kerättävässä tiedossa (esim. muistamattomuus-

harha)• on helpompi kartoittaa altistus- ja vaaratekijöissä seurannan aikana tapahtuneita

muutoksia• voidaan tutkia samanaikaisesti myös muita tauteja ja niiden yhteyksiä varsinaiseen

tutkimuksen kohteena olevaan tautiin• toisin kuin useimmissa tapaus-verrokkitutkimuksissa tutkimusaineistosta ei vali-

koidu pois henkilöitä, jotka ovat esimerkiksi eläneet hyvin lyhyen ajan altistukses-ta.

Asetelman haittoja ovat:• tarvitaan tapaus-verrokki -tutkimuksiin verrattuna huomattavasti suurempi tutki-

musaineisto ryhmien välisten vaaraerojen tai vaarasuhteen merkitsevyyden toteen-näyttämiseksi. Tästä on seurauksena tutkimustulosten viivästyminen jatutkimuksen kalleus

• tutkimukseen kuuluvien henkilöiden tieto tutkimukseen kuulumisestaan saattaaaiheuttaa sen, että henkilöt muuttavat elintapojaan ym., jolla saattaa olla vaikutustasairastumisvaaraan

Tutkimustyypit ja -asetelmat 16 Seppo Sarna

Page 21: Sisällysluettelo - Terkko · Normanin ja Steinerin ’Biostatistics, The Bare Essentials’ on hauskasti ja selkeästi kirjoitettu kirja. Tekstiä on sopivasti höystetty huumorilla.

• on mahdollista, että otantasuhde tulee eri ryhmissä erilaiseksi valikoitumisme-kanismeista johtuen. Esimerkiksi lähtötutkimuksessa, missä seurattavat ryhmätmuodostetaan, terveet tupakoitsijat saattavat jättää vastaamatta kyselyyn useam-min kuin terveet tupakoitsemattomat (esimerkiksi johtuen kyselylomakkeenkomplisoidusta rakenteesta tupakkamuuttujien osalta). Tästä aiheutuu keinotekoi-sesti terveiden liian suuri edustus tupakoitsemattomien ryhmässä.

Meta-analyysi

Yleistä

Kun tarkastellaan useiden samoja hoitoja vertailevien kliinisten tutkimusten tuloksia, niin voi-daan joskus todeta yllättävänkin suurta vaihtelua todetuissa hoitoeroissa, osa selittyy luonnol-lisesti satunnaisvaihtelulla osa selittyy tutkimuksissa käytettyjen potilasaineistojen eroilla.Vaikka tutkimusprotokollat olisivatkin lähes samanlaisia niin potilasaineistoissa on usein suu-riakin eroja. Viimeisten kymmenen vuoden aikana on ollut voimakas suuntaus kehittää tilas-tollisia analyysimenetelmiä, joiden avulla voitaisiin formaalisesti analysoida kaikki tieto sekäjulkaistuista että julkaisemattomista samoja hoitoja vertailevista tutkimuksista. Analyysistäkäytetään nimitystä meta-analyysi (’meta-analysis’). Se tarkoittaa analyysiä, joka suoritetaankahden tai useamman samaa ongelmaa tarkastelevan tutkimuksen tulosten pohjalta. Tavoittee-na on tehdä johtopäätöksiä, jotka olisivat luotettavampia kuin mihin yksittäisissä tutkimuksis-sa on päädytty ja analysoida lisäksi yksittäisten tutkimustulosten välistä vaihtelua. On tärkeääselvittää vaihtelevatko tulokset esim. tutkimusaineiston koon tai jonkin muun tutkimuksen eri-tyispiirteen suhteen. Perussyyt meta-analyysin suorittamiselle ovat siten:

• lisätä voimaa (vähentää väärien negatiivisten johtopäätösten todennäköisyyttä) • lisätä tarkkuutta (parantaa estimaattien luotettavuutta)• vähentää harhan mahdollisuutta (vähentää väärien positiivisten johtopäätösten

todennäköisyyttä)

Meta-analyysin tilastollisen perustan on esittänyt esimerkiksi Fleiss (1993).

Yleensä tukimuksia suunniteltaessa ei erityisesti oteta huomioon, että tuloksia tultaisiin mah-dollisesti myöhemmin käyttämään meta-analyysin aineistona (ad hoc meta-analysit). Vasta-kohtana ovat sellaiset meta-analyysit, jotka perustuvat kahteen tai useampaan tutkimukseen,jotka on erityisesti suunniteltu myöhempää meta-analyysikäyttöä varten (’designed meta-ana-lysis’)

Käytettyjen tietolähteiden perusteella meta-analyysit luokitellaan A) kirjallisuuteen perustu-viin, B) tutkijoilta saatuihin yksittäisiin potilastietoihin perustuviin, ja C) tutkijoilta tai tutki-musrekistereistä saatuihin yhteenvetotietoihin perustuviin.

Tyypin A tutkimuksiin sisältyy mm. seuraavia vaaroja ja ongelmia:• positiivisia tuloksia julkaistaan lääketieteellisissä lehdissä herkemmin kuin nega-

tiivisia (Begg ja Berlin. 1988.)

Biostatistiikan peruskurssi 1999 17 Tutkimustyypit ja -asetelmat

Page 22: Sisällysluettelo - Terkko · Normanin ja Steinerin ’Biostatistics, The Bare Essentials’ on hauskasti ja selkeästi kirjoitettu kirja. Tekstiä on sopivasti höystetty huumorilla.

Näin ollen on helpompi saada julkaistuksi sellaisen tutkimuksen tulos,jossa todetaa merkitsevä hoitoero kuin sellaisen, missä ero ei saavutamaagisena pidettyä tilastollisen merkitsevyyden rajaa p < 0,05. Näitä jälkimmäisiä myös tutkijat jättävät helpommin pöytälaatikkoonsa.

• tutkimustulokset julkaistu epäyhtenäisesti tai huonosti hyödynnettävässä muodos-sa (esim. elossaolokäyrät ’survival curves’)

• julkaistut tulokset eivät ole käyttökelpoisia esim. perusteettomasta poissuljennois-ta tai ristikkäisasetelman purkaimisesta johtuen

Tyypin B tutkimuksissa on monia etuja verrattuna A:an ja C:en• erilaiset tarkistukset mahdollisia (tärkeää harhojen välttämiseksi)• ei menetetä informaatiota (saavutetaan maksimaalinen voima)• enemmän analyysimahdollisuuksia (esim. voidaan tehdä prognostisten tekijöiden

suhteen adjustointeja tai osaryhmäanalyyseja, jotka eivät tosin ole kovin suositel-tavia)

• paremmat mahdollisuudet antaa deskriptiivisia tietoja aineistona olevista tutki-muksista

• eri tutkimusten tutkijoilla mahdollisuus kontribuutioon

Tyyppiä C olevia tutkimuksia käytetään yleensä seuraavissa tilanteissa:• voimanmenetyksellä B-tyypin tutkimuksiin verrattuna ei ole ratkaisevaa merki-

tystä

Yleensä asia on näin. Poikkeuksena eloonjäämistutkimukset, joissa onkorkea kuolleisuus (Buyse ja Ryan 1987)

• tulokset ovat helposti tiivistettävissä; yksinkertaiset lopputulosmittarit (esim. re-duktio kokonaiskuolleisuudessa)

• paljon pieniä tutkimuksia• tutkimukset liian vanhoja, potilaskohtaisia tietoja ei ole enää käytettävissä tai

niiden uudelleen kerääminen on liian kallista

On arviotu (Cook et al. JAMA 269:2749-53,1993), että vain 30%:ssa meta-analyysejä on hyö-dynnetty myös julkaisematonta tietoa. Julkaisemattoman tiedon poisjättäminen aiheuttaa meta-analyysien tuloksiin helposti ns. julkaisuharhan (’publication bias’), jota on käytetty voimak-kaimpana argumenttina kritisoitaessa meta-analyysejä (esimerkiksi Oakes 1993).

Lancetissa ja BMJ:ssä on viime aikoina julkaistu runsaasti meta-analyysiin kriittisesti suhtau-tuvia artikkeleita (Eggert 1997a-d, Smith et al. 1997), osassa näistä on ehdotettu testejä jul-kaisuharhan toteamiseksi ja menetelmiä sen korjaamiseksi. Julkaisemattomien tutkimusten tu-loksia on viime vuosina pyritty enenevässä määrin tallentamaan myös erityisiin tutkimusrkis-tereihin, mm. lääketeollisuus noudattaa yleisesti tätä käytäntöä. Vaikkakin suositeltavaa, niinon erittäin vaikeaaa hyödyntää julkaisemattomien tutkimuksien tuloksia meta-analyysissä (ks.esim Yusuf ym. 1985)

Tutkimustyypit ja -asetelmat 18 Seppo Sarna

Page 23: Sisällysluettelo - Terkko · Normanin ja Steinerin ’Biostatistics, The Bare Essentials’ on hauskasti ja selkeästi kirjoitettu kirja. Tekstiä on sopivasti höystetty huumorilla.

Meta-analyysi vastaan suuri lääkekoe

Meta-analyysien antamien tulosten oikeellisuutta on viime vuosina, etenkin USA:ssa, pyrittytarkistamaan suorittamalla lääkekokeita (’mega trials’) kymmenien tuhansien suuruisilla tutki-musaineistoilla. Ristiriitaisiakin tuloksia on todettu. Esimerkiksi magnesiumhoito akuutissasydäninfarktissa osoittautui lumehoitoa selvästi tehokkaammaksi mega-analyysissä, mutta eisuuressa ISIS-4 tutkimuksessa Mahdollisiksi selityksiksi tälle ristiriidalle on ehdotettu muitalääkehoitoja ja eroja magnesiumhoidon ajoituksessa (Borzak ja Ridker 1995).

Meta-analyysien tulokset saattavat vaihdella huomattavastikin riippuen käytetystä tilastollises-ta analysointitavasta, jollaisia ovat mm. satunnaisten vaikutusten (’random effects’) ja kiintei-den vaikutusten (’fixed effects’) mallit. Muun muassa Thompson (1993) on tarkastellut esi-merkein havainnollistettuna näitä ristiriitaisuuksia.

Meta-analyysejä voidaan suorittaa myös käyttäen ns. bayesiläistä lähestymistapaa (Bayesianapproach’), joka on eräällä tavalla yleistys satunnaisten vaikutusten mallille. Bayesilaiset me-netelmät saattavat olla hyödyllisiä etenkin tutkimuskohtaisia kovariaatteja käsiteltäessä. On-gelmana Bayesilaisessa lähestymistavassa on aina se, että tarvitaan tietoa a priori jakaumista,ne ovat laskennallisesti hankalia ja ohjelmia on niukasta saatavilla.

KirjallisuuttaBegg CB and Berlin JA. Publication bias: a problem in interpreting medical data J Roy. Sta-tist. Soc A,151:419-63,1988.

Borzac and Ridker. Ann Intern Med 123: 873-7, 1995.

Buyse M and Ryan LM. Issues of Efficiency in Combining Proportions of Deaths from Seve-ral Clinical Trials. Stat in Med 6:565-576, 1987.

Cook DJ, Gyatt GH, Ryan G, Clifton J, Buckingham L, Willan A et al. Should unpublisheddata be included in meta-analyses? Current convictions and controversies. JAMA 269; 2749-52, 1993.

Egger M, Smith GD. Meta-analysis: potentials and promise. BMJ 315: 1371-4, 1997.

Egger M, Smith GD, Phillips AN. Meta-analysis: principles and procedures. BMJ 315: 1533-7, 1997.

Smith GD, Egger M, Phillips AN. Meta-analysis: beyond the grand mean? BMJ 315: 1610-4,1997.

Egger M, Smith GD. Meta-analysis: bias in location and selection of studies. BMJ 315: 61-66, 1997.

Egger M, Smith GD, Schneider M, Minder CE. Bias in meta-analysis detected by simple,graphical test. BMJ 315: 629-34, 1997

Egger M, Schneider M, Smith GD. Spurious precision? Meta-analysis of observational stu-dies. BMJ 316: 140-144, 1997.

Biostatistiikan peruskurssi 1999 19 Tutkimustyypit ja -asetelmat

Page 24: Sisällysluettelo - Terkko · Normanin ja Steinerin ’Biostatistics, The Bare Essentials’ on hauskasti ja selkeästi kirjoitettu kirja. Tekstiä on sopivasti höystetty huumorilla.

Fleiss JL. The statistical basis of meta-analysis. Statistical Methods in Medical Research 2:121-45, 1993.

ISIS-4 (Fourth International Study of Infarct survival) Collaborative Group. ISIS-4, a rando-mized factorial trial assessing early oral captopril, oral mononitrate, and intravenous mag-nesium sulphate in 58,050 patients with suspected acute myocardial infarction. Lancet 345;669-85, 1995.

Oakes M. The logic and role of meta-analysis in clinical research. Statistical Methods in Me-dical Research 2: 147-60, 1993.

Teo KK, Yusuf S, Collins R, Held PH, Peto R. Effects of intravenous magnesium in suspec-ted acute myocardial infarction: overview of randomized trials. BMJ 303; 1499-503, 1991.

Thompson SG. Controversies in meta-analysis: the case of the trial of serum cholesterol re-duction. Statistical Methods in Medical Research 2: 173-192,1993.

Yusuf S, Collins R Peto R et al. Intravenous and intracoronary fibrinolytic therapy in acutemyocardial infarction. overview of results on mortality, reinfarction and side-effects from 33randomized controlled trials. Eur. Heart J 6:556-85, 1985.

Woods KL, Fletcher S, Roffe C, Haidar Y. Intravenous magnesium sulphate in suspected acu-te myocardial infarctions: results of the second Leicester intravenous magnesium trial (LIMIT-2). Lancet 339; 1553-8, 1992.

Tutkimustyypit ja -asetelmat 20 Seppo Sarna

Page 25: Sisällysluettelo - Terkko · Normanin ja Steinerin ’Biostatistics, The Bare Essentials’ on hauskasti ja selkeästi kirjoitettu kirja. Tekstiä on sopivasti höystetty huumorilla.

Aineistokoko jatutkimuksen voima-analyysi

JohdantoAineisto- eli otoskoon arviointi (’sample size determination’) ja tutkimuksen voima-analyysi(’power analysis’) ovat tilastollisen tutkimuksen suunnittelussa keskeisimpiä kysymyksiä. Neriippuvat monista eri tekijöistä. Näitä ovat mm. ryhmien välillä oletettu kliininen ero, so. vai-kutuksen suuruus (’effect size’) (∆) lopputulosmuuttujassa (’outcome measure’) ja sen mittaa-mistapa, tutkijan sopivaksi katsoma tilastollinen merkitsevyystaso (’significance level’) (α) jatestin voima (’power of test’) (1− β), eli mahdollisuus todeta ero ∆, mikäli se on olemassa.Suurilla otoksilla kyetään näyttämään toteen pieniäkin eroja tilastollisesti merkitseviksi, vaik-ka niillä ei ehkä olisi kliinistä merkitystä. Paljon suurempi ongelma on kuitenkin liian piententutkimusaineistojen käyttö. Tästä syystä huolelliset otoskokolaskelmat tulisikin sisällyttää jo-kaiseen hyvin tehtyyn tutkimussuunnitelmaan.

Erityisesti ns. "negatiivissa" satunnaistetuissa kliinisissä kokeiluissa β-virheen merkitys koros-tuu. Kun todetaan, että hoitojen välille ei saatu tilastollisesti merkitsevää eroa, herää automaat-tisesti kysymys: kuinka suuri ero tärkeimmässä lopputulosmuuttujassa oli mahdollista todetakäytetyllä aineistokoolla, eli mikä oli tutkimuksella voima.

Kirjallisuudessa on runsaasti heikkovoimaisia tutkimuksia, joissa eroa vertailtavien hoitojenvälille ei ole saatu. Pöytälaatikkoon näitä tutkimuksia jää myös runsaasti aiheuttaen meta-ana-lyyseihin julkaisuharhaa.

Freiman et al. (1978) on suorittanut arvioinnin 71:stä julkaistusta kahta eri hoitoa vertailevistasatunnaistetuista kontrolloiduista tutkimuksista, joissa kaikissa oli päädytty toteamukseen:’Kahden hoidon vertailu ei saavuttanut tilastollista merkitsevyyttä (p > 0.05). Kaikissa päälop-putulosmuuttuja oli binomiaalinen, kaksiarvoinen. Tutkimukset uudelleenarvioitiin siten, ettäolivatko tutkijat käyttäneet riittävän suurta aineistokokoa, jotta he olisivat voineet todeta to-dennäköisyydellä (P > 0.90) 25% ja 50% hoitovaikutuksen. Todettiin, että 67:llä (94%) tutki-muksella oli yli 10%:n riski olla toteamatta 25%:n hoitoeroa ja 50 (70%) tutkimusta ei olisi to-dennut edes 50%:n hoitoeroa, jota yleensä pidetään jo suurena erona satunnaistetuissa tutki-muksissa. Kun todellista hoitoeroa arvioitiin 90%:n luottamusvälien (tarkempi käsittelymyöhemmin tässä monisteessa) avulla, niin todettiin, että 57:ssä (80%) tutkimuksessa 25%:nhoitoero olisi ollut mahdollinen ja 34:ssä (48%) tutkimuksessa jopa 50% olisi voinut jäädä to-teamatta.

Esimerkkinä heikkovoimaisesta negatiivisesta tutkimuksesta voidaan mainita Cappuccion etal. (1985) BMJ:ssä julkaisema verenpainetutkimus, missä dietaarista magnesiumhoitoa verrat-tiin lumehoitoon lievää ja keskivaikeaa essentielliä hypertensiota potevilla henkilöillä. Tutki-mus oli satunnaistettu kahden periodin ristikkäistutkimus. Tutkimuksessa päätyttiin erittäinvarmaan johtopäätökseen: "Tulokset eivät anna mitään evidenssiä siitä, että oraalisella mag-nesiumhoidolla olisi merkitystä verenpaineen säätelyssä". Tutkimuksessa oli kuitenkin yhteen-

Biostatistiikan peruskurssi 1999 21 Aineistokoko ja tutkimuksen voima

Page 26: Sisällysluettelo - Terkko · Normanin ja Steinerin ’Biostatistics, The Bare Essentials’ on hauskasti ja selkeästi kirjoitettu kirja. Tekstiä on sopivasti höystetty huumorilla.

sä vain 17 potilasta, joten voima oli erittäin heikko kohtalaisillekin eroille. Tutkimuksessa oli-si ehdottomasti pitänyt antaa hoitoeron luottamusväli, joka olisi ollut melko lavea paljastaensiten tutkimuksen heikon voiman.

Otoskoko-ongelmaan ei yleensä ole olemassa yksinkertaista ratkaisua. Otoskokoa kasvatta-malla saadaan tunnuslukujen arvioita tarkennettua, mutta kasvattaminen lisää kuitenkin tutki-muskustannuksia, jotka monissa kliinisissä tutkimuksissa per tutkittava ovat suuria. Tämän ta-kia tutkija joutuu yleensä tasapainoilemaan toisaalta arvioitavien suureiden tarkkuuden, toi-saalta määrityskustannusten välillä. Myös tutkimukseen käytettävissä oleva aika rajaakäytännössä tutkimusaineiston keräämismahdollisuuksia. Lisäksi tilannetta vielä yleensäkomplisoi se, että yhden tutkittavan suureen asemesta ollaan kiinnostuneita samanaikaisestimonista eri suureista. Tällöin otoskoko, joka on riittävä jonkin tietyn suureen suhteen, ei vält-tämättä ole riittävä enää jonkin toisen suureen suhteen. Tällaisissa tilanteissa voidaan menetel-lä siten, että lasketaan kunkin tärkeimmän lopputulosta mittaavan suureen osalta erikseenotoskokovaatimukset ja valitaan suurin näin saatavista vaatimuksista. Otoskokolaskelmat toi-mivat käytännössä kuitenkin vain yleisenä ohjenuorana tehtäessä päätöstä aineistokoosta.Muita asiaan vaikuttavia tekijöitä ovat potilaiden saatavuus sekä eettiset ja taloudelliset kysy-mykset.

Ellei ilmoiteta tutkimuksen voimaa (= 1− β), niin jää epäselväksi:

a) sitä ei ole ennalta määritetty b) ei ole saavutettu aiottua otoskokoa c) otoskokoa on kasvatettu alunperin suunnitellusta paremman tilastollisen voiman

saavuttamiseksi d) tulokset on raportoitu ennen kuin suunniteltu otoskoko on saavutettu,

esim. hyvien välianalyysin (’interim analysis’) tulosten takia.

Mikäli näistä vaihtoehdoista a) tai b) on tosi ja tutkimuksessa on saatu negatiivinen tulos, he-rää epäily tutkimuksen voiman puutteesta. Luottamusväli auttaisi!

Mikäli a) tai c) tai d) ovat tosia ja on saatu positiivinen tulos, herää epäily että on suoritettutoistettuja välianalyyseja (’interin analysis’) ja tulokset raportoitu, kun toivottu merkitseväero on saavutettu. Tästä ilmiöstä käytetään nimitystä raportoinnin ajoittamisesta johtuva har-ha, ja sen vaikutuksesta α-virhe kasvaa.

Kliinisten tutkimusten aineistokoon arviointiin on olemassa hyviä taulukkokokoelmia. Erit-täin hyvä ja monipuolinen on Machinin ja Campbellin ’Statistical Tables for the Design ofClinical Trials’. Se soveltuu mm. mukana kannettavaksi esim. kliinisten tutkimusten suunnit-telukokouksiin. Nykyisin on saatavissa myös hyviä ja helppokäyttöisiä Windows-ympäristös-sä toimivia erityistilasto-ohjelmistoja, esim. nQyery 3.0, Pass 6.0, Egret Siz. Näistä jälkimmäi-nen on suunnattu erityisesti epidemiologisiin tutkimusasetelmiin. Aineistokoon arvioinnistakannattaa kuitenkin pitää mielessä seuraava tosiseikka: eksakteilla hienoilla laskentakaavoillaja ohjelmilla synnytetään helposti väärä illuusio aineistokoon arvioinnin tarkkuudesta, vaikkaarviointi perustuu usein huomattavan karkeisiin lähtöoletuksiin esim. vaikutuksen suuruudes-ta.

Tyypillinen ongelma: Suunnitellaan satunnaistettua kliinistä hoitotutkimusta, missä vertail-laan perinteistä ja uutta hoitoa keskenään. Hoidon vaikutusta mitataan joko a) binomiaalisella

Aineistokoko ja tutkimuksen voima 22 Seppo Sarna

Page 27: Sisällysluettelo - Terkko · Normanin ja Steinerin ’Biostatistics, The Bare Essentials’ on hauskasti ja selkeästi kirjoitettu kirja. Tekstiä on sopivasti höystetty huumorilla.

astekoilla, esimerkiksi parantunut/ei parantunut tai b) jatkuvalla asteikolla, esimerkiksi veren-paineen lasku tai elossaoloajan pidentyminen.

Tavallisimpia laskentatilanteita ovat• kahden suhdeluvun vertaaminen• kahden keskiarvon vertaaminen• kahden eloonjäämiskäyrän vertaaminen• vaarasuhteen testaaminen

tapaus-verrokkitutkimuskohorttitutkimus.

• suhdelukujen vertailu parittaisissa asetelmissa• kahden suhdeluvun yhtäsuuruuden testaaminen

Otoskoon määrittämiseen liittyvätavainkysymykset

Arvioitaessa otoskokoa tutkijan täytyy määritellä seuraavat asiat:• Tutkimuksen keskeisin lopputulosmuuttuja (’main outcome measure’) ja sen

mittaluku.

• Vaikutuksen suuruus (’effect size’) (∆).

• Tilastollinen merkitsevyystaso (’statistical significance level’) α = ’väärän positii-visen tuloksen riski’ — suositus: α ≤ 0.05

• Testin voima 1− β, missä β = ’väärän negatiivisen tuloksen riski’. Suositus:0.80 ≤ 1− β ≤ 0.95. Testin voima on varmuus todeta ∆:n suuruinen ero, jos se onolemassa.

• Analysointimenetelmä eron toteamiseksi.

Otoskoon arviointikaava on muotoa

n = ƒ (α, 1− β, ∆)

missä n on kuhunkin ryhmään tarvittava aineistokoko ja ƒ on parametreista α, 1− β ja ∆ riip-puva funktio. Parametrit α, β, ∆ ja n riippuvat toinen toisistaan siten, että kaikkien välillä onkäänteinen riippuvuus; jos jokin niistä kasvaa, täytyy toisen pienentyä ja päinvastoin. Esimer-kiksi aineistokoko (n) kasvaa, kun α-tasoa tiukennetaan (pienennetään) pitäen kaksi muutasuuretta β ja ∆ kiinteinä. Laskentakaavan perusteella voidaan kääntäen ratkaista myös mikä ta-hansa parametreista α, 1− β tai ∆. Yksinkertaisimmissa tilanteissa ongelmille on olemassa al-gebrallinen ratkaisu. Tavallisimmin kuitenkin joudutaan käyttämään numeerista ratkaisu-menetelmää (Newton-Raphson).

Useimmissa aineistokoon arviointiohjelmissa (esimerkiksi nQuery) voidaan mikä tahansa pa-rametreista n, α, 1− β ja ∆ ratkaista joustavasti toistensa funktioina, ja lisäksi kullekin para-metrille voidaan vuorollaan antaa vaihteluväli, jolloin saadaan taulukko arviointipäätöksen te-kemisen helpottamiseksi. Ohjelmassa nQuery on lisäksi mukana esitysgrafiikka ja mahdolli-

Biostatistiikan peruskurssi 1999 23 Aineistokoko ja tutkimuksen voima

Page 28: Sisällysluettelo - Terkko · Normanin ja Steinerin ’Biostatistics, The Bare Essentials’ on hauskasti ja selkeästi kirjoitettu kirja. Tekstiä on sopivasti höystetty huumorilla.

suus tuottaa protokollaa varten aineistokoon arviointilaskelma. MedStatin ohjelmassa BA eiole käänteistä ratkaisumahdollisuutta, paitsi kokeilemalla.

Yhden binomijakaumaa noudattavansuhdeluvun testaaminen

Käyttötilanne: Suunnitellaan tutkimusta, jonka tavoitteena on arvioda esim. jonkin taudin vallitsevuutta (P) tietyssä väestöryhmässä (perusjoukossa). Ase-tetaan kysymys: Kuinka suuri otos (n) (tutkittavien määrä) tarvitaan, jotta arvioitavan suureen virhe olisi korkeintaan ± e.

Tämän ongelman ratkaiseminen edellyttää suhdeluvun P luottamusvälin määrittelyä (yksi-tyikohtaisempi tarkastelu myöhemmin). Luottamusvälin pituus riippuu otoksen suuruudestaja arvioinnin varmuudesta. Normaalijakaumaan perustuva arvio binomiaaliselle suureelle saa-daan kaavalla:

P ± z1 − α ∗ √P (1 − P)n

missä z1 − α on Normaalijakauman prosenttipiste ja 100 ∗ (1 − α) ilmaisee luottamustason.

Tavallisimmin käytettyjä luottamustasoja ovat 90%, 95% tai 99%, jolloin vastaavat z-arvot

ovat 1.64, 1.96 ja 2.58. Asettamalla z1 − α ∗ √P (1 − P)n

= e saadaan n arvioksi:

n = P(1 − P) ∗ z1 − α

2

e2 (1)

Tämä kaava on likimääräinen ja pätee ainoastaan suurilla otoksilla (nQuery käyttää tätä arvi-ointikaavaa). Mikäli arvioitava suhdeluku P on pieni / suuri (alle 0.05 / yli 0.95), niin binomi-aalinen väli toimii huonosti. Tällöin kannattaa käyttää Poisson-jakaumaa perustuvaa väliä(tarkastellaan myöhemmin).

Esim. Oletetaan, että P = 0.60 ja sallitaan virheeksi e = 0.05 ja luottamus-tasoksi halutaan 95%. Yllä olevan kaavan perusteella saadaan n = 368.8 eli tarvittava aineistokoko on 369.

Huom. Useimmissa tutkimuksissa halutaan arvioida monia suhdelukuja. Tällöin on vaikea valita kaavassa tarvittavaa yksittäistä lukua P. Koska kaava antaa maksimaalisen arvon n:lle silloin kun P = 0.5, sen antama arvo kannattaa tällöin ottaa aineistokooksi. Yllä olevassa esimerkissä saatai-siin n = 385.

Aineistokoko ja tutkimuksen voima 24 Seppo Sarna

Page 29: Sisällysluettelo - Terkko · Normanin ja Steinerin ’Biostatistics, The Bare Essentials’ on hauskasti ja selkeästi kirjoitettu kirja. Tekstiä on sopivasti höystetty huumorilla.

Kahden binomijakaumaa noudattavansuhdeluvun vertailu

Oletetaan, että kyseessä on kaksi vertailtavaa ryhmää ja hoidon tehoa arvioidaan binomiaali-sella asteikolla, esimerkiksi parantunut / ei parantunut.

Kaksi toisistaan riippumatonta ryhmää

Käyttötilanne: Suunnitellaan tutkimusta, jonka tavoitteena on vertailla esimerkiksi kahta eri lääkehoitoa saavaa, eri potilaista koostuvaa ryhmää toisiinsa. Lopputulosta arvioidaan suhdeluvuilla PE (esim. uusi hoito) ja PC (esim. traditionaalinen hoito).

Aineistokoon (n) arviointiin tässä tilanteessa on olemassa useita vaihtoehtoisia kaavoja, jotkaeroavat toisistaan ainoastaan suhdelukujen varianssien erilaisten arviointitapojen osalta.Useimmissa käytännön tilanteissa n voidaan laskea kaavalla

n = ƒ (α, β) PC (1− PC) + PE (1− PE)

∆2 (2)

jossa n = aineistokoko per ryhmä, ƒ (α, β) = (zα + zβ)2 , ∆ = PE – PC on suhdelukujen erotus,

α on yksi- tai kaksipuolinen ja β on aina yksipuolinen todennäköisyys. Kokonaisaineistokook-si tulee siten 2 * n koska kaava edellyttää, että halutaan yhtä paljon potilaita kumpaankinryhmään.

Alla olevassa taulukossa on tavallisimmin tarvittavat funktion ƒ ja z:n arvot:

Taulukko 1: ƒ:n ja z:n arvoja

Merkitsevyystaso (α) Testin voima (1− β)zαyksi-

puolinenkaksi-

puolinen70% 80% 85% 90% 95%

0.5% 1% 9.6 11.7 13.0 14.9 17.8 2.58

2.5% 5% 6.2 7.9 9.0 10.5 13.0 1.96

5.0% 10% 4.7 6.2 7.2 8.6 10.8 1.64

10.0% 20% 3.3 4.5 5.4 6.6 8.6 1.28

Esim. Polviartroosiin liittyvien kipujen hoitokokeilun suunnittelu (Smith et al, 1983). Hoitona käytetään ihon läpi annettavaa sähköstimulaatiota (TNS-hoito). Aikaisemman kokemuksen perusteella tiedetään, että lume-hoidolla saadaan noin 25%:n vaste neljän viikon seurannassa. Tutkija arvioi, että TNS-hoidolla voitaisiin saavuttaa 65%:n vaste vastaavana ajanjaksona, eli ∆ = 0.40. Kuinka monta potilasta kumpaankin hoito-ryhmään tarvitaan, jos α = 0.05 (yksipuolinen) ja 1− β = 0.90?

Lopputulos: vaste neljän viikon seurannassa (parantui / ei parantunut)

Biostatistiikan peruskurssi 1999 25 Aineistokoko ja tutkimuksen voima

Page 30: Sisällysluettelo - Terkko · Normanin ja Steinerin ’Biostatistics, The Bare Essentials’ on hauskasti ja selkeästi kirjoitettu kirja. Tekstiä on sopivasti höystetty huumorilla.

Ratkaisu: Sijoittamalla kaavaan (2) PC = 0.25, PE = 0.65, ∆ = 0.40,ƒ (α, β) = 8.6 saadaan n = 8.6 (0.25 0.75 + 0.65 0.35) /0.402 = 22.3Näin ollen tarvitaan 23 potilasta kumpaankin ryhmään (huom. korotuslähinnä suurimpaan kokonaislukuun).

Huom. Kaava (2) perustuu olettamukseen, että lopputuloksen arvioinnissakäytetään χ2 -testiä ilman jatkuvuuskorjausta.Ohjelman nQuery laskentakaavassa on mukana jatkuvuuskorjaus ja tulokseksi saadaan siten n = 29,4, eli n = 30. Jatkuvuuskorjauksen käyt-tö antaa yleensä melko konservatiivisen arvion. Machinin ja Campbellin taulukot antavat n = 25, koska laskenta perustuu kaavaan jossa on mukana korjaustermi. Oikea tulos lienee tässä tapauksessa välillä 23 – 30.

Kaavan (2) perusteella on mahdollista suorittaa myös testin voiman arviointia seuraavalla ta-valla:

Esim. Kahden lääkkeen vertailu mahahaavan hoidossa (Familiari et al. 1981).Hoidon kesto neljäkymmentä vuorokautta. Vertailtavat lääkehoidot: trithioziini (C), pirenzepiini (E). Hoitoaika 40 vrk. Lopputuloksenatodettiin, että hoidolla C 18⁄31 (58%) ja hoidolla E 23⁄30 (77%) parani. Ero ei ole tilastollisesti merkitsevä riskitasolla α = 0.05(kaksisuuntainen testi).

a) Jos edellä olevan tuloksen perusteella tehdään johtopäätös ’lääkkeiden välillä ei oletilastollisesti merkitsevää eroa’, niin kuinka suuri on todennäköisyys, että esimerkiksi19%:n todellinen ero jäisi käytetyllä otoskoolla toteamatta?

b) Kuinka suuri todellinen ero 80%:n voimalla ja merkitsevyystasolla 5% (kaksisuun-tainen testi) käytetyllä aineistokoolla voitaisiin todeta?

Ratkaisu a): Koska ryhmäkoot n1 = 31 ja n2 = 30 ovat erisuuria, kaavaan (2)

voidaan sijoittaa niiden harmoninen keskiarvo, eli n = 2n1n2n1+ n2

= 30.5.

Lisäksi siihen sijoitetaan PC = 0.58, PE = 0.77, ∆= 0.19. Ratkaisemallaƒ (α, β):n suhteen saadaan arvo 2.6. Taulukosta 1 todetaan, että koska2.6 < 6.2, niin testin voima on alle 70%. Jos halutaan tarkka arvo,niin menetellään seuraavasti:

Ratkaistaan yhtälö 2.6 = (zβ + 1.96)2 zβ:n suhteen. Tällöin saadaan

zβ = − 0.35, joka vastaa β:n arvoa 0.64 (katsottavissa normaalijakaumantaulukoista tai ohjelmalla StaTable).Testin voima 1− β on siten 0.36 (36%) ja voidaan tehdä johtopäätös:’Aineistokoko ei ole riittävä nollahypoteesin (lääkkeiden välillä ei oleeroa) hyväksymiseen’.

Ohjelma nQuery antaa voimaksi 25%, tässä on mukana jatkuvuuskorjaus.

Aineistokoko ja tutkimuksen voima 26 Seppo Sarna

Page 31: Sisällysluettelo - Terkko · Normanin ja Steinerin ’Biostatistics, The Bare Essentials’ on hauskasti ja selkeästi kirjoitettu kirja. Tekstiä on sopivasti höystetty huumorilla.

Ratkaisu b): Sijoittamalla kaavaan (2) arvot n = 30, ƒ(α, β) = 7.9, PC = 0.58,PE = 0.77 saadaan ∆ = 0.33.

Käytetyllä aineistokoolla voitaisiin siten 80% varmuudella ja 5% merkit-sevyystasolla todeta 33% ero lopputulosmuuttujassa ryhmien välillä, mikäli ero on olemassa. Ohjelmalla nQuery saadaan ratkaisuksi 34%.

Yksi otos

Mikäli PC tunnetaan, esimerkiksi aikaisempien vastaavien tutkimusten perusteella, niin kaa-van (2) antama otoskoko n voidaan tällöin karkeasti ottaen puolittaa edellyttäen, että PC ja PEovat suunnilleen yhtä suuria. Tarvittavaksi kokonaisaineistokooksi tulee siten vain 25%

(100 n⁄22n

= 25%) verrattuna tilanteeseen, missä molempien ryhmien varianssit pitää estimoida.

Esimerkiksi jos TNS-hoitoesimerkissä on vain yksi ryhmä ja vertailu suoritetaan hypoteetti-seen arvoon 0.25, nQuery antaa aineistokooksi 12.

Yleistyksiä

Kaavasta (2) on olemassa yleistykset mm. seuraaviin tilanteisiin:• vertailtaviin ryhmiin halutaan erisuuri määrä tutkittavia

(Machin & Campbell, s.11)• halutaan käyttää jatkuvuuskorjausta (Machin & Campbell, s.11).

Esim. Syöpäkuolleisuus. Seuranta-aika viisi vuotta. Oletetaan, että PC = 0.60ja että kliinisesti merkittäväksi reduktioksi arvioidaan ∆ = 0.20.Päätetään käyttää kaksisuuntaista testiä ja merkitsevyystasojaα = 0.05, 1 − β = 0.80

Kuinka suuri aineisto tarvitaan?

Ratkaisu: ƒ (α, β) = 7.8, n = 7.8 ∗ 0.6∗ 0.4 + 0.4∗ 0.6

0.22 = 94.1

eli tarvitaan 95 potilasta kumpaankin ryhmään.

Huom. Jos edellisessä esimerkissä käytettäisiin jatkuvuuskorjausta, niin

tarvittava otoskoko kasvaisi likimain määrällä 2

| PC − PE | = 10.

(nQuery antaa tuloksen n = 107 ja MedStat n = 106.)

Huom. Jos halutaan erisuuri määrä henkilöitä vertailtaviin ryhmiin,esim. n vertailuryhmään C ja k*n ryhmään E (k > 0), voidaan käyttääkaavaa

n = ƒ (α, β) ∗ kPC (1− PC) + PE (1− PE)

k ∆2 (3)

Biostatistiikan peruskurssi 1999 27 Aineistokoko ja tutkimuksen voima

Page 32: Sisällysluettelo - Terkko · Normanin ja Steinerin ’Biostatistics, The Bare Essentials’ on hauskasti ja selkeästi kirjoitettu kirja. Tekstiä on sopivasti höystetty huumorilla.

Esim. Jos edellä olevassa esimerkissä valittaisiin k = 2, niin n = 70.6, elitarvittaisiin 71 henkilöä ryhmään C ja 142 ryhmään E.(nQuery: nE = 80, nC = 160)

Arviointi ristitulosuhteen avulla

Joissakin tilanteissa tutkijan on helpompi formuloida otoskoko-ongelma suhdeluvun PC ja ris-titulosuhteen (’riskitekijäsuhde’, ’altistesuhde’, ’odds ratio’)

OR = PE (1− PC)PC (1− PE)

avulla ∆:n asemesta. Tällöin PE voidaan laskea yhtälöstä:

PE = OR ∗ PC

OR ∗ PC + (1− PC)

ja sijoittaa kaavaan (2).

Polviartroosiesimerkissä saadaan OR = 0.65 ∗ 0.75

0.25 ∗ 0.35 = 5.57 ja voitaisiin siten kysyä otosko-

koa, joka antaisi vertailtavien ryhmien välille 5.57-kertaisen ristitulosuhteen hoitoeron 0.40 si-jasta.

Aineistokoon (n), vertailuryhmän suhdeluvun (PC) ja ristitulosuhteen (OR) perusteella voi-daan arvioda OR:n luotettavuutta sen luottamusvälin perusteella (luottamusvälien laskentakaa-vat esitetään myöhemmin).

Esim. Ennenaikaisten synnytysten vaara (nQuery manuaali, s.15-13.) Hypoteettinen esimerkki suunnitellusta tutkimuksesta raskaana olevilla äideillä. Tavoitteena oli ehkäistä ennenaikaisia synnytysten määrää tietyn koulutusohjelman avulla. Tutkittavia ryhmiä oli kaksi: ryhmä E sai koulutusta ja ryhmä C ei. Tutkijat olivat valmiit ottamaan kumpaan-kin ryhmään 500 äitiä ja halusivat pudottaa koulutuksen avulla ennen-aikaisten synnytysten ORE/C:n 0.5:een (50%:n suojaava vaikutus). Aikai-sempien tutkimusten perusteella he arvioivat, että C-ryhmässä ennen-aikaisia synnytyksiä voisi olla 8%. Tutkijat kysyivät: kuinka suuri on OR:n 95%:n luottamusväli? Ohjelmalla nQuery saadaan väliksi (0.290 , 0.862). Todetaan, että 1 ei sisälly väliin, mutta väli on melko lavea.

Parittaiset aineistot

Kaavaa (2) voidaan soveltaa myös parittaisten (kaltaistettujen) aineistojen tapauksessa seuraa-vasti. Oletetaan, että tutkimusaineisto muodostuu havaintopareista: tapaus - verrokki tai samahenkilö kahtena eri hoitojaksona (ristikkäistutkimus) ja lopputulos on kaksiarvoinen (kyllä –ei). Oletetaan, että m:stä havaintoparista on saatu lopputulokseksi seuraava frekvenssitauluk-ko:

Aineistokoko ja tutkimuksen voima 28 Seppo Sarna

Page 33: Sisällysluettelo - Terkko · Normanin ja Steinerin ’Biostatistics, The Bare Essentials’ on hauskasti ja selkeästi kirjoitettu kirja. Tekstiä on sopivasti höystetty huumorilla.

Tapaus-verrokki -asetelma

Verrokki (C)

Altistus Kyllä Ei

Tapaus (E)Kyllä t r

Ei s u

Ristikkäistutkimus

Hoitojakso1 (C)

Positiivinenvaste

Kyllä Ei

Hoitojakso2(E)

Kyllä t r

Ei s u

Lopputuloksen ’kyllä’ suhdeluvut ryhmissä C ja E ovat siten:

PC = t + sm

PE = t + rm

Parittainen testaus perustuu diskordantteihin (lopputulos erilainen) havaintopareihin, eli frek-vensseihin r ja s. Testisuure (McNemarin testi) on :

χ2 = | r − s | 2

r + s

Nollahypoteesin mukaisesti diskordantteja pareja on yhtä paljon (r = s), eli niiden suhdeluku

Ω0 = r

r + s =

sr + s

= 0.5

Vaihtoehtoisen hypoteesin mukaista suhdelukua Ω1 on käytännössä vaikea ennalta määritellä.Jos voidaan karkeasti olettaa, että kaltaistustekijät eivät vaikuta ’kyllä’-vastauksen todennä-köisyyteen (esim. myönteinen hoitovaste), niin Ω1 saadaan seuraavasta kaavasta:

Ω1 = PC (1− PE)

PC (1− PE) + PE (1− PC)(4)

Sijoittamalla kaavaan (2) PC:n ja PE:n paikalle Ω0 ja Ω1, ja jakamalla näin saatu luku n kahdel-la saadaan diskordanttien parien odotettu määrä k. Yllä esitetyin oletuksin tarvittava aineisto-koko m (= parien määrä) saadaan kaavasta:

m = k

PC (1− PE) + PE (1− PC)(5)

Biostatistiikan peruskurssi 1999 29 Aineistokoko ja tutkimuksen voima

Page 34: Sisällysluettelo - Terkko · Normanin ja Steinerin ’Biostatistics, The Bare Essentials’ on hauskasti ja selkeästi kirjoitettu kirja. Tekstiä on sopivasti höystetty huumorilla.

Esim. Estrogeenialtistus ja kohtusyöpä (Brown 1976). Tutkimuksessa olimukana 63 ’tapaus-verrokki’ -paria ja lopputulokseksi saatiin neli-kenttä:

Verrokki (C)

Altistunut Kyllä Ei Yhteensä

Tapaus(E)

Kyllä 27 29 56

Ei 3 4 7

Yhteensä 30 33 63

Jos oletetaan, että vasta suunniteltaisiin tätä tutkimusta ja kysyttäisiin: Kuinka paljon pareja

tarvitaan, jos α = 0.01, 1− β = 0.90, PC = 3063

= 0.48 ja PE = 5663

= 0.86?

Ratkaisu: Kaavasta (4) saadaan ensin Ω1 = 0.10. Sijoittamalla kaavaan (2) arvot

ƒ (α, β) = 14.9, PC = Ω0 = 0.50, PE = Ω1 = 0.10 ja ∆ = 0.40 saadaan n = 31.7.

Diskordanttien parien odotettu määrä on siten puolet tästä määrästä,eli k = 16.

Sijoittamalla kaavaan (5) saadaan tutkimukseen tarvittavien parien

määräksi m = 16

0.48 ∗ 0.11 + 0.89 ∗ 0.52 = 31

(nQuery: m = 35, ero johtuu jatkuvuuskorjauksesta)

Huom. Jos edellä olevasta nelikentästä lasketaan McNemarin testi, niinsaadaan χ2= 21.1 ja P <0.0001.

Kahden suhdeluvun ekvivalenttisuudentestaaminen

Sellaisten kliinisten tutkimusten määrä, joissa pyritään ns. bioekvivalenttisuuden toteennäyttä-miseen, esimerkiksi kahden eri hoitomuodon välillä, on viime vuosina lisääntynyt voimak-kaasti. Tavallisin tilanne on sellainen, että on olemassa jokin klassinen (kontrolli-) hoitomuo-to C, jonka teho PC tiedetään hyväksi, mutta jolla on paljon sivuvaikutuksia. Tutkimuksessakokeillaan uutta hoitomuotoa E, jolla on vähemmän sivuvaikutuksia, mutta tehon PE ei oletetaaivan yltävän klassisen hoidon tasolle. Hoidot katsotaan bioekvivalenteiksi, mikäli tehojenero ei ylitä tutkijan ennalta määrittelemää pientä määrää ε (> 0); PC - PE < ε. Tällaisessa tilan-teessa tarvittava aineistokoko n yhtä hoitomuotoa kohden saadaan kaavasta:

n = ƒ (α, β) ∗ PC (1− PC) + PE (1− PE)

[ε − (PC − PE)]2 (6)

Aineistokoko ja tutkimuksen voima 30 Seppo Sarna

Page 35: Sisällysluettelo - Terkko · Normanin ja Steinerin ’Biostatistics, The Bare Essentials’ on hauskasti ja selkeästi kirjoitettu kirja. Tekstiä on sopivasti höystetty huumorilla.

Käyttö:

• ’negatiiviset’ kokeet• ’bioekvivalenssi’

Hoitovaste: PC klassinen hoitoPE uusi hoito

Bioekvivalenttisuus: PC – PE < ε ; ε ≥ 0

Kaavaa (6) käytetään tavallisesti siten, että asetetaan PE = PC = P.

Huom. Makuch ja Simon (1978) suosittelevat, että kaavassa (6) käytettäisiinseuraavia arvoja:

α = 0.10 (yksipuoleinen)

β = 0.20

ε = 0.10

Esim. Vaiheen I rintasyövän hoidot (Machin & Campbell, s.36): Mastectomia (C), Kyhmyn poisto (E). Seuranta-aika 5 vuotta.

Oletetaan, että PC =0.60 ja että hoidot katsotaan bioekvivalenteiksi, josPE on vähintään 0.50, eli ε = 0.10. Jos lisäksi vaaditaan, että α= 0.10(yksipuolinen testi) ja 1− β= 0.80, niin kuinka paljon potilaitakumpaankin ryhmään tarvitaan?

Ratkaisu: Asetetaan PE = PC = 0.60. Taulukon 1 perusteella ƒ (α, β) = 4.5. Sijoit-tamalla nämä arvot kaavaan (6) saadaan n = 217 (nQuery), eli näin monta potilasta tarvitaan kumpaankin hoitoryhmään.

Huom. Jos ei ole realistista tehdä oletusta PE = PC, vaan PE < PC, niin otos-kokoa joudutaan yleensä selvästi kasvattamaan, koska kaavassa (6)nimittäjä pienenee.

Kvantitatiivinen lopputulos, kahdenkeskiarvon vertailu

Usein kliinisten tutkimusten lopputulosmuuttuja on kvantitatiivinen, ja halutaan tutkia, onkoryhmien keskiarvojen välillä eroa. Mikäli kyseessä on yksi ryhmä ja kaksi ajankohtaa, käyte-tään joko parittaista t-testiä tai sen ei-parametrista vaihtoehtoa Wilcoxonin testiä. Jos taas ky-seessä on toisistaan riippumattomat vertailtavat ryhmät, testinä käytetään kahden otoksen t-testiä tai Mann-Whitney-Wilcoxon testiä.

Biostatistiikan peruskurssi 1999 31 Aineistokoko ja tutkimuksen voima

Page 36: Sisällysluettelo - Terkko · Normanin ja Steinerin ’Biostatistics, The Bare Essentials’ on hauskasti ja selkeästi kirjoitettu kirja. Tekstiä on sopivasti höystetty huumorilla.

Yksi otos, yksi tai kaksi ajankohtaa tai periodia

Käyttötilanne: a) halutaan verrata aineistosta laskettua keskiarvoa hypoteettiseen arvoon, taib) halutaan tutkia jonkin kvantitatiivisen suureen (esimerkiksi veren- paine) muutosta kahden ajankohdan välillä

Tällaisessa tilanteessa voidaan tarvittava aineistokoko laskea kaavalla:

n = ƒ (α, β)

d 2 + zα2

2(8)

jossa ƒ on kuten edellä, d on standardoitu erotus nollahypoteesin ja vaihtoehtoisen hypoteesin

määrittelemien keskiarvojen µ0 ja µ1 erotuksesta d = | µ0 − µ1 |

σ, ja σ on tarkasteltavan suureen

perusjoukon standardipoikkeama. Normaalijakauman prosenttipisteen zα tavallisimmin käyte-

tyt arvot ovat: z0.01 = 2.58, z0.05 = 1.96, z0.10 = 1.64. Tavallisimmin käytettävät ƒ (α, β) arvotlöytyvät edellä olevasta taulukosta 1.

Esim. Oletetaan, että ’terve-lapsi’ -tutkimuksessa on todettu lapsen keskimää-räiseksi kävelemäänoppimisiäksi µ0 = 12 kk.

Halutaan tutkia oppivatko synnynnäistä sydänvikaa potevat lapsetkävelemään myöhemmin kuin terveet lapset ja halutaan todeta 0.5 stan-dardipoikkeaman ero yksisuuntaisella testillä siten, että α = 0.025 ja1 − β = 0.95. Paljonko tutkittavia lapsia tarvitaan?

Taulukon 1 perusteella saadaan ƒ (α, β) = 13.0, zα = 1.96. Sijoittamalla kaavaan (8) saadaan

n = 13

0.52 + 1.962

2 = 53.92, eli tarvitaan 54 lasta.

Huom. Parittaisen t-testin tapauksessa µ0 asetetaan tavallisesti nollaksi.

Huom. Mikäli standardipoikkeamaa ei kyetä arvioimaan, niin d:lle voidaan käyttää arvoja väliltä 0.1 - 1.0 (Cohen 1988). Efektiä voidaan arvioidad:n suhteen seuraavasti:

Efekti (d) Arvio

noin 0.2 Pieni kliininen efekti

noin 0.5 Kohtalainen kliininen efekti

noin 0.8 Suuri kliininen efekti

Jos sitä vastoin tunnetaan tarkasteltavan suureen vaihteluväli, niinstandardipoikkeama voidaan karkeasti arvioida jakamalla vaihteluväli neljällä. Myös ristikkäistutkimuksissa voidaan soveltaa kaavaa (8).

Aineistokoko ja tutkimuksen voima 32 Seppo Sarna

Page 37: Sisällysluettelo - Terkko · Normanin ja Steinerin ’Biostatistics, The Bare Essentials’ on hauskasti ja selkeästi kirjoitettu kirja. Tekstiä on sopivasti höystetty huumorilla.

Esim. Suunitellaan tutkimusta, jonka tavoitteena on vertailla tietyn lääkkeen verenpainetta alentavaa vaikutusta. Oletetaan, että efekti halutaan todeta yhden tunnin kuluessa, jos se on olemassa. Kliinisesti merkittäväksi efektin suuruudeksi arvioidaan 10 mmHg. Tämän eron tutkija haluaa todeta 90% varmuudella (1 − β) ja yksisuuntaisella merkitsevyystasolla α = 0.05. Oletetaan aikaisempien vastaavanlaisten tutkimusten perus-teella voitavan arvioida, että σ = 10 mmHg (vaihtelu yksilökohtaisesti tunnin sisällä). Tällöin

d = 1.01.0

= 1, z0.10 = 1.64, ƒ (α, β) = 8.6, n = 8.61

+ 1.642

2 = 9.94,

eli tarvitaan 10 potilasta.

Kahden otoksen t-testi

Käyttötilanne: Halutaan verrata kahden toisistaan riippumattoman ryhmän (esimerkiksi kahden hoitoryhmän) keskiarvoja toisiinsa t-testillä.

Valitaan µ0:ksi esim. lumeryhmän keskiarvo ja µ1:ksi hoitoryhmän keskiarvo. Kaava (8) mo-difioituu tällöin muotoon:

n = 2 ∗ ƒ (α, β)

d2 + zα 2

4(9)

Huom. Useimmissa käytännön tilanteissa ƒ (α, β):n zα:n arvot löytyvät edellä olevasta taulukosta 1.

Huom. Jos 2α = β = 0.05, saadaan taulukon 1 perusteella ƒ (α, β) = 13 ja

zα = 1.96. Tällöin pätee likimain yhtälö n = 26d2 , eli jos standardoitu

hoitoero on 1 (kliinisesti suuri ero) tarvitaan 26 potilasta kumpaankin ryhmään, ja jos d = 0.1 (kliinisesti hyvin pieni ero) tarvitaan potilaita 2600 kumpaankin ryhmään.

Esim. Suunnitellaan tutkimusta, jonka tavoitteena on vertailla lääkehoidon (ryhmä 1) ja lumehoidon (ryhmä 0) eroa verenpaineen laskun suhteen. Oletetaan, että µ1 = 0, µ1 = 10 ja σ = 10 mmHg, eli halutaan todeta standardoitu erotus 1.0 jos se on olemassa. Oletetaan, että käytetään riippumattomien otosten t-testiä ja kaksisuuntaista merkitsevyystasoa α = 0.05, ja halutaan voimaksi 1 − β = 0.9. Tällöin

a) α = 0.05 (kaksisuuntainen)

n = 2 ∗ 10.5

1 +

1.962

1 = 21.8 eli tarvitaan 22 potilasta

(taulukko A2: n = 22)

Biostatistiikan peruskurssi 1999 33 Aineistokoko ja tutkimuksen voima

Page 38: Sisällysluettelo - Terkko · Normanin ja Steinerin ’Biostatistics, The Bare Essentials’ on hauskasti ja selkeästi kirjoitettu kirja. Tekstiä on sopivasti höystetty huumorilla.

b) α = 0.05 (yksisuuntainen)

n = 2 ∗ 8.61

+ 1.642

4 = 17.87 eli tarvitaan 18 potilasta.

Esim. D-vitamiinihoito raskaana olevilla naisillaneonataalisen hypokalsemian ehkäisemiseksi (Cockburn et al. 1980)

Naiset satunnaistettiin kahteen ryhmään: D-vitamiinihoito ja lumehoito.

Kalsiumin määritys seerumista suoritettiin viikko lapsen syntymän jäl-keen. Oletetaan, että µ0 = 9.0 mg/100 ml, σ = 1.8 mg/100 ml ja kliini-sesti merkitsevä muutos olisi 0.5 mg/100 mlPäätetään, että käytetään arvoja: α = 0.05, 1− β = 0.95

d = 0.51.8

= 0.28 mg/100 ml (=standardoitu hoitovasteiden erotus).

Tällöin ƒ(α,β) = 13.0 ja zα = 1.96, joten

n = 2∗ 13.00.282 +

1.962

4 = 338

Huom. Jos 2α = β = 0.05, saadaan taulukon 1 perusteella ƒ (α, β) = 13 ja

zα = 1.96. Tällöin pätee likimain yhtälö n = 26d 2 , eli standardoitu

hoitoero on 1 (kliinisesti suuri ero), tarvitaan 26 potilasta kumpaankin ryhmään, ja jos d = 0.1 (kliinisesti hyvin pieni ero) tarvitaan potilaita 2600 kumpaankin ryhmään.

Huom. µ0:n, σ:n ja d:n valinta on käytännössä yleensä vaikeaa. Esimerkissävoitaisiin menetellä seuraavasti:

Asetetaan lapsen hypokalsemian rajaksi seerumin kalsium ylittää 7.4 mg/100 ml ja oletetaan, että PC = 20% (lumeryhmä) ja PE = 10% (D-vitamiinihoitoryhmä), ∆ = 10%, α = 0.05, 1− β = 0.95

Kaavan (2) ja taulukon 1 perusteella saadaan n = 325.(Taulukko A1: n=329. nQuery: n=329.)

Esim. Kahden periodin ristikkäistutkimusasetelma (nQueryn manuaali s. 13.8). Suunnitellaan syöpätutkimusta, jonka tavoitteena on verrata uutta neut-ropenian vähentämiseen tähtäävää hoitoa lumehoitoon. Lopputulos-muuttujana on niiden päivien lukumäärä, jolloin potilaalla kemoterapian seurauksena on neutropeniaa (neutrofiilen määrä alle tietyn rajan). Suun-nitellaan, että käytetään kaksisuuntaista t-testiä merkitsevyystasolla 5%. Oletetaan, että eri hoitosyklien (lume-hoito/hoito-lume) välillä ei ole ’carry-over’-efektiä. Tutkija kysyy riittääkö 30 potilasta tuottamaan riit-tävän voiman todeta neutropenian kestossa reduktio 3 vrk, kun aiem-

Aineistokoko ja tutkimuksen voima 34 Seppo Sarna

Page 39: Sisällysluettelo - Terkko · Normanin ja Steinerin ’Biostatistics, The Bare Essentials’ on hauskasti ja selkeästi kirjoitettu kirja. Tekstiä on sopivasti höystetty huumorilla.

massa pilottitutkimuksessa neutropenian on todettu kestävän keski-määrin 6 vrk ja että keskihajonta kahden syklin välillä on 5.2.

Ratkaisu: nQuery antaa voimaksi 86%, jota voidaan ylläolevassa tilanteessa riittävänä.

Ei-parametriset testit

Mikäli t-testin asemesta käytetään joko Wilcoxonin parittaista testiä (’Wilcoxon matched pairtest’, ’Wilcoxon pairwise test’) tai Wilcoxonin järjestyslukujen summatestiä (’WilcoxonRank-Sum test’) joka on sama kuin Mann-Whitneyn U-testi, voidaan voimalaskelmat tehdäedellä olevilla kaavoilla käyttäen yksinkertaista korjaustekijää. Korjaustekijä riippuu jakaumi-en todellisesta muodosta seuraavasti:

tasainen jakauma 1

kaksinkertainen eksponentiaalijakauma23

≈ 0.67

logistinen jakauma9

π2 ≈ 0.91

normaalijakaumaπ3

≈ 1.05

Todetaan, että normaalijakauman tapauksessa Mann-Whitneyn U-testiä käytettäessä tarvitaannoin 5% suurempi aineisto kuin käytettäessä t-testiä. Yleensä Mann-Whitneyn testiä käyte-tään kun jakaumat ovat vinoja, jolloin Mann-Whitneyn testi vaatii pienemmän aineistokoonkuin t-testi; esimerkiksi logistisen jakauman tapauksessa vain 91% t-testin vaatimasta aineisto-koosta.

Esimerkiksi Pass 6.0 suorittaa yllä mainitut korjaukset, ohjelmassa nQuery on mahdollista ar-vioida aineistokokoa myös silloin kun käytetään ei-parametrisiä testejä.

Esim. Oletetaan, että edellä tarkastellussa verenpainetutkimusesimerkissä halutaan käyttää t-testin asemesta Mann-Whitneyn U-testiä.

Aluksi arvioida efektin suuruus. Oletetaan että vertailtavien ryhmien havaintoarvot ovat x1i, i=1,...n1 ja x2i, i=1,...n2. Oletetaan, että n1 < n2. U-testisuureelle on seuraavanlainen käytännön tulkinta: Se ilmoittaa niiden havaintoparien lukumäärän (k), joille pätee x1i < x2i. Jos merki-tään n:llä kaikkien mahdollisten havaintoparien määrää n:llä, niin efektin suuruus voidaan arvioida p1 = P(x1i < x2i) = k / n. Standardoitua keskiarvojen erotusta 1.0 vastaavaksi arvioksi saadaan (nQuery) 0.760 ja tarvittavaksi potilasmääräksi tulee n=26 (nQuery). Tässä arviossa ei ole huomioitu jakauman muotoa, siksi n on suurempi kuin mitä t-testin yhteydessä saatiin.

Huom. Mikäli ryhmien välillä ei olisi eroa, niin p1 = 0.500. Standardoituja ero-tuksia 0.2 (’pieni efekti’),0.5 (’kohtalainen efekti’) ja 0.8 (’suuri efekti’) vastaavat arvot ovat: 0.556, 0.638 ja 0.714.

Biostatistiikan peruskurssi 1999 35 Aineistokoko ja tutkimuksen voima

Page 40: Sisällysluettelo - Terkko · Normanin ja Steinerin ’Biostatistics, The Bare Essentials’ on hauskasti ja selkeästi kirjoitettu kirja. Tekstiä on sopivasti höystetty huumorilla.

Muita otoskoon laskentatilanteitaTutkimusasetelman ja -problematiikan johdosta joudutaan usein käyttämään myös muita kuinedellä esitettyjä kaavoja. Tällaisia tilanteita syntyy mm. silloin, kun halutaan

• vertailla samanaikaisesti useampia ryhmäkeskiarvoja (F-testi, Anova) keskenään(Ohjelmat nQuery ja Pass 6.0. Teoria: Day & Graham, 1989)

• toistomittausten Anova (Ohjelmat nQuery ja Pass 6.0)• satunnaistettujen lohkojen Anova (Ohjelmat nQuery ja Pass 6.0)• seurata jonkin markkinoille tulleen uuden lääkkeen sivuvaikutuksia (Machin &

Campbell, 1987)• vertailla aikaa, joka kuluu jonkin tapahtuman ilmaantumiseen logrank-testillä

(Ohjelmat nQuery ja Pass 6.0)• käyttää ositettua satunnaistamista• ottaa huomioon seurannasta kadotettujen vaikutus otoskokoon• arvioida aika, joka kuluu maksimaalisen hyödyn saavuttamiseen eri hoitomuodoil-

la• verrata korrelaatiokertoimia keskenään. (Ohjelmat nQuery ja Pass 6.0)• verrata ristikkäistutkimusasetelmassa preferenssejä (MedStat: SUPPSIZE).

KommenttejaKun tilastollinen ohjelmapaketti tai taulukoiden käyttö on tuottanut tutkijalle tarvittavaksiotoskooksi esimerkiksi luvun 989, on seurauksena yleensä tutkijan turhautuminen — enhänminä noin suurta aineistoa voi saada kokoon. Tällöin on syytä muistaa, että huolimatta otos-koon arvioinnin näennäisestä matemaattisesta tarkkuudesta, on taustalla kuitenkin monia rat-kaisemattomia tieteellisiä ongelmia, kuten esimerkiksi seuraavat:

Yhden lopputulosmuuttujan käyttö laskentakaavoissa• Käytännössä jokaisessa kliinisessä tutkimuksessa on useita sekä ’kovia’ (esim.

kuolema) että ’pehmeitä’ (esim. arviointiskaalat) lopputulosmuuttujia. Aineisto-koon arviointi pitäisi itse asiassa suorittaa käyttämällä monimuuttujamenetelmiä.Sellaisia menetelmiä, jotka toimisivat tyydyttävästi kliinisten tutkimusten yh-teydessä, ei ole kuitenkaan ainakaan kirjoittajan tiedossa. Yleensä otoskokolaskel-mat suoritetaan tärkeimmän kovan lopputulosmuuttujan suhteen. Tällämenettelyllä on kuitenkin taipumus tuottaa tarpeettoman suuri aineistokoko peh-meiden muuttujien tarpeisiin, sillä saavutettavissa olevat kliinisesti merkitykselli-set erot ovat yleensä kovissa muuttujissa suhteellisesti pienempiä kuin pehmeissä.Suositeltavaa onkin kokeilla otoskokolaskelmissa tärkeimpiä molemmantyyppisiämuuttujia ennen lopullista päätöksentekoa.

Perusjoukon tuntemattomien suureiden arvojen valinta• Tällaisia perusjoukon tuntemattomia suureita ovat esimerkiksi kliinisesti merki-

tyksellinen ero (∆), kontrolliryhmän suhdeluku (PC), vaarasuhde (R), perusjoukonstandardipoikkeama jne. Näiden suureiden valinta perustuu yleensä aikaisempiin

Aineistokoko ja tutkimuksen voima 36 Seppo Sarna

Page 41: Sisällysluettelo - Terkko · Normanin ja Steinerin ’Biostatistics, The Bare Essentials’ on hauskasti ja selkeästi kirjoitettu kirja. Tekstiä on sopivasti höystetty huumorilla.

vastaaviin tutkimuksiin tai on enemmän tai vähemmän hatusta otettua. Valinnallasaattaa olla kuitenkin huomattava merkitys otoskoon kannalta. Vaikeimmin arvi-oitavissa ovat tavallisesti standardipoikkeamat, sillä tarkasteltavan suureen ja-kaumaa ei yleensä kovin hyvin tunneta, ja arvio joudutaan muodostamaanyhdistelemällä useiden erillistutkimusten tuloksia. Kannattaa kuitenkin mieluum-min yrittää arviointia kuin tyytyä tekemään tarkasteltava suure kaksiarvoiseksi,jolloin menetetään paljon informaatiota.

Tilastollisen merkitsevyystason ja testin voimakkuuden valinta• Nämä valinnat ovat täysin tutkijan määriteltävissä. Ei ole olemassa mitään mate-

maattista sääntöä, joka määräisi esimerkiksi, että merkitsevyystason pitää olla 5%,jota tunnetulla biometrian oppi-isällä R. A. Fisherillä oli tapana käyttää ja jostamyöhemmin muodostui koko tilastomaailman noudattama käytäntö. Lisäksi pitääottaa huomioon tullaanko tutkimuksessa käyttämään yksi- vai kaksisuuntaistatestiä. Yleisohje tähän tilanteeseen on seuraava:

käytetään kaksisuuntaista testiä, ellei aikaisempiin tutkimuksiin perustuvanäyttö yksisuuntaisen testin puolesta ole erittäin vakuuttavakäytetään merkitsevyystasoa 5% tai 1%käytetään testin voimakkuutta 80% – 95%.

ViitteetBrown SE. Estrogen and endometrial cancer in a retirement community. NEJM 294: 1262-67,

1976.

Cockburn F, Belton NR, Purvis RJ et al. Maternal vitamin D intake and mineral metabolismin mothers and their newborn infants. BMJ 281: 11-14, 1980.

Day SJ, Graham DF. Sample size and power for comparing two or more treatment groups inclinical trials. Br Med J 1989; 299: 663-5.

Familiari L, Postorino S, Turiano S, Luzza G. Comparison of pirenzepine and trihiozine withplacebo in treatment of peptic ulcer. Clinical Trial J. 18: 363-8, 1981.

Freiman KA, Chalmers TC, Smith H Jr, Kuebler RR. The importance of beta, the type II errorand sample size in the design and interpretation of the randomized control trial. Survey of71 "negative" trials. N Engl J Med 299: 690-694, 1978.

Makuch R, Simon R. Sample size requirements for evaluating a conservative therapy. CancerTreat. Rep. 621: 1037-40, 1980.

Pocock SJ. Clinical trials. A practical approach. ss. 123-138. John Wiley and Sons, Chiches-ter, 1983.

Smith CR, Lewith GT, Machin D. A preliminary study to establish a controlled method of as-sessing transcutaneous nerve stimulation (TNS) as a treatment for the pain caused by os-teoarthritis (OA) of the knee. Physiotherapy 69: 266-8, 1983.

Biostatistiikan peruskurssi 1999 37 Aineistokoko ja tutkimuksen voima

Page 42: Sisällysluettelo - Terkko · Normanin ja Steinerin ’Biostatistics, The Bare Essentials’ on hauskasti ja selkeästi kirjoitettu kirja. Tekstiä on sopivasti höystetty huumorilla.

KirjallisuuttaCohen J. Statistical power analysis for the behavioral sciences, revised ed. Academic Press,

Lawrence Erlbaum Associates, Hillsdale, New Jersey, 1988.• Paljon esimerkkejä, muttei kliinisistä kokeiluista. Hyvä kirja.

Dupont W and Plummer WD. Power and sample size calculations -- a review and a computerprogram. Controlled Clinical Trials 1990;11:116-28.

• Hyvä dokumentti julkisohjelmasta.

Kraemer HC and Thiemann S. (1987) How many subjects? Sage publications, 2111 WestHillcrest Drive, Newbury Park, CA. 91320

• Erittäin hyvä johdattelu voima-analyysiin.

Lipsey MW. (1990) Design Sensitivity Statistical Power for Experimental Research. Sagepublications, 2111 West Hillcrest Drive, Newbury Park, CA. 91320

• Erittäin hyvä johdattely voima-analyysiin.

Machin D & Campbell MJ. Statistical tables for the design of clinical trials. Blackwell Scienti-fic Publ. Oxford, 1987.

• Hyvä taulukkokokoelma ja paljon esimerkkejä kliinisistä tutkimuksista. Aikakallis kirja (noin US$150).

OhjelmianQuery AdviserTM Sample Size Determinations. Statistical Solutions, LTD. Fax: +353-21-

319 630.

Pass 6.0 Power Analysis and Sample Size for Windows. NCSS, Jerry L. Hintze, Kaysville,Utah, 1996.

Egret Siz. Sample size and power for nonlinear regression. Statistics and Research Corporati-on. Fax: +1-206-547 4140.

Aineistokoko ja tutkimuksen voima 38 Seppo Sarna

Page 43: Sisällysluettelo - Terkko · Normanin ja Steinerin ’Biostatistics, The Bare Essentials’ on hauskasti ja selkeästi kirjoitettu kirja. Tekstiä on sopivasti höystetty huumorilla.

Satunnaistaminenja sokkouttaminen

YleistäHuomattava osa, etenkin faasi III:n, kliinisistä tutkimuksista on vertailevia (’comparativetrials’), joissa yhtä tai useampia hoitoja verrataan johonkin yleisesti hyväksyttyyn/käytettyynstandardihoitoon, kontrolliin. Uutta hoitoa saaneiden vertaaminen aikaisemmin hoidettuihinpotilaisiin (’historical controls’) voi antaa erittäin harhaisen tuloksen, koska olosuhteet ja hoi-tokäytännöt saattavat olla olennaisesti muuttuneet. Nykyisin historiallisten kontrollien käyttötutkimuksissa on melko harvinaista. Joskus eettiset syyt saattavat pakottaa historiallisten kont-rollien käyttöön.

Tieteellisesti ideaalista vertailevaa kliinistä koetta voidaan luonnehtia seuraavasti:• Vertailtavat ryhmät tutkitaan samanaikaisesti.• Vertailtavat ryhmät ovat tutkimuksen aloitushetkellä mahdollisimman samankal-

taisia kaikkien muiden tekijöiden kuin tutkittavan uuden hoitomuodon tai lääkkeensuhteen.

• Vertailukelpoisuus tulisi säilyä tutkimuksen kuluessa.

Satunnaistamisen tavoiteet ovat:1) Tehdä vertailtavat ryhmät tausta- tai ennustetekijöiltään mahdollisimman samankal-

taisiksi tutkimuksen alkaessa2) Estää subjektiivisten tekijöiden vaikutus tutkimuksen lopputulokseen.

Esim. Satunnaistamisen tarpeelisuus. Monivitamiinihoidot ja hermostoputkensulkeutumishäiriöt. (Smithells et al. 1980, Smithells et al. 1981)

Monivitamiinihoitoa raskauden aikana saaneita äitejä verrattiin ryhmäänäitejä, jotka eivät olleet saaneet vitamiinisupplementaatiota. Kahdestatutkimuksesta saatiin yhdistettynä seuraavat tulokset kun lopputulos-muuttujana (’outcome measure’) oli syntyneen lapsen hermostoputkensulkeutumishäiriön suhteellinen määrä.

Yhdistetty lopputulos oli:

Monivitamiinihoito Kontrolli

Synnytysten lukumäärä 397 493

Häiriöiden lukumäärä 3 (0.8 %) 23 (4.7%)

Tutkijat ilmoittivat johtopäätöksenään, että monivitamiinihoidosta onmerkittävä hyöty (p = 0.003, yksisuuntainen testi) ja suosittelivat moni-vitamiinihoidon käyttöönottoa raskaana oleville naisille.

Biostatistiikan peruskurssi 1999 39 Satunnaistaminen ja sokkouttaminen

Page 44: Sisällysluettelo - Terkko · Normanin ja Steinerin ’Biostatistics, The Bare Essentials’ on hauskasti ja selkeästi kirjoitettu kirja. Tekstiä on sopivasti höystetty huumorilla.

Ongelmana tässä tutkimuksessa on se, että kontrolliryhmä ei ollut satun-naistettu. Kontrolliryhmän lähempi tarkastelu osoitti mm.,että kontrolli-ryhmään oli valikoitunut huomattavasti enemmän äitejä korkean riskinalueelta, Pohjois-Irlannista. Ei-satunnaistettujen tutkimusten perusteellaei yleesä voida saada riittävää tieteellistä näyttöä todellisista hoitoeroistaja siten hoitokäytäntöjä ei niiden perusteella tulisi muuttaa.

Todellinen ongelma ei-satunnaistettujen tutkimusten suhteen on kuitenkin se, että ne saattavatestää tai olennaisesti haitata satunnaistettujen tieteelliset kriteerit täyttävien tutkimusten suorit-tamista, koska niitä saatetaan pitää epäeettisinä. Yllä mainitutkin tutkimukset herättivät huo-mattavaa keskustelua Brittein saarilla 1980-luvulla ja useita satunnaistettuja tutkimuksia ai-heesta on jälkeenpäin suoritettu. Edelleen kuitenkin hermostoputken sukeutumishäiriön syyon tuntematon, mutta mm. foolihapolla on todettu olevan tärkeä osuus hermostoputken sul-keutumisessa.

Satunnaistettuja tutkimuksia on kolmea eri tyyppiä: • avoimet (’open’)• yksöissokko (’single-blind’)• kaksoissokko (’double blind’)

Avoimissa tutkimuksissa satunnaistaminen suoritetaan esimerkiksi leikkausjärjestyksessä (eiyleensä sairaalaantulojärjestyksessä). Tällöin on erittäin tärkeää että, satunnaistamiskoodi eiole kenelläkään hoitohenkilökunnasta tiedossa ennen kuin leikkaus on suoritettu. Sen jälkeen,yleensä jonkun tietyn protokollassa määritellyn ajan kuluttua päätetään, tayttääkö potilas jat-kohoidon edellytykset ja pidetäänkö hänet tutkimuksessa, jonka jälkeen sekä potilas, että hoi-tohenkilökunta on tietoinen mitä jatkohoitoa kukin potilas saa. Tutkimusta valvovien henkilöi-den vastuulla on seurata hoidon toteutumista ja asianmukaista kirjaamista. Potilaiden hoidos-sa tulee noudattaa tarkoin protokollaa, jotta subjektiiviset tekijät eivät pääsisi vaikuttamaanlopputulokseen. Kaikkia potilaita tulee tutkia yhtä usein, eikä esimerkiksi siten, että uutta hoi-toa saavia tutkittaisiin useammin ja tarkemmin. Etenkin avoimissa tutkimuksissa randomisaa-tiokoodi kannattaa sulkea potilaskohtaisiin kirjekuoriin, jotka kulkevat potilaspapereiden mu-kana.

Yksöissokkotutkimuksissa ainoastaan potilas ei tiedä mitä hoitoa hän saa, mutta hoitohenkilö-kunta tietää. Valtaenemmistö vertailevista tutkimuksista toteutetaan kuitenkin kaksoissokko-periaatteella, jolloin myöskään hoitohenkilökunta ei ole tietoinen potilaan saamasta hoidosta.Satunnaistamiskoodi avataan vasta, kun tutkimustiedosto on esitarkastettu, korjattu ja suljettu.Tutkimustuloksia käsittelevien henkilöidenkään ei tulisi tietää hoitokoodeista ennenkuin tär-keimmät tulokset on analysoitu. Hoidoista kannattaa käytää esim. koodeja A, B, C, jne. ana-lysoinnin alkuvaiheessa.

Satunnaistetut ryhmät voivat olla kooltaan erisuuria. Tavallisinta on kuitenkin käyttää 1:1 sa-tunnaistamissuhdetta, eli yhtä paljon potilaita uuteen ja kontrollihoitoon tai jos vertailtaviahoitoja on useita, niin käytetään samaa potilasmäärää kaikissa ryhmissä. Joskus eettisiin syi-hin vedoten vertailuryhmä saatetaan jättää pienemmäksi. Ainakin 1/3 potilaista tulisi kuiten-kin tällöinkin olla satunnaistettuja kontrolleita.

Satunnaistaminen ja sokkouttaminen 40 Seppo Sarna

Page 45: Sisällysluettelo - Terkko · Normanin ja Steinerin ’Biostatistics, The Bare Essentials’ on hauskasti ja selkeästi kirjoitettu kirja. Tekstiä on sopivasti höystetty huumorilla.

Niitä menetelmiä, jotka turvaavat sen, että kaikissa ryhmissä on haluttu määrä tutkimuksen lo-pussa kutsutaan rajoitetuiksi. Vastakohtana on rajoittamattomat menetelmät, joita käytettäessäsaatetaan päätyä hyvinkin erisuuruisiin potilasmääriin.

Yksinkertainen (rajoittamaton)satunnaistaminen

Yksinkertaisessa satunnaistamisessa ei aseteta ehtoja ryhmien koolle. Menetelmää harvem-min käytetään sellaisenaan hoitokokeessa.

Esim.

Sijoitusryhmä Luvut

Kaksi ryhmääA 0 – 4

B 5 – 9

Kolme ryhmää

A 1 – 3

B 4 – 6

C 7 – 9

— 0

Luku 0 5 2 7

Järjestys — B A C

Huom! Aloitus satunnaisesta kohdasta satunnaislukujen taulukosta.

Ongelma: Yleensä erisuuret ryhmäkoot tuloksena.

Taulukko: Suurin mahdollinen epätasapaino satunnaistettaessa kahteen ryhmään

Potilaidenlukumäärä

Ryhmien suuruudet

P ≥ 0.05 P ≥ 0.01

10 2 : 8 1 : 9

20 6 : 14 4 : 16

50 18 : 32 16 : 34

100 40 : 60 37 : 63

1000 469 : 531 459 : 541

Lähde: Pocock 1983.

Biostatistiikan peruskurssi 1999 41 Satunnaistaminen ja sokkouttaminen

Page 46: Sisällysluettelo - Terkko · Normanin ja Steinerin ’Biostatistics, The Bare Essentials’ on hauskasti ja selkeästi kirjoitettu kirja. Tekstiä on sopivasti höystetty huumorilla.

KorvaamismenettelyMikäli suoritettu yksinkertainen satunnaistaminen on tuottanut listan, missä ryhmäkoot ovatepätasapainossa, valitaan uusi lista, jolla vanha korvataan, kunnes riittävä tasapaino on saavu-tettu.

“Korttipakan sekoittamis” -menettelyEsim. Kaksi hoitoa ja halutaan yhteensä 40 potilasta. Ajatellaan korttipakka,

jossa on kahta lajia kortteja 40 kpl satunnaisesti sekoitetuksi.

Satunnaiset permutoidut lohkotEsim. Kaksi ryhmää A, B. Lohkon (’block’) suuruus on 2.

JärjestysArvottu

luku

AB 0 – 4

BA 5 – 9

Luku 0 5 2 ...

Järjestys AB BA AB ...

Huom! Soveltuu 2:n periodin ristikkäistutkimuksiin.

Lohkokokoa 2 pitäisi välttää (paitsi ositetussa satunnaistamisessa)ennustettavuuden vuoksi.

Esim. Kaksi ryhmää, A ja B. Lohkon suuruus 4.

Luku

AABB 1

ABBA 2

BBAA 3

BABA 4

ABAB 5

BAAB 6

Lukuja 7 – 9 ja 0 ei käytetä.

Ongelma: Ennustettavuus kunkin lohkon lopussa; etenkin lohkokoon ollessa pieni.Huom! Ositetussa satunnaistamisessa voidaan käyttää pieniä lohkokokoja siten,

että peräkkäiset lohkot sijoitetaan eri ositteeseen.

Satunnaistaminen ja sokkouttaminen 42 Seppo Sarna

Page 47: Sisällysluettelo - Terkko · Normanin ja Steinerin ’Biostatistics, The Bare Essentials’ on hauskasti ja selkeästi kirjoitettu kirja. Tekstiä on sopivasti höystetty huumorilla.

Harhaisen kolikon menetelmä

Kahden ryhmän tapaus

• Aloitetaan yksinkertaisella satunnaistamisella.

• Sijoitetaan seuraava potilas todennäköisyydellä P > 0.5 (esim. P = 3⁄4) pienempäänryhmään ja todennäköisyydellä P < 0.5 (esim. P = 1⁄4) suurempaan ryhmään.

• Jos ryhmäkoot ovat yhtäsuuret, käytetään yksinkertaista satunnaistamismenetel-mää.

Esim. P = 3⁄5, kaksi ryhmää A, B

Jos ryhmät ovat erisuuret: 0 – 5 pienempään ryhmään6 – 9 suurempaan ryhmään

Jos ryhmät ovat yhtäsuuret: 0 – 4 ryhmään A5 – 9 ryhmään B

Satunnaisluku: 0 5 2 7 8 4 3 7 4 1 6 . . .

Ryhmä: A* B A* A A B B A B B B* . . .

* Ryhmät ovat yhtäsuuret, joten käytetään yksinkertaista satunnaistamista

P Ero korkeintaan3⁄4 42⁄3 63⁄5 105⁄9 16

todennäköisyydellä P ≤ 0.05

Ositettu satunnaistaminen(’stratified randomization’)

Tavoite: Taata vertailtavien ryhmien samankaltaisuus (homogeenisuus) tausta-tekijöiden suhteen.

Tärkeää mm. tilastollisen tehokkuuden kannalta.

Ositettu satunnaistaminen ei ole suositeltavaa, mikäli• tutkimus on suuri ja lähtöarvoilla ja aikaisilla tuloksilla ei ole relevanssia• pienet organisatoriset resurssit• on epävarmuutta relevanteista taustatekijöistä, jotka vaikuttavat lopputulokseen.

Biostatistiikan peruskurssi 1999 43 Satunnaistaminen ja sokkouttaminen

Page 48: Sisällysluettelo - Terkko · Normanin ja Steinerin ’Biostatistics, The Bare Essentials’ on hauskasti ja selkeästi kirjoitettu kirja. Tekstiä on sopivasti höystetty huumorilla.

Menettelytapa:• Muodostetaan ositteet tausta- tai ennustetekijöiden perusteella.• Sovelletaan satunnaistettujen lohkojen menetelmää erikseen kuhunkin ositteeseen

käyttäen melko pientä lohkokokoa (esim. 4).

Esim. Taustatekijät: x1 ja x2 saavat arvoja yhdestä kahteen.

Osite 1 2 3 4

x1: 1 1 2 2

x2: 1 2 1 2

B B A B

A B A A

B A B A

A A B B

A A B A

B A A B

A B B B

B B A A

. . . .

. . . .

. . . .

Ongelma: Ositteiden määrän lisääntyessä tulee ositteita, joihin ei tule riittävästitapauksia.

Ongelman ratkaisu: Minimointimenettely.

MinimointimenettelyMinimointimenettelyn (Taves 1974) tavoitteena on taata vertailtavien ryhmien samankaltai-suus, kun lopputulokseen vaikuttavia (korreloivia) taustatekijöitä on paljon.

Minimointimenettelyn toimintaperiaatetta voidaan kuvata seuraavalla yksinkertaistetulla esi-merkillä.

Esim. Hoidot A ja B

Taustatekijät (prognostiset tekijät)• x1 (keskus) arvot 1 – 5• x2 (tauti) arvot 1 – 2• x3 (vaikeusaste) arvot 1 – 3

Satunnaistaminen ja sokkouttaminen 44 Seppo Sarna

Page 49: Sisällysluettelo - Terkko · Normanin ja Steinerin ’Biostatistics, The Bare Essentials’ on hauskasti ja selkeästi kirjoitettu kirja. Tekstiä on sopivasti höystetty huumorilla.

keskus tauti vaikeusaste∑

1 2 3 4 5 1 2 1 2 3

A 2 3 1 6 3 10 5 2 8 5

B 3 1 3 4 4 9 6 3 6 6

Potilas 31 0 0 1 0 0 1 0 0 0 1

A + potilas 31 2 11 6

B 3 9 6

|A + potilas 31 – B | 1 2 0 3

B + potilas 31 4 10 7

A 1 10 5

|B + potilas 31 – A| 3 0 2 5

Taulukon kaksi ensimmäistä riviä ilmaisevat frekvenssijakaumat tausta-tekijöiden suhteen ryhmissä A ja B, kun 30 potilasta on satunnaistettu. Rivi 3 ilmaisee potilaan 31 arvot taustatekijöiden suhteen. Taulukon kolme seuraavaa riviä ilmaisevat kuinka paljon frekvenssijakaumat muuttuvat jos potilas 31 sijoitetaan ryhmään A, ja kolme seraavaa vas-taavasti jos potilas 31 sijoitetaan ryhmään B. Summasarakkeista voi-daan todeta, että ryhmien A ja B jakaumat lähestyvät enemmän toisiaan, jos potilas 31 sijoitetaan hoitoryhmään A.

Huom. Kun potilaat sijoitetaan hoitoryhmiin käyttäen minimointimenettelyä,pitää lopputulos analysoida käyttäen kovarianssianalyysiä siten, ettäkovariaateiksi otetaan minimoinnissa käytetyt taustatekijät.

Jos käytettäisiin varianssianalyysiä, testauksen tuloksena saatavap-arvo olisi liian pieni; ylioptimistinen todelliseen α-tasoon verrattuna.

Monen taustatekijän tapauksessa minimointimenettely yhdistettynäkovarianssianalyysiin kasvattaa testauksen voimaa verrattuna tavalliseen satunnaistamiseen. Edellytyksenä on luonnollisesti se, ettäkovarianssianalyysin käyttöedellytykset ovat voimassa.

Esim. Minimointimenettelyn käyttö vertailevassa hoitotutkimuksessa (Meade ym, 1995.)

Kyseessä on monikeskustutkimus, johon otettiin yhteensä 741 alaselkä-oireyhtymää potevaa henkilöä, joiden ikä vaihteli välillä 18-64 vuotta ja joilla manipulaatiohoito ei ollut kontraindisoitu. Tutkimuksen tavoittee-na oli verrata sairaalan organisoimaa jatkohoitoa ja kiropraktikon suorit-tamaa hoitoa keskenään. Keskeisin lopputulosmuuttuja oli Oswestryn 10-osioinen selkäkipua mittaava kyselylomakeasteikko. Tulokset esitet-tiin skaalalla 0 -100. Tutkimuksen seuranta-aika oli kolme vuotta ja tut-kimustulokset analysoitiin aikomus-hoitaa-periaatteella ’intention to treat’.

Biostatistiikan peruskurssi 1999 45 Satunnaistaminen ja sokkouttaminen

Page 50: Sisällysluettelo - Terkko · Normanin ja Steinerin ’Biostatistics, The Bare Essentials’ on hauskasti ja selkeästi kirjoitettu kirja. Tekstiä on sopivasti höystetty huumorilla.

Satunnaistaminen suoritettiin soveltaen yllä kuvattua minimointiperiaa-tetta. Ennustavina tekijöinä käytettiin seuraavia luokkamuuttujia: lähet-tävä klinikka, episodin kesto (kaksiarvoisena; 1 kk tai alle tai yli 1 kk),kaisemmat selkäkivut (kaksiarvoisena, kyllä-ei), Oswestry lähtötilan-teessa (kaksiarvoisena; yli 40, 40 tai alle)

Tutkimus antoi tulokseksi, että kiropraktikon hoidossa olleet saivat enemmän hyötyä hoidosta. Todennäköisin selitus tulokselle on se, että kiropraktikon hoidot jakaantuivat pidemmälle aikavälille. Kovin vakuut-tavaa näyttöä hoitoerojen suuruudesta ei tutkimuksen perusteella voi kuitenkaan luotettavasti arvioida, mm. analyysimenetelmissä tulisi käyt-tää toistomittausasetelmaa. Tutkijat tyytyivat kuitenkin melko yksinker-taisiin perusmenetelmiin.

Epäsymmetrisesti tasapainotetut menetelmätErisuuret ryhmät → tilastollinen voimakkuus laskee.

Ylivoimaisesti tavallisinta kahden vertailtavan ryhmän kliinisissä kokeissa on, että satunnais-tetaan sama määrä potilaita kumpaankin vertailtavaan ryhmään. Riippumatta lopputulos- taivastemuuttujan luonteesta, näin aina onkin tehokkainta. Mikäli kuitenkin tavoitteena on saadaesimerkiksi enemmän käytännön kokemusta uudesta hoidosta kuin standardihoidosta, saate-taan päätyä käyttämään epäsymmetrisesti tasapainotettuja satunnaistamismenetelmiä siten,että uutta hoitoa saavia potilaita otetaan tutkimukseen enemmän. Tällöin kuitenkin tutkimuk-sen voima laskee nopeasti, kun uutta hoitoa saavien osuus kasvaa yli 70 %:n (ks. Pocock, s. 88).

Lähtötason vertailut ja puutteetsatunnaistamisessa

Satunnaistaminen takaa kliinisissä kokeissa hoitojen allokoitumisen harhattomasti eri ryhmi-en välillä, mutta ei takaa lähtötason muuttujien jakaumien samankaltaisuutta, etenkään pienis-sä aineistoissa.

Altman ja Dore (1990) tutkivat 80 artikkelia satunnaistetuista kliinisistä kokeista, jotka oli jul-kaistu jossakin seuraavista neljästä lehdestä: Annals of International Medicine, British Medi-cal Journal, The Lancet tai New England Journal of Medicine. Paitsi lähtötason muuttujaver-tailujen puutteisiin, arvointiraati kiinnitti huomioita virheisiin ja puutteisiin satunnaistamisenosalta.

Satunnaistaminen ja sokkouttaminen 46 Seppo Sarna

Page 51: Sisällysluettelo - Terkko · Normanin ja Steinerin ’Biostatistics, The Bare Essentials’ on hauskasti ja selkeästi kirjoitettu kirja. Tekstiä on sopivasti höystetty huumorilla.

Valikoituja tuloksia todetuista puutteista lähtötasonmuuttujienkäsittelyssä:

• 19:ssa raportissa käytettiin jatkuvien muuttujien hajonnan kuvaamisessa keskivir-hettä (SE), yhdessä luottamusvälejä ja 13:sta artikkelissa ei ilmoitettu hajontaaollenkaan, joten puutteita oli 49%:ssa tapauksista

Lähtötason muuttujien kuvaamisessa hajonnan ilmoittaminen on oleellista.Suunnilleen symmetrisillä jakaumilla ilmoitetaan keskihajonta (SD) jamuuten esimerkiksi vaihteluväli (’range’), valikoituja prosenttipisteitä(’percentiles’) tai joskus jopa koko aineisto, hyvin pienissä tutkimuksissa.Keskivirhe (SE) ei ole hajonnan mitta lähtötason muuttujille vaan erilais-ten estimaattien, esim keskiarvon, luotettavuuden mitta. Myöskään luot-tamusvälien käyttö ei ole mielekästä kun kuvataan lähtötason eroja. Luot-tamusvälejä käytetään hoitoefektien tai niiden erojen arviointiin.

• Hypoteesien testaamista lähtötason muuttujien suhteen käytettiin 58%:ssa tutki-muksista, mutta vain joka kolmannessa artikkelissa ilmoitettiin käytetty menetelmä

Testausmenetelmän ilmoittaminen on aivan oleellista ilmoitetun P-arvonkannalta.

• 46:ssa artikkelissa ilmoitettiin yhteensä noin kuusisataa hypoteesien testaustalähtötason muuttujien suhteen ja niistä 4% antoi tilastollisesti merkitsevän tuloksen(p < 0.05)

Yleensä tutkimuksissa testataan lukuisia lähtötason muuttujia ja ennus-teen kannalta relevanteimmat ilmoitetaan. Suoritettujen testien määräpaisuu kuitenkin tavallisesti suureksi ja törmätään monivertailuongel-maan (’multiple testing’). Esim. jos testataan 20 lähtötason muuttujaa, voidaan olettaa, että ainakin yhdessä niistä saadaan tilastollisesti merkit-sevä ero (p < 0.05), vaikka eroa ei todellisuudessa olisi olemassakaan. Tässä arviossa oletetaan lähtötason vertailut toisistaan riippumattomiksi, mitä ne eivät käytännössä tietenkään ole. Hypoteesien testaaminen ei ole paras mahdollinen ryhmien vertailukelpoisuuden arviointikeino. Paljon täkeämpää olisi tietää prognostisten tekijöiden voimakkuus ja mahdollinen epätasapaino ryhmien välillä.

• Noin puolessa tutkimuksista lähtötason eroja ei korjattu tai huomioitu mitenkääntuloksia analysoitaessa. Joka neljännessä korjaamiseen (’adjustment’) käytettiintilastollista mallintamista

Lähtötason muuttujien vaikutuksen korjaaminen mallittamalla oli vielä1980-luvun alussa jonkinverran kiistelty kysymys. Nykyisin adjustointiinsuhtaudutaan kuitenkin melko yksimielisen hyväksyvästi. Logistinenmalli ja Coxin malli ovat tavallisimpia keinoja adjustoinnin suorittamiseksi.

Biostatistiikan peruskurssi 1999 47 Satunnaistaminen ja sokkouttaminen

Page 52: Sisällysluettelo - Terkko · Normanin ja Steinerin ’Biostatistics, The Bare Essentials’ on hauskasti ja selkeästi kirjoitettu kirja. Tekstiä on sopivasti höystetty huumorilla.

• Lähes kaikissa (91%) artikkeleista kommmentoitiin jollakin tavoin lähtötasojensamanlaisuutta. Vertailu oli kuitenkin asiallista vain 59%:ssa tapauksista. Suurim-pina puutteina olivat informoinnin riittämättömyys ja virheet adjustoinnessa

Valikoituja tuloksia puutteista satunnaistamisessa:

• 60%:ssa artikkeleista metodiosasta puuttui maininta mitä satunnaistamismenetel-mää oli käytetty.

• Satunnaislukujen generoititapa oli mainittu vain puolessa artikkeleista• Lohkosatunnaistamista käytettiin 30%:ssa tutkimuksista.• Vain 52%:ssa tutkimuksista, joissa oli käytetty osittamista (’stratification’) käy-

tettin lohkosatunnaistamista

Osittaminen ei palvele tarkoitustaan, ellei satunnaistamisessa käytetälohkomenettelyä

• Lohkokokoa ei mainittu 35%:ssa tapauksista• Yhdessä 30:n potilaan aineistossa käytettiin lohkokokoa 20!

Tämä lohkokoko on liian suuri. Lohkokoko tulee valita siten, että aineis-tokoko on jaollinen lohkokoolla. tavallisimmin käytetyt lohkokoot ovatvälillä 4-20. Liian pieniä lohkokokoja kannattaa välttää ennustettavuus-syistä. 30:n potilaan ja kahden hoitoryhmän tapauksessa sopiva lohko-koko olisi 6.

• Hoidon allokointimenetelmä oli puutteellisesti ilmoitettu 45%:ssa tapauksista, jalopuista 44:stä tutkimuksesta 16:ssa oli ilmoitettu, että on käytetty kirjekuoria,mutta ainoastaan 2:ssa tutkimuksessa oli ilmoitettu, että ne olivat numeroituja,sinetöityjä ja läpinäkymättömiä, niinkuin pitäisi.

ViitteetAltman DG. Comparability of randomised groups. Statistician 1985; 34: 125-36.

Altman DG, Dore CJ. Randomisation and baseline comparisons in clinical trials. Lancet1990; 335: 149-53.

Meade TW, Dyer S, Browne W,Frank AO. Randomized comparison of chiropractic and hos-pital outpatient management for low back pain: results from extended follow-up. BMJ1995; 311: 349-351.

Smithells RW, Shepprd S, Schorah JC et al. Possible prevention of neural tube defects by peri-conceptional vitamin supplementation. Lancet 1980, i 339-340.

Smithells RW, Shepprd S, Schorah JC et al. Vitamin supplementation and neural tube defects.Lancet 1981, ii 1425.

Satunnaistaminen ja sokkouttaminen 48 Seppo Sarna

Page 53: Sisällysluettelo - Terkko · Normanin ja Steinerin ’Biostatistics, The Bare Essentials’ on hauskasti ja selkeästi kirjoitettu kirja. Tekstiä on sopivasti höystetty huumorilla.

Pocock SJ. Clinical trials; a practical approach. John Wiley & Sons, Chichester 1983: 66-99.

Taves DR. Minimization: A new method of arranging patients to treatment and controlgroups. Clin Pharmacol Ther 1974; 15: 443-53.

Biostatistiikan peruskurssi 1999 49 Satunnaistaminen ja sokkouttaminen

Page 54: Sisällysluettelo - Terkko · Normanin ja Steinerin ’Biostatistics, The Bare Essentials’ on hauskasti ja selkeästi kirjoitettu kirja. Tekstiä on sopivasti höystetty huumorilla.

Satunnaistaminen ja sokkouttaminen 50 Seppo Sarna

Page 55: Sisällysluettelo - Terkko · Normanin ja Steinerin ’Biostatistics, The Bare Essentials’ on hauskasti ja selkeästi kirjoitettu kirja. Tekstiä on sopivasti höystetty huumorilla.

Aineiston kerääminen ja senalustava käsittely

OtantamenetelmiäHuomattava osa lääketieteellisistä tutkimuksista perustuu otantaan (’sampling’). Sen suoritta-mistapoja on useita. Seuraavassa esitellään lyhyesti kliinisissä tutkimuksissa tavallisimminkäytetyt menetelmät.

Yksinkertainen satunnaisotanta (’Simple random sampling’)

Käyttö: Kun perusjoukko äärellinen ja henkilöt ovat identifioituja, kuuluvatesim. johonkin rekisteriin.

Oletetaan, että perusjoukkoon kuuluu N henkilöä (tai muuta havaintoyksikköä), joille on an-nettu tunnukset 1, 2, ..., N ja että tästä perusjoukosta halutaan kerätä n henkilöä käsittävä tutki-musaineisto (otos).

Menettelytapa: Muodostetaan tasaisesti jakautuneita satunnaislukuja väliltä (1, N)käyttäen satunnaislukujen taulukoita tai tietokoneidensatunnaislukujen generointi- (muodostamis-) ohjelmia.

Jokaisella mahdollisella n:n henkilön suuruisella otoksella, joka on valittavissa tästä N henki-löä käsittävästä perusjoukosta on siten sama todennäköisyys tulla tutkijan aineistoksi. Tässäsuhteessa on selvä ero kliinisissä kokeiluissa käytettyyn menettelyyn, missä tutkimukseen kel-puutetut (’eligible’) henkilöt satunnaistetaan vertailtaviin ryhmiin, jolloin kullakin potilaallaon yhtä suuri todennäköisyys joutua mihinkä tahansa vertailtavista ryhmistä. Tällöin vertailta-vat ryhmät eivät ole satunnaisotoksia mistään perusjoukosta. Usein myöskään tutkimukseenkelpuutettujen N:n henkilön ryhmä, ei ole satunnaisotos mistään perusjoukosta, vaan se on va-littu muilla kriteereillä.

Systemaattinen otanta (’Systematic sampling’)

Käyttö: Kun perusjoukko on ääretön tai siihen kuuluvia henkilöitä ei etukäteentiedetä. Esim. poliklinikkatutkimuksissa on usein tämä tilanne.

Menettelytapa: Otetaan mukaan joka k:s henkilö satunnaisesti valitusta ajanhetkestäalkaen.

Tässä otantamenettelyssä perusjoukko voi olla myös ääretön. Otanta aloitetaan satunnaisestivalitusta kohdasta (esim. ajanhetkestä) ja sen jälkeen otokseen valitaan joka k:s (esim. jokakolmas tai joka neljäs) henkilö.

Verrattuna yksinkertaiseen satunnaisotantaan systemaattinen otanta on helpompi suorittaa; eiedellytä olemassa olevaa rekisteriä perusjoukosta. Tätä menetelmää voidaan käyttää esim.,

Biostatistiikan peruskurssi 1999 51 Aineiston kerääminen ja sen alustava käsittely

Page 56: Sisällysluettelo - Terkko · Normanin ja Steinerin ’Biostatistics, The Bare Essentials’ on hauskasti ja selkeästi kirjoitettu kirja. Tekstiä on sopivasti höystetty huumorilla.

kun halutaan tutkia tapaturma-asemalle tuotavia potilaita ja, kun oletetaan lisäksi, että tutki-mus edellyttää mm. tavanomaisesta rutiinista poikkeavia näytteenottoja ja lisämäärityksiä, joi-ta ei tehdä kaikille potilaille. Tällöin systemaattinen otanta on ainoa keino, koska potilaita eiole ennakkoon rekisteröity ja koska tutkimukseen halutut tiedot eivät ole sellaisia, joita olisisystemaattisesti tallennettu potilaskertomuksiin.

Toinen selvä etu on, että systemaattinen otos jakaantuu yleensä tasaisemmin yli perusjoukon,mistä johtuen systemaattinen otanta on usein huomattavastikin tarkempi kuin yksinkertainensatunnaisotanta.

Systemaattisuus voi kuitenkin joissakin tapauksissa aiheuttaa virheellisyyttä. Esim. tapaturma-asematutkimuksessa on aiheellista valita k siten, että otos ei valikoidu esim. kellonajan, vii-konpäivän, vuodenajan tai muiden sellaisten tekijöiden suhteen, jotka ovat haitallisia tutki-mustulosten yleistettävyyden kannalta. Tämän asian varmistamiseksi onkin aiheellista mene-tellä siten, että kerätään useita systemaattisia osaotoksia valitsemalla useitasatunnaisaloituskohtia, joista alkaen otantaa suoritetaan, esim. keräämällä eri vuodenaikoinaomat systemaattiset otokset.

Ositettu otanta (’Stratified sampling’)

Käyttö: Perusjoukko on äärellinen ja halutaan turvata edustavuus jonkin tekijänsuhteen.

Menettelytapa: Perusjoukko jaetaan äärelliseen määrään ositteita (’strata’, perusjoukonosajoukkoja), joista kustakin erikseen suoritetaan satunnaisotanta. Osittei-siinjakoperusteina voi olla esim. ikäryhmitys tai keskussairaalapiirijako.

Ositettua otantaa käytetään mm. seuraavista syistä johtuen:• halutaan parantaa koko otoksesta laskettavien suureiden tarkkuutta verrattuna

yksinkertaisella satunnaisotannalla saataviin arvioihin• halutaan turvata edustavuus niiden tekijöiden suhteen, jotka ovat ositteisiinjaon

perustana• halutaan laskea arvioita tutkittaville suureille kussakin ositteessa.

Ensimmäisessä tapauksessa on optimaalista valita ositteiden otoskoot siten, että ne ovat niinhyvin kuin mahdollista verrannollisia tutkittavan muuttujan hajontaan perusjoukon vastaavas-sa ositteessa. Mikäli ei ole mitään tietoa perusjoukon hajonnoista eri ositteissa tai ollaan en-nen kaikkea kiinnostuneita jälkimmäisestä vaihtoehdosta, niin otantasuhde on yleensä tällöinsyytä valita vakioksi kaikissa ositteissa, mikä merkitsee, että kustakin ositteesta valittava otok-sen koko on suhteessa ositteen kokoon perusjoukossa.

Esim. Halutaan arvioida jonkin/joidenkin sairauksien yleisyyttä Suomen väes-tössä otantatutkimuksen avulla ja oletetaan, että on näyttöä siitä, ettäkyseiset sairaudet ovat epätasaisesti jakautuneita maan eri osien suh-teen. Tällöin voidaan käyttää ositettua otantaa. Ositteisiinjaon perus-teeksi valitaan esim. lääni tai keskussairaalapiiri. Kustakin näin saata-vasta ositteesta suoritetaan satunnaisotanta siten, että otoskoko on suh-teessa vastaavaan väestömäärään. Tämä menettely parantaa ennen kaik-

Aineiston kerääminen ja sen alustava käsittely 52 Seppo Sarna

Page 57: Sisällysluettelo - Terkko · Normanin ja Steinerin ’Biostatistics, The Bare Essentials’ on hauskasti ja selkeästi kirjoitettu kirja. Tekstiä on sopivasti höystetty huumorilla.

kea sairauksien esiintyvyyttä mittaavien suureiden tarkkuutta (hajontaa)verrattuna yksinkertaisella satunnaisotannalla saataviin arvoihin.

Kolmannessa tapauksessa voi käydä niin, että joudutaan poikkeamaan optimaalisesta otan-tasuunnitelmasta, koska se tuottaisi joihinkin ositteisiin liian vähän havaintoja. Tällöin käyte-tään nk. rikastusmenettelyä, mikä tarkoittaa, että otoskokoa kasvatetaan pienissä ositteissa.Esim., jos ositteisiinjaon perusteena on sosiaaliluokka, niin ylimmän sosiaaliluokan osuuttavoidaan joutua kasvattamaan otosta valittaessa, koska sen osuus perusjoukosta on yleensämuita sosiaaliluokkia pienempi.

Monivaiheinen otanta (’Multiphase sampling’)

Käyttö: Kustannuksien säästämiseksi joissakin melko harvinaisissa tutkimus-tilanteissa.

Menettelytapa: Perusjoukko jaetaan ensiksi ensimmäisen vaiheen otosyksiköiksi.Tämän jälkeen käytetään jotain edellä kuvatuista otantamenettelyistä javalitaan otos näistä ensimmäisen vaiheen otosyksiköistä. Kukin otok-seen valituista yksiköistä jaetaan edelleen toisen vaiheen otosyksiköiksi,joista seuraavaksi valitaan otos. Näin voidaan jatkaa niin kauan kuin ontarpeellista.

Monivaiheisen otantamenettelyn etuna kustannusten säästön ohella olla joissakin tilanteissaolla otantaprosessin helpottuminen. Se ei myöskään edellytä yhteistä rekisteriä koko perusjou-kosta.

Haittana voidaan pitää sitä, että yleensä arvioitavien suureiden tarkkuudessa menetetään.Esim. jos halutaan suorittaa jonkin tietyn alueen (esim. pääkaupunkiseudun) koululaisiin koh-distuvaa tutkimusta, niin ensimmäisessä vaiheessa otantayksiköiksi valitaan koulut ja toisenvaiheen otantayksiköiksi luokat ja sitten kolmannen vaiheen otantayksiköiksi oppilaat. Tä-mäntyyppiseen järjestelyyn otannan osalta joudutaan turvautumaan ennen kaikkea käytännönjärjestelyiden helpottamiseksi.

Aineiston käsittelyTavallisesti tutkimuksissa joudutaan keräämään suuri määrä tietoa, useista tutkittavista ja mo-nista tutkimuksen kannalta relevanteista suureista (muuttujista, ’variables’). Jotta tämä tutki-mustieto olisi mielekkäästi tulkittavissa, se joudutaan tiivistämään yhdistelmätiedoksi (’aggre-gate data’), tunnusluvuiksi (’characteristic’), taulukoiksi (’tables’) tai graafisiksi kuvaajiksi(’graphical displays’). Ennen analyysivaihetta kannattaa suorittaa tutkimusaineiston perusteel-linen tarkastelu (’data screening’), joka tulisi suunnitella yhtä huolellisesti kuin varsinainen ti-lastokäsittelykin. Aineiston esikäsittelyssä pyritään paikallistamaan aineistossa mahdollisestiesiintyvät virheellisyydet ja poikkeavat havaintoarvot (’outliers’), ja puuttuvien tietojen mää-rä ja laatu. Lisäksi jakaumien muotoon ja perusriippuvuussuhteisiin kannattaa perehtyä huolel-la.

Biostatistiikan peruskurssi 1999 53 Aineiston kerääminen ja sen alustava käsittely

Page 58: Sisällysluettelo - Terkko · Normanin ja Steinerin ’Biostatistics, The Bare Essentials’ on hauskasti ja selkeästi kirjoitettu kirja. Tekstiä on sopivasti höystetty huumorilla.

Muuttujien tyypit

Tilastokäsittelyn kannalta on oleellista minkälaisilla suureilla ja muuttujilla havaintoja teh-dään ja mitataan. Muuttujat voidaan kahteen päätyyppiin:

• epäjatkuvat (’discrete’) ja• jatkuvat (’continuous’)

Epäjatkuvat muuttujat voivat saada vain tiettyjä, määrättyjä arvoja, ja jatkuvat muuttujat voi-vat saada arvoalueensa sisältä mitä tahansa arvoja (mittaustarkkuuden puitteissa), esimerkiksihenkilön pituus.

Epäjatkuvat muuttujat voidaan edelleen jakaa • luokkamuuttujiin (’categorial’) ja• numeerisiin muuttujiin (’numerical’)

joista edellisistä esimerkkinä ABO-veriryhmäjärjestelmä, ja jälkimmäisestä lukumäärät(’counts’).

Asteikot (’scales’)

Muuttujan mitta-asteikko ratkaisee, minkälaisia deskriptiivisiä keinoja (tilastollisia tunnuslu-kuja, graafisia kuvaajia ja taulukoita), tilastollisia analyysimenetelmiä ja testejä on tarkoituk-senmukaista käyttää.

• Välimatka-asteikko (’Interval scale’)Asteikko, missä minkä tahansa kahden numeerisen arvon erotuksella onkvantitatiivisesti sama merkitys missä tahansa kohdassa skaalaa, esim.lämpötila.

• Suhdeasteikko (’Ratio scale’)Välimatka-asteikko, missä 0-arvo merkitsee ominaisuuden puuttumista,esim. alkoholin kulutus, vaarasuhde.

• Järjestysasteikko (’Ordinal scale’)Kolmi- tai useampiluokkainen asteikko, missä luokkien suhteellinen sijaintitoisiinsa nähden muodostaa luonnollisen järjestyksen, esim. oireen voimak-kuus: ei oiretta, lievä, kohtalainen, vaikea.

• Laatueroasteikko (’Nominal scale’, ’Multichotomy’)Kolmi- tai useampiluokkainen asteikko, missä luokkien välillä ei oletetaolevan mitään luonnollista järjestystä tutkittavassa asiayhteydessä, esim.siviilisääty, tautiluokitus.

• Kaksiluokkainen asteikko (’Dichotomy’)On erikoistapaus järjestysasteikosta. Siinä on kaksi luokkaa, joiden järjestyskeskenään on sopimuskysymys, esim. sukupuoli, taudin olemassaolo.

Monissa tilastollisissa malleissa välimatka- tai suhdeasteikollinen muuttuja joudutaan luokitte-lemaan järjestysasteikolliseksi, jotta mallin parametrien arviointi olisi mahdollista ja tuloksettulkittavissa.

Aineiston kerääminen ja sen alustava käsittely 54 Seppo Sarna

Page 59: Sisällysluettelo - Terkko · Normanin ja Steinerin ’Biostatistics, The Bare Essentials’ on hauskasti ja selkeästi kirjoitettu kirja. Tekstiä on sopivasti höystetty huumorilla.

Laatueroasteikollista muuttujaa voidaan testausmielessä tarkastella tilastollisissa malleissa jär-jestysasteikollisena, kun halutaan tutkia, muodostavatko sen luokat luonnollisen järjestyksen(trenditestit).

Laatueroasteikollisesta muuttujasta voidaan ja usein joudutaan muodostamaan tilastollisiinmalleihin useita kaksiarvoisia ilmaisin-, vale- tai mallintamismuuttujia, (’indicator’-, ’dum-my’- tai ’design’-muuttujat), joilla yhdessä on sama tietosisältö kuin alkuperäisellä muuttujal-la.

Välimatka- tai suhdeasteikollista muuttujaa (esim. ikä) voidaan tilastollisissa malleissa käsitel-lä kuten laatueroasteikollista muuttujaa, kun halutaan esim. testata muuttujan mahdollisia ei-monotonisia yhteyksiä mallin muihin muuttujiin. Tällöin on kuitenkin syytä huomata, että kat-kaisukohdilla (’cut-off points’) on suuri merkitys tulosten kannalta. Huono katkaisukohtienvalinta voi peittää alleen tilastollisen yhteyden.

Tiedot kannattaa alkuperäiseen tiedostoon kerätä mahdollisimman tarkasti, jotta tilastokäsitte-lyssä niitä voidaan sopivasti yhdistellä tutkimushypoteesin edellyttämällä tavalla, esimerkiksilaboratoriomittausarvot kannattaa ottaa tarkkoina eikä pelkästään kaksiarvoisina (normaali,epänormaali), samoin ikä kannattaa ottaa ainakin vuoden tarkkuudella. Aikaviiveiden laske-mista varten tietokantaan kannattaa sisällyttää tarkat päivämäärät (’date’ muodossa).

Muuttujaluettelo

Tilastokäsittelyä varten kannattaa tutkimustiedostosta/tietokannasta laatia kuvaus muuttujiensisällöstä, mitta-asteikosta ja tiedon esittämistavasta. Tämä myös estää tiedon muuttumisenkäyttökelvottomaksi pitkään kestävän tutkimuksen aikana unohduksen seurauksena. Kuvauk-seen kannattaa sisällyttää muuttujista ainakin seuraavat asiat:

Muuttujan numero • Esim. juokseva numerointi

Muuttujan nimilyhenne• Useimmat tilasto-ohjelmat sallivat korkeintaan 8 merkkisiä nimiä. Skandinaavisia

kirjaimia ja erikoismerkkejä sisältäviä muuttujanimiä kannattaa välttää.

Muuttujan varaama tila• Kentän koko tietokannassa• Desimaalipisteen sijanti pitää ilmoittaa (x.xx) samoin mahdollinen etumerkki.

Niille pitää varata oma tila kentästä.

Muuttujan kuvaus • Muutaman sanan mittainen selvitys muuttujan sisällöstä

Muuttujan asteikko • Tilastokäsittelyssä käytettävä asteikkotyyppi

Biostatistiikan peruskurssi 1999 55 Aineiston kerääminen ja sen alustava käsittely

Page 60: Sisällysluettelo - Terkko · Normanin ja Steinerin ’Biostatistics, The Bare Essentials’ on hauskasti ja selkeästi kirjoitettu kirja. Tekstiä on sopivasti höystetty huumorilla.

Muuuttajan koodiarvot

• Tutkijan valitsemat koodiarvot laatuero- ja järjestusasteikollisille muuttujille• Jonkin ominaisuuden, oireen tai altisteen puuttuminen kannattaa koodata 0:ksi ja

sen olemassaolo 1:ksi.

Puuttuvien tietojen merkintä• Esim. ohjelmissa dBase ja BMDP * (tai ** jne...) merkitsee puuttuvaa tietoa. Tyhjä

tulkitaan kiinteässä tallennnusmuodossa (’fixed format’) puuttuvaksi tiedoksi,mutta ei vapaassa tallennusmuodossa (’free format’). Vapaassa muodossa puuttu-vaa tietoa voidaan merkitä , , tai *. Myös muut merkit, kuten esim. vaihtelualueenulkopuolle menevät arvot (9,99,999 jne..) voidaan määritellä muuttujakohtaisestipuuttuviksi tiedoiksi. Joissakin tietokantaohjelmissa (esim. dBase) tyhjä muuntuuhelposti eri käsittelyvaiheissa nollaksi ja voi siten aiheuttaa ongelmia.

Erityishuomautukset • Mittaustarkkuus, pyöristys, typistys, jne.

Lisätietoja käsittelyä varten

Muuttujien luokitukset• Jatkuvat muuttujat joudutaan usein aineistoa kuvattaessa ja joissakin malleissa

estimointisyistä luokittelemaan. Tästä tosin saattaa aiheutua jonkin verran infor-maation menetystä. Jatkuvien muuttujien tiedot kannattaa kuitenkin tallentaa luo-kittelemattomina, sillä luokitukset voidaan suorittaa tilasto-ohjelmalla. Yleensäjoudutaan kokeilemaan monia eri luokituksia.

Muuttujien muunnokset• Erotus- ja summamuuttujat, indeksit ym. johdetut muuttujat

Ehdot loogisuustarkistuksia varten• Jo tietojen tallennusvaiheessa kannattaa tietokantaohjelmaan rakentaa joukko oh-

jelmointikielen käskyjä, jonka avulla voidaan tarkistaa loogisten virheiden olemas-saoloa. Ennen tilastokäsittelyä kannattaa tarkistaa minimit ja maksimit ja loogisetmahdottomuudet.

Yksityiskohtaisemmin on edellä mainittuja asioita tarkastellut mm. Salmelin (1991).

Puuttuvat tiedot

Puuttuvat tiedot muodostavat monissa kliinisissä tutkimuksissa ison ongelman. Niitä syntyyolosuhteiden pakosta ja yleensä niille pitäisi jotain tehdä ennen tilastokäsittelyä. Puuttuvientietojen seurauksena tutkimuksen voima saattaa heiketä estimaattien tarkkuus huonontua.Näin käy erityisesti silloin, jos tilastokäsittelyyn otetaan vain ns. ’täydelliset tapaukset’, eli po-tilaat, joilta on saatu kaikki tiedot (’complete-case analysis’, ’available-case analysis’). Mikälipuuttuvat tiedot eivät tällaisessa tilanteessa jakaannu satunnaisesti aineiston sisällä, saattaa tu-loksiin lisäksi syntyä harhaa.

Aineiston kerääminen ja sen alustava käsittely 56 Seppo Sarna

Page 61: Sisällysluettelo - Terkko · Normanin ja Steinerin ’Biostatistics, The Bare Essentials’ on hauskasti ja selkeästi kirjoitettu kirja. Tekstiä on sopivasti höystetty huumorilla.

Monet tutkijat pitävät karkeana nyrkkisääntönä, että enempää kuin 5% muuttujan arvoista eisaisi puuttua. Monissa kliinisissä tutkimuksissa suoritetaan potilaasta toistomittauksia ja Täl-löin puuttuvat tiedot ovat erityisen ongelmallisia. Monissa tilastollisissa algoritmeissa on si-säänrakennettuna mahdollisuus ottaa huomioon puuttuvat tiedot (esim. SAS Mixed ja BMDP5V). Tutkimusaineiston esikäsittelyyn puuttuvien tietojen osalta on käytettävissä myös eri-tyisohjelmistoja, esim. SOLAS.

Tavallisimpia puuttuvien tietojen korvaamismenettelyjä ovat:• Ryhmäkeskiarvolla tai satunnaisesti valitulla muuttujan arvolla korvaaminen

(’group mean imputation’).• Viimeisen havaintoarvon siirtäminen eteenpäin (LVCF-menetelmä ’last value

carried forward’). Käytetään etenkin toistomittausasetelmissa. Tämän menetelmänkanssa tulisi kuitenkin olla erityisen varovainen, se voi johtaa pahasti harhaiseenlopputulokseen.

• Lähimmällä kaltaistetulla havaintoarvolla korvaaminen (’hot-deck imputation’).Käytetään esim. kyselytutkimuksissa siten, että jos jokin kysymyssarja käsittää 10osiota ja henkilöltä A puuttuu vastaus osioon 4, niin etsitään sellaisen henkilön Bvastaus, joka on vastannut mahdollisimman samanlaisesti kuin henkilö A muihin10:stä osiosta ja siirretään B:n vastaus A:n tietueeseen puuttuvaan osioon 4.

Poikkeavat havaintoarvot

Biologisessa materiaalissa esiintyy aina poikkeuksellisen pieniä tai suuria muuttujan arvoja.Tärkeä vaihe aineiston esitarkastelussa on pyrkiä paikallistamaan tällaiset arvot, kenellä henki-löllä niitä esiintyy ja missä muuttujissa. Poikkeavia havaintoarvoja esiintyy seuraavista syistäjohtuen:

• Virheet näytteidenotossa, mittaamisessa tai tietojen rekisteröinnissä. Nämä poik-keavat havaintoarvot pyritään yleensä korvaamaan oikealla arvolla, mikäli sesuinkin on mahdollista. Muussa tapauksessa havaintoarvo tai koko havaintoyksik-kö saatetaan joutua sulkemaan pois analyysistä.

• Äärimmäiset biologisen, psykologisen tai ympäristövariaation aiheuttamat arvot.Yleensä analyysit ja arvioinnit joudutaan tällaisissa tapauksissa suorittamaan sekänäiden poikkeavien arvojen kanssa että ilman niitä. Lisäksi on olemassa menetel-miä arvioida poikkeavien arvojen vaikutusta tuloksiin.

• Otantaongelmat tai virheet tutkimusten sisäänotto- tai poissuljentakriteereissäsaattavat tuoda mukaan aineistoon henkilöitä, jotka poikkeavat muista tutkittavistaselvästi. Koska nämä henkilöt eivät kuulu tutkimuksen perusjoukkoon, lieneetavallisinta, että tapaukset vain raportoidaan ja suljetaan tilastokäsittelyn ulkopuo-lelle.

Biostatistiikan peruskurssi 1999 57 Aineiston kerääminen ja sen alustava käsittely

Page 62: Sisällysluettelo - Terkko · Normanin ja Steinerin ’Biostatistics, The Bare Essentials’ on hauskasti ja selkeästi kirjoitettu kirja. Tekstiä on sopivasti höystetty huumorilla.

KeskiluvutJakauman sijainnin kuvaamisessa käytetään tavallisimmin seuraavia keskilukuja:

• Aritmeettinen kerkiarvo• Painotettu aritmeettinen keskiarvo• Mediaani• Geometrinen keskiarvo• Harmoninen keskiarvo• Viritetyt (’trimmed’) keskiarvot• Moodi

Näiden keskilukujen käyttökelpoisuutta eri asteikkotyyppien yhteydessa kuvaa seuraava tau-lukko:

Asteikko

TunnuslukuVälimatka

/suhdeJärjestys Laatuero Dikotomia

Keskiarvo + (+) – –

Mediaani + + – –

Moodi + + + +

Selitykset: + : käyttökelpoinen (+): varauksellisesti käyttökelpoinen – : ei sopiva

Varauksellisesti käyttökelpoinen tarkoittaa, että tunnusluku on mielekäs deskriptiivisesti vain,mikäli muuttujien arvot ovat yhtä etäällä toisistaan biologisessa mielessä.

Useimmissa analyyseissa dikotominen ja järjestysasteikollinen muuttuja toimivat laskennalli-sesti kuten välimatka-/suhdeasteikollinen muuttuja, mutta viimeksi mainituille kehitetyt testittoimivat vain likimääräisesti. Dikotomisten muuttujien keskiarvot eivät kuitenkaan ole de-skriptiivisesti mielekkäitä, koska keskiarvo on riippuvainen valituista koodiarvoista. Prosent-tiosuuksien ilmaiseminen on mielekkäämpää.

Mikäli aineistossa muuttujan arvoina esiintyy poikkeuksellisen pieniä tai suuria arvoja (’out-liers’), voidaan käyttää viritettyjä (’trimmed’) keskiarvon estimaatteja. Ne jättävät jakaumanääripäistä tietyn määrän havaintoarvoja pois.

Toinen tapa hallita poikkeavia havaintoarvojen yliokorostuvaa vaikutusta on käyttää havainto-arvojen painottamista siten, että estimaatin lähellä olevat arvot saavat suuremman painon kuinääripäissä olevat arvot. Esim. BMDP-paketissa tällaisia keskiarvon estimaatteja on kahta tyyp-piä: ’Hampel’ ja ’Biweight’, jotka erovat toisistaan havaintojen painotusmekanismin suhteen.Tilastollisten testien kannalta nämä viritetyt tai painotetut keskiarvot eivät ole kovin käyttökel-poisia.

Mikäli jakauma on voimakkaasti vino oikealle, niin keskiluvuksi kannattaa usein valita loga-ritmimuunnokseen perustuva geometrinen keskiarvo, eli antilogaritmi logaritmisten arvojen

Aineiston kerääminen ja sen alustava käsittely 58 Seppo Sarna

Page 63: Sisällysluettelo - Terkko · Normanin ja Steinerin ’Biostatistics, The Bare Essentials’ on hauskasti ja selkeästi kirjoitettu kirja. Tekstiä on sopivasti höystetty huumorilla.

aritmeettisesta keskiarvosta. Tällöin nolla-arvot pitää korvata mittaustarkkuuden alarajalla.Geometrista keskiarvoa käytetään yleisesti mm. sero-bakteriologisissa tutkimuksissa. Senkäyttö on varsin luonnollista esim. titterien yhteydessä.

Mikäli jakauma on vino vasemmalle, voidaan käyttää muunnosta exp(x) ennen keskiarvon las-kemista. Jos jakaumassa on hännät molempiin suuntiin, voidaan käyttää muunnosta 1⁄x. Täl-löin keskeisyyttä mittaa harmoninen keskiarvo, eli käänteisarvojen aritmeettinen keskiarvo.

Eräs yleisimmin käytettyjä jakauman sijainnin mittoja lääketieteellisissä tutkimuksissa on me-diaani, eli se arvo, joka jakaa järjestetyn havaintoaineiston niin, että sekä sen ala- että yläpuo-lella on 50% havaintoarvoista. Mediaani ei luonnollisestikaan ole herkkä poikkeaville havain-toarvoille.

Kun julkaistaan keskiarvoja, kannattaa pitää mielessä mikä on alkuperäisen datan numeerinentarkkuus. Keskiarvoihin kannattaa ottaa vain yksi ylimääräinen desimaali.

Hajonnan mitatNimeerinen tapa kvantifioida tutkittavissa suureissa esiintyvää vaihtelua (’variability’) eli ha-jontaa (’dispersion’) on käyttää seuraavia mittalukuja:

• Vaihteluväli (’Range’)• Prosenttipisteet (’Percentiles’)• Standardipoikkeama (’Standard deviation’, SD)• Variaatiokerroin (’Coefficient of variation’, CV)

Standardipoikkeama soveltuu hajonnan mitaksi deskriptiivisessä mielessä vain, mikäli ja-kauma on suunnilleen symmmetrinen. Muuten hajontaa kannattaa kuvata 90%, 95% tai100%:n vaihteluväleillä, prosenttipisteillä (esimerkiksi desiilit, kvinttiilit, kvarttiilit) tai graafi-sesti, esimerkiksi esittämällä kaikki havaintopisteet. Mikäli aineistossa esiintyy poikkeavia ha-vaintoarvoja, tulisi 100% vaihteluvälin sijasta käyttää esimerkiksi 95% vaihteluväliä.

Laskennallisesti standardipoikkeama on hyvä ja tavallisimmin käytetty hajonnan mittaluku.Merkintätapaa keskiarvo ± SD tulisi välttää. Mikäli jakauma on normaali, tämä merkintä tar-koittaa noin 68% vaihteluväliä. Väliä keskiarvo ± 2*SD tai 95% vaihteluväliä käytetään useinkuvaamaan niinsanottua normaalia vaihtelua, viitearvoväliä (’reference interval’).

Riittävä numeerinen tarkkuus hajonnan ilmoittamisessa on yleensä kaksi ylimääräistä desi-maalia verrattuna alkuperäisen datan tarkkuuteen.

Kun SD suhteutetaan, s.o. jaetaan keskiarvolla, saadaan variaatiokerroin (CV). CV on yksi-köistä riippumaton ja sitä käytetään kun halutaan vertailla vaihtelua eri aineistoissa. CV ilmoi-tetaan prosenttilukuna.

Biostatistiikan peruskurssi 1999 59 Aineiston kerääminen ja sen alustava käsittely

Page 64: Sisällysluettelo - Terkko · Normanin ja Steinerin ’Biostatistics, The Bare Essentials’ on hauskasti ja selkeästi kirjoitettu kirja. Tekstiä on sopivasti höystetty huumorilla.

Jakauman vinous ja huipukkuusJakauman vinous (’skewness’) paljastuu parhaiten graafisessa tarkastelussa. Tietokoneohjel-missa on olemassa useita jakauman vinouden eri piirteitä korostavia mittalukuja, joista mi-kään ei ole ihanteellinen. Tavallisimmin käytetty lienee kolmanteen momenttiin ja sen keski-virheeseen perustuva parametrinen vinouskerroin ja sen testi, joka sisältyy useimpiin tilastopa-ketteihin. Myös ei-parametrinen vinouskerroin on laskettavissa prosenttipisteiden perusteella,mutta sitä näkee harvemmin käytettävän.

Parametrinen huipukkuuskerroin (’kurtosis’) ja sen testi perustuu neljänteen momenttiin jasen keskivirheeseen.

Jakauman normaalisuusJakauman normaalisuutta voidaan testata monin tavoin. Graafisesti sitä voidaan tutkia esim.’probit-plot’-menetelmällä (MedStat: PROBIT, BMDP5D). Y-akselilla on tällöin kumulatiivi-sen normaalijakauman mukaiset odotusarvot ja x-akselilla havaitun kumulatiivisen jakaumanarvot. Normaalisuus on sitä parempi mitä paremmin pisteet sijoittuvat 45° kulmassa (x, y)-koordinaatistoon piirretylle suoralle viivalle. Tilastollisena testinä voidaan käyttää esimerkik-si Shapiro-Wilkin W-testiä tai Kolmogorov-Smirnovin testiä.

Graafiset kuvaajatTavallisimpiin graafisiin esitystapoihin kuuluuvat erilaiset histogrammit (frekvenssijakaumi-en kuvaajat), pylväsdiagrammit (’bar diagram’, ’column diagram’), viivadiagrammit (’linediagrams’), hajontadiagrammit (’scatter plots’) ja ympyrädiagrammit (’piirakat’, ’pies’) (Tuf-te 1983, Stenman 1995).

Kun kuvataan kahden muuttujan välisiä yhteyksiä hajontadiagrammeilla, niin kaikki havainto-aineiston pisteet tulisi esittää. Joissakin tilanteissa kuvantamissymboli voidaan korvata lukuar-volla, joka ilmaisee yhtenevien pisteiden määrän. Etenkin pienissä aineistoissa yksittäisten ha-vaintopisteiden esittäminen hajontadiagrammeissa on suositeltavaa.

Kuvattaessa frekvenssijakaumaa on histogrammille vaihtoehtona frekvenssimurtoviiva (’freq-uency polygon’), jonka etuna histogrammiin verrattuna on se, että samaan kuvaan voidaan si-joittaa esimerkiksi useampien ryhmien frekvenssijakaumat vertailujen helpottamiseksi, jamyös jakauman muoto hahmottuu paremmin. Frekvenssijakaumissa kannattaa aina käyttää ta-savälisiä luokituksia.

Aineiston kerääminen ja sen alustava käsittely 60 Seppo Sarna

Page 65: Sisällysluettelo - Terkko · Normanin ja Steinerin ’Biostatistics, The Bare Essentials’ on hauskasti ja selkeästi kirjoitettu kirja. Tekstiä on sopivasti höystetty huumorilla.

Yleisohjeita kuvien rakentamiseen:

• Kuvien ja kuvatekstien tulee olla itsensäselittäviä; kuvat pitää olla ymmärrettävissäartikkelin sisällöstä riippumatta

• Vaaka- ja pystyakselit tulee nimetä selkeästi ja myös yksiköt pitää olla näkyvissä• Ei liian paljon tietoa yhteen kuvaan• Kuvien tarkoitus on antaa nopeasti selkeä käsitys esitettävästä asiasta eikä esitellä

detaljitietoutta• Ei liian paljon numerotietoutta kuviin• Luottamusvälit suositeltavampia kuin keskivirheistä muodostuvat virhejanat

(’error bars’)

ViitteetSalmelin R. Lomakesuunnittelu tietokonetallennuksen ja tilastollisen käsittelyn kannalta. Duo-

decim 1991; 107: 305-12.• Sisältää käytännön kokemukseen perustuvia ohjeita tietojen tallentamisesta ja

koodaamisesta.

Stenman S. Tieteellisen artikkelin kuvitus I. Piirrostyypit ja niiden käyttö. Suomen lääkäri-lehti 1995; 50: 4: 379-385.

Stenman S. Tieteellisen artikkelin kuvitus II. Mitä kuuluu kuvioon ja mitä tekstiin. Suomenlääkärilehti 1995; 50: 5: 499-501.

Stenman S. Tieteellisen artikkelin kuvitus III. Tietokonegrafiikan sudenkuoppia. Suomen lää-kärilehti 1995; 50: 6: 629-634.

• Stenmanin artikkelisarja on suositeltavaa luettavaa.

Ohjelmia ja kirjallisuuttaSolas For Missing Data Analysis 1.0. Statistical Solutions. Fax: +358-21-319 630.

http://www.statsol.ie

Tufte ER. The visual display of quantitative information. Cheshire Conn.: Graphics Press,1983.

• Hyvä kirja graafisista esitystavoista.

Biostatistiikan peruskurssi 1999 61 Aineiston kerääminen ja sen alustava käsittely

Page 66: Sisällysluettelo - Terkko · Normanin ja Steinerin ’Biostatistics, The Bare Essentials’ on hauskasti ja selkeästi kirjoitettu kirja. Tekstiä on sopivasti höystetty huumorilla.

Aineiston kerääminen ja sen alustava käsittely 62 Seppo Sarna

Page 67: Sisällysluettelo - Terkko · Normanin ja Steinerin ’Biostatistics, The Bare Essentials’ on hauskasti ja selkeästi kirjoitettu kirja. Tekstiä on sopivasti höystetty huumorilla.

Luottamusväliestimointi

YleistäEstimoinnilla (’estimation’) tarkoitetaan tutkittavan ilmiön kuvaamiseen käytetyn mallin taijakauman sisältämien tuntemattomien suureiden, parametrien, arviointia tutkimusaineiston(otoksen/otosten) perusteella. Estimointitapoja on kahta päätyyppiä

• piste-estimointia (’point estimation’) ja• luottamusväliestimointia (’confidence interval estimation’).

Otossuuretta (’sample statistic’), jolla tuntematonta parametria arvioidaan sanotaan estimaat-toriksi. Samaa parametria voidaan estimoida monella eri estimaattorilla tilanteesta riippuen.Esimerkiksi jakauman keskeisyyttä voidaan arvioida erilaisilla keskiluvuilla (tavallinen arit-meettinen keskiarvo, viritetyt keskiarvot jne.). Estimaatti on otoksen perusteella laskettu esti-maattorin arvo. Se on aina otoskohtainen.

Luottamusvälejä on kahta päätyyppiä, frekventistisiä ja Bayesilaisia välejä.

Olkoon θ (’theta’) tarkasteltavan perusjoukon suure (parametri), jonka luottamusväli halutaanmäärätä. Bayesilaiset välit perustuvat niinkutsuttuihin a priori ja a posteriori todennäköisyys-tiheyksien yhdistelmään. A priori todennäköisyystiheys kuvastaa tutkijan subjektiivista ennak-kokäsitystä parametrin θ arvojen todennäköisyyksistä ennen tutkimusaineiston analysointia,ja a posteriori todennäköisyydet lasketaan tutkimusaineiston perusteella.

Frekventistisen luottamusvälin määritelmä:

Olkoon θ arvioitava tuntematon suure, parametri. Määrätään otoksenperusteella väli [θ1, θ2]n , missä n on otoksen koko siten, että θkuuluu tähän väliin tietyllä todennäköisyydellä 1 − α.Tällaista väliä kutsutaan luottamusväliksi (’confidence interval’,’confidence limits’, CL100 ∗ (1− α)%).

Huom. Luottamusvälin kaikki arvot eivät ole yhtä todennäköisiä! Luottamus-välin keskellä olevat arvot ovat todennäköisempiä kuin sen laidallaolevat. Todennäköisyydet määräytyvät tarkasteltavan suureenotosjakauman perusteella.

Todennäköisyyttä 1− α kutsutaan luottamustasoksi (’confidence level’). Tavallisimmin luotta-mustasoksi valitaan jokin arvoista: 0.90 tai 0.95 tai 0.99. Valinta ei perustu kuitenkaan mihin-kään matemaattiseen tosiseikkaan. Kysymys on siitä, kuinka suuren riskin tutkija johtopäätök-silleen katsoo voivansa ottaa.

Luottamusväli on aina otoskohtainen, otoksen havaintoarvojen funktio. Se pienenee, kun otos-koko n kasvaa, ts. varmuus lisääntyy. Vastaavasti, kun n pidetään vakiona ja luottamustasoa(1− α) kasvatetaan, niin väli pitenee. Esim. 95%:n väli on pidempi kuin 90% väli, kun n pide-tään kiinteänä.

Biostatistiikan peruskurssi 1999 63 Luottamusväliestimointi

Page 68: Sisällysluettelo - Terkko · Normanin ja Steinerin ’Biostatistics, The Bare Essentials’ on hauskasti ja selkeästi kirjoitettu kirja. Tekstiä on sopivasti höystetty huumorilla.

Todennäköisyyden frekvenssitulkinnan mukaisesti n:n havainnon toisto-otoksista lasketuistaväleistä [θ1,θ2]n , joiden pituus vaihtelee otoksesta toiseen, 100 ∗ (1− α)% on sellaisia, että ar-vioitava parametri kuuluu kyseiseen väliin. Toisto-otoksia pitää kuitenkin olla paljon, jottatämä tulkinta pitäisi paikkansa. Tähän frekventistiseen todennäköisyystulkintaan perustuvienluottamusvälien lisäksi on olemassa myös toisen tyyppisiä, nk. Bayesiläisiä välejä.

Luottamusvälit voidaan lisäksi jakaa• tarkkoihin ja• likimääräisiin väleihin

riippuen siitä käytetäänkö välien laskennassa tarkasteltavan suureen tarkkaa vai likimääräistätodennäköisyysjakaumaa.

Luottamusväli antaa enemmän tietoa kliinisissä tutkimuksissa hoitoerosta kuin pelkkä P-arvo.

Esim. Luottamusvälit vastaan merkitsevyystestit. Sepelvaltimotaudin seuran-tatutkimus, Lipid Research Program, 1984. Aineistona 3806 miestä joilla oli korkeat lipidiarvot. Seuranta-aika oli keskimäärin 7.4 vuotta.

Kyseessä oli lumehoitokontrolloitu kaksoissokkotutkimus.

Ryhmät: A. Lumehoito.B. Kolestyramiinilla hoidetut.

Tulos:

A B

Miesten määrä 1900 1906

CHD tapaukset 187 (9.8%) 155 (8.1%)

Ilmoitettu tulos:1. P < 0.05 (yksipuoleinen testi)2. CHD-vaaran reduktio: 100∗( 9.8 − 8.1) ⁄ 9.8 = 17%3. 90% luottamusväli: [3%, 32%]

Vaihtoehtoinen tapa raportoida tulos on ilmoittaa absoluuttinen CHD-vaaran reduktio, eli vaaraero (’absolute risk difference’ ARD), joka määritellään: ARD = vaara1-vaara2, joten

2. CHD vaaran reduktio: 9.8% − 8.1% = 1.7%3. 95% luottamusväli: [-0.1%, 3.5%]

(1. P > 0.05, N.S.)

Hoitokokeissa vaikutuksen arvioimiseksi käytetään usein myös mittaa, joka kuvaa kuinkamonta potilasta täytyy aktiivihoidolla hoitaa, jotta vältettäisiin tapahtuma, joka muuten tapah-tuisi lumehoidolla hoidettuna. Tämä NNT-luku (’number needed to treat’) saadaan kaavalla:NNT = 1/ARD, missä vaara1 on aktiivihoidon vaara ja vaara2 on lumehoidon vaara. Yllä ole-vassa esimerkissä NNT = 1 / 0.017 = 58,8, eli 59 potilasta aktiivihoidolla hoidettuna säästääyhden CHD-kuoleman lumehoitoon verrattuna tai jos hoidetaan 1000 potilasta, niin sääste-tään 17 kuolemantapausta.

Luottamusväliestimointi 64 Seppo Sarna

Page 69: Sisällysluettelo - Terkko · Normanin ja Steinerin ’Biostatistics, The Bare Essentials’ on hauskasti ja selkeästi kirjoitettu kirja. Tekstiä on sopivasti höystetty huumorilla.

NNT-luvulle voidaan laskea helposti myös luottamusväli ottamalla käänteisluku ARD:n luot-tamusvälin ylä- ja alarajoista. Mikäli hoitoefekti ei ole tilastollisesti merkitsevä, eli nolla sisäl-tyy hoitoeron 95%:n luottamusväliin, niin NNT-luvun luottamusvälin kanssa joudutaan tulkin-nallisiin vaikeuksiin; luottamusvälin alaraja olisi negatiivinen (hoidolla haitallinen vaikutus)ja saatu NNT arvio (piste-estimaatti) ei sisälly väliin.

Esim. Lievän hypertension hoitokoe (MRC-tutkimus, 1985).

Tutkimusaineisto: 17 354 potilasta, 85 572 seurantavuottaLopputulosmuuttuja: aivoinfarktien määrä

Terapia Lume Reduktio

60 109 45%

Tulos: CL 95% = [25%, 60%]

Huom. Luottamusväli melko lavea mikä merkitsee, että päättelyyn sisältyyepävarmuutta kun tulos tulkitaan reduktioprosenttina.

Yllä olevien lukujen perusteella saadaan aivoinfarkti-ilmaantuvuudeksi terapiaryhmässä 1.4ja lumeryhmässä 2.6 tuhatta henkilövuotta kohden. Jos näille luvuille lasketaan Poisson-ja-kaumaan perustuvat luottamusvälit, todetaan että 99% luottamustasolla ne eivät mene päällek-käin. Tämä tulos on sopusoinnussa tutkijoiden ilmoittaman P-arvon P < 0.01 kanssa.

Esim. Oraalinen magnesiumhoito hypertensioon. (Cappuccio et al. 1985).

Tutkimusaineisto: 17 potilastaAsetelma: Ristikkäistutkimus, hoitojaksot 1 kk:n mittaisiaAnnos: 15 mmol magnesiumia päivässä

Tutkimuksella pyrittiin näyttämään, ettei hoidolla ole vaikutusta.Tulos: Ei eroa lumehoitoon verrattuna.

Luottamusväli olisi paljastanut tutkimuksen alhaisen voiman. Luottamusväliä ei ilmoitettu!

Esimerkkejä luottamusvälien laskentatilanteista

• Keskiarvot ja niiden erotuksetyksi otoskaksi otosta (riippumattomat, parittaiset)

• Suhdeluvut ja niiden erotuksetyksi otos (eri jakaumat: binomi, poisson, jne.)kaksi otosta (riippumattomat, parittaiset)

• Regressio ja korrelaatioyksi otoskaksi otosta

• Eloonjäämisanalyysityksi suhdelukusuhdelukujen erotukset

Biostatistiikan peruskurssi 1999 65 Luottamusväliestimointi

Page 70: Sisällysluettelo - Terkko · Normanin ja Steinerin ’Biostatistics, The Bare Essentials’ on hauskasti ja selkeästi kirjoitettu kirja. Tekstiä on sopivasti höystetty huumorilla.

• Ei-parametriset analyysityksi otos (mediaani, muut kvarttiilit)kaksi otosta mediaaninen ero (riippumattomat, parittaiset)

Normaalijakaumaan perustuvatluottamusvälit

Monet likimääräisistä luottamusväleistä perustuvat normaalijakaumaan ja lasketaan kaavalla:

θ ± zα∗ SE(θ)

missä θ on piste-estimaatti, SE(θ) sen keskivirhe ja zα normaalijakau-

man prosenttipiste. (esim. 95%:n luottamusvälissä z0.05 = 1.96).

Esim. θ = µ , θ = x_ (keskiarvo)

Keskiarvon keskivirhe (= keskiarvon standardipoikkeama):

SE (x_) = σ

√n , missä n on otoskoko

Esim. θ = Mediaani. Mediaanin keskivirhe:

SE(MED) = X(i) − X(j)

2√3 , missä X(i) ja X(j) ovat i. ja j. arvo järjestetyssä

otoksessa (X(1), X(2), ..., X(n)), kun i ja j määritellään:

i = INT ( n + √3n

2 + 1) , j = INT ( n + √3n

2 − 1)

Huom. Funktio INT( ) toimii siten, että se ottaa suluissa olevasta lausekkeestakokonaisosan; esim. INT(6.8) = 6.

Keskiarvon luottamusväliTärkeimmille tutkimustuloksille, lopputulosmuuttujille, on tapana ilmoittaa piste-estimaatinohella myös luottamusväli. Mikäli kyseessä on jatkuva muuttuja ja sen aritmeettinen keskiar-vo, niin luottamusväli voidaan laskea kaavalla:

x_ ± t α⁄2(n− 1) ∗ SE ( x

_)

missä tα⁄2 (n − 1) on studentin t-jakauman prosenttipiste vapausastein n − 1, x_ on aineistosta

(x1, x2, ..., xn) laskettu keskiarvo ja SE ( x_) =

SD√n

keskiarvon keskivirheen estimaatti (arvio).

Luottamusväliestimointi 66 Seppo Sarna

Page 71: Sisällysluettelo - Terkko · Normanin ja Steinerin ’Biostatistics, The Bare Essentials’ on hauskasti ja selkeästi kirjoitettu kirja. Tekstiä on sopivasti höystetty huumorilla.

Esim. Aineisto: Tietokanta TRIAL. Muuttuja: ’Imag_2’, joka on hypoteettinen laboratoriomittaus hoidon lopussa.

SPSS-ohjelmalla saadaan seuraavat tulokset: keskiarvo = 42.659, keski-hajonta = 23.765, keskivirhe = 3.395, ja 95% luottamusväli: (35.833, 49.485).

Tämän välin laskennassa on käytetty t-jakauman arvoa t0.025 (48) = 2.011, joka saadaan esim. ohjelmalla StaTable.

Mikäli alkuperäistä havaintoaineistoa ei olisi käytettävissä vaan ainoas-taan tunnusluvut: keskiarvo ja keskihajonta, niin luottamusväli voitaisiin laskea ohjelmalla CIA.

Keskiarvojen erotuksen luottamusväliVertailevissa kliinisissä tutkimuksissa hoidon lopputulosta mittaava suure on usein jatkuva jahoitoero ilmoitetaan keskiarvojen erotuksena. Oletetaan, että ryhmät ovat toisistaan riippumat-tomia, eli muodostuvat eri potilaista. Merkitään ryhmäkokoja n1 ja n2 , keskiarvoja x

_1 ja x

_2

sekä keskihajontoja SD1 ja SD2. Muodostetaan yhdistetty (’pooled’) keskihajonta kaavalla:

SD = [(n1 − 1) SD1

2 + (n2 − 1) SD22

n1 + n2 − 2 ]1⁄2

Keskiarvojen erotuksen keskivirhe:

SE (x_

1 – x_

2) = SD ∗ √ 1n1

+ 1n2

Keskiarvojen erotuksen luottamusväli:

(x_

1 − x_

2) ± t α⁄2(n1 + n2 − 2) ∗ SE (x_

1 − x_

2)

missä t α⁄2 (n1 + n2 − 2) on Studentin t-jakauman prosenttipiste ja

α on luottamustaso.

Esim. Aineisto: Tietokanta TRIAL. Muuttuja: ’Imag_2’ sukupuolen ’Sex’ mukaan ryhmitettynä.

SPSS-ohjelmalla saadaan tulokset:

n Keskiarvo SD SE

Miehet 24 39.687 23.203 4.736

Naiset 25 45.512 24.419 4.884

Erotus 49 -5.825 6.8101, 6.8032

1 varianssit oletettu yhtäsuuriksi2 varianssit oletettu erisuuriksi

Biostatistiikan peruskurssi 1999 67 Luottamusväliestimointi

Page 72: Sisällysluettelo - Terkko · Normanin ja Steinerin ’Biostatistics, The Bare Essentials’ on hauskasti ja selkeästi kirjoitettu kirja. Tekstiä on sopivasti höystetty huumorilla.

Huom. Varianssien yhtäsuuruus voidaan testata Levenen mediaanitestillä. Testi antaisi tässä tapauksessa p-arvoksi 0.639, joka on paljon suurempi kuin yleisesti käytetty merkitsevyystaso 0.05, joten varianssit voidaan olettaa yhtäsuuriksi ja käyttää keskivirheenä arvoa 6.810. Tämä tulos oli enna-koitavissa testaamattakin, koska molemmilla tavoilla lasketut keskivirheet ovat niin lähellä toisiaan.

Keskiarvojen erotuksen luottamusväliksi saadaan: (-19.525, 7.878). Luottamusvälin kaavassa esiintyvä t-arvo on tässä tapauksessa t0.025 (47) = 2.0118 (StaTable).

Mikäli kyseessä on toisistaan riippuvat ryhmät 1 ja 2, esimerkiksi samat potilaat ja kaksi ajan-kohtaa, tai kaltaistetut parit joista on mitattu havaintoarvot (x1i, x2i), i = 1, ...n, niin ajankoh-tien välisen muutoksen tai parien välisen erotuksen di = x2i - x1i keskiarvon luottamusväli las-ketaan kuten edellä yhden tutkimusryhmän tapauksessa.

Esim. Aineisto: Tietokanta TRIAL.

Tarkastellaan erotusmuuttujaa Imag_D = Imag_1 - Imag_S, missä Imag_S on mittaus hoidon alussa ja Imag_1 on mittaus viikon kuluttua. SPSS-ohjelmalla saadaan Imag_D:n keskiarvoksi 3.2646 ja keskivir-heeksi 0.9396. n = 48, koska yhdeltä henkilöltä puuttui alkuarvo ja yhdeltä loppuarvo. 95%:n luottamusväliksi keskiarvojen erotukselle tulee: (1.3744, 5.1548).

Mikäli käytettävissä ei olisi alkuperäistä havaintoaineistoa, niin luottamusväli voitaisiin las-kea ohjelmalla CIA.

Mediaanien ja muiden prosenttipisteidenluottamusvälit

Usein kliinisissä tutkimuksissa jakaumat ovat vinoja ja keskilukuna käytetään silloin tavalli-sesti mediaania. Mediaanin luottamusväli voidaan laskea seuraavasti:

Lajitellaan aineisto (x1, ..., xn) nousevaan järjestykseen (x(1), ..., x(n)).Lasketaan luvut r ja s siten, että:

r = n2

− z α⁄2√n2

ja s = 1+ n2

+ z α⁄2√n2

Luottamusväli: CL95%: [x(r), x(s)]

Huom. Kun n < 25 kannattaa käyttää tarkkaa binomijakaumaan perustuvaa väliä.

Esim. Aineisto: Tietokanta TRIAL. Muuttuja: Imag_2. n = 49.

Ohjelmalla SPSS saadaan mediaaniksi 34.2. Ohjelma ei kuitenkaan laske mediaanin luottamusväliä (selvä puute!), joten ainoaksi keinoksi jää käyt-

Luottamusväliestimointi 68 Seppo Sarna

Page 73: Sisällysluettelo - Terkko · Normanin ja Steinerin ’Biostatistics, The Bare Essentials’ on hauskasti ja selkeästi kirjoitettu kirja. Tekstiä on sopivasti höystetty huumorilla.

tää ylläolevaa kaavaa tai CIA-ohjelmaa ja laskea ensin r ja s ja katsoa lajitellusta aineistosta näitä järjestyslukuja vastaavat arvot.

Sijoittamalla ylläolevaan kaavaan n = 49, ja zα⁄2 = 1.96, saadaan r = 17.64 ja s = 32.36, eli pyöristettynä r = 18 ja s = 32. Tämä merkitsee sitä, että mediaanin 95%:n väli on lajitellussa aineistossa 18. ja 32. arvo. Tämä luottamusväli ei ole tarkalleen 95%:n väli vaan tässä tapauksessa 95.6%:n väli.

Ohjelmilla CIA ja MedStat mediaanin luottamusväli voidaan laskea. CIA antaa kaksi vaih-toehtoista laskentatapaa: 1) tietojen suora syöttö tai 2) laskenta pelkän aineistokoon n perus-teella. Tapa 1) on hankala isommissa aineistoissa, koska luvut pitää näpytellä sisään.

Ohjelma antaa kaksi vaihtoehtoista menetelmää luottamusvälin laskemiseksi: binomijakau-maan perustuvan välin ja Wilcoxonin testisuureeseen perustuvan välin.

Imag_2:n mediaanille saadaan binomiaalisella menetelmällä 95.6%:n luottamusväliksi (28.5,46.6) (CIA, MedStat) ja Wilcoxonin menetelmällä 95.1%:n väliksi: (32.3, 48.05).

Muille prosenttipisteille (q) r ja s korvataan arvoilla:

r’ = nq − zα⁄2√ nq (1− q ) ja s’ = 1 + nq + zα⁄2√ nq (1− q )

Esim. Aineisto: Tietokanta Trial. Muuttuja Imag_2. Ylimmän kvarttiilin, 75%-pisteen (q = 0.75) 95%:n luottamusväliksi saadaan ohjelmalla CIA: (41.8, 70.5)

Mediaanien erotuksen luottamusväliOletetaan, että kyseessä on kahden toisistaan riippumattoman ryhmän vertaileva kliininen tut-kimus, jossa hoitoeroa halutaan mitata mediaanierona, esim. jakauman vinoudesta johtuen.Mediaanieroa ja sen luottamusväliä useimmat tilastopaketit (esim. SPSS) eivät laske.

Olkoon (xi1, ..., xin1) ja (xi2, ..., xin

2) tarkasteltavan muuttujan x havaintoarvot ryhmissä 1 ja 2,

joiden koot ovat n1 ja n2.

Mediaaniero ja sen luottamusväli lasketaan seuraavasti:

1. Muodostetaan yhdistetystä aineistosta kaikki mahdolliset x:n havainto- arvojen erotukset di = xi1 - xj2, i = 1, ..., n1 j = 1,...,n2. Näitä erotuksia tulee yhteensä N=n1*n2. 2. Lajitellaan erotukset nousevaan järjestykseen d(1),...,d(N)3. Kaikkien erotusten di mediaani on ryhmien 1 ja 2 välinen mediaaniero.

Mikäli aineistokoko n1 + n2 ≥ 25, mediaanieron luottamusväli saadaan seuraavasti:[d(k), d(n

1 n

2 − k)], missä d(k) on k. pienin ja d(n

1 n

2 − k) on k. suurin erotus ja

Biostatistiikan peruskurssi 1999 69 Luottamusväliestimointi

Page 74: Sisällysluettelo - Terkko · Normanin ja Steinerin ’Biostatistics, The Bare Essentials’ on hauskasti ja selkeästi kirjoitettu kirja. Tekstiä on sopivasti höystetty huumorilla.

luku k saadaan kaavasta: k = Wα⁄2 – n1 (n1 + 1)

2 . Wα⁄2 on Mann-

Whitney:n testisuureen jakauman (100 ∗ α⁄2) prosenttipiste

Ohjelmat: CIA: 8, Medstat: CA

Huom. Parittaisessa tapauksessa voidaan käyttää mediaanin luottamusvälejäerotuksille

Esim. a) Riippumattomat otokset, n1 = n2 = 30, α = 0.05Mediaanipareja on 30 * 30 = 900, k = 318.95% luottamusväliksi saadaan CL95% = [d(318), d(583)]

b) Parittaiset otokset, n = 30, α = 0.05

Mediaanipareja on n (n + 1)

2, eli 465, k* = 138.

95% luottamusväliksi saadaan CL95% = [d(138), d(328)](Wilcoxonin testiin perustuva menetelmä)

Suhdeluvun luottamusväli (tarkka väli)Luottamusvälin laskenta perustuu matemaattiseen yhteyteen binomi- ja F-jakauman välillä.

Tarkastellaan suhdelukua π ja oletetaan, että sille on tutkimusaineiston perusteella laskettu ar-

vio: π = kn

missä k ilmaiseen esim. kuinka monella n:stä henkilöstä on jokin tutkimuksen

kohteena oleva ominaisuus.

Luottamusväli: CL(1− α)% = (πL, πU):

πL = k

k + (n − k + 1) Fα⁄2 (2n − 2k + 2 , 2k )

πU = k + 1

k + 1 + (n − k) 1Fα⁄2 (2k + 2 , 2n − 2k )

Esim. Bakteriurian esiintyvyys synnyttäjilläTutkimusaineisto: n = 196 synnyttäjää, k = 11 bakteeriuriatapaustaPiste-estimaatti: π = 11/196 = 0.056Luottamusväli: CL90% = (πL, πU)

Alaraja: dƒ1 = 2196 – 211 + 2 = 372, dƒ2 = 2k = 22, F0.10/2(, 22) = 1.80⇒ πL = 11/(11 + (196 – 11 + 1) 1.80) = 0.032

Yläraja: dƒ1 = 211 + 2 = 24, dƒ2 = 2196 – 211 = 370, F0.10/2(24, ) = 1.52⇒ πU = (11 + 1)/((11 + 1) + (196 - 11)(1/1.52)) = 0.090

Luottamusväliestimointi 70 Seppo Sarna

Page 75: Sisällysluettelo - Terkko · Normanin ja Steinerin ’Biostatistics, The Bare Essentials’ on hauskasti ja selkeästi kirjoitettu kirja. Tekstiä on sopivasti höystetty huumorilla.

Esim. Kliininen koe, Analgeetit x ja y, 100 potilastaLopputulosmuuttuja: preferenssi lääkkeen suhteenTulos: 65 potilasta preferoi x:ää. Tällöin k = 65 joten π = 0.65 jaCL95%: πL = 65 / (65 + 36 F0.025(68, 130)) = 0.55 πU = 0.74

Suhdelukujen erotuksen luottamusväli

Riippumattomat otokset

Suhdeluvut: p1 = k1

n1 , p2 =

k2

n2

Hoitovaste ∑+ –

Ryhmä 1 k1 n1 – k1 n1

Ryhmä 2 k2 n2 – k2 n2

Luottamusväli:

(p1 − p2) ± zα √ p1 (1 − p1)n1

+ p2 (1 − p2)

n2

Esim. Kaksi hoitoa: 1 ja 2

Hoito Parantui Ei parantunut ∑1 21 8 29

2 12 19 31

Suhdeluvut: p1 = 21/29 = 0.724, p2 = 12/31 = 0.387 , p1 – p2 = 0.337 jaSE(p1 – p2) = 0.121, joten

CL95%: 0.337 – 1.96 * 0.121 = 0.101, 0.337 + 1.96 * 0.121 = 0.573eli (10.1%, 57.3%)

Parittaiset otokset

Käyttö:• kaksi ajankohtaa, samat henkilöt• kaltaistetut parit

Biostatistiikan peruskurssi 1999 71 Luottamusväliestimointi

Page 76: Sisällysluettelo - Terkko · Normanin ja Steinerin ’Biostatistics, The Bare Essentials’ on hauskasti ja selkeästi kirjoitettu kirja. Tekstiä on sopivasti höystetty huumorilla.

Tarkastellaan ominaisuutta, joka on tyyppiä: kyllä, ei

1 2Henkilöidenlukumäärä

Suhdeluvut

Kyllä Kyllä rp1 =

r + snKyllä Ei s

Ei Kyllä tp2 =

r + tnEi Ei u

n

Suhdeluvut ja niiden erotus: p1 = r + s

n , p2 =

r + tn

, p1 − p2 = s − t

n

Erotuksen keskivirhe: SE(p1 − p2) = √s + t − (s − t)2⁄n

n

Luottamusväli erotukselle p1 – p2:

πL = (2∗ AL − 1) (s + t)

n

πU = (2∗ AU − 1) (s + t)

n

missä AL, AU ovat suhdeluvulle s

s + t binomijakauman perusteella lasketun luottamusvälin ala-

ja ylärajat.

Huom. Binomijakauman luottamusvälin kaavassa sijoitetaan k = s ja n = s + t .

Esim. (Gardner & Altman 1989, s. 32)

Aineisto: 35 sairaalassa kuollutta astmapotilasta ja heille valitut ikä-sukupuoli-kaltaistetut elävät parit. Kaikki ovat olleet tehohoidossa.

Tutkimuksen kohde: Monitoroinnin riittämättömyys (kyllä – ei)

Tulos: Raadin suorittama arvio monitoroinnin riittämättömyydestä riippumattakuolintiedosta.

Kuolleet Elävät n

Monitorointi riittämätön

Kyllä Kyllä 10

Kyllä Ei 13

Ei Kyllä 3

Ei Ei 9

Σ = 35

Luottamusväliestimointi 72 Seppo Sarna

Page 77: Sisällysluettelo - Terkko · Normanin ja Steinerin ’Biostatistics, The Bare Essentials’ on hauskasti ja selkeästi kirjoitettu kirja. Tekstiä on sopivasti höystetty huumorilla.

Suhdeluvut: p1 = (10 + 13)

35 = 0.66 , p2 =

(10 + 3)35

= 0.37

π = p1 − p2 = 0.29 , SE(p1 − p2) = √13 + 3 − (13 − 3)2

35 = 0.104

ss + t

= 1313 + 3

= 0.81

CL95% tälle suhdeluvulle on AL = 0.5435, AU = 0.9595 ja näin ollen

Luottamusväli: πL = (2∗ 0.5435 − 1) (13 + 13)

35 = 0.0398

πU = (2∗ 0.9595 − 1) (13 + 3)

35 = 0.420

Lukumäärän luottamusvälitPoisson-jakaumaan perustuva luottamusväli:

Parametri: λ = tapahtumien keskimääräinen lukumäärä / t, missä t on aika- / pinta-ala- / tilavuusyksikkö

Piste-estimaatti: λ = kt ,

missä k on havaittujen tapausten lukumäärä.

λ:n luottamusväli: 100(1 – α)% luottamusväli saadaan χ2 -jakauman prosenttipisteidenperusteella seuraavasti:

Alaraja: λ__ = χ 1 − α⁄2

2 (2k)2

ja yläraja: λ__

= χ α⁄2

2 (2k + 2)2

Suluissa oleva lauseke on vapausasteluku.

Poisson-jakauman luottamusvälit voidaan laskea ohjelmalla CIA:6:5 siten, kohtaan ’Observednumber (O):’ sijoitetaan lukumäärä k ja kohtaan ’Expected number (E):’ luku 1.

Esim. Asbestialtistus ja keuhkosyöpä (Armitage ja Berry 1987, s. 133).• Aineistona suuri joukko työntekijöitä, jotka olivat altistuneet asbestipölylle• Todettiin k = 33 keuhkosyöpäkuolemaa seuranta-aikana• odotusarvo E = 20 (vastaavassa perusjoukossa)

Odotusarvo voi olla laskettu esimerkiksi kaavalla E = Σ ni Ri, missä Ri on keuhkosyöpävaaraperusjoukon (referenssipopulaation) ikäluokassa i, ja ni on kyseiseen luokkaan kuuluvien hen-kilöiden määrä tutkimusryhmässä.

Biostatistiikan peruskurssi 1999 73 Luottamusväliestimointi

Page 78: Sisällysluettelo - Terkko · Normanin ja Steinerin ’Biostatistics, The Bare Essentials’ on hauskasti ja selkeästi kirjoitettu kirja. Tekstiä on sopivasti höystetty huumorilla.

Onko keuhkosyöpäriski lisääntynyt?Nollahypoteesi H0: k = k0 (= E)

Ratk. k = 33, mistä seuraa, että vapausasteet ovat 2k = 66, 2k+2 = 68CL95%: λ__= 45.43 = 22.7 , λ

__= 92.69 = 46.3

(laskettu ohjelmalla MedStat POISSON)

Testi: z = |k − k0| − 1⁄2

√k0

= |33 − 20| − 1⁄2

√20 = 2.80, P = 0.0026

Standardoitu suhde SMR (’Standardized Morbidity Ratio’):SMR = O/E = 33/20 = 1.65

99% luottamusväli: (1.00, 2.54) (laskettu ohjelmalla CIA:6:5)

Lukumäärien suhteen luottamusväliPoisson-jakauman tapauksessa

Käyttötilanne: Vakioitujen ilmaantuvuuslukujen vertailu

Oletetaan, että kA ja kB ovat havaittuja lukumääriä Poisson-jakaumista,joiden odotusarvot ovat λA ja λB

Suhteen R = λA

λB

luottamusväli lasketaan kaavalla:

( RL, RU) = (θL

1 − θL ,

θU

1 − θU)

missä θ = λA

λA + λB

ja (θL, θU) sen binomiaalinen luottamusväli.

Esim. MenA rokotuskoe suomalaisilla 3 kk - 5 v ikäisillä lapsilla vuonna1975 (Heikki Peltola et al., 1977.)

Ryhmä A: nA = 49295, sai MenA-rokotetta (Meningogoccus group A polysaccharide)Ryhmä B: nB = 48977, sai Hib-rokotetta (Haemophilus influenzae type b polysaccharide)Ryhmä C: nC = 31906, ei rokotettu

Tulos: Ensimmäisen seurantavuoden aikana ryhmässä A ei tullut yhtään tapausta, ryhmässä B tuli kuusi, ja ryhmässä C tuli 13 tapausta.

95% luottamusvälit (MedStat POISSON tai CIA:6:5)

A B C

k: 0 6 13

CL95%: (0, 3.7) (2.2, 13.1) (6.9, 22.2)

Luottamusväliestimointi 74 Seppo Sarna

Page 79: Sisällysluettelo - Terkko · Normanin ja Steinerin ’Biostatistics, The Bare Essentials’ on hauskasti ja selkeästi kirjoitettu kirja. Tekstiä on sopivasti höystetty huumorilla.

Ilmaantuvuudet (I) 100000 henkilövuotta kohden, ja niiden 95% luottamusvälit:

A B C

k: 0 12.3 40.7

CL95%: (0,7.5) (4.5, 26.8) (21.6, 69.6)

k:t ja niiden luottamusvälien päätepisteet on kerrottu suhteilla 100000/nA,100000/nB ja 100000/nC

Vertailu ryhmien B ja C välillä:

kB = 6 ja kC = 13, joten θ = kB

kB + kC =

619

= 0.316

Ohjelmalla CIA saadaan: CL95%: (θL, θU) = (0.126, 0.565) CL99%: (θL, θU) = (0.0895, 0.633)

R = kB / kC = 6

13 = 0.4615 ja sen luottamusväli

CL95%: (RL, RU) = ( 0.1261 − 0.126 ,

0.5651 − 0.565) = (0.14, 1.30)

CL99%: (RL, RU) = (0.10, 1.72)Koska ryhmäkoot eroavat, on sekä R että sen luottamusväli kerrottava

suhteella nCnB

= 3190648977 ja siten saadaan korjatuksi arvoksi R∗ = 0.3007

CL95%: (RL∗ , RU∗) = (0.0937, 0.8478)

CL99%: (RL∗ , RU∗) = (0.0651, 1.1205)

Johtopäätös: Koska luku 1 ei sisälly 95% luottamusväliin, mutta sisältyy 99% luot-tamusväliin, todetaan että myös ryhmässä B on MenA:n aiheuttamia aivokalvontulehduksia tilastollisesti merkitsevästi vähemmän kuin rokottamattomien ryhmässä (0.01 < P < 0.05).

StatXact 4 ohjelmalla saadaan täsmälleen sama korjattu vaarasuhde ja sen 95% luottamusväli kuin yllä. 99% väliä StatXact ei laske. StatXact antaa tarkaksi p-arvoksi joko 0.0164 tai 0.0202 menetelmästä riippuen.

Jos vaarasuhde käännetään, saadaan RC/A = 3,326, joten rokottamatto-milla on noin kolminkertainen vaara saada MenA:n aiheuttama aivo-kalvon tulehdus Hib-rokotetta saaneisiin verrattuna.

Luottamusvälit preferensseilleRistikkäistutkimusasetelma:

• hoidot A ja B• potilaiden määrä n

Biostatistiikan peruskurssi 1999 75 Luottamusväliestimointi

Page 80: Sisällysluettelo - Terkko · Normanin ja Steinerin ’Biostatistics, The Bare Essentials’ on hauskasti ja selkeästi kirjoitettu kirja. Tekstiä on sopivasti höystetty huumorilla.

Hoito Lukumäärä

A parempi a

B parempi b

Yhtä hyviä n – (a + b)

Σ = n

Erotus: |a − b|

n

95% -luottamusväli CL95%: |a − b|

n ± 1.96 √a + bn

Testi: z = |a − b|

√ a + b

Esim. a = 3, b = 13, n = 40a − b

n = 25%

z = 2.50, P = 0.0248 (kaksipuoleinen)

CL95%: (5.4%, 44.6%)

Multinomijakaumaan perustuvaluottamusväli

Käyttötilanne: Multinomijakaumaan perustuvaa luottamusväliä tarvitaan kun loppu-tulosmuuttuja on s-luokkainen ja saa arvot x1, x2, ..., xs . Merkitäänvastaavia koodeja: l1, l2, ..., ls

Esim. s = 3, x1 = ’parempi’, x2 = ’ennallaan’, x3 = ’huonompija näitä x:n arvoja vastaavat koodiarvot l1 = + 1, l2 = 0, l3 = – 1

• Aineisto: n potilasta• Lopputulosten suhteelliset osuudet: (p1, p2, ..., ps) = (n1⁄n, n2⁄n, ..., ns⁄n)

• Lopputulos on summapistemäärä: L = n ∑ i = 1

s

pi li = ∑ i = 1

s

ni li

• L:n luottamusväli: L ± √ χ s−12 (α) √∑ pi li

2 − [ ∑ pi li]2 √n

• α on riskitaso ja s – 1 on vapausaste

Esim. Reumakipujen analgeettihoito (Isomäki et al. 1984).• Koeasetelma: Kaikki kaikkia vastaan satunnaistetussa järjestyksessä ja kääntäen.• 90 potilasta ja 90 vertailua.• Lopputulos parhaan lääkkeen osalta: (n1, n2, n3) = (11, 4, 3)• L = 11*(+1) + 4*(0) + 3*(-1) = 8• Luottamusväli CL95%: (0.070, 15.93)

Luottamusväliestimointi 76 Seppo Sarna

Page 81: Sisällysluettelo - Terkko · Normanin ja Steinerin ’Biostatistics, The Bare Essentials’ on hauskasti ja selkeästi kirjoitettu kirja. Tekstiä on sopivasti höystetty huumorilla.

Eksponenttijakaumaan perustuvaluottamusväli

Eksponenttijakauma yksi tavallisimmista elossaolotutkimuksissa käytetyistä todennäköisyys-jakaumista. Siihen perustuvaa parametrista mallia voidaan käyttää mikäli on perusteltua olet-taa, että vaarafunktio h(t) (’hazard function’) on vakio λ yli koko tarkasteltavan aikavälin. Pa-rametrille λ (’hazard rate’) voidaan laskea 95% luottamusväli logaritmimuunnoksen avulla si-ten, että ensin lasketaan väli:

(loge λ − 1.96 ∗ SE (loge λ), loge λ + 1.96 ∗ SE (loge λ))

Logaritmimuunnosta kannattaa käyttää siksi, että loge λ noudattaa paremmin normaalija-

kaumaa kuin λ. Ylläolevassa kaavassa SE (loge λ) = 1

√d, missä d on tapahtumien määrä seu-

ranta-aikavälillä. Parametrin λ väli saadaan ottamalla eksponenttimuunnos (exp(.)), eli logarit-mifunktion käänteismuunnos, ylläolevan välin päätepisteistä. Parametrin λ luottamusvälin pe-rusteella voidaan laskea luottamusväli elossaolotodennäköisyyksille: S(t) = exp (−λ * t).

Esim. Paksunsuolen syöpätutkimus (McIllmurray ja Turkie 1987)

Seurattavia potilaita oli 24, joista 12 henkilöä kuoli 4:n vuoden seuran-nan aikana. kuolleilla yhteenlaskettu seuranta-aika oli 180 kk ja elossa-olevilla 251 kk, joten kokonaisseuranta-aika oli 431 kk. Parametrille λ saadaan siten arvio: λ = 12/431 = 0.0278, joten loge λ = −3.5827. Sijoit-tamalla tämä arvo ylläolevaan kaavaan, saadaan väli (-4.1485, -3.0169). Ottamalla eksponenttimuunnos välin päätepisteistä saadaan: exp(-4.1485) = 0.0158, exp(-3.0169) = 0.0490 λ:n 95%:n luottamusväliksi.

Huom. Tämä väli ei ole symmetrinen piste-estimaatin λ = 0.0278 suhteen.

Jos halutaan tarkastella elossaolotilannetta vuoden kohdalla, S(t):n lau-sekkeeseen sijoitetaan t = 12 ja λ:lle arvot 0.0278, 0.0490, 0.0158. Tällöin S(12) = 0.7163 ja 95%:n luottamusväliksi saadaan (0.5554, 0.8273). Eli elossaolevien odote on 72% ja 95%:n varmuudella elossaolevien määrä on välillä (56%,83%).

Huom. Johtuen negatiivisesta eksponentista S(t):n lausekkeessa λ:n alarajan perusteella on laskettu S:n yläraja.

Biostatistiikan peruskurssi 1999 77 Luottamusväliestimointi

Page 82: Sisällysluettelo - Terkko · Normanin ja Steinerin ’Biostatistics, The Bare Essentials’ on hauskasti ja selkeästi kirjoitettu kirja. Tekstiä on sopivasti höystetty huumorilla.

Altistus- ja vaarasuhteen luottamusvälitTapaus-verrokkiasetelmassa käytetään taudin ja altisteen välisen riippuvuuden mittana altis-tussuhdetta (’odds ratio’, OR), josta käytetään myös nimitystä ristitulosuhde sen laskentata-vasta johtuen. Oletetaan, että tulokset on esitetty seuraavasti:

Tauti

Tapaukset Verrokit

Altistekyllä a b a + b

ei c d c + d

Tällöin OR määritellään suhteena: OR = a ∗ db ∗ c

OR:n 95% luottamusväli lasketaan loge(OR):n luottamusvälin avulla seuraavasti:

CI95% = eloge (OR) ± 1.96 ∗ SE (log e (OR)) missä SE (loge (OR)) = √1⁄a + 1⁄b + 1⁄c + 1⁄d

Mikäli tauti on harvinainen (ilmaantuvuus alle 10%), OR:n avulla voidaan arvioida myös vaa-rasuhdetta (RR). Luotettavimmin vaarasuhde arvioidaan kuitenkin seurantatutkimuksista.Vaarasuhteen luottamusväli voidaan laskea seuraavasti:

a) Ilmaantuvuustiedot

Altistuneet Altistumattomat ΣTapaukset a b m1

Henkilövuodet n1 n0 t

b) Kumulatiivinen ilmaantuvuus tai vallitsevuus

Altistuneet Altistumattomat

Tapaukset a b m1

Muut c d m0

Σ n1 n0 t

Vaarasuhteen arvio: RR = a⁄n1

b⁄n0

Testi a): χ = a −

m1n1

t

√ m1n1n1

t2

(binomijakauma)

Luottamusväliestimointi 78 Seppo Sarna

Page 83: Sisällysluettelo - Terkko · Normanin ja Steinerin ’Biostatistics, The Bare Essentials’ on hauskasti ja selkeästi kirjoitettu kirja. Tekstiä on sopivasti höystetty huumorilla.

Testi b): χ = a −

m1n1

t

[m1m0n1n0

t2 (t − 1) ]1⁄2 (hypergeometrinen jakauma)

Luottamusväli: RR___ = RR1 −

χ , RR

___ = RR

1 +

χ

ViitteetArmitage P & Berry G. Statistical methods in medical research, second edition, Blackwell

Scientific Publications, 1987.

Cappuccio FP et al. Lack of the effect of oral magnesium on high blood pressure. A doubleblind study. BMJ 291: 235-8, 1985

Gardner MJ & Altman DG. Statistics with confidence - Confidence intervals and statisticalguidelines. BMJ, Lontoo 1989. Hinta £19.

Isomäki H, Martio J, Kamela K et al. Comparison of analgesic effect of ten nonsteroidal anti-inflammatory drugs. Br J Rheumatol 23: 61-65, 1984.

Lipid Research Clinics Program. The lipid research clinics coronary prevention trial results.JAMA; 251: 351-74, 1984.

McIllmurray MB, Turkie W. Controlled trial of gamma linolenic acid in Dukes’ C colorectalcancer BMJ 294:1260, 295:475, 1987.

Medical Research Council Working Party. MRC trial of treatment of mild hypertension. BMJ291: 97-104, 1985.

Peltola H, Mäkelä PH, Käyhty H et al. Clinical Efficacy of Meningococcus Group A CapsularPolysaccharide Vaccine in Children Three Months to Five Years of Age. N Eng J Med297: 686-691, 1977.

OhjelmiaCIA (Confidence Interval Analysis). Gardner MJ, Gardner SB, Winter PD. CIA (Versio 0.5).

BMJ, Tavistock Square, London WC1H 9JR. Hinta £50.

Biostatistiikan peruskurssi 1999 79 Luottamusväliestimointi

Page 84: Sisällysluettelo - Terkko · Normanin ja Steinerin ’Biostatistics, The Bare Essentials’ on hauskasti ja selkeästi kirjoitettu kirja. Tekstiä on sopivasti höystetty huumorilla.

Luottamusväliestimointi 80 Seppo Sarna

Page 85: Sisällysluettelo - Terkko · Normanin ja Steinerin ’Biostatistics, The Bare Essentials’ on hauskasti ja selkeästi kirjoitettu kirja. Tekstiä on sopivasti höystetty huumorilla.

Tilastollisten testien valinta jatoteuttaminen

Hypoteesien testaaminenHypoteesien testaamisessa voidaan erottaa kaksi perustyyppiä:

• yksi testattava suure• simultaaniset testaukset; monta samanaikaisesti testattavaa suuretta

Hypoteesien testauksessa on kyse valinnasta kahden toisensa poissulkevan hypoteesin välillä:• nollahypoteesi (H0 , ’null hypothesis’)• vaihtoehtoinen hypoteesi (HA , ’alternative hypothesis’)

Esim. Onko uuden hoidon A ja perinteisen hoidon B välillä eroa tehon suhteen?

Nollahypoteesi: Ei ole eroa,Vaihtoehtoinen hypoteesi: On eroa.

Tämä päättelyprosessi päätyy ratkaisuun, joka on kaksiarvoinen: a) joko siten, että katsotaantutkimuksen antavan näyttöä hoitoeroista, jolloin päätetään hyväksyä vaitoehtoinen hypoteesitai b) siten, että tutkimuksen perusteella ei saada riittävää näyttöä hoitoeroista, eli nollahypo-teesi jää voimaan. H0:a ei voida koskaan tilastollisin keinoin todistaa oikeaksi. Oikea johto-päätös päädyttäessä siihen, että H0 jää voimaan, on esimerkiksi "tutkimuksessa ei voitu osoit-taa hoitojen A ja B välille tilastollisesti merkitsevää eroa."

HA voi olla joko kaksi- tai yksisuuntainen; ’on eroa’ tai ’on ero johonkin tiettyyn suuntaan’.Valtaosassa kliinisiä vertailevia tutkimuksia vaihtoehtoinen HA on kaksisuuntainen, koska etu-käteen ei voida olla täysin varmoja, etteikö jokin tietty hoito voisi olla esim. lumehoitoa hai-tallisempikin, ainakin jossakin tutkimuksen kohteeksi valitussa potilasjoukossa. Yksisuuntais-ta testausta käytetään mm. bioekvivalenssitutkimusten yhteydessä testattaessa siirrettyä nolla-hypoteesia (’shifted null hypothesis’). Siirron määrää tällöin tutkijan määrittelemäbioekvivalenttisuuden raja-arvo. Yksisuuntaista testausta voidaan käyttää myös silloin, hypo-teesin toinen suunta ei ole mielekäs tai testauksen kannalta relevantti. Esim. aiheuttaako run-sas kännykän käyttö aivotoiminnan häiriöitä? Joskus yksisuuntaista testausta näkee selvästikäytettävän siitä syystä, että kaksisuuntainen testi ei ole antanut tilastollisesti merkitsevää tu-losta (P < 0.05). Tämä menettely on luonnollisesti vastoin tieteen sääntöjä. Yksinkertaista jayleispätevää ohjetta yksi- tai kaksisuuntaisen testin käytöstä ei kuitenkaan voi antaa. Taloudel-liset syyt saattavat puoltaa yksisuuntaisen testin käyttöä, koska silloin selvitään paljon pienem-mällä potilasmäärällä.

Käytännössä tilastollinen testaus ei anna koskaan täysin varmaa päätöstä kumpaankaan suun-taan, vaan päätökesiin sisältyy virhemahdollisuus. Virheitä on kahta tyyppiä:

• α -virhe, hylkäämisvirhe, eli I-lajin virhe: H0 hylätään, vaikka se todellisuudessapitää paikkansa. Syynä voi olla esimerkiksi sattuma tai väärä testi.

Biostatistiikan peruskurssi 1999 81 Tilastollisten testien valinta ja toteuttaminen

Page 86: Sisällysluettelo - Terkko · Normanin ja Steinerin ’Biostatistics, The Bare Essentials’ on hauskasti ja selkeästi kirjoitettu kirja. Tekstiä on sopivasti höystetty huumorilla.

• β-virhe, hyväksymisvirhe, eli II-lajin virhe: H0 jää voimaan, vaikka se onkin vääräja pitäisi siten hylätä. Syynä voi olla riittämätön aineistokoko tai väärä testi.

α-virhe on sama kuin tilastollinen merkitsevyystaso (’statistical significance level’). α-virhevoi olla yksi- tai kaksisuuntainen. Aineistokoolla ei ole vaikutusta α-virheen esiintymismah-dollisuuteen. Testin voimakkuus on β-virheen funktio 1 − β. Se arvioidaan ensisijaisesti tutki-muksen suunnitteluvaiheessa tai toissijaisesti tutkimustulosten luotettavuutta tarkasteltaessa.β-virhe on aina yksisuuntainen.

Edellä esitetyssä hoitokokeiluesimerkissä päätöksentekoon liittyvät virheet voidaan esittääseuraavanlaisena nelikenttänä:

Todellinen tilanne:Hoitoero

Kyllä Ei

Päätöstutkimuksenperusteella

H0 hylätään ja hyväksytään HA

’hoitoeroa on’

Voima1 − β

I-lajin virheα

H0:a ei voi hylätä,’ei hoitoeroa’

II-lajin virheβ 1 − α

Kun testattavassa suureessa, esimerkiksi kliinisten vertailtavien tutkimusten lopputulosmuut-tujassa, todetaan ero, se voi johtua

• satunnaisvaihtelusta,• satunnaisvaihtelusta ja hoitoerosta, tai• satunnaisvaihtelusta ja harhasta

Tilastollisessa tutkimuksessa pyritään tutkimaan voiko todettu ero selittyä satunnaisvaihtelul-la. Harhan mahdollisuuksia pyritään välttämään mm. valitsemalla vertailuryhmä oikein.

MonivertailutTavallisesti monivertailutilanteessa ollaan, jos on monta hoitoa, monta lopputulosmuuttujaa,toistomittauksia, osaryhmäanalyysejä, tai välianalyysejä. Merkitään K:lla vertailujen lukumää-rää, α:lla sitä merkitsevyystasoa, jolla tutkimus aiotaan toteuttaa ja α*:llä todennäköisyyttävirheellisesti hylätä ainakin yksi kaikista mahdollisista nollahypoteeseista.

Jos vertailut ovat toisistaan riippumattomia vallitsee α:n ja α*:n välillä yhteys seuraavasti:

α* = P(’monivertailussa ainakin yksi merkitsevä tulos vaikka H0 on tosi’)= 1 − P (hyväksytään kaikki H0:t | kaikki H0:t ovat tosia)= 1 − (1 − α)K

Esim. K lopputulosmuuttujaa, merkitsevyystaso α = 0.05.Sijoittamalla yllä olevaan kaavaan K = 1, 2, ..., 10 saadaan

Tilastollisten testien valinta ja toteuttaminen 82 Seppo Sarna

Page 87: Sisällysluettelo - Terkko · Normanin ja Steinerin ’Biostatistics, The Bare Essentials’ on hauskasti ja selkeästi kirjoitettu kirja. Tekstiä on sopivasti höystetty huumorilla.

K α* K α*

1 0.05 6 0.26

2 0.10 7 0.30

3 0.14 8 0.34

4 0.19 9 0.37

5 0.23 10 0.40

Taulukosta voitaan todeta, että α-virheen mahdollisuus kasvaa nopeasti lopputulosmuuttujienlukumäärän lisääntyessä. Kun α on pieni, niin (1 − α)K ≈ 1 − Kα. Sijoittamalla tämä edelläolevaan kaavaan todetaan, että α* = Kα. Jos halutaan säilyttää monivertailutilanteessa alku-peräinen merkitsevyystaso, pitäisi P-arvoja verrata tasoon, joka on jaettu vertailujen lukumää-rällä. Tämä niinsanottu Bonferroni-korjaus korjaa liikaa eli on konservatiivinen, koska loppu-tulosmuuttujat yleensä käytännössä korreloivat keskenään, jolloin edellä oleva α:n ja α*:n vä-linen yhteys pidä paikkansa.

Ainoa oikea tapa käsitellä monivertailuongelmaa on käyttää sellaisia tilastollisia menetelmiäja testejä, jotka on suunniteltu tähän tarkoitukseen: toistomittausten ANOVA, Friedmanin tes-ti, Cochranin Q-testi, erilaiset monivertailutestit.

Kliinisten tutkimusten suunnitelmissa tulisi ilmoittaa mahdollisimman tarkasti, mitä hypo-teeseja on tarkoitus testata ja kuinka testit tai erilaiset vertailut tullaan suorittamaan (suunnitel-lut vertailut, ’ad hoc comparisons’). Usein varsinaisten hypoteesien lisäksi tutkimusprosessinanalyysivaiheessa kehitellään lisähypoteeseja, valitaan niihin soveltuvat testit ja vertailutavat(jälkikäteisvertailut, ’post hoc comparisons’). Nämä testaukset tulkitaan kuitenkin suoritetuntutkimuksen kannalta toisarvoisiksi. Lähinnä niillä on merkitystä jatkotutkimusten kehittelynkannalta.

Parametrinen ja ei-parametrinen testiParametrinen testi (’parametric test’) perustuu johonkin teoreettiseen malliin ja sen sisältämi-en tuntemattomien parametrien arvioimiseen tutkimusaineiston perusteella. Esimerkiksi t-testion parametrinen testausmenetelmä, joka perustuu Studentin t-jakaumaan.

Ei-parametrinen testi (’non-parametric test’) ei perustu mihinkään jakaumaoletuksiin, vaansiinä tarvittavat suureet lasketaan suoraan havaintoaineistosta esim. muodostamalla suhdelu-kuja, niiden tuloja jne. (esim Kaplan-Meier -menetelmä) tai muodostamalla järjestyslukujasekä niiden perusteella johdettuja suureita (esim. Wilcoxon-Mann-Whitney’n testisuure). Ei-parametrisia menetelmiä käytetään etenkin pienissä ja/tai hankalissa havaintoaineistoissa,esim. kun aineisto sisältää poikkeavia havaintoarvoja.

Ei-parametristen testausmenetelmien voima on lähes sama (noin 95%) kuin parametristen me-netelmien silloin, kun parametristen menetelmien käyttöedellytykset ovat voimassa.

Biostatistiikan peruskurssi 1999 83 Tilastollisten testien valinta ja toteuttaminen

Page 88: Sisällysluettelo - Terkko · Normanin ja Steinerin ’Biostatistics, The Bare Essentials’ on hauskasti ja selkeästi kirjoitettu kirja. Tekstiä on sopivasti höystetty huumorilla.

Ei-parametristen menetelmien käyttöindikaatioita ovat

• mittaukset järjestysasteikolla• aineisto pieni (alle 20)• jakaumat monihuippuisia ja/tai epäsymmetrisiä.

P-arvon käyttöön liittyviä rajoitteita jaongelmia

P-arvon määrittely edellyttää käsitteiden testisuure ja sen otosjakauma määrittelyä. Testisuu-reella tarkoitetaan mitä tahansa nollahypoteesin testaamiseen käytettyä otossuuretta, otoksenhavaintoarvojen funktiota. Testisuureen otosjakauma on kaikkien mahdollisten testisuureensaamien arvojen muodostama jakauma.

P-arvo määritellään seuraavasti: Se on testisuureen otosjakauman perusteella laskettu toden-näköisyys saada lopputulos, joka on vähintään yhtä harvinainen (epätodennäköinen) kuin tut-kimuksessa saatu lopputulos edellyttäen, että H0 pitää paikkansa (on tosi).

P-arvoja on lääketieteellisissä julkaisuissa käytetty ylikorostuneesti ja niiden käyttöön on liit-tynyt paljon mystiikkaa ja harhakäsityksiä. Näihin asioihin on viime vuosina kiinnitetty tie-teellisten lehtien toimituksissa ja tutkijoille suunnatuissa kirjoitusohjeissa erityistä huomiota.

P-arvo ei suoranaisesti liity aineistokokoon; pieni P-arvo voidaan saavuttaa niin pienessä kuinsuuressakin tutkimuksessa. Kliinisissä tutkimuksissa mm. hoitoero on ratkaisevassa asemas-sa. Pienen eron löytäminen edellyttää yleensä isoa aineistoa. Suuri ero voidaan sen sijaan to-deta pienemmälläkin aineistolla (ks. luku aineistokoon arviointi). Millään tilastollisella testilläei kuitenkaan yleensä saavuteta maagisena pidettyä tasoa P < 0.05, jos ryhmäkoko jää allekuuden. Oikein pienillä aineistoilla kannattaa yleensä käyttää satunnaistamis- eli permutaa-tiotestejä (esimerkiksi StatXact4).

Jonkin todetun eron biologinen tai lääketieteellinen merkitsevyys on eri asia kuin tilastollinenmerkitsevyys. Tästä syystä artikkeleissa kannattaa käyttää jälkimmäisestä termiä ’statisticallysignificant’. Kliinisen merkitsevyyden arviointia helpottaa, kun ei tyydytä pelkkään P-arvoon,vaan keskeisimmille lopputulosmuuttujille lasketaan myös luottamusvälit. Vaikka P-arvo eiantaisikaan esim. ryhmien välille tilastollisesti merkitsevää hoitoeroa, niin luottamusväli voipaljastaa, että käytännön kannalta eroa saattaisi olla, mikä näkyy esim. välin kapeutena ja sel-vänä epäsymmetrisyytenä nollan suhteen. Isoilla aineistoilla kliinisesti merkityksettömätkinerot saattavat tulla tilastollisesti erittäin merkitseviksi, esim. P < 0.0001.

Vakiintunut käytäntö vetää tilastollisesti merkitsevän ja ei-merkitsevän (’non-significant’) tu-loksen raja tasolle 0.05 ei perustu mihinkään matemaattiseen tosiseikkaan. Se on täysin keino-tekoinen valinta ja aiheuttaa paljon harhakäsityksiä. Esim. tutkija saattaa raportoida P-arvoon0.051 päätyneen tuloksen tilastollisesti ei-merkitsevänä, kun taas joku toinen tutkija samankal-taisesta tutkimuksesta saamansa tuloksen P = 0.049 tilasollisesti merkitseväksi. Jos tutkijateivät ilmoita P-arvoa, niin lukijalla ei ole mahdollista arvioida tulosten merkitystä. Koko tilas-tollisen testauksen periaatteet on täysin väärin ymmärretty, mikäli näillä kahdella tuloksellakatsottaisiin olevan jotain eroa käytännön kannalta. On syytä muistaa, että eri ohjelmienkin

Tilastollisten testien valinta ja toteuttaminen 84 Seppo Sarna

Page 89: Sisällysluettelo - Terkko · Normanin ja Steinerin ’Biostatistics, The Bare Essentials’ on hauskasti ja selkeästi kirjoitettu kirja. Tekstiä on sopivasti höystetty huumorilla.

tuottamat P-arvot samasta testistä voivat vaihdella jonkin verran, ja joskus jopa paljonkin, riip-puen siitä, minkälaista laskenta-algoritmia mikäkin ohjelma käyttää.

Käsitteitä melkein merkitsevä (’almost significant’), merkitsevä (’significant’) ja erittäin mer-kitsevä (’highly significant’) ei nykysuositusten mukaan tulisi käyttää. Ne ovat peräisin taulu-koiden laadinnasta ja antavat P-arvon luonteesta väärän kuvan. Useimmissä tilanteissa P-arvokannattaa antaa ns. tarkkana, siten että siinä on korkeintaan neljä desimaalia ja kaksi merkitse-vää numeroa, esim. P = 0.0032, P = 0.0002 tai P < 0.0001. Tätä pienemmät P-arvot eivätole mielekkäitä, koska P-arvo liittyy vain α-virheeseen. Jonkin geneettisen ominaisuudenesiintymistodennäköisyys voisi olla 3.2*10-6 (eli 3.2/1 000 000). P-arvon kohdalla näin pieniarvo ei anna enempää varmuutta H0:n oikeellisuudesta kuin mitä arvo 0.0001 antaisi.

P-arvo on laskettu ehdolla, että H0 on tosi, eli kyseessä on ehdollinen todennäköisyysP (T | H0), missä T on tutkimuksen lopputulos. Samaan lopputulokseen T voidaan kuitenkinpäätyä monien muidenkin hypoteesien kuin H0:n vallitessa. Mikäli olisikin niin H0:n asemestajokin vaihtoehtoisista hypoteeseista H1 olisikin tosi, niin saataisiin aivan eri P-arvoja. P-arvovastaa itse asiassa aivan eri kysymykseen, mihin tutkija toivoisi ja usein luulee sen vastaavan.Tutkija tavoittelee yleensä todennäköisyyttä P (H0 | T), eli että onko H0 tosi sen tiedon perus-teella, mitä tutkimuksen lopputulos (T) tuotti. Tähän p-arvo ei vastaa. TodennäköisyydetP (T | H0) ja P (H0 | T) voivat olla hyvinkin erilaisia. Andersen (1984) esittää kirjassaan esi-

merkin: T=kuume, H0=umpisuolen tulehdus, P (H0 | T) voisi olla 0.01 ja P (T | H0) luokkaa0.50, joten melkoinen ero.

Eholliset todennäköisyydet P (H0 | T) ja P (T | H0) voidaan liittää toisiinsa kaavalla:

P (H0 | T) = P (H0) ∗ P (T | H0)

P (T)

Tämä on niinsanottu Bayesin kaava. H0:n paikkaansapitävyyttä ilmaiseva todennäköisyys eh-dolla, että tutkimuksessa on saatu lopputulos T on siten suoraan verrannollinen nollahypotee-sin a priori todennäköisyyteen P(H0) ja P-arvoon. A priori todennäköisyys P(H0) perustuu tut-kimuksen ulkopuoliseen ennäkkotietoon. Yllä olevaan kaavaan perustuvat Bayesiläiset mene-telmät eivät ainakaan toistaiseksi ole saavuttaneet suurta suosiota kliinisissä tutkimuksissa.P(H0):n arviointia on pidetty liian subjektiivisena. Toisaalta esim. aikaisemmista vastaavistatutkimuksista saatavan a priori tiedon hyödyntämättä jättäminenkin, kuten P-arvon laskemi-sessa tapahtuu, ei ole korrektia.

Tilastollisten testien valintaperusteetTilastollisten testien valintapäätös on yleensä melko monitahoinen asia. Testi tulisi valita si-ten, että se on riittävän herkkä toteamaan eroja jos niitä on olemassa, mutta toisaalta se ei saisiolla myöskään liian optimistinen. Ainakin alla esitettyihin asioihin pitää ottaa kantaa sopivaatestiä mietittäessä:

Biostatistiikan peruskurssi 1999 85 Tilastollisten testien valinta ja toteuttaminen

Page 90: Sisällysluettelo - Terkko · Normanin ja Steinerin ’Biostatistics, The Bare Essentials’ on hauskasti ja selkeästi kirjoitettu kirja. Tekstiä on sopivasti höystetty huumorilla.

• Aineiston rakenne/testausasetelmaRiippumattomat (’independent’) otokset/ryhmät’Unpaired/unmatched design’Riippuvat (’related’, ’dependent’) otokset/ryhmätRiippumattomat kaltaistetut (’matched’) otokset

• Mitta-asteikkoVälimatka/suhdeasteikkoJärjestysasteikkoLaatueroasteikkoBinomiaalinen asteikko

• Otosten/ryhmien lukumääräYksiKaksiYli kaksi

• Testauksen tarkoitusHeterogeenisuusTrendiAssosiaatio

• Aineiston koko’Kohtalainen’ (yli 30 ryhmää kohden)’Pienehkö’ (10-30 ryhmää kohden)’Pieni’ (alle 10 ryhmää kohden)

• JakaumaNormaali/log-normaaliBinomiPoisson

Monissa tilastopaketeissa on sisäänrakennettuna ohjelmamoduuleja (’statistical adviser’, ’sta-tistical navigator’, ’tutor’, ’guide’, ’wizard’), jotka avustavat tutkijaa testi- tai menetelmävalin-noissa. Nämä ohjelmien valikot tai niiden esittämät kysymykset perustuvat mm. yllä esitettyi-hin valintaperusteisiin. Lisäksi usein niissä kerrotaan testien ja menetelmien käyttöedellytyk-sistä.

Seuraavissa taulukoissa on esitetty kliinisten tutkijoiden tavallisimmin käyttämiä perustestejäasteikkotyypeittäin eri testausasetelmissa.

Tilastollisten testien valinta ja toteuttaminen 86 Seppo Sarna

Page 91: Sisällysluettelo - Terkko · Normanin ja Steinerin ’Biostatistics, The Bare Essentials’ on hauskasti ja selkeästi kirjoitettu kirja. Tekstiä on sopivasti höystetty huumorilla.

1 muuttuja, 1 otos, 1 tai 2 ajankohtaa

Asteikko Testausasetelma Testi

Välimatka tai suhde

Otoksen tunnusluvun tai malliinliittyvän parametrin testaaminen

z-testi

t-testi

Muutos, iso otos, 2 ajankohtaa parittainen t-testi

Muutos, pieni otos, 2 ajankohtaa satunnaistamistesti

Muutos, pieni otos, kaltaistetut paritFisherin

satunnaistamistesti

YhteensopivuusKolmogorov-

Smirnovin testi

Normaalisuus Shapiro-Wilkin W-testi

Järjestys

SatunnaisuusBinomitesti

’Runs’-testi

MuutosWilcoxonin

parittainen testi*

Yhteensopivuus

Kolmogorov-Smirnovin testi

Hodges-Lehmanninmediaanien

luottamusvälit

Laatuero

Otoksen tunnusluvun testaus

binomitesti

Poissontesti

χ2 -testi

Muutosten heterogeenisuus,2×2 taulukko

McNemarin testi

Muutosten heterogeenisuus,k×k taulukko (k ≥ 2)

’Marginal Homogeneity test’

= Yleistetty McNemar

Heterogeenisuus, kaltaistetut parit Bowkerin testi

*Testi tunnetaan myos nimillä ’parittainen rank-sum’, ’Wilcoxon-Pratt’ sekä ’Wilcoxon signed rank’ -testi

Biostatistiikan peruskurssi 1999 87 Tilastollisten testien valinta ja toteuttaminen

Page 92: Sisällysluettelo - Terkko · Normanin ja Steinerin ’Biostatistics, The Bare Essentials’ on hauskasti ja selkeästi kirjoitettu kirja. Tekstiä on sopivasti höystetty huumorilla.

1 muuttuja, 2 toisistaan riippumatonta otosta

Asteikko Testausasetelma Testi

Välimatka tai suhdeHeterogeenisuus, pienet otokset

Fisher-Pitmaninpermutaatiotesti

(satunnaistamistesti)

Heterogeenisuus, keskiarvojen ero,suuret otokset

t-testi

Järjestys

Heterogeenisuus,mediaanien ero

Wilcoxonin testiriippumattomille

otoksille eli Mann-Whitneyn U-testi

Heterogeenisuus,järjestetyt kategoriat

kontingenssi-taulukkotesti

Ositetut 2×c taulukot

’Wilcoxonin rank-sum’-testi

’Normal scores’ -testi

Savage-testi

Cochran-Armitagentrenditesti

Permutaatiotesti

Heterogeenisuus, rajatut havainnotWilcoxon-Gehanin testi

logrank-testi

Laatuero

Heterogeenisuus,2×2 taulukko, pienet otokset

Fisherin eksakti testi

Heterogeenisuus,2×2 taulukko, isot otokset Pearsonin χ2-testi

Heterogeenisuus,r×c taulukko, pienet otokset

Fisher-Freeman-Haltonin testi

(yleistetty Fisherineksakti testi)

Heterogeenisuus,r×c taulukko, suuret otokset

LR-testi(uskottavuussuhdetesti)

Pearsonin χ2-testi

Heterogeenisuus,ositetut 2×2 taulukot,

sekoittava tekijä mukanaMantel-Haenszelin testi

Tilastollisten testien valinta ja toteuttaminen 88 Seppo Sarna

Page 93: Sisällysluettelo - Terkko · Normanin ja Steinerin ’Biostatistics, The Bare Essentials’ on hauskasti ja selkeästi kirjoitettu kirja. Tekstiä on sopivasti höystetty huumorilla.

1 muuttuja, yli 2 otosta, yksi luokitteleva tekijä,riippumattomat otokset

Asteikko Testausasetelma Testi

Välimatka- tai suhde

Heterogeenisuus,keskiarvojen erot,normaalijakauma

Yksisuuntainenvarianssianalyysi

(Anova)

F-testi

Heterogeenisuus, pienet otokset satunnaistamistesti

Järjestys

Heterogeenisuus,mediaanien erot

Kruskal-Wallisinei-parametrinen

varianssianalyysi

Trandit mediaaneissaJonckheere-Terpstran

-trenditesti

Heterogeenisuus, rajattuja havaintoja Schemperin testi

Laatuero

Suhdelukujen homogeenisuus G-testi

Jakaumien yhteensopivuus G-testi

Kolmiulotteiset kontingenssi-taulukot (N×N×N) χ2-testi

1 muuttuja, yli 2 otosta, kaksi luokittelevaa tekijää,riippumattomat otokset

Asteikko Testausasetelma Testi

Välimatka- tai suhdeHeterogeenisuus, keskiarvojen erot,

normaalijakauma

kaksisuuntainenvarianssianalyysi’two-way Anova’

sisäkkäiset luokitukset,’nested Anova’

Järjestys Heterogeenisuus, mediaanien erotkaksisuuntainenei-parametrinen

varianssianalyysi

LaatueroHeterogeenisuus,spesifit hypoteesit

log-lineaariset mallit

Biostatistiikan peruskurssi 1999 89 Tilastollisten testien valinta ja toteuttaminen

Page 94: Sisällysluettelo - Terkko · Normanin ja Steinerin ’Biostatistics, The Bare Essentials’ on hauskasti ja selkeästi kirjoitettu kirja. Tekstiä on sopivasti höystetty huumorilla.

1 muuttuja, yli 2 otosta, riippuvat otokset

Asteikko Testausasetelma Testi

Välimatka- tai suhde

Heterogeenisuus, toistotesim. eri ajankohtina

toistomittauksienvarianssianalyysi

Heterogeenisuus, pienet otokset satunnaistamistesti

Heterogeenisuus,pienet otokset, kaltaistus

Pitman-Welchin testi

Järjestys

Heterogeenisuus, toistot,kaltaistetut henkilöt

Friedmaninkaksisuuntainenvarianssianalyysi

Heterogeenisuus, toistot,esim. samat henkilöt ja eri arvioijat

rank sum -testi

Monotonisuus Pagen trenditesti

Laatuero Suhdelukujen heterogeenisuus Cochranin Q-testi

Assosiaation (riippuvuuden) mitat

Asteikko Mitattava suure Mitta

Välimatka- tai suhdeRiippuvuus

(kaksiulotteinen normaalijakauma)Pearsonin

korrelaatiokerroin

Järjestys

Riippuvuus

Spearmanin järjestys-korrelaatiokerroin

Kendallin tau τSomersin D

Riippuvuus, r×s taulukot Gamma-kerroin Γ

Yhtäpitävyys*Kendallin konkordans-

sikerroin, χ2 -testi

Laatuero

Yhtäpitävyys*Cohenin kappa κ

Painotettu kappa κ

Riippuvuus, r×c taulukot

Cramerin kerroin

Phi-kerroin rϕ

lambda-kerroin λGoodman-Kruskalin

tau τEpävarmuuskerroin

(’uncertaintycoefficient’)

*joko samat koehenkilöt ja kaksi testiä / havainnoijaa tai parittaisen aineiston konkordanssin mittaaminen

Tilastollisten testien valinta ja toteuttaminen 90 Seppo Sarna

Page 95: Sisällysluettelo - Terkko · Normanin ja Steinerin ’Biostatistics, The Bare Essentials’ on hauskasti ja selkeästi kirjoitettu kirja. Tekstiä on sopivasti höystetty huumorilla.

Normaalisuuden testaaminenMonissa lääketieteellisissä aineistoissa muuttujien jakauman normaalisuuden tarkistaminenon aiheellista, koska hyvin usein normaalisuusoletus ei ole voimassa. Tällöin on syytä välttääsellaisia menetelmiä ja testejä, jotka voimakkaasti perustuvat normaalisuuteen. Esimerkiksipaljon käytettyä t-testiä luonnehditaan yleensä melko robustiksi testiksi, mikä tarkoittaa etteise ole kovin herkkä poikkeamille niistä oletuksista, joihin testi perustuu. Poikkeavat havainto-arvot aiheuttavat kuitenkin herkästi t-testin nimittäjässä olevan keskivirheen kasvamisen, jol-loin testistä tulee konservatiivinen, ylivarovainen.

Kaksi tavallisimmin käytettyä testiä normaalisuuden tarkistamiseen ovat Shapiro-Wilkin Wja Kolmogorov-Smirnovin testit. Näistä jälkimmäistä voidaan käyttää yhteensopivuustestinäpaitsi normaalijakauman niin myös monien muidenkin todennäköisyysjakaumien, kuten esim.tasaisen, Poisson ja binomijakauman suhteen. Testit antavat P-arvon, joka tulkitaan siten, ettäpieni P-arvo (< 0.05) merkitsee poikkeamaa testattavasta jakaumasta, esim. normaalija-kaumasta.

Shapiro-Wilkin testin parametrit arvioidaan automaattisesti havaintoaineistosta, joten testinkäyttö on helppoa. Testin voima on todettu empiirisissä kokeissa hyväksi, mm. monille vinoil-le jakaumille, joita kliinisissä tutkimuksissa yleisesti esiintyy.

Esim. Aineisto: Tietokanta TRIAL. Ongelma: Onko muuttujan ’Imag_2’ jakauma normaalinen?

SPSS-ohjelma saadaan seuraavat tulokset: Kolmogorovin testisuure = 0.183, P < 0.001 ja Shapiro-Wilkin W= 0.888, P = 0.010. Molemmat testit osoittavat siten poikkeamaa normaalisuudesta. Kolmogorov-Smirnovin testisuure ilmoittaa, että havaitun jakauman maksimaalisen poikkeama kumulatiivisesta normaalijakaumasta on 18.3%.

Biostatistiikan peruskurssi 1999 91 Tilastollisten testien valinta ja toteuttaminen

Page 96: Sisällysluettelo - Terkko · Normanin ja Steinerin ’Biostatistics, The Bare Essentials’ on hauskasti ja selkeästi kirjoitettu kirja. Tekstiä on sopivasti höystetty huumorilla.

Normaalisuutta voidaan tutkia myös graafisesti nk. ’probit-plot’-menetelmällä. Tällöin saa-daan kuitenkin vain visuaalinen käsitys siitä, missä määrin ja miltä osin jakauma poikkeaanormaalijakaumasta. Jakauman vinoutta ja huipukkuutta voidaan myös verrata normaalija-kaumaan seuraavasti:

• Vinouskerroin g1, ja sen keskivirhe: SE (g1)

Testi: z = g1

SE (g1)• Huipukkuuskerroin g2, ja sen keskivirhe: SE (g2)

Testi: z = g2 − 3

SE (g2)

Varianssien homogeenisuustestitJoissakin testeissä edellytetään vertailtavien ryhmien varianssien homogeenisuutta. Tämän tut-kimiseksi on olemassa seuraavat testit:

• Hartleyn F-max-testiPerustuu kahden varianssin suhteeseen

• Bartlettin testiSekä Hartleyn että Bartlettin testit ovat herkkiä poikkeamille normaalisuu-desta. Hartleyn testi on lisäksi herkkä ryhmien erisuuruudelle.

• Box’n testiTesti soveltuu erityisesti isoille aineistoille

• Levenen testiBox ja Levene ovat melko robusteja testejäNormaalijakaumillekin Levenen testi on lähes yhtä hyvä kuin Hartleyn taiBartlettin testi.

Esim. Aineisto: Tietokanta TRIAL. Ongelma: Onko muuttujan Imag_2 varianssi sama sekä miehillä että naisilla?

SPSS:ssä varianssien homogeenisuutta voidaan testata Levenen testillä, joka tässä tapauksessa antaa tulokseksi p = 0.639. Koska tämä arvo on selvästi suurempi kuin yleisesti kriittisenä arvona pidetty 0.05, jää varianssien homogeenisuusoletus voimaan.

Permutaatiotesti riippuville otoksillePermutaatio- eli satunnaistamistestit (’randomization tests’) ovat niinsanottuja eksakteja tes-tejä, joiden otosjakauma nollahypoteesin vallitessa ja siten myös laskettavat p-arvot saadaantutkijan keräämästä havaintoaineistosta sopivasti permutoimalla, esimerkiksi toistuvasti jaka-

Tilastollisten testien valinta ja toteuttaminen 92 Seppo Sarna

Page 97: Sisällysluettelo - Terkko · Normanin ja Steinerin ’Biostatistics, The Bare Essentials’ on hauskasti ja selkeästi kirjoitettu kirja. Tekstiä on sopivasti höystetty huumorilla.

malla potilaat uudelleen eri hoitoryhmiin. Normaalijakaumaoletusta ei tarvita. Permutaatiotes-tejä voidaan käyttää jatkuville, järjestys- ja nominaaliasteikollisille muuttujille. Tavallisimminniitä käytetään pienillä aineistoilla. Suuriin aineistoihin sovellettaessa käytetään Monte Carlosimulaatiota jolloin saatava P-arvo ei ole yksikäsitteinen vaan tietty väli.

Käyttötilanne:• Kaksi otosta, esimerkiksi samoista henkilöistä kahtena eri ajankohtana• Aineistokoko on alle 10 (voidaan laskea suuremmillekin aineistoille)• Mittaukset välimatka-asteikolla (normaalisuusoletusta ei tarvita)

Esim. FEV1 (l⁄sek) ennen ja jälkeen bronkodilataattorin käytön astmaatikoilla

(Campbell MJ & Machin D, 1990, s. 134)

Aineisto: x y y - x

n = 5

1 1.5 1.7 0.2

2 1.7 1.9 0.2

3 2.1 2.2 0.1

4 1.6 1.9 0.3

5 2.4 2.4 0.0

Tuloksia eri testeillä ja ohjelmilla:

KaksipuoleinenP-arvo

SPSS

Wilcoxon/Pratt 0.1250

Parittainen t-testi

Nolla mukana 0.0349

Nolla poistettu 0.0163

StatXact 4

Permutaatiotesti

Asymptoottinen 0.0495

Eksakti 0.1250

Monte Carlo(2000 simulaatiota) 0.1230 ± 0.0124 (99%)

Näin pienellä aineistokoolla asymptoottiset testit (esim. t-testi) antavat yleensä ylioptimistisiatuloksia, liian pieniä P-arvoja. Aineistokokoa pitäisi tässä tapauksessa kasvattaa noin 10 koe-henkilöön, mikäli standardoitu muutos on todellisuudessa kuten yllä 1.08 (muutoksen keskiar-vo / muutoksen SD), voimaksi vaaditaan 90%, ja kaksipuoleiseksi merkitsevyystasoksi 0.05.

Biostatistiikan peruskurssi 1999 93 Tilastollisten testien valinta ja toteuttaminen

Page 98: Sisällysluettelo - Terkko · Normanin ja Steinerin ’Biostatistics, The Bare Essentials’ on hauskasti ja selkeästi kirjoitettu kirja. Tekstiä on sopivasti höystetty huumorilla.

Parittainen t-testiKäyttötilanne: Halutaan verrata keskiarvoja kahdessa toisistaan riippuvassa ryhmässä

Oletetaan, että (x1i, x2i), i = 1, ..., n ovat pareittaisia havaintoarvoja muuttujasta x joko a) pari-kaltaistetuissa ryhmissä 1 ja 2 tai b) saman ryhmän toistettuja mittausarvoja, esimerkiksi kah-tena ajankohtana. Lasketaan erotukset di = x2i - x1i, i = 1, ..., n ja erotusmuuttujan d keskiar-

vo d_, keskihajonta SDd ja keskivirhe SEd = SD

√n. Parittainen t-testi lasketaan kaavalla:

t = d_

SEd

Tämä suure noudattaa Studentin t-jakaumaa vapausastein df = n - 1.

Olettamukset parittaisen t-testin käytölle:

1. Differenssimuuttujan d jakauma tulee likimain normaalinen

2. Havaintoarvojen ryhmän/toiston sisällä tulee olla toisistaan riippumattomia.

Huom. Olettamus 1 ei tarkoita, että muuttujan x jakauman tarvitsisi olla normaa-linen ryhmissä 1 ja 2. Riittää, kun d noudattaa likimain normaalijakaumaa. t-testi ei ole kovin herkkä poikkeamalle normaalisuudesta, eli testi on tässä suhteessa ns. ’robustinen’. Kovin pienillä aineistoilla (alle 10) poik-keavilla havaintoarvoilla voi olla suuri vaikutus t-testin tulokseen ja t-testistä tulee konservatiivinen (varovainen), koska testisuureen nimit-täjässä oleva keskivirhe kasvaa. Lisäksi normaalisuudesta on vaikea varmistua ja silloin kannattaa käyttää t-testin ei-parametrista vaihtoehtoa, Wilcoxonin parittaista testiä.

Olettamus kaksi on testi kannalta olennainen. Testi ei sovellu toisistaan riippuville havaintoarvoille. Riippuvuus voisi syntyä esim. seuraavasti: 30:ltä henkilöltä on mitattu verenpaine kolme kertaa ja t-testi lasketaan ikäänkuin havaintoja olisi 90.

Toistomittausten huomioon ottaminen edellyttää erityismenetelmiä.

Wilcoxonin parittainen testiTestistä käytetään myös nimitystä etumerkillinen järjestyslukutesti (’Wilcoxon signed ranktest’).

Käyttötilanne:• Samat henkilöt kahtena eri ajankohtana• Kaltaistetut parit

Tilastollisten testien valinta ja toteuttaminen 94 Seppo Sarna

Page 99: Sisällysluettelo - Terkko · Normanin ja Steinerin ’Biostatistics, The Bare Essentials’ on hauskasti ja selkeästi kirjoitettu kirja. Tekstiä on sopivasti höystetty huumorilla.

Testi perustuu "+" ja "-" merkkisten järjestyslukujen summiin T+ ja T-. Jos aineiston lukupa-reissa on erotuksia, joiden tulos on nolla, laskevat monet tilasto-ohjelmat Wilcoxonin testistäPrattin (1959) esittämän modifikaation.

Testin lisäksi kannattaa yleensä laskea mediaanien erotus (esim. hoitoero) ja sen 95% luotta-musvälit.

Järjestyslukujen muodostaminen

Havaintoaineiston lukupareista (x1, y1),... , (xn, yn) lasketaan erotukset di = xi - yi , jotka laji-tellaan suuruusjärjestykseen di :n mukaan.

Silloin kun aineistossa esiintyy erotuksia, joiden arvo di = 0, on järjestyslukujen muodostami-seksi kaksi tapaa:

• Tavanomaisessa Wilcoxonin testissä tapaukset di = 0 jätetään pois järjestyslukujamuodostettaessa. Esimerkiksi SPSS:ssä menetellään näin.

• Toinen menettelytapa on antaa niille kaikille järjestysluku 0 ja seuraavat järjestys-luvut alkavat arvosta (nollien määrä) + 1 (Prattin modifikaatio.)

Mikäli aineistossa esiintyy samoja erotuksia (’ties’), niin järjestysluku lasketaan seuraavasti:

Jos |d(j)| = |d(j + 1)| = … = |d(j + k)| , niin järjestysluku on (j) + (j + k)

2 .

Jos merkitään nollasta poikkeavien erotusten määrää n’:lla, niin tällöin T+ + T− = 12 n’ (n’ + 1)

Testissä voidaan käyttää joko summaa T+ tai T-. Pienillä n’-arvoilla (n’ ≤ 25) P-arvo katso-taan taulukoista (esim. Altman 1991, s.531). Suurilla n’-arvoilla (n’ > 25) T+ (tai T-) noudatta-vat likimain normaalijakaumaa siten, että

E ( T+) = 14

n’ (n’ + 1) , Var ( T+) =

2 ∗ n’ (n’ + 1) (2n’ + 1) − ∑ j

(tj3 − tj)

48missä ∑

j(tj

3 − tj) on samoista erotuksista (’ties’) johtuva korjaustekijä.

Asymptoottinen testisuure on

z = |T+ − E (T+) | − 1⁄2

√ Var (T+)

Biostatistiikan peruskurssi 1999 95 Tilastollisten testien valinta ja toteuttaminen

Page 100: Sisällysluettelo - Terkko · Normanin ja Steinerin ’Biostatistics, The Bare Essentials’ on hauskasti ja selkeästi kirjoitettu kirja. Tekstiä on sopivasti höystetty huumorilla.

Esim. Muutoksen testaaminen. Riippuvat otokset. (Makuch RD & Parks WP.Response of serum antigen level to AZT treatment of AIDS.AIDS Research and Human Retroviruses. 1988; 4: 315-16.)

ID Pre_AZT Post_AZT DIFF

01 149 0 -149

02 0 51 51

03 0 0 0

04 259 385 126

05 106 0 -106

06 255 235 -20

07 0 0 0

08 52 0 -52

09 340 48 -292

10 0 0 0

Ratkaisu perinteisellä Wilcoxonin testillä:

20 potilasta, 4 nollaa, joten n’ = 16

Järjestysluku 1 2 3 4 5 6 7 8 9

di 14 20 51 52 84 89 103 106 126 149 ...

T+ = 12 , 12

n’ (n’ + 1) = 136 (T- = 136 - 12 = 124)

E(T+) = 14

n’ (n’ + 1) = 68

Var(T+) = n’ (n’ + 1) (2n’ + 1)

24 = 374 (Ei samoja erotuksia)

SE(T+) = 19.34

z-testi: |T+ − E (T+) | − 1⁄2

SE (T+) =

|12 − 68| − 1⁄219.34

= 2.87 (P = 0.0041)

Esim. Kliininen kokeilu rauhoittavan lääkkeen käytöstä neuroottisilla potilailla.Kontrollina lumelääke. 10 potilasta. (Armitage, s. 105, 411)Asetelma: ristikkäistutkimus

Hoitokaika kummassakin periodissa yksi viikko.

Lääke

Lume

ID Pre_AZT Post_AZT DIFF

11 180 77 -103

12 0 0 0

13 84 0 -84

14 89 0 -89

15 212 53 -159

16 554 150 -404

17 500 0 -500

18 424 165 -295

19 112 98 -14

20 2600 0 -2600

Tilastollisten testien valinta ja toteuttaminen 96 Seppo Sarna

Page 101: Sisällysluettelo - Terkko · Normanin ja Steinerin ’Biostatistics, The Bare Essentials’ on hauskasti ja selkeästi kirjoitettu kirja. Tekstiä on sopivasti höystetty huumorilla.

Lopputulosmuuttuja: ahdistuneisuuspistemäärä (0-30)

Ahdistuneisuus Erotus d i(lääke-lume)Potilas Lääke Lume

1 19 22 -3

2 11 18 -7

3 14 17 -2

4 17 19 -2

5 23 22 1

6 11 12 -1

7 15 14 1

8 19 11 8

9 11 19 -8

10 8 7 1

-13

di 1 1 1 1 2 3 3 7 8 8

(1) (2) (3) (4) (5) (6) (7) (8) (9) (10)

Järjestysluku 2.5 5 6.5 7 9.5

T+ = 2.5 + 2.5 + 2.5 + 9.5 = 17 , 12

n’ (n’ + 1) = 55

E(T+) = 14

∗ 10∗ 11 = 27.5

Var(T+) = 2 ∗ 10 ∗ 11 ∗ 21 − (43 − 4) − (23 − 2) − (23 − 2)

48

= 96.25 - 1.5 = 94.75 (1.5 on samoista erotuksista _ aiheutuva korjaus)

SE(T+) = √94.75 = 9.37

z = 10.5 − 0.5

9.37 = 1.03 , P = 0.303

(Parittainen t-testi: t = d_

SE (d_) =

−1.31.438

= -0.904 , P = 0.390 , dƒ = 9)

McNemarin testiKäyttötilanne:

• Lopputulos kaksiarvoinen• Jokin seuraavista asetelmista:

Samat henkilöt mitattu kahtena eri ajankohtana ja tarkastellaan muutostalopputulosmuuttujassa

Biostatistiikan peruskurssi 1999 97 Tilastollisten testien valinta ja toteuttaminen

Page 102: Sisällysluettelo - Terkko · Normanin ja Steinerin ’Biostatistics, The Bare Essentials’ on hauskasti ja selkeästi kirjoitettu kirja. Tekstiä on sopivasti höystetty huumorilla.

RistikkäistutkimusasetelmaKaltaistettu tapaus-verrokki -asetelma

Ristikkäistutkimuksen testausasetelma:

Vaste hoitoon A

Kyllä Ei Yhteensä

Vaste hoitoon B

Kyllä e f e + f

Ei g h g + h

Yhteensä e + g f + h n

Testausasetelma kaltaistetulle tapaus-verrokki -tutkimukselle:

Verrokit: altistus

Kyllä Ei Yhteensä

Tapaukset:altitus

Kyllä e f e + f

Ei g h g + h

Yhteensä e + g f + h n

Testi ilman jatkuvuuskorjausta: χ2 = (f − g)2

f + g

Yatesin jatkuvuuskorjauksella: χ2 = ( f − g − 1)2

f + gTestisuure noudattaa kummassakin tapauksessa likimain χ2-jakaumaa vapausastein 1.

Esim. Kaltaistettu tapaus-verrokki -tutkimus kivessyövästä. Lähde: Brown LM, Pottern LM, Hoover RN. Testicular cancer in youngmen: the search for causes of the epidemic increase in United States.J Epidemiology and Community Health. 1987; 41: 349-354.)

Altiste: Kivesten laskeutuminen syntyessä (kyllä-ei)

Tulos

Kontrollit(ei syöpää)

ei kyllä Σ

Tapaukset ei 4 11 15

kyllä 3 241 244

Σ 7 252 259

Testit: χ2 = (11 − 3)2

11 + 3 = 4.57 , P = 0.033

χc2 =

(11 − 3 − 1)2

11 + 3 = 3.50 (Yates-korjattu) P = 0.061

Tilastollisten testien valinta ja toteuttaminen 98 Seppo Sarna

Page 103: Sisällysluettelo - Terkko · Normanin ja Steinerin ’Biostatistics, The Bare Essentials’ on hauskasti ja selkeästi kirjoitettu kirja. Tekstiä on sopivasti höystetty huumorilla.

Yllä olevat testit ovat approksimatiivisia. Tarkka testaus voidaansuorittaa binomijakauman perusteella:

Kaava: P = (f + g)!

f ! g! (1

2) f + g

Sovelletaan ylläolevaa ja lasketaan lopputuloksen (yllä oleva taulukko)ja nollahypoteesin vallitessa sitä harvinaisempien lopputulosten toden-näköisyydet taulukoista:

Näin saadaan:P(i) =

14!11! 3!

(12

)14 = 0.02222

P(ii) = 14!

12! 2! (1

2)14 = 0.00555

P(iii) = 14!

13! 1! (1

2)14 = 0.00085

P(iv) = 14!

14! 0! (1

2)14 = 0.00006

Laskemalla nämä yhteen saadaan P = 0.02868.

Kaksisuuntaisessa testissä tämä arvo kerrotaan kahdella ja siten ns.tarkaksi P-arvoksi saadaan 0.057 (yleensä 2 merkitsevää numeroa riittää!).Vertaamalla approksimatiivisiin arvoihin todetaan, että tämä on melkolähellä jatkuvuuskorjattua arvoa.

Huom. Yllä suoritettu testi on nimeltään binomitesti (eksakti McNemarin testi.)

Huom. McNemarin testin yleistys (k×k) -taulukoille, k > 2, sisältyy moniintilastopaketteihin.

Yleistetty McNemarin testiKäyttöttilanne:

• Parikaltaistetut aineistot• Mittaukset laatueroasteikolla• Lopputulosmuuttujassa yli kaksi luokkaa (arvoa)

Huom. Testistä käytetään myös nimeä ’Marginal Homogeneity test’.

(i)

4 11

3 241

(ii)

4 12

2 241

(iii)

4 13

1 241

(iv)

4 14

0 241

Biostatistiikan peruskurssi 1999 99 Tilastollisten testien valinta ja toteuttaminen

Page 104: Sisällysluettelo - Terkko · Normanin ja Steinerin ’Biostatistics, The Bare Essentials’ on hauskasti ja selkeästi kirjoitettu kirja. Tekstiä on sopivasti höystetty huumorilla.

Esim. Jonkin taudin ja ABO-veriryhmän välinen yhteys.Tapaus-verrokki -asetelma. Luvut taulukossa ovat parien lukumääriä.

Verrokit

A B AB O

Tapaukset

A 74 14 6 66

B 2 4 2 4

AB 10 12 2 12

O 18 8 3 64

Ohjelmalla StatXact 4.0 saatiin tulos P < 0.0001 , joten taudin ja ABO-veriryhmän välillä on tilastollinen yhteys. O-veriryhmää on verrokeilla selvästi enemmän.

LR-testi siirtymätodennäköisyysmatriiseille

Ajanhetki → (t +1)

↓ X x1 x2 x3

(t)

x1 n11(1) n12

(1) n13(1)

x2 n21(1) n22

(1) n23(1)

x3 n31(1) n32

(1) n33(1)

Homogeenisuus: χ2 -testi.

Kahden ryhmän vertailu. Vertaillaan hoitoja A ja B.

Hoito A.

(t +1)

X x1 x2 x3 Σ

(t)

x1 n11(1) n12

(1) n13(1) n1

(1)

x2 n21(1) n22

(1) n23(1) n2

(1)

x3 n31(1) n32

(1) n33(1) n3

(1)

Testisuure: Wilksin lambda λ

Hoito B.

(t +1)

X x1 x2 x3 Σ

(t)

x1 n11(2) n12

(2) n13(2) n1

(2)

x2 n21(2) n22

(2) n23(2) n2

(2)

x3 n31(2) n32

(2) n33(2) n3

(2)

Tilastollisten testien valinta ja toteuttaminen 100 Seppo Sarna

Page 105: Sisällysluettelo - Terkko · Normanin ja Steinerin ’Biostatistics, The Bare Essentials’ on hauskasti ja selkeästi kirjoitettu kirja. Tekstiä on sopivasti höystetty huumorilla.

−2 ∗ log λ = −2 ∗ ∑ k = 1

2

∑ i = 1

3

∑ j = 1

3

nij(k) [ qij − log qij

(k) ]

missä qij(k) =

nij(k)

ni(k) ja qij =

nij(1) + nij

(2)

ni(1) + ni

(2)

−2 ∗ log λ noudattaa likimain χ2 -jakaumaa vapausastein r(s-1), missä r on rivien lukumäärä ja s on sarakkeiden lukumäärä kummas-sakin matriisissa.

Testi on myös välittömästi yleistettävissä useammallekin ryhmälle. Josryhmien lukumäärä on g, saadaan vapausasteiden määräksi r (s-1) (g-1)

Esim. x = kivun määrä: x1 = ei, x2 = lievä, x3 = kohtalainen, x4 = vaikeaLääkkeet: A ja B. t = ennen hoitoa, t + 1 = hoidon jälkeen

Hoito A.

(t+1)

X x1 x2 x3 x4 Σ

(t)

x1 0 1 0 0 1

x2 3 9 0 0 12

x3 1 2 10 2 15

x4 0 0 0 2 2

Σ 4 12 10 4

−2 ∗ log λ = 23.243,dƒ = 4 ∗ 3 ∗ 1 = 12, p = 0.026

Riippumattomien ryhmien t-testi Käyttötilanne: Halutaan verrata keskiarvoja kahden toisistaan riippumattoman ryhmän,

esim. hoito- ja kontrolliryhmän välillä. Riippumattomuus tarkoittaa, että vertailtavissa ryhmissä ei saa olla esim. samoja koehenkilöitä.

Oletetaan, että (x1, ..., xn1) ja (x1, ..., xn2) ovat havaintoarvoja jatkuvasta muuttujasta x kahdes-sa toisistaan riippumattomassa ryhmässä 1 ja 2. Lasketaan ryhmien keskiarvot x

_1 ja x

_2 ja kes-

kihajonnat SD1 ja SD2 .

t-testi lasketaan kaavalla:

t = x_

1 − x_

2

SE (x_

1 − x_

2)

Hoito B.

(t+1)

X x1 x2 x3 x4 Σ

(t)

x1 0 0 0 0 0

x2 5 4 1 0 10

x3 8 5 4 0 17

x4 3 0 0 0 3

Σ 16 9 5 0

Biostatistiikan peruskurssi 1999 101 Tilastollisten testien valinta ja toteuttaminen

Page 106: Sisällysluettelo - Terkko · Normanin ja Steinerin ’Biostatistics, The Bare Essentials’ on hauskasti ja selkeästi kirjoitettu kirja. Tekstiä on sopivasti höystetty huumorilla.

missä SE (x__

1 − x_

2) = SDp√ 1n1

+ 1n2

Yhdistetty keskihajonta SDp = √ (n1 − 1) SD12 + (n − 1) SD2

2

n1 + n2 − 2

Olettamukset t-testin käytölle:

1. Muuttujan x jakauma tulee likimain normaalinen

2. Havaintoarvojen vertailtavien ryhmien sisällä tulee olla toisistaan riippumattomia.

3. Varianssit ovat homogeeniset

Huom. t-testi ei ole kovin herkkä poikkeamalle normaalisuudesta, eli testi on tässä suhteessa ns. ’robustinen’. Kovin pienillä aineistoilla (ryhmäkoot alle 10) poikkeavilla havaintoarvoilla voi olla suuri vaikutus t-testin tulokseen ja t-testistä tulee konservatiivinen, koska testisuureen nimittä-jässä oleva keskivirhe kasvaa. Lisäksi normaalisuudesta on vaikea varmistua ja silloin kannattaa käyttää t-testin ei-parametrista vaihtoehtoa, Wilcoxonin-Mann-Whitneyn testiä.

Olettamus kaksi on testi kannalta olennainen. Testi ei sovellu toisistaan riippuville havaintoarvoille. Riippuvuus voisi syntyä esim. siten, että vertailtavissa ryhmissä on samoja henkilöitä tai vertailtavien ryhmien sisällä on toistomittauksia samoista henkilöistä. Toistomittausten huo-mioon ottaminen edellyttää erityismenetelmiä.

Varianssien homogeenisuus voidaan testata Levenen testillä. Mikäli testin antama p-arvo on alle 0.05, homogeenisuusoletus hylätään. Tähän tilanteeseen on olemassa useita t-testin modifikaatioita, jotka tavalli-simmat tilastopaketit laskevat. Usein tässä tilanteessa kannattaa kuitenkinkäyttää Mann-Whitneyn testiä.

Mann-Whitneyn U-testiMann-Whitneyn U-testi on riippumattomien otosten t-testin ei-parametrinen vastine. Sen voi-ma on likimain 95,5% verrattuna t-testiin silloin kun t-testin edellyttämä normaalisuusoletuson voimassa.

Käyttötilanne: Halutaan testata ovatko kaksi toisistaan riippumatta valittua satunnais-otosta x1i, i = 1, ..., n1 ja x2i, i = 1, ..., n2 peräisin perusjoukoista, joidenjakaumat ovat identtiset tarkastelun kohteena olevan muuttujan suhteen?

Tilastollisten testien valinta ja toteuttaminen 102 Seppo Sarna

Page 107: Sisällysluettelo - Terkko · Normanin ja Steinerin ’Biostatistics, The Bare Essentials’ on hauskasti ja selkeästi kirjoitettu kirja. Tekstiä on sopivasti höystetty huumorilla.

Testillä on seuraavia ominaisuuksia:

• Ei oletusta normaalisuudesta.• Alkuperäisiä arvoja käytetään vain järjestyslukujen muodostamiseen, joiden avulla

testisuureen arvo lasketaan.• Testin voimakkuus on vain hieman heikompi kuin t-testin, kun sille asetetut

olettamukset ovat voimassa.

Merkitään: U12 on niiden parien lukumäärä, joissa x1i < x2iU21 on niiden parien lukumäärä, joissa x1i > x2i

Niistä pareista, joissa x1i = x2i lasketaan puolet kumpaankin summaan, U12 ja U21. Kumpaatahansa summista U12 ja U21 voidaan käyttää testisuureena U. Testisuurelle U pätee seuraavan-lainen tulkinta: U / (n1 * n2) on niiden parien suhteellinen osuus, joille n1i < n2i.

Luvuille U12 ja U21 pätee seuraava:0 ≤ U12 , U21 ≤ n1 * n2

E(U12) = 12

n1n2

Esim. Aineisto: Tietokanta TRIAL. Ongelma: Halutaan testata eroavatko ’Imag_2’-muuttujan suhteen lasketut mediaanit hoitoryhmissä P ja Q toisistaan.

Tulokset ohjelmalla SPSS:

Järjestyslukujen summat 199.5 ja 296.5

Mann-Whitneyn U = 79.5 , z = -1.602, Asymptoottinen 2-suuntainen P = 0.109,Eksakti P = 0.110 ; 2 * (1-suuntainen P)

Mediaanieroa SPSS ei laske ja mediaanit ryhmien P ja Q mediaanit 25.20 ja 34.35 saa mm. ’Explore’-optiosta.

Mikäli n1 tai n2 ovat alle 20, kannattaa P-arvo laskea eksakteilla algoritmeilla (esimerkiksiSPSS tai StatXact 4) tai katsoa taulukoista. Kun aineistokoot ylittävät 20, voidaan käyttääasymptoottista testisuuretta:

z = U − ms , missä m =

n1 ∗ n2

2 ja s = √ (n1 + n2 + 1) ∗ m6

Wilcoxonin järjestyslukujen summatestiTesti on algebrallisesti sama kuin Mann-Whitneyn U-testi.

Merkitään: T1 on arvojen x1i järjestyslukujen summa yhdistetyssä järjestetyssä aineistossa T2 on arvojen x2i järjestyslukujen summa yhdistetyssä järjestetyssä aineistossa

Samoille lukuarvoille järjestysluvuksi tulee järjestyslukujen keskiarvo (kuten Wilcoxo-nin parittaisessa testissä).

Biostatistiikan peruskurssi 1999 103 Tilastollisten testien valinta ja toteuttaminen

Page 108: Sisällysluettelo - Terkko · Normanin ja Steinerin ’Biostatistics, The Bare Essentials’ on hauskasti ja selkeästi kirjoitettu kirja. Tekstiä on sopivasti höystetty huumorilla.

T1:lle pätee seuraava epäyhtälö:12 n1 (n1 + 1) ≤ T1 ≤ n1n2 + 12 n1 (n1 + 1)

T1:n odotusarvo voidaan laskea kaavalla

E (T1) = 12

n1 (n1 + n2 + 1)

Voidaan näyttää, että: U12 + U21 = n1 n2

T1 + T2 = 12 (n1 + n2) (n1 + n2 + 1)

Tästä seuraa, että U-testi ja Wilcoxonin testi ovat algebrallisesti yhtäpitäviä, ja tuottavat täy-sin saman testituloksen (P-arvon).

U21 = n1 n2 + 12 n2 (n2 + 1) - T2

U12 = n1 n2 + 12 n1 (n1 + 1) - T1

Kun lukupareissa ei ole samoja lukuarvoja, niin

Var(U12) = Var(T1) = n1n2 (n + 1)

12 , n = n1 + n2

Kun lukupareissa on samoja lukuarvoja, niin

Var(U12) = Var (T1) = n1n2

12 ∗ n (n − 1) ∗ [n3 − n − ∑ t

(t3 − t)]

U- tai T-suureen keskivirheeksi saadaan siten SE(U) = √Var (U) = SE(T)

Huom. ROC-käyrän (’Receiver Operating Characteristic’) pinta-ala (A) ja sen keskivirhe voidaan laskea U-testisuureen avulla seuraavasti:

A = 100 ∗ (1 − Un1n2

) (prosenttia)

SE(A) = √Var(U)n1n2

Esim. 109:n CT-kuvan arviointi.

Ehdottomannormaali ← ARVIOINTISKAALA → Ehdottoman

epänormaali

1 2 3 4 5

Todellinen status

Normaali 33 6 6 11 2 58

Epä-normaali

3 2 2 11 33 51

36 8 8 22 35 109

Järjestys-luvut

18.5 40.5 48.5 63.5 92.0

Tilastollisten testien valinta ja toteuttaminen 104 Seppo Sarna

Page 109: Sisällysluettelo - Terkko · Normanin ja Steinerin ’Biostatistics, The Bare Essentials’ on hauskasti ja selkeästi kirjoitettu kirja. Tekstiä on sopivasti höystetty huumorilla.

StatXact-ohjelmalla saatiin seuraavat tulokset:

T1 = 2027 E(T1) = 3190 SE(T1) = 158.1T2 = 3968z = -7.356U = 316.0

A = 1 − 316

58 ∗ 51 = 0.893 = 89.3%

SE(A) = √ 158.12

58 ∗ 51 = 2.91%

Binomiaalisten suhdelukujen trenditestiKäyttötilanne:

a) Aineisto muodostuu C:stä ryhmästä, lopputuloksena on binomiaaliset suhdeluvutp1=k1/n1,...,pC=kC/nC ja halutaan testata näiden välistä trendiä. Esim. annos-vastetutkimuksissa C eri annosta, vaste kaksiarvoinen (+/-) ja halutaan testata onko annoksenja vasteen välillä monotoninen yhteys.

Huom. Binomiaalisuus tarkoittaa sitä, että lopputuloksen kumpikaan vaihto-ehdoista ei saa olla liian harvinainen (alle 10%), muuten pitäisi käyttää Poisson-jakaumaan perustuvaa trenditestiä.

b) Aineisto muodostuu kahdesta ryhmästä, lopputulosmuuttuja on C-luokkainen järjes-tysasteikollinen muuttuja ja halutaan testata onko lopputuloksen suhteen monotoninen(nouseva/laskeva) trendi ryhmien välillä.

Ylläoleviin testustilanteisiin soveltuvia testejä on useita, esim.:

1. χ2-trenditesti (Armitage & Berry (1987) s. 372, Altman (1991) s.261)

Testissä lasketaan kaksi χ2-suuretta: χ2het ja χ2

trend, joista ensimmäinen testaa suhdelukujen heterogeenisuutta ja jälkimmäinen trendiä. Näiden kahden suureen erotuksen perusteella voidaan testata poikkeamaa lineaarisesta trendistä. (Ohjelma: esim. MedStat:Trend)

2. Cochran-Armitagen trenditesti (Ohjelma: esim. StatXact 4.0)

3. ’Linear by linear association’-testi (Ohjelma: esim. SPSS:Crosstabs). Tämä on sama testi kuin Mantel-Haenszelin χ2-testi.

Huom. Trenditesteissä luokille voidaan antaa muitakin lukuarvoja (’scores’) kuin 1,2,...,C. Nämä lukuarvot pitää kuitenkin päättää ennenkuin testi suoritetaan.

Huom. Useissa tilanteissa myös Mann-Whitneyn U-testi antaa lähes saman P-arvon kuin trenditestit.

Biostatistiikan peruskurssi 1999 105 Tilastollisten testien valinta ja toteuttaminen

Page 110: Sisällysluettelo - Terkko · Normanin ja Steinerin ’Biostatistics, The Bare Essentials’ on hauskasti ja selkeästi kirjoitettu kirja. Tekstiä on sopivasti höystetty huumorilla.

Huom. ohjelmassa StatXact tulokset pitää antaa (2×C)- ja MedStat-ohjelmassa (C×2)-taulukon muodossa.

Esim. a) Lannerangan degeneratiiviset muutokset rautatieläisillä (’toppamiehet’)Ikätrendin testaaminen.

Muutos

Score + −

Ikä

alle 35 1 5 32 37

35 - 44 2 17 34 51

45 tai yli 3 24 22 46

46 88 134

Eri trenditesteillä saadaan seuraavat tulokset:

1. χ2het = 13.631, df = 2, P = 0.0011, χ2

trend =13.628. df = 1, P = 0.0002. χR2 =

χhet2 − χ1trend

2 = 0.003, P = 0.9999.

Todetaan, että trenditesti X2trend antaa pienemmän P-arvon kuin hetero-

geenisuustesti X2het (Pearsonin X2-testi) ja että poikkema lineaarisesta

trendistä on erittäin pieni.

2. Cochran-Armitagen trenditesti (StatXact) antaa standardoiduksi poikkeamaksi 3.678ja asymptoottiseksi kaksisuuntaiseksi P-arvoksi 0.0002 ja vastaavaksi eksaktiksi P-ar-voksi 0.0003.

3. ’Linear by linear’-testi (SPSS) antaa testisuureeksi 13.526 ja P-arvoksi 0.0000 (eli P < 0.0001). Neliöjuuri testisuureesta on sama kuin standardoitu poikkeama.

Johtopäätös: Lanneselän degeneratiiviset muutokset lisääntyvät lähes lineaarisesti tässä aineistossa.

Esim. b) Alaselän kiputilan hoitokokeilu

Hoito A: lepo, 15 potilastaHoito B: ohjattu liikunta, 15 potilasta

Lopputulos: sunjektiivinen arvio 5-luokkaisella asteikolla.

A B

Selvästi parempi 2 4

Parempi 4 8

Ennallaan 5 2

Huonompi 3 1

Selvästi huonompi 1 0

Tilastollisten testien valinta ja toteuttaminen 106 Seppo Sarna

Page 111: Sisällysluettelo - Terkko · Normanin ja Steinerin ’Biostatistics, The Bare Essentials’ on hauskasti ja selkeästi kirjoitettu kirja. Tekstiä on sopivasti höystetty huumorilla.

Eri testeillä saadaan seuraavat tulokset:

1. χ trend2 = 4.337, df = 1, P=0.03729. χhet

2 = 5.286, df = 4, P = 0.25919, χR2 = 0.948, P =

0.81383, joten poikkeama lineaarisesta trendistä ei ole merkitsevä.

2. Cochran-Armitagen trenditesti antaa kaksisuuntaiseksi asymptoottiseksi P-arvoksi0.0406 ja eksaktiksi P-arvoksi 0.0579.

3. SPSS-ohjelma ei laske testiä B-ryhmän alimman rivin arvosta 0 johtuen.

4. Mann-Whitney:n testi (StatXact) antaa asymptoottiseksi P-arvoksi 0.0414 ja lähessaman eksaktiksi, eli P = 0.0411.

χ2-nelikenttätestiKäyttötilanne:

• Kaksiarvoinen lopputulosmuuttuja• Kaksi hoitoryhmää• Kahden binomiaalisen suhdeluvun vertailu

Lopputulos

Kyllä Ei

Ryhmä 1 a b a+b

Ryhmä 2 c d c+d

a+c b+d n

Ilman jatkuvuuskorjausta: χ2 = (ad − bc)2 ∗ n

(a + c) (b + d) (a + b) (c + d)

Yatesin jatkuvuuskorjauksella: χC2 =

( ad − bc − 12

n)2 ∗ n

(a + c) (b + d) (a + b) (c + d)

Kummassakin tapauksessa vapausasteita (dƒ) on 1.

Vertailtavat suhdeluvut ovat p1 = a

a + b ja p2 = c

c + d

Esim. hoitoero on siten p1 - p2, ja sen normaalijakaumaan perustuva luottamusväli:

(p1 − p2) ± zα √p1 (1 − p1)(a + b)

+ p2 (1 − p2)

(c + d)

Huom! Nelikentän lukujen a, b, c ja d tulee olla lukumääriä eikä esimerkiksiprosenttilukuja.

Esim. Lasolin myrkyllisyyskokeilu rotilla (Oy Alko Ab)

Biostatistiikan peruskurssi 1999 107 Tilastollisten testien valinta ja toteuttaminen

Page 112: Sisällysluettelo - Terkko · Normanin ja Steinerin ’Biostatistics, The Bare Essentials’ on hauskasti ja selkeästi kirjoitettu kirja. Tekstiä on sopivasti höystetty huumorilla.

Rotat satunnaistettiin kahteen ryhmään.

Ensimmäinen ryhmä sai 6-10g⁄kg puhdasta etanolia 25% liuoksenaToinen ryhmä sai yhtä paljon etanolia sisältävää LasoliaLopputulosmuuttuja: kuolema seuranta-aikana

Tulos:

Kuoli Ei

Etanoli 14 6 20 70%

Lasol 7 13 20 35%

21 19 40

Prosenttilukujen ero on 35%, ja sen luottamusväli CL95%: (6.0%, 64.0%)

Testitulos: χ2 = 4.912 , P = 0.027χC

2 = 3.609 , P = 0.057

Fisher: P = 0.0562

Ristitulosuhde (’odds ratio’): OR = a ∗ db ∗ c

= 4.3.

Ohjelma CIA antaa OR:n luottamusväliksi CL95%: (1.15, 16.3)

Kun nelikentässä jokin odotusarvoista E(a), E(b), E(c) tai E(d) on yli viisi, χ2-testin asemestasuositellaan käytettäväksi Fisherin tarkkaa testiä. Nelikentän lukujen odotusarvot E(⋅) laske-taan seuraavasti:

(rivisumma) ∗ (sarakesumma)

(kononaissumma)

Esimerkiksi E (a) = (a + b) ∗ (a + c)

n

Fisherin tarkka nelikenttätestiKäyttötilanne:

Lopputulos

Kyllä Ei

Ryhmä 1 a b a + b

Ryhmä 2 c d c + d

a + c b + d n

Tilastollisten testien valinta ja toteuttaminen 108 Seppo Sarna

Page 113: Sisällysluettelo - Terkko · Normanin ja Steinerin ’Biostatistics, The Bare Essentials’ on hauskasti ja selkeästi kirjoitettu kirja. Tekstiä on sopivasti höystetty huumorilla.

• perustuu hypergeometriseen jakaumaan• reunasummat oletetaan kiinteiksi (olettamus on epärealistinen joissakin tutki-

musasetelmissa)• Ylläolevaan nelikenttään liittyvä todennäköisyys saadaan hypergeometriseen ja-

kaumaan perustuvalla kaavalla

p = (a + b)! (c + d)! (a + c)! (b + d)!

a! b! c! d! n!

• P-arvo saadaan siten, että lasketaan todetun lopputuloksen todennäköisyys p0 jasitäkin harvinaisempien lopputulosten (1-tai 2-suuntainen) todennäköisyydet pi

edellyttäen, että H0 olisi tosi ja summataan. P = Σ pi.

Esim:

Lopputulos P-arvo

8 2 10p0 = 0.02361

1 5 6

9 7 16

Muut mahdolliset lopputulokset reunasummien ollessa 10, 6, 9 ja 7:

a) "Ylempi häntä", pU

9 1pU = 0.00087

0 6

b) "Alempi häntä", pL

7 3pL = 0.15734

2 4

c)

6 4pL = 0.36713

3 3

d)

5 5pL = 0.33042

4 2

e)

4 6pL = 0.11014

5 1

f)

3 7pL = 0.01049

6 0

Biostatistiikan peruskurssi 1999 109 Tilastollisten testien valinta ja toteuttaminen

Page 114: Sisällysluettelo - Terkko · Normanin ja Steinerin ’Biostatistics, The Bare Essentials’ on hauskasti ja selkeästi kirjoitettu kirja. Tekstiä on sopivasti höystetty huumorilla.

Yksisuuntainen P-arvo lasketaan siten, että saadun lopputulosnelikentän todennäköisyyteenp0=0.02361 lisätään H0:n ollessa voimassa harvinaisemman tuloksen a) todennäköisyys janäin saadaan P=0.02448.

Kaksisuuntaisessa testauksessa tähän P-arvoon pitää vielä lisätä toisesta ’hännästä’ lopputu-lokseen f) liittyvä todennäköisyys 0.01049, joka siis on H0:n ollessa voimassa harvinaisempi(P < P0) kuin todettu lopputulos. Näin saadaan kaksisuuntaiseksi P-arvoksi 0.03497, joka onselvästi pienempi kuin 2*(yksisuuntainen P-arvo) eli 0.04896.

Huom! Eräät tilastopaketit antavat Fisherin testin P-arvon joko vain a) yksi-suuntaisena (eivät tosin välttämättä ilmoita sitä!) tai b) laskevat sen kaksisuuntaisen P-arvon kertomalla yksisuuntaisen P-arvon kahdella (esim. MedStat). Tämä laskutapa antaa konservatiivisemman tuloksen, elleivät jommat kummat reunasummista ole samat, eli (a + b) = (c + d) tai (a + c) = (b + d).

Fisherin kontingenssitaulutesti 2×ktaulukoille

Käyttötilanne:• heterogeenisuuden testaaminen• tarkasteltava muuttuja laatueroasteikollinen• kaksi vertailtavaa ryhmää

Esim. Mahahaava ja ABO-veryryhmä (Varis K, Salmi H, ym., julkaisematon)

O A B AB ∑APU 18 26 1 1 46

NUD 8 24 13 6 51

APU: Active Peptic UlcerNUD: ylävatsaoireita, mutta ei elimellistä sairautta

Ohjelmalla StatXact saatiin testitulokseksi 18.101, P = 0.0003 (kaksi-puoleinen). Tavallinen χ2-testi antaa tuloksen χ2 = 17.572 , P = 0.0005

Mantel-Haenszelin nelikenttätestiKäyttötilanne:

• nelikenttien yhdistäminen jokosamaa ongelmaa tarkastelevista eri tutkimuksista taisaman tutkimuksen eri ositteista

• sekoittavien tekijöiden (’confounders’) hallinta

Tilastollisten testien valinta ja toteuttaminen 110 Seppo Sarna

Page 115: Sisällysluettelo - Terkko · Normanin ja Steinerin ’Biostatistics, The Bare Essentials’ on hauskasti ja selkeästi kirjoitettu kirja. Tekstiä on sopivasti höystetty huumorilla.

Oletetaan, että sekoittava tekijä z on laatuero-, järjestys- tai luokiteltu välimatka-asteikollinen,ja saa arvot: 1, ..., k

Tutkitaan x:n ja y:n välistä riippuvuussuhdetta, missä esim.x = hoitoryhmää ilmaiseva muuttuja y = lopputulosta ilmaiseva muuttuja (kyllä, ei)

Halutaan kontrolloida z:n vaikutus analysoitaessa x:n ja y:n välistä riippuvuussuhdetta

Oletetaan, että aineisto on jaettu sekoittavan tekijän mukaisesti k:hon ositteeseen ja että kussa-kin ositteessa on laskettu seuraava nelikenttä:

j. osite: Lopputulos

+ –

RyhmäA a j b j M1j

B c j d j M0j

N1j N0j Tj

Lasketaan seuraavat ositekohtaiset suureet: ORj = aj dj

bj cj , E (aj) =

Mij Nij

Tj

Oletetaan M1j , M0j , N1j ja N0j kiinteiksi. Hypergeometrisesta jakaumasta seuraa, että

Var (aj) = M1j M0j N1j N0j

Tj 2 (Tj − 1)

ja siten ositekohtaiseksi testisuureeksi saadaan χ1, j2 =

( aj − E (aj) − 1⁄2)2

Var (aj)

Yli kaikkien ositteiden lasketuksi yhdistetyksi arvioksi ristitulosuhteelle, odotusarvolle ja va-rianssille saadaan:

ORk = ∑

j

aj dj

Tj

∑ j

bj cj

Tj

, E (ak) = ∑ j

E (aj) , Var (ak) = ∑ j

Var (aj)

Näiden arvioiden perusteella saadaan Mantel-Haenszelin nelikenttätestiksi:

M-H-testi: χ1, M−H2 =

( | ∑ aj − ∑ E (aj) | − 1⁄2)2

∑ Var (aj)

Huom. χ1, M−H = z , eli normaalijakauman prosenttipiste.

Huom. Testin kumulatiivisuudesta johtuen odotetut frekvenssit yksittäisissänelikentissä voivat olla pieniä (< 5).

Biostatistiikan peruskurssi 1999 111 Tilastollisten testien valinta ja toteuttaminen

Page 116: Sisällysluettelo - Terkko · Normanin ja Steinerin ’Biostatistics, The Bare Essentials’ on hauskasti ja selkeästi kirjoitettu kirja. Tekstiä on sopivasti höystetty huumorilla.

Esim. Kaksi hoitoa A ja B, sekoittavana tekijänä ikä, lopputulos parantuminen

a) tulos ilman sekoittavan tekijän kontrollointia:

Kyllä Ei

A 33 28 61

B 20 40 60

Testitulos (StatXact): χ12 = 5.298 P = 0.0213

χ1, C2 = 4.488 P = 0.0341

Fisher: P = 0.0280

Todetaan, että hoidolla ja parantumisella on tilastollinen yhteys P < 0.05,kun ikää ei huomioida.

b) sekoittavan tekijän kontrollointi osittamalla:

Kyllä Ei ∑

NuoretA 14 6 20

OR = 2.00B 7 6 13

Keski-ikäiset

A 12 7 19OR = 2.40

B 5 7 12

VanhatA 7 15 22

OR = 1.58B 8 27 35

Ositekohtaisten nelikenttien yläkulmassa olevien lukujen (aj) 14, 12 ja 7odotusarvoiksi (E (aj)) saadaan 12.73, 10.42 ja 5.79, ja variansseiksi(Var (aj)) 1.880, 1.882 ja 2.666 (MedStat DD).

Ositekohtaisiksi, jatkuvuuskorjatuiksi testisuureen χ1, j2 arvoiksi saadaan

siten 0.33, 0.64 ja 0.19. Mikään näistä ei ole likikään tilastollisestimerkitsevä.

Johtopäätös: Taulukon summasarakkeesta voidaan todeta, että hoidot A ja B ovat epätasapainossa eri ikäryhmissä, siis ikä assosioituu myös hoitojailmaisevaan muuttujaan. Lisäksi ositekohtaisista OR:sta todetaan, ettäikä assosioituu myös hoidon lopputulokseen. Näin ollen ikä täyttääsekoittavan tekijän vaatimukset. Iän kontrolloinnin jälkeen testitulosei ole enää tilastollisesti merkitsevä, sillä

χ1, M−H2 = 1.976, dƒ = 1 , P = 0.160

Hoidon A parempi lopputulos selittyy siten suurelta osin iällä.

Yhdistetyksi ristitulosuhteeksi saadaan ORk = 1.902

Tilastollisten testien valinta ja toteuttaminen 112 Seppo Sarna

Page 117: Sisällysluettelo - Terkko · Normanin ja Steinerin ’Biostatistics, The Bare Essentials’ on hauskasti ja selkeästi kirjoitettu kirja. Tekstiä on sopivasti höystetty huumorilla.

Yhdistäminen ei ole perusteltua elleivät ositekohtaiset ristitulosuhteet ole keskenään homogeenisia; tässä tapauksessa homogeenisuusvaatimus täyttyy. StatXact antaa P-arvoksi 0.9068 (Breslown ja Dayn testi). Yhdis-tetyn vaarasuhteen 95% eksaktiksi luottamusväliksi saadaan StatXactilla (0.8064, 4.367).

Mikäli lopputulos on k-luokkainen, voidaan testaukseen käyttää edellä kuvatun nelikenttätes-tin yleistystä, Mantel-Haenszelin testiä 2×k -taulukoille.

Huolimatta tämän testin yleisyydestä ja käyttökelpoisuudesta se yllättäen kuitenkin puuttuumonista tavallisimmista tilastopaketeista (esim. BMDP).

Mantel-Haenszelin testiä voidaan käyttää monissa muissakin kuin edellä mainituissa tutki-musasetelmissa, esimerkiksi tapaus-verrokki -tutkimuksissa.

Kruskal-Wallisin yksisuuntainenvarianssianalyysi

Käyttötilanne:• Onko k riippumatonta otosta peräisin samasta perusjoukosta (tai identtisistä

perusjoukoista), joilla on sama mediaani.• perustuu järjestyslukuihin• testi edellyttää vähintään järjestysasteikkoa• ryhmä (otos-) koot ni voivat olla erisuuria

Testisuure:

H = 12

N (N + 1) ∗ ∑ i = 1

k

ni R__

i2 − 3 ∗ (N + 1)

missä N = ∑ ni ja R__

i = ∑ j = 1

ni Rj

ni on järjestyslukujen Rj keskiarvo ryhmässä i.

Mikäli kyseessä on pieni aineisto (ryhmäkoot 5 tai alle) p-arvo katsotaan testisuureelle H laa-dituista taulukoista. Muissa tapauksissa H:n merkitsevyyden arvioimiseen voidaan käyttää χ2-jakaumaa vapausastein (k - 1).

Kun järjestetyssä aineistossa ryhmästä riippumatta esiintyy samoja lukuarvoja (’ties’), pitäätestisuuretta H korjata ottamalla nämä tasatulokset huomioon. Testisuure H pitää jakaa tekijäl-lä

1 − ∑ i = 1

gti3 − ti

N3 − N, missä g on niiden lukuarvoryhmien määrä, joissa tasatuloksia esiintyy

ja ti on tällaisissa ryhmissä olevien lukujen määrä.

Biostatistiikan peruskurssi 1999 113 Tilastollisten testien valinta ja toteuttaminen

Page 118: Sisällysluettelo - Terkko · Normanin ja Steinerin ’Biostatistics, The Bare Essentials’ on hauskasti ja selkeästi kirjoitettu kirja. Tekstiä on sopivasti höystetty huumorilla.

Monivertailut - Dunnin testiMikäli ryhmiä halutaan verrata joko a) pareittain keskenään, tai b) ryhmiä tiettyyn kontrolli-ryhmään, syntyy niinsanottu monivertailutilanne. Tällöin α-taso pitää korjata vertailujen luku-määrällä. Kohdassa a) vertailujen määrä on k(k - 1) / 2 ja kohdassa b) k - 1. Tätä korjaus-menettelyä kutsutaan Bonferroni-menetelmäksi. Kruskal-Wallisin varianssianalyysin testeihinvoidaan käyttää Dunnin testiä (MedStat MULT.) Testissä asetetaan erotuksille R

__i − R

__j

kriittinen arvo kaavalla

zα∗ ∗ √N (N + 1)12

∗ ( 1ni

∗ 1nj

) missä α∗ = α

k (k − 1) ⁄ 2, N = ∑ ni ja

zα∗ on normaalijakauman prosenttipiste.

Jonckheere-Terpstra trenditestiJonckheere-Terpstra on Kruskal-Wallisin trenditesti. Se testaa mediaanien monotonista järjes-tystä (nousevaa/laskevaa). Testisuureen J laskenta tapahtuu seuraavasti: jos vertailtavia ryh-miä on k kappaletta, niin ensin lasketaan kaikki k*(k-1)/2 kappaletta Mann-Whitneyn U-teste-jä ryhmäparien välillä. Suure J saadaan näiden summana. Lopuksi J-suure muunnetaan stan-dardoiduksi testisuureeksi, joka noudattaa likimain normaalijakaumaa.

Käyttötilanne: Sekä testattava muuttuja että ryhmittelevä muuttuja ovat järjestysasteikollisia,ts. vertailtavat ryhmät muodostavat mielekkään järjestyksen; esim. eri lääkeannoksilla hoide-tut potilaat.

Esimerkkiaineisto (MedStat manuaali, sivut 18.1-18.2)

Fiktiivinen aineisto. Kahden tekijän yhdistelykokeilu. Tutkijat halusivat testata ’Gastryl’-nimi-sen lääkkeen imeytymistä. Tabletteja oli päällystemateriaaliltaan kolmea tyyppiä: A, B ja C.Tablettien antotapoja oli kolme: E = tyhjään mahaan, A = antasidin kanssa ja M = aterian jäl-keen.

Halutaan testata: 1) Riippuuko seerumin konsentraatio tablettityypistä?

2) Riippuuko seerumin konsentraatio antotavasta?

3) Onko tablettityypin ja antotavan välillä yhdysvaikutusta (interaktio)?

Kohdan 1) testaaminen edellyttää taulukon rivien välisen vaihtelun analysointia ja voidaansuorittaa Kruskal-Wallisin testillä.

Kohdassa 2) on kyse sarakkeiden välisestä vaihtelusta ja testinä käytetään Friedmanin testiä.

Interaktion testaamiseen tarvitaan kaksisuuntaista ei-parametrista varianssianalyysiä.

Tilastollisten testien valinta ja toteuttaminen 114 Seppo Sarna

Page 119: Sisällysluettelo - Terkko · Normanin ja Steinerin ’Biostatistics, The Bare Essentials’ on hauskasti ja selkeästi kirjoitettu kirja. Tekstiä on sopivasti höystetty huumorilla.

Tablettityyppien testaaminen: Ei välitetä antotavasta, vaan tarkastellaan rivisummia(E+A+M).

Tabletti-tyyppi

HenkilöSumma

(E+A+M)Järjestys-luku Ri

∑ RiR__

i

A

1 70 8

2 63 6

3 42 2

4 83 9.5

5 20 1

6 97 15.5

7 46 3.5

8 97 15.5 61 7.8

B

1 49 5

2 89 13

3 67 7

4 133 23

5 118 20

6 46 3.5

7 140 24

8 85 12 107.5 13.4

C

1 83 9.5

2 132 22

3 99 17.5

4 109 19

5 99 17.5

6 84 11

7 90 14

8 122 12 131.5 16.4

Testisuure: H = 12

24 ∗ 25 * (8 * 7.62 + 8 * 13.42 + 8 * 16.42) - 3 * 25 = 6.42

Korjattu testisuure: Gastryl-esimerkkiaineistossa g = 4 (tasatulokset 46, 83, 97 ja 99) jakaikissa on kaksi lukua, joten kaikki ti = 2. Koska N = 24, on korjaussiten 1 - 4 * (23 - 2) / (243 - 24) = 0.998, joten H = 6.43.

Biostatistiikan peruskurssi 1999 115 Tilastollisten testien valinta ja toteuttaminen

Page 120: Sisällysluettelo - Terkko · Normanin ja Steinerin ’Biostatistics, The Bare Essentials’ on hauskasti ja selkeästi kirjoitettu kirja. Tekstiä on sopivasti höystetty huumorilla.

Koska vapausasteet ovat k - 1 = 2, saadaan χ2-jakauman perusteella(MedStat: EF) P = 0.040 (kaksipuoleinen)

Monivertailut:

Tabletti-tyyppi ∑ Ri

Tabletti-tyyppi ∑ Rj

Erotus

R__

i − R__

jKriittinen

arvo

A 61.0 B 107.5 5.8 8.47

A 61.0 C 131.5 8.8 8.47*

B 107.5 C 131.5 3.0 8.47

Johtopäätös: Tablettityyppien A ja C välillä on tilastollisesti merkittävä ero tasolla P < 0.05.

Trenditesti: Ohjelmalla SPSS Joncheeren testisuureeksi saadaan J = 141.0, standar-doiduksi suureeksi 2.383 ja yksisuuntaiseksi P-arvoksi 0.008. Todetaanettä ryhmämediaanien 66.5, 87.0 ja 99.0 välillä on tilastollisesti merkit-sevä nouseva trendi.

Friedmanin testi ja Pagen testiKäyttötilanne: Esim. joukko henkilöitä on tutkittu eri olosuhteissa tai eri arvioijien

toimesta. Halutaan tutkia, onko näiden toistojen välillä eroa.

1 2 ... k

1 y11 y12 ... y1k

2 y21 y22 ... y2k

. . . . .

. . . . .

. . . . .

n yn1 yn2 ... ynk

Muodostetaan järjestysluvut 1 ... k riveittäin esim. nousevan suuruus-järjestyksen mukaisesti.

Tilastollisten testien valinta ja toteuttaminen 116 Seppo Sarna

Page 121: Sisällysluettelo - Terkko · Normanin ja Steinerin ’Biostatistics, The Bare Essentials’ on hauskasti ja selkeästi kirjoitettu kirja. Tekstiä on sopivasti höystetty huumorilla.

1 2 ... k

1 r11 r12 ... r1k

2 r21 r22 ... r2k

. . . . .

. . . . .

. . . . .

n rn1 rn2 ... rnk

∑ r• 1 r• 2 ... r• k

rij on jokin luvuista 1, 2, ..., k jokaisella i:n arvolla

Friedmanin testi testaa, eroavatko sarakesummat r• j toisistaan.

Testisuure:

S = 12

nk (k + 1) ∑ j = 1

k

r• j2 − 3n (k + 1)

Testisuure S noudattaa likimain χ2-jakaumaa vapausastein dƒ = k - 1,edellyttäen että k ja/tai n eivät ole kovin pieniä.

Esim. Gastryl-esimerkkiaineisto. Testataan hypoteesia lääkkeen antotapojenvälisistä eroista välittämättä tabletin päällysteestä (eli tarkastellaansarakevaihtelua MedStat manuaalin taulukossa 18.2)

Analyysi suoritetaan rivisummien perusteella (esim. 65 = 33+18+14)

Henkilö Antotapa

E Ri A Ri M Ri

1 65 2 63 1 74 3

2 75 1 110 3 99 2

3 65 1 73 3 70 2

4 104 2 103 1 118 3

5 62 1 88 3 87 2

6 68 1 81 3 78 2

7 83 1 94 2 99 3

8 93 1 113 3 98 2

∑ Ri 10 19 19

Biostatistiikan peruskurssi 1999 117 Tilastollisten testien valinta ja toteuttaminen

Page 122: Sisällysluettelo - Terkko · Normanin ja Steinerin ’Biostatistics, The Bare Essentials’ on hauskasti ja selkeästi kirjoitettu kirja. Tekstiä on sopivasti höystetty huumorilla.

Testisuure: S = 12

8 ∗ 3 ∗ 4 (102 + 192 + 192) − 3 ∗ 8 ∗ 4 = 6.75,

P = 0.034 (MedStat: EF)

Monivertailut: (Dunnin testi)

Antotapa ∑ Ri Antotapa ∑ Rj ErotusKriittinen

arvo

E 10.0 A 19.0 9.0 9.58

E 10.0 M 19.0 9.0 9.58

A 19.0 M 19.0 0.0 9.58

Johtopäätös: Monivertailukorjattuna antotapojen välillä ei ole tilastollisestimerkitsevää eroa.

Pagen testi on vastaavanlainen trenditesti Friedmanin testin yhteyteen kuin Joncheere-Terpst-ran testi on Kruskal-Wallisin testin yhteydessä.

Kaksisuuntainen ei-parametrinenvarianssianalyysi

Käyttötilanne: Kahden tekijän yhdistelykokeilu, kun mittaukset ovat joko a) järjestysasteikolla tai b) välimatka/suhdeasteikolla ja aineisto on pieni.

Testattavat hypoteesit:

1) Onko tekijöiden (esim. tablettityyppi ja antotapa) välillä interaktioita,siis onko toisen tekijän vaikutus erilainen toisen tekijän eri ryhmissä(esim. onko tablettityypillä eri vaikutus lopputulokseen riippuen antotavasta)

2) Mikäli interaktioita ei esiinny on mielekästä testata kummankin teki-jän vaikutuksia erikseen Kruskal-Wallisin ja Friedmanin testeillä,muuten ei.

Esim. Gastryl-esimerkkiaineisto (MedStat manuaali, sivu 18.2)

Interaktiotesti: χ2 = 13.44, dƒ = (3-1)*(3-1) = 4, P = 0.0009

Tulkinta: Lääkkeen päällysteen ja antotavan välillä on voimakas interaktio.Päällyste A yhdessä antotavan E kanssa antaa suuria arvoja, kun taaspäällyste C yhdessä antotavan E kanssa antaa pieniä arvoja. Tällaisessatilanteessa ei ole mielekästä tulkita päällysteen ja antotavan erillis-vaikutuksia lopputulokseen.

Tilastollisten testien valinta ja toteuttaminen 118 Seppo Sarna

Page 123: Sisällysluettelo - Terkko · Normanin ja Steinerin ’Biostatistics, The Bare Essentials’ on hauskasti ja selkeästi kirjoitettu kirja. Tekstiä on sopivasti höystetty huumorilla.

Eloonjäämiskäyrien vertailuTavallinen ongelma kliinisissä hoitotutkimuksissa on: saadaanko hoidolla A parempi lopputu-los kuin hoidolla B, kun lopputulosta mitataan ajalla, joka kuluu hoidon aloittamisesta johon-kin tiettyyn tapahtumaan (esim. kuolemaan). Ryhmien välinen vertailu voidaan suorittaa log-rank-testillä, joka on erityissovellus Mantel-Haenszelin khii2-testistä. Logrank-testi soveltuuuseammankin ryhmän tapaukseen, mutta seuraavassa oletetaan yksinkertaisuuden vuoksi, ettävertailtavia ryhmiä on vain kaksi. Testin laskentamenettelyn yleisperiaatteet ovat:

1. Lasketaan odotusarvo EA ryhmän A tapahtumien määrälle kaavalla:

EA = e∗ ar , missä

e on 1 tai 0 riippuen tuleeko henkilölle tapahtuma vai ei a on seurannassa mukana olevien määrä ryhmässä A r on seurannassa mukana olevien määrä yhteensä molemmissa ryhmissä

2. Lasketaan havaitut tapahtumien lukumäärät OA ja OB ryhmissä A ja B

3. Lasketaan odotusarvo EB ryhmän B tapahtumien määrälle kaavalla:

EB = OA + OB - EA

4: Lasketaan ryhmien välinen vaarasuhde ja logrank-testisuure kaavoilla:

• vaarasuhde: RRA⁄B = OA ⁄EA

OB ⁄EB

• testi: χ2 = (OA − EA)2

EA +

(OB − EB)2

EB , dƒ = 1

Pearsonin korrelaatiokerroinPearsonin korrelaatiokerroin (rxy) on kahden jatkuvan muuttujan x ja y välinen assosiaationmitta, joka saa arvoja väliltä (-1,+1); r = -1 tarkoittaa täydellistä negatiivista, r = +1 täydellistäpositiivista korrelaatiota ja r = 0, että assosiaatiota ei ole. Pearsonin korrelaatiokerrointa yli-käytetään, väärinkäytätetään ja myös tulkitaan usein väärin lääketieteellisissä artikkeleissa.

Käyttö: Jotta r olisi validi assosiaation mitta, niin seuraavat vaatimukset tulisi täyttyä:• muuttujien x ja y yhteisjakauman tulisi olla normaalinen (ellei vaatimus täyty edes

pitäisi turvautua ei-parametrisiin korrelaatioihin)• muuttujien x ja y välillä ei saa olla teknisiä riippuvuuksia, jotka säätelevät

muuttujien yhteisvaihtelua• kustakin henkilöstä saa olla vain yksi havaintopari aineistossa, josta korrelaatio

lasketaan, esim. jos 30:stä henkilöstä on 3 toistomittausta, niin korrelaatiota ei saalaskea siten, että havaintoarvoja olisi 90! (toistomittausten tapauksessa pitääkäyttää toistomittausanalyysejä)

Biostatistiikan peruskurssi 1999 119 Tilastollisten testien valinta ja toteuttaminen

Page 124: Sisällysluettelo - Terkko · Normanin ja Steinerin ’Biostatistics, The Bare Essentials’ on hauskasti ja selkeästi kirjoitettu kirja. Tekstiä on sopivasti höystetty huumorilla.

Pearsonin korrelaatiokerroin ja sen keskivirhe lasketaan kaavoilla:

rxy = ∑ (xi − x

_) (yi − y

_)

√∑ (xi − x_)2 ∑ (yi − y

_)2

SE (r) = √1 − r2

n − 2

Korrelaatiokertoimen tilastollista merkitsevyyttä voidaan arvioida testillä:

t = r

SE (r) = r √ n − 2

√1 − r2

Edelläoleva testisuure noudattaa t-jakaumaa vapausastein (n-2). Korrelaatiokertoimelle kan-nattaa laskea myös luottamusväli, vaikka useimmat tilastopaketit eivät niitä jostain syystä au-tomaattisesti tuotakaan. Keskivirheeseen perustuva luottamusväli voidaan laskea mm. ohjel-malla CIA tai kirjoittamalla vähän ohjelmakoodia tilastopaketteihin, kuten SPSS. Luottamus-väli antaa käsityksen kuinka varma johtopäätös muuttujien x ja y assosiaatiosta voidaan tehdä.

Esim. Aineisto: Tietokanta TRIAL.

Halutaan tutkia korreloituvatko muuttujat ’Age’ ja ’Imag_S’ keskenään.

Ohjelmalla SPSS saadaan Pearsonin korrelaatiokertoimeksi r = 0.708 ja sen kaksisuuntaiseksi p-arvoksi < 0.001. Luottamusväliä SPSS ei laske.

Ohjelmalla CIA saadaan 95%:n luottamusväliksi (0.533, 0.825), koska n = 49. Eli tämän kokoisella aineistolla arvioituna iän ja Imag_S:n väli-nen korrelaatio perusjoukossa olisi 95%:n varmuudella tällä välillä.

Tilastollisten testien valinta ja toteuttaminen 120 Seppo Sarna

Page 125: Sisällysluettelo - Terkko · Normanin ja Steinerin ’Biostatistics, The Bare Essentials’ on hauskasti ja selkeästi kirjoitettu kirja. Tekstiä on sopivasti höystetty huumorilla.

Korrelatiivisia menetelmiä, esimerkiksi tavallista lineaarista regressiota, käytetään usein, kunosa muuttujista on järjestysasteikollisia. Tällöin tulisi kuitenkin olla erityisen varovainen, silläjärjestysasteikollisten ja jatkuvien muuttujien väliset korrelaatiot saattavat helposti vääristyä,koska harvoin järjestysasteikollisten muuttujien arvojoukko on tasavälinen. Jatkuvien muuttu-jien ja dikotomisten muuttujien välisissä korrelaatioissa ei sen sijaan ole mitään laskennallistaongelmaa. Sen sijaan testaamisen suhteen on, sillä ylläoleva testisuure toimii tällöin vain liki-määräisesti.

Korrelaatiokertoimia tulkittaessa kannattaa muistaa seuraavat asiat:• korrelaatiokerroin on tulkinnallisesti eri asia kuin regressiokerron• korrelaatio on symmetrinen assosiaation mitta, rxy=ryx

• korrelaatio ja kausaliteetti ovat eri asioita; voimakas korrelaatio ei takaa kausaalistariippuvuutta

• tilastollisesti merkitsevä korrelaatio on eri asia kuin kliinisesti merkittävä korre-laatio

Korrelaatiokertoimen perusteella voidaan suorittaa myös aineistokokoarvioita seuraavalla yk-sinkertaisella kaavalla:

n = zα + zβ √1 − r2

r

2

+ 2

missä zα ja zβ ovat nomaalijakauman prosenttipisteitä

(ks. luku aineistokoon arviointi)

Spearmanin järjestyskorrelaatiokerroinKäyttö: Spearmanin korrelaatiokerrointa rs (’Spearman’s rho’) käytetään järjes-

tysasteikollisten muuttujien välisenä assosiaation mittana. Se on yleisesti käytetty mitta kliinisissä tutkimuksissa, koska se ei edellytä normaali-suutta, eikä ole herkkä poikkeaville havaintoarvoille, joita yleisesti tutki-musaineistoissa esiintyy. Ongelmana on, että monimuuttuja-analyyseissa sillä ei ole käyttöä.

Spearmanin korrelaatiokerroin lasketaan kaavalla:

rs = 1 − 6 ∑ di

2

n3 − n , i = 1, ..., n

missä di on i. henkilön järjestyslukujen erotus korreloitavilla suureilla x ja y. Samojen lukuar-vojen tapauksessa järjestyslukuna käytetään niitä vastaavien järjestyslukujen keskiarvoa. Ylläoleva laskentakaava on alunperin johdettu siten, että Pearsonin kaavaan on sijoitettu alkupe-räisten x:n ja y:n lukuarvojen paikalle järjestysluvut. Spearmanin korrelaatioiden tilastollisenmerkitsevyyden arvioimiseksi pienillä aineistoilla (n < 10) tulisi käyttää eksakteja testejä(esim. StatXact 4 tai erityistaulukoita). Kun aineistokoko on välillä 10-30 voidaan käyttää

Biostatistiikan peruskurssi 1999 121 Tilastollisten testien valinta ja toteuttaminen

Page 126: Sisällysluettelo - Terkko · Normanin ja Steinerin ’Biostatistics, The Bare Essentials’ on hauskasti ja selkeästi kirjoitettu kirja. Tekstiä on sopivasti höystetty huumorilla.

Monte Carlo menetelmiä ja sitä suuremmilla aineistoilla Pearsonin korrelaatiokertoimen t-tes-tiä.

Esim. Aineisto: Tietokanta TRIAL. Halutaan tutkia korreloituvatko muuttujat ’Age’ ja ’Imag_S’ keskenään.

Koska Imag_S:n ja iän yhteisjakauma ei ole täysin normaalinen, laske-taan Spearmanin korrelaatiokerroin. Ohjelma SPSS antaa arvon rs=0.740 ja sen kaksisuuntaiseksi P-arvoksi . Luottamusväliä SPSS ei laske. Ohjel-malla CIA saadaan 95%:n luottamusväliksi (0.579, 0.845). Todetaan, että tässä tapauksessa Spearmanin korrelaatiokerroin antaa jonkin verran suuremman arvon kuin Pearsonin korrelaatiokerroin.

StatXact 4 antaa myös Spearmanin korrelaatiokertoimen 95%-luottamusvälin.

Kendallin Tau ja Somerin DKäyttö: Kendallin Tau ja Somerin D ovat vaihtoehtoisia mittoja Spearmanin

korrelaatiokertoimelle järjestysasteikollisten muuttujien x ja y välisiä riippuvuussuhteita tarkasteltaessa.

Näiden mittojen laskentatapa on erilainen kuin Spearmanin korrelaatiokertoimessa. Siksi nesaattavat antaa hyvinkin erilaisen arvon kuin Spearman, yleensä numeerisesti pienemmän.Molemmat mitat perustuvat konkordanttien (sama tulos) ja diskordattien (eri tulos) parienmääriin eikä samalla tavalla järjestyslukuihin kuten Spearmanin korrelaatiokerrroin. Kendal-lin Tau soveltuu käytettäväksi myös silloin, kun on tarve laskea osittaiskorrelaatioita, eli puh-distaa korrelaatiosta jonkun tai joidenkin muuttujien vaikutus. Somerin D on epäsymmetrinenassosiaation mitta toisin kuin Spearman ja Kendall. Se tarkoittaa, että toista assosioitavistamuuttujista tarkastellaan riippuvana ja toista riippumattomana muuttujana.

Cohenin kappa ja painotettu kappaTarve arvioida kahden tai useamman mitan yhtäpitävyyttä on yleistä kliinisissä tutkimuksissa.Esimerkiksi halutaan tutkia kahden tai useamman arvioitsijan antamien arvioiden tai kahdentai useammat diagnostisen menettelytavan yhtäpitävyyttä. Cohen kappa on mitta, jota on klii-nisissä tutkimuksissa runsaasti käytetty tähän tarkoitukseen.

Käyttö: Cohenin kappa ja painotettu kappa soveltuvat yhtäpitävyyden mitoiksi silloin, kun joiden yhtäpitävyyttä tutkitaan luokkamuuttujia käyttäen.

Kappa mittaa sitä, kuinka paljon todettu yhtäpitävyys (po) poikkeaa pelkän sattuman perusteel-la odotettavissa olevasta yhtäpitävyydestä pe. Kappa lasketaan kaavalla:

κ = (po − pe)(1 − pe)

Tilastollisten testien valinta ja toteuttaminen 122 Seppo Sarna

Page 127: Sisällysluettelo - Terkko · Normanin ja Steinerin ’Biostatistics, The Bare Essentials’ on hauskasti ja selkeästi kirjoitettu kirja. Tekstiä on sopivasti höystetty huumorilla.

Esim. Aineisto: Tietokanta TRIAL. Hepatomegalian diagnosointi kahden kliinikon arvioimana.

Muuttujat: ’Obs_1’ ja ’Obs_2’, jotka ovat kyllä/ei ilmaisten onko maksa palpoitavissa vai ei.

Tulos:

Arvioija 2

Kyllä Ei ∑

Arvioija 1Kyllä 18 6 24

Ei 5 18 23

∑ 23 24 47

Havaittu yhtäpitävyys po = (18 + 18) / 47 = 0.766. Sattuman perusteella odotettavissa olevayhtäpitävyys voidaan laskea todennäköisyyslaskennan peruslaskukaavoja käyttäen. ’Kyllä-kyllä’-lokeron odotetuksi lukumääräksi tulee 24 * 23 / 47 = 11.74 ja ’ei-ei’-lokerolle tässätapauksessa sattumalta myös sama 23 * 24 / 47 = 11.74, joten pe = (11.74 + 11.74) / 47 =0.500 (kolmeen desimaaliin pyöristettynä).

Ohjelmalla StatXact4 (tai MedStat) saadaan kappa = 0.5321, SE (kappa) = 0.1234 ja 95%luottamusväli (0.2903, 0.7739).

Teoreettisesti on mahdollista saada kapalle negatiivinen arvo. Käytännössä kappa vaihteleekuitenkin välillä (0,1). Nolla merkitsee, ettei ole yhtäpitävyyttä ollenkaan ja yksi merkitseetäydellistä yhtäpitävyyttä. Yhtäpitävyyden voimakkuuden tulkitsemiseksi on esitetty monen-laisia nyrkkisääntöjä, esimerkiksi seuraavasti:

kappa yhtäpitävyyden voimakkuus

0.00-0.20 ’olematon’

0.21-0.40 ’heikko’

0.41-0.60 ’kohtalainen’

0.61-0.80 ’hyvä’

0.81-1.00 ’erittäin hyvä’

Hypoteesin H0: ’ei ole yhtäpitävyyttä ollenkaan’ testaaminen voidaan suorittaa z-testillä, mut-ta yleensä se ei ole kovin mielekästä. Luottamusvälin antaminen on mielekkäämpää. Kapallevoidaan laskea asymptoottinen keskivirhe ja 95%:n luottamusväli esim. ohjelmalla StatXact4. Tiedot syötetään (R×R)-taulukkona.

Cohenin kappa ei riipu ollenkaan taulukon ei-diagonaalielementeistä vaan määräytyy pelkki-en päädiagonaalielementtien perusteella. Toisinaan on kuitenkin mielekästä antaa erilaiset pai-noarvot yhtäpitämättömyydelle, eli painottaa ei-diagonaalielementtejä eri painoilla. Agrestin(1990) on ehdottanut seuraavanlaisia painokertoimia:

wij = 1 − (i − j)2

(r − 1)2

Biostatistiikan peruskurssi 1999 123 Tilastollisten testien valinta ja toteuttaminen

Page 128: Sisällysluettelo - Terkko · Normanin ja Steinerin ’Biostatistics, The Bare Essentials’ on hauskasti ja selkeästi kirjoitettu kirja. Tekstiä on sopivasti höystetty huumorilla.

Näille painoille on ominaista, että yhtäpitävyys on suurempi päädiaonaalia lähempänä olevillakuin siitä kauempana olevilla lokeroilla. StatXact 4 laskee myös painotetun kapan.

KirjallisuuttaAgresti A. Categorical data analysis. John Wiley & Sons, New York, 1990.

Andersen B. Problems with p. Significance testing in medical research. Rockie A/S, Denmark1984.

Tilastollisten testien valinta ja toteuttaminen 124 Seppo Sarna

Page 129: Sisällysluettelo - Terkko · Normanin ja Steinerin ’Biostatistics, The Bare Essentials’ on hauskasti ja selkeästi kirjoitettu kirja. Tekstiä on sopivasti höystetty huumorilla.

Biostatistisia näkökohtiaartikkelin kirjoittamisessa

Aineisto- ja menetelmäosa

Yleistä:• mitä tutkimusasetelmaa on käytetty -- tarkka kuvaus!• kuinka koehenkilöt ja verrokit on valittu• sisäänotto- ja poissuljentakriteerit• mistä perusjoukosta valinta on suoritettu• koehenkilöiden ja verrokkien määrä

vaikuttaa tutkimuksen voimaanmillä perusteella tähän määrään on päädytty

• havaintojen keräämis- ja mittaustekniikat• vastausprosentit ("surveys")• poispudonneet ("drop-outs")

poisjääneiden kuvaus

Tilastolliset menetelmät

• kaikki käytetyt menetelmät mainittavamissämitenperustelu miksi

• erikoismenetelmistä viitetilastollinen ohjelmapaketti (esim. SPSS, StatXact 3).

Hoitokokeet

• koejärjestelyt• sokkouttamismenettelyt• hoitojen tarkka kuvaus• hoitomyöntyvyyden tutkiminen ja huomioonotto analyyseissä• satunnaistamismenetelmä

lohkokoko, osittaminen• lopputulosmuuttujan/-jien kuvaus

muunnokset• hoitokokeiluissa mieluiten vain yksi päälopputulosmuuttuja

toissijaiset eksploratiivisia• usean hoidon samanaikaisissa kokeiluissa kontrastit ilmoitettava etukäteen

Biostatistiikan peruskurssi 1999 125 Biostatistisia näkökohtia artikkelin kirjoittamisessa

Page 130: Sisällysluettelo - Terkko · Normanin ja Steinerin ’Biostatistics, The Bare Essentials’ on hauskasti ja selkeästi kirjoitettu kirja. Tekstiä on sopivasti höystetty huumorilla.

Aineiston kuvailu

• riittävä aineiston esittely tulisi edeltää ja täydentää tilastollista analyysiä• muuttujat, jotka ovat oleellisia tilastoanalyysin pätevyyden ja tulosten tulkinnan

kannalta tulisi kuvata tarkasti käyttäen graafisia esityksiä ja yhdistelmätietoa;prosenttiosuuksia, keskilukuja, hajontaa kuvaavia suureita, jne

• lähtötason tietojen vertailu ryhmien välillä hoitokokeissa; ovatko ryhmät vertailu-kelpoisia?

Olettamusten tarkistaminen

• Monet menetelmät (t-testit, korrelaatio, regressio, varianssianalyysi, jnpp) edellyt-tävät, että analysoitavien muuttujien jakaumat täyttävät tietyt olettamukset: nor-maalisuus, vakiovarianssius, jne

• tilastopaketeissa on monia graafisia keinoja, kvantitatiivisia menetelmiä ja testejätarkistaa perusolettamusten voimassaolo ennen tilastoanalyysin suorittamista

• poikkeavat havaintoarvot ja puuttuvat tiedot kannattaa paikallistaa ja tarkistaaennen tilastoanalyysiä

Tulosten esittäminen

• prosenttiluvuissa nimittäjä käytävä ilmi; vähennys 25% → 20% saatetaan ilmaista5%:na tai 20%:na.

• merkintää x_ ± SD tulisi välttää, parempi tapa x

_ (SD = ...). SD mittaa hajontaa

mielekkäästi vain symmetrisissa jakaumissa. x_ ± S.E.M. esim. piirroksissa ovat

OK (n. 70% luottamusväli)• merkitsevyystestien antamien tulosten esittäminen: P = ..., testi• kannattaa harkita, onko testaaminen mielekästä, luottamusvälit usein mielekkääm-

piä

• merkitsevyysrajan α = 0.05 käyttö johtaa helposti merkitsevien tulosten yliedus-tukseen

• suoritettuja testejä on usein enemmän kuin raportoidaan: α−virhe kasvaa• kannattaa ilmoittaa tarkka P-arvo, esim. 0.061 tai 0.042• kaksi merkitsevää numeroa riittää• merkitsevyydet alle 0.0001 eivät ole mielekkäitä, esim. P = 2.6 * 10-8

• hyvä grafiikka usein parempi kuin raskaat taulukot

Virheitä tulosten analysoinnissa

• parittaisen asetelman käyttämättä jättäminen• testien soveltuvuuden tarkistaminen

olettamukset• toistomittausten tulkitseminen riippumattomiksi havainnoiksi• poikkeava havaintoarvojen merkityksen huomioimatta jättäminen

Biostatistisia näkökohtia artikkelin kirjoittamisessa 126 Seppo Sarna

Page 131: Sisällysluettelo - Terkko · Normanin ja Steinerin ’Biostatistics, The Bare Essentials’ on hauskasti ja selkeästi kirjoitettu kirja. Tekstiä on sopivasti höystetty huumorilla.

paljonko tulos muuttuu, jos ne jätetään pois• puuttuvien tietojen käsittelyssä paljon virheitä

eri korvausmenettelyt (esim. ohjelma SOLAS)

Biostatistiikan peruskurssi 1999 127 Biostatistisia näkökohtia artikkelin kirjoittamisessa

Page 132: Sisällysluettelo - Terkko · Normanin ja Steinerin ’Biostatistics, The Bare Essentials’ on hauskasti ja selkeästi kirjoitettu kirja. Tekstiä on sopivasti höystetty huumorilla.

Biostatistisia näkökohtia artikkelin kirjoittamisessa 128 Seppo Sarna

Page 133: Sisällysluettelo - Terkko · Normanin ja Steinerin ’Biostatistics, The Bare Essentials’ on hauskasti ja selkeästi kirjoitettu kirja. Tekstiä on sopivasti höystetty huumorilla.

Yleistämonimuuttujamenetelmistä

Monimuuttuja-analyysi: mistä siinä on kyse?Monimuuttuja-analyysi (’multivariate analysis’) tarkoittaa useamman kuin kahden muuttu-jan keskenäisiä riippuvuussuhteita samanaikaisesti selvittelevää tutkimusongelman lähesty-mistapaa. Useimmat tilastollista käsittelyä vaativat lääketieteelliset tutkimusongelmat ovatluonteeltaan monimuuttujaisia.

Monimuuttuja-asetelmissa ja -malleissa analysoitavat muuttujat voivat esiintyä joko tasaver-taisesti (symmetrisesti) tai niiden välillä voi olla tietyntyyppinen rakenteellinen riippuvuussuh-de, esim. ajallinen tai kausaalinen, jolloin toinen muuttuja edeltää toista. Tavallisin asetelmaon kuitenkin se, että jonkin tietyn muuttujan (riippuva/selitettävä muuttuja, ’dependent va-riable’) vaihteluita pyritään selittämään joukolla muita muuttujia (riippumattomat/selittävätmuuttujat, ’independent variables’). Tällainen tilanne syntyy esim. tutkittaessa erilaisten klii-nisten suureiden välisiä riippuvuussuhteita tai pyrittäessä selvittämään prognostisten tekijöi-den ja/tai hoitojen vaikutusta potilaan ennusteeseen.

Tutkimusongelmaa voidaan lähestyä yleensä monin tavoin eri menetelmiä ja malleilla käyttä-en. Tarkoituksenmukaisimman menetelmän ja parhaimmin soveltuvan mallin valinta ei olehelppoa. Tavallisimmin käytettyjä ovat lineaarinen tai sellaiseksi palautuva malli ja epäline-aariset mallit. Näistä eniten kliinisissä tutkimuksissa käytettyjä ovat etenkin logistinen malli.Lisäksi eloonjäämisanalyysien ja regressiomallien yhdistelmiä, esim. Cox:in mallin käyttö onnykyisin yleistä, mm. syöpätutkimuksissa. Varianssi- ja kovarianssianalyysit voidaan formaa-listi esittää ja ratkaista regressiomallien muodossa. Etenkin monimutkaisemmissa asetelmissa,kuten useampiulotteisten toistomittausten tai puuttuvien tietojen tapauksessa, menettelystä onselvä hyöty.

Monimuuttujamenetelmien käyttö kannattaa aina aloittaa tutkisaineiston huolellisella kuvaa-misella ja perusriippuvuuksien selvittelyllä. Mallien rakentaminen vuorovaikutteisesti (’inte-ractively’) on tehokas menetelmä, koska se pakottaa tutkijan miettimään kysymyksenasettelu-aan. Malliin valittavien muuttujien määrä tulee suhteuttaa potilasaineiston kokoon. Erityisentärkeää tämä on logistisessa mallissa, jossa estimoitavien parametrien määrä on useimmitenselvästi suurempi kuin muuttujien määrä. Tämä johtuu parametrien erilaisesta estimointitavas-ta verrattuna ns. korrelatiivisiin malleihin, esim tavalliseen lineaariseen regressioon.

Mallin rakentaminen kannattaa yleensä aloittaa tutkimushypoteesin kannalta olennaisimmistamuuuttujista, ja muita tutkimushypoteesiin liittyviä muuttujia lisätään malliin tarpeen mu-kaan.

Biostatistiikan jatkokurssi 1999 129 Yleistä monimuuttujamenetelmistä

Page 134: Sisällysluettelo - Terkko · Normanin ja Steinerin ’Biostatistics, The Bare Essentials’ on hauskasti ja selkeästi kirjoitettu kirja. Tekstiä on sopivasti höystetty huumorilla.

Monimuuttujamenetelmien luokittelu

Tarkastellaan muuttujien (y1, … , yq), q ≥ 1 riippuvuutta muuttujista (x1, … , xp), p ≥ 1. Lisäk-

si a) halutaan mahdollisesti hallita sekoittavien tekijöiden (z1, … , zr), r ≥ 0 vaikutusta jab) y:t tai x:t tai z:t voivat olla ajasta t riippuvia.

Monimuuttujamenetelmien valintaan vaikuttaa

1. q

2. muuttujien y, x ja z asteikko: välimatka/suhde-, järjestys- tai laatuero

3. aikatekijä t

Joitakin analyysitilanteita

1. a) q = 1b) y satunnaismuuttuja välimatka-asteikollac) x:t voivat olla myös ei satunnaisia ja kaksiarvoisiad) ei aikatekijääe) z:ja voi olla mukana

⇒ Monimuuttujaregressioanalyysi

2. a) q ≥ 1 (tavallisesti q = 1)b) y satunnaismuuttujac) x:t indikoivat vertailtavia ryhmiä ((0,1)-muuttujia)

Esim. 3 ryhmää, joista kolmas ryhmä toimii vertailu-, eli referenssiryhmänä

Ryhmä x1 x2

Tekijä

1 1 0

2 0 1

3 0 0

⇒ Varianssianalyysi

Huom!• Varianssianalyysi voidaan laskennallisesti toteuttaa regressiomallina.• Jos y noudattaa normaalijakaumaa x:ien eri kombinaatioissa tai on muunnettavissa

sellaiseksi, niin voidaan käyttää parametristä menetelmää (F-testit ym.) ellei, niinkäytetään ei-parametrisiä menetelmiä (Kruskal-Wallis, Friedman ym.)

• Jos mukana on aikatekijä, eli y-muuttujasta on toistoja, niin käytetään toistomit-tausten varianssianalyysiä

• Ryhmitteleviä/luokittelevia tekijöitä voi olla useita; varianssianalyysin suunnat/ta-sot

• Luokitukset voivat olla myös sisäkkäisiä (‘nested analysis of variance’)

Yleistä monimuuttujamenetelmistä 130 Seppo Sarna

Page 135: Sisällysluettelo - Terkko · Normanin ja Steinerin ’Biostatistics, The Bare Essentials’ on hauskasti ja selkeästi kirjoitettu kirja. Tekstiä on sopivasti höystetty huumorilla.

• Jos mukana on myös z-muuttujia, niitä kutsutaan kovariaateiksi

⇒ Kovarianssianalyysi

3. a) q ≥ 1, p ≥ 1, r ≥ 0b) muuttujat laatueroasteikollisiac) ei aikatekijää

⇒ Kontingenssitaulukkoanalyysittestit, assosiaation mitat, ym.log-lineaariset mallit

4. a) q = 1b) y on dikotominen; (0, 1)c) ei aikatekijää mukanad) tavallisesti z:ja mukanae) x:t voivat olla kaksiarvoisia ja/tai jatkuvia

⇒ Logistinen malli

5. a) q = 1b) aikatekijä mukana y:ssä, y kaksiarvoinenc) x:t luokittelevia/ryhmitteleviäd) z:t sekoittavia tekijöitä, joiden vaikutus halutaan hallitae) aikatekijä voi olla mukana z:issa

⇒ Coxin malli

• jos r = 0 (z:t puuttuvat)

⇒ Kaplan-Meier -menetelmä

• jos r = 1 (ositteita indikoiva muuttuja)

⇒ ositettu Kaplan-Meier -menetelmä

KirjallisuuttaAfifi AA, Azen SP. Statistical analysis. A computer oriented approach. Academic Press, New

York, 1979

Afifi AA, Clark V. Computer aided multivariate analysis. Chapman & Hall, London, 1996Third Ed. ISBN: 0 412 73060 X

Breslow NE & Day NE. Statistical methods in cancer research.Vol. 1 The analysis of case-control studies. IARC Scientific Publications No. 32, Lyon1980. ISBN: 92 832 11324

Biostatistiikan jatkokurssi 1999 131 Yleistä monimuuttujamenetelmistä

Page 136: Sisällysluettelo - Terkko · Normanin ja Steinerin ’Biostatistics, The Bare Essentials’ on hauskasti ja selkeästi kirjoitettu kirja. Tekstiä on sopivasti höystetty huumorilla.

Vol. 2 The design and analysis of cohort studies. IARC Scientific Publications No. 82,Lyon 1987. ISBN: 92 832 11820

Dixon WJ (chief editor). BMDP Statistical software manual. Berkeley, CA. Univ. of Califor-nia Press, 1992. Statistical solutions, fax +353-21-319630, e-mail: [email protected],WWW: http://www.statsoft.ie

Egret, software for epidemiological computing. Statistics and Epidemiology Research Corpo-ration, 909 Northeast 43rd Street, Seattle, Washington, 98105 U.S.A.Fax (206) 543-0131

Glantz SA, Slinker BK. Primer of applied regression and analysis of variance.McGraw-Hill, Inc., 1990. ISBN: 0-07-023407-8

Harris EK, Albert A. Survivorship Analysis for Clinical Studies. Marcel Dekker, Inc., NewYork 1991. ISBN: 0-8247-8400-6

Hosmer DW, Lemeshow S. Applied logistic regression. John Wiley & Sons, New York,1989. ISBN: 0-471-61553-6

Kalbfleisch JD, Prentice RL. The Statistical Analysis of Failure Time Data. John Wiley &Sons, New York, 1980. ISBN: 0-471-05519-0

Kleinbaum DG. Logistic Regression, A Self-learning Text. Springer-Verlag, New York,1994. ISBN: 0-387-94142-8

Kleinbaum DG, Kupper LL, Muller KE. Applied regression analysis and other multivariablemethods. PWS-Kent Publ. Co. Boston, 1988. ISBN: 0-87150-120-6

Miké V, Stanley KE. Statistics in medical research, methods and issues, with applications incancer research. John Wiley & Sons, New York, 1982. ISBN: 0-471-86911-2

Milliken GA, Johnson DE. Analysis of messy data. Vol I. A Van Nostrand Reinhold Book,New York, 1984

Sokal RR and Rohlf FJ. Biometry, the basic principles and practice of statistics in biologicalresearch, second edition. W. H. Freeman & co., New York, 1981. ISBN: 0-7167-1254-7

Yleistä monimuuttujamenetelmistä 132 Seppo Sarna

Page 137: Sisällysluettelo - Terkko · Normanin ja Steinerin ’Biostatistics, The Bare Essentials’ on hauskasti ja selkeästi kirjoitettu kirja. Tekstiä on sopivasti höystetty huumorilla.

Lineaarinenmonimuuttujaregressioanalyysi

Regression käsiteRegressioanalyysi nimitys on saanut alkunsa Francis Galtonin (1886) käyttämästä käsitteestäregressio. Tällä hän tarkoitti havaitsemaansa ilmiötä, että erittäin pitkien tai erittäin lyhyidenisien poikien aikuispituus on keskimäärin lähempänä väestön keskipituutta kuin isien pituus.Tätä ilmiötä kutsutaan regressioksi kohti keskiarvoa (’regression to the mean’). Etenkin seu-rantatutkimuksissa tämä ilmiö on tärkeä. Erityisesti silloin, kun eri ajankohtina suoritetut mit-taustulokset on muunnettu siten, että hajonta kunakin ajankohtana on sama, regressio kohtikeskiarvoa on väistämätön ilmiö (Healy ja Goldstein 1978). Muun muassa monissa verenpai-neen seurantatutkimuksissa on todettu, että jos tutkimusaineisto jaetaan seurannan alkaessaverenpainearvojen perusteella fraktiileihin (=sopiviin osiin) ja tarkastellaan jakauman ääripäi-tä, niin seuraavalla mittauskerralla ylimmässä ääripäässä verenpaine on keskimäärin laskenutja alimmassa keskimäärin kohonnut. Regressio kohti keskiarvoa kuuluu väistämättä satunnais-vaihteluun ja se tulisi ottaa huomioon tuloksia analysoitaessa. Pääasiassa käsitettä regressiokäytetään nykyisin kuitenkin regressiomalleista puhuttaessa.

Yksinkertainen lineaarinen regressioMuuttujat: x ja y

Ongelma: Kuinka paljon y:n keskiarvo muuttuu x:n muuttuessa yhden yksikönverran?

Tyyppi A: x ei satunnaismuuttuja; x:n arvot tutkijan valitsemia

Tyyppi B: x satunnaismuuttuja; havaintoparit (xi, yi) otos kaksiulotteisestanormaalijakaumasta.

Lineaarinen malli:

y = β0 + β1x + ε β0 = vakiotermi, β1 = regressiokerroin, ε = virhevaihtelu

Kerrointen β0 ja β1 estimointi (arviointi) suoritetaan tavallisesti pienimmän neliösumman me-netelmällä minimoimalla ns. pokkeamaneliösumma:

SSres = ∑(yi − yi)2 , missä yi on regressiosuoran perusteella arvioitu/ennustettu

yi :n arvo.

Kerrointen β0 ja β1 arvioiksi saadaan siten:

Biostatistiikan jatkokurssi 1999 133 Lineaarinen monimuuttujaregressioanalyysi

Page 138: Sisällysluettelo - Terkko · Normanin ja Steinerin ’Biostatistics, The Bare Essentials’ on hauskasti ja selkeästi kirjoitettu kirja. Tekstiä on sopivasti höystetty huumorilla.

β0 = b0 = y_ − b1x

_ β1 = b1 =

rxy sy

sx, missä rxy on Pearsonin tulomomentti/ristitulo-

korrelaatiokerroin.

Keskivirheet ovat:

SE(b1) = sy|x

sx √ n − 1 SE(b0) = sy|x √ 1

n +

x_

2

(n − 1) sx2

sy|x on y:n ehdollinen standardipoikkeama:

sy|x = √SSres

n − 2 = √ MSres

Suuretta sy|x2 kutsutaan y:n ehdolliseksi varianssiksi tai residuaalivarianssiksi (merkitään myös

sres2 ). MSres on keskineliösumma.

x:n arvoa x0 vastaavan ennustetun y:n arvon y0 keskivirhe:

SE(y0) = sy|x √1n

+ (x0 − x

_)2

(n − 1) sx2

Testit: H0: β0 = β0∗

t = b0 − β0

SE(b0) df = n – 2

H0: β1 = β1∗ (tavallisesti β1

∗ = 0)

t = b1 − β0

SE(b1) df = n – 2

100 (1 − α)% :n luottamusvälit:

Lineaarinen monimuuttujaregressioanalyysi 134 Seppo Sarna

Page 139: Sisällysluettelo - Terkko · Normanin ja Steinerin ’Biostatistics, The Bare Essentials’ on hauskasti ja selkeästi kirjoitettu kirja. Tekstiä on sopivasti höystetty huumorilla.

a) b1 ± t1 − α⁄2 ∗ SE(b1)b) b0 ± t1 − α⁄2 ∗ SE(b0)c) y0 ± t1 − α⁄2 ∗ SE(y0)

Nämä välit voidaan laskea mm. ohjelmalla CIA.

Regressiomallit ja niiden käyttöKirjallisuudessa nimitys regressioanalyysi viittaa useisiin erityyppisiin malleihin. Kaksi taval-lisinta perusmallityyppiä ovat seuraavat:

• malli A: (klassinen regressiomalli) Tutkitaan satunnais muuttujan y riippuvuuttaei-satunnaisista muuttujista x1, ..., xk. Muuttujiin xi ei liity mitään todennäköisyys-jakaumaoletuksia. Niiden saamat arvot ovat tutkijan valinnan varassa.

• malli B: (monimuuttuja-regressiomalli) Tämä malli eroaa edellisestä siten, ettämyös xi:t ovat satunnaisia ja niiden oletetaan yhdessä noudattavan jotain jatkuvaajakaumaa. Tavoitteena on rakentaa paras mahdollinen en nustaja millekä tahansatekijälle xi muiden tekijöiden xj (j ≠ i) perusteella.

Mallien A ja B välillä vallitsee muodollinen samankaltaisuus. Rakenteellisesti regressio-analyysi on aivan sama molempien mallien pohjalta. Mallin tulkintaan liittyvät suureet ja tes-tit ovat myös samoja tarkasteltiinpa mallia A tai mallia B. Arvioinnin (estimoinnin) suhteenon joitakin eroavuuksia.

Mallia käytetään, kun selitettävä muuttuja (y) on jatkuva ja halutaan vastaus seuraavanlaisiinongelmiin.

• Kuinka y:n arvot muuttuvat keskimäärin, kun muutetaan joko yhden tai useammanselittäjämuuttujan (x) arvoja samanaikaisesti? Tällainen ongelma on kokeellisissatutkimuksissa yleinen ja edustaa edellä kuvattua mallityyppiä A, mutta se ei yleensäsovellu epäkokeellisiin, kuten esim. sydän- ja verisuonitautien vaaratekijätarkas-teluihin.

• Kuinka mallin avulla voidaan ennustaa samojen henkilöiden tiettyjä mittaustulok-sia eri ajankohtina (esim. pituuskasvun ennustaminen) tai eri henkilöiden saamiay:n arvoja, kun tunnetaan heidän x:n arvonsa (esim. hoitotuloksen ennustaminen)?

• Minkälaisia riippuvuussuhteita vallitsee muuttujajoukossa (x1, ..., xp) ja kuinkanämä selittyvät toinen toisillaan (monimuuttujaregressio). Tällainen ongelma syn-tyy esimerkiksi monissa kroonisten sairauksien vaaratekijätutkimuksissa.

Esimerkkejä:1) Tutkitaan x1:n vaikutusta y:hyn, mutta tiedetään x2:n, x3:n, ... vaikuttavan myös y:hyn

ja x1:een.

Esim. y = respiratorinen funktio (esim. FEV1)x1 = altistusaika tutkittavalle altisteelle (esim. tupakointi)x2 = ikä

Biostatistiikan jatkokurssi 1999 135 Lineaarinen monimuuttujaregressioanalyysi

Page 140: Sisällysluettelo - Terkko · Normanin ja Steinerin ’Biostatistics, The Bare Essentials’ on hauskasti ja selkeästi kirjoitettu kirja. Tekstiä on sopivasti höystetty huumorilla.

2) Halutaan löytää niiden muuttujien joukko x1, ... , xr, jotka parhaiten kuvastavat y:nvaihteluita.

Esim. y = jokin nivelreuman vaikeusastetta kuvaava indeksix1, ... , xp joukko muuttujia, jotka assosioivat y:n kanssa ja keskenään

Yleinen regressiomalli voidaan esittää muodossa:

y = ƒ (x1, … , xp, b0, … , bp) + ε

y = selitettävä muuttujax1, ... , xp = selittäjämuuttujiaƒ = mallin muodon ilmaiseva funktiob0, ... , bp = mallin parametrit, regressiokertoimetε = virhevaihtelua edustava satunnaissuure

Regressioanalyysin päätehtävänä on löytää mahdollisimman hyvin tutkimuksen kohteena ole-vaa ilmiötä kuvaava malli ja arvioida (estimoida) tämän mallin parametrit siten, että yhteenso-pivuus ilmiöstä kerätyn tutkimusaineiston kanssa on mahdollisimman hyvä. Funktion f mää-räämisen kannalta regressiomallit voidaan jakaa kahteen päätyyppiin lineaariset tai sellaisek-si palautettavissa olevat tai epälineaariset mallit. Lineaarisessa mallissa parametrien vaikutuson lineaarinen, mutta selittävien muuttujien vaikutusten ei tarvitse olla lineaarisia.

Seuraavassa esimerkki muutamista kliinisissä sovelluksissa usein käytetetyistä regressiomal-leista:

A) ƒ = b0 + b1x1 + b2x2 + ... + bpxp

B) ƒ = b0 ∗ b1x1 ∗ b2x2 ∗ … ∗ bpxp

C) ƒ = b0+b1x+b2x2+ ... +bpx

p

D) ƒ = 1

1 + e−(b0 + b1x1 + b2x2 + … + bpxp)

Näistä A on tavallinen lineaarinen monimuuttujaregressiomalli, B on logaritmimuunnoksellalineaariseksi palautuva malli: log(ƒ) = log b0 + bilog xi. C on polynomiregressiomalli ja D onlogistinen regressiomalli: ln(ƒ/(1-ƒ)) = logit ƒ = b0 + bixi.

AnalysointitavatRegressiomallien kuten muidenkin monimuuttujamallien analyysitapoja on useita. Tavallisim-min käytössä olevat tilastoohjelmistot (Esim. BMDP, SAS, SPSS) sallivat regressiomalliensovittamisen joko kiinteänä (täydellisenä) mallina, jolloin malliin tulee yhdellä kertaa kaikkitiettyyn tutkittavaan hypoteesiin liittyvät x-muuttujat, tai askeltavana (’stepwise’) mallina jol-laisella tutkija voi etsiä joko parasta mahdollista mallia tai pyrkiä valitsemaan vain kaikkeinrelevanteimmat muuttujat lopulliseen malliin.

Lineaarinen monimuuttujaregressioanalyysi 136 Seppo Sarna

Page 141: Sisällysluettelo - Terkko · Normanin ja Steinerin ’Biostatistics, The Bare Essentials’ on hauskasti ja selkeästi kirjoitettu kirja. Tekstiä on sopivasti höystetty huumorilla.

Askeltavan mallin analysointitapoja on useita: etenevä, takeneva ja "parhaan" yhtälön valinta-menettely.

Etenevässä menettelyssä malliin otetaan riippumattomista muuttujista (x) se, joka korreloi(Pearsonin tulomomenttikorrelaatiokerroin) parhaiten riippumattomaan muuttujaan (y). Tä-män jälkeen jäljellä olevista muuttujista valitaan se, joka lisää eniten mallin selitysosuutta(’explanation rate’), kun huomioidaan mallissa jo oleva/olevat muuttujat. Näin jatketaan, kun-nes selitysosuus ei enää oleellisesti muutu.

Takenevassa menettelyssä malliin laitetaan aluksi kaikki ehdokkaana olevat x:t ja askel aske-leelta pudotetaan huonoimmat muuttujat pois. On syytä muistaa, että nämä menettelyt saatta-vat johtaa keskenään eri malleihin.

Askeltavaa mallia voidaan myös käyttää siten, että malliin pakotetaan tietty muuttujajoukko,jonka tutkija haluaa ehdottomasti sisältyvän malliin ja sen jälkeen lopuista vaihtoehtoisistamuuttujista valitaan askeltavasti parhaat.

Parhaan yhtälön mallille on luonteenomaista se, että malliin jo päässeet muuttujat eivät välttä-mättä siellä pysy, vaan ne saatetaan poistaa tarpeettomana jollain valintakierroksella, kun mal-liin on tullut mukaan sellaisia muuttujia, jotka sisältävät yhdessä olennaisesti saman informaa-tion kuin jokin/jotkin jo malliin sisällytetty muuttuja/muuttujat.

Parhaan yhtälön valintatapoja ovat:• F-menetelmä• R-menetelmä• vaihtamismenetelmä• kaikkien kombinaatioiden menetelmä

Huom. R-menetelmässä muuttujien sisäänotto malliin kuten F-menetelmässä,mutta poisto erilainen: muuttuja poistetaan mallista, mikäli poiston johdosta R2-arvo kasvaa (Tämä on mahdollista interkorrelaatioista johtuen.)

Epälineaarisia regressiomalleja voidaan pitää, logistista ja Cox:in mallia lukuunottamatta, sii-nä määrin erikoismenetelminä, että niiden käsitteleminen ei ole mahdollista tässä yhteydessä.

Toinen erikoismenetelmä on nk. sidottu regressioanalyysi, jolla tarkoitetaan sitä, että mallinparametreille b0, ..., bk annetaan tiettyjä side-ehtoja (reunaehtoja). Sidotussa mallissa f onedelleenkin yleensä lineaarinen. Sidottuun malliin joudutaan silloin, kun halutaan regres-siotason y = b0 + b1x1 + ... + bpxp

kulkevan määrättyjen pisteiden kautta. Tavallisin toivomus on, että halutaan pakottaa taso kul-kemaan origon kautta eli että asetetaan vaatimus b0 = 0.

Varianssi- ja kovarianssianalyysimallit voidaan muodollisesti esittää regressiomallin avul-la. Kun regressioanalyysissä x:t ovat tavallisesti kvantitatiivisiä (määrällisiä) suureita, niin va-rianssianalyysissä x:t ovat kiinteitä kokonaislukuja, esim.joko nollia tai ykkösiä, ilmaistenkoetuloksiin vaikuttavien eri tekijöiden tai ryhmien olemassaoloa. Kovarianssianalyysissäesiintyy molempia em. muuttujatyyppejä; niistä käytetään tällöin nimeä kovariaatit (’covaria-tes’). Esimerkiksi varianssianalyysi voidaan esittää seuraavassa muodossa:

Biostatistiikan jatkokurssi 1999 137 Lineaarinen monimuuttujaregressioanalyysi

Page 142: Sisällysluettelo - Terkko · Normanin ja Steinerin ’Biostatistics, The Bare Essentials’ on hauskasti ja selkeästi kirjoitettu kirja. Tekstiä on sopivasti höystetty huumorilla.

yi = xi0b0 + xi1b1 + ... + xipbp + ei, i = 1, ... , n

jossa xij:t (j=0, 1, ... , p) ovat kiinteitä lukuja ilmaisten jonkin tietyn tekijän läsnäoloa tai puut-tumista. Jos kyseessä on yksisuuntainen varianssianalyysi, missä tutkittavalla tekijällä on k ta-soa, niin p = k.

Yleisesti r:n tekijän mallissa p = ∑ki

i = 1

r

jossa ki on tekijän i tasojen lukumäärä.

Vaikka varianssianalyysi voidaan muodollisesti esittää regressiomallina, varianssianalyysiä eiyleensä kannata suorittaa regressioanalyysiohjelmistolla, vaan käyttäen tähän tarkoitukseenlaadittuja erityisohjelmia (esim. BMDP:ssä 1V, 2V, 3V, 4V ja 8V ja SAS:ssa GLM ja GEN-MOD).

Myös menetelmä nimeltä erotteluanalyysi (multiple Discriminant analysis) on kahden ryh-män, (esim. terveet ja sairaat) tapauksessa esitettävissä regressiomallina siten, että määritel-lään y muuttuja kaksiarvoiseksi (0 = terve, 1 = sairas). Tällöin regressiomallin antamat kertoi-met ovat verrannollisia erotteluanalyysistä saatavien kerrointen kanssa, eli minkä tahansa kah-den regressiokertoimen suhde bi

r ⁄ bjr on sama kuin vastaavien erotteluanalyysin kerrointen bi

E ⁄ bjE

suhde.

Samoin kuin varianssi- ja kovarianssianalyysi kannattaa erotteluanalyysikin kuitenkin suorit-taa erityisohjelmiston avulla (esim. BMDP:ssä ohjelma 7M).

Mihin olettamuksiin mallit perustuvat?Tarkastellaan mallia

y = b0 + b1x1 + ... + bpxp + e,

missä b0, b1, ... , bp ovat mallin parametreja perusjoukossa ja e on satunnaisvaihtelua edustavavirhetermi. Regressiomallille asetetaan tavallisesti seuraavat perusolettamukset

1. Lineaarisuus. Y:n keskiarvo on x:ien lineaarinen funktio.2. Havaintojen riippumattomuus. Kun tiedetään jonkin henkilön saama y:n arvo

tutkimusaineistossa, se ei anna mitään tietoa jonkun toisen henkilön saamasta y:narvosta.

3. Homoskedastisuus (vakiovarianssius). Y:n varianssi (Var(e)) on vakio mille tahan-sa muuttujien x1, ... , xp yhdistelmälle.

4. Normaalisuus. Muuttujien x1, ... , xp jokaisen yhdistelmän osalta y noudattaanormaalijakaumaa (Gaussin jakauma).

5. Ei yhdysvaihtelua (interaktiota) muuttujien xi välillä. Minkä tahansa muuttujan xi

muutoksen vaikutus y:hyn on riippumaton muiden selittäjämuuttujien tasosta.

Olettamukset 1 ja 5 liittyvät siihen, kuinka hyvin käytetty malli sopii yhteen tutkijan havainto-aineiston kanssa. Muut olettamukset liittyvät varianssien estimointiin ja merkitsevyystesteihin.

Lineaarinen monimuuttujaregressioanalyysi 138 Seppo Sarna

Page 143: Sisällysluettelo - Terkko · Normanin ja Steinerin ’Biostatistics, The Bare Essentials’ on hauskasti ja selkeästi kirjoitettu kirja. Tekstiä on sopivasti höystetty huumorilla.

Olettamus 1 voimassa, muttaolettamukset 3 ja 4 eivät!

Box – Cox muunnosTavoite: y:n normaalisuus

y’ = (y λ − 1)

λ, jos λ ≠ 0

= ln y , jos λ = 0

Huom. Jos λ = 12

⇒ neliöjuurimuunnos

Jos λ = -1 ⇒ käänteismuunnosJos λ = 1 ⇒ ei muunnosta

Vaihtoehdon λ = 1 paikkansapitävyyttä voidaan testata esim. ohjelmalla BMDP 1R.

On olemassa myös yhdistetty normaalisuus- ja vakiovarianssisuusmuunnos (ks. esim. Sokalja Rohlf, s. 425)

Residuaalien tulkintaMallin yhteensopivuutta voidaan parhaiten tutkia residuaalien (jäännösten) yi − yi avulla, mis-sä yi on henkilön i havaittu ja yi mallin perusteella ennustettu y:n arvo. Perusmenetelmänäjäännösten tutkimisessa on jakaa havaintoaineisto sopivasti xi:ien tai niiden yhdistelmien mu-kaisiin osaryhmiin (esim. kvarttiileihin)ja laskea residuaalien keskiarvot osaryhmissä. Jottamalli olisi mahdollisimman hyvin yhteensopiva havaintoaineiston kanssa, tulisi näiden residu-aalien keskiarvojen olla lähelle nollaa kaikissa osaryhmissä.

Esim Regressiomalli, jossa on kaksi riippumatonta muuttujaa, x1 ja x2,ja aineisto on jarttu niiden perusteella kvarttiileihin. Kussakin kvart-tiilissa on laskettu residuaalien keskiarvo.

Biostatistiikan jatkokurssi 1999 139 Lineaarinen monimuuttujaregressioanalyysi

Page 144: Sisällysluettelo - Terkko · Normanin ja Steinerin ’Biostatistics, The Bare Essentials’ on hauskasti ja selkeästi kirjoitettu kirja. Tekstiä on sopivasti höystetty huumorilla.

KvarttiilitResiduaalien keskiarvo

x1 x2

(alin) 1 1 r_

11

1 2 r_

12

1 3 .1 4 .

.

.

.4 1 .4 2 .4 3 .

(ylin) 4 4 r_

44

Keskiarvojen r_

ij tulisi olla lähellä nollaa. Residuaalien keskiarvojen välisiä eroja kvarttiilientai niiden yhdistelmien mukaisissa osaryhmissä voidaan testata varianssianalyysillä.

Useimmat tilasto-ohjelmistot tarjoavat lisäksi tutkijalle monelaisia keinoja residuaalien graafi-seen tarkasteluun, josta on usein hyötyä mallissa esiintyvien puutteiden toteamiseksi. Tällöinsaadaan esimerkiksi vastaus seuraavanlaisiin kysymyksiin:

Tuleeko muuttujan xi vaikutus y:hyn riittävässä määrin edustetuksi lineaarisella termillä bixi,vai pitäisikö malliin lisätä esimerkiksi neliöllinen termi cixi

2?

Tätä voidaan tutkia tarkastelemalla residuaaleja xi:n funktiona. Mikäli residuaalit ovatsuurimpia xi keskiarvon kohdalla ja pienenevät lähestyttäessä xi:n molempia ääripäitätai päinvastoin, niin neliöllisen termin mukaanotto malliin on useimmiten aiheellista.

Tarvitaanko mallissa yhdysvaikutustermejä (’interaction terms’)?

Tähän kysymykseen saadaan selvyyttä korreloimalla residuaalimuutuja erilaisten tulo-termien xixj, xixjxk, jne kanssa. Mikäli merkitsevää korrelaatiota esiintyy, tulisi kyseisetyhdysvaikutustermit sisällyttää malliin. Interaktioiden tarkastelu on usein havainnollistasuorittaa siten, että tarkastelun kohteena olevat muuttujat xi ja xj jaetaan sopivastiluokkiin ja ristiintaulukoidaan residuaalit näiden muuttujien suhteen. Mikäli positiivistenja negatiivisten residuaalien osuus on yhtä suuri taulukon jokaisessa solussa, yhdysvai-kutusta ei esiinny.

Pitäisikö lisämuuttuja z sisällyttää malliin?

Mikäli residuaalimuuttujan ja z:n välinen korrelaatio on merkitsevä, z:n lisääminen onaiheellista.

Riippumattomuusolettamuksen kanssa voi syntyä ongelmia silloin, kun tutkimusaineis-tossa on toistomittauksia samasta henkilöstä tai muulla tavoin on aiheutettu teknisiäriippuvuusuhteita havaintoyksiköiden välillä.

Lineaarinen monimuuttujaregressioanalyysi 140 Seppo Sarna

Page 145: Sisällysluettelo - Terkko · Normanin ja Steinerin ’Biostatistics, The Bare Essentials’ on hauskasti ja selkeästi kirjoitettu kirja. Tekstiä on sopivasti höystetty huumorilla.

Mikäli vakiovarianssiusolettamus todetaan paikkansapitämättömäksi, kannattaa ensiksikokeilla y:n muuntamista, esimerkiksi logaritmiseksi. Mikäli se ei tehoa, niin vasta sittenkannattaa turvautua havaintojen painottamiseen, joka usein johtaa tulkinnallisiin vai-keuksiin.

Regressiomalleja voidaan sovittaa myös luokiteltujen muuttujien aineistoon. Menetel-mät ovat tällöin periaatteessa samanlaisia kuin erilaiset vakiointimenetelmät. (ks. esim.Feldstein, 1966).

Kuinka kertoimet tulkintaan?Yhtälössä y = a + bx kerroin b kuvaa lineaarista riippuvuutta x:n ja y:n välillä siten, että x:nmuuttuessa yhden yksikön verran muuttuu arvioitu y:n arvo b:n yksikön verran ja x:n ollessa0 on y:n arvioitu arvo a. Tavallisesti tutkijat ovat kiinnostuneempia b:stä kuin a:sta.

Vastaavasti usean selittäjämuuttujan tapauksessa b-kertoimien tulkinta on seuraavanlainen:Tarkastellaan yhtälöä y = a + b1x1 + b2x2. Tällöin b1 ilmaisee y:n keskimääräisen muutoksenkun x1 muuttuu yhden yksikön verran ja sitä ennen x2:n lineaarinen riippuvuus ajatellaan pois-tetuksi sekä x1:stä että y:stä. Näin regressiomallin avulla voidaan vakioida mm. sekoittavia te-kijöitä (’confounding factors’).

Mikäli yhden yksikön suuruinen x1:n aiheuttaa aiheuttaa y:ssä erilaisen muutoksen sen mu-kaan, onko x2 suuri vai pieni, niin edellä esitetyn mallin yhteensopivuutta voidaan parantaaliittämällä mukaan yhdysvaikutustermi b3x1x2, kuten edellä on todettu.

Regressioanalyysissä kerrointen tulkintaa saattaa olennaisesti häiritä se, että mallissa on muka-na monia keskenään voimakkaasti korreloivia muuttujia, esim. useita samaa luonteenpiirrettäkuvaavia mittareita. Tällaista tilannetta kutsutaan multikollineaarisuusongelmaksi. Tällöinregressiokerrointen estimaatit tulevat epävakaiksi; kerrointen keskivirheet kasvavat. Erityises-ti on syytä muistaa, että jos malliin rakennetaan indikaattori-, vale- eli ’dummy’-muuttujia(0,1-muuttujia) useampiluokkaisista laatueroasteikollisista muuttujista, niin indikaattoreita tu-lee olla yksi vähemmän kuin alkuperäisessä muuttujassa on luokkia. Yleisesti ottaen 0,1-muuttujien käyttö regressiomallissa ei aiheuta ongelmia, mikä johtuu siitä, että bi:t ovat taval-laan summia ja siten niiden otosjakauma pyrkii normaaliseksi huolimatta xi:n jakaumasta.

Regressioanalyysimenetelmä on erittäin herkkä kerrointen etumerkkien suhteen, mikäli multi-kollineaarisuutta esiintyy. Etenkin askeltavassa regressioanalyysissä saattaa tällöin syntyä tul-kinnallisesti vaikea tilanne, kun jonkin muuttujan kertoimen etumerkki vaihtuu askeleesta toi-seen. Muista muuttujista riippumattomien muuttujien kertoimet ovat yleensä vakaita eivätkäaiheuta tulkintavaikeuksia.

Yksittäisten havaintoarvojen vaikutusta regressiokertoimiin voidaan tutkia käyttämällä paino-muuttujia siten, että annetaan paino nolla jollekin havaintoarvolle. Etenkin poikkeavien ha-vaintoarvojen (’outlier’) merkityksen arvioinnissa tällä menettelyllä on käyttöä.

Biostatistiikan jatkokurssi 1999 141 Lineaarinen monimuuttujaregressioanalyysi

Page 146: Sisällysluettelo - Terkko · Normanin ja Steinerin ’Biostatistics, The Bare Essentials’ on hauskasti ja selkeästi kirjoitettu kirja. Tekstiä on sopivasti höystetty huumorilla.

Standardoidut regressiokertoimetRegressioanalyysin tulosteissa esiintyy tavallisesti myös nk. standardoidut kertoimet, jotkalasketaan kaavalla:

βi∗ = bi

sxi

sy

Kaavasta voidaan todeta, että kyseessä on riippumattoman muuttujan xi ja riippuvan muuttu-jan y hajonnan suhteella normitettu regressiokerroin. Tällä menettelyllä pyritään saamaan riip-pumattomat muuttujat paremmin vertailukelpoisiksi keskenään, jotta niiden suhteellista osuut-ta y:n vaihtelun selittämisessä kyettäisiin arvioimaan. Asia ei ole kuitenkaan ollenkaan yk-siselitteinen ja standardoidut kertoimet voivat olla pahasti harhaanjohtavia (ks. esim.Greenland, 1986).

NeliösummatMerkitään riippuvan muuttujan (y) kokonaisvaihtelua edustavaa poikkeamista yi − y

_ lasketta-

va (ks. kuva) neliösummaa SStot, käytetyn regressiomallin avulla selittyvää osuutta vaihtelustaSSreg ja satunnaisvaihtelun osuutta SSres. Näiden neliösummien välillä pätee yhteys:

SStot = SSreg + SSres , joten todetaan, että regressiomallin yhteensopivuus käytetyn havaintoai-neiston kanssa on luonnollisesti sitä parempi, mitä pienemmäksi satunnaisvaihtelun osuusSSres jää. Näiden neliösummien suhteellista osuutta voidaan paremmin arvioida käyttämällänk. keskineliösummia MStot, MSreg ja MSres. Neliösummien laskentakaavat ovat seuraavat:

SStot = ∑ (yi − y_)2, MStot =

SStot

n − 1

SSres = ∑ (yi − y)2, MSres = SSres

n − p − 1

SSreg = SStot − SSres, MSreg = SSres

p

Edellä olevissa kaavoissa p on muuttujien määrä mallissa. Keskineliösummien (MS) nimittä-jässä olevaa lukua kutsutaan vapausasteeksi (’degree of freedom’).

Ohjelmistopakettien antamissa tulosteissa on yleensä annettu sekä poikkeamaneliösummatettä keskineliösummat. Tulosten tulkinnan ja jatkoanalyysien, kuten esimerkiksi testien kan-nalta keskineliösummat ovat merkityksellisemmät.

Huom. MS:ien perusteella saadaan:

sy2 = MStot (y:n varianssi)

sy|x2 = MSres (y:n ehdollinen varianssi)

Lineaarinen monimuuttujaregressioanalyysi 142 Seppo Sarna

Page 147: Sisällysluettelo - Terkko · Normanin ja Steinerin ’Biostatistics, The Bare Essentials’ on hauskasti ja selkeästi kirjoitettu kirja. Tekstiä on sopivasti höystetty huumorilla.

Mallin selitysasteTärkeä suure arvioitaessa regressiomallin hyvyyttä on selitysaste (’explanation rate’). Sitä mi-tataan riippumattomin muuttujien ja riippuvan muuttujan yhteiskorrelaatiokertoimella (R2 ,’multiple correlation coefficient squared’). Yleensä luku ilmaistaan prosentuaalisena 100*R2

ja todetaan, että tämä osuus y:n vaihtelusta kyettiin käytetyllä regressiomallilla selittämään.

Kun regressiomalliin lisätään muuttujia, niin teknisistä syistä johtuen selitysaste kasvaa. Aino-astaan numeeristen laskentamenetelmien aiheuttamat pyöristysvirheet voivat aiheuttaa toisen-laisen tilanteen. Tutkijan täytyy kuitenkin muistaa suhteuttaa malliin sisällytettävien muuttuji-en määrä havaintojen määrään, muuten saadut tulokset eivät ole realistisia, vaikka selitysasteolisikin korkea. Tavallisen R2:n asemesta kannattaakin yleensä tarkastella ja ilmoittaa ns. ad-justoitu selitysaste (R2

adj ), joka huomioi mallissa olevien muuttujien/parametrien määrän. Se-litysasteiden laskentakaavat ovat seuraavat:

R2 = SSreg

SStot = 1 −

SSres

SStot , missä SStot = SSreg + SSres

Adjustoitu R2

Radj2 = 1 −

MSres

MStot

Yhteiskorrelaatiokerroin:

Radj = ry, y , missä y = b0 + b1x1 + … + bpxp

y on regressioyhtälon perusteella ennustettu y:n arvo.

Biostatistiikan jatkokurssi 1999 143 Lineaarinen monimuuttujaregressioanalyysi

Page 148: Sisällysluettelo - Terkko · Normanin ja Steinerin ’Biostatistics, The Bare Essentials’ on hauskasti ja selkeästi kirjoitettu kirja. Tekstiä on sopivasti höystetty huumorilla.

Huom. — R on korkein mahdollinen yksinkertainen korrelaatio y:n ja minkä ta-hansa muuttujien x1, ..., xp lineaarikombinaation välillä ⇒ 0 ≤ R ≤ 1

— R2 ilmaisee, kuinka paljon y:n varianssista “selittyy” regressiomallinavulla

VarianssianalyysitaulukkoTilastopaketit esittävät regressioanalyysin päätulokset yleensä seuraavanlaisena varians-sianalyysitaulukkona:

Testattava hypoteesi: H0: R = 0 (H0: β1 = … = βp = 0)

Vaihtelulähteet Neliösummat Vapausasteet F-testi

Mallin selittämävaihtelu

SSreg pSSreg

⁄ pSSres

⁄ (n − p − 1)Jäännös(residuaali/virhe)

vahteluSSres n − p − 1

Huom. F-testisuure voidaan ilmaista myös yhteiskorrelaatiokertoimenR avulla muodossa:

F = R2 ⁄ p

(1 − R2) ⁄ (n − p − 1)

MultikollineaarisuusMultikollineaarisuutta on syytä epäillä kun

• regressiokertoimien keskivirheet (SE (β)) ovat poikkeuksellisen suuria• regressiokertoimella on ’väärä’ etumerkki• yhteensopivuustesti antaa mallille hyvän ’fitin’ vaikka minkään yksittäisen muut-

tujan kerroin ei ole tilastollisesti merkitsevä (Waldin testi)• regressiokertoimet ovat herkkiä, eli epästabiileja pienille mallin rakenteellisille

muutoksille tai yksittäisten ’data’pisteiden lisäämiselle tai poistamiselle

Varianssia suurentava (’inflate’) tekijä xi:lle:

VIFi = 1

1 − Ri2 , missä Ri = rxi, (x1, ..., xi − 1, xi + 1, … xk) on xi:n ja muiden muuttujien yhteis-

korrelaatiokerroin.

Nyrkkisääntö VIF:n tulkinnalle:VIF ≥ 4 (Ri ≥ 0.87) ← ongelmaVIF ≥ 10 (Ri ≥ 0.97) ← paha ongelma

Lineaarinen monimuuttujaregressioanalyysi 144 Seppo Sarna

Page 149: Sisällysluettelo - Terkko · Normanin ja Steinerin ’Biostatistics, The Bare Essentials’ on hauskasti ja selkeästi kirjoitettu kirja. Tekstiä on sopivasti höystetty huumorilla.

Residuaalien kvantitatiivisetanalysointimenetelmät

Merkitään havaittuja riippuvan muuttujan y arvoja (Y1, ... , Yn), missä n on aineistokoko.• Standardoidut residuaalit:

esi = ei

s y|x , missä

s y|x = √MSres , ei = Yi − yi

• Vaikutusmitta (’leverage’):

yi = hi1Y1 + … + hinYn , missä

∑ hij = 1 , hii = ∑ hij2

hii = ’leverage’, hii välillä [0, 1]

Yksinkertaisessa lineaarisessa regressiossa:

hii = 1n

+ (Xi − X

__)2

Σ(Xj − X__

)2

Jos hii → 1, niin yi → Yi . Tällöin k.o. pisteellä on suuri vaikutusennustearvoon.Ideaalitilanne: kaikilla Yi arvoilla on sama vaikutus arvoon yi

• hii:n odotusarvo:

E (hii) = k + 1

n , missä k on riippumattomien muuttujien määrä

ja n on aineistokoko.

• Katkaisukohta ’suurelle’ vaikutukselle:

2 k + 1

n

• t-jakaumaan sovitetut (’studentized’) residuaalit:

ri = ei

sy|x √ 1 − hii

Katkaisukohta ’suurelle’ vaikutukselle ri ≥ 2 (noudattaa t-jakaumaasuureeseen MSres liittyvin vapausastein)

• Cook’in etäisyys:

Di = ri2

k + 1∗

hii

1 − hii

Cookin etäisyys kertoo kuinka paljon regressiokertoimet muuttuvat yksittäisten havaintopistei-den vaikutuksesta

Biostatistiikan jatkokurssi 1999 145 Lineaarinen monimuuttujaregressioanalyysi

Page 150: Sisällysluettelo - Terkko · Normanin ja Steinerin ’Biostatistics, The Bare Essentials’ on hauskasti ja selkeästi kirjoitettu kirja. Tekstiä on sopivasti höystetty huumorilla.

Di riippuu sisäisesti ri:stä, joka kuvastaaa mallin puutteellista yhteensopivuutta (’fittiä’) pis-teessä i, sekä pisteen i vaikutuksesta (hii). Di noudattaa likimain F-jakaumaa vapausastein(k + 1) ja (n - k - 1).

Di:tä voidaan tulkita seuraavasti:

Di > 1 ⇒ lisärarkastelu on aiheellistaDi > 4 ⇒ pisteen i kohdalla vakava poikkeavan arvon (’outlier’) ongelma.

Puuttuvat havaintoarvotLääketieteellisissä tutkimusaineistoissa ei voida välttyä siltä tilanteelta, että aineistoon jääpuuttuvia tietoja, esimerkiksi näytteet voivat pilaantua tai koe epäonnistuu laitevian takia.

Monissa tilastollisissa analyysimenetelmissä tarvitaan täydelliset havainnot eli tietoja ei saapuuttua. MIkäli havaintojoukko ei ole täydellinen, valittavissa ovat seuraavat menettelytavat:

• Otetaan mukaan vain täydelliset havainnot,• Kerätään regressiota koskeva tieto vain niistä havaintoyksiköistä, joista se on

kunkin muuttujan osalta on saatavilla, • Korvataan puuttuvat tiedot keskiarvoilla,• Ennustetaan puuttuvat tiedot muiden selittäjien avulla.• Siirretään toistoasetelmissa viimeisin havainto eteenpäin

Mikäli puuttuvat tiedot menevät hankalasti ristiin eri muuttujien osalle eri havaintoyksiköissä,täydellisten havaintojen määrä voi supistua kovin pieneksi. Tällöin analyysimenetelmän tehoheikkenee ja tuloksiin tulee virheellisyyttä.

Tietojen keräämistä vain niistä havaintoyksiköistä, joista sitä on kunkin muuttujan osalta saa-tavilla on helppo soveltaa, mutta tämä ei takaa luotettavuutta (ks. Miettinen, 1985, s. 232).

Mikäli puuttuvat tiedot korvataan keskiarvoilla, niitä ei saa olla kovin paljon ja puuttuvien tie-tojen tulisi jakaantua satunnaisesti aineistossa, sillä muuten erot ja riippuvuussuhteet saattavattulla harhaisiksi.

Puuttuvien tietojen ennustaminen muiden selittäjien avulla on vaativin, mutta useimmissa ta-pauksissa myös luotettavin menettely.

Uusimmissa tilasto-ohjelmistoissa on joustavat puuttuvien tietojen käsittelymahdollisuudet,mutta kannattaa muistaa, että näennäisesti kaunis ja helposti tuotettu lopputulos ei välttämättäole luotettava, mikäli puuttuvia tietoja on paljon.

Monissa toistomittauksia käyttävissä lääketutkimuksissa käytetään yleisesti menettelyä, jossaennenaikaisesti keskeyttäneen potilaan viimeisin laboratoriomittausarvo siirretään edusta-maan myös myöhempiä mittauskertoja. Tämä viimeisen havainnon eteenpäinsiirto (’last ob-servation carried forward’) -menettely saattaa johtaa harhaiseen tulokseen mikäli keskeuttänei-tä potilaita on paljon. Lisäksi harhan suuntaa on vaikea arvioida.

Lineaarinen monimuuttujaregressioanalyysi 146 Seppo Sarna

Page 151: Sisällysluettelo - Terkko · Normanin ja Steinerin ’Biostatistics, The Bare Essentials’ on hauskasti ja selkeästi kirjoitettu kirja. Tekstiä on sopivasti höystetty huumorilla.

Regressioanalyysin yhteys erotteluanalyysiinOlettakaamme, että tutkimusaineisto jakaantuu jonkin kriteerimuuttujan perusteella yksikäsit-teisesti k:hon yksilöryhmään, jotka ovat tilastollisesti riippumattomia otoksia vastaavista tutki-muksen kohteena olevista perusjoukoista (esim. psykoottiset potilaat, neuroottiset potilaat javertailuhenkilöt). Olettakaamme, että tutkija on kiinnostunut, miten nämä ryhmät eroavat toi-sistaan tutkittavien asioiden suhteen, joita kuvaa muuttujajoukko x1, ... , xp.

Alunperin R. A. Fisherin kehittämä erotteluanalyysi (multiple discriminant analysis) sovel-tuu ratkaisumenetelmäksi seuraavan tyyppisissä ongelmissa:

1) Eroavat valittujen muuttujien ryhmäkeskiarvot toisistaan?2) Mitkä ovat ne xi-muuttujien lineaariset funktiot (erottelufunktiot), jotka erottelevat

ryhmiä tehokkaimmin?3) Kuinka moniulotteinen ryhmäkeskiarvojen välisten erojen ongelma on, eli kuinka

moniulotteiseen avaruuteen ryhmäkeskiarvojen olennaiset erot oat projisioitavissa?4) Löytyykö ryhmäkeskiarvojen välisiä eroja kuvaaville funktioille mielekäs tulkinta?

Erottelyanalyysin tulosten perusteella voidaan suorittaa monia jatkoanalyysejä, esimerkiksiuusien potilaiden diagnostisointia.

Ongelma 1) voidaan ratkaista monimuuttujavarianssianalyysin avulla edellyttäen, että pe-rusjoukkojen kovarianssimatriisit ovat samoja. Muuttujien ryhmäkeskiarvojen välisiä erojavoidaan testata F-testillä. Nämä testit onkin syytä suorittaa ennen varsinaista erotteluanalyy-siä. Yksittäisiin muuttujiin kohdistuvat F-testit eivät ratkaise erojen ongelmaa kokonaan, kos-ka muuttujat korreloivat keskenään. Totaaliseksi testiksi soveltuu Wilks’in λλ-testi ja sen F-ap-proksimaatio. λ-testiä ei kannata erikseen suorittaa, sillä se saadaan erotteluanalyysin sivutuot-teena. Erotteluanalyysin edellytyksenä itseasiassa on, että ongelmaan 1 saadaan myöntävävastaus, jonka jälkeen voidaan ryhtyä analysoimaan lähemmin havaittuja eroja.

KirjallisuuttaCornfield J: Joint dependence of risk of coronary heart disease on serum cholesterol and systo-lic blood pressure: a discriminant function analysis. Fedr Proc 21: 58-61, 1962.

Feldstein MS: A binary variable multiple regression method of analyzing factors affecting pe-rinatal mortality and other outcomes of pregnancy. J Roy Stat Soc Series A 129: 61-73, 1966.

Galton F: Regression towards mediocrity in hereditary statues. Journal of the AnthropologicalInstitute 15: 246-263, 1886.

Greenland S, Schlesselman II, Criqui MH: The Fallacy of Employing Standardized Regressi-on Coefficients and Correlations as Measures of Effect. Am J of Epid 123: 2, 1986.

Healy MJR, Golstein H: Regression to the mean. Ann Hum Biol 5: 277-280, 1978.

Miettinen OS: Theoretical Epidemiology. Principles of Occurence Research in Medicine,John Wiley & Sons, New York, 1985.

Biostatistiikan jatkokurssi 1999 147 Lineaarinen monimuuttujaregressioanalyysi

Page 152: Sisällysluettelo - Terkko · Normanin ja Steinerin ’Biostatistics, The Bare Essentials’ on hauskasti ja selkeästi kirjoitettu kirja. Tekstiä on sopivasti höystetty huumorilla.

Lineaarinen monimuuttujaregressioanalyysi 148 Seppo Sarna

Page 153: Sisällysluettelo - Terkko · Normanin ja Steinerin ’Biostatistics, The Bare Essentials’ on hauskasti ja selkeästi kirjoitettu kirja. Tekstiä on sopivasti höystetty huumorilla.

Varianssi- jakovarianssianalyysi

Huom. Molemmat menetelmät ovat regressioanalyysin erikoistapauksia.

Varianssianalyysin ongelma-asettelutMuuttujat: x ja y

y välimatka-asteikollinen, normaalijakautunut ⇒ Parametrinen varianssianalyysiy järjestysasteikollinen, ei oletusta jakaumasta ⇒ Ei-parametrinen varianssianalyysi (Kruskal-Wallis, Friedman jne.)

Ongelma:• onko ryhmäkeskiarvojen välillä eroa, kun ryhmiä > 2 (parametrinen)• eroavatko ryhmien jakaumat sijainnin suhteen toisistaan (ei-parametrinen)• x:t ryhmiä ilmaisevia muuttujia (tekijöitä/tasoja/suuntia) (yksisuunt., kaksisuunt.

jne. varianssianalyysi)• jos x:t ovat limittäin, niin kyseessä on hierarkinen malli• nimitys varianssianalyysi johtuu siitä, että menetelmä perustuu varianssin pilkko-

miseen ryhmien sisäiseksi, ryhmien väliseksi jne. varianssikomponenteiksi• mikäli mallissa on mukana sekoittavia tai adjustoivia tekijöitä eli kovariaatteja z,

niin kyseessä on kovarianssianalyysi

Huom. Sekä varianssi- että kovarianssianalyysissä perusolettamukset ovatsamat kuin regressioanalyysissä.

Mallityypit 1. Kiinteiden vaikutusten malli (“Fixed effects model”) malli I

• luokittelevan tekijän luokat valittu tutkijan intressien mukaisesti

Esim. a) Annos-vaste-tutkimus• samat/eri henkilöt• vaste eri annoksiin

b) Eri hoitomuotojen vertailu

2. Satunnaisten vaikutusten malli (“Random effects model”) malli II• luokittelevan tekijän luokat valittu satunnaisesti• aineisto valittu jokaiseen luokkaan satunnaisotannalla äärettömästä perusjoukosta

Biostatistiikan jatkokurssi 1999 149 Varianssi- ja kovarianssianalyysi

Page 154: Sisällysluettelo - Terkko · Normanin ja Steinerin ’Biostatistics, The Bare Essentials’ on hauskasti ja selkeästi kirjoitettu kirja. Tekstiä on sopivasti höystetty huumorilla.

Esim. Altistuksen ja taudin välinen yhteys• altistustekijä luokiteltu k:hon luokkaan• luokkarajat valittu satunnaisesti

3. Sekamalli (“Mixed model”)• sisältää sekä kiinteitä että satunnaisia luokittelevia tekijöitä

Yksisuuntainen (parametrinen)varianssianalyysi

• yksi luokitteleva tekijä• luokkia k kpl

• aineistokoko N = ∑ i = 1

k

ni

Vaihtelu-lähde

Vapausasteet NeliösummatKeskineliö-

summatF-suhde

Ryhmienvälillä

k – 1 SSB

SSB

k − 1 = MSB MSb

MSwRyhmiensisällä

N – k SSw

SSw

N − k = MSw

Huom.• Ryhmien sisäinen vaihtelu = residuaali- eli virhevaihtelu • suhde MSB/MSW noudattaa likimain F-jakaumaa vapausastein k-1 ja N- k

Esim. Parittaiset vertailut, merkitsevyystaso α = 0.05

Kontrolli Hoito A Hoito B

Kontrolli — — —

Hoito A 0.05 — —

Hoito B 0.05 0.05 —

Kun tarkastellaan näitä testejä ryhmänä, niin P(“ainakin yhdessä testissä ryhmien välillä on eroa”) = 5 % + 5 % + 5 % = 15%.

Tämä ajattelu edellyttää, että testaukset ovat toisistaan riippumattomia. Näin saatava P-arvoon yleensä konservatiivinen.

Huom. Jos ryhmiä on k kpl ja halutaan verrata kaikkien ryhmien keskiarvojakeskenään, niin vertailuja tulee yhteensä:

Varianssi- ja kovarianssianalyysi 150 Seppo Sarna

Page 155: Sisällysluettelo - Terkko · Normanin ja Steinerin ’Biostatistics, The Bare Essentials’ on hauskasti ja selkeästi kirjoitettu kirja. Tekstiä on sopivasti höystetty huumorilla.

m = k ∗ (k − 1)

2

Tällöin merkitsevyystaso α pitää korjata Bonferroni-epäyhtälöä

α ≤ mα∗

käyttäen, eli korjattu merkitsevyystaso on

α∗ = αm

Esim. α = 0.05, k = 4, m = 6 ⇒ α∗ = 0.05

6 = 0.008

Varianssien homogeenisuustestitSuositus: (Conover, Johnson & Johnson, 1981)

1. Jos ollaan vakuuttuneita normaalisuudesta ⇒ Bartlettin tai Hartleyn testi.Jos ryhmäkoot kovin erisuuret ⇒ Bartlettin testi.

2. Jos aineistokoko suuri ⇒ Boxin testi.Tämä testi on melko robustinen, mutta sen voima on heikko pienissä aineistoissa.

3. Kaikissa muissa tilanteissa Levene’n testi.Tämä testi on hyvä yleisvalinta, ja on BMDP:ssä.

Parittaiset vertailutF-testin antama P < 0.05 ja vertailut ovat ennalta suunniteltuja.

Suositus: LSD-menetelmä (Least Significant Difference)

Menettely:• 1. Lajittelu suuruusjärjestykseen

x_

(1), … , x_

(k), missä x_

(i) on jokin keskiarvoista x_

1, … , x_

k

• 2. Vertailut pareittain

| x_

(i) − x_

(j)| vs. tα⁄2 ∗ s √1n(i)

+ 1

n(j) ,

missä df = N − k, N =∑ ni ja s = √ MSw

Kontrastit: vertailut ennalta suunniteltu

Biostatistiikan jatkokurssi 1999 151 Varianssi- ja kovarianssianalyysi

Page 156: Sisällysluettelo - Terkko · Normanin ja Steinerin ’Biostatistics, The Bare Essentials’ on hauskasti ja selkeästi kirjoitettu kirja. Tekstiä on sopivasti höystetty huumorilla.

L = ∑ i = 1

k

ci µi , ∑ i = 1

k

ci = 0 , missä µ1, … , µk ovat perusjoukkojen keskiarvoja

Esim. Halutaan verrata kontrollia (µ1) ja kahta hoitoa yhdistettynä (µ2, µ3)keskenään

⇒ L = µ1 − µ2 + µ3

2

Esim. Viisi hoitoa ja verrataan hoitoja 1 ja 5 keskenään

⇒ L = µ1 + 0 ∗ µ2 + 0 ∗ µ3 + 0 ∗ µ4 − µ5

Esim. Neljä hoitoa ja verrataan hoitoja 1 ja 2 hoitoihin 3 ja 4

⇒ L = (µ1 + µ2) − (µ3 + µ4)

Kontrastin luottamusvälit:

∑ cix_

i ± √(k − 1)Fk − 1, n − k (α) ∗ s√∑ci2

ni , missä s = √ MSw

Esim. 4 ryhmää ja N = 45, s = 21.34, F3,41(0.05) = 2.84

CI95: ∑cix_

i ± 62.29 √∑ci2

ni

Testausmenettely: H0: L = 0 , jos 0 ∉ CI95 ⇒ P < 0.05

Monivertailut (post-hoc -vertailut)Monivertailutestien perusidea:

Määritetään kriittiset erotukset, joita suurempia vastaavien keskiarvojen erotusten tulee ollaollakseen tilastollisesti merkitseviä.

Kaikissa post hoc -testimenetelmissä asetetaan vaatimuksia testattavalle aineistolle, kuten1. Varianssien homogeenisuus2. Samat ryhmäkoot3. Normaalisuus4. Merkitsevä F-arvo keskiarvojen yleisvertailussa

Varianssi- ja kovarianssianalyysi 152 Seppo Sarna

Page 157: Sisällysluettelo - Terkko · Normanin ja Steinerin ’Biostatistics, The Bare Essentials’ on hauskasti ja selkeästi kirjoitettu kirja. Tekstiä on sopivasti höystetty huumorilla.

Eri menetelmät asettavat erilaisia vaatimuksia, esimerkiksi: 1. Fisherin pienimmän merkitsevän eron testi

Olettamukset: 1, 2, 3, 4

2. Bonferroni/Dunn-menetelmäOlettamukset: 1, 2, 3

3. Tukeyn menetelmäOlettamukset: 1, 3

4. Scheffen menetelmäOlettamukset: 4

5. Dunnettin menetelmä (vertailu kontrolliryhmään)Olettamukset: 3

6. Student-Newman-KeulsOlettamukset: 1, 2, 3, 4(askeltava/kerroksittainen monivertailutesti)

7. Duncanin menetelmäOlettamukset: 1, 3

8. Games/Howellin menetelmäOlettamukset: 4 — on SuperANOVAssa (Mac), ei BMDP:ssä — uusin menetelmistä

Huom! Monivertailumenetelmiä käytettäessä voi syntyä tilanne: F-testi antaaP < 0.05, mutta mikään parittaisista vertailuista ei anna merkitsevääarvoa. Tällöin on oltava vähintään yksi kontrasti, jossa on ero.

Suosituksia (Milliken & Johnson, 1984):• Suorita keskiarvojen yleisvertailu F-testillä.• Jos F-testi antaa selvän eron tasolla 5%. käytä Fisherin LSD-menetelmää

ennalta suunnitellut parivertailutkontrastit

• Jos F-testi ei anna merkitsevää eroa, niin käytä Bonferroni/Dunn-menetelmää.

Esim. — 6 työtehtävää— ni, i = 1, ... , 6 työntekijää kussakin ryhmässä— pulssi/20 sek.(Lähde: Milliken & Johnson s. 37)

Tulokset:

Biostatistiikan jatkokurssi 1999 153 Varianssi- ja kovarianssianalyysi

Page 158: Sisällysluettelo - Terkko · Normanin ja Steinerin ’Biostatistics, The Bare Essentials’ on hauskasti ja selkeästi kirjoitettu kirja. Tekstiä on sopivasti höystetty huumorilla.

Työtehtävä 1 2 3 4 5 6

ni 13 12 10 10 12 11

Pulssinkeskiarvo

31.9 31.1 35.8 38.0 29.5 28.8

Varianssi- ja kovarianssianalyysi 154 Seppo Sarna

Page 159: Sisällysluettelo - Terkko · Normanin ja Steinerin ’Biostatistics, The Bare Essentials’ on hauskasti ja selkeästi kirjoitettu kirja. Tekstiä on sopivasti höystetty huumorilla.

Kriittinen erotus:

Otoskoko Fisher Bonferroni Scheffe Tukey

13, 12 4.450 6.809 7.658 6.677

13, 10 4.676 7.154 8.047 7.314

13, 11 4.556 6.971 7.841 6.973

12, 10 4.760 7.283 8.192 7.314

12, 12 4.540 6.946 7.813 6.677

12, 11 4.642 7.102 7.989 6.972

10, 10 4.972 7.607 8.557 7.313

10, 11 4.858 7.433 8.361 7.313

Todetaan, että1. Fisher on paras kaikista; kriittinen arvo on pienin jokaisella ni:en kombinaatioilla2. Bonferroni on kaikissa kombinaatioissa parempi kuin Scheffe.3. Bonferroni on joissakin tapauksissa parempi ja joissakin huonompi kuin Tukey.

Monivälitestit (“multiple range” -testit)Esim. (edellä oleva)

Duncanin (uusi) menetelmä:

Tehtävä 6 5 2 1 3 4

Keskiarvo 28.2 29.5 31.1 31.9 35.8 38.0

Newman-Keuls: Kriittisen pisteen määritys erilainen kuin Duncanin menetelmässä

Kaksisuuntainen varianssianalyysi• kaksi luokittelevaa tekijää A ja B• tekijässä A I luokkaa/tasoa ja tekijässä B J luokkaa/tasoa

Asetelmat1. Ristikkäisasetelma (“crossed”)

jokaisessa lokerossa vähintään yksi havainto2. Sisäkkäisasetelma (“nested”) - hierarkinen asetelma

jokainen J:stä tasosta esiintyy korkeintaan yhdellä I:stä tasosta3. Toistomittausasetelmat

samoista henkilöistä toistoja lokeron sisällä (esim. eri ajankohtina)4. Yhdistelykokeet (“factorial design”)

Biostatistiikan jatkokurssi 1999 155 Varianssi- ja kovarianssianalyysi

Page 160: Sisällysluettelo - Terkko · Normanin ja Steinerin ’Biostatistics, The Bare Essentials’ on hauskasti ja selkeästi kirjoitettu kirja. Tekstiä on sopivasti höystetty huumorilla.

kaksi tai useampia luokittelevia tekijöitä

Varianssianalyysitaulukko — ei toistoja lokerossa

Vaihtelulähde Neliösummat VapausasteetKeski-

neliösummatF-suhde

Tekijä A SSa I – 1 MSa

MSa

MSres

Tekijä B SSb J – 1 MSb

MSb

MSres

Residuaali(virhe)

SSres (I – 1) (J – 1) MSres

Yhteensä SSt IJ – 1

Yhdistelykoe — kaksi tekijää ja toistoja lokerossa

Vaihtelulähde Neliösummat VapausasteetKeski-

neliösummatF-suhde

Tekijä A SSa I – 1 MSa

MSa

MSres

Tekijä B SSb J – 1 MSb

MSb

MSres

Interaktio SSi (I – 1) (J – 1) MSi

MSi

MSres

Residuaali*

/virheSSres N – IJ MSres —

Yhteensä SSt N − 1**

*ryhmien sisäinen vaihtelu

**aineistokoko = N

Esim. 2×2 -yhdistelykoe, interaktioy = munuaisten reniinipitoisuus

Aineisto:• 2 rottakantaa (tekijä B)

HypertensivinenNormotensiivinen

• 2 hoitoa (tekijä A)NGFS (“Nerve Growth Factor Serum”)Kontrolli (“Sham Serum”)

Varianssi- ja kovarianssianalyysi 156 Seppo Sarna

Page 161: Sisällysluettelo - Terkko · Normanin ja Steinerin ’Biostatistics, The Bare Essentials’ on hauskasti ja selkeästi kirjoitettu kirja. Tekstiä on sopivasti höystetty huumorilla.

Kanta

H N

HoitoKontrolli

2.41(n = 10)

2.95(n = 8)

NFGS4.24

(n = 8)2.89

(n = 6)

(Lähde: Cutilletta AF et al., 1977, Development of left ventricularhypertrophy in young spontaneous hypertensive rats after peripheralsympathectomy. Circ Res 40: 428-33.)

Kysymykset:1. Onko hoitojen välinen ero sama molemmilla rottakannoilla vai onko interaktioita?2. Onko hoitojen välillä eroa, kun kannat yhdistetään (painotettu keskiarvo)?

Varianssianalyysitaulukko:

Vaihtelu-lähde

SS df MS F P

Hoito 5.99 1 5.99 100.3 < 0.001

Kanta 0.619 1 0.619 10.4 < 0.001

Interaktio 12.68 1 12.68 212.4 < 0.001

Ryhmiensisäinen

1.671 28 0.0597 —

Tulkinta:1. On interaktioita, eli hoidon vaikutus on erilainen eri kannoilla2. Hoidon tilastollista merkitsevyyttä ei voi päätellä F-testistä, vaan pitää suorittaa

kantojen sisällä monivertailutesti

Kanta H:

t = √4.24 − 2.41

0.0597 ∗ (1⁄8 + 1⁄10) = 15.25, P < 0.001 (Bonferroni-korjattu)

Kanta N:

t = √ 2.89 − 2.950.0597 ∗ (1⁄6 + 1⁄8)

= − 0.45, P > 0.05

Biostatistiikan jatkokurssi 1999 157 Varianssi- ja kovarianssianalyysi

Page 162: Sisällysluettelo - Terkko · Normanin ja Steinerin ’Biostatistics, The Bare Essentials’ on hauskasti ja selkeästi kirjoitettu kirja. Tekstiä on sopivasti höystetty huumorilla.

Toistomittausten varianssianalyysiToistomittausanalyysien (’Analysis of repeated measures’) perusideana on vähentää yksilöi-den välisen vaihtelun vaikutusta itse tutkittavaan asiaan, esimerkiksi hoitojen vaikutukseen.

Toistomittausasetelmat ovat yleisesti ottaen voimakkaampia kuin tavanomaiset asetelmat, kos-ka niissä yksilöiden välinen vaihtelu voidaan poistaa (eristää) analyysista ja siten redusoidavirhevaihtelua.

Toistoasetelmissa tullaan yleensä toimeen pienemmällä koehenkilö (tai -eläin) määrällä kuinasetelmissa, joissa ei ole toistoja. Tämä on tärkeää etenkin harvinaisten sairauksien tutkimises-sa tai muuten tilanteissa, joissa koehenkilöitä on vaikea saada.

Koeasetelma:

RyhmäKoeyksikkö

(yksilö)Vastetulokset;mittauskerrat

1 2 ... k

1

1 y y ... y

2 y y ... y

. y y ... y

. y y ... y

n1 y y ... y

.

.

.

G

1 y y ... y

2 y y ... y

. y y ... y

. y y ... y

ng y y ... y

Huom! Erikoistapauksina tavalliset varianssianalyysit ANOVA ja MANOVA(monimuuttujavarianssianalyysi).

Ongelma-asettelu:

Yksi ryhmä: Tapahtuuko mitattavassa suureessa muutosta ajan tai peräkkäinsuoritettujen hoitojen suhteen

Useampia ryhmiä: Ovatko muutokset erilaisia eri ryhmien välillä

Testi: F-testi

Varianssi- ja kovarianssianalyysi 158 Seppo Sarna

Page 163: Sisällysluettelo - Terkko · Normanin ja Steinerin ’Biostatistics, The Bare Essentials’ on hauskasti ja selkeästi kirjoitettu kirja. Tekstiä on sopivasti höystetty huumorilla.

• Edellyttää teoriassa, että korrelaatiot ryhmien sisällä eri ajankohtien välillä ovatsamat! (Sfeerisyysoletus)

• Käytännössä olettamus on harvoin voimassa.

Ennen toistomittausten varianssianalyysiä tulisi suorittaa havaintoaineiston rakenteen tarkaste-lu ennen analyysiä seuraavista syistä johtuen:

Tavoitteet:1. Hoitojen vaikutusten ymmärtäminen kokonaisvaltaisesti2. Selvittää keskiarvojen erojen testausedellytykset

jakaumien muoto, normaalisuus?hajonnaterot ryhmien välillä

3. Minkälaiset ovat eri yksilöiden vastekäyrät?ovatko samanlaisia keskenäänminkälaisia riippuvuussuhteita on eri mittauskertojen välilläpoikkeavat havainnotonko varianssien vaihtelussa systematiikkaaToistomittausten varianssianalyysissä laskenta perustuu ortogonaalisiin po-lynomeihin.

Esim. Kolme mittausta y1, y2, y3

p0 = y1 + y2 + y3

√3

p1 = y1 + 0∗ y2 − y3

√2

p2 = y1 − 2∗ y2 + y3

√6

• Laskennassa p0:a käytetään ryhmien välisten erojen testaamiseen.• p1:tä (lineaarinen komponentti) ja p2:ta (kuutiollinen komponentti) käytetään ryh-

mien sisäisten vaihtelujen ja interaktion testaamiseen• Ortogonaaliset polynomit (p1, p2) on konstruoitu siten, että kertoimien summa on

0 ja niiden neliöiden summa on 1.• Ortogonaalisten polynomien tulisi olla riippumattomia ja niiden tulisi olla sym-

metrisiä (kaikilla sama varianssi, sfeerisyysoletus).• Mikäli symmetrisyysoletus ei toteudu, F-testiä voidaan käyttää pienentämällä

vapausasteita.

• BMDP 2V -ohjelma laskee kaksi eri arviota luvulle ε, jolla vapausastetta pitääpienentää. ε:in arviot:

Greenhouse, GeisserHuynh, Feldt

Esim. Asetelma: n henkilöä, yksi tekijä, k tasoaVapausasteet: (k − 1) ε, (n − 1) (k − 1) ε

Biostatistiikan jatkokurssi 1999 159 Varianssi- ja kovarianssianalyysi

Page 164: Sisällysluettelo - Terkko · Normanin ja Steinerin ’Biostatistics, The Bare Essentials’ on hauskasti ja selkeästi kirjoitettu kirja. Tekstiä on sopivasti höystetty huumorilla.

Huom. Tilastopaketeissa olevat sfeerisyystestit ovat herkkiä• a) poikkeamille normaalisuudesta• b) poikkeaville havaintoarvoille• c) pienelle aineistokoolle

Varianssi- ja kovarianssianalyysi 160 Seppo Sarna

Page 165: Sisällysluettelo - Terkko · Normanin ja Steinerin ’Biostatistics, The Bare Essentials’ on hauskasti ja selkeästi kirjoitettu kirja. Tekstiä on sopivasti höystetty huumorilla.

Ristiintaulukkoanalyysit

Käyttötilanne: Halutaan tutkia luokiteltujen (’categorical’) muuttujien välisiä yhteyksiä. Luokitellut muuttujat voivat olla joko laatueroasteikollisia (esim. HLA-tyyppi tai silmien väri) tai järjestysasteikollisia (esim. lääkeannos: matala, keskimääräinen, korkea tai vastaavasti esim. numeerisina arvoina ilmais-tuna: 200mg, 400mg, 1600mg) .

Oletetaan, että muuttujat tarkasteltavat muuttujat x ja y ovat luokiteltuja siten, että x:ssä on R luokkaa ja y:ssä C luokkaa ja että muuttujien väli-sen yhteyden tutkimiseksi on muodostettu R×C-kontingenssitaulukko (’contigency table’):

1 — j — C

1 m1

|

i ƒij mi

|

R mR

n1 — nj — nC N

Taulukossa fij tarkoittaa i. rivin ja j. sarakkeen frekvenssilukua. Tälle lokerofrekvenssille saadaan odotettu arvo kaavalla: E(fij)=mi*nj/N, kun oletetaan, että x:n ja y:n välillä ei olisi mitään riippuvuutta keskenään. Tämä merkitsee, että rivi-/sarakejakaumat eivät poikkea toisistaan, jolloin erot havaitussa frekvenssitaulukossa johtuvat sattumasta. Nimitys ’kontingenssi’ tarkoittaa sattumaa.

Huom. Lokerokohtaiset odotusarvot ja havaittujen arvojen poikkeamat odotus-arvoista kannattaa laskea, sillä niiden perusteella voi alustavasti tarkas-tella x:n ja y:n välisen riippuvuuden luonnetta. Tilastopaketit tulostavat nämä suureet pyydettäessä.

Seuraavassa tarkastellaan tilastopakettien tarjoamia testivaihtoehtoja seuraaviin tilanteisiin:

1. molemmat R×C-taulukon muuttujista x ja y ovat laatueroasteikollisia,2. toinen muuttujista on laatueroasteikollinen ja toinen järjestysasteikollinen, jolloin

kyseessä on yhteen suuntaan järjestetty taulukko,3. molemmat muuttujista x ja y ovat järjestysasteikollisia, eli taulukko on kahteen

suuntaan järjestetty.

Nollahypoteesina (H0) on, että x:llä ja y:llä (riveillä ja sarakkeilla) ei ole yhdysvaikutusta (’in-teraction’) keskenään. Tämän hypoteesin testaamiseksi muodostettaville P-arvoille useimmattilastopaketit tarjoavat kolme vaihtoehtoa: asymptoottinen, Monte-Carlo, eksakti laskentata-pa. Kaikki laskentatavat tuottavat asymptoottisesti saman tuloksen.

Biostatistiikan jatkokurssi 1999 161 Ristiintaulukkoanalyysit

Page 166: Sisällysluettelo - Terkko · Normanin ja Steinerin ’Biostatistics, The Bare Essentials’ on hauskasti ja selkeästi kirjoitettu kirja. Tekstiä on sopivasti höystetty huumorilla.

1. Laatueroasteikollinen R×C-taulukkoKäytettävissä olevat testit:

a) χ2-testi:

χ2 = ∑ i

∑ j

(ƒij − E (ƒij))2

E (ƒij)

missä ƒij, i = 1, ... , R, j = 1, ... , C ovat taulukon luvut ja E (ƒij)niiden odotusarvot.

Huom. χ2-testi on erittäin herkkä pienille odotusarvoille; Suhteellinen virhetulee tällöin suureksi, koska odotusarvot ovat testisuureen nimittäjässä.

b) G2- testi, uskottavuussuhde (‘likelihood ratio’) testi:

G2 = 2 ∑ i

∑ j

ƒji loge ƒij

E (ƒij)

G2-testi on yleisimmin käytetty testi taulukkoanalyyseissä(Esim. log-lineaariset mallit). Se ei ole yhtä herkkä kuin χ2-testipienille odotusarvoille log-muunnoksesta johtuen.

Vapausasteet: df = (R − 1) (C − 1) − m

missä m = odotusarvojen laskemisessa tarvittavien estimoitujenparametrien määrä. Tavallisesti m = 0.

Lisäykset testisuureen arvoon lokeroittain:

a) (ƒij − E (ƒij))2

E (ƒij) = χij

2

b) 2ƒij ln ƒij

E (ƒij) = Gij

2

χij on standardoitu poikkeama. Niiden perusteella voi todeta lokerokohtaiset lisäykset testisuu-reen arvoon.

c) Yleistetty Fisherin eksakti testi, Freeman-Hamiltonin testiNimensä mukaisesti testi on yleistys Fisherin 2×2 testille ja soveltuu käytettäväksi erityisesti pienillä aineistoilla.

χ2 ja G2 -testisuureet ovat aineistokoosta riippuvaisia. Sen sijaan seuraavat assosiaation mitat,kontingenssikertoimet, eivät ole:

a) C = √χ2

n + χ2

Ristiintaulukkoanalyysit 162 Seppo Sarna

Page 167: Sisällysluettelo - Terkko · Normanin ja Steinerin ’Biostatistics, The Bare Essentials’ on hauskasti ja selkeästi kirjoitettu kirja. Tekstiä on sopivasti höystetty huumorilla.

b) V = √χ2

n (q − 1) (Cramerin V)

missä q = min (R, C).

Huom. Molempien kerrointen vaihtelualue on: 0 – 1 (ei assosiaatiota – täydel-linen assosiaatio)

Assosiaation mittoja C ja V näkee harvoin käytettävän julkaisuissa. Niillä voidaan verrata as-sosiaation voimakkuutta eri dimensioisissa R×C-taulukoissa. Useimmat tilastopaketit testaa-vat ne pyydettäessä.

Kun tarkastellaan x:n ja y:n riippuvuuden luonnetta lähemmin, syntyy usein tarve vertailla pa-reittain keskenään R×C-taulukon perusteella laskettuja suhdelukuja.

y1 — r — C

x

1|c ƒcr nc

|d ƒdr nd

|R

Esim. Tekijä x voisi olla hoitoryhmä ja y ilmaisisi eri lopputuloksia(laatueroasteikolla)

Oletetaan, että halutaan verrata suhdelukuja pcr ja pdr keskenään, missä pcr = ƒcr

nc ja pdr =

ƒdr

nd

ja testattavat hypoteesit ovat H0: pcr = pdr , H1: pcr ≠ pdr

Scheffen monivertailumenettelyyn perustuva erotuksen pcr – pdr 100 (1 − α)% luottamusvälisaadaan kaavalla

(pcr − pdr) ± √ χ1 − α2 (df) ∗ SE (pcr − pdr) , missä df = (R – 1) (C – 1)

SE (pcr − pdr) = √ pcr (1 − pcr)nc

+ pdr (1 − pdr)

nd

Huom. SE (pcr − pdr) on tavallinen kahden suhdeluvun erotuksen keskivirhe

ja √χ2 = z, eli standardinormaalijakauman prosenttipiste. Ero onvapausasteissa verratuna tavalliseen suhdelukujen erotuksenluottamusväliin.

Suhdelukujen erotuksen monivertailukorjatun välin voi laskea(esim. CIA:lla) siten, että ensin lasketaan tavanomainen väli ja kasva-

Biostatistiikan jatkokurssi 1999 163 Ristiintaulukkoanalyysit

Page 168: Sisällysluettelo - Terkko · Normanin ja Steinerin ’Biostatistics, The Bare Essentials’ on hauskasti ja selkeästi kirjoitettu kirja. Tekstiä on sopivasti höystetty huumorilla.

tetaan sitten välin molempia puoliskoja korjaustekijällä:

√ χ1 − α

2 (df )zα

, missä df = (R – 1) (C – 1)

Testi: Jos nolla ei kuulu laskettuun luottamusväliin, tehdään johtopäätös: pcr ≠ pdr, P < α

2. Yhteen suuntaan järjestettyR×C-taulukko

Oletetaan, että sarakemuuttuja (esim. lopputulosmuuttuja) y on järjestysasteikollinen, muttarivimuuttuja on laatueroasteikollinen (esim. hoitoryhmä). Rivien ja sarakkeiden välisen yhdys-vaikutuksen testaamiseksi tilastopaketeista (esim. StatXact 4) löytyy seuraavat testit:

a) Kruskal-Wallisin testi

Yksi suosituimmista ei-parametrisista testeistä. Se on yleistys Wilcoxon-Mann-Whitneyn testille. Testin voima on noin 98% verrattuna yksisuun-taiseen Anovaan, mikäli sitä käytetään normaalijakaumaa noudattavalle jatkuvalle muuttujalle.

b) Normaalijakaumaan perustuva pistemäärätesti ’Normal Scores test’

Vaihtoehto Kruskal-Wallisin testille. Testiä kannattaa käyttää mikäli muuttuja y noudattaa normaalijakaumaa ja on luokiteltu C:hen luokkaan.

c) Savagen pistemäärätesti (’Savage Scores test’)

Vaihtoehto Kruskal-Wallisin testille. Testiä kannattaa käyttää mikäli muuttuja y noudattaa eksponentiaalijakaumaa ja on luokiteltu C:hen luokkaan.

d) ANOVA mielivaltaisin pistemäärin

Yleistesti, ANOVAN ei-parametrinen vaihtoehto tilanteisiin, jolloin muuttujan y arvoja halutaan painottaa toisella tavalla kuin edellä mainituissa testeissä ja muuttuja on luokiteltu C:hen luokkaan.

Riippumatta painokertoimien valinnasta kaikkien näiden testien testisuure noudattaa asymp-toottisesti khii2-jakaumaa vapausastein R-1.

Ristiintaulukkoanalyysit 164 Seppo Sarna

Page 169: Sisällysluettelo - Terkko · Normanin ja Steinerin ’Biostatistics, The Bare Essentials’ on hauskasti ja selkeästi kirjoitettu kirja. Tekstiä on sopivasti höystetty huumorilla.

3. Kahteen suuntaan järjestettyR×C-taulukko

Oletetaan, että sekä sarakemuuttuja (esim. lopputulosmuuttuja) y ja rivimuuttuja ovat järjes-tysasteikollisia (esim. hoitoryhmä siten, että potilaita on hoidettu eri lääkeannoksin). Rivien jasarakkeiden välisen yhdysvaikutuksen testaamiseksi tilastopaketeista (esim. StatXact 4,SPSS) löytyy seuraavat testit:

a) Jonckheere-Terpstra testi

Testi on Kruskal-Wallisin trenditesti.

b) ’Linear by linear’-assosiaatiotesti

Vaihtoehto Jonckheere-Terpstra-testille.

Ei ole käytettävissä tutkimustuloksia siitä, kumpi testeistä olisi parempi tai huonompi eri tilan-teissa. Molempien testisuureet noudattavat asymptoottisesti khii2-jakaumaa vapausastein yksi.Jälkimmäinen testeistä on joustavampi painokerrointen antamisen suhteen, rivi- ja sarake-muuttujien arvoille voidaan antaa mielivaltaiset painokertoimet.

c) Gamma (Goodman ja Kruskal)

Gamma on kahden järjestysasteikollisen suureen välinen assosiaatiomitta, joka kertoo kuinkapaljon todennäköisempää on saada sama kuin eri tulos. Se on vaihtoehto Kendallin taulle jaSomerin D:lle.

Esim. Tupakointi- ja keuhkosyöpätutkimus (Azen et al. 1977). Tutkimuksessa vertailtiin kahdeksaa eri keuhkofunktioindeksiä keskenään; ts. missä määrin ne mittaavat samaa asiaa. FEV1:n ja ∆ N2:n väliselle saatiin seuraava tulos:

∆ N2

huono kohtalainen hyvä erinomainen

FEV1

huono 8 5 3 3

keskinkertainen 0 8 1 0

hyvä/erinomainen

0 4 14 4

Gamma-suureeksi tulee 0.6122 ja 95% luottamusväliksi (0.3162, 0.9082) sekä eksaktiksi P-ar-voksi 0.0004 (StatXact 4). Jonckheere-Terpstra ja linear by linear -testit antavat P-arvoiksivastaavasti 0.0002 ja 0.0007.

ViitteetAzen SP, Linn W et al. A Comparison of eight lung function indices in smoking and non-smo-king officeworkers. Lung 154, 213-221, 1997.

Biostatistiikan jatkokurssi 1999 165 Ristiintaulukkoanalyysit

Page 170: Sisällysluettelo - Terkko · Normanin ja Steinerin ’Biostatistics, The Bare Essentials’ on hauskasti ja selkeästi kirjoitettu kirja. Tekstiä on sopivasti höystetty huumorilla.

Ristiintaulukkoanalyysit 166 Seppo Sarna

Page 171: Sisällysluettelo - Terkko · Normanin ja Steinerin ’Biostatistics, The Bare Essentials’ on hauskasti ja selkeästi kirjoitettu kirja. Tekstiä on sopivasti höystetty huumorilla.

Loglineaariset mallit

Käyttötilanne: Loglineaarisia malleja käytetään silloin, kun halutaan tutkia riippuvuus-suhteita (yhdysvaikutuksia) useiden muuttujien x,y,z.. välillä moniulot-teisissa taulukoissa. Tavoitteena on konstruoida malli, joka kuvaa näitä riippuvuussuhteita mahdollisimman hyvin ja testata malliin liittyviä hypoteeseja.

KäsitteitäInteraktio: Yhdysvaikutus, riippuvuus kahden tai useamman tekijän välillä.

1. asteen, 2. asteen, ... interaktio on sama kuin 2:n tekijän, 3:n tekijän ... välinen interaktio.

Synergismi (antagonismi): Eri tekijöiden samanaikainen vaikutus, joka on suurempi(pienempi) kuin niiden yksittäisten vaikutusten summa

Loglineaarinen malli: Malli, joka olettaa, että moniulotteisessa taulukossa odotettujenfrekvenssien E (ƒijk) logaritmi voidaan esittää useiden parametrienlineaarikombinaationa — loglineaarinen malli.

Esim. Luokkamuuttujien A, B ja C määrittelemä kolmiulotteinen taulukko.Indeksit i, j, k. Merkitään Fijk = E(ƒijk)

loge (Fijk) = θ +λi

A + λ jB + λk

C + (1)

λijAB + λ ik

AC + λjkBC + (2)

λijkABC (3)

θ = yleiskeskiarvoλ:t = efektejä(1) = pääefektit(2) = 2. kertaluvun efektit(3) = 3. kertaluvun efektit

Esim. λA on pelkästään A:sta johtuva efekti (A:n vaikutus ennustettavaan muuttujaan).λAB on A:n ja B:n yhteisvaikutus (interaktio).

Kyllästetty malli (saturoitu): Malli, joka sisältää kaikki mahdolliset efektit (edellä olevaesimerkki).

Hierarkinen malli: Malli, jossa ei voi esiintyä korkeamman kertaluvun vaikutuksia ilman,että vastaavat alemman kertaluvun vaikutukset ovat mukana mallissa.

Biostatistiikan jatkokurssi 1999 167 Loglineaariset mallit

Page 172: Sisällysluettelo - Terkko · Normanin ja Steinerin ’Biostatistics, The Bare Essentials’ on hauskasti ja selkeästi kirjoitettu kirja. Tekstiä on sopivasti höystetty huumorilla.

Esim. Jos λABC on mallissa (nollasta poikkeava), niin myös λAB, λBC, λAC,λA, λB, λC ja θ ovat mukana mallissaJos λAB on mallissa, niin λA, λB ja θ ovat mukana mallissa, mutteiλC (ellei mallina ole λAB + λC )

Mallin parametrin skaalausJotta loglineaarisen mallin parametrit voitaisiin yksikäsitteisesti arvioida, täytyy kunkin teki-jän parametreista yhtä pitää laskennassa ns. häiriöparametrina, ’nuisance parameter’. Tämämerkitsee, että parametreille asetetaan reunaehtoja. Kunkin tekijän parametrien summa asete-taan joko nollaksi tai ykköseksi (skaalausparametri):

∑ i

λ iA = 0 tai 1

∑ i, j

λ i jAB = 0 tai 1

∑ i, j, k

λijkABC = 0 tai 1

Yllä olevissa ehdoissa summaus suoritetaan yli kaikkien summan termien.

Monet tilastopaketeista (esim. BMDP, Systat, SPSS) käyttävät skaalausparametrina nollaa.Useimmat epidemiologiset tilastopaketit (esim. GLIM) suorittavat skaalauksen ykköseen. Täs-tä on etuna se, että mallin kerroinestimaateista on helppo laskea arvio ristitulosuhteelle (OR).Mikäli skaalausparametri on nolla OR:ien laskenta on erittäin työlästä loglineaarisen analyy-sin tulosten perusteella. Lievänä haittana siitä, että skaalausparametri on 1, seuraa että kuhun-kin tekijään tai interaktioon liittyvistä parametreista yksi jää tulostumatta. GLIM jättää ensim-mäisen parametrin pois. Se voidaan tarvittaessa kuitenkin helposti laskea skaalausehdon pe-rusteella.

Seuraavat tulokset on laskettu GLIM-ohjelmalla.

YhteensopivuustestitYhteensopivuustesti mittaa havaittujen frekvenssien ja mallin perusteella laskettujen odotettu-jen frekvenssien välistä yhtäpitävyyttä. Loglineaaristen mallien yhteydessä tavallisimmin käy-tettyjä ovat yhteensopivuustestejä ovat Pearsonin khii2-testi ja G2-testi. Näistä jälkimmäinenperustuu uskottavuussuhteeseen (’likelihood ratio’). Laskentakaava on muotoa:

G2 = 2∑ O ∗ loge(OE

), missä O ja E ovat havaittuja ja odotettuja frekvenssejä.

Testisuureet: kolmiulotteisessa taulukossa

Loglineaariset mallit 168 Seppo Sarna

Page 173: Sisällysluettelo - Terkko · Normanin ja Steinerin ’Biostatistics, The Bare Essentials’ on hauskasti ja selkeästi kirjoitettu kirja. Tekstiä on sopivasti höystetty huumorilla.

χ2 = ∑ i, j, k

(ƒijk − Fijk)2

Fijk(1)

G2 = 2∑ i, j, k

ƒijk loge(ƒijk

Fijk) (2)

Sekä (1) että (2) noudattavat likimain χ2-jakaumaa vapausastein n – p, missä n on solujen lu-kumäärä ja p on estimoitavien riippumattomien parametrien määrä.

Huom Useampiulotteisessa taulukossa indeksien i, j ja k lukumäärä vain lisääntyy.

Malleja M1 ja M2 sanotaan kytketyiksi (‘nested’), jos kaikki malliin M1 sisältyvät λ:t ovatosajoukko malliin M2 sisältyvistä λ:oista.

Poikkeama D (’Deviance D) on mitta, jonka avulla loglineaarisissa malleissa voidaan arvioidakuinka paljon tietty malli (M) poikkeaa havaintoaineistoon sovitetusta saturoidusta mallista(MS). Se lasketaan näihin malleihin liittyvien uskottavuussuhteiden L ja LS perusteella kaaval-la: D = −2 ∗ (loge L − logeLS).

D saa suuren arvon, kun L on pieni suhteessa LS:ään. Tämä merkitsee, että malli M on huono.Mikäli malli on hyvä, D saa pienen arvon. Paitsi mallin vertaamista saturoituun malliin, D:navulla voidaan kätevästi verrata mitä tahansa kahta mallia keskenään, sillä D noudattaaasymptoottisesti khii2-jakaumaa siten, että vapausasteiden määrä on vertailtavien mallien para-metrien erotus.

Yhteensopivuuden (vaikutusten), muutosta mallien M1 ja M2 välillä voidaan testata suureella:

D = GM1

2 − GM2

2

joka noudattaa likimain χ2 jakaumaa vapausastein dfM1 − dfM

2

Huom Testisuureella (1), ei ole tätä ominaisuutta.

AnalysointivaiheetLoglineaarinen analyysi sisältää vaiheet:

1. Sopivan mallin etsintä2. Erilaisten hypoteesien testaaminen3. Taulukon solujen ja ositteiden lähempi tarkastelu havaituissa ja odotetuissa frekvens-

seissä esiintyvien poikkeavuuksien suhteen (esim. trendit)

Standardoitujen poikkeamien (residuaalien) tutkiminen

χijk = ƒijk − E (ƒijk)

√ E (ƒijk)

Biostatistiikan jatkokurssi 1999 169 Loglineaariset mallit

Page 174: Sisällysluettelo - Terkko · Normanin ja Steinerin ’Biostatistics, The Bare Essentials’ on hauskasti ja selkeästi kirjoitettu kirja. Tekstiä on sopivasti höystetty huumorilla.

Huom Jos mallin yhteensopivuus on hyvä, standardoidut poikkeamat ovat pieniä. Koska χ = z ∼ N(0,1), eli χ noudattaa likimain normaalijakau-maa, nyrkkisääntönä voidaan pitää vaatimusta

| χijk | ≤ 2 jokaisella (i, j, k) -arvolla

Esimerkkejä

Esim. 2 × 2 taulukon log-lineaarinen analyysi. Alkoholin käytön jaruokatorven syövän välinen yhteys. Breslow & Day, 1980, s. 124.

Tekijä B

Keskimääräinenalkoholinkulutus

vrk:ssa

> 80 g ≤ 80g

Tekijä ATapaukset 96 104

Verrokit 109 666

80 g on mediaanikulutus tässä aineistossa

Malli 1: loge E (ƒij) = θ + λiA + λi

B

• testaa hypoteesia E (ƒij) = λiA ∗ λ j

B eli, että tekijät A ja B eivät riipu toisistaan

• asetetaan vaatimus: λ1A = λ1

B = 0 (estimoitavien parametrien yksikäsitteisyydenvuoksi)

• mallin 1 mukaisesti sovitetuiksi lukumääriksi tulee tällöin:

1 2

1 exp(θ) exp(θ + λ2B)

2 exp(θ + λ^2A) exp(θ + λ^2

A + λ^2B)

Huom Molemmille riveille sovitettujen lukumäärien logaritmienerotus = – λ2

B. Vastaavasti molemmille sarakkeille erotus = – λ2A

⇒ ristitulosuhde/suhteellinen riski (‘odds ratio’) = 1.

Malli 2: loge E (ƒij) = θ + λiA + λj

B + λijAB

• asetetaan vaatimus: λ1A = λ1

B = λ11AB = λ12

AB = λ21AB = 0

• sovitetut lukumäärät mallin 2 mukaisesti:

Loglineaariset mallit 170 Seppo Sarna

Page 175: Sisällysluettelo - Terkko · Normanin ja Steinerin ’Biostatistics, The Bare Essentials’ on hauskasti ja selkeästi kirjoitettu kirja. Tekstiä on sopivasti höystetty huumorilla.

1 2

1 exp(θ) exp(θ + λ2B)

2 exp(θ + λ2A) exp(θ + λ2

A + λ2B + λ22

AB)

Huom. Edellä esitetty huomautus ei päde mallille 2.

suhteellisen riskin arvio: OR = exp (λ22AB)

yhteensopivuustestit

malli 1: χ12 = 110.3, P = 0.0000

GM1

2 = 96.4, dfM1 = 1

Tulkinta: Yhteensopivuus on huono, koska χ2 on suuri.

Estimaatti Keskivirhe (SE) Parametri

3.739 0.0941 θ

1.355 0.0793 λ2A

1.323 0.0786 λ2B

Skaalausparametri = 1

Havaittufrekvenssi

Sovitettufrekvenssi

Residuaali

96 42.0 8.319

104 157.9 – 4.293

109 162.9 – 4.226

666 612.1 2.181

Tulkinta: Yhteensopivuus on huono, koska residuaalit ovat suuria.

Malli 2: GM2

2 = 3.859 ∗ 10−13 (= nolla) dfM2 = 0

Estimaatti Keskivirhe (SE) Parametri

4.564 0.1021 θ

0.1270 0.1400 λ2A

0.0800 0.1415 λ2B

1.730 0.1752 λ22AB

Biostatistiikan jatkokurssi 1999 171 Loglineaariset mallit

Page 176: Sisällysluettelo - Terkko · Normanin ja Steinerin ’Biostatistics, The Bare Essentials’ on hauskasti ja selkeästi kirjoitettu kirja. Tekstiä on sopivasti höystetty huumorilla.

Koska taulukon luvut on laskettu ohjelmalla GLIM, missä skaalausparametri on yksi, AB-te-kijän estimaatin 1.730 perusteella saadaan OR:lle arvio exp(1.730)=5.640. OR:n normaalija-kaumaan perustuva 95%:n luottamusväli (CI95%) saadaan kaavalla: exp(estimaatti-1.96*SE,estimaatti+1.96*SE), eli tässä tapauksessa CI95% = (exp(1.730-1.96*0.1752),exp(1.730+1.96*0.1752) = (4.001,7.951).

Esim. Loglineaarinen analyysi useista 2 × 2 taulukoista. Sekoittavantekijän kontrollointi osittamalla. Edellä oleva aineisto iän(sekoittava tekijä) mukaan ositettuna.

Tapaukset Verrokit

Ikäryhmät yli 80 g 80 g tai alle yli 80 g 80 g tai alle OR

25–34 1 0 9 106 0.000

35–44 4 5 26 164 5.046

45–54 25 21 29 138 5.665

55–64 42 34 27 139 6.006

65–74 19 36 18 88 2.580

75+ 5 8 0 31 0.000

Huom Esimerkkiaineistossa tapausten ja verrokkien ikäjakaumat ovaterilaiset. Jos ikä korreloi myös päivittäiseen alkoholin käyttöönniin kyseessä on sekoittava tekijä ko. aineistossa.

Taulukkoon on laskettu ikäryhmäkohtaiset OR:t. Kaksi OR:ää tulee nollaksi, koska yksi frek-vensseistä on kummassakin nolla. OR:ien homogeenisuus kannattaa testata. Tulokseksi saa-daan (StatXact 4) P=0.0992 > 0.05, joten homogeenisuusoletus jää voimaan.

Merkitään: A = ikäryhmä (‘age group’), koodaus 1-6E = altistus (‘exposure’), koodaus: 1 = ’> 80 g’, 2 = ’≤ 80 g’D = ryhmä; tapaukset, verrokit (‘disease’), koodaus: 1 = ’tapaus’, 2 = ’verrokki’

Sovitetaan havaintoaineistoon aluksi malli, josta puuttuu taudin ja altisteen välinen interaktio.

Malli 1: loge E (ƒijk) = θ + λiD + λj

E + λkA + λik

DA + λjkEA

Merkitään tätä hierarkista mallia: M1 = (DA, EA)

M1 testaa otantakehikon rajoituksia ja epätasapainoa. Yhteensopivuustestin tulokseksisaadaan:

GM1

2 = 90.56 , dfM1 = 6 , P = 0.0000

Loglineaariset mallit 172 Seppo Sarna

Page 177: Sisällysluettelo - Terkko · Normanin ja Steinerin ’Biostatistics, The Bare Essentials’ on hauskasti ja selkeästi kirjoitettu kirja. Tekstiä on sopivasti höystetty huumorilla.

Huom Jos lasketaan standardoidut poikkeamat nelikenttien soluille (1,1)(vasen yläkulma), niin ne ovat tässä tapauksessa suuria (3.11, 2.27, 3.91, 4.25, 1.79, 2.90).

Tulkinta: Otantaharha ei selitä vaihtelua, koska yhteensopivuus on huono.

Seuraavaksi sovitetaan malli M2 = (DE, DA, EA), joka sisältää kaikki toisen kertaluvun inter-aktiotermit.

Malli 2: ln E (ƒijk) = θ + λ iD + λ j

E + λkA + λ ik

DA + λ jkEA + λij

DE

Tulokset: GM2

2 = 11.04 , dfM2 = 5 , P = 0.0506

Standardoidut poikkeamat ovat tässä mallissa pieniä (1.190, -0.031, 0.134, 0.238, -0.949 ja 1.019).

Mallien M1 ja M2 ero: GM1

2 − GM2

2 = 90.56 − 11.04 = 80.52

Vapausasteet: dfM1 − dfM

2 = 6 − 5 = 1

Khii2-jakaumasta vapausastein yksi voidaan todeta, että mallien M1 ja M2 ero on tilastollises-ti erittäin merkitsevä (P < 0.0001), mikä merkitsee, että taudin ja altisteen välinen yhdysvaiku-tus DE on merkitsevä.

Tilastopaketit tarjoavat G2-suureen ohella monia muitakin kriteereitä, joilla mallin hyvyyttä jayhteensopivuutta havaintoaineiston kanssa voidaan arvioida, esim. SYSTAT-ohjelmassa on’Raftery’s BIC, Bayesian Information Criterion’, ’Dissimilarity’-indeksi ja poikkeavien loke-rofrekvenssien askeltava etsintämenettely.

Jos BIC antaa negatiivisen arvon, niin se merkitsee, että malli on suositeltavampi kuin saturoi-tu malli ja kun vertaillaan vaihtoehtoisia malleja, niin kannattaa valita se, jonka BIC on alhai-sin.

Esim. Mallille M2 saadaan BIC=-23.57, joten saturoitua mallia (DEA) ei tarvita.

’Dissimilarity’-indeksi kuvastaa, kuinka paljon taulukoidussa aineistossa tarvitsisi tehdä frek-venssilukujen uudelleen sijoitteluja, jotta havaitut frekvenssiluvut saataisiin yhteensopiviksiodotettujen kanssa.

Esim. Mallille M2 indeksiksi tulee 1.9, mikä merkitsee, että tarvittavien uudel-leensijoittelujen määrä on 1.9%.

Poikkeavien lokerofrekvenssien askeltava etsintä suoritetaan siten, että ensin etsitään enitenpoikkeava lokero ja se tulkitaan ns. rakenteelliseksi nollaksi. Tämä tarkoittaa sitä, että seuraa-vassa askeleessa tämä lokero jätetään huomioimatta ja malli sovitetaan jäljellä oleviin lokeroi-hin. Jälleen etsitään eniten poikkeava lokero jne...

Biostatistiikan jatkokurssi 1999 173 Loglineaariset mallit

Page 178: Sisällysluettelo - Terkko · Normanin ja Steinerin ’Biostatistics, The Bare Essentials’ on hauskasti ja selkeästi kirjoitettu kirja. Tekstiä on sopivasti höystetty huumorilla.

Esim. Sovitetusta mallista M2 kolme eniten poikkeavaa tekijöiden A (’Age’), D (’Disease) ja E (’Exposure’) koodiarvo/indeksikombinaatiota ovat:

’Age’ ’Disease’ ’Exposure’ Frekvenssi LR-khi2 P-arvo

6 2 1 0 5.112 0.024

5 2 1 18 8.270 0.004

1 1 2 0 2.151 0.142

Malli M2 voidaan tässä tapauksessa tulkita lopulliseksi ja sen eri efektien estimaatit on lasket-tu seuraavaan taulukkoon:

ParametriEstimaatti

(λ)Keskivirhe

SE (λ)λ

SE (λ )

multipli-katiivinen

efektiexp (λ)

θ -1.115 1.028 -1.805 0.33

λ2A 2.527 1.080 2.340 12.52

λ3A 4.314 1.036 4.164 74.74

λ4A 4.807 1.032 4.658 122.36 Ikäryhmä

λ5A 4.282 1.038 4.266 72.39

λ6A 2.279 1.123 2.029 9.77

λ2D 3.384 1.012 3.343 29.49 Ryhmä

λ2E 0.7179 0.3799 1.890 2.05 Altistus

λ22DA -1.542 1.062 -1.425 0.214

λ23DA -3.199 1.019 -3.139 0.041

λ24DA -3.713 1.014 -3.662 0.024

λ25DA -3.967 1.019 -3.893 0.019 Toisen

λ26DA -3.962 1.061 -3.734 0.019 kertaluvun

λ22EA -0.5414 0.3885 -1.394 0.582 interaktiot

λ23EA -0.8486 0.3758 -2.258 0.428

λ24EA -0.8299 0.3739 -2.220 0.436

λ25EA -0.4428 0.3993 -1.109 0.642

λ26EA 0.4002 0.6041 0.663 1.492

→ λ22DE 1.670 0.1896 8.808 5.312

Skaalausparametri = 1

Loglineaariset mallit 174 Seppo Sarna

Page 179: Sisällysluettelo - Terkko · Normanin ja Steinerin ’Biostatistics, The Bare Essentials’ on hauskasti ja selkeästi kirjoitettu kirja. Tekstiä on sopivasti höystetty huumorilla.

Taulukon sarakkeessa 2 olevien loglineaaristen efektien estimaattien perusteella voidaan ha-vaituille frekvenssille laskea odotetut frekvenssit seuraavan esimerkin mukaisesti:

Esim. Lokerossa ikäryhmä=’+75’, altistus=’verrokki’, alkoholi=’80 g tai alle’ havaittu frekvenssi on 31. Tämän lokeron odotettu frekvenssi saadaan summaamalla ensin mallin 2 mukaiset kertoimet -1.115 + 2.279 + 3.384 + 0.7179 - 3.962 + 0.4002 + 1.670 (lihavoitu taulukossa). Sum-maksi tulee 3.374. Odotettu frekvenssi saadaan ottamalla eksponentti-funktio (logaritmifunktion (loge) käänteisfunktio) tästä luvusta, eli odotettu frekvenssi on exp(3.374) = 29.20.

Kun mallin parametrin estimaatti (sarake 2) jaetaan sen keskivirheellä (sarake 3), niin saadaansuure (sarake 4), joka noudattaa likimain normaalijakaumaa N(0,1). Näitä standardoituja log-lineaarisia efektejä tarkastelemalla saadaan käsitys mallin eri tekijöiden välisistä riippuvuus-suhteista. Nyrkkisääntö: jos standardoidun efektin itseisarvo > 2, niin se on tilastollisesti mer-kitsevä.

Esim. Iän ja tautiryhmän väliseen interaktioon liittyvät standardoidut efektit ovat selvästi suurempia kuin 2. Tämä merkitsee, että tautiryhmällä ja iällä on vahva riippuvuus keskenään. Negatiivinen etumerkki johtuu koodaustavasta (tapaus=1, verrokki=2 ja ikä on koodattu 1-6). Alko-holin ja iän väliset efektit ovat merkittäviä vain ikäluokissa 35-44 ja 45-54. Taudin ja altisteen välisen interaktion efekti on merkittävin 8.808.

Taulukon sarakkeeseen 5 on laskettu suure exp(estimaatti). Tämä on ns. multiplikatiivinenefekti. Niiden perusteella ristiintaulukoitujen tekijöiden eri koodiarvokombinaatioiden (taulu-kon indeksikombinaatioiden) lisääntynyttä tai vähentynyttä esiintymistodennäköisyyttä.

Esim. Kertoimet (exp(λiA)) kuvastavat iän marginaalijakaumaa. Havainto-

aineiston perusteella todetaan, että ikäluokka 55-64 on suurin ja siksi exp(λ4

A) = 122.36 on ikään liittyvistä arvoista suurin. Jos tarkastellaan

alkoholin ja iän interaktioon liittyviä termejä exp(λijEA), todetaan että

vähän alkoholia käyttäviä on eniten vanhimmassa ikäryhmässä (huom. koodaus), koska exp(λ26

EA) = 1.492 on selvästi näistä termeistä suurin.

Taulukon viimeisellä rivillä sarakkeessa 5 on taudin ja altisteen välisen interaktion multiplika-tiivisena efektinä 5.312. Tämä on yhtä kuin OR ja keskivirheen avulla sille saadaan normaali-jakaumaan perustuvaksi luottamusväliksi: CI95%=(3.663, 7.703).

Huom. StatXact 4 antaa Mantel-Haenszel arvioiksi: OR=5.158 ja CI95%=(3.562, 7.468). Näitä luottamusvälejä voidaan laskea monilla eri varianssiestimaateilla StatXact 4 käyttää ns. RBG-varianssia (Robins, Breslow ja Greeland 1986), jonka on todettu toimivan hyvin monissa käytännön tilanteissa.

Tutkimustuloksen perusteella voidaan päätellä, että runsaalla alkoholin käytöllä, yli pullolli-nen punaviiniä päivittäin, ja ruokatorven syöpään sairastumisella on vahva assosiaatio keske-nään. Mikäli OR:ää tulkitaan vaarasuhteena, niin runsaasti käyttävillä on viisinkertainen vaara

Biostatistiikan jatkokurssi 1999 175 Loglineaariset mallit

Page 180: Sisällysluettelo - Terkko · Normanin ja Steinerin ’Biostatistics, The Bare Essentials’ on hauskasti ja selkeästi kirjoitettu kirja. Tekstiä on sopivasti höystetty huumorilla.

sairastua verrattuna vähän alkoholia käyttäviin. Taudilla ja alkoholin käytöllä on merkittävät(P<0.0001 ja P=0.0192) interaktiot myös iän kanssa (Systat: mallin termit DA ja EA).

Ikätrendin testaaminen, eli muuttuuko taudin ja altisteen välinen interaktio lineaarisesti iänmukana, voidaan suorittaa liittämällä malliin järjestysasteikollinen muuttuja, jonka arvoinaovat ikäluokkien indeksit 1, 2, ..., 6. Merkitään tätä muuttujaa A*.

Malli 3: M3 = (DE, DA, EA, DEA*)

Tulokset: GM3

2 = 10.61 , dfM3 = 4

Parametri: λ11DEA∗ , Estimaatti – 0.1246, SE = 0.1890

Interaktiotermin DEA* merkitsevyyttä voidaan testata laskemalla G2-testien erotus mallienM2 ja M3 välillä. Tällöin saadaan:

GM2

2 − GM3

2 = 11.04 − 10.61 = 0.659

dfM2 − dfM

3 = 5 − 4 = 1

Tulkinta: Khii2-jakaumasta vapausastein yksi todetaan, että termin DEA* lisää-minen ei paranna mallia tilastollisesti merkitsevästi, sillä arvoa 0.659 vastaa P=0.4169.

Esim. Loglineaarinen analyysi 2 × k1 × k2 taulukosta. Alkoholin ja tupakansamanaikainen vaikutus ruokatorven syöpään.

Aineisto: T = tapaukset, V = verrokit

Tupakka (kpl/pv)

Alkoholi(g/pv)

0 – 9 10 – 19 20 – 29 30 +

T V T V T V T V

0 – 39 9 252 10 74 5 35 5 23

40 – 79 34 145 17 68 15 47 9 20

80 – 119 19 42 19 30 6 10 7 5

120 + 16 8 12 6 7 5 10 3

Merkitään: T = tupakka, A = alkoholi, D = ryhmä (tapaukset, verrokit)

Malli 1: loge E (ƒijk) = θ + λiD + λj

T + λkA + λjk

TA

M1 = (D, TA)

GM1

2 = 166.9 dfM1 = 15 , P = 0.0000

Loglineaariset mallit 176 Seppo Sarna

Page 181: Sisällysluettelo - Terkko · Normanin ja Steinerin ’Biostatistics, The Bare Essentials’ on hauskasti ja selkeästi kirjoitettu kirja. Tekstiä on sopivasti höystetty huumorilla.

Tulkinta: Malli 1 testaa otantakehikon “rajoituksia”, eli malli testaariskitekijöiden (tupakka, alkoholi) välisiä interaktioita, mutteiniiden interaktioita tapaus-verrokki-muuttujaan. Malli on huonostiyhteensopiva aineiston kanssa, koska 166.9 > 37.70 = χ15 , 0.001

2

Malli 2: loge E (ƒijk) = θ + λiD + λj

T + λkA + λ jk

TA + λ ikDA

M2 = (DA, TA)

GM2

2 = 20.40 , dfM2 = 12 , P = 0.0561 (melko hyvä yhteensopivuus)

GM1

2 − GM2

2 = 166.9 − 20.4 = 146.5, P = 0.0000

dfM1 − dfM

2 = 15 − 12 = 3

Tulkinta: Ruokatorven syövän suhteellinen riski on erisuuri erialkoholiryhmissä. Mallin yhteensopivuus aineiston kanssa onmelko hyvä (P = 0.06).

Malli 3: loge E (ƒijk) = θ + λiD + λj

T + λkA + λ jk

TA + λ ikDA + λ ij

DT

M3 = (DT, DA, TA)

GM3

2 = 7.76 , dfM3 = 9 , P = 0.5580

GM2

2 − GM3

2 = 20.4 − 7.76 = 12.6, P = 0.0056

Huom Tässä mallissa alkoholin mahdollinen sekoittava vaikutus tupakanja ruokatorven syövän riippuvuuteen on kontrolloitu, jotentupakalla on itsenäinen vaikutus.

Synergismin testaaminen:• muodostetaan tupakan ja alkoholin järjestysasteikolliset muuttujat luokkaindekse-

jä käyttäen; arvot 1, 2, 3, 4. Merk. T* ja A*

• liitetään malliin interaktiotermi λi..DT∗ A∗ (malli 4)

GM4

2 = 5.460 , dfM4 = 8

GM3

2 − GM4

2 = 7.765 − 5.460 = 2.305, P = 0.1290

Tulkinta: Ei evidenssiä synergismistä.

ViitteetAgresti A. Categorical data analysis. Wiley-Interscience, New York 1990

Biostatistiikan jatkokurssi 1999 177 Loglineaariset mallit

Page 182: Sisällysluettelo - Terkko · Normanin ja Steinerin ’Biostatistics, The Bare Essentials’ on hauskasti ja selkeästi kirjoitettu kirja. Tekstiä on sopivasti höystetty huumorilla.

Bishop YMM, Fienberg SE & Holland PW. Discrete multivariate analysis: Theory and Practi-ce. McGraw-Hill, Cambridge Mass. 1975.

Breslow NE & Day NE. Statistical methods in cancer research, The analysis of case-controlstudies, IARC Scientific publications no. 32, 1980

Loglineaariset mallit 178 Seppo Sarna

Page 183: Sisällysluettelo - Terkko · Normanin ja Steinerin ’Biostatistics, The Bare Essentials’ on hauskasti ja selkeästi kirjoitettu kirja. Tekstiä on sopivasti höystetty huumorilla.

Logistinen monimuuttujamalli

Logistinen malliSelitettävän muuttujan y ollessa dikotominen (esim. 0 = ’henkilö on terve’, 1 = ’henkilö sai-rastaa sepelvaltimotautia’) voidaan regressio- tai erotteluanalyysiä käytettäessä saada epäloo-gisia tuloksia. On mahdollista, että joillekin aineistoon kuuluville potilaille ennustetut y-arvot(sairastumisen todennäköisyydet) menevät välin (0 - 1) ulkopuolelle. Tämä epäsuotava tilan-ne voidaan välttää käyttämällä regressio- ja erottelyanalyysien asemesta logistista mallia.Cornfield esitti ensimmäisenä tämän mallin käyttöä sepelvaltimotautivaaran arvioimiseksivuonna 1962.

Logistista mallia voidaan käyttää myös silloin, kun y-muuttuja on useampiluokkainen ilmais-ten esim. monia sairaustiloja. Kyseessä on tällöin polykotominen regressio (’polychotomouslogistic regression’) Tähän tarkoitukseen soveltuvia tilasto-ohjelmia ovat esim. PR BMDP:ssäja CATMOD SAS:issa.

Logistisella analyysillä on erotteluanalyysiin verrattuna sairastumisvaaran mielekkään tulkin-nan ohella toinenkin merkittävä etu: arvioiduista kertoimista voidaan suoraan arvioida suhteel-lisen sairastumisvaaran muutoksia kullekin mallissa olevalle muuttujalle erikseen.

Muuttujat: y (1 = kyllä, 0 = ei)x = (x1, ..., xp)

xi:t voivat olla• jatkuvia• luokiteltuja

tapa 1: ei referenssikategoriaa (BMDP: DVAR=MARG)tapa 2: referenssikategoria (BMDP: DVAR=PART)tapa 3: kontrastit (BMDP: DVAR=ORTH) Ortogonaaliset polynomit

• järjestysasteikollisiatrendit

Huom. Tapa 2 mahdollistaa ristitulosuhteen (OR) arvioimisen mallinperusteella

y:n ehdollinen keskiarvo ehdolla x on annettu

E (y |x) = ∏(x) = eβ0 + β1x1 + … + βpxp

1 + eβ0 + β1x1 + … + βpxp

, missä β0, β1, … , βp ovat mallin parametreja

Biostatistiikan jatkokurssi 1999 179 Logistinen monimuuttujamalli

Page 184: Sisällysluettelo - Terkko · Normanin ja Steinerin ’Biostatistics, The Bare Essentials’ on hauskasti ja selkeästi kirjoitettu kirja. Tekstiä on sopivasti höystetty huumorilla.

Tarkastellaan y:n ehdollista keskiarvoa Π (x) = E (y|x), kun oletetaan, että x on annettu. Logis-tisen mallin mukaisesti:

Π (x) = eβ0 + β1x1 + … + βpxp

1 + eβ0 + β1x1 + … + βpxp, missä β0, β1, … , βp ovat mallin parametrejä.

Logistisessa regressiossa näyttelee keskeistä roolia ns. logit muunnos, joka Π (x):n avulla il-maistuna on:

g (x) = ln Π (x)

1 − Π (x) = β0 + β1x1 + … + βpxp

Logistisen mallin mukaisesti, kun oletetaan, että x on annettu, lopputulos y saadaan yhtälöstä:

y = Π (x) + ε ,

missä ε saa jommankumman kahdesta mahdollisesta arvosta:

1) Jos y = 1, ε = 1 − Π (x) todennäköisyydellä Π (x)

2) Jos y = 0, ε = − Π (x) todennäköisyydellä 1 – Π (x)

Näin ollen ε:in keskiarvo on nolla ja varianssi Π (x) ∗ (1 − Π (x)), eli ε noudattaa binomija-kaumaa.

OlettamuksistaLineaarisessa regressiossa ε noudattaa normaalijakaumaa. Muut pääperiaatteet ovat logistises-sa regressiossa voimassa samoin kuin lineaarisessa regressiossa.

Cornfield lähti logististen funktioiden johtamisessa olettamuksesta, että muuttujat x1, ..., xp yh-dessä ovat multinormaalisia ja että kovarianssisrakenteet ovat samat kummassakin ryhmässä.Tällöin logistisessa funktiossa kertoimet b1, ..., bp ovat samat kuin erotteluanalyysistä saatavat.

Logistisessa mallissa ei tarvitse kuitenkaan tehdä kovarianssirakenteiden yhtäläisyysoletusta,sillä tavallisesti logistisen mallin kertoimet arvioidaan käyttäen nk. suurimman uskottavuudenmenetelmää (’maximum likelihood’) joka ei perustu ollenkaan kovarianssien laskemiseen.

Myöskään oletus multinormaalisuudesta ei ole tarpeellinen ja varsin yleisesti lääketieteellisis-sä tutkimuksissa käytetäänkin mallissa määrällisten muuttujien ohella luokiteltuja ja kaksiar-voisia muuttujia. Havaintojen riippumattomuusoletus on logistisessa mallissakin välttämätön.

Sairastumisvaaran arviointiLopputuloksen y = 1 (esim. sairastumisvaara) todennäköisyys, jos x on annettu, saadaan logis-tisen mallin mukaisesti kaavasta:

Px = P (y = 1|x) = 1

1 + exp [− g(x)]

Logistinen monimuuttujamalli 180 Seppo Sarna

Page 185: Sisällysluettelo - Terkko · Normanin ja Steinerin ’Biostatistics, The Bare Essentials’ on hauskasti ja selkeästi kirjoitettu kirja. Tekstiä on sopivasti höystetty huumorilla.

Vaihtoehtoisia malleja:

1) Px = g(x) lineaarinen regressio

2) Px = ∫ − ∞

g(x)

e− u2⁄2 dn probit-malli

3) Px = λ (t |x) = λ0 (t) exp (g(x)) Coxin malli

Esim. Kohorttitutkimus, 12 vuoden sepelvaltimotauti-ilmaantuvuus (lähde: Truett et al. J Chron Dis 20: 511 -524, 1967). Framingham-tutkimus.

Aineisto: 742 40-49 vuotiasta miestä, joilla ei alkututkimuksessa ollut todettu sepel- valtimotautia.

(x) Muuttuja(β)

Parametri(β)

EstimaattiSE (β) Standardoitu

kerroin

x0 Vakio β0 – 13.2573

x1 Ikä (v) β1 0.1216 0.0437 0.337

x2Kolesteroli

(mg/dl)β2 0.0070 0.0025 0.303

x3

Systolinenverenpaine(mmHg)

β3 0.0068 0.0060 0.132

x4Suhteellinen

paino* β4 0.0257 0.0091 0.345

x5Hemoglobiini

(g/dl)β5 – 0.0010 0.0098 – 0.001

x6 Tupakointi** β6 0.4223 0.1031 0.495

x7 EKG*** β7 0.7206 0.4009 0.175

*100 * paino / (sukupuoli-pituus -ryhmän mediaani)**1 = alle ‘toppa’ päivässä, 2 = ‘toppa’ päivässä, 3 = yli ‘toppa’ päivässä***0 = normaali, 1 = epänormaali

Esim. 40-49-vuotiaan miehen, jolla on riskitekijät x seurannan alussa,todennäköisyys sairastua sepelvaltimotautiin 12 vuoden kuluessa.

P (y = 1|x) = 1

1 + exp [− (− 13.26 + 0.1216x1 + … + 0.7206x7)]

Esim. x = (45, 210, 130, 100, 120, 0, 0) x1 x2 x3 x4 x5 x6 x7

[⋅] = − 2.9813 ⇒ P (y = 1|x) = 11 + exp (− 2.9813)

= 0.048

Biostatistiikan jatkokurssi 1999 181 Logistinen monimuuttujamalli

Page 186: Sisällysluettelo - Terkko · Normanin ja Steinerin ’Biostatistics, The Bare Essentials’ on hauskasti ja selkeästi kirjoitettu kirja. Tekstiä on sopivasti höystetty huumorilla.

Mallin parametrien tulkintaLogistisessa mallissa saadaan suoraan arvioitua yksittäisen muuttujan xi aiheuttama riskin li-säys, kuten edellä todettiin. Jos vaaratekijä xi on dikotominen siten, että 0 ilmaisee vaaranpuuttumista ja 1 sen olemassaoloa, niin tällöin exp (βi) ilmaisee suhteellista sairastumisriskiäniillä, joilla on ko. vaaratekijä verrattuna niihin, joilla sitä ei ole (ks. esim. Schlesselman s.239).

Mikäli vaaratekijä on k-luokkainen, voidaan menetellä siten, että muodostetaan (osa tilasto-ohjelmistoista suorittaa tämän automaattisesti) k-1 kappaletta (0, 1)-indikaattorimuuttujia va-litsemalla jokin luokka vertailuluokaksi (esim. tupakoimattomat). Tällöin exp(βI), missä I onjokin näistä indikaattoreista, ilmaisee kyseisen luokan suhteellisen sairastumisriskin vertailuluokkaan nähden.

Jos xi on jatkuva, niin tulkinta on samankaltainen kuin regressioanalyysissäkin, ts. tällöinexp(βi) ilmaisee yhden yksikön muutoksen vaikutuksen suhteelliseen riskiin ja vastaavasti jos

esim. riski lisääntyy k:n yksikön verran, suhteellinen sairastumisriski lisääntyy exp(kβi):n ver-ran.

Mikäli tarkastellaan kahden dikotomisen riskitekijän xi ja xj samanaikaista muutosta, niin suh-teellinen riskin muutos on exp(βi + βj).

Logistisen analyysin suorittaminen ja kerrointen estimointi voidaan suorittaa tapaus-verrok-kiasetelmassa (sairauslähtöinen asetelma) samoin kuin seurantatutkimuksessakin (Prentice,1976) ja β-kerrointen tulkinta on samankaltaista. Seurantatutkimusasetelman pohjalta tehdys-sä logistisessa analyysissä exp(β0) ilmaisee eräänlaisen perusriskitason. Sen sijaan tapaus-ver-

rokki -tutkimusasetelmassa kertoimella β0 ei ole mitään mielekästä tulkintaa, sillä se on täysinkeinotekoinen riippuen tapauksien ja verrokkien suhteesta. Se voidaan tosin muuntaa sopival-la muunnoskaavalla sellaiseksi, että sille saadaan mielekäs tulkinta keskimääräisenä riskinä(ks. esim. Afifi ja Clark s. 301).

Esimerkkejä

a) Yksittäisen muuttujan vaikutus sairastumisvaaraan P (y = 1 | x):

Esim. Henkilöt A ja B, joilla vaaratekijät

xA = (45, 210, 130, 100, 120, 0, 0)xB = (45, 210, 130, 100, 120, 3, 0)

⇒ P (y = 1|xA) = 0.0483, P (y = 1|xB) = 0.1526

Näin ollen vaarasuhteeksi (RR) saadaan:RR = 0.1526/0.0483 = 3.16

Tulkinta: Tupakointi (yli ‘toppa’ päivässä) lisää henkilön sairastumisvaaransepelvaltimotapahtumien suhteen 12 vuoden ajalla noin kolminkertai-

Logistinen monimuuttujamalli 182 Seppo Sarna

Page 187: Sisällysluettelo - Terkko · Normanin ja Steinerin ’Biostatistics, The Bare Essentials’ on hauskasti ja selkeästi kirjoitettu kirja. Tekstiä on sopivasti höystetty huumorilla.

seksi verrattuna henkilöön A, joka ei tupakoi, mutta muut riskitekijätovat samat.

b) Suhteellinen sairastumisvaara OR (‘relative odds of disease’)

P (y=1|x)P (y=0|x)

= exp (β0 + β1x1 + … + βpxp)

Huom! yhden yksikön muutos muuttujassa xi muuttaa suhteellista riskiäeβ

i verran.

Esim. Iän lisäys vuodella edellä olevassa esimerkissä lisää riskiäexp(0.1216) = 1.13 eli 13 %. Vastaava riskin lisäys saadaan kasvatta-malla kolesterolitasoa 0.1216/0.0070 = 17.4 (mg/dl)

Huom! Tupakoiminen > ‘toppa’/pv lisää suhteellista vaaraaexp (0.4223 * 3) = 3.55 (vrt. RR = 3.16)

c) Kahden vaaratekijän samanaikainen muutos

Oletetaan, että molemmissa vaaratekijöissä i ja j tapahtuu yhdenyksikön muutos, siis:

xi → xi + 1xj → xj + 1

Nämä vaaratekijämuutokset aiheuttavat OR:n muutoksen:

exp (βi + βj) = exp (βi) ∗ exp (βj)

Esim. Ikä lisääntyy vuodella ja henkilö aloittaa tupakoinnin(x1: 45 → 46 (esim.) ja x6: 0 → 1), jolloin riskin lisäys onexp (0.1216 + 0.4223) = 1.72

Yleisesti: Henkilön, jolla on vaaratekijät x* = (x1*, ... , xp*) OR (‘odds ratio’)verrattuna henkilöön, jolla on riskitekijät x = (x1, ..., xp) on

OR = P (y = 1|x∗ ) ∗ P (y = 0|x)

P (y = 0|x∗ ) ∗ P (y = 1|x) = exp [∑ βi (xi

∗ − xi)]

Huom! Jos ero on vain muuttujassa xk, niin

OR = exp (βk (xk∗ − xk))

tai jos xk on dikotominen (0, 1), niinOR = exp (βk)

Huom! eβ0 on sellaisen henkilön sairastumisvaara, jolla x = 0.

Biostatistiikan jatkokurssi 1999 183 Logistinen monimuuttujamalli

Page 188: Sisällysluettelo - Terkko · Normanin ja Steinerin ’Biostatistics, The Bare Essentials’ on hauskasti ja selkeästi kirjoitettu kirja. Tekstiä on sopivasti höystetty huumorilla.

Huom! Tapaus – verrokkitutkimuksessa

β0 ← β0∗ = β0 + ln

Π1

Π0

missä Π1 on todennäköisyys, että sairas henkilö tulee mukaan otantaan,

Π0 on vastaava todennäköisyys terveelle henkilölle.

d) Muuttujien suhteellinen merkitysStandardoidut kertoimet:

β^i∗ = βi √ Var (xi)

Esim. Edellä olevassa esimerkissä sekä iän (x1) että kolesterolin (x2)standardoitu kerroin on luokkaa 0.3, eli niiden merkitys on logistisessamallissa saman suuruinen.

Jos arvioidaan, että preventiotoimenpitein voitaisiin muuttujien arvojamuuttaa ∆x1, … , ∆xp verran, niin muuttujan xi merkitys vaaraan olisi βi∆xi

Ongelma: Muuttujat xi ovat tavallisesti korreloituneita keskenään.

e) Osite-efektin arviointiJos aineisto on jaettu ositteisiin, niin ositteen efekti saadaan huomioiduksimallilla:

logit Pk = β0, k + ∑ βixi

⇒ k ositteeseen liittyvä RRk = eβ0, k (osite-efekti)

Kerrointen merkitsevyyden testaaminen jaluottamusvälit

Ongelma: Kertooko malli, jossa on mukana tietty muuttuja xi, enemmän loppu-tuloksesta kuin malli jossa xi:tä ei ole

Huom. Tämä on eri asia kuin mallin hyvyyden testaaminen (‘goodness of fit’)Yllä olevaan testausongelmaan soveltuu parhaiten G-testi (‘deviance’),joka perustuu ns. uskottavuuteen (‘likelihood’):

G = − 2 ln uskottavuus xi:n kanssauskottavuus ilman xi:tä

G-testi on kaikissa niissä ohjelmistopaketeissa, joissa on logistinen regressio-ohjelma.Kun vertaillaan kahta mallia M1 ja M2 keskenään, siis esimerkiksi lisättyjenmuuttujien merkitystä, niin erotus GM

1 − GM

2 noudattaa χ2-jakaumaa para-

metrein dfM1 − dfM

2

Logistinen monimuuttujamalli 184 Seppo Sarna

Page 189: Sisällysluettelo - Terkko · Normanin ja Steinerin ’Biostatistics, The Bare Essentials’ on hauskasti ja selkeästi kirjoitettu kirja. Tekstiä on sopivasti höystetty huumorilla.

Waldin testi: Hypoteesi H0: βi = 0

z = βi

SE (βi)

Luottamusväli:

exp [βi (xi∗ − xi) ± zα ∗ SE (βi) ∗ (xi

∗ − xi)]

Yhteensopivuustestit ryhmitellylle aineistolle:

1) Uskottavuussuhdetesti:

G = ∑ 2 ∗ O ∗ ln OE

Klassinen menetelmä

Huom. Summa lasketaan yli kaikkien vaaratekijäkombinaatioiden.Huono tulos, jos kombinaatioita on paljon!

2) χ2 = ∑ i

(Oi − Ei)2

Ei Lemeshow ja Hosmer (1982)

• tavallisesti perustuu desiilijakoon, jolloin i = 10• hyvä testi

Huom. Mikäli ryhmien lukumäärä on pieni aineistokokoon verrattuna,noudattavat molemmat ylläolevat testit nollahypoteesin vallitessaχ2-jakaumaa.

3) C. C. Brownin testi• tutkii kuinka hyvin malli sopii ainestoon• vertaa mallia logistisen mallin kanssa samankaltaisien jakaumien perheeseen• jos P-arvo on pieni, yhteensopivuus on huono

Interaktion hallintaMenettelytavat

• Tulotermien käyttö

Esim. logit (P) = β0 + β1x1 + β2x2 + γ (x1x2)

Testi:

z = γ

SE (γ)tai askeltava malli ja yhteensopivuustestien käyttö.

• Osittaminen ja erillisten mallien sovitus kuhunkin ositteeseen

Biostatistiikan jatkokurssi 1999 185 Logistinen monimuuttujamalli

Page 190: Sisällysluettelo - Terkko · Normanin ja Steinerin ’Biostatistics, The Bare Essentials’ on hauskasti ja selkeästi kirjoitettu kirja. Tekstiä on sopivasti höystetty huumorilla.

Esim. Truett, Cornfield, Kannel (1967)

Kolesteroli

Ikä β SE (β)

30 - 39 0.0231 0.0040

40 - 49 0.0074 0.0027

Interaktion testi: χ2 = (0.0231 − 0.0074)2

0.00402 + 0.00272 = 18.4

P = 0.001 (kaksipuolinen)• perustui ositettuun analyysiin ja adjustointiin muiden vaaratekijöiden suhteen• erilliset logistiset mallit kussakin ositteessa

Sekoittavien tekijöiden hallintaMalli: logit (P) = β0 + β1x

OR = exp (β1 (xi − x0))z1, ... , zk sekoittavia tekijöitä

Malli: logit(P) = β0 + β1x + ∑ j = 1

k

βzjzj = β0, j + β1x

Esim. Tupakointifrekvenssit sydäninfarktitapauksilla ja verrokeillaikäluokittain, T = tapaukset, V = verrokit

Ikä (v)

0 1 2 3 4

25-29 30-34 35-39 40-44 45-49

Savukk./pv xi T V T V T V T V T V

Ei 0 1 131 0 188 3 161 11 169 23 157

1-24 1 1 104 6 152 12 130 21 134 42 97

≥ 24 2 4 51 15 83 22 65 39 68 34 52

Lähde: Shapiro et al 1979

Tupakointi Ikävakioitu OR

1-24 vs. Ei ORM − H = 3.16

≥ 24 vs. Ei ORM − H = 8.57

Huom! logit (P) on 30-34 -vuotiaille määrittelemätön, koska ’Odds’ on 0/188!⇒ ei konvergoi

Logistinen monimuuttujamalli 186 Seppo Sarna

Page 191: Sisällysluettelo - Terkko · Normanin ja Steinerin ’Biostatistics, The Bare Essentials’ on hauskasti ja selkeästi kirjoitettu kirja. Tekstiä on sopivasti höystetty huumorilla.

Tapa a) Jätetään pois 0/188 ⇒ logit (P) = – 4.70 + 1.04x + 0.657z

Tupakointi

1-24 vs. ei OR = exp (1.04 (1 − 0)) = 2.82

≥ 24 vs. ei OR = exp (1.04 (2 − 0)) = 7.96

Tapa b) Korjaustekijä 12

⇒ logit (P) = - 4.71 + 1.054x + 0.656z

Tupakointi

1-24 vs. ei OR = 2.87

≥ 24 vs. ei OR = 8.23

Esim. Ille-et-Vilaine-tutkimus: Alkoholin osuus ruokatorvensyövässä, ikäefektin testaaminen (Breslow & Day, 1980, Vol. 1, s. 211)

Aineisto: Alkoholialtistus; x = 1 jos yli 80 g/pv, muuten x = 0.

Ikäosite Koodi Lukumäärä Yhteensä

25-34

1 1

1 1 10

0 0 106

35-44

2 2

1 4 30

0 5 169

45-54

3 3

1 25 54

0 21 159

55-64

4 4

1 19 69

0 34 173

65-74

5 5

1 19 37

0 36 124

75-

6 6

1 5 5

0 8 39

i 200 775

Mallit:

Biostatistiikan jatkokurssi 1999 187 Logistinen monimuuttujamalli

Page 192: Sisällysluettelo - Terkko · Normanin ja Steinerin ’Biostatistics, The Bare Essentials’ on hauskasti ja selkeästi kirjoitettu kirja. Tekstiä on sopivasti höystetty huumorilla.

1. logit Pi (x) = β0, i (altistusta ei huomioida)2. logit Pi (x) = β0, i + βx (altistus mukana)3. logit Pi (x) = β0, i + βx + γx (i − 3.5)

Huom. eβ0, i ositteeseen liittyvä vaara

eβ ‘tyypilliseen’ ikään, 50 vuotta (i = 3.5) liittyvä vaaraeγ lineaarisen trendin osuus (iän suhteen)

MalliParametrienlukumäärä

Vapausasteet(df)

Testisuure

(χ2)β SE (β) γ SE(γ)

1 6 6 101.8 — — — —

2 7 5 9.32 1.67 0.190 — —

3 8 4 8.50 1.71 0.201 0.125 0.189

Huom. Mallissa 1 on mukana ainoastaan ositekohtaiset parametritβ0, i, i = 1, … , 6

Malli 2: OR = exp (1.67) = 5.3195 % luottamusvälit: 1.67 ± 1.96 * 0.190 ⇒ CI95: [3.66, 7.71]

Tulkinta:• Mallissa 1 fitti on huono.• Testisuureen arvo paranee olennaisesti, kun x otetaan malliin mukaan.• Vertaamalla malleja 2 ja 3 keskenään todetaan, ettei ikätrendi ole lineaarinen, koska

χ2 = 9.32 – 8.50 = 0.82, df = 1 ei ole tilastollisesti merkitsevä.

Mallin yleistyksiä• alkoholimuuttuja 4-luokkaisena• tupakka 4-luokkaisena• ikä 6-luokkaisena

⇒ 96 ositetta, 96 havaintoa logit-malliin

DataIndikaattorit

Alkoholi TupakkaInteraktio

A * T

Hav. Ikä Alk. Tup. x1 x2 x3 x4 x5 x6 x7 ... x15

1 1 1 1 0 0 0 0 0 0 0 ... 0

2 1 1 2 0 0 0 1 0 0

3 1 1 3 0 0 0 0 1 0

4 1 1 4 0 0 0 0 0 1

5 1 2 1 1 0 0 0 0 0

jne...

Logistinen monimuuttujamalli 188 Seppo Sarna

Page 193: Sisällysluettelo - Terkko · Normanin ja Steinerin ’Biostatistics, The Bare Essentials’ on hauskasti ja selkeästi kirjoitettu kirja. Tekstiä on sopivasti höystetty huumorilla.

Mallin sovitus

Malli Muutt. Param. df G

1 ikä 6 82 246.9

2 ikä ja alk. 9 79 105.9

3 ikä ja tup. 9 79 210.3

4 ikä, alk. ja tup. 12 76 82.3

Malleihin liittyvät hypoteesit:

Malli 1: Tupakalla ja alkoholilla ei ole vaikutusta sairastumisriskiin.

Malli 2: Pelkästään alkoholin vaikutus, adjustoituna iän suhteen.

Malli 3: Pelkästään tupakan vaikutus, adjustoituna iän suhteen.

Malli 4: Alkoholin ja tupakan efektit (multiplikatiivinen hypoteesi),adjustoituna iän suhteen.

Mallin valinta• funktionaalinen muoto• muuttujien valinta• interaktiotermien mukaanotto• muuttujien muunnokset (esim. luokitukset)

Muuttujien valintaongelmia• askeltava menetelmä on sokea assosiaation luonteelle• aineistokoko korostuu• kausaalisia polkuja ei huomioida

KirjallisuuttaCornfield J: Joint dependence of risk of coronary heart disease on serum cholesterol andsystolic blood pressure: a discriminant function analysis. Fedr Proc 21: 58-61, 1962.

Biostatistiikan jatkokurssi 1999 189 Logistinen monimuuttujamalli

Page 194: Sisällysluettelo - Terkko · Normanin ja Steinerin ’Biostatistics, The Bare Essentials’ on hauskasti ja selkeästi kirjoitettu kirja. Tekstiä on sopivasti höystetty huumorilla.

Hosmer DW, Lemeshow S. Applied logistic regression. John Wiley & Sons, New York, 1989.

Kleinbaum DG: Logistic Regression, A Self-Learning Text. Springer, 1994. ISBN: 0-387-94142-8

Prentice R: Use of logistic model in retrospective studies. Biometrics 32: 599-606, 1976.

Schlesselman JJ: Case-control Studies. Design, Conduct, Analysis. Oxford Univ. Press, 1982.

Logistinen monimuuttujamalli 190 Seppo Sarna

Page 195: Sisällysluettelo - Terkko · Normanin ja Steinerin ’Biostatistics, The Bare Essentials’ on hauskasti ja selkeästi kirjoitettu kirja. Tekstiä on sopivasti höystetty huumorilla.

Eloonjäämisanalyysi

Väestöelinaikataulut ja -mallitKäyttö:

• eliniän odotteen laskeminen• muut aktuaariset menetelmät

Väestöelinaikatauluissa oletetaan, että väestön kuolleisuus noudattaisi laskentahetkellä vallit-sevaa ikä-sukupuoli -kohtaista kuolleisuutta myös tulevaisuudessa. Niillä on siten käyttöarvoaeräänlaisena yhteenvetona tietyllä hetkellä tietyssä väestössä vallitsevasta kuolleisuudesta.Laskenta perustuu kaavoihin:

x = ikä, qx = kuolintodennäköisyys ja lx = elossaolevien määrä iässä x

lx = l0p0 … px − 1 , missä px = 1 − qx

Jäljellä olevan eliniän odotusarvo (odote)

e = (lx + 1 + lx + 2 + … )

lx + 1⁄2

Esim. Tilanne Englannissa ja Walesissa n. 1931

A. Väestöelinaikataulut vuosilta 1930-1932 lx

B. Kohorttielinaikataulut v. 1931 syntyneet lx∗

(Armitage & Berry, 1987, s. 423)

x qx lx ex lx∗

0 0.0719 1000 58.7 1000

1 0.0153 928.1 62.2 927.8

5 0.0034 900.7 60.1 903.6

10 0.0015 890.2 55.8 894.8

20 0.0032 872.4 46.8 884.2

30 0.0034 844.2 38.2 874.1

40 0.0056 809.4 29.6 861.8

50 0.0113 749.9 21.6 829.7

. . . . —

. . . . —

Biostatistiikan jatkokurssi 1999 191 Eloonjäämisanalyysi

Page 196: Sisällysluettelo - Terkko · Normanin ja Steinerin ’Biostatistics, The Bare Essentials’ on hauskasti ja selkeästi kirjoitettu kirja. Tekstiä on sopivasti höystetty huumorilla.

Kohortti (seuranta-) eloonjäämisanalyysitKäyttö: odotusaika tapahtumasta toiseenEsim. Aika, joka kuluu

diagnoosista kuolemaanhoidon aloittamisesta uuteen tautiepisodiinoireiden päättymisestä oireiden uusiutumiseen

• ei-parametriset menetelmäteloonjäämistaulutKaplan – Meier -menetelmä

• parametriset mallit, esim:tasainen jakaumaexponentiaalinen jakaumaGomprezin jakaumaWeibullin jakaumagammajakaumalog-normaalinen jakauma

Laskentaedellytykset:1) Selvästi ja tarkkaan määritelty seurannan alkamis- ja päättymisajanhetki2) Päätepiste kaksiarvoinen3) Alkuajankohta voi vaihdella kronologisesti4) Seuranta-aika voi olla vaihtelevan pituinen5) Sellaisten seuranta-aikojen osuus, jotka ovat lyhyitä ja joissa tutkittava ei ole päätynyt

päätepistetapahtumaan (rajatut, so. elävät ja kadotetut), ei saa olla suuri6) Seuranta-ajoista muodostuvien jakaumien tulisi olla suunnilleen samanlaiset vertail-

tavilla ryhmillä, ja rajattujen osuudet liki yhtäsuuret 7) Eliniän odotteen laskenta-algoritmi antaa aliestimaatin, jos suuri osa aineistosta ei

ole lähellä päätepistetapahtumaa, eli jos suuri osa aineistosta on rajattuja havaintoja

EloonjäämistaulutKäyttö: Aineisto ryhmitetty elossaoloaikojen perusteella

Laskentakaavat:

Vaaralle alttiina olevien määrä välillä [x, x + 1]:

nx’ = nx −

12

cx , missä nx, on adjustoitu määrä, nx on määrä hetkellä x

ja cx on rajattujen lukumäärä (‘censored’) eli elävinäpoistuneet tai kadotetut

Eloonjäämisanalyysi 192 Seppo Sarna

Page 197: Sisällysluettelo - Terkko · Normanin ja Steinerin ’Biostatistics, The Bare Essentials’ on hauskasti ja selkeästi kirjoitettu kirja. Tekstiä on sopivasti höystetty huumorilla.

Kuolintodennäköisyys:

qx = dx

nx,

Elossaolotodennäköisyys:

px = 1 − qx

Esim. p0 * p1 * p2 * p3 * p4 on 5 vuoden elossaolotodennäköisyys

Kumulatiivinen elossaolotodennäköisyys:

Px = px − 1 Px − 1 SE(Px) = Px [ ∑ j = 1

x − 1qx

nx’ px

]1⁄2 (Greenwood, 1926)

lx = l0 ∗ p0 ∗ p1 ∗ … ∗ px − 1 missä l0 on mielivaltainen vakio, esim. l0 = 1000

SE (lx) = lx [ ∑ j = 1

x − 1dj

nj’ (nj

’ − dj)]1⁄2

Huom. Kaava antaa aliestimaatin, jos rajattujen osuus on suuri

Luottamusvälit:

CI95: Px ± 1.96 ∗ SE(Px)

lx ± 1.96 ∗ SE(lx)

Korjattu luottamusväli:

lx exp(± 1.96 ∗ s) (Kalbfleiss & Prentice, 1980) , missä s =

SE (lx)− lx ln (lx)

Toinen laskukaava SE(lx):lle

SE (lx) = lx√1 − lx

n’x(Peto et al, 1977)

Kaplan-Meier -menetelmäKliinisissä tutkimuksissa käytetään paljon eloonjäämismenetelmiä (’survival methods’) jayleisin niistä on nk. Kaplan-Meier -(rajatulo)menetelmä (’product-limit’). Sen laskenta-menetelmä perustuu seuraavaan yleisperiaatteeseen: Aina, kun missä tahansa seurattavistaryhmistä tulee tutkimuksen kohteena oleva tapahtuma (’event’), esim. kuolema, reinfarktijne., niin jokaisen tapahtuman jälkeen lasketaan todennäköisyys:

P(t) = ∏ ti < t

N − i + 1 − δi

N − i + 1, missä δi =

1, jos tapahtuma0, jos rajattu

Biostatistiikan jatkokurssi 1999 193 Eloonjäämisanalyysi

Page 198: Sisällysluettelo - Terkko · Normanin ja Steinerin ’Biostatistics, The Bare Essentials’ on hauskasti ja selkeästi kirjoitettu kirja. Tekstiä on sopivasti höystetty huumorilla.

P(t):n keskivirhe saadaan kaavasta:

SE(P(t)) = P(t)√∑ ti < t

δi

(N − i) (N − i + 1) N = aineistokoko ja ti i:nnen henkilön

seuranta-aika

Eloonjäämiskäyrien vertailuLogrank-testi (= Mantel-Haenszelin testi)

kaksi vertailtavaa ryhmä A ja B (on yleistettävissä useammankin ryhmänvertailuun)

lasketaan havaitut (OA, OB) ja odotetut (EA, EB) kuolemantapausmäärätvertailtavissa ryhmissä:

EA = e ∗ ar

, missä e = tapahtumien (= kuolemien) määrä tietyllä ajanhetkellä

r = seurannassa mukana olevien määrä tietyllä ajanhetkelläa = ryhmässä A jäljellä olevien määrä

EB = OA + OB − EA

Vaarasuhde kuoleman suhteen: RRA ⁄ B = OA

⁄ EA

OB ⁄ EB

Merkitsevyystesti: χ2 = (OA − EA)2

EA +

(OB − EB)2

EBdf = 1

Esim. — Diffuusi histiosyyttinen lymfooma (McKelvey et al, 1976)— Asteiden 3 ja 4 vertailu

Aika (pv) n3’ n4

’ d3 d4 E (d3) Var (d3)

4 19 61 0 1 0.2375 0.1811

6 19 60 1 1 0.4810 0.3606

10 18 59 0 1 0.2338 0.5278

. . . . . . .

. . . . . . .

253 7 8 1 0 0.4667 0.2489

Yht. 8 46 16.6870 11.2471

O3 O4 E3 E4

O3 + O4 = E3 + E4 ⇒ E4 = 37.3130

χ2 = (8 − 16.6870)2

16.6870 +

(46 − 37.3130)2

37.3130 = 6.54 P < 0.025

Eloonjäämisanalyysi 194 Seppo Sarna

Page 199: Sisällysluettelo - Terkko · Normanin ja Steinerin ’Biostatistics, The Bare Essentials’ on hauskasti ja selkeästi kirjoitettu kirja. Tekstiä on sopivasti höystetty huumorilla.

Suhteellinen kuolemanvaara

RR3 ⁄ 4 = (8 ⁄ 16.6870)(46 ⁄ 37.3130)

= 0.481.23

= 0.39 RR4 ⁄ 3 = 2.57

Esim. Epästabiilin angiina pektoriksen hoitokokeilu kalsiumin estäjällä.Lähde. Göbel E et al. Randomised, double-blind trial of intravenous diltiazem versus glyseryl nitrate for unstable angina pectoris. Lancet 1995;346:1653-57.

Tutkimuksessa oli 129 potilasta, joilla oli epästabiili angiina pectoris.Potilaat oli satunnaistettu kahteen vertailtavaan ryhmään: A) suonen sisäisesti annettu diltiazem vs. B) glyseryylitrinitraatti.

Lopputulosmuuttujina oli refraktorinen angiina pektoris ja sydän-infarkti sekä niiden yhdistelmä. Tuloksena todettiin, että hoito Avähensi merkitsevästi sepelvaltimotautitapahtumia (p). Analyysi tehtiin Kaplan-Meier-menetelmällä.

Tavallisimmat testit:Mantel-CoxTarone-WareBreslowPeto-Perentice

Biostatistiikan jatkokurssi 1999 195 Eloonjäämisanalyysi

Page 200: Sisällysluettelo - Terkko · Normanin ja Steinerin ’Biostatistics, The Bare Essentials’ on hauskasti ja selkeästi kirjoitettu kirja. Tekstiä on sopivasti höystetty huumorilla.

Huom. Kaikki nämä testit ovat ei-parametrisiä• Mantel-Cox (= logrank testi) antaa saman painon kaikille tapahtumille seuranta-

aikana• Breslowin testi on analoginen Kruskal-Wallisin (eli yleistetyn Wilcoxonin) -testin

kanssa. Se antaa enemmän painoa aikaisemmille tapahtumille seuranta-aikanakuin Mantel-Cox. Se ei siten ole yhtä herkkä seurannan lopussa tuleville tapahtu-mille, jolloin suhteelliset virheet pyrkivät kasvamaan, kun seurattavien määräpienenee.

• Tarone-Ware testisuure on kompromissi Mantel-Coxin ja Breslowin välillä.• Peto-Perentice on myös analoginen Kruskal-Wallisin testin kanssa. Tämä testi

painottaa havaittujen ja odotettujen tapahtumien erotuksia tietyllä ajanhetkelläkäyttäen arvioitua olemassaolofunktiota eikä seurannassa jäljellä olevien määrääkuten Breslow ja Tarone-Ware

• Yllä olevista testeistä on olemassa (mm. BMDP:ssä) myös trendin testaamiseensoveltuvat versiot. Trenditesteillä on käyttöä silloin, kun vertailtavia ryhmiä indi-koiva muuttuja on järjestysasteikollinen, ilmaisten esimerkiksi annosmääriä taiikäryhmiä.

• Lisäksi elossaoloanalyysit ja -testit voidaan suorittaa ositettuina. Ositteisiin jaonperusteena on tavallisesti jokin sekoittava tekijä, esim. taudin vaikeusaste.

Eliniän odotteen laskeminen:• Oletetaan, että eliniät kuhunkin tapahtumaan aineistossa ovat:

t1 ≤ t2 ≤ … ≤ tD , missä tD on tapahtumien määrä

P(t1) P(t2) P(tD)

• Olkoon P(t1), P(t2), ... , P (tD) vastaavat Kaplan-Meier menetelmällä tuotetutrajatulotodennäköisyydet. Tällöin eliniän odote aineistossa saadaan kaavalla:

µ__ = ∑ i = 1

D

P(ti − 1)(ti − ti − 1)

Huom. Jos tD olisi rajattu havainto (esim. elävänä seurannan päättymisen

vuoksi poistettu henkilö), niin µ antaisi aliarvion

SE(µ) = [∑ j = 1

DSj

2

(N − j)(N − j + 1)]1⁄2 , missä Sj

2 = ∑ i = 1

D

P(ti − 1)(ti − ti − 1)

• luottamusväli

CI95: µ ± 1.96 ∗ SE(µ)

Eloonjäämisanalyysi 196 Seppo Sarna

Page 201: Sisällysluettelo - Terkko · Normanin ja Steinerin ’Biostatistics, The Bare Essentials’ on hauskasti ja selkeästi kirjoitettu kirja. Tekstiä on sopivasti höystetty huumorilla.

Parametriset mallit• riskifunktio (‘hazard function’) h(t) mittaa sitä nopeutta, jolla aineistoon kuuluvat

päätyvät päätepistetilaan• eloonjäämisfunktio S(t) kuvastaa eloonjäävien osuutta

Esim. 1. Eksponentiaalinen malli

h(t) = θ (vakio) S(t) = exp (− θt)

2. Weibullin malli

h(t) = θtβ (monotoninen tai vakio)

S(t) = exp (− θβ

t β + 1)

3. Log-normaalinen

h(t) kasvaa kohti maksimiarvoa ja sitten laskee

Coxin malli• riskifunktio

h (t ; z) = h0 (t) exp (β1z1 + … + βkzk) tai ln h (t ; z)h0 (t)

= β1z1 + … + βkzk

z on kovariaateista muodostuva vektori

Huom! β1z1 + … + βkzk on sama kaikille t:n arvoille ⇒ nimitys suhteellistenhasardien malli, ‘proportional hazards model’

Huom! h0(t) on yleensä tuntematon ja analyysin kannalta irrelevantti häiriö-parametri

• menetelmä on ei-parametrinen ajan suhteen, mutta parametrinen kovariaattiensuhteen

Osittainen uskottavuus (‘likelihood’)• Oletetaan, että mallissa on vain yksi muuttuja z ja tarkastellaan aineistossa

ajanhetkellä t tapahtuvaa kuolemantapausta. Olkoon tämän henkilön z:n arvo z*.Oletetaan lisäksi, että I on samaan kuolemanvaaraan kuuluvien henkilöiden jouk-ko. Niin sanottu osittainen uskottavuus saadaan kaavalla:

Biostatistiikan jatkokurssi 1999 197 Eloonjäämisanalyysi

Page 202: Sisällysluettelo - Terkko · Normanin ja Steinerin ’Biostatistics, The Bare Essentials’ on hauskasti ja selkeästi kirjoitettu kirja. Tekstiä on sopivasti höystetty huumorilla.

pj = exp (β zj

∗ )

∑ exp (β zi)i ∈ I

, missä I on samaan riskiryhmään kuuluvien henkilöiden jouk-

ko

Esim. Diffuusi histiosyyttinen lymfooma

z = 0 aste 31 aste 4

Kuolinnopeus: h0(t) aste 3

h0(t) exp(β) aste 4

Kuolleisuussuhde: RR 4⁄3 = exp β

β:n laskeminen, estimointi

p1 = exp (β)

19 exp (0) + 61 exp (β) (1 henkilö (aste 4), kuoli 4 pv:n

kohdalla)

p2 = 1

19 + 60 exp (β) ∗

exp (β)19 + 60 exp (β)

aste 3 (6 pv.) aste 4 (6 pv.) (kaksi henkilöä kuoli 6 pv:n kohdalla)

Log-likelihood = L = ∑ j

ln pj

β lasketaan maksimoimalla L β:n suhteen

=> β = 0.9610 exp (β) = 2.61 SE(β) = 0.3856

Testi: H0: β = 0 eli exp (β) = 1

z = 0.96100.3856

= 2.49 , P < 0.025

KirjallisuuttaHarris EK, Albert A. Survivorship Analysis for Clinical Studies. Marcel Dekker, Inc., 1991.

ISBN: 0-8247-8400-6

Eloonjäämisanalyysi 198 Seppo Sarna

Page 203: Sisällysluettelo - Terkko · Normanin ja Steinerin ’Biostatistics, The Bare Essentials’ on hauskasti ja selkeästi kirjoitettu kirja. Tekstiä on sopivasti höystetty huumorilla.

Sanastoa

Tässä sanastossa olevat käsitteet ja määritelmät on pyritty soveltamaan kliiniseen tutkimus-käyttöön sopiviksi. Määritelmät eivät ole yleispäteviä eivätkä matemaattisesti tarkkoja.

a priori todennäköisyys, ’a priori probability’ ks. ennakkotodennäköisyys

a posteriori todennäköisyys, ’a posteriori probability’jälkikäteistodennäköisyys, ks. ennakkotodennäköisyys

absoluuttinen vaaraero, ’absolute risk difference’ (ARD)ARD tai absoluuttinen vaaran reduktio (ARR) mittaa vertailevissa tutkimuksissa tietyn ta-pahtuman vaaran eroa vertailtavissa ryhmissä. Mitta kuvaa paremmin kuin suhteellinenvaara hoidon kansanterveydellistä tai terveystaloustieteellistä merkitystä. koska se riippuuperusvaarasta eli taudin yleisyydestä. Määritellään: ARD = vaara2 - vaara1, missä vaara2on tapahtuman vaara vertailuryhmässä ja vaara1 vastaavasti tapahtuman vaara hoitoryhmäs-sä.

aineiston tarkastelu, ’data screening’Tutkimusaineiston esitarkastelu ennen varsinaisia analyysejä; poikkeavien havaintoarvojenetsintä, jakaumien muotojen ja perusriippuvuuksien selvittely.

alfa-virhe, α-virhe, ’alpha error’, ’type I error’Todennäköisyys tehdä johtopäätös, että (esim. hoitojen välillä) on merkitsevää eroa, kuntodellisuudessa ei kuitenkaan ole.

algoritmi, ’algorithm’Ratkaisumenetelmä. Esim. aineistokoonarviointikaavan kirjoittaminen makroksi (käskyjou-koksi) taulukkolaskimelle tai päätöspuu jonkin sairauden hoitosuosituksesta.

altistuneiden ryhmä, ’exposed group’Niiden henkilöiden ryhmä, jotka ovat tai joiden oletetaan olevan altistunut jollekin agens-sille, jonka tuottaa sellaisen kemiallisen, fyysisen tai biologisen vaikutuksen, jolla on jokokausaalinen tai muu yhteys tautivaaraan. Esimerkiksi ravinnon runsaan suolapitoisuudenvaikutus verenpainetaudin kehittymiseen. Vastakohta on ei-altistuneiden ryhmä ’non-ex-posed group’.

aritmeettinen keskiarvo, ’arithmetic mean’Tavallisin välimatka- ja suhdeasteikollisen muuttujan jakauman keskeisyyden mitoista.Herkkä poikkeaville havaintoarvoille.

arviointi, ’estimation’Osa tilastollista päättelyä, missä tutkimusaineiston perusteella arvioidaan tutkittavan ilmi-ön kuvaamiseen rakennetun mallin tuntemattomia suureita (parametreja).

bayesiläinen lähestymistapa, ’Bayesian approach’Menettely, missä a priori todennäköisyysjakaumien muodossa esitettyä ennakkotietoa tai -uskomusta tarkennetaan tutkimuksessa kerätyn tiedon avulla. Tieto, jolla ennakkotietoakorjataan esitetään uskottavuus(’likelihood’)funktion muodossa. Näin saadaan nk. a poste-

1999 199 Biomatrian sanastoa

Page 204: Sisällysluettelo - Terkko · Normanin ja Steinerin ’Biostatistics, The Bare Essentials’ on hauskasti ja selkeästi kirjoitettu kirja. Tekstiä on sopivasti höystetty huumorilla.

riorinen todennäköisyysjakauma, jonka avulla voidaan arvioida tutkittavaa asiaa, esim. hoi-toeron suuruutta vertailevissa tutkimuksissa.

beeta-virhe, β-virhe, ’beta error’, ’type II error’Todennäköisyys tehdä johtopäätös, että (esim eri hoitojen välillä) ei ole eroa, kun sitä to-dellisuudessa on.

binomijakauma, ’binomial distribution’Kuvaa toistettujen satunnaisten kaksiarvoisten tapahtumien eri lopputulosten esiintymisto-dennäköisyyksiä. Se on siten epäjatkuva jakauma.

bioekvivalenssi, ’bioekvivalence’Määrä, joka ilmoittaa kuinka paljon esim. lääkkeet saavat vaikutuksiltaan poiketa, jotta nevoidaan katsoa potilaiden hoidon kannalta samanarvoisiksi, bioekvivalenteiksi.

Bonferroni-korjaus, ’Bonferroni correction’Monivertailujen yhteydessä käytetty P-arvojen korjausmenettely, jonka tavoitteena on säi-lyttää alkuperäinen tilastollinen merkitsevyystaso (a-virhe) alunperin suunnitellunsuuruisena monivertailuista huolimatta. Tavallisimmin käytetty taso on 0.05 (5%). Bonfer-roni-korjauksella korjattu P-arvo saadaan kertomalla testin antama P-arvo vertailujen luku-määrällä. Tällä korjauksella on taipumus ylikorjata, koska se olettaa monivertailuttoisistaan riippumattomiksi, mitä ne eivät yleensä käytännössä ole.

Breslowin testi, ’Breslow’s test’Merkitsevyystesti, jolla verrataan kahden tai useamman ryhmän elossaolokäyrien välisiäeroja keskenään. Sen synonyymi on yleistetty Wilcoxonin testi ja se on analoginen Krus-kal-Wallisin testin kanssa. Testi painottaa enemmän seurantajakson alku- kuin loppupääntapahtumia.

Cohenin kappa ’Cohen’s kappa’Luokkamuuttujien välinen yhtäpitävyyden mitta. Mittaa yhtäpitävyyttä esim. kahden taiuseamman arvioitsijan tai diagnostisen menettelytavan välillä. Cohenin kappa lasketaanpelkästään yhtäpitävien tulosten pohjalta.

Coxin regressio, ’Cox regression’Regressiomenetelmä, jonka avulla mallitetaan elossaoloaikoja. Sitä kutsutaan myös nimel-lä suhteellisten vaarojen malli ’proportional hazards model’, koska se perustuuolettamukseen, että tutkittavan kaksiarvoisen tapahtuman vaarojen suhde (’hazard ratio’)vertailtavien ryhmien välillä minä tahansa seurannan ajanhetkenä on vakio. Muita oletuk-sia elossaoloaikojen jakaumasta ei tehdä, joten menetelmä on tässä suhteessa puolittain pa-rametrinen (’semi-parametric’). Coxin mallia käytetään runsaasti esimerkiksisyöpätutkimuksissa. Sen avulla voidaan tutkia lopputulokseen vaikuttavia ennustetekijöitäja kontrolloida sekoittavia tekijöitä.

dikotominen asteikko, ’dichotomical scale’Kaksiarvoinen asteikko (’0,1’,’ei-kyllä’) on erikoistapaus joko laatuero- tai järjestysas-teikosta. Käytetään usein malleissa ja analyyseissa mm. ilmaisin- (’indicator’) tai vale-(’dummy’) muuttujissa.

Biometrian sanastoa 200 Seppo Sarna

Page 205: Sisällysluettelo - Terkko · Normanin ja Steinerin ’Biostatistics, The Bare Essentials’ on hauskasti ja selkeästi kirjoitettu kirja. Tekstiä on sopivasti höystetty huumorilla.

Dunnin testi, ’Dunn’s test’Bonferroni-korjaukseen perustuva testi, jota käytetään Kruskal-Wallisin ja Friedmanin tes-tien yhteydessä P-arvon korjaamiseksi.

Dunnetin testi, ’Dunnett’s test’Monivertailutesti, jota käytetään vertaamaan useita hoitoryhmiä yhteen kontrolliryhmään.Testiä käytetään varianssianalyysin yhteydessä.

ehdollinen todennäköisyys, ’conditional probability’Ehdollinen todennäköisyys P(A|B) ilmaisee tapahtuman A esiintymismahdollisuuden, mi-käli ehto B on voimassa (tapahtuma B on tapahtunut). Esim. jonkin sairaudenikäluokkakohtaiset esiintyvyydet. Tällöin tapahtuma A on sairauden esiityminen ja tiettyynikäluokkaan kuuluminen on ehto B.

ei-parametrinen menetelmä, ’non-parametric method’Menetelmä, joka ei perustu mihinkään jakaumaoletuksiin, vaan siinä tarvittavat suureet las-ketaan suoraan havaintoaineistosta esim. muodostamalla suhdelukuja, niiden tuloja jne.(esim Kaplan-Meier -menetelmä) tai muodostamalla järjestyslukuja sekä niiden perusteellajohdettuja suureita (esim. Wilcoxon-Mann-Whitney’n testisuure). Ei-parametrisia menetel-miä käytetään etenkin pienissä ja/tai hankalissa havaintoaineistoissa, esim. kun aineisto si-sältää poikkeavia havaintoarvoja.

eksponenttijakauma, ’exponential distribution’Todennäköisyysjakauma, jota käytetään erityisesti elossaolotutkimuksissa.

elossaolofunktio ’Survivor function’ (S(t))Kuvastaa elossaolevien osuutta ajan funktiona elossaolotutkimuksissa.

ennakkotodennäköisyys, ’a priori probability’Todennäköisyys, joka perustuu aikaisempaan tietoon. Esim. diagnostisissa testeissä toden-näköisyys, joka kertoo kuinka paljon diagnosoitavaa tautia esiintyy tutkimuksen kohteenaolevassa perusjoukossa (väestössä). Tätä ennakkokäsitystä korjataan kunkin diagnosoita-van potilaan kohdalla tekemällä diagnostisia testejä ja laskemalla niiden perusteella tutkit-tavan taudin jälkikäteis- (a posteriori) todennäköisyys, esim Bayesin kaavaa käyttäen.

ennustetekijä, ’prognostic factor’Muuttuja, jonka tiedot on kerätty potilaiden sisäänottohetkellä (esim. syöpätutkimuksissamuuttuja, joka ilmaisee onko potilaalla etäpesäkkeitä vai ei) ja joilla mahdollisesti on vai-kutusta hoitotulokseen.

epäjatkuva muuttuja, ’discrete variable’Saa yleensä vain kokonaislukuarvoja. Esim. kasvaimen malignisuusaste, tapaturmien luku-määrä jollakin aikavälillä.

estimaatti, ’estimate’Otoksen perusteella laskettu estimaattorin arvo.

estimaattori, ’estimator’otossuure, jolla arvioidaan tuntematonta parametria

estimointi, ’estimation’ ks. arviointi

1999 201 Biomatrian sanastoa

Page 206: Sisällysluettelo - Terkko · Normanin ja Steinerin ’Biostatistics, The Bare Essentials’ on hauskasti ja selkeästi kirjoitettu kirja. Tekstiä on sopivasti höystetty huumorilla.

etenevä tutkimus, ’prospective study’Seuranta- tai pitkittäistutkimus, missä altiste- tai ennustetiedot kerätään tutkimuksen aloi-tushetkellä ja sen jälkeen tutkittavia seurataan tutkimuksen kohteena olevan tilan (esim.sairastuu, ei-sairastu) rekisteröimiseksi. ks. kohorttitutkimukset ja kliiniset hoitokokeet.

F-jakauma, ’F distribution’Kuuluisan matemaatikon R. A. Fisherin mukaan nimetty teoreettinen todennäköisyysja-kauma, joka perustuu kahden varianssin suhteeseen. Käytetään erityisestivarianssianalyysissa.

F-testi, ’F test’F-jakaumaan perustuva merkitsevyystesti, jota käytetään erityisesti varianssianalyysissaesim. vertaamaan ryhmien välistä vaihtelua ja ryhmien sisäiseen vaihteluun. Sen avulla voi-daan esim. testata eroavatko kolmen tai useamman ryhmän keskiarvot toisistaan. Kahdenryhmän tapauksessa F-testi antaa saman tuloksen kuin t-testi. Lineaarisessa regressio-analyysissa F-testiä käytetään vertaamaan regressiosta johtuvaa vaihtelua virhevaihteluunja testaamaan siten regression merkitsevyyttä.

Fisherin LSD-testi, ’Fisher’s LSD-test’Monivertailutesti, jota käytetään vertaamaan useita ryhmiä keskenään. Testiä käytetään va-rianssianalyysin yhteydessä. Sen laskentakaava muistuttaa ulkonaisesti riippumattomienryhmien t-testiä. Erona on kuitenkin se, että t-testin nimittäjässä on kahden ryhmän yhdiste-tyn varianssin asemesta varianssianalyysista (Anova) saatava kaikkien ryhmien yhteinenvirhevarianssi ( MSw).

Fisherin tarkka testi, ’Fisher’s exact test’Eräs tavallisimmin käytetyistä pienten aineistojen (n < 30) ristiintaulukkotesteistä. Käyte-tään etenkin nelikenttien yhteydessä, kun jonkin lokerofrekvenssin odotusarvo on alle 5.Testistä on olemassa myös yleistetty versio useampi luokkaisiin taulukoihin. Testi kuuluuns. ehdollisiin testeihin. Ehtona on, että reunasummat ovat kiinteät. Testi perustuu hyperge-ometriseen jakaumaan.

frekvenssimurtoviiva, ’frequency polygon’Graafisen kuvaamisen keino, jonka avulla kuvataan frekvenssijakaumia. Vaihtoehtoinenesitysmuoto tähän tarkoitukseen on histogrammi.

G2-testi, ’G2-test’Yhteensopivuustesti, joka mittaa havaittujen frekvenssien ja mallin perusteella laskettujenodotettujen frekvenssien välistä yhtäpitävyyttä. Testi perustuu uskottavuussuhteeseen (’li-kelihood ratio’) ja sitä käytetään yleisesti mm. log-linearisten mallien yhteydessä. Lasken-takaava on muotoa: G2=2 Σ O * loge(O / E), missä O ja E ovat havaittuja ja odotettujafrekvenssejä.

geometrinen keskiarvo, ’geometric mean’Vinoissa jakaumissa käytetty keskiluku; logaritmimuunnettujen havaintoarvojen aritmeetti-sen keskiarvon antilogaritmi.

hajontakuvio, ’scatter plot’Graafisen kuvaamisen keino, jonka avulla havainnollistetaan esim. kahden muuttujan välis-tä riippuvuussuhdetta.

Biometrian sanastoa 202 Seppo Sarna

Page 207: Sisällysluettelo - Terkko · Normanin ja Steinerin ’Biostatistics, The Bare Essentials’ on hauskasti ja selkeästi kirjoitettu kirja. Tekstiä on sopivasti höystetty huumorilla.

hajonnan mitta, ’measure of dispersion’Kuvaa sitä, kuinka lähelle keskilukua havaintoarvot kasaantuvat.

harha, ’bias’Tilastollinen tutkimuksen harha on sellainen tulkinta tai toimenpide missä tahansa tutki-musprosessin vaiheessa, joka johtaa systemaattiseen poikkeamaan todellisuudesta. Esimer-kiksi valikoitumisharha, referointiharha, sekoittavista tekijöistä johtuva harha, ja niinedelleen.

harmoninen keskiarvo, ’harmonic mean’Käänteismuunnoksella 1/x muunnettujen lukujen aritmeettinen keskiarvo. sitä käytetäänkeskilukuna silloin, kun jakaumassa on muodoltaan sellainen, että siinä on pitkät ’hännät’molempiin suuntiin, eli jakauma on molempiin suuntiin vino.

havainnoiva tutkimusasetelma, ’survey’Epäkokeellinen asetelma, joka perustuu otantaan ja systemaattiseen tiedonkeruuseen taval-lisimmin haastattelun tai postikyselyn muodossa.

histogrammi, ’histogram’Graafisen kuvaamisen keino, jonka avulla kuvataan frekvenssijakaumia.

’hoitoaikeen mukainen’- analyysi, ’intention to treat analysis’, ITT-analyysiKaikki satunnaistetut potilaat otetaan mukaan analyysiin, mikäli mahdollista.

huipukkuus, ’kurtosis’Mitta, joka ilmaisee onko jakauma huipukkaampi (’leptokurtic’) tai litteämpi (’platykur-tic’) kuin normaalijakauma (’bell shaped’, ’mesokurtic’).

hylkäämisalue (kriittinen alue), ’region of rejection’Alue testisuureen jakaumassa, joka johtaa päätelmään: ’nollahypoteesi hylätään ja hyväksy-tään vaihtoehtoinen hypoteesi’.

hypoteesi, ’hypothesis’Tilastolliseen päättelyyn liittyvä väittämä (olettamus) ks. nollahypoteesi ja vaihtoehtoinenhypoteesi.

hyväksymisalue, ’region of acceptance’Alue testisuureen jakaumassa, joka johtaa päätelmään: ’nollahypoteesi jää voimaan’.

ilmaantuvuusluku, ’incidence rate’Uusien tautitapausten määrä tietyllä aikavälillä sairastumiselle alttiina olevassa väes-tönosassa.

ilmaisin, ’indicator’(0,1)-tyyppinen muuttuja, jota käytetään mm. tilastollisissa malleissa ilmasemaan esim.jonkin ominaisuuden puuttumista tai olemassaoloa.

interventiotutkimusasetelma, ’intervention study design’Tutkimusasetelma, missä tutkija itse aiheuttaa muutoksen koeolosuhteissa (kokeellinen tut-kimus) tai altistuksissa (epidemiologinen tutkimus). Satunnaistamista ei yleensä voidasuorittaa.

1999 203 Biomatrian sanastoa

Page 208: Sisällysluettelo - Terkko · Normanin ja Steinerin ’Biostatistics, The Bare Essentials’ on hauskasti ja selkeästi kirjoitettu kirja. Tekstiä on sopivasti höystetty huumorilla.

jakauma, ’distribution’Jakauma ilmaisee kuinka moni tai mikä osuus kaikista mahdollisista mittaus- tai havainto-arvoista saa tietyn arvon tai tietyllä välillä olevan arvon. Välin asemesta voidaantarkastella myös pinta-alaa, tilavuutta jne. ks. lisäksi käsitteet empiirinen jakauma ja toden-näköisyysjakauma.

jatkuva muuttuja, ’continuous variable’Voi saada mitä tahansa havaintoarvoja määritellyn vaihtelualueen sisältä (esim. pituus, pai-no).

Jonckheere-Terpstra-testiTesti, jolla etsitään tietyntyyppistä poikkeamaa rivien ja sarakkeiden riippumattomuudesta(RxR)-ristiintaulukosta, jossa rivi- ja sarakeluokilla on luonnollinen järjestys. Esim. olete-taan, että rivit ovat hoitoryhmiä kasvavan lääkeannoksen mukaisesti ja sarakkeet edustavatvastetta, joka on järjestysasteikollinen. Katso myös ’Linear by linear’-testi.

julkaisuharha, ’publication bias’Harha, joka syntyy kun lääketieteellisissä lehdissä julkaistaan tilastollisesti merkitseviä tu-loksia useammin kuin ei-merkitseviä. Osa hyvinkin tehdyistä tutkimuksista saatetaan jättäätieteellisellä foorumilla raportoimatta, jolloin kokonaiskuva tutkittavasta asiasta vääristyy.Vastaavasti huonosti tehdytkin tutkimukset saattavat saada liiallista huomiota, kun niissäon sattumalta saatu merkitsevä tulos. Julkaisuharhan huomioiminen on keskeistä meta-ana-lyysien, systemaattisten katsausten, yhteydessä.

jälkikäteisvertailut, ’a posteriori comparisions’, ’post hoc comparisons’Vertailut, jotka ryhmien välillä suoritetaan sen jälkeen, kun yleisvaikutus lopputuloksestaon todettu. Esim. todetaan, että hoitoryhmien A, B ja C keskiarvojen välillä on eroa ja ver-taillaan sen jälkeen ryhmia pareittain keskenään.

järjestysluku, ’rank’Luku, joka saadaan, kun havaintoaineisto asetetaan järjestykseen jonkin asian tai ominai-suuden suhteen.

järjestysasteikko, ’ranking scale’Asteikko, missä koodiarvoilla on luonnollinen järjestys (esim. kasvaimen pahanlaa-tuisuusaste), mutta eri koodiarvojen välit eivät välttämättä ole yhtä pitkiä.

jäännös, ’residual’Regressioanalyysin yhteydessä residuaali tarkoittaa havaitun arvon ja regressiomallin pe-rusteella ennustetun arvon erotusta. Residuaalien käyttö liittyy regressioanalyysindiagnostiikkaan, mallin soveltuvuuden arviointiin.

kaksisuuntainen testi, ’two tailed/sided test’Testi mihin suuntaan tahansa olevista eroista vertailtavien ryhmien välillä. Tavallisimminkäytetty testaustapa julkaisuissa.

kaltaistus, ’matching’Sekoittavien tekijöiden hallintakeino tutkimuksen suunnitteluvaiheessa. Etenkin tapaus-verrokki -asetelmissa käytetty menetelmä.

Biometrian sanastoa 204 Seppo Sarna

Page 209: Sisällysluettelo - Terkko · Normanin ja Steinerin ’Biostatistics, The Bare Essentials’ on hauskasti ja selkeästi kirjoitettu kirja. Tekstiä on sopivasti höystetty huumorilla.

kaltaistettu tutkimus, ’matched study’Tutkimus, missä tutkittavat on kaltaistettu pareiksi tai joukoiksi (’set’), esim. yksi tapaus jak verrokkia, missä kaltaistus on suoritettu tiettyjen taustatekijöiden kuten sukupuoli, ikäjne. suhteen.

Kaplan-Meier menetelmä ’Kaplan-Meier method’Tavallisimmin käytetty elossaolokäyrien ei-parametrinen laskentamenetelmä. Sen avullavoidaan arvioida kumulatiivinen elossaolotodennäköisyys seurannan alusta tarkastelunkohteena olevaan tapahtumaan, esim. kuolemaan. Kaplan-Meier- menetelmää käytetäänerityisesti silloin, kun esiintyy rajattuja havaintoja, mikä tarkoittaa, että kaikille seurattavil-le ei ole tullut tarkasteltavaa tapahtumaa tutkimuksen päättyessä. Kaplan-Meier-käyrät piir-retään tavallisesti porrasfunktioina ja rajatut havainnot merkitään käyriin. Kahden taiuseamman ryhmän käyriä voidaan verrata esim. logrank-testillä.

kappa, ’kappa’ ks. Cohenin kappa

karkea arvio, ’crude estimate’Arvio, joka on saatu kontrolloimatta sekoittavia tekijöitä ’confounding factors’. Vastakoh-ta korjattu arvio ’adjusted estimate’. Karkea arvio saattaa antaa tuloksesta harhaisen kuvanjuuri sekoittavista tekijöistä johtuen.

katkaisukohta, ’cut-off point’Arvo, jota käytetään muuntamaan jatkuva muuttuja epäjatkuvaksi tietyissä analyysitilan-teissa.

Kendallin tau, ’Kendall’s tau’Ei-parametrinen assosiaation mitta kvantitatiivisen tai järjestysasteikollisen suureen x ja yvälillä. Mitta saa arvoja väliltä (-1,1). Sitä käytetään erityisesti pienissä aineistoissa, kutenSpearmanin korrelaatiokerrointakin. Kendallin tau:n avulla, toisin kuin Spearmanin kertoi-mella voidaan laskea myös osittaiskorrelaatioita rxy.z, missä z on muuttuja, jonka vaikutushalutaan x:n ja y:n välisestä assosiaatiosta puhdistaa.

keskeinen raja-arvoväittämä, ’central limit theorem’Jos otetaan yhtä suuria otoksia ei-normaalista jakaumasta ja lasketaan kustakin otoksestakeskiarvo, niin niiden jakauma on likimain normaalinen otoskoon ollessa riittävä. Myösuseiden muuttujien summat noudattavat yleensä normaalijakaumaa keskeisestä raja-arvo-väittämästä joutuen.

keskiluku, ’measure of central tendency’Mikä tahansa mittaluku, jonka avulla kuvataan jakaumien sijaintia, aineiston ’tyypillisin’arvo.

keskivirhe, ’standard error’Mittaa minkä tahansa tutkimusaineiston perusteella lasketun otossuureen hajontaa (luotetta-vuutta), eli kuinka paljon suure voisi vaihdella, jos tutkimus toteutettaisiin toistuvastisamalla aineistokoolla ja tutkimusasetelmalla.

keskihajonta, standardipoikkeama, ’standard deviation’Mitta, joka kuvaa tutkittavan muuttujan havaintoarvojen jakautumista tietyssä tutkimusai-neistossa. Soveltuu parhaiten hajonnan mitaksi symmetrisille jakaumille. Herkkäpoikkeaville havaintoarvoille.

1999 205 Biomatrian sanastoa

Page 210: Sisällysluettelo - Terkko · Normanin ja Steinerin ’Biostatistics, The Bare Essentials’ on hauskasti ja selkeästi kirjoitettu kirja. Tekstiä on sopivasti höystetty huumorilla.

khii2-testi, χ2-testi, ’Chi-square-test’Eräs yleisimmin käytetyistä ristiintaulukkotesteistä. Sen tavallisimmat käyttöindikaatiotovat frekvenssilukujen heterogeenisuuden tai suhdelukujen trendin (monotonisuuden) tes-taaminen. Sitä käytetään myös yhteensopivuustestinä, kun verrataan jotain havaittua jakau-maa johonkin teoreettiseen jakaumaan.

kiinteiden vaikutusten malli, ’fixed-effects model’Etenkin varianssianalyysissä käytetty matemaattinen malli, missä vaikutusta ilmaistaan kii-teällä tekijällä, jonka saamat arvot ovat kiinteitä lukuja. Vastakohtana on satunnaistenvaikutusten malli ’random effects model’, missä vaikutusta ilmaisevan tekijän arvoihin si-sältyy satunnaisvaihtelua.

kliininen koe, ’clinical trial’Ihmisillä suoritettu systemaattinen kokeellinen tutkimus, jonka avulla pyritään joko löytä-mään tai toteamaan lääkkeiden tai hoitojen vaikutuksia ja/tai sivuvaikutuksia (farmako-dynamiikka) tai tutkimus, jonka avulla tutkitaan lääkeaineiden imeytymistä, jakautumistakehon eri osiin, metaboloitumista tai erittymistä (farmakokinetiikka).

kohdeperusjoukko, ’target population’Perusjoukko, johon päätelmät (johtopäätökset) tutkimuksesta halutaan yleistää.

kohortti, ’cohort’Seurantatutkimusasetelmissa käytetty nimitys sellaisesta tutkittavien joukosta, jolla on jo-kin yhteinen ominaisuus, esim. sama syntymävuosi.

kohorttitutkimusasetelma, ’cohort study design’Alttiuslähtöinen asetelma, missä aluksi valitaan tutkimuksen kohteena oleva henkilöjouk-ko (kohortti) ja määritetään heidän altistusstatuksensa tutkittavan (tutkittavien) altisteen(altisteiden) suhteen seurannan alussa. Altistumien määrää ’luonto’ eikä tutkija, kuten ko-keellisissa asetelmissa. Tutkittavista kerätään tavallisesti etenevästi (prospektiivisesti) tutki-muksen kohteena olevan (olevien) sairauden (sairauksien) ilmaantumistiedot altisteen jasairauden välisen yhteyden selvittämiseksi. Kohorttitutkimuksessa osa tiedoista saatetaankerätä myös takenevasti (retrospektiivisesti), jolloin kyseessä on titojen keruun suhteenkaksisuuntainen (ambispektiivinen) tutkimus.

kokeellinen tutkimusasetelma, ’experimental study design’Ihmisillä, koe-eläimillä, koemaljoilla tai muilla koeyksiköillä suoritettu tarkkaan tutkijansuunnittelemaan koejärjestelyyn perustuva asetelma. Kokeellisessa asetelmassa tutkijamäärää koeasetelmillaan kuka altistuu ja kuka ei tutkittavallle tekijälle (esim. tietylle hoi-dolle).

kokonaistutkimusasetelma, ’population study’Asetelma, missä tutkitaan kaikki tutkimuksen kohteena olevaan perusjoukkoon kuuluvathenkilöt. Asetelmaan on harvoin tarvetta kliinisissä tutkimuksissa, yleensä otantatutkimusriittää.

korjaaminen, ’adjustment’Sekoittavien tekijöiden vaikutuksen puhdistamiskeino, esim. monimuuttujamallien avullatoteutettuna.

Biometrian sanastoa 206 Seppo Sarna

Page 211: Sisällysluettelo - Terkko · Normanin ja Steinerin ’Biostatistics, The Bare Essentials’ on hauskasti ja selkeästi kirjoitettu kirja. Tekstiä on sopivasti höystetty huumorilla.

korjattu arvio, ’adjusted estimate’Vastakohta korjaamattomalle eli karkealle arviolle ’crude estimate’. Vertailevissa hoitotut-kimuksissa korjattu arvio hoitoerolle tarkoittaa sitä, että arviota on korjattu ottaenhuomioon esim. vertailtavien ryhmien ikärakenteessa oleva ero. Korjaamiseen käytetäänmm. osittamista, vakiointia, kovarianssianalyysiä ja elossaolotutkimuksissa Coxin mallia.

korrelaatiokerroin, ’coefficient of correlation’Kvantitatiivisen tai järjestysasteikollisten muuttujien välisen riippuvuuden mitta. Mittojaon useita. Pearsonin korrelaatiokerroin on parametrinen suure, joka mittaa lineaarista riip-puvuutta, Spearmanin korrelaatiokerroin ei-parametrinen suure, joka mittaa kahden muuttu-jan järjestyslukujen (’ranks’) riippuvuutta toisistaan.

kovariaatti, ’covariate’Muuttuja, joka liittyy tai vaihtelee yhdessä jonkin toisen muuttujan kanssa. Esim. ikää tar-kastellaan usein kovariaattina tarkasteltaessa muiden muuttujien välisiä yhteyksiä.

kovarianssi, ’covariance’Kahden satunnaismuuttujan yhteisvaihtelua mittaava suure.

kriittinen arvo, ’critical value’Tietty prosenttipiste testisuureen otosjakaumassa. Se määrittelee ns. kriittisen alueen, jollesijoittuvat testisuureen arvot johtavat nollahypoteesin hylkäämi-seen prosenttipisteen il-maisemalla todennäköisyydellä. Esim. χ2-jakaumassa vapausasteiden ollessa 1 arvoa3.841 (5%-piste) suuremmat testisuureen arvot johtavat nollahypoteesin hylkäämiseen to-dennäköisyydellä p.

Kruskal-Wallisin test, ’Kruskal-Wallis test’Ei-parametrinen merkitsevyystesti, jolla verrataan useamman kuin kahden ryhmän ja-kaumien sijaintia. Käytetään erityisesti järjestysasteikollisille muuttujille, mutta myös vaih-toehtona yksisuuntaiselle varianssianalyysille (Anova), silloin, kun tämän oletukset eivättäyty. Se on yleistys Mann-Whitneyn U-testistä. Kahden ryhmän tapauksessa molemmattestit antavat saman tuloksen.

kuolleisuussuhde, ’hazard ratio’(HR)Elossaolotutkimuksissa käytetty suhteellisen vaaran mitta, joka lasketaan: HR = (O1/E1) /(O2/E2), missä on O1 ja O2 ovat tarkasteltavaan tapahtumaan päätyneiden henkilöiden lu-kumäärät vertailtavissa ryhmissä 1 ja 2. Vastaavasti E1 ja E2 ovat odotusarvot näille luku-määrille. HR = 1 tarkoittaa siten, että vaara päätyä tarkasteltavaan tapahtumaan on samakummassakin ryhmässä.

kuvaileva tilastotiede, ’descriptive statistics’Tiedon järjestämistä, esittämistä ja tiivistämistä tilastollisiksi tunnusluvuiksi.

käsittelemätön tieto, ’raw data’Tarkoittaa alkuperäisiä muokkaamattomia ja mahdollisesti koodaamattomia havainto-arvo-ja, laboratoriohuomautuksia, muistioita, erilaisia potilasasiakirjoja, automaattistenmittauslaitteiden tulosteita jne. ,joita kliinisissä tutkimuksissa kerääntyy.

käyränsovitus, ’curve fitting’Menetelmä, jonka avulla pyritään sovittamaan esim. xy-koordinaatistossa kuvattuun ha-

1999 207 Biomatrian sanastoa

Page 212: Sisällysluettelo - Terkko · Normanin ja Steinerin ’Biostatistics, The Bare Essentials’ on hauskasti ja selkeästi kirjoitettu kirja. Tekstiä on sopivasti höystetty huumorilla.

vaintoaineistoon (esim. annos-vaste riippuvuus) jokin matemaattisesti määritelty käyrä,joka mahdollisimman hyvin sopii havaittuu pisteistöön. Yleisesti käyränsovitukseen käyte-tään ns. pienimmän neliösumman menetelmää ’least squares method’.

’laatikko-ja-viikset’-kuvio, ’box-and-whiskers plot’Frekvenssijakauman kuvaamisessa käytetty graafinen esitysmuoto, missä ’laatikon’ alareu-na tavallisesti ilmaisee 25%:n, keskiviiva 50%:n, yläreuna 75%:n pisteen (alempi kvarttiili,mediaani, ylempi kvarttiili) ja ’viikset’ 2.5%:n ja 97.5%:n pisteen sijaintia.

laatueroasteikko, ’nominal scale’Asteikko, missä on nimetyt kategoriat, joiden järjestys ja koodaustapa ovat tutkijan valitse-mia, esim. tautiluokitus, ammatti.

laaduntarkkailu, ’quality control’Kaikki ne toimenpiteet, joita suoritetaan mitattavan tiedon laadun varmistamiseksi. Esim.laboratoriomääritysten laadunvalvonta.

Levenen mediaanitesti, ’Levene’s median test’Testi, jolla voidaan tutkia varianssien homogeenisuutta. Testi ei ole herkkä poikkeamillenormaalisuudesta, kuten monet muut varianssien homogeenisuustestit.

’linear by linear’ riippuvuustesti, ’linear by linear association test’Testi, jolla etsitään tietyntyyppistä poikkeamaa rivien ja sarakkeiden riippumattomuudesta(RxR)-ristiintaulukosta, jossa rivi- ja sarakeluokilla on luonnollinen järjestys. Katso myösJonckheere-Terpstra-testi.

logistinen regressio, ’logistic regression’Regressiomenetelmä, jota käytetään mallittamaan logaritmimuunnettua suhdelukutyyppis-tä ennustettua lopputulosta logit = loge ( π

1 − π) = loge (’odds’), missä π on tutkittavantapahtuman todennäköisyys, π voisi olla esim. todennäköisyys sairastua sepelvaltimo-tautiin tietyllä aikavälillä. Lopputulosmuuttuja logistisessa regressiossa on siten kaksiarvoi-nen, (kyllä/ei)-tyyppiä; sairastuu/ei sairastu. Logistisen mallin avulla voidaan tutkia mitkätutkimusongelman kannalta relevanteista tekijöistä (x1,...xk) assosioituvat sairastumisvaa-raan ja kuinka vahvasti. Tulokset esitetään tavallisimmin ristitulosuhteina (OR) ja niidenluottamusväleinä. Mikäli π on lähellä 0.5:ttä, niin OR liioittelee vahvasti sairastumisvaa-raa. Kaltaistetuilla aineistoilla käytetään nk. ehdollista logistista regressiota. Perusmenetel-män yleistyksiä ovat polykotominen logistinen regressio laatueroasteikollisellemoniluokkaiselle lopputulosmuuttujalle ja järjestysasteikollisen muuttujan logistinen reg-ressio.

logrank -testi, ’logrank test’Merkitsevyystesti, jolla verrataan kahden tai useamman ryhmän elossaolokäyrien välisiäeroja keskenään. Se on erityissovellus Mantel-Haenzelin khii2-testistä. Testi voidaan las-kea myös ositetusta aineistosta ja siitä on olemassa myös trendiversio. Synonyymi on Man-tel-Cox:n testi ja se painottaa kaikkia tapahtumia seurantajakson aikana samalla tavalla,toisin kuin esim. Breslow:n testi.

lohkosatunnaistaminen, ’block randomization’Satunnaistamismenetelmä, missä yhtä suurien ryhmäkokojen turvaamiseksi, tutkittavat sa-tunnaistetaan useamman koehenkilön muodostamissa ryhmissä, lohkoissa (’block’).

Biometrian sanastoa 208 Seppo Sarna

Page 213: Sisällysluettelo - Terkko · Normanin ja Steinerin ’Biostatistics, The Bare Essentials’ on hauskasti ja selkeästi kirjoitettu kirja. Tekstiä on sopivasti höystetty huumorilla.

Lohkokoko riippuu vertailtavien ryhmien määrästä, esim. jos hoitoja on 2, voidaan käyttäälohkokokoja 2 tai 4, jne. ja kolmen hoidon tapauksessa lohkokokoja 3 tai 6, jne. Tutkittavi-en määrä on tasapainossa aina lohkon päätyttyä.

lopputulosmuuttuja, ’outcome measure’Tutkimuksen keskeisimpien tulosten, esim. hoitojen vaikutusten, mittaamiseen käytettysuure.

lumehoito, ’placebo treatment’Kliinisessä kokeessa vertailuryhmälle annettava inaktiivinen valehoito, joka on ulkonaises-ti toteutettu siten, että tutkimus säilyy sokkoutettuna sekä tutkijoilta että tutkittavilta.

luokkien sisäinen korrelaatiokerroin, ’intraclass correlation coefficient’Suure, joka kuvaa luokkien/ryhmien samankaltaisuutta jonkin välimatka-asteikollisenmuuttujan suhteen. Se on välimatka- ja laatueroasteikollisen muuttujan välisen riippuvuu-den mitta. Kyseessä ei ole varsinaisesti korrelaatio, vaan samankaltaisuuden mitta, joka saaarvoja väliltä [0,1]. Se ilmoittaa kuinka suuri osuus kokonaisvaihtelusta johtuu luokkien vä-lisestä vaihtelusta. Käyttö: esim. toistomittausten samankaltaisuuden arvioinnissa. Suurevoidaan laskea varianssianalyysin avulla. Se on erikoistapaus monen arvioitsijan reliabi-teettikertoimesta.

luottamustaso (CL), ’confidence level’Luottamusvälin laskentaan liittyvä todennäköisyys, joka kertoo kuinka suuri varmuus vä-lin antamaan arvioon sisältyy. Varmuustaso olisi kuvaavampi termi.

luottamusväli (CI), ’confidence interval’Kahden otossuureen määrittelemä väli, johon arvioitavana oleva tuntematon perusjoukonsuure (esim. todellinen hoitoero) sijoittuu luottamustason (tavallisesti 95%) ilmoittamallavarmuudella. Varmuusväli olisi kuvaavampi suomenkielinen termi.

mahdollisuus, ’odds’Suhdeluku, joka kuvastaa kuinka monikertainen jonkin tapahtuman toteutumismahdolli-suus on verrattuna siihen, ettei tapahtumaa tule. Esimerkiksi odds=6 (6:1) voisi tarkoittaa,että 6 henkilöä sairastuu ja yksi ei. Suuretta käytetään tutkimuksissa usein vaaraa (riskiä)kuvaavana. Sen tulkinta on kuitenkin paljon ongelmallisempaa kuin vaaran. Yli yhden ole-vat luvut on helppo hahmottaa, mutta alle yhden olevien tulkinnassa on ongelmia. Esim.odds = 0.20 = 1:5, vaara = 0.17 (yksi kuudesta), odds=0.67, vaara = 0.40 tai odds = 4, vaa-ra = 0.8. Harvinaisilla tapahtumilla vaara ja mahdollisuus ovat lähellä toisiaan.

mallintaminen, mallitus, ’modelling’Tutkittavan ilmiön kuvaamista teoreettisella rakennelmalla, mallilla.

mallintamismuuttuja, ’design variable’Tyyppiä (-1,+1) oleva muuttuja, jonka avulla mm. varianssianalyysissä voidaan koodataerilaisia efektejä.

Mann-Whitneyn U-testi, ’Mann-Whitney’s U test’Ei-parametrinen (jakaumasta riippumaton) testi, joka on vaihtoehto riippumattomien ryh-mien t-testille testaamaan onko jakaumien sijainti sama molemmissa ryhmissä. Käytetäänerityisesti silloin, kun testattava muuttuja on järjestysasteikollinen tai t-testin asemesta,kun jatkuvan muuttujan jakauma ei ole normaalinen. Testi on algebrallisesti sama kuin

1999 209 Biomatrian sanastoa

Page 214: Sisällysluettelo - Terkko · Normanin ja Steinerin ’Biostatistics, The Bare Essentials’ on hauskasti ja selkeästi kirjoitettu kirja. Tekstiä on sopivasti höystetty huumorilla.

Wilcoxonin järjestyslukujen summatesti, eli antaa saman P-arvon. Tästä syystä testistä käy-tetään myös nimitystä Wilcoxon-Mann-Whitneyn testi.

McNemarin testi, ’McNemar’s test’Parittaisten aineistojen luokiteltujen muuttujien riippuvuustesti. Esim. Yksi potilasjoukko,jolle on suoritettu jokin interventio ja halutaan tutkia tapahtuuko intervention johdostamuutosta mittarissa, joka on joko laatueroasteikollinen tai luokiteltu muuttuja.

mediaani, ’median’Jakauman sijaintia, keskeisyyttä kuvaava suure, jonka alapuolella on puolet ja yläpuolellaon puolet havaintoarvoista, 50%-piste. Mediaani ei ole herkkä poikkeaville havaintoarvoil-le kuten aritmeettinenkeskiarvo.

merkitsevyystaso, ’significance level’Katso tilastollinen merkitsevyys.

meta-analyysi, ’meta-analysis’Analyysi, joka suoritetaan kahden tai useamman samaa ongelmaa tarkastelevan tutkimuk-sen tulosten pohjalta. Tavoitteena on tehdä johtopäätöksiä, jotka olisivat luotettavampiakuin mihin yksittäisissä tutkimuksissa on päädytty ja analysoida lisäksi yksittäisten tutki-mustulosten välistä vaihtelua.

minimointi, ’minimization’Menetelmä potilaiden allokoimiseksi hoitoryhmiin kliinisissä kokeissa siten, että vertailta-vat hoitoryhmät olisivat mahdollisimman hyvin balanssissa ennusteeseen vaikuttavientekijöiden suhteen. Vaihtoehto muille satunnaistamismenetelmille, esim. lohkosatunnaista-miselle.

mittausharha, ’measurement bias’Harha, joka aiheutuu mittausten suorittamiseen liittyvästä menettelytavasta. Esim., josmansettimenetelmällä suoritetuissa verenpainemittauksissa preferoidaan parillisia arvoja.

mittausvirhe, ’measurement error’Mittalaitteeseen tai mittauksia tuottavaan itse prosessiin liittyvä virhe. Esim. kalibrointivir-he.

monivertailutesti, ’multiple comparison test’Monivertailutestaustilanne syntyy silloin, kun päälopputulosmuuttujan ohella vertaillaanuseita muita lopputulosmuuttujia (jotka on valittu joko ad hoc tai post hoc), joiden testaa-miseen ei voimalaskelmissa ole varauduttu. Toinen tavallinen monivertailutilanne syntyy,kun vertaillaan pareittain tuloksia useina ajankohtina tai samana ajankohtana useiden ryh-mien välillä. Monivertailutestaustilanne kasvattaa α-virheen mahdollisuutta. Monivertailu-testeissä α-virhe korjataan.

moodi, ’mode’Kategoria, joka esiintyy useimmin.

multinomijakauma, ’multinomial distribution’Binomijakauman yleistys tilanteeseen, jolloin lopputulosmuuttuja on useampi kuin kaksi-luokkainen.

Biometrian sanastoa 210 Seppo Sarna

Page 215: Sisällysluettelo - Terkko · Normanin ja Steinerin ’Biostatistics, The Bare Essentials’ on hauskasti ja selkeästi kirjoitettu kirja. Tekstiä on sopivasti höystetty huumorilla.

muuttuja, ’variable’Suure, jota käytetään havaintojen tekemiseen tai mittaamiseen.

NNT-luku, ’number needed to treat’Vertailevissa hoitokokeissa vaikutuksen arvioimiseksi käytetty mitta, joka kuvastaa sitäkuinka monta potilasta tarvitsee hoitaa, jotta vältettäisiin tapahtuma (esim. kuolema), jokailman hoitoa tapahtuisi. Lasketaan kaavalla: NNT = 1 / (vaara1 - vaara2). NNT-luku voi-daan laskea sellaisista hoitokokeista, joissa lopputulosmuuttuja on kaksiarvoinen.

nollahypoteesi (H0), ’null hypothesis’Ennalta määritelty perusväittämä, jonka hyväksymiseen tai kumoamiseen tutkimuksessapyritään. Esim., että vertailtavien lääkehoitojen A ja B tehojen välillä ei ole eroa.

normaalijakauma, ’Normal distribution’, ’Gaussian distribution’, ’bell curve’Eräs yleisimmistä tilastollisissa testeissä ja menetelmissä käytetyistä jatkuvista jakaumista.Monet parametrisista testeistä ja menetelmistä perustuvat normaalisuusoletukseen.

odotusarvo, ’expected value’Esim. (aineistokoko)*(jonkin tapahtuman todennäköisyys)

oppimisvaikutus, ’learning effect’Harha, joka syntyy tutkimustuloksiin tutkittavien oppiessa suoriutumaan testeistä myöhem-millä kerroilla paremmin kuin ensimmäisellä kerralla.

ortogonaalinen, ’orthogonal’Kaksi asiaa, kontrastia, tekijää tai muuttujaa ovat keskenään ortogonaalisia jos niillä ei oleyhteisvaihtelua, eli niiden kovarianssi on nolla.

ositettu satunnaistaminen, ’stratified randomization’Eräs yleisimmistä satunnaistamistavoista, jonka tavoitteena on saada vertailtavat ryhmättutkimuksen aloitushetkellä mahdollisimman hyvin tasapainoon ennusteeseen vaikuttavientekijöiden suhteen.

osittaminen, ’stratification’Sekoittavien tekijöiden hallintakeino, missä tutkimusaineisto jaetaan sekoittavien tekijöi-den perusteella ositteisiin ’strata’, siten että ositteiden sisällä vertailtavat ryhmät ovatmahdollisimman samankaltaisia.

otantatutkimus, ’sample study’Otantaan perustuva epäkokeellinen tutkimusasetelma, jonka tavoitteena on tehdä luotetta-via perusjoukkoa koskevia johtopäätöksiä tutkimalla huolella valittu ja sopivan kokoinenosa perusjoukkoa. Otantatutkimuksen tulokset eivät koskaan ole tarkkoja vaan niihin sisäl-tyy aina otannasta aiheutuvaa vaihtelua.

otos, ’sample’Perusjoukon (populaation) osa, joka on kerätty jotain otantatekniikkaa käyttäen perusjou-kon ominaisuuksien tutkimiseksi.

otosjakauma, ’sample distribution’Kaikkien mahdollisten otossuureen saamien arvojen muodostama jakauma.

1999 211 Biomatrian sanastoa

Page 216: Sisällysluettelo - Terkko · Normanin ja Steinerin ’Biostatistics, The Bare Essentials’ on hauskasti ja selkeästi kirjoitettu kirja. Tekstiä on sopivasti höystetty huumorilla.

otosperusjoukko, ’population sampled’, ’study population’Perusjoukko, josta tutkimusaineisto (otos) on kerätty

otossuure, ’sample statistic’Otoksen havaintoarvojen perusteella laskettu suure, havaintoarvojen funktio.

painotettu kappa, ’weighted kappa’Luokkamuuttujien välinen yhtäpitävyyden mitta. Mittaa yhtäpitävyyttä esim. kahden taiuseamman arvioitsijan tai diagnostisen menettelytavan välillä. Poikkeaa Cohenin kapastasiten, että yhtäpitämättömyydelle annetaan erilaisia painoja.

p-arvo, ’p-value’Havaintoaineiston ja käytetyn testisuureen otosjakauman perusteella laskettu todennäköi-syys saada lopputulos, joka on vähintään yhtä epätodennäköinen (harvinainen) kuintutkimuksessa todettu lopputulos edellyttäen, että todellisuudessa nollahypoteesi (H0) olisitosi. P-arvo liittyy ainoastaan H0:n testaamiseen, eikä kerro esimerkiksi hoitoerosta mi-tään, toisin kuin luottamusväli.

Pagen testi, ’Page’s test’Friedmanin testin yhteydessä käytetty trenditesti.

parametri, ’parameter’Tuntematon suure, joka säätelee tutkittavan ilmiön kuvaamisessa käytettyä mallia, esim. jo-tain teoreettista jakaumaa. Arvioidaan tutkimusaineiston perusteella.

parametrinen menetelmä, ’parametric method’Menetelmä, joka perustuu johonkin teoreettiseen malliin ja sen sisältämien tuntemattomienparametrien arvioimiseen tutkimusaineiston perusteella. Esim. t-testi on parametrinen tes-tausmenetelmä, joka perustuu Studentin t-jakaumaan. Vrt. ei-parametrinen menetelmä.

parittainen t-testi, ’Paired t-test/Mached pair t-test’Erityismuoto t-testistä. Sitä käytetään kahden parittaisen ryhmän, esim. kaltaistettujen pari-en tai samojen henkilöiden toistomittausparien muodostaman erotusmuuttujan jakaumansijainnin testaamiseen.

permutaatiotestit, ’permutation tests’Permutaatio- eli satunnaistamistestit ovat ns. eksakteja testejä, joiden otosjakauma nollahy-poteesin vallitessa ja siten myös laskettavat p-arvot saadaan tutkijan keräämästä havaintoai-neistosta sopivasti permutoimalla. Normaalijakaumaoletusta ei tarvita. Niitä voidaankäyttää jatkuville, järjestys- ja nominaaliasteikollisille muuttujille. Tavallisimmin niitä käy-tetään pienillä aineistoilla. Suuriin aineistoihin sovellettaessa käytetään Monte Carlo simu-laatiota jolloin saatava p-arvo ei ole yksikäsitteinen vaan tietty väli.

perusjoukko, ’population’Termi, jota käytetään kuvaamaan joko äärellistä tai ääretöntä joukkoa yksilöitä (koehenki-löitä).

piste-estimointi, ’point estimation’Tuntemattoman suureen (parametrin, esim. jonkin taudin yleisyyden) arviointi yhdellä lu-kuarvolla (estimaatilla), joka on laskettu havaintoaineistosta.

Biometrian sanastoa 212 Seppo Sarna

Page 217: Sisällysluettelo - Terkko · Normanin ja Steinerin ’Biostatistics, The Bare Essentials’ on hauskasti ja selkeästi kirjoitettu kirja. Tekstiä on sopivasti höystetty huumorilla.

poikkeama D, ’deviance D’Mitta, joka ilmaisee kuinka paljon tietty malli (M) poikkeaa havaintoaineistoon sovitetustasaturoidusta mallista (MS). Se lasketaan näihin malleihin liittyvien uskottavuussuhteiden Lja LS perusteella kaavalla: D= -2*(logeL-logeLS). D saa suuren arvon, kun L on pieni suh-teessa LS:ään. Tämä merkitsee, että malli M on huono. Mikäli malli on hyvä, D saa pienenarvon. D noudattaa asymptoottisesti khii2-jakaumaa siten, että vapausasteiden määrä onvertailtavien kahden mallin M1 ja M2 parametrien erotus.

poikkeava havaintoarvo, ’outlier’Muista havaintoarvoista selvästi poikkeava arvo, joita biologisessa aineistossa esiintyy.Paitsi biologinen vaihtelu syynä voi myös olla mittaus- tai tallennusvirhe.

poikkileikkaustutkimusasetelma, ’cross-sectional study design’Asetelmassa ei ole aikasuuntausta, kaikki mittaukset suoritetaan tutkimushetkellä. Sitä käy-tetään pääasiassa silloin, kun halutaan tutkia eri asioiden ja ominai-suuksien yleisyyttä janiiden välisiä riippuvuus-suhteita. Asetelmaa käytetään myös seurantatutkimuksen osana.

Poisson-jakauma, ’Poisson distribution’Harvinaisten kaksiarvoisten (’kyllä-ei’) tapahtumien tutkimisessa ja testaamisessa käytettyjakauma.

Poisson-regressio, ’Poisson regression’Regressiomenetelmä, jonka avulla analysoidaan lukumäärissä (’count’,’rate’) esiintyväävaihtelua, kun kyseessä on harvinainen ilmiö. Esim. itsemurhakuolleisuuden vaihtelu ajanja mahdollisesti muiden tekijöiden suhteen.

potilaslomake, ’case record form (CRF)’Kliinisissä tutkimuksissa käytetty asiakirja, jonka avulla kustakin tutkittavasta kerätään tut-kimuksen kuluessa tietoa protokollan määrittelemällä tavalla.

prosenttipiste, ’percentile’Jakaumien kuvaamisessa käytetty suure, joka jakaa aineiston tietyn suuruisiin prosent-tiosuuksiin, esim. 95%-piste merkitsee että 5% jakauman arvoista on yhtä suuria tai sitäsuurempia. Tavallisimmin käytettyjä prosenttipisteitä ovat: terttiilit, kvarttiilit ja desiilit.50%:n piste on sama kuin mediaani.

protokolla (tutkimussuunnitelma), ’protocol’Asiakirja, missä kuvataan mm. tutkimuksen tausta, perusteet, tavoitteet, tutkimusasetelma,tutkimusorganisaatio ja tutkimuksen hallinnointi.

protokollan mukainen analyysi, ’per protocol analysis’Analyysiin otetaan mukaan kaikki vain protokollan mukaisesti hoidetut potilaat.

puhdistumisjakso, ’wash-out period’Tutkimusjakso, jonka tarkoitus on poistaa ristikkäis-asetelmassa vaikutuksen siirtyminenseuraavalle tutkimusjaksolle.

pylväskuvio, ’bar chart’Muuten kuten histogrammi, mutta pylväiden välissä on tyhjää tilaa. Käytetään laatueroas-teikollisten muuttujien yhteydessä.

1999 213 Biomatrian sanastoa

Page 218: Sisällysluettelo - Terkko · Normanin ja Steinerin ’Biostatistics, The Bare Essentials’ on hauskasti ja selkeästi kirjoitettu kirja. Tekstiä on sopivasti höystetty huumorilla.

rajattu havaintoarvo, ’censored observation’Sellainen havaintoarvo, jonka arvoa ei tiedetä, mutta sen olemassaolo tiedetään. Esim. seu-rantatutkimuksissa tiedetään tutkimuksen päättyessä elossa olevien potilaidenseuranta-aika, mutta ei tiedetä kuinka kauan potilas eläisi, jos tutkimuksen seuranta-aikaajatkettaisiin. Näin syntyy oikealle rajattu havaintoarvo. Laboratoriotutkimuksissa mittaus-laitteen tarkkuuden alittava arvo on esimerkki vasemmalle rajatusta havaintoarvosta.

regressiosuora, ’regression line’Suora, joka sovitetaan (x,y)-koordinaatistossa havaintopisteistöön tavallisimmin siten, ettäpisteistä suoralle y-akselin suuntaisesti laskettujen poikkeamien (residuaalien) neliöidensumma minimoituu.

regressiokerroin, ’regression coefficient’Yksinkertaisen regressiosuoran y=a+b*x tapauksessa kerroin b, joka ilmaisee kuinka pal-jon y keskimäärin muuttuu, kun x muuttuu yhden yksikön verran. Kerroin a ilmaiseesuoran ja y-akselin leikkauspisteen ja sitä kutsutaan vakiotermiksi. Epälineaarisessa regres-siossa ja monimuuttujaregressiossa kerrointen tulkinta on monimutkaisempaa.

regressioanalyysi, ’regression analysis’Menetelmä, missä pyritään selittämään muuttujassa (y) esiintyvää vaihtelua joukolla muitamuuttujia (x1, ..., xp). Käytännössä tämä tapahtuu siten, että havaintoaineistoon sovitetaanmalli, joka kuvaa mahdollisimman hyvin näiden muuttujien välisiä riippuvuussuhteita. Lää-ketieteellisissä sovelluksissa lineaaristen mallien ohella käytetään runsaasti myös epäline-aarisia malleja esim. logistinen malli ja erilaiset annos-vaste-mallit.

regressio kohti keskiarvoa, ’regression towards the mean’Yleinen ilmiö seurantatutkimuksissa; Esim. jos verenpainetutkimuksissa tarkastellaan nii-den henkilöiden osaryhmää, joilla on lähtötutkimuksessa korkea verenpaine, niin toistomit-tauskerroilla tämän ryhmän keskiarvo lähestyy perusjoukon keskiarvoa ilman mitäänhoitovaikutustakin. Likimain pätee relaatio (erotus 2. mittauskerralla) = r * (erotus 1. mittauskerralla) missä r on ensimmäisen ja toisen mittauskerran välisten mittausten korrelaatiokerroin.Yllä kuvattu ilmiö johtuu siitä, että r < 1 mittausvirheestä ja biologisesta vaihtelusta joh-tuen.

riippuvuus, ’association’Mikäli muuttujan (y) arvojen suuruus riippuu muuttujan (x) arvoista, niin muuttujien x ja yvälillä vallitsee tilastollinen riippuvuus. Jos tapahtuman (A) ilmaantuminen riippuu tapah-tumasta B, niin tapahtumat A ja B ovat riippuvaisia toisistaan.

riippumaton muuttuja, ’independent variable’Muuttuja (esim. jokin interventiotoimenpide tai ennustetekijä), jonka avulla pyritään selit-tämään riippuvassa muuttujassa ilmenevää vaihtelua.

riippumattomien ryhmien t-testi, ’independent sample t-test’Erityismuoto t-testistä. Sitä käytetään kahden toisistaan riippumattoman ryhmän, keskiar-vojen vertailuun. Testattavan suureen oletetaan noudattavan normaalijakaumaa. Testistä onolemassa kaksi perusmuotoa, riippuen siitä ovatko vertailtavien ryhmien varianssit homo-geeniset vai heterogeeniset. Jälkimmäiseen tapaukseen tilastopaketeista löytyy monia tes-

Biometrian sanastoa 214 Seppo Sarna

Page 219: Sisällysluettelo - Terkko · Normanin ja Steinerin ’Biostatistics, The Bare Essentials’ on hauskasti ja selkeästi kirjoitettu kirja. Tekstiä on sopivasti höystetty huumorilla.

tin modifikaatioita. Ne perustuvat erilaisiin vapausasteiden muuntamistapoihin, joilla tes-tisuure saadaan noudattamaan normaalijakaumaa.

riippuva muuttuja, ’dependent variable’Tutkimusmielenkiinnon kohteena oleva lopputulos- tai vastemuuttuja, jonka vaihtelua pyri-tään selvittämään.

riski ks. vaara

ristiintaulukko, ’contingency table’Termi ’contingency’ tarkoittaa sattumaa. Ristiintaulukko tarkoittaa laatueroasteikollistentai luokiteltujen muuttujien välisten yhteyksien tutkimiseksi muodostettua kaksi tai useam-pi ulotteista talukkoa.

ristikkäistutkimusasetelma, ’cross-over design’Tutkimusasetelma, jossa on vähintään kaksi tutkimusperiodia ja kaikki tutkittavat saavat jo-kaista tutkimuksen kohteena olevaa hoitoa satunnaisessa järjestyksessä. Asetelman käytönperusideana on vähentää tutkittavien määrää.

ristitulosuhde (OR), ’odds ratio’Kahden kaksiarvoisen muuttujan välinen riippuvuuden mitta. OR=1 merkitsee, ettei oleriippuvuutta. Mittaa käytetään etenkin tapaus-verrokki-tutkimusasetelmassa taudin ja altis-teen välistä yhteyttä arvioitaessa. OR = (’odds’ altistuneille) / (’odds’ altistumattomille).

ROC-käyrä, ’ROC-curve; Receiver Operating Characteristic Curve’xy-koordinaatistoon piirretty käyrä, missä x-akselina on väärän negatiivisen tuloksen to-dennäköisyys (1-spesifisyys) ja y-akselina on oikean positiivisen tuloksen todennäköisyys(sensitiivisyys).

’runko-ja-lehdet’- kuvio, ’stem and leaf diagram’Frekvenssijakauman graafinen esitysmuoto, mistä on todettavissa samanaikaisesti ja-kauman muoto ja kunkin havainnon numeerinen arvo. Käytetään pääasiassa aineistonesitarkastelussa.

satunnaistaminen, ’randomization’Kokeellisissa tutkimuksissa käytetty menetelmä, jonka tarkoituksena on turvata vertailtavi-en ryhmien samankaltaisuus tutkimuksen aloitushetkellä.

satunnaisten vaikutusten malli, ’random effects model’Etenkin varianssianalyysissä käytetty malli. Vastakohta kiinteiden vaikutusten mallille.

satunnaisvirhe, ’random error’Virhe, joka aiheutuu satunnaisesta prosessista tai sattumman vaikutuksesta. Virhe, jota eikyetä selittämään. Se liittyy satunnaismuuttujan vaihteluun.

sekoittava tekijä, ’confounding factor’Tekijä, joka häiritsee tutkittavan suureen (x) ja lopputulos- tai vaikutusmuuttujan (y) väli-sen yhteyden tutkimista. Jotta jokin suure olisi sekoittava tekijä (z), niin z:n täytyyitsenäisesti assosioitua sekä x:ään että y:hyn. Sekoittavien tekijöiden hallinta on eräs tilas-tollisen tutkimuksen keskeisimmistä asioista.

1999 215 Biomatrian sanastoa

Page 220: Sisällysluettelo - Terkko · Normanin ja Steinerin ’Biostatistics, The Bare Essentials’ on hauskasti ja selkeästi kirjoitettu kirja. Tekstiä on sopivasti höystetty huumorilla.

selitysaste (R2), ’coefficient of determination’Ilmaisee regressioanalyysissä sen osuuden selitettävän eli riippuvan muuttujan (’dependentvariable’) vaihtelusta, joka selittyy riippumattomilla muuttujilla (’independent variables’)

sensitiivisyys, ’sensitivity’Seulonta- tai diagnostisen testin herkkyys taudin toteamiseksi. Se on ehdollinen todennä-köisyys sille, että testi antaa oikean positiivisen tuloksen silloin, kun testattavallahenkilöllä todella on testauksen kohteena oleva tauti; ilmaisee testin kyvyn löytää sairaat.

seurantatutkimusaselma, ’follow-up study design’Epäkokeellinen tutkimusasetelma, missä henkilöt valitaan heidän altistusstatuksensa perus-teella. Henkilöitä seurataan tietty ajanjakso, jonka riittävä pituus arvioidaan tutkimuksenvoimalaskelmien yhteydessä. Seurannan kuluessa rekisteröidään tutkittaville ilmaantuvattautitapahtumat.

Shapiro-Wilkin W-testi, ’Shapiro-Wilk’s W test’Testaa havaitun jakauman poikkeavuutta määritellystä todennäköisyysjakaumasta, tavalli-simmin normaali- tai eksponenttijakaumasta.

siirtyvä vaikutus, ’carry-over effect’Hoitovaikutuksen siirtyminen ristikkäisasetelmassa periodilta toiselle. Mikäli syntyvää vai-kutusta esiintyy, tulee ottaa huomioon hoidon ja periodin välinen yhdysvaikutus. Siirtyvävaikutus voidaan ehkäistä riittävän pitkällä puhdistumisjaksolla (’wash-out period’).

sokkouttaminen, ’blinding, masking’Menettely, jolla pyritään hoitokokeiluissa estämään, se etteivät hoitohenkilökunta ja tutki-jat tietäisi ennen hoidon aloittamista, mitä hoitoa kukin potilas tulee saamaan(yksöissokkomenetelmä, ’single blinded’ tai mitä hoitoa potilaat tutkimuksen aikana saa-vat (kaksoissokkomenetelmä ’double blind’). Kolmoissokkomenetelmä (’triple blind’) tar-koittaa, että tilastoanalyysitkin suoritetaan siten, että hoitoryhmistä käyteään peitekoodeja.

Somerin D, ’Somer’s D’Ei-parametrinen assosiaation mitta kvantitatiivisten tai järjestysasteikollisten suureiden x jay välillä. Mitta saa arvoja väliltä (-1,1). Se on kilpaileva mitta Kendallin tau:lle.

Spearmanin korrelaatiokerroin, (rs), ’Spearman’s rho’Ei-parametrinen assosiaation mitta kvantitatiivisen tai järjestysasteikollisen suureen x ja yvälillä. Mitta saa arvoja väliltä (-1,1). Sitä käytetään erityisesti pienissä aineistoissa. Se las-ketaan siten, että aineisto lajitellaan x:n ja y:n suhteen ja annetaan havaintoarvoille järjes-tysluvut ’ranks’ ja lasketaan Pearsonin korrelaatiokerroin näiden järjestyslukujenperusteella.

spesifisyys, ’specificity’Seulonta- tai diagnostisen testin tarkkuus taudin toteamiseksi. Se on ehdollinen todennäköi-syys sille, että testi antaa oikean negatiivisen tuloksen silloin, kun testattavalla henkilöllätodellisuudessa ei ole testauksen kohteena olevaa tautia; ilmaisee testin kyvyn tunnistaa ter-veet.

standardipoikkeama, ’standard deviation’ ks. keskivirhe.

Biometrian sanastoa 216 Seppo Sarna

Page 221: Sisällysluettelo - Terkko · Normanin ja Steinerin ’Biostatistics, The Bare Essentials’ on hauskasti ja selkeästi kirjoitettu kirja. Tekstiä on sopivasti höystetty huumorilla.

standardointi, ’standardization’Muunnos, missä muuttujan arvosta vähennetään keskiarvo ja erotus jaetaan stand-ardipoikkeamalla.

standardoitu pistemäärä, ’standard score’Katso standardointi. Standardipoikkeaman (SD) yksiköissä esitetty havaintoarvo.

suhdeasteikko, ’ratio scale’Asteikko, missä nollakohta merkityksellinen ja siten skaalan lukuarvojen välimatkat (taisuhteet) ovat samat, esim. esineen paino.

suhteellinen vaara (RR), ’relative risk’, ’risk ratio’Seurantatutkimusasetelmissa käytetty altisteen ja taudin välisen yhteyden mitta; altistunei-den ja altistumattomien sairastumisvaaran suhde RR lasketaan kaavalla RR = (vaara altistuneilla) / (vaara altistumattomilla)Vaaraa arvioidaan tavallisesti kumulatiivisella ilmaantuvuudella.

suunnitellut vertailut, ’planned/ad hoc comparisons’Tutkimushypoteesissa (protokollassa) etukäteen (ennen analyysejä) määritellyt vertailut.

systemaattinen virhe, ’systematic error’Virhe, joka johtuu jostain systemaattisesta prosessista tai harhasta, toisin kuin satunnaisvir-he.

t-jakauma, ’t-distribution’Yksi yleisimmin käytetyistä todennäköisyysjakaumista Normaalijakauman ohella. Ja-kauman muotoa säätelee parametri nimeltä vapausaste, jonka laskentakaava riippuututkimusaineiston koosta ja jakauman käyttötarkoituksesta. Esim. jos t-jakaumaa käytetäänPearsonin korrelaatiokertoimen testaamiseen, niin vapausasteita on n-2, koska testisuureenlaskemisessa joudutaan arvioimaan kaksi keskiarvoa. Jakaumasta käytetään myös nimitys-tä Studentin t-jakauma. Se on Normaalijakaumaa litteämpi ja pitkähäntäisempi.

t-testi, ’t-test’Moniin eri testaustilanteisiin soveltuva parametrinen testi, joka perustuu t-jakaumaan. Tes-tistä on olemassa monia eri versioita. Testin perusmuoto on: t = [(otossuure)-(hypoteettinen arvo)] / (otossuureen keskivirhe)Testistä on olemassa monia eri versioita riippuen siitä, kuinka nimittäjässä olevan keskivir-he arviointi- ja vapausasteiden laskentatavasta.

takeneva tutkimus, ’retrospective study’Tutkimus, jossa liikkeelle lähdetään lopputuloksesta (esim onko tautia vai ei)ja altiste- tai riskitekijätiedot kerätään takenevasti, esim. sairaskertomustiedoista. Tapaus-verrokkitutkimukset ovat tyypillisimpiä tähän kategoriaan kuuluvia tutkimuksia. Tosinmyös kohorttitukimuksissakin tietoja saatetaan kerätä takenevasti.

tapaus-verrokki -tutkimusasetelma, ’case-control’ tai ’case referent -study design’Sairauslähtöinen tutkimus asetelma, joka suoritetaan siten, että valitaan joukko tutkimuk-sen kohteena olevaa tautia sairastavia henkilöitä ja niille mahdollisimman samankaltainenvertailuryhmä; samankaltainen muiden paitsi tutkittavan taudin suhteen. Tämän jälkeen tut-kittavista kerätään altistetiedot takenevasti (retrospektiivisesti).

1999 217 Biomatrian sanastoa

Page 222: Sisällysluettelo - Terkko · Normanin ja Steinerin ’Biostatistics, The Bare Essentials’ on hauskasti ja selkeästi kirjoitettu kirja. Tekstiä on sopivasti höystetty huumorilla.

testisuure, ’test statistic’Nollahypoteesin testaamiseen käytetty otossuure.

tietojen muokkaus, ’data editing’Tutkimusaineiston esikäsittelyyn kuuluva virheiden etsintä- ja korjaamisvaihe. Suoritetaankliinisissä kokeiluissa ennenkuin tiedosto virallisesti suljetaan ja tutkimuskoodi avataan.

tilastollinen merkitsevyystaso, ’statistical significance level’Tilastolliseen päättelyyn liittyvä todennäköisyys (α-virhe, I-lajin virhe), joka ilmoittaakuinka suuri erehtymisriski nollahypoteesin virheelliseen hylkäämiseen halutaan sallia. Ti-lastollinen merkitsevyys on välttämätön edellytys kliiniselle merkittävyydelle (’importan-ce’), mutta ei kerro mitään todellisesta vaikutuksen suuruudesta.

tilastollinen päättely, ’statistical inference’Tilastotieteen keskeisimpiä käyttötapoja. Päättely-mekanismi, jolla kerätyn otoksen (tutki-musaineiston) perusteella pyritään tutkittavasta asiasta tekemään johtopäätöksiä laajempaajoukkoa koskevaksi. Tilastollisen päättelyn osa-alueet ovat arviointi (estimointi) ja hypo-teesien testaaminen.

todennäköisyys, ’probability’Suhteellisen uskottavuuden mitta sille, että tapahtuuko jonkin tapahtuma tai ei. Normitettuvälille [0,1].

toisensa poissulkeva tapahtuma, ’mutually exclusive event’Toisen tapahtuman toteutuessa toinen ei voi toteutua, esim. jonkin taudin pysyvä im-muniteetti estää sairastumisen siihen uudelleen.

toistomittausanalyysi, ’analysis of repeated measures’toistomittausasetelmaa käyttävä analyysimenetelmä.

toistomittausasetelma, ’repeated measures design’Tutkimusasetelma, jossa pyritään vähentämään yksilöiden välisen vaihtelun vaikutusta tut-kittavaan asiaan, esim. hoitojen vaikutukseen suorittamalla tutkittavista useita mittauksiaesim. eri aikoina ja eri olosuhteissa.

tutkimussunnitelma, ’study design’, ’study protocol’Yleissuunnitelma, jonka mukaan tutkimus suoritettiin tai suunnitellaan suoritettavaksi. Sesisältää yksityiskohtaisia tietoja tutkittavien joukosta, tietojenkeruusta, käytettävistä mene-telmistä, tutkimusasetelmasta, hoitotoimenpiteistä, tutkimuksen toteutusaikatauluista jne.

tutkittavien joukko, ’study population’Käytetään kahdessa eri merkityksessä: 1. kaikki ne henkilöt tai havaintoyksiköt, jotka onotettu tai tullaan ottamaan mukaan tutkimukseen. 2. kaikki ne henkilöt tai havaitoyksiköt,jotka harkittu otettavaksi tutkimukseen riippumatta siitä otetaanko ne vai ei (vrt. perusjouk-ko).

uskottavuussuhde (LR), ’likelihood ratio’Uskottavuussuhde määrittelee kuinka todennäköinen jokin tapahtuma A on tietyn ehdon Bollessa voimassa verrattuna siihen, että ehto B ei ole voimassa. Kaavana: LR = P(A|B) /P(A|ei B). Esim. Millä todennäköisyydellä vatsahaavapotilaalla on helicobakteeri+ verrat-tuna muihin ylävatsaoireita poteviin potilaisiin.

Biometrian sanastoa 218 Seppo Sarna

Page 223: Sisällysluettelo - Terkko · Normanin ja Steinerin ’Biostatistics, The Bare Essentials’ on hauskasti ja selkeästi kirjoitettu kirja. Tekstiä on sopivasti höystetty huumorilla.

vaara, ’risk’Tietyn tapahtuman todennäköisyys. Lasketaan kaavalla: vaara = (tapahtumien lukumäärä) /(vaaralle alttiina olevien määrä)

vaarafunktio, (h(t)), ’hazard function’, ’hazard rate’Elossaolotutkimuksissa käytetty funktio, joka ilmaisee todennäköisyyden ajan t funktionasille, että henkilö, joka on ollut elossa ajanhetkellä t kuolee seuraavalla ns. ’differentiaali-sen’ pienellä aikavälillä tämän ajanhetken jälkeen.

vaarasuhde ks. suhteellinen vaara.

vaaratekijä, ’risk factor’Tekijä, joka lisää henkilön todennäköisyyttä sairastua tutkimuksen kohteena olevaan tau-tiin verrattuna henkilöön, jolla ei kyseistä tekijää ole. Vastakohta on suojaava tekijä(’preventive factor’)

vaaratekijästä johtuva osuus (AF), ’attributable fraction’Se suhteellinen osuus absoluuttisesta vaaraerosta(ARD), joka johtuu jostakin tekijästä,esim. altisteesta. Määritellään: AF = (vaara1 -vaara2) / vaara2 = (RR - 1) / RR, missä vaara1 on vaara altistuneessa ryhmässä, vaara2 on altistumattomien vaara ja RR on suhteel-linen riski.

vaaratekijästä johtuva osuus perusjoukossa (PAF), ’population attributable fraction’Mittaa kuinka suuri vaikutus vaaratekijällä (tai altisteella) on tietyssä perusjoukossa yli-määräiseen sairastumisvaaraan. Se ei riipu pelkästään altisteen ja taudin välisestäyhteydestä vaan myös altisteen yleisyydestä kyseisessä perusjoukossa. Määritellään: PAF= (ilmaantuvuus perusjoukossa -ilmaantuvuus altistumattomilla) / ilmaantuvuus perusjou-kossa = p(RR - 1) / ( p(RR - 1) + 1), missä p on altisteen vallitsevuus ja RR on suhteellinenriski.

vaihteluväli, ’range’Muuttujan suurimman ja pienimmän arvon erotus. Poikkeavien havaintojen tapauksessa tä-män 100%-vaihteluvälin sijasta käytetään usein esim. 95%-vaihteluväliä.

vaihtoehtoinen hypoteesi (H1), ’alternative hypothesis’Ennalta määritelty vaihtoehtoinen väittämä nollahypoteesille. Esim., että lääkehoitojen te-holla on eroa, mutta ei määritellä suuntaa (kaksisuuntainen hypoteesi) tai että hoito A ontehokkaampi kuin hoito B (yksisuuntainen hypoteesi). Tavallisimmin tutkimuksissa käyte-tään kaksisuuntaista hypoteesia, koska etukäteen ei yleensä voida olla täysin varmoja tulok-sen suunnasta.

vaikutuksen mukainen koodaus, ’effects coding’Etenkin varianssianalyysissä käytetty koodaustapa, missä läätueroasteikollinen muuttujamuunnetaan arvoja 1,0 ja -1 hyväksikäyttäen kaksiarvoisiksi ilmaisinmuuttujiksi. Poikkeaavertailuryhmänmukaisesta koodaustavasta siinä, että tässä koodauksessa vertailu suorite-taan yleiskeskiarvoon.

vaikutuksen suuruus, ’effect size’Ero tutkimuksen lopputulos- tai vastemuuttujassa, jonka toteennäyttämistä tutkimuksessatavoitellaan, mikäli ero on olemassa.

1999 219 Biomatrian sanastoa

Page 224: Sisällysluettelo - Terkko · Normanin ja Steinerin ’Biostatistics, The Bare Essentials’ on hauskasti ja selkeästi kirjoitettu kirja. Tekstiä on sopivasti höystetty huumorilla.

vakiointi, ’standardization’Sekoittavien tekijöiden (tavallisimmin ikä) vaikutuksen korjaamismenettely. Menetelmiäon kahta tyyppiä; suora (’direct’) ja epäsuora (’indirect’) vakiointi.

valemuuttuja, ’dummy variable’Muuttuja, jota käytetään apuna tilastollisissa analyyseissa ja mallittamisissa, kun esim. ha-lutaan muodostaa laatueroasteikollisesta muuttujasta useita sen eri luokkia ilmaiseviamuuttujia.

vallitsevuus, ’prevalence rate’Tutkittavaa tautia sairastavien osuus tietyllä ajanhetkellä tietyssä väestössä.

vapausaste, ’degrees of freedom’Vapausaste on parametri, joka säätelee todennäköisyysjakauman muotoa. Näitä parametre-ja voi olla yksi tai useampia. Vapausaste kuvaa sitä, kuinka monta ’vapaata’ havaintoarvoaaineistossa on. Esim. nelikentässä tutkimustuloksena riittää tarkastella vasemmassa yläkul-massa olevaa arvoa (a), sillä jos reunasummat oletetaan kiinteiksi, niin muiden lokeroidenarvot määräytyvät a:n ja reunasummien perusteeella. Vapaasti vaihtelevia havaintoarvojaon siten vain yksi, eli vapausasteita on yksi.

variaatiokerroin (CV), ’coefficient of variation’Skaalasta riippumaton vaihtelun mitta; standardipoikkeama jaettuna keskiarvolla.

varianssi, ’variance’Satunnaismuuttujien vaihtelua kuvaava suure. Tilastollisen tutkimuksen keskeisin kohde.Esim. varianssianalyysissä vaihtelu jaetaan eri tekijöista johtuvaksi vaihteluksi ja virhe-vaihteluksi, joita verrataan keskenään.

varianssianalyysi (Anova, Manova), ’analysis of variance’Menetelmä, jonka avulla voidaan testata kvantitatiivisten suureiden (jatkuvien muuttujien)ryhmäkeskiarvojen välisiä eroja, kun vertailtavia ryhmiä on yli 2. Kahden ryhmän tapauk-sessa saadaan sama tulos kuin t-testillä. Anova-lyhennys viittaa yhden muuttujan analyysei-hin ja Manova monimuuttuja-analyysiin, jolloin vertaillaan samanaikaisesti useidenmuuttujien ryhmäkeskiarvoja. Anova:ssa testinä käytetään F-testiä, jolla verrataan esim.hoitoryhmien välistä vaihtelua hoitoryhmien sisällä tapahtuvaan vaihteluun, eli ns. virhe-vaihteluun (’error variance’, ’residual variance’ Anova voi olla yksisuuntainen (yksi ryh-mittelevä tekijä, ’one-way Anova’), kaksisuuntainen ’two-way Anova’ jne... Kliinisissätutkimuksissa lopputulosmuuttujista suoritetaan usein myös toistomittauksia. Tällöin mene-telmäksi soveltuu toistomittausten varianssianlyysi ’Anova with repeated measures’. Anova:n tulokset voidaan tuottaa myös regressiotekniikalla käyttäen ilmaisinmuuttujia.

verrokki, ’referent’, ’control’Vertailuhenkilöstä käytetty nimitys epidemiologisissa tutkimuksissa. Kliinisissä tutkimuk-sissa yleensä käytetään nimitystä kontrollihenkilö.

viitearvoväli, ’reference interval’Väli, joka ilmaisee ns. normaalivaihtelua esim. laboratoriotesteissä tai lasten kasvukäyrissä.

vinouskerroin, ’coefficient of skewness’Mittaa jakauman vinoutta suhteessa normaalijakaumaan. Symmetriselle jakaumalle kerroin

Biometrian sanastoa 220 Seppo Sarna

Page 225: Sisällysluettelo - Terkko · Normanin ja Steinerin ’Biostatistics, The Bare Essentials’ on hauskasti ja selkeästi kirjoitettu kirja. Tekstiä on sopivasti höystetty huumorilla.

on nolla, oikealle vinossa jakaumassa positiivinen ja vasemmalle vinossa jakaumassa nega-tiivinen.

viritetty keskiarvo, ’trimmed mean’Lähinnä deskriptiivisiin tarkoituksiin soveltuva tapa laskea keskiarvo siten, että jakaumas-sa mahdollisesti esiintyvien poikkeavien (’outlier’) havaintoarvojen vaikutus ei liikaa ko-rostuisi. Laskentamenetelminä käytetään joko jakauman äääripäiden poisjättöä tai erilaisiapainottamiskeinoja, jakauman ääripäissä olevat havaintoarvot saavat pienemmän painonkuin jakauman keskellä olevat arvot.

voima (1-β), ’power’Tutkimuksen (testin) voima ilmoittaa millä todennäköisyydellä käytetyllä aineistokoolla jatilastollisella merkitsevyystasolla voidaan todeta tietyn suuruinen vaikutus (efekti) käyte-tyssä lopputulosmuuttujassa, mikäli vaikutus on olemassa, ts. testin voima ilmoittaa toden-näköisyyden hylätä nollahypoteesi silloin kun vaihtoehtoinen hypoteesi on tosi.

välianalyysi, ’interim analysis’Mikä tahansa etukäteen suunniteltu kliinisen tutkimuksen kuluessa suoritettu analyysi.Syyt suorittamiseen ovat joko eettisiä tai taloudellisia. Välianalyysien suorittaminen vaikut-taa tilastolliseen merkitsevyystasoon (α-virhe kasvaa).

Wilcoxonin järjestyslukujen summatesti ’Wilcoxon’s rank sum test’ ks. Mann-WhitneynU testi.

Wilcoxonin parittainen testi, ’Wilcoxon’s signed rank/matched pair test’Ei-parametrinen, jakaumasta riippumaton, testi. Käytetään erityisesti silloin, kun testattavamuuttuja on järjestysasteikollinen tai t-testin asemesta, kun jatkuvan muuttujan jakauma eiole normaalinen.

välimatka-asteikko, ’interval scale’Asteikko, missä arvojen väliset etäisyydet ovat samat, mutta nollakohta on mielivaltainen,esim. lämpötila.

yhdistelmätieto, ’aggregate data’Tieto, joka on muodostettu yhdistämällä tietoa useista eri tietueista. Esim. muodostamallajonkin henkilön kaikista sairaalakäynneistä yhteenlasketut hoitopäivät.

yhdistetty varianssi, ’pooled variance’Mikäli kahden tai useamman ryhmän variassit eivät poikkea tilastollisesti toisistaan esim.Levenen testillä testattuna, niin niistä voidaan muodostaa yhdistetty varianssi tilastollisiintesteihin ja analyyseihin. Yhdistetty varianssi muodostetaan tavallisesti painottamalla ryh-mäkohtaisia variansseja vapausasteilla dƒi = ni − 1

yhdysvaikutus, ’interaction’Kun tutkittavan tekijän (A, esim. hoito) vaikutus lopputulokseen on erilainen riippuen jos-tain toisesta tekijästä (B, esim lääkkeenantotapa), niin A:n ja B:n välillä on yhdysvaikutus.Tällöin tekijöiden A ja B vaikutusta lopputulokseen ei voi välittömästi arvioida.

yhteensopivuus, ’goodness of fit’Käytetään kahdessa yhteydessä: 1. Ilmaisemaan sitä, kuinka hyvin havaitut ja odotetut frek-venssit sopivat yhteen. Tätä testataan yhteensopivuustestillä. 2. tarkoittaa myös sitä, kuin-

1999 221 Biomatrian sanastoa

Page 226: Sisällysluettelo - Terkko · Normanin ja Steinerin ’Biostatistics, The Bare Essentials’ on hauskasti ja selkeästi kirjoitettu kirja. Tekstiä on sopivasti höystetty huumorilla.

ka hyvin havaintoavot sopivat yhteen jokin matemaattisesti määritellyn käyrän kanssa, ks.käyränsovitus.

yhteiskorrelaatiokerroin, ’multiple correlation coefficient’Lineaarisen monimuuttujaregressioanalyysin yhteydessä käytetty suure, joka mittaa y-muuttujan ja kaikkien x-muuttujien välistä yhteyttä (merk. R). Tilasto-ohjelmat tulostavatyleensä myös korjatun (’adjusted’) yhteiskorrelaatiokertoimen (Radj), joka huomioi mallis-sa olevien x-muuttujien määrän, toisin kuin R. Yhteiskorrelaatiokertoimen neliötä (R2) kut-sutaan mallin selitysasteeksi. Se kuvastaa kuinka paljon y-muuttujan vaihtelusta(varianssista) selittyy käytettyjen x-muuttujien perusteella.

yksisuuntainen testi, ’one tailed/sided test’Testi, missä testauksen (vaihtoehtoisen hypoteesin) suunta on etukäteen määritelty.

Englannista suomeena posteriori comparisons (unplanned/multiple comparisons): ’jälkikäteisvertailut, suun-

nittelemattomat vertailut, monivertailut’a posteriori probability: ’jälkikäteistodennäkoisyys’ ks. ennakkotodennäköisyysa priori comparisons (planned/ad hoc hoc comparisons): ’suunnitellut vertailut’a priori probability: ’ennakkotodennäköisyys’absolute risk difference (ARD): ’absoluuttinen vaaraero’ad hoc comparisons/tests ks. a priori comparisonsadjustment: ’korjaaminen’adjusted estimate: ’korjattu arvio’aggregate data: ’yhdistelmätieto’algorithm: ’algoritmi’

alpha error, type I error: ’alfa-virhe’, α-virhealternative hypothesis, merkitään H1: ’vaihtoehtoinen hypoteesi’ambispective: ’kaksisuuntainen’ ks. kohorttitutkimusasetelmaanalysis of repeated measures: ’toistomittausanalyysi’analysis of variance (Anova, Manova): ’varianssianalyysi’arithmetic mean: ’aritmeettinen keskiarvo’association: ’riippuvuus’attributable fraction (AF): ’vaaratekijästä johtuva osuus’bar chart: ’pylväskuvio’Bayesian approach: ’bayesiläinen lähestymistapa’bell-shaped, mesocurtic: ’kellonmuotoinen’

beta error, type II error: ’beeta-virhe’, β-virhebias: ’harha’bioequivalence: ’bioekvivalenssi’binomial distribution: ’binomijakauma’blinding, masking: ’sokkouttaminen’

Biometrian sanastoa 222 Seppo Sarna

Page 227: Sisällysluettelo - Terkko · Normanin ja Steinerin ’Biostatistics, The Bare Essentials’ on hauskasti ja selkeästi kirjoitettu kirja. Tekstiä on sopivasti höystetty huumorilla.

block randomization: ’lohkosatunnaistaminen’Bonferroni correction: ’Bonferroni-korjaus’’box-and-whiskers’ plot: ’laatikko-ja-viikset’-kuvioBreslow’s test: ’Breslowin testi’carry-over effect: ’siirtyvä vaikutus’case-control study design, case-referent study design:

’tapaus-verrokki-tutkimusasetelma’case record form (CRF): ’potilaslomake’central tendency ks. measure of central tendencycategorical data: ’luokiteltu tieto’ ks. laatueroasteikkocategorical variable: ’luokkamuuttuja’ ks. epäjatkuva muuttujacensored observation: ’rajattu havaintoarvo’central limit theorem: ’keskeinen raja-arvoväittämä’

chi-square test: ’khii2-testi’, χ2-testiclinical trial: ’kliininen kokeilu’coefficient of correlation: ’korrelaatiokerroin’coefficient of determination (R2): ’selitysaste’coefficient of skewness: ’vinouskerroin’coefficient of variation (CV): ’variaatiokerroin’Cohen’s kappa: ’Cohenin kappa’cohort: ’kohortti’cohort study design: ’kohorttitutkimusasetelma’conditional probability: ’ehdollinen todennäköisyys’confidence interval (CI): ’luottamusväli’confidence level (CL): ’luottamustaso’confounding factor: ’sekoittava tekijä’contingency table: ’ristiintaulukko’continuous variable: ’jatkuva muuttuja’covariance: ’kovarianssi’covariate: ’kovariaatti’Cox regression: ’Coxin regressio’critical value: ’kriittinen arvo’cross-over design: ’ristikkäistutkimusasetelma’cross-sectional study design: ’poikkileikkaustutkimusasetelma’crude estimate: ’karkea arvio’curve fitting: ’käyränsovitus’cut-off point: ’katkaisukohta’data screening: ’aineiston tarkastelu’data editing: ’tietojen muokkaus’degrees of freedom: ’vapausaste’dependent variable: ’riippuva muuttuja’descriptive statistics: ’kuvaileva tilastotiede’

1999 223 Biomatrian sanastoa

Page 228: Sisällysluettelo - Terkko · Normanin ja Steinerin ’Biostatistics, The Bare Essentials’ on hauskasti ja selkeästi kirjoitettu kirja. Tekstiä on sopivasti höystetty huumorilla.

design variable: ’mallintamismuuttuja’deviance D: ’poikkeama D’dichotomical scale: ’dikotominen asteikko’discrete variable: ’epäjatkuva muuttuja’distribution: ’jakauma’dummy variable: ’valemuuttuja’Dunn’s test: ’Dunnin testi’Dunnett’s test: ’Dunnettin testi’effect size: ’vaikutuksen suuruus’effects coding: ’vaikutuksen mukainen koodaus’estimate: ’estimaatti’estimation: ’arviointi’estimator: ’estimaattori’expected value: ’odotusarvo’experimental study design: ’kokeellinen tutkimusasetelma’exponential distribution: ’eksponenttijakauma’exposed group: ’altistuneiden ryhmä’F-test: ’F-testi’F-distribution: ’F-jakauma’Fisher’s exact test: ’Fisherin tarkka testi’Fisher’s LSD test: ’Fisherin LSD-testi’ fixed-effects model: ’kiinteiden vaikutusten malli’follow-up study design: ’seurantatutkimusaselma’frequency polygon: ’frekvenssimurtoviiva’G2-test: ’G2-testi’geometric mean: ’geometrinen keskiarvo’goodness of fit: ’yhteensopivuus’harmonic mean: ’harmoninen keskiarvo’hazard function, hazard rate, (h(t)): ’vaarafunktio’hazard ratio, (HR): ’kuolleisuussuhde’histogram: ’histogrammi’hypothesis: ’hypoteesi’incidence rate: ’ilmaantuvuusluku’indpendent sample t-test: ’riippumattomien otosten t-testi’indicator: ’ilmaisin’independent variable: ’riippumaton muuttuja’inference: ’päättely’ ks. statistical inferenceintention to treat analysis, ITT-analysis: ’hoitoaikeen mukainen analyysi’interaction: ’yhdysvaikutus’interim analysis: ’välianalyysi’interval scale: ’välimatka-asteikko’intervention study design: ’interventiotutkimusasetelma’intraclass correlation coefficient: ’luokkien sisäinen korrelaatiokerroin’

Biometrian sanastoa 224 Seppo Sarna

Page 229: Sisällysluettelo - Terkko · Normanin ja Steinerin ’Biostatistics, The Bare Essentials’ on hauskasti ja selkeästi kirjoitettu kirja. Tekstiä on sopivasti höystetty huumorilla.

Joncheere-Terpstra test: ’Joncheere-Terpstra testi’Kaplan-Meier method: ’Kaplan-Meier menetelmä’

kappa (κ): ’kappa’Kendall’s tau: ’Kendallin tau’Kruskall-Wallis test: ’Kruskall-Wallisin testi’kurtosis: ’huipukkuus’learning effect: ’oppimisvaikutus’leptokurtic: ’huipukas’ ks. huipukkuus.Levene’s test: ’Levenen mediaanitesti’likelihood ratio: ’uskottavuussuhde’linear by linear association test: ’linear-by-linear’-riippuvuustestilogistic regression: ’logistinen regressio’logrank test: ’logrank -testi’matching: ’kaltaistus’matched study: ’kaltaistettu tutkimus’matched pair t-testi: ’parittainen t-testi’Mann-Whitney’s U-test: ’Mann-Whitneyn U-testi’McNemar’s test: ’McNemarin testi’measure of central tendency: ’keskiluku’measure of dispersion: ’hajonnan mitta’measurement bias: ’mittausharha’measurement error: ’mittausvirhemedian: ’mediaani’mesocurtic, bell-shaped: ’kellonmuotoinen’meta-analysis: ’meta-analyysi’minimization: ’minimointi’mode: ’moodi’modelling: ’mallintaminen, mallitus’multinomial distribution: ’multinomijakauma’multiple comparison test: ’monivertailutesti’multiple correlation coefficient: ’yhteiskorrelaatiokerroin’mutually exclusive event: ’toisensa poissulkeva tapahtuma’nominal scale: ’laatueroasteikko’non-parametric method: ’ei-parametrinen menetelmä’Normal distribution’,’Gaussian distribution’, ’bell curve’: ’Normaalijakauma’null hypothesis (H0): ’nollahypoteesi’number needed to treat: ’NNT-luku’observational stydy: ’havainnoiva tutkimus’ ks. cohort study designodds: ’mahdollisuus’odds ratio (OR): ’ristitulosuhde’one tailed/sided test: ’yksisuuntainen testi’ordered categorical data: ’järjestetty luokiteltu tieto’ ks. järjestysasteikko

1999 225 Biomatrian sanastoa

Page 230: Sisällysluettelo - Terkko · Normanin ja Steinerin ’Biostatistics, The Bare Essentials’ on hauskasti ja selkeästi kirjoitettu kirja. Tekstiä on sopivasti höystetty huumorilla.

orthogonal: ’ortogonaalinen’outcome measure: ’lopputulosmuuttuja’outlier: ’poikkeava havaintoarvo’p-value: ’p-arvo’Page’s test: ’Pagen testi’paired t-test (ks. matched pair t-test):’parittainen t-testi’parameter: ’parametri’parametric method: ’parametrinen menetelmä’per protocol analysis: ’protokollan mukainen analyysi’percentile: ’prosenttipiste’permutation tests: ’permutaatiotestit’placebo treatment: ’lumehoito’planned/ad hoc comparisons: ’suunnitellut vertailut’platycurtic: ’litteä’ ks. huipukkuuspoint estimation: ’piste-estimointi’Poisson distribution: ’Poisson-jakauma’Poisson regression: ’Poisson-regressio’pooled variance: ’yhdistetty varianssi’population: ’perusjoukko’population attributable fraction (PAF): ’vaaratekijästä johtuva osuus perusjoukossa’population sampled, study population: ’otosperusjoukko ’population study: ’kokonaistutkimusasetelma’post hoc comparisons: ’jälkikäteisvertailut’

power (1 − β): ’voima’prevalence rate: ’vallitsevuus’probability: ’todennäköisyys’prognostic factor: ’ennustetekijä’prospective: ’etenevä’ ks. kohorttitutkimusasetelmaprotocol: ’protokolla’ (tutkimussuunnitelma)publication bias: ’julkaisuharha’quality control: ’laaduntarkkailu’R2: ’selitysaste’random effects model: ’satunnaisten vaikutusten malli’random error: ’satunnaisvirhe’randomization: ’satunnaistaminen’randomization test ks. ’permutaatiotestit’rank: ’järjestysluku’ranking scale: ’järjestysasteikko’range: ’vaihteluväli’ratio scale: ’suhdeasteikko’raw data: ’käsittelemätön tieto’reference interval: ’viitearvoväli’

Biometrian sanastoa 226 Seppo Sarna

Page 231: Sisällysluettelo - Terkko · Normanin ja Steinerin ’Biostatistics, The Bare Essentials’ on hauskasti ja selkeästi kirjoitettu kirja. Tekstiä on sopivasti höystetty huumorilla.

referent, control: ’verrokki’region of acceptance: ’hyväksymisalue’region of rejection: ’hylkäämisalue’ (kriittinen alue)regression analysis: ’regressioanalyysi’regression coefficient: ’regressiokerroin’regression line: ’regressiosuora’regression towards the mean: ’regressio kohti keskiarvoa’relative risk (RR): ’suhteellinen vaara ’repeated measures design: ’toistomittausasetelma’residual: ’jäännös’retrospective: ’takeneva’ ks. tapaus-verrokki -tutkimusasetelmarisk: ’vaara’risk factor: ’vaaratekijä’risk ratio: ’suhteellinen vaara’ROC-curve: Receiver Operating Characteristic Curve: ’ROC-käyrä’sample: ’otos’sample distribution: ’otosjakauma’sample statistic: ’otossuure’sample study: ’otantatutkimus’scatter plot: ’hajontakuvio’sensitivity: ’sensitiivisyys’Shapiro-Wilk’s W-test: ’Shapiro-Wilkin W-testi’significance level: ’merkitsevyystaso’skewness: ’vinous’ ks. vinouskerroinSomer’s D: ’Somerin D’Spearman’s rho, (rs): ’Spearmanin korrelaatiokerroin’specificity: ’spesifisyys’standard deviation (SD): ’keskihajonta, standardipoikkeama’standard error (SE): ’keskivirhe’standard score: ’standardoitu pistemäärä’standardization: ’standardointi’, ’vakiointi’statistical significance level: ’tilastollinen merkitsevyystaso’statistical inference: ’tilastollinen päättely’stem-and-leaf diagram: ’runko-ja-lehdet -kuvio’stratification: ’osittaminen’stratified randomization: ’ositettu satunnaistaminen’study design, study protocol: ’tutkimussuunnitelma’study population: ’tutkittavien joukko’survey: ’havainnoiva tutkimusasetelma’survivor function (S(t)): ’elossaolofunktio’systematic error: ’systemaattinen virhe’target population: ’kohdeperusjoukko’t-distribution: ’t-jakauma’

1999 227 Biomatrian sanastoa

Page 232: Sisällysluettelo - Terkko · Normanin ja Steinerin ’Biostatistics, The Bare Essentials’ on hauskasti ja selkeästi kirjoitettu kirja. Tekstiä on sopivasti höystetty huumorilla.

t-test: ’t-testi’test statistic: ’testisuure’trimmed mean: ’viritetty keskiarvo’two tailed/sided test: ’kaksisuuntainen testi’type I error ks. alpha errortype II error ks. beta errorvariable: ’muuttuja’variance: ’varianssi’washout period: ’puhdistumisjakso’weighted kappa: ’painotettu kappa’Wilcoxon’s rank sum test: ’Wilcoxonin järjestyslukujen summatesti’Wilcoxon’s signed rank / matched pair test: ’Wilcoxonin parittainen testi’

Biometrian sanastoa 228 Seppo Sarna

Page 233: Sisällysluettelo - Terkko · Normanin ja Steinerin ’Biostatistics, The Bare Essentials’ on hauskasti ja selkeästi kirjoitettu kirja. Tekstiä on sopivasti höystetty huumorilla.

Taulukko A1:

Tarvittava aineistoko, kun verrataan kahta binomiaalista suhdelukua p1 ja p2 toisiinsa. Esim. ∆ = p2 − p1 on hoitoero (tai efektin suuruus) tärkeimmässä lopputulosmuuttujassa. Taulukon arviot on laskettu olettaen, että testaus suoritetaan

χ2-testillä ilman jatkuvuuskorjausta kaksisuuntaista merkitsevyystasoa α = 0.05 käyttäen.

Voima (1 − β)p1 p2 0.50 0.65 0.70 0.75 0.80 0.85 0.90 0.95

0.05 0.10 214 305 342 385 435 497 582 719

0.05 0.15 70 99 111 125 141 161 188 231

0.05 0.20 38 54 60 67 76 86 101 124

0.05 0.25 25 35 39 44 49 56 65 80

0.05 0.30 18 25 28 32 36 40 47 58

0.05 0.35 14 20 22 24 27 31 36 44

0.05 0.40 11 16 17 19 22 24 28 34

0.05 0.45 10 13 14 16 18 20 23 28

0.05 0.50 8 11 12 13 15 17 19 23

0.05 0.55 7 9 10 11 12 14 16 19

0.05 0.60 6 8 9 10 11 12 14 16

0.05 0.65 5 7 8 8 9 10 12 14

0.10 0.15 337 481 540 607 686 785 918 1135

0.10 0.20 98 140 157 177 199 228 266 329

0.10 0.25 50 71 79 89 100 114 133 164

0.10 0.30 31 44 49 55 62 71 82 101

0.10 0.35 22 31 34 38 43 49 57 70

0.10 0.40 17 23 26 29 32 36 42 52

0.10 0.45 13 18 20 22 25 28 33 40

0.10 0.50 11 14 16 18 20 22 26 32

0.10 0.55 9 12 13 15 16 18 21 26

0.10 0.60 7 10 11 12 14 15 17 21

0.10 0.65 6 9 9 10 11 13 15 18

0.10 0.70 6 7 8 9 10 11 12 15

Voima (1 − β)p1 p2 0.50 0.65 0.70 0.75 0.80 0.85 0.90 0.95

0.15 0.20 444 635 713 801 906 1036 1212 1498

0.15 0.25 123 176 197 222 250 286 335 413

0.15 0.30 60 85 96 107 121 138 161 199

0.15 0.35 37 52 58 65 73 83 97 119

0.15 0.40 25 35 39 44 49 56 65 80

0.15 0.45 18 26 29 32 36 41 47 58

0.15 0.50 14 20 22 24 27 31 36 44

0.15 0.55 11 16 17 19 22 24 28 34

0.15 0.60 9 13 14 16 17 20 23 28

0.15 0.65 8 11 12 13 14 16 19 22

0.15 0.70 7 9 10 11 12 13 15 18

0.15 0.75 6 8 8 9 10 11 13 15

0.20 0.25 536 767 861 968 1094 1251 1464 1810

0.20 0.30 145 206 231 260 294 336 392 485

0.20 0.35 69 98 109 123 138 158 185 228

0.20 0.40 41 58 65 72 82 93 109 134

0.20 0.45 27 39 43 48 54 62 72 89

0.20 0.50 20 28 31 35 39 44 52 63

0.20 0.55 15 21 23 26 29 33 39 47

0.20 0.60 12 17 18 20 23 26 30 36

0.20 0.65 10 13 15 16 18 21 24 29

0.20 0.70 8 11 12 13 15 17 19 23

0.20 0.75 7 9 10 11 12 14 16 19

0.20 0.80 6 8 8 9 10 11 13 15

Voima (1 − β)p1 p2 0.50 0.65 0.70 0.75 0.80 0.85 0.90 0.95

0.25 0.30 613 877 984 1107 1251 1431 1674 2070

0.25 0.35 162 231 259 291 329 376 440 543

0.25 0.40 75 107 120 135 152 174 203 251

0.25 0.45 44 63 70 79 89 101 118 145

0.25 0.50 29 41 46 52 58 66 77 95

0.25 0.55 21 29 33 37 41 47 54 67

0.25 0.60 16 22 24 27 31 35 40 49

0.25 0.65 12 17 19 21 24 27 31 38

0.25 0.70 10 14 15 17 19 21 24 29

0.25 0.75 8 11 12 13 15 17 19 23

0.25 0.80 7 9 10 11 12 14 16 19

0.25 0.85 6 8 8 9 10 11 13 15

0.30 0.35 675 965 1083 1218 1377 1575 1842 2278

0.30 0.40 175 250 281 315 356 407 477 589

0.30 0.45 81 115 128 144 163 186 217 268

0.30 0.50 47 66 74 83 93 107 124 153

0.30 0.55 31 43 48 54 61 69 81 99

0.30 0.60 22 30 34 38 42 48 56 69

0.30 0.65 16 22 25 28 31 35 41 50

0.30 0.70 13 17 19 21 24 27 31 38

0.30 0.75 10 14 15 17 19 21 24 29

0.30 0.80 8 11 12 13 15 17 19 23

0.30 0.85 7 9 10 11 12 13 15 18

0.30 0.90 6 7 8 9 10 11 12 15

Page 234: Sisällysluettelo - Terkko · Normanin ja Steinerin ’Biostatistics, The Bare Essentials’ on hauskasti ja selkeästi kirjoitettu kirja. Tekstiä on sopivasti höystetty huumorilla.

Voima (1 − β)p1 p2 0.50 0.65 0.70 0.75 0.80 0.85 0.90 0.95

0.35 0.40 721 1031 1157 1301 1471 1682 1969 2434

0.35 0.45 185 264 296 333 376 430 503 621

0.35 0.50 84 120 134 150 170 194 227 280

0.35 0.55 48 68 76 85 96 110 128 158

0.35 0.60 31 44 49 55 62 71 82 101

0.35 0.65 22 31 34 38 43 49 57 70

0.35 0.70 16 22 25 28 31 35 41 50

0.35 0.75 12 17 19 21 24 27 31 38

0.35 0.80 10 13 15 16 18 21 24 29

0.35 0.85 8 11 12 13 14 16 19 22

0.35 0.90 6 9 9 10 11 13 15 18

0.35 0.95 5 7 8 8 9 10 12 14

0.40 0.45 752 1075 1206 1356 1534 1754 2053 2538

0.40 0.50 191 272 305 343 388 443 519 641

0.40 0.55 86 122 137 153 173 198 231 286

0.40 0.60 49 69 77 86 97 111 130 160

Voima (1 − β)p1 p2 0.50 0.65 0.70 0.75 0.80 0.85 0.90 0.95

0.40 0.65 31 44 49 55 62 71 82 101

0.40 0.70 22 30 34 38 42 48 56 69

0.40 0.75 16 22 24 27 31 35 40 49

0.40 0.80 12 17 18 20 23 26 30 36

0.40 0.85 9 13 14 16 17 20 23 28

0.40 0.90 7 10 11 12 14 15 17 21

0.40 0.95 6 8 9 10 11 12 14 16

0.45 0.50 767 1097 1231 1384 1565 1790 2095 2590

0.45 0.55 193 275 308 347 392 448 524 647

0.45 0.60 86 122 137 153 173 198 231 286

0.45 0.65 48 68 76 85 96 110 128 158

0.45 0.70 31 43 48 54 61 69 81 99

0.45 0.75 21 29 33 37 41 47 54 67

0.45 0.85 15 21 23 26 29 33 39 47

0.45 0.85 11 16 17 19 22 24 28 34

0.45 0.90 9 12 13 15 16 18 21 26

Voima (1 − β)p1 p2 0.50 0.65 0.70 0.75 0.80 0.85 0.90 0.95

0.45 0.95 7 9 10 11 12 14 16 19

0.50 0.55 767 1097 1231 1384 1565 1790 2095 2590

0.50 0.60 191 272 305 343 388 443 519 641

0.50 0.65 84 120 134 150 170 194 227 280

0.50 0.70 47 66 74 83 93 107 124 153

0.50 0.75 29 41 46 52 58 66 77 95

0.50 0.80 20 28 31 35 39 44 52 63

0.50 0.85 14 20 22 24 27 31 36 44

0.50 0.90 11 14 16 18 20 22 26 32

0.50 0.95 8 11 12 13 15 17 19 23

Lähde: Machin D & Campbell MJ. StatisticalTables for the Design of Clinical Trials. Black-well Scientific Publ. 1987: Table 3.1 (modifioi-tu).

Taulukko A1 (jatkoa)

Taulukko A2:

Tarvittava aineistoko, kun vertaillaan kahden toisis-taan riippumattoman ryhmän keskiarvoja µ0 ja µ1 toi-

siinsa. Esim. µ1 − µ0 on hoitoero (tai efektin suuruus)tärkeimmässä lopputulosmuuttujassa. Taulukon arvi-ot on laskettu olettaen, että testaus suoritetaan riippu-mattomien otosten t-testillä kaksisuuntaista merkitse-vyystasoa α = 0.05 käyttäen. Taulukointi on suoritet-

tu standardoidun erotuksen dt = µ1 − µ0

σ mukaisesti.

dt

Voima (1 − β)

0.50 0.65 0.70 0.75 0.80 0.85 0.90 0.950.05 3074 4401 4939 5553 6280 7184 8407 10397

0.10 769 1101 1235 1389 1571 1797 2102 2600

0.15 342 490 550 618 699 799 935 1156

0.20 193 276 310 348 393 450 526 651

0.25 124 177 198 223 252 288 337 417

0.30 86 123 138 155 175 201 234 290

0.35 64 91 102 114 129 148 173 213

0.40 49 70 78 88 99 113 132 163

0.45 39 55 62 70 79 80 105 129

dt

Voima (1 − β)

0.50 0.65 0.70 0.75 0.80 0.85 0.90 0.950.50 32 45 50 57 64 73 85 105

0.55 26 37 42 47 53 60 70 87

0.60 22 32 35 40 45 51 59 73

0.65 19 27 30 34 38 43 51 63

0.70 17 23 26 29 33 38 44 54

0.75 15 21 23 26 29 33 38 47

0.80 13 18 20 23 26 29 34 42

0.85 12 16 18 20 23 26 30 37

0.90 10 15 16 18 20 23 27 33

Page 235: Sisällysluettelo - Terkko · Normanin ja Steinerin ’Biostatistics, The Bare Essentials’ on hauskasti ja selkeästi kirjoitettu kirja. Tekstiä on sopivasti höystetty huumorilla.

Taulukko A2 (jatkoa)

dt

Voima (1 − β)

0.50 0.65 0.70 0.75 0.80 0.85 0.90 0.950.95 10 13 15 16 18 21 24 30

1.00 9 12 13 15 17 19 22 27

1.05 8 11 12 14 15 17 20 25

1.10 7 10 11 12 14 16 18 22

1.15 7 9 10 11 13 15 17 21

1.20 6 9 10 11 12 13 16 19

1.25 6 8 9 10 11 12 14 18

1.30 6 7 8 9 10 12 13 16

1.35 5 7 8 9 10 11 13 15

1.40 5 7 7 8 9 19 12 14

1.45 5 6 7 8 8 10 11 13

1.50 4 6 6 7 8 9 10 13

Lähde: Machin D & Campbell MJ. StatisticalTables for the Design of Clinical Trials. Black-well Scientific Publ. 1987: Table 7.2 (modifioitu).

Taulukko A3:

Satunnaislukuja(numeroita)

1 9 2 7 5 2 6 7 4 7 9 7 2 6 9 6 2 0 6 4 5 7 8 4 3 9 1 1 2 2 4

2 7 4 0 5 2 7 8 8 4 1 5 5 7 3 1 2 4 9 0 1 3 2 2 9 2 9 6 3 1 0

3 3 9 4 4 7 6 9 1 6 3 0 0 6 3 9 8 5 0 7 1 1 3 4 5 2 9 5 7 6 2

4 2 1 5 5 3 9 7 2 3 9 1 1 1 1 3 1 6 1 8 5 2 0 8 7 0 2 7 3 2 4

5 1 6 0 4 9 6 0 4 6 7 2 8 6 0 2 9 2 2 4 8 3 1 0 6 4 0 3 5 0 9

6 2 9 2 3 2 5 7 2 2 5 8 5 7 5 7 7 3 2 8 8 6 5 6 0 6 2 6 2 3 7

7 0 9 9 4 6 1 6 4 6 8 0 3 8 0 8 0 0 8 1 9 0 2 8 7 0 0 8 7 8 5

8 9 0 3 6 8 4 8 3 7 6 2 0 3 8 1 0 1 2 3 2 5 7 5 4 4 5 4 1 9 4

9 6 3 6 4 2 0 6 4 8 5 6 8 4 8 9 6 7 7 6 2 7 8 6 9 2 0 5 9 1 8

10 1 2 4 1 6 2 3 4 9 1 8 7 7 2 0 3 5 5 5 1 8 1 7 1 1 7 4 2 9 7

11 3 9 0 2 8 8 5 1 4 1 6 9 8 1 1 2 5 5 9 0 4 8 5 9 3 9 6 3 5 4

12 9 4 2 5 2 2 0 9 1 4 2 4 9 4 7 5 0 7 0 7 5 0 9 7 6 6 3 1 8 3

13 1 6 1 6 7 4 1 7 5 0 1 6 0 1 4 0 4 7 8 3 3 1 7 6 9 0 8 6 8 1

14 9 5 1 8 7 1 4 2 8 8 6 9 5 5 6 0 6 6 2 1 1 0 8 2 3 0 2 1 3 1

15 9 5 0 3 7 8 4 0 3 3 6 7 4 8 1 8 7 7 9 2 4 9 0 3 5 4 8 8 5 8

16 8 9 2 8 5 8 4 4 0 4 1 8 1 5 8 4 7 0 1 3 3 4 8 6 4 2 7 7 4 3

17 8 3 8 5 0 3 6 2 0 8 5 3 1 8 3 3 8 8 6 5 4 8 9 5 4 5 3 5 6 0

18 2 5 6 9 1 2 8 5 8 1 7 4 3 4 8 4 2 6 5 8 3 5 1 8 9 1 6 6 5 2

19 4 7 8 2 3 9 3 5 8 6 1 1 9 5 7 9 0 0 6 0 4 9 7 9 1 6 3 5 8 0

20 6 2 8 1 2 5 4 6 9 0 2 4 5 4 2 0 6 5 8 0 8 8 6 9 2 9 2 9 3 0

21 1 9 6 3 6 2 4 2 1 8 6 7 8 8 5 4 2 6 0 6 1 2 8 7 6 9 8 9 3 5

22 6 4 4 6 1 1 6 0 8 0 4 7 6 0 8 5 5 3 2 5 2 1 6 4 3 9 3 9 7 6

23 0 5 6 8 5 8 3 8 2 0 1 5 6 1 7 8 8 6 1 0 2 8 4 9 3 1 0 3 3 7

24 6 8 7 5 0 8 2 6 0 9 1 4 9 4 3 5 6 8 4 8 0 3 8 7 4 4 8 2 7 7

25 1 0 2 7 1 6 8 5 0 0 4 0 7 9 0 2 3 9 4 4 9 0 5 8 6 0 5 0 9 9

26 6 5 7 1 8 1 8 7 9 5 0 3 8 7 7 7 3 1 6 1 8 8 7 4 0 0 7 6 3 9

27 9 4 5 7 7 0 8 5 8 7 9 6 7 4 9 5 6 1 8 7 0 6 7 7 5 9 6 3 2 2

28 1 9 8 5 9 5 1 6 6 5 4 9 0 4 6 1 6 9 5 0 6 3 4 2 3 6 5 3 3 5

29 1 3 8 0 7 9 6 6 3 8 3 3 7 2 5 3 1 7 1 7 0 4 7 0 4 1 3 6 6 9

30 9 1 6 9 7 0 0 1 0 7 3 3 6 6 7 2 4 7 7 0 6 0 4 4 4 9 1 0 7 4

31 0 9 1 0 7 5 6 3 1 5 6 6 5 3 4 2 8 5 8 8 5 7 6 8 2 1 2 5 4 0

32 2 9 5 2 1 5 0 7 3 3 6 8 7 0 2 4 0 4 6 7 9 4 7 2 7 6 2 2 1 4

33 0 6 6 1 4 9 4 3 1 9 6 9 6 9 3 9 3 3 5 2 4 3 2 9 0 4 6 9 1 4

34 8 5 6 3 0 5 8 0 3 4 3 3 0 6 0 5 9 9 8 5 8 2 8 1 9 1 5 2 6 8

35 4 9 9 2 7 9 7 7 3 5 6 1 1 9 6 2 4 0 6 2 7 4 7 8 9 5 2 9 4 3

36 7 7 0 8 1 5 3 7 5 9 5 2 7 9 5 6 7 4 7 6 6 9 2 8 6 4 2 0 6 9

27 9 3 0 1 0 0 2 0 7 2 8 8 1 1 2 5 3 2 5 6 9 0 8 7 7 1 9 2 5 0

38 6 2 3 4 1 2 1 5 1 4 3 1 1 4 2 8 3 4 8 0 6 5 1 9 3 7 5 0 5 9

39 9 5 7 3 1 2 1 1 3 2 7 8 7 0 7 1 8 9 8 0 5 3 9 7 5 9 2 7 7 5

40 4 7 5 6 7 3 9 6 5 1 1 7 9 6 7 2 1 4 0 4 8 9 4 4 7 4 1 5 6 5

41 2 5 4 4 1 7 8 3 9 2 1 1 7 3 3 5 7 7 0 3 2 9 1 3 3 7 1 1 6 4

42 5 5 3 6 7 4 3 1 0 0 6 2 5 5 2 6 5 5 7 9 0 1 6 6 5 8 6 8 1 8

43 4 2 0 1 0 7 6 9 9 4 1 4 3 1 5 8 4 0 9 6 8 7 1 5 2 2 0 7 1 9

44 2 5 2 1 5 0 4 3 4 9 5 4 4 3 4 7 2 3 4 4 9 3 0 0 8 8 3 2 8 2

45 3 1 6 7 0 6 3 9 6 4 5 5 9 3 7 2 1 4 1 7 6 1 6 4 0 2 1 0 4 6

Taulukon luvut on generoitu satunnaislukuohjel-malla siten, että ne noudattavat likimain tasaistajakaumaa, eli numeroiden 0-9 esiintymistoden-näköisyys on sama. Taulukkoja käytettäessäaloituskohta tulisi valita satunnaisesti.

Page 236: Sisällysluettelo - Terkko · Normanin ja Steinerin ’Biostatistics, The Bare Essentials’ on hauskasti ja selkeästi kirjoitettu kirja. Tekstiä on sopivasti höystetty huumorilla.

Taulukko A4:

Lukumäärien vertailu Poisson-jakauman tapauksessaa) Testiongelma: Sisältyykö hypoteettinen lukumäärä k0 Poisson-ja-kauman luottamusväliin vai ei ?

k95%

luottamusväli99%

luottamusväli0 0.000 3.69 0.000 5.30

1 0.0253 5.57 0.005 7.43

2 0.242 7.22 0.103 9.27

3 0.619 8.77 9.338 10.98

4 1.09 10.24 0.672 12.59

5 1.62 11.67 1.08 14.15

6 2.20 13.06 1.54 15.66

7 2.81 14.42 2.04 17.13

8 3.45 15.76 2.57 18.58

9 4.12 17.08 3.13 20.00

10 4.80 18.39 3.72 21.40

11 5.49 19.68 4.32 22.78

12 6.20 20.96 4.94 24.14

13 6.92 22.23 5.58 25.50

14 7.65 23.49 6.23 26.84

15 8.40 24.74 6.89 28.16

16 9.15 25.98 7.57 29.48

17 9.90 27.22 8.25 30.79

18 10.67 28.45 8.94 32.09

19 11.44 29.67 9.64 33.38

20 12.22 30.89 10.35 34.67

k95%

luottamusväli99%

luottamusväli21 13.00 32.10 11.07 35.95

22 13.79 33.31 11.79 37.22

23 14.58 34.51 12.52 38.48

24 15.38 35.71 13.25 39.74

25 16.18 36.90 14.00 41.00

26 16.98 38.10 14.74 42.25

27 17.79 39.28 15.49 43.50

28 18.61 40.47 16.24 44.74

29 19.42 41.63 17.00 45.98

30 20.24 42.83 17.77 47.21

35 24.38 48.68 21.64 53.32

40 28.58 54.47 25.59 59.36

45 32.82 60.21 29.60 65.34

50 37.11 65.92 33.66 71.37

55 41.43 71.59 37.78 77.15

60 45.79 77.23 41.93 82.99

65 50.17 82.85 64.11 88.80

70 54.57 88.44 50.33 94.58

80 63.44 99.57 58.84 106.06

90 72.37 110.63 67.44 117.45

100 81.36 121.63 76.12 128.76

Taulukko A5:

Lukumäärien vertailu kahden Poisson-jakauman tapauksessab) Testiongelma: Poikkeavatko kahdesta eri otoksesta lasketut lukumäärätk1 ja k2 toisistaan? Taulukoissa on pienin lukumäärä, jolla tilastollisestimerkitsevä ero saadaan.

k1 + k2α =0.05

α =0.01

6 0 0

7 0 0

8 1 0

9 1 0

10 1 0

11 2 1

12 2 1

13 3 1

14 3 2

15 3 2

16 4 2

17 4 3

18 5 3

19 5 4

20 5 4

21 6 4

22 6 5

23 7 5

24 7 5

k1 + k2α =0.05

α =0.01

25 7 6

26 8 6

27 8 7

28 9 7

29 9 7

30 10 8

31 10 8

32 10 8

33 11 9

34 11 9

35 12 10

36 12 10

37 13 10

38 13 11

39 13 11

40 14 12

41 14 12

42 15 13

43 15 13

k1 + k2α =0.05

α =0.01

44 16 13

45 16 14

46 16 14

47 17 15

48 17 15

49 18 15

50 18 16

51 19 16

52 19 17

53 20 17

54 20 18

55 20 18

56 21 18

57 21 19

58 22 19

59 22 20

60 23 20

61 23 20

62 24 21

k1 + k2α =0.05

α =0.01

63 24 21

64 24 22

65 25 22

66 25 23

67 26 23

68 26 23

69 27 24

70 27 24

71 28 25

72 28 25

73 28 26

74 29 26

75 29 26

76 30 27

77 30 27

78 31 28

79 31 28

80 32 29

Esim. k1 = 4, k2 = 11. Rivi 15 sarake 1: luku = 3 < k1 ⇒ p > 0.05, joten lukumäärät eivät poikkea tilastollisesti merkitsevästi toisistaan

Esim. k1 = 1, k2 = 11. Rivi 12 sarake 2: luku =1 = k1 ⇒ p = 0.01, joten lukumäärät eroavat toisistaan riskitasolla 0.01

Page 237: Sisällysluettelo - Terkko · Normanin ja Steinerin ’Biostatistics, The Bare Essentials’ on hauskasti ja selkeästi kirjoitettu kirja. Tekstiä on sopivasti höystetty huumorilla.

Taulukko A6:

Wilcoxonin parittainen testi

Taulukossa on annettu Wilcoxonin testisuureen T+ kriittiset arvot kak-sisuuntaisessa testissä. Oletetaan, että T+:ksi on valittu pienempi summistaT+ ja T-. Yleensä tilastopaketit tulostavat molemmat näistä summista, mut-ta jos ohjelma antaisikin vain suuremman summan, niin pienempi on hel-posti laskettavissa suuremman summan ja tehokkaan aineistokoon n’ funk-tiona; n’ = n - (nollaerotusten määrä). Olkoon T+ = min(T+, T-). Tällöin T- = (n’ * (n’ + 1) / 2) - T+.

n’Kaksisuuntainen

merkitsevyystaso (α)

0.2 0.1 0.05 0.02 0.01 0.0014 0 - - - - -

5 2 0 - - - -

6 3 - - - - -

7 5 3 2 0 - -

8 8 5 3 1 0 -

9 10 8 5 3 1 -

10 14 10 8 5 3 -

11 17 13 10 7 5 0

12 21 17 13 9 7 1

13 26 21 17 12 9 2

14 31 25 21 15 12 4

n’Kaksisuuntainen

merkitsevyystaso (α)

0.2 0.1 0.05 0.02 0.01 0.00115 36 30 25 19 15 6

16 42 35 29 23 19 9

17 48 41 34 28 23 11

18 55 47 40 32 27 14

19 62 53 46 37 32 18

20 69 60 52 43 37 21

21 77 67 58 49 42 26

22 86 75 66 55 48 30

23 95 83 73 62 54 35

24 104 91 81 69 61 40

25 114 100 89 76 68 45

Kun n’ > 25 voidaan käyttää normaalijakauman taulukoita laskemalla tes-tisuure:

z = |T+ − n’ ∗ (n’ + 1)⁄2| − 0.5

√ n’ ∗ (n’ + 1) ∗ (2n’ + 1)⁄24

Esimerkki: n’= 16 ja T+ = 12. Riviltä 16 todetaan, että arvo 12 sijoittuu sa-rakkeiden 0.01 ja 0.001 väliin, eli testisuuretta vastaava P:n arvo on tällävälillä. Yllä olevalla kaavalla ja StaTable ohjelmalla saadaan P=0.0041.

Lähde: Altman DG. Practical Statistics for Medical Research. Chapmann& Hall. Table B9 (modifioitu)

Taulukko A7:

Mann-Whitneyn U-testin kriittiset arvotKaksisuuntainen merkitsevyystaso (α)

n1 n2Kaksisuuntainen merkitsevyystaso (α)

0.2 0.1 0.05 0.02 0.01 0.0024 4 13 15 16 - - -3 5 13 14 15 - - -

4 5 16 18 19 20 - -5 5 20 21 23 24 25 -3 6 15 16 17 - - -

4 6 19 21 22 23 24 -5 6 23 25 27 28 29 -6 6 27 29 31 33 34 -

3 7 17 19 20 21 - -4 7 22 24 25 27 28 -5 7 27 29 30 32 34 -6 7 31 34 36 38 39 42

7 7 36 38 41 43 45 483 8 19 21 22 24 - -4 8 25 27 28 30 31 -

5 8 30 32 34 36 38 406 8 35 38 40 42 44 477 8 40 43 46 49 50 54

8 8 45 49 51 55 57 602 9 16 17 18 - - -3 9 22 23 25 26 27 -

4 9 27 30 32 33 35 -5 9 33 36 38 40 42 446 9 39 42 44 47 49 52

Page 238: Sisällysluettelo - Terkko · Normanin ja Steinerin ’Biostatistics, The Bare Essentials’ on hauskasti ja selkeästi kirjoitettu kirja. Tekstiä on sopivasti höystetty huumorilla.

Taulukko A7 (jatkoa)

n1 n2Kaksisuuntainen merkitsevyystaso (α)

0.2 0.1 0.05 0.02 0.01 0.0027 9 45 48 51 54 56 60

8 9 50 54 57 61 63 679 9 56 60 64 67 70 742 10 17 19 20 - - -

3 10 24 26 27 29 30 -4 10 30 33 35 37 38 405 10 37 39 42 44 46 496 10 43 46 49 52 54 57

7 10 49 53 56 59 61 658 10 56 60 63 67 69 749 10 62 66 70 74 77 82

10 10 68 73 77 81 84 902 11 19 21 223 11 26 28 30 32 33 -

4 11 33 36 38 40 42 445 11 40 43 46 48 50 536 11 47 50 53 57 59 62

7 11 54 58 61 65 67 718 11 61 65 69 73 75 809 11 68 72 76 81 83 89

10 11 74 79 84 88 92 9811 11 81 87 91 96 100 1062 12 20 22 23 - - -3 12 28 31 32 34 35 -

4 12 36 39 41 42 45 485 12 43 47 49 52 54 586 12 51 55 58 61 63 68

7 12 58 63 66 70 72 778 12 66 70 74 79 81 879 12 73 78 82 87 90 96

10 12 81 86 91 96 99 10611 12 88 94 99 104 108 11512 12 95 102 107 113 117 124

2 13 22 24 25 26 - -3 13 30 33 35 37 38 -

n1 n2Kaksisuuntainen merkitsevyystaso (α)

0.2 0.1 0.05 0.02 0.01 0.0024 13 39 42 44 47 49 51

5 13 47 50 53 56 58 626 13 55 59 62 66 68 737 13 63 67 71 75 78 83

8 13 71 76 80 84 87 939 13 79 84 89 94 97 10310 13 87 93 97 103 106 11311 13 95 101 106 112 116 123

12 13 103 109 115 121 125 13313 13 111 118 124 130 135 1432 14 24 25 27 28 - -

3 14 32 35 37 40 41 -4 14 41 45 47 50 52 555 14 50 54 57 60 63 67

6 14 59 63 67 71 73 787 14 67 72 76 81 83 898 14 76 81 86 90 94 100

9 14 85 90 95 100 104 11110 14 93 99 104 110 114 12111 14 102 108 114 120 124 132

12 14 110 117 123 130 134 14313 14 119 126 132 139 144 15314 14 127 135 141 149 154 1642 15 25 27 29 30 - -

3 15 35 38 40 42 43 -4 15 44 48 50 53 55 595 15 53 57 61 64 67 71

6 15 63 67 71 75 78 837 15 72 77 81 86 89 958 15 81 87 91 96 100 106

9 15 90 96 101 107 111 11810 15 99 106 111 117 121 12911 15 108 115 121 28 132 141

12 15 117 125 131 138 143 15213 15 127 134 141 148 153 16314 15 136 144 151 159 164 174

n1 n2Kaksisuuntainen merkitsevyystaso (α)

0.2 0.1 0.05 0.02 0.01 0.00215 15 145 153 161 169 174 185

2 16 27 29 31 32 - -,3 16 37 40 42 45 46 -4 16 47 50 53 57 59 62

5 16 57 61 65 68 71 756 16 67 71 75 80 83 887 16 76 82 86 91 94 1018 16 86 92 97 102 106 113

9 16 96 102 107 113 117 12510 16 106 112 118 124 129 13711 16 115 122 129 135 140 149

12 16 125 132 139 146 151 16113 16 134 143 149 157 163 17314 16 144 153 160 168 174 185

15 16 154 163 170 179 185 19716 16 163 173 181 190 196 2082 17 28 31 32 34 - -

3 17 39 42 45 47 49 514 17 50 53 57 60 62 665 17 60 65 68 72 75 80

6 17 71 76 80 84 87 937 17 81 86 91 96 100 1068 17 91 97 102 108 112 1199 17 101 108 114 120 124 132

10 17 112 119 125 132 136 14511 17 122 130 136 143 148 15812 17 132 140 147 155 160 170

13 17 142 151 158 166 172 18314 17 153 161 169 178 184 19515 17 163 172 180 189 195 208

16 17 173 183 191 201 207 22017 17 183 193 202 212 219 2322 18 30 32 34 36 - -

3 18 41 45 47 50 52 544 18 52 56 60 63 66 695 18 63 69 72 76 79 84

Page 239: Sisällysluettelo - Terkko · Normanin ja Steinerin ’Biostatistics, The Bare Essentials’ on hauskasti ja selkeästi kirjoitettu kirja. Tekstiä on sopivasti höystetty huumorilla.

Taulukko A7 (jatkoa)

n1 n2Kaksisuuntainen merkitsevyystaso (α)

0.2 0.1 0.05 0.02 0.01 0.0026 18 74 80 84 89 92 987 18 85 91 96 102 105 112

8 18 96 103 108 114 118 1269 18 107 114 120 126 131 139

10 18 118 125 132 139 143 153

11 18 129 137 143 151 156 16612 18 139 148 155 163 169 17913 18 150 159 167 175 181 192

14 18 161 170 178 187 194 20615 18 172 182 190 200 206 21916 18 182 193 202 212 218 23217 18 193 204 213 224 231 245

18 18 204 215 225 236 243 2582 19 31 34 36 37 38 -3 19 43 47 50 53 54 57

4 19 55 59 63 67 69 735 19 67 72 76 80 83 886 19 78 84 89 94 97 103

7 19 90 96 101 107 111 1188 19 101 108 114 120 124 1329 19 113 120 126 133 138 146

10 19 124 132 138 146 151 16111 19 136 144 151 159 164 17512 19 147 156 163 172 177 188

13 19 158 167 175 184 190 20214 19 169 179 188 197 203 21615 19 181 191 200 210 216 23016 19 192 203 212 222 230 244

17 19 203 214 224 235 242 25718 19 214 226 236 248 255 27119 19 226 238 248 260 268 284

2 20 33 36 38 39 40 -3 20 45 49 52 55 57 604 20 58 62 66 70 72 77

n1 n2Kaksisuuntainen merkitsevyystaso (α)

0.2 0.1 0.05 0.02 0.01 0.0025 20 70 75 80 84 87 936 20 82 88 93 98 102 108

7 20 94 101 106 112 116 1248 20 106 113 119 126 130 1399 20 118 126 132 140 144 154

10 20 130 138 145 153 158 16811 20 142 151 158 167 172 18312 20 154 163 171 180 186 198

13 20 166 176 184 193 200 21214 20 178 188 197 207 213 22615 20 190 200 210 220 227 24116 20 201 213 222 233 241 255

17 20 213 225 235 247 254 27018 20 225 237 248 260 268 28419 20 237 250 261 273 281 298

20 20 249 262 273 286 295 312

Esim. jos n1 = 4, n2 = 11 ja U = 35. Tämä ylittääp = 0.20:a vastaavan arvon 33, muttei p = 0.10:avastaavaa arvoa 36, joten 0.10 < p < 0.20. Inter-poloimalla saataisiin likimain p=0.125. StatXact3 antaa tarkaksi yksisuuntaiseksi arvoksi 0.0542.Kertomalla tämä kahdella saataisiin 0.1084.

Kun n1 tai n2 ovat suurempia kuin 20, voidaankäyttää kaavaa: z = (U - m)/s, missä m = n1*n2/2ja s=(n1+n2+1)*m/6)0.5 ja katsoa z:aa vastaava p-arvo Normaalijakauman taulukoista.

Lähde: Rohlf FJ and Sokal RR. Statistical Tab-les. W.H.Freeman Company, New York, 1981Table 29 (modifioitu).

Taulukko A8:

Standardoidun Normaalijakauman prosenttipistei-tä (z) vastaavia kaksisuuntaisia p-arvoja

z p1.60 0.1096

1.61 0.1074

1.62 0.1052

1.63 0.1031

1.64 0.1010

1.645 0.1000

1.65 0.0989

1.66 0.0969

1.67 0.0949

1.68 0.0930

1.69 0.0910

1.70 0.0891

1.71 0.0873

1.72 0.0854

1.73 0.0836

1.74 0.0819

1.75 0.0801

1.76 0.0784

1.77 0.0767

1.78 0.0751

1.79 0.0735

1.80 0.0719

1.81 0.0703

1.82 0.0688

1.83 0.0672

1.84 0.0658

1.85 0.0643

z p1.86 0.0629

1.87 0.0615

1.88 0.0601

1.89 0.0588

1.90 0.0574

1.91 0.0561

1.92 0.0549

1.93 0.0536

1.94 0.0524

1.95 0.0512

1.96 0.0500

1.97 0.0488

1.98 0.0477

1.99 0.0466

2.00 0.0455

2.01 0.0444

2.02 0.0434

2.03 0.0424

2.04 0.0414

2.05 0.0404

2.06 0.0394

2.07 0.0385

2.08 0.0375

2.09 0.0366

2.10 0.0357

2.11 0.0349

2.12 0.0340

z p2.13 0.0332

2.14 0.0324

2.15 0.0316

2.16 0.0308

2.17 0.0300

2.18 0.0293

2.19 0.0285

2.20 0.0278

2.21 0.0271

2.22 0.0264

2.23 0.0257

2.24 0.0251

2.25 0.0244

2.26 0.0238

2.27 0.0232

2.28 0.0226

2.29 0.0220

2.30 0.0214

2.31 0.0209

2.32 0.0203

2.33 0.0198

2.34 0.0193

2.35 0.0188

2.36 0.0183

2.37 0.0178

2.38 0.0173

2.39 0.0168

Page 240: Sisällysluettelo - Terkko · Normanin ja Steinerin ’Biostatistics, The Bare Essentials’ on hauskasti ja selkeästi kirjoitettu kirja. Tekstiä on sopivasti höystetty huumorilla.

z p2.40 0.0164

2.41 0.0160

2.42 0.0155

2.43 0.0151

2.44 0.0147

2.45 0.0143

2.46 0.0139

2.47 0.0135

2.48 0.0131

2.49 0.0128

2.50 0.0124

2.51 0.0121

2.52 0.0117

2.53 0.0114

2.54 0.0111

2.55 0.0108

2.56 0.0105

2.57 0.0102

2.58 0.0099

2.59 0.0096

2.60 0.0093

2.61 0.0091

2.62 0.0088

2.63 0.0085

2.64 0.0083

2.65 0.0080

2.66 0.0078

2.67 0.0076

2.68 0.0074

z p2.69 0.0071

2.70 0.0068

2.71 0.0067

2.72 0.0065

2.73 0.0063

2.74 0.0061

2.75 0.0060

2.76 0.0058

2.77 0.0056

2.78 0.0054

2.79 0.0053

2.80 0.0051

2.81 0.0050

2.82 0.0048

2.83 0.0047

2.84 0.0045

2.85 0.0044

2.86 0.0042

2.87 0.0041

2.88 0.0040

2.89 0.0039

2.90 0.0037

2.91 0.0036

2.92 0.0035

2.93 0.0034

2.94 0.0033

2.95 0.0032

2.96 0.0031

2.97 0.0030

Taulukko A8 (jatkoa)z p

2.98 0.0029

2.99 0.0028

3.00 0.0027

3.01 0.0026

3.02 0.0025

3.03 0.0025

3.04 0.0024

3.05 0.0023

3.06 0.0022

3.07 0.0021

3.09 0.0020

3.11 0.0019

3.12 0.0018

3.14 0.0016

3.16 0.0016

3.18 0.0015

3.20 0.0014

3.22 0.0013

3.24 0.0012

3.26 0.0011

3.29 0.0010

3.32 0.0009

3.35 0.0008

3.39 0.0007

3.43 0.0006

3.48 0.0005

3.54 0.0004

3.61 0.0003

3.72 0.0002

3.90 0.0001

Taulukko A9:

Pearsonin korrelaatiokertoimen (rxy)merkitsevyysrajat (kriittiset arvot) erivapausastemäärillä (df) testattaessa hypoteesia: perusjoukon korrelaatio-kerroin = 0. Negatiivisilla korrelaatio-kertoimilla etumerkki jätetään huomi-oimatta.

df = n-2, missä n on havaintoparien (x, y) lukumäärä. Taulukoita voidaankäyttää myös osittaiskorrelaatioiden(rxy.z) testaamiseen, tällöin df = n - 3, n - 4, ja niin edelleen.

vapaus-asteet(df)

kaksisuuntainen merkitsevyystaso (α)

0.010 0.05 0.02 0.01 0.001

1 0.9877 0.9969 0.9995 0.9999 1.0000

2 0.9000 0.9500 0.9800 0.9900 0.9990

3 0.8054 0.8734 0.9343 0.9587 0.9911

4 0.7293 0.8114 0.8822 0.9172 0.9741

5 0.6694 0.7545 0.8329 0.8745 0.9509

6 0.6215 0.7067 0.7887 0.8343 0.9249

7 0.5822 0.6664 0.7498 0.7977 0.8983

8 0.5494 0.6319 0.7155 0.7646 0.8721

9 0.5214 0.6012 0.6851 0.7348 0.8471

10 0.4973 0.5760 0.6581 0.7079 0.8233

11 0.4762 0.5529 0.6339 0.6835 0.8010

12 0.4575 0.5324 0.6120 0.6614 0.7800

13 0.4409 0.5140 0.5923 0.6411 0.7604

14 0.4259 0.4973 0.5742 0.6226 0.7419

15 0.4124 0.4822 0.5577 0.6055 0.7247

16 0.4000 0.4683 0.5426 0.5897 0.7084

17 0.3887 0.4555 0.5285 0.5751 0.6932

18 0.3783 0.4438 0.5155 0.5614 0.6788

19 0.3687 0.4329 0.5034 0.5487 0.6652

20 0.3598 0.4227 0.4921 0.5368 0.6524

21 0.3515 0.4132 0.4815 0.5256 0.6402

22 0.3438 0.4044 0.4716 0.5151 0.6287

23 0.3365 0.3961 0.4622 0.5052 0.6178

24 0.3297 0.3882 0.4534 0.4958 0.6074

25 0.3233 0.3809 0.4451 0.4869 0.5974

26 0.3172 0.3739 0.4372 0.4785 0.5880

27 0.3115 0.3673 0.4297 0.4705 0.5790

28 0.3061 0.3610 0.4226 0.4629 0.5703

Page 241: Sisällysluettelo - Terkko · Normanin ja Steinerin ’Biostatistics, The Bare Essentials’ on hauskasti ja selkeästi kirjoitettu kirja. Tekstiä on sopivasti höystetty huumorilla.

vapaus-asteet(df)

kaksisuuntainen merkitsevyystaso (α)

0.010 0.05 0.02 0.01 0.001

29 0.3009 0.3550 0.4158 0.4556 0.5620

30 0.2920 0.3494 0.4093 0.4487 0.5541

31 0.2913 0.3440 0.4032 0.4421 0.5465

32 0.2869 0.3388 0.3973 0.4357 0.5392

33 0.2826 0.3328 0.3916 0.4296 0.5322

34 0.2785 0.3291 0.3862 0.4238 0.5255

35 0.2746 0.3246 0.3810 0.4182 0.5189

36 0.2709 0.3202 0.3759 0.4128 0.5126

37 0.2673 0.3160 0.3712 0.4076 0.5066

38 0.2638 0.3120 0.3665 0.4026 0.5007

39 0.2605 0.3081 0.3621 0.3978 0.4950

40 0.2573 0.3044 0.3578 0.3932 0.4896

41 0.2542 0.3008 0.3536 0.3887 0.4843

42 0.2512 0.2973 0.3496 0.3843 0.4792

43 0.2483 0.2940 0.3457 0.3801 0.4742

44 0.2455 0.2907 0.3420 0.3761 0.4694

45 0.2429 0.2876 0.3384 0.3721 0.4647

46 0.2405 0.2845 0.3348 0.3683 0.4602

47 0.2377 0.2816 0.3314 0.3646 0.4557

48 0.2353 0.2787 0.3281 0.3610 0.4515

50 0.2306 0.2732 0.3218 0.3542 0.4432

52 0.2262 0.2681 0.3158 0.3477 0.4354

54 0.2221 0.2632 0.3102 0.3415 0.4280

56 0.2181 0.2586 0.3048 0.3357 0.4210

vapaus-asteet(df)

kaksisuuntainen merkitsevyystaso (α)

0.010 0.05 0.02 0.01 0.001

58 0.2144 0.2542 0.2997 0.3301 0.4143

60 0.2108 0.2500 0.2948 0.3248 0.4079

65 0.2027 0.2405 0.2837 0.3127 0.3931

68 0.1982 0.2352 0.2776 0.3060 0.3850

70 0.1954 0.2319 0.2737 0.3017 0.3798

75 0.1889 0.2242 0.2647 0.2919 0.3678

78 0.1852 0.2199 0.2597 0.2864 0.3611

80 0.1829 0.2172 0.2565 0.2830 0.3568

85 0.1775 0.2108 0.2491 0.2748 0.3468

88 0.1745 0.2072 0.2449 0.2702 0.3412

90 0.1726 0.2050 0.2422 0.2673 0.3375

95 0.1680 0.1996 0.2359 0.2604 0.3291

98 0.1654 0.1966 0.2324 0.2565 0.3242

100 0.1638 0.1946 0.2301 0.2540 0.3211

105 0.1599 0.1900 0.2247 0.2480 0.3130

108 0.1576 0.1874 0.2216 0.2446 0.3095

110 0.1562 0.1857 0.2196 0.2425 0.3069

115 0.1528 0.1816 0.2149 0.2372 0.3004

118 0.1509 0.1793 0.2122 0.2343 0.2967

120 0.1496 0.1779 0.2104 0.2324 0.2943

128 0.1449 0.1723 0.2039 0.2252 0.2853

130 0.1438 0.1710 0.2023 0.2235 0.2833

138 0.1396 0.1660 0.1965 0.2170 0.2752

140 0.1386 0.1648 0.1951 0.2155 0.2733

vapaus-asteet(df)

kaksisuuntainen merkitsevyystaso (α)

0.010 0.05 0.02 0.01 0.001

150 0.1339 0.1593 0.1886 0.2083 0.2643

160 0.1297 0.1543 0.1821 0.2019 0.2562

170 0.1240 0.1476 0.1748 0.1932 0.2454

180 0.1223 0.1455 0.1705 0.1905 0.2420

190 0.1191 0.1417 0.1660 0.1855 0.2357

200 0.1161 0.1381 0.1636 0.1809 0.2299

225 0.1095 0.1296 0.1543 0.1707 0.2170

250 0.1039 0.1236 0.1465 0.1620 0.2061

300 0.0948 0.1129 0.1338 0.1480 0.1884

350 0.0878 0.1046 0.1240 0.1371 0.1747

400 0.0822 0.0978 0.1160 0.1283 0.1635

450 0.0775 0.0922 0.1094 0.1210 0.1543

500 0.0735 0.0875 0.1038 0.1149 0.1464

1000 0.0520 0.0619 0.0735 0.0813 0.1038

2000 0.0368 0.0458 0.0520 0.0576 0.0735

5000 0.0233 0.0277 0.0329 0.0364 0.0465

Esim. Oletetaan, että n = 50 ja rxy = 0.3550. Taulukosta riviltä df = 48 todetaan, että arvo sijoittuu merkitsevyystasojen 0.02 ja 0.01 arvojen väliin, joten 0.01 < p < 0.02

Taulukko A9 (jatkoa)

Page 242: Sisällysluettelo - Terkko · Normanin ja Steinerin ’Biostatistics, The Bare Essentials’ on hauskasti ja selkeästi kirjoitettu kirja. Tekstiä on sopivasti höystetty huumorilla.

Taulukko A10:

Spearmanin järjestysiokertoimen (rs) merkitsevyysrajat kaksisuuntaisessatestissä. Negatiivisten korrelaatiokerrointen etumerkkiä ei huomioida. Kunn > 30 voidaan käyttää Pearsonin korrelaatiokertoimien taulukoita.

aineisto

koko

kaksisuuntainenmerkitsevyystaso (α)

n 0.1 0.05 0.02 0.01 0.002

5 0.8000 0.9000 - - -

6 0.7714 0.8286 0.8857 0.9429 -

7 0.6786 0.7450 0.8571 0.8929 0.9643

8 0.6190 0.7143 0.8095 0.8571 0.9286

9 0.5833 0.6833 0.7667 0.8167 0.9000

10 0.5515 0.6364 0.7333 0.7818 0.8667

11 0.5273 0.6091 0.7000 0.7455 0.8364

12 0.4965 0.5804 0.6713 0.7273 0.8182

13 0.4780 0.5549 0.6429 0.6978 0.7912

14 0.4503 0.5341 0.6220 0.6747 0.7670

15 0.4429 0.5179 0.6000 0.6536 0.7464

16 0.4265 0.5000 0.5824 0.6324 0.7265

17 0.4118 0.4853 0.5637 0.6152 0.7083

18 0.3994 0.4716 0.5480 0.5975 0.6904

19 0.3895 0.4579 0.5333 0.5825 0.6737

20 0.3789 0.4451 0.5203 0.5684 0.6586

21 0.3688 0.4351 0.5078 0.5545 0.6455

22 0.3597 0.4241 0.4963 0.5426 0.6318

23 0.3518 0.4150 0.4852 0.5306 0.6186

24 0.3435 0.4061 0.4786 0.5200 0.6070

25 0.3362 0.3977 0.4654 0.5100 0.5962

26 0.3299 0.3894 0.4564 0.5002 0.5856

27 0.3236 0.3822 0.4481 0.4915 0.5757

28 0.3175 0.3749 0.4401 0.4828 0.5660

29 0.3113 0.3685 0.4320 0.4744 0.5567

30 0.3059 0.3620 0.4251 0.4665 0.5479

Lähde: Glasser, GJ and Winter RF.Critical Values of the Coefficient ofRank Correlation for Testing the Hy-pothesis of Indepence. Biometrika48:444-448, 1961.

Huom. Taulukon lukuihin sisältyykorjaustekijä (Conover WJ. Practi-cal Nonparametric Statistics. JohnWiley and Sons, 1971), mikä selit-tää poikkeaman Siegelin kirjassa esi-tettyihin kriittisiin arvoihin.