Statistikk som “bevis”Kliniske prøvninger
HSTAT1101: 3. november 2004
Odd Aalen
Bevistyngde i statistiske materialer Kliniske prøvninger
kan ideelt sett trekke sikre slutninger om kausalitet
Epidemiologiske studier (cohort, case/control) slutninger om kausalitet er usikre
Hvorfor kliniske prøvninger?
Regresjonseffekten
Figuren viser naturlig forløp av en sykdom. Legen oppsøkes når tilstanden er dårlig, og en vil derfor forvente oppgang etterpå.
Bra
DårligTid
“Regression to the mean” - generell lovmessighet
Sir Francis Galton 1886: “regression towards mediocrity”
Spesielt høye eller lave observasjoner vil bli etterfulgt av mer normale velkjent i epidemiologi gjelder også rangering av institusjoner f.eks.
Kan gi feilslutninger Hvor mye av placebo-effekten er “regression to the
mean”?
Randomisert klinisk prøvning Regnes som gullstandarden Sentralt element: randomisering
(loddtrekning) Kan danne grunnlag for en logisk
uangripelig slutning om behandlingseffekt, dvs en slutning om kausalitet
To grupper følges parallellt, en får behandling A, den andre får behandling B
Brukes hyppigst Krever flere pasienter Det enkleste, og dermed minst sårbare
opplegg Forutsetter “equipoise” (vet ikke om ny
behandling er bedre). Ikke uproblematisk Etisk dilemma: Er det riktig å fordele
behandling ved randomisering?
Parallell-studier
Example
F. Zijlstra et al, The New England Journal of Medicine, 1999, 341, 1413-1419
Treatment of acute myocardial infarction. Comparing two treatments:streptokinase: medication dissolving blood
clotsangioplasty: inflating a tiny balloon in blood
vessel
Treatment of acute myocardial infarction Analyzed
by Cox model, adjusted hazard ratio 2.31
Propor-tionality?
Overkrysningsstudier
Overkrysningsstudier (“cross-over”): Alle pasienter får begge behandlinger
Brukes ved sykdom som varer over tid og er forholdsvis stabil
Krever et mindre antall pasienter Sårbar mot
overførings-effekter (“carry over effects”) periode-effekter frafall
Randomisering Variasjon (som kunne gitt systematisk skjevhet) gjøres om til tilfeldig
variasjon Parallellstudier: Variasjon mellom individer Overkrysn.studier: Variasjon innen individer
Variasjonens effekt kan dermed beregnes Komplett randomisering
Kan gi ujevne grupper Stratifisert randomisering
Særlig multisenter-studier: randomisering på hvert senter Blokk-randomisering
Blokker av typen: AABB ABAB ABBA BBAA BABA BAAB
Praktisk utføring: Dataprogrammer, tabeller over tilfeldige tall
Blindhet Randomiseringen sikrer et “rettferdig”
utgangspunkt Blindhet skal sikre at dette ikke ødelegges
under studiens gang. Helst dobbeltblindt opplegg
Blinding er et generelt eksperimentelt prinsipp (f.eks. blind vurdering av røntgenbilder eller prøver)
Frafall i klinisk prøvning Sitater fra forsøksprotokoller:
“Compliance utenfor 75%-125% av foreskrevet dose er eksklusjonsgrunn fra data-bearbeidingen”
“Pasienter som ikke følger den oppsatte prøvningsplanen, ekskluderes fra studien og skal straks erstattes av nye”
Er dette fornuftige strategier?
Frafall - Intention to treat-prinsippet
Frafall er problematisk hvis det har relasjon til behandlingen
Intention to treat-prinsippet: Sammenlikner grupper i hht randomisering, uansett om behandlingen ble gjennomførtForhindrer skjevhet pga frafall el. dårlig
“compliance”Kan være vanskelig å anvende pga mangelfull
informasjon
Fremskritt i medisinsk behandling Hvorfor er randomiserte kliniske prøvninger viktige: Fremskritt er ofte små - gjennombruddene sjeldne. Små effekter er likevel viktige hvis sykdommen rammer
mange Eksempel: Økning i fem års overlevelse fra 50% til 60% for en
kreftform ville være av stor betydning. Små effekter er vanskelig å oppdage
sårbare overfor “confounding” krever godt kontrollerte studier krever store studier
Effektene skal balanseres mot, kanskje alvorlige, bivirkninger
Eksempel: behandling etter hjerteinfarkt Studie publisert i tidsskriftet The Lancet 6. juli 1996 Bruk av d-sotalol vs placebo etter hjerteinfarkt. (d-
sotalol skulle forhindre arytmier som kan lede til plutselig død)
Planla å innrullere 6400 pasienter med nylig hjerteinfarkt.
Randomisert i to grupper (parallellstudie) Dobbeltblindt
Resultater Studien ble stoppet etter at 3121 pasienter var
inkludert Da var:
78 døde i behandlingsgruppen 48 døde i placebogruppen
Relativ risiko 1.65. Signifikant med P-verdi 0.005 Konklusjon: Det nye medikamentet øker risikoen
for at pasientene dør. Dette er en konklusjon om kausalitet som bare er mulig pga randomisering
Lærdommer Effekten kan gå i uventet retning Effekten kunne neppe vært oppdaget uten
i en randomisert klinisk prøvning Prøvningen ble stoppet tidlig
Meta-analyse Formål er å samle en rekke studier over
samme tema og “summere opp” deres bevistyngde.
Akilleshælen: Begrenset eller skjevt utvalg av studier. Skal helst ha alle studier
Resultater i Cochrane-databasen (“Evidence Based Medicine”) presenteres gjerne som meta-analyser
“Publication bias” Publiseringen av resultater fra kliniske forsøk
er selektiv: Større sjanse for å få publisert “signifikante”
resultater Seleksjon av gunstige resultater?
Skjevhet i litteraturen er dokumentert: behandlingers verdi overdrives
Kan motvirkes ved registrering av alle igangsatte kliniske prøvninger
Hvor stor skal studien være?
Effekt av tilfeldig variasjon neddempes når studiens størrelse øker
Studien må være så stor at det blir statistisk signifikante utslag når det er en klinisk viktig forskjell mellom behandlingene
Beregning av forsøksstørrelse er et essensielt element i planleggingen av studien
En stor nok studie er interessant også om den er negativ
Typer av feil
Type I feil: Å konkludere at en effekt er tilstede når den i virkeligheten ikke er der Probability: (sigifikansnivå) Kan f.eks. velge lik 5% eller 1%
Type II error: Å ikke oppdage en reell effekt Sannsynlighet: Styrke: 1- (sannsynlighet for å oppdage effekten) Kan f.eks. Velge styrke lik 80%
Beregning Beregning av forsøksstørrelse kan skje v. hj. a.
følgende formel fra læreboka, s. 208. Skal sammenlikne to grupper med antatte sannsynligheter p1 og p2.
np p p p
p pf
1 1 2 2
2 12
1 1( ) (
( )( , ))
Eksempler
To behandlinger mot kreft skal sammenliknes. Bedres overlevelsen?Anta fem års overlevelse med standard beh.
er 50%. En bedring til 70% ansees klinisk betydningsfull. Det kreves da 91 pasienter i hver gruppe
Bedring til 60%: det kreves 387 pasienter i hver gruppe
Presidential election in the U.S. in 1936
Candidates: Landon and Roosevelt The journal Literary Digest sent out 10 million questionnaires
based on readership lists of car owners telephone directories
2.4 mill. responded: 57% pro Landon, 43% pro Roosevelt George Gallup chose a sample of 50.000 people and asked
them about their preference: 56% pro Roosevelt Result of election: 62% pro Roosevelt
Top Related