Analiza podataka opreživljavanju (vremena donastajanja izabranog događaja- ishoda)
Jelena Marinković
Institut za medicinsku statistiku i informatikuFebruar, 2012.g.
Pregled
Šta je analiza preživljavanja? Terminologija i struktura podataka. Funkcije gustine verovatnoća,
preživljavanja i hazarda. Statističke metode analize
preživljavanja. Kaplan-Meierov metod i log-rank test.
Primer analize preživljavanja,1669.
Christiaan Huygens je 1669. godineovom funkcijom izračunao koliko ćeosoba na svakih 100 osoba doživeti86 godina.Izvor: Howard Wainer STATISTICAL GRAPHICS: Mapping thePathways of Science. Annual Review of Psychology. Vol. 52: 305-335
Primer analize preživljavanja,1669 (2)
Kog oblika je ovafunkcija?
Kolika je bila šansaosobe da preživi višeod 20 godina? Više od36? Ovo je analiza preživljavanja!
Pokušavamo da procenimofunkciju—samo što ishodmože biti bilo koji binarnidogađaj, a ne samo smrt.
Analiza preživljavanja - koreni
Edmund Halley , 17-ti vek Aktuarska analiza, tablice
preživljavanja, analiza tablicapreživljavanja
Mortalitetne tablice i očekivano trajanježivota
Šta je analiza preživljavanja?
Statističke metode za analizu longitudinalnihpodataka o pojavljivanju događaja odinteresa.
Događaji uključuju: smrti, povrede,razboljevanje, oporavak, tranziciju kavrednostima ispod ili iznad zadatog pragavažnih kontinuiranih varijabli (npr. broj CD4).
Adekvatna za analizu podataka izrandomizovanih kliničkih ogleda ili kohorti.
Randomizovani klinički ogled (RKO)
Ciljanapopulacija
Intervencija
Kontrole
Bolest
Bez bolesti
Bolest
Bez bolesti
VREME
Randomizacija
Bez bolesti,kohortaispitanika podrizikom
Ciljanapopulacija
Tretman
Kontrole
Izlečeni
Neizlečeni
Izlečeni
Neizlečeni
VREME
Randomizacija
Populacijapacijenata
Randomizovani klinički ogled (RKO)
Ciljanapopulacija
Tretman
Kontrole
Mrtav
Živ
Mrtav
Živ
VREME
Randomizacija
Populacijapacijenata
Randomizovani klinički ogled (RKO)
Kohortna studija(prospektivna/retrospektivna)
Ciljanapopulacija
Ekspozicija
Bezekspozicije
Bolest
Bez bolesti
Bolest
Bez bolesti
VREME
Kohortaisptanika bezbolesti
Primeri analize preživljavanjau medicini
RKO: Women’s Health Initiative(JAMA, 2001)
Hormoni
PlaceboKumulativnaincidencija
Koronarna bolest
Retrospektivna kohortna studija:Decembar 2003 BMJ:Aspirin, ibuprofen, and mortality after myocardialinfarction: retrospective cohort study
Ocena vremena-do-događaja (time-to-event)za grupu ispitanika, na primer vreme doreinfarkta grupe pacijenata sa IM.
Poređenje vremena-do-događaja između dveili više grupa ispitanika, na primer tretirani vs.placebo pacijenti sa IM u randomizovanomkliničkom ogledu.
Procena povezanosti kovarijati sa vremenom-do-događaja , na primer: da li su telesna masa,insulinska rezistencija ili holesterol povezani savremenom preživljavanja pacijenata sa IM?Primedba: očekivano vreme-do-događaja = 1/incidencija
Ciljevi analize preživljavanja
Zašto koristiti analizu preživljavanja?
1. Zašto ne porediti prosečno vreme-do-događaja između dve grupeprimenom t-testa ili linearne regresije?
-- ignorisanje cenzorisanja!!!!!!2. Zašto ne porediti proporcije događaja
u grupama primenom unakrsnogodnosa šansi (odds ratio) ili logističkeregresije?
--ignorisanje vremena!!!!!
Analiza preživljavanja: Termini
Vreme-do-događaja (time-to-event):Vreme od ulaska u studiju donastupanja specifičnog ishoda
Cenzorisanje (censoring): Ispitanik jecenzorisan kada je ili izgubljen zapraćenje, isključen iz studije ili ako jestudija završena pre nego što je razviodogađaj od interesa.
Struktura podataka: analizapreživljavanja
Ishod je dvodimenzionalan, dve varijable: Vremenska varijabla: ti = vreme do
kada je osoba bez događaja ili vremenastupanja događaja
Cenzorska varijabla: ci =1 ako jenastupio događaj; ci =0 nemadogađaja do vremena ti
Desno cenzorisanje (T>t)
Uobičajeni primeri Završetak istraživanja Smrt usled nekog drugog razloga koji nije
događaj od interesa Izgubljen za praćenje
Znamo da je osoba preživela bar dovremena t.
Izbor početka merenja vremena.
Desno cenzorisanje!
Ishodna varijabla
Binarni ishod i vreme do njegoverealizacije.
Da li su svi umrli ili ne? Ako nisu, imamo cenzorisane podatke. Da li su svi ušli u studiju u isto vreme? Ako nisu imamo progresivno
cenzorisane podatke.
Raspodele preživljavanja
Ti - vreme do nastupanja događaja jeslučajna varijabla sa odgovarajućomraspodelom verovatnoća
Različite metode za analizupreživljavanja određene su tipomraspodele za Ti.
Primer…
Podsetimo se ovog grafika.
Da li liči na normalnu ilieksponencijalnu raspodelu?
Funkcije vremenapreživljavanja
Funkcija gustine verovatnoća f(t) Funkcija preživljavanja S(t) P(osoba preživi duže od t) ocena je = broj pacijenata koji preživi
duže od t / ukupan broj pacijenata Funkcija hazarda H(t)
Funkcija gustine verovatnoća:f(t)
Ljudski vek - Ti će malo verovatno slediti normalnuraspodelu. Zašto?
Ljudi imaju najveću verovatnoćuumiranja u 70-tim i 80-timgodinama;
ALI umaju manju šansuumiranja u 90 i 100, jer malibroj ljudi živi dovoljno dugo dabi umro u ovim godinama.
Funkcija gustine verovatnoća: f(t)
Verovatnoća neuspeha u određenomvremenu t (od svih mogućih vremena t).
tttTtPtf
t
)(lim)(0
Funkcija preživljavanja: 1-F(t)
Cilj analize preživljavanja je da oceni i poredi preživljavanjerazličitih grupa ispitanika.
Preživljavanje se ocenjuje / opisuje kumulativnom funkcijompreživljavanja:
)(1)(1)( tFtTPtS
Primer: Ako je t=100 godina, S(t=100) =verovatnoća preživljavanja iznad 100 godina.
F(t) je KF od f(t),i “zanimljivija” jeod f(t).
Kumulativno preživljavanje
Podsetitise fgv:
Kumulativno preživljavanje
P(T>80)
P(T>20)
Funkcija hazarda
GODINEStopa hazarda je trenutna stopaincidencije.
Funkcija hazarda
ttTttTtPth
t
)/(lim)(0
Rečima: verovatnoća da ako se preživi do t, već usledećem trenutku događaj će se desiti.
)()((t):survivalanddensityfromHazardtStfh
Hazard vs gustina veroavtnoća
Ideja je: Pri rođenju postoji određena verovatnoća
umiranja u bilo kojim godinama; to jegustina verovatnoća Primer: žena koja se danas rodi, ima recimo 1%
šansu da će umreti u 80-toj godini. Međutim, ako osoba preživi već neko
vreme, verovatnoće umiranja će se stalnomenjati Primer: žena koja danas ima 79 godina, ima 5%
šanse da će umreti u 80-toj godini.
Metode I
Određivanje funkcija: Kaplan - Meier-ova metoda Tablice preživljavanja
Poređenje funkcija: Logrank test Mantel-Haenszel-ov tes Gehanov Generalizovani Wilcoxon-ov test
Metode II Identifikacija faktora rizika povezanih
sa binomnim ishodima: Linearna diskriminaciona funkcija Logistički regresioni metod
Identifikacija prognostičkih faktorapovezanih sa vremenompreživljavanja: Cox-ov proporcionalni hazardni
regresioni model Parametarske regresione metode
Kaplan - Meierova metoda iLogrank test
Početak studije Kraj studije Vreme u mes.
Subjekat B
Subjekat A
Subjekat C
Subjekat D
Subjekat E
Kaplan-Meier / neparametarskaocena funkcije preživljavanja
1. subjekat E umro jeu 4 mesecu
X
100%
Vreme u mes.
Odgovarajuća Kaplan-Meierova kriva
Verovatnoćapreživljavanja do4 meseca je 100%= 5/5
Frakcija kojaje preživelaovu smrt = 4/5
Subjekat E umire u 4mesecu
Početak studije Kraj studije Vreme u mes.
Subjekat B
Subjekat A
Subjekat C
Subjekat D
Subjekat E
Podaci o preživljavanju2. subjekt Aisključen posle6 meseci
1. subjekt E umire u4 mesecu
X
3. subjekt Cumire u 7mesecu
X
100%
Vreme u mes.
Odgovarajuća Kaplan-Meierovakriva
subjekat Cumire 7 mes.
Frakcija kojapreživi ovusmrt = 2/3
Početak studije Kraj studije Vreme u mes.
Subjekt B
Subjekat A
Subjekt C
Subjekt D
Subjekt E
Podaci o preživljavanju2. subjekt Aisključenposle 6 mes.
4. Subjekti B iDpreživljavajuceojednogodišnjiperiod
1. subjekt E umire u4 mesecu
X
3. subjekt Cumire u 7 mes.X
100%
Vreme u mes.
Odgovarajuća Kaplan-Meierova kriva
Ocena preživljavanja =P(preživi interval 1/u riziku do prvog događaja 1) *P(preživi interval 2/u riziku do drugog događaja 2)= 4/5 * 2/3= .5333
Metod ocenjivanja je “productlimit method”
Verovatnoća preživljavanja celegodine, uračunavajući cenzorisane je
= (4/5) (2/3) = 53% Verovatnoća preživljavanja, a da nema
cenzorisanih bila bi jednostavna= (3/5) = 60%
Kaplan-Meierova kriva
Time (months) to conception or censoring in 38 sub-fertile women after laparoscopy and hydrotubation
Conceived Did not conceive
1 2
1 3
1 4
1 7
1 7
1 8
2 8
2 9
2 9
2 9
2 11
3 24
3 24
3
4
4
4
6
6
9
9
9
10
13
16
Pažnja!
Ocene preživljavanja postajunepouzdane pri kraju studija kada jebroj osoba pod rizikom da dobijudogađaj mali.
WHI i rak dojke
Malibrojevi
Poređenje 2 grupe
Koristi se log-rank test / nulta hipoteza o nepostojanju značajnihrazlika između dve funkcije preživljavanja
Kaplan-Meier: primer
Istraživači su randomizovali 44 pacijentasa aktivnim hroničnim hepatitisom ugrupe koje su primale ili prednisolon ilisu bile bez ikakvog tretmana, a potom suporedili njihove funkcije preživljavanja.
Primer iz BMJ 1998;317:468-469 ( 15 August )
Prednisolon (n=22) Kontrole (n=22)
2 26 312 454 756 * 1068 2289 2896 2996 32125* 37128* 40131* 41140* 54141* 61143 63145* 71146 127*148* 140*162* 146*168 158*173* 167*181* 182*
BMJ 1998;317:468-469 ( 15 August ) *=cenzorisani
Vremena preživljavanja (meseci) 44 pacijenta sa hroničnim aktivnim hepatitisom randomizovaniu grupe na prednisolonu ili bez tretmana.
Kaplan-Meier: primer
Da li su ove dve kriveznačajno različite?
Pogrešna konvergencija nakraju studije. Posledica je 6kontrola koje su preživeledovoljno dugo i 3 događaja ugrupi sa tretmanom kada jeveličina uzorka mala.
Veliki pad na kraju kriveposledica je malog brojapreostalih pacijenata.t.j., samo je 2/3 (66%)preživelo ovaj pad.
Log-rank test
Test of Equality over Strata
Pr >Test Chi-Square DF Chi-Square
Log-Rank 4.6599 1 0.0309Wilcoxon 6.5435 1 0.0105-2Log(LR) 5.4096 1 0.0200
Likelihood Ratio test nije u ovomslučaju idealan jer pretpostavljaeksponencijalnu raspodelu(konstantni hazard).
Wilcoxon je samo verzija log-rank testa koja uključuje težinustratuma po njihovoj veličini(dajući veću težinu ranijemvremenu).
Log-rank test ima najveću moć.
Grupe se značajno različito ponašaju.
Ocenjena –log(S(t))
Aproksimacija h(t)
Još jedan grafik …
log(-log(S(t))=
log(kumulativnog hazarda)
Ako su krive grupaparalelne, ona dupretpostavke oproporcionalnosti hazardaispunjene.
Neophodne pretpostavkeza računanje HazardnogOdnosa.
Ograničenja Kaplan-Meierove metode
• Uglavnom deskriptivan• Nema kontrole kovarijata• Zahteva kaegorijalne prediktore• Nema mogućnosti uključenja varijabli
koje su vremenski zavisne
Top Related