Upprepade mätningar och tidsberoende analyser · Disclaimer • Statistisk modellering av...
Transcript of Upprepade mätningar och tidsberoende analyser · Disclaimer • Statistisk modellering av...
Upprepade mätningar och
tidsberoende analyser
Stefan Franzén StatistikerRegistercentrum Västra Götaland
Innehåll
• Stort område…• Simpsons paradox• En mätning per individ • Flera mätningar per individ• Flera mätningar per individ och en endpoint• (Mediering) • (Tidsberoende confounding)• (Anscombs Kvartett)
Disclaimer
• Statistisk modellering av upprepade mätningar och tidsberoende data är svårt
• Viktiga detaljer saknas
• Rådfråga en statistiker!
Krossektionella data
Upprepade mätningar
Upprepade mätningar och utfall
Simpsons paradox
BMI
Kalendertid
Vi har ett antal observationer på BMI från ett register
Det ser ut som om BMI minskar över tid
Simpsons paradox
BMI
Kalendertid
Vi har ett antal observationer på BMI från ett register
Det ser ut som om BMI minskar över tid
Men vi hade glömt att vi har två mätningar per individ
BMI ökar för alla individer!
Vem kommer med i registret?
Modeller för variation inom och mellan individer
utfall
utfallSystematisk
modell mellan individer
Slumpmodell mellan
individer
Systematisk modell inom
individ
Slumpmodell inom individ
Systematisk modell mellan
individer
Slumpmodell mellan
individer=
=
+
+ + +
En mätning per individ
Flera mätningar per individ
En observation per individ
En grupp:
Flera grupper:
Regression:
𝑙𝑜𝑔 𝑦𝑖 = 𝜇 + 𝜀𝑖
𝑦𝑖𝑗 = 𝜇𝑗 + 𝜀𝑖𝑗
𝑦𝑖 = 𝛼 + 𝛽𝑥𝑖 + 𝜀𝑖
𝑖 = 1,… , 𝑛
𝜀𝑖𝑗~𝑁 0, 𝜎2
𝑗 = 1, 2
𝑖 = 1,… , 𝑛
𝜀𝑖𝑗~𝑁 0, 𝜎2
𝑖 = 1,… , 𝑛
𝜀𝑖𝑗~𝑁 0, 𝜎2
Varför ha flera observationer på en individ?
Man vill precisionen
• Medelvärde per individer• Skillnad innom individer
Man vill följan en individ över tid
• Uppföljning• Övervakning• Tid till händelse
Flera observationer per individ
10 patienter 1 mätning innan behandling4 mätningar under behandling
0
0,5
1
1,5
2
2,5
3
baseline 1 week 2 weeks 3 weeks 4 weeks
LDL (mg/DL)
Analysstrategier:
• Ldl vid 4v.• Förändring från baseline vid 4 v.• Med baseline som kovariat• Linjär regression• Individuella regressioner• Icke linjär modell• Mixad ickelinjär modell• Mixed repeated measures models
G.E.P. Box:
All models are wrong, but some models are useful
Förenkla till 2 observationer per individ
Mätning av ldl före och efter behandling
baseline 4 veckor2.84 2.08
2.54 1.321.94 1.49
1.4 1.22
2.1 1.35
2.42 1.94
2.47 2.612.53 1.821.99 1.921.85 1.99 0
0,5
1
1,5
2
2,5
3
baseline 4 weeks
LDL (mg/DL)
Om variation
Vi kan dela upp variationen inom och mellan individer
𝑌𝑖𝑗 = 𝜇 + 𝜉𝑖 + 𝜀𝑖𝑗i=1,2 : individj=1,2 : mätning
Fix effekt
Random effekt 𝜉𝑖~𝑁 0, 𝜏2
𝜖𝑖𝑗~𝑁 0, 𝜎2 oberoende
𝜉1, 𝜉2 fixed
1 vecka 2 veckor
𝜉1𝜇
𝜀11
Individ 1
Individ 2
Det finns en korrelation 𝜏2
𝜎2+𝜏2 mellan mätningar
på samma individ
2 observationer per individ
När lönar det sig att beräkna differenser inom individer?
𝑋𝑖𝑗 = 𝜇 + 𝛾𝑇 + 𝜉𝑖 + 𝜀𝑖𝑗
Individeffekt ~𝑁 0, 𝜏2
modellfel ~𝑁 0, 𝜎2
Varians för ett värde efter behandling
𝑉𝑎𝑟 𝑋𝑖2 = 𝜏2 + 𝜎2
Varians för skillnaden efter jämfört med före behandling
𝑉𝑎𝑟 𝑋𝑖2 − 𝑋𝑖1 = 2∗𝜎2
Skillnad inom individ är bra om variansen inom individer är större än variansen mellan individer
0
0,5
1
1,5
2
2,5
3
baseline 4 weeks
LDL (mg/DL)
Förenkla till 2 observationer per individ
Mätning av ldl före och efter behandling
baseline 4 veckor difference2.84 2.08 -0.76
2.54 1.32 -1.221.94 1.49 -0.45
1.4 1.22 -0.18
2.1 1.35 -0.75
2.42 1.94 -0.48
2.47 2.61 0.142.53 1.82 -0.711.99 1.92 -0.071.85 1.99 0.14 0
0,5
1
1,5
2
2,5
3
baseline 4 weeks
LDL (mg/DL)
𝜎 = 0.44 𝜎 = 0.43
Här vinner man inget på att räkna differenser!
Flera observationer per individ
00,5
11,5
22,5
3
LDL (mg/DL)
0 1 2 3 4
Modell: 𝑌𝑖𝑗 = 𝛼 + 𝛽𝑇 ∗ 𝑡 + 𝜀𝑖𝑗
• En linje per grupp• Samma intercept• Olika lutning
𝜀𝑖𝑗~𝑁 0, 𝜎2
t
Flera observationer per individ
00,5
11,5
22,5
3
LDL (mg/DL)
0 1 2 3 4
Modell: 𝑌𝑖𝑗 = 𝛼𝑇 + 𝛽𝑇 ∗ 𝑡 + 𝜀𝑖𝑗
• En linje per grupp• Olika intercept• Olika lutning
𝜀𝑖𝑗~𝑁 0, 𝜎2
t
Flera observationer per individ
00,5
11,5
22,5
3
LDL (mg/DL)
0 1 2 3 4
• En linje per individ
𝜇 + 𝜉𝑖𝑖
Modell: 𝑌𝑖𝑗 = 𝜇 + 𝜉𝑖 + 𝛽𝑇 ∗ 𝑡 + 𝜀𝑖𝑗
t
Flera observationer per individ
00,5
11,5
22,5
3
LDL (mg/DL)
0 1 2 3 4• En linje per individ• Individuella intercept• Lutning per behandling
𝜉𝑖~𝑁 0, 𝜏2
𝜀𝑖𝑗~𝑁 0, 𝜎2
Modell: 𝑌𝑖𝑗 = 𝜇 + 𝜉𝑖 + 𝛽𝑇 ∗ 𝑡 + 𝜀𝑖𝑗
t
Exempel på modeller
Flera observationer per individ
00,5
11,5
22,5
3
LDL (mg/DL)
0 1 2 3 4
Modell: 𝑌𝑖𝑗 = 𝑦0𝑒𝐴
𝛼1−𝑒−𝛼𝑡
+ 𝜀𝑖𝑗
• En linje per individ• Olika parametrar• Tolkningsbarhet!
t
𝜀𝑖𝑗~𝑁 0, 𝜎2
Mixade generaliserade linjära modeller
Exempel: Upprepade mätningar på fysisk aktivitet
𝑌𝑖𝑗 ∈ 0,1
𝑙𝑜𝑔𝑖𝑡 𝑃 𝑌𝑖𝑗 = 1 = 𝜇 + 𝜉𝑖 + 𝜏 + 𝜖𝑖𝑗
Funkar kanske inte så bra på rökning….
…eftersom variationen inom en individ ofta är mycket liten.
𝜀𝑖𝑗~𝑁 0, 𝜎2
𝜉𝑖~𝑁 0, 𝜏2
Mixade ickelinjära modeller
Tillväxt av en tumör
Ibland är det inte realistiskt att ha linjära modeller
Det finns en undre (noll) övre gräns för tumörens storlek
𝑦𝑖𝑗 =𝑏1 + 𝜇1𝑖
1 + 𝑒𝑥𝑝 − 𝑡𝑖𝑗 − 𝑏2 𝑏3
+ 𝜀𝑖𝑗
𝜇1𝑖~𝑁 0, 𝜎𝑢2
𝜀𝑖𝑗~𝑁 0, 𝜎𝜀2 • Mixade ickelinjära modeller är notoriskt
besvärliga.• Man måste nog kontrollera att beräkningen
konvergerat. • Kan vara känsligt för startvärden…
Mixed repeated measure model
Korrelationen inom en individ kan se olika ut
Korrelationen är samma mellan alla värden – de kommer från samma individ
Korrelationen är mellan näraliggande värden är stark
Individ i
Individ i
Man kan modellera korrelationsstrukturen!
Upprepade mätningar och tid till händelse
Tid-till-händelse-data
Vi mäter tiden till en händelse för att kunna uttala oss om risk
Observationerna är inte alltid kompletta - censurering
Tid
Censurering Händelse Oobserverad händelse
Pati
ente
r
33168 njursjuka NDR-patienter
Median uppföljning: 5.15 år
SBP, DBP, HbA1c, Hdl, Ldl, BMI
Endpoint: Död
Ett exempel från NDR
Frågeställning: hur påverkar SBP (exempelvis) risken att dö?
Upprepade mätningar på SBP
Upprepade mätningar på SBP
Enkel analys, Kaplan-Meier
Ofta ignorerar man alla mätningar på den förklarande variabeln, utom den första
Vi har tid till död eller censurering och baseline blodtryck
De med högt (>140) SBP verkar ha högst risk att dö
Hur modellera sambandet?
Ibland jämför man värde för de med event med värdena för de som inte fick event under uppföljningen
Problematiskt pga censurering
prediktorer utfall
Utfall=f(prediktorer)
Hur modellera sambandet?
Hur beror risken för död på de förklarande variablerna?
Lättast: Första mätningen
Fel: Genomsnitt av alla mätningar !! får ej se framåt i tiden !!
lite knepigare: Senaste mätningen
Coxregression!
Eller Coxregression
𝜆 𝑡 = 𝜆0 𝑡 𝑒𝑥𝑝 𝛽′𝑋
När någon dör så jämförs dennes värde (här vid baseline) med värdena för de (andra) som fortfarande lever
Oftas har den som dör högt SBP i förhållande till de andra som ännu lever
SBP
Tid från index
Tids uppdaterade värden på SBP
I stället för att använda värdet på SBP vid index kan vi använda senaste värdet
𝜆 𝑡 = 𝜆0 𝑡 𝑒𝑥𝑝 𝛽′𝑋 𝑡
Vi försöker förklara risken att dö med ”det nuvarande” värdet på SBP
Vi skulle kunna använda det tidsuppdaterade medelvärdet
Det tiduppdaterade värdet är inte alltid aktuellt…
Vi vill jämföra värdet för den som dött med de senaste värdena på alla andra som ännu inte dött
I praktiken har vi ofta inte så många mätningar så den senaste kan vara ganska gammal
Det tiduppdaterade värdet är inte alltid aktuellt…
Vi vill jämföra värdet för den som dött med de senaste värdena på alla andra som ännu inte dött
I praktiken har vi ofta inte så många mätningar så den senaste kan vara ganska gammal
Det blir lätt LVCF…
Senaste värdet kan var problematiskt
Den senaste mätningen av en förklarande variabel i en Coxregression kan vara påverkad av confounding
Exempel
Cancer kan leda till hastig viktnedgång
Ett BMI tätt innan en diagnos kan varpåverkat av cancern
Vi kan skippa senaste värdet, men hur blirdet för individer vid risk?
Vi vill studera BMI som riskfaktor för cancer
Man får inte använda framtida värden
Ibland används medelvärdet av samtliga mätningar av en förklarande variabel i en Coxregression
Det kan leda till systematiska fel.
Man får bara titta bakåt i tiden!
Varför är det fel att använda medelvärdet av alla mätnignar?
Vid varje händelse fås ett bidrag till analysen där den aktuella personens värde jämförs med alla som ännu är vid risk
Om det finns en underliggande trend (ex BMI ökar med ålder) så påverkas analysen av framtida värden
Kan ge systematiska fel!
Att justera för confounders
En Coxregression används ofta för att ”justera” en jämförelse för potentiella confounders
Man antar då en viss specifik loglinjär relation mellan varje confounder och utfallet.
Så är inte alltid fallet…
Allt är inte som man tror
Ålder BMI SBP
HbA1c Kreatinin Diabetesduration
Post index medierande variabler
Exponering
Mediering
Utfall
Exempel:
Exponering: gastric bypassMediering : BMI över tidUtfall: (tid till) dödAnalysmodell: coxregression
Vad händer om vi har med post index BMI i en analysmodell?
Causal mediation analysis
X
M
Y
Y(x,M(x)) = utfallet* som observeras om vi sätter X=x och den mediatorn tar vädet M(x) dom den naturligt tar om X sätts till x
Naturlig Direkt effekt: = Y(x,M(x)) –Y(x*,M(x))
Naturlig Indirekt effekt: = Y(x*,M(x)) –Y(x*,M(x*))
Total effekt: = Y(x,M(x)) –Y(x*,M(x*))
Teori, SAS och R-kod finns (T Lange)
Exponering som ändras över tid - tidsberoende confounding
Exponering
Mediering
Utfall
Exempel:Exponering: behandling för blodtryckMediering: blodtryckUtfall: (tid till) död
En behandling ger ett tryck som i sin tur leder till en ändring av behandling
Summering
Modellera variation mellan och inom individer
Enkelt är bra!
Överlevnadsanalys kopplar förklarande variabler till risk
Man kan bara se bakåt
Backup
Anscoms kvartett
Om vikten av att plotta data
X1 Y1 X2 Y2 X3 Y3 X4 Y4
10.0 8.04 10.0 9.14 10.0 7.46 8.0 6.58
8.0 6.95 8.0 8.14 8.0 6.77 8.0 5.76
13.0 7.58 13.0 8.74 13.0 12.74 8.0 7.71
9.0 8.81 9.0 8.77 9.0 7.11 8.0 8.84
11.0 8.33 11.0 9.26 11.0 7.81 8.0 8.47
14.0 9.96 14.0 8.10 14.0 8.84 8.0 7.04
6.0 7.24 6.0 6.13 6.0 6.08 8.0 5.25
4.0 4.26 4.0 3.10 4.0 5.39 19.0 12.5
12.0 10.84 12.0 9.13 12.0 8.15 8.0 5.56
7.0 4.82 7.0 7.26 7.0 6.42 8.0 7.91
5.0 6.68 5.0 4.74 5.0 5.73 8.0 6.89
Abscombe ”Graphs in statistical analysis” The American Statistician 1973
Anscoms kvartett
Om vikten av att plotta data
X1 Y1 X2 Y2 X3 Y3 X4 Y4
10.0 8.04 10.0 9.14 10.0 7.46 8.0 6.58
8.0 6.95 8.0 8.14 8.0 6.77 8.0 5.76
13.0 7.58 13.0 8.74 13.0 12.74 8.0 7.71
9.0 8.81 9.0 8.77 9.0 7.11 8.0 8.84
11.0 8.33 11.0 9.26 11.0 7.81 8.0 8.47
14.0 9.96 14.0 8.10 14.0 8.84 8.0 7.04
6.0 7.24 6.0 6.13 6.0 6.08 8.0 5.25
4.0 4.26 4.0 3.10 4.0 5.39 19.0 12.5
12.0 10.84 12.0 9.13 12.0 8.15 8.0 5.56
7.0 4.82 7.0 7.26 7.0 6.42 8.0 7.91
5.0 6.68 5.0 4.74 5.0 5.73 8.0 6.89
9.0 7.5 9.0 7.5 9.0 7.5 9.0 7.5
medelvärde
Om vikten av att plotta data
Y1=3+0.5X1
Y2=3+0.5X2
Y3=3+0.5X3
Y4=3+0.5X4
Sum of squares x-x=110.0Regression of of squares=27.5Residual sum of squares=13.75Degrees of freedom=9Estimated standard error=0.118R2=0.677
Anpassa en regression per individ
Ingen skillnad!
Om vikten av att plotta data
0
2
4
6
8
10
12
0 2 4 6 8 10 12 14 16
Y1 mot X1
0
2
4
6
8
10
0 2 4 6 8 10 12 14 16
Y2 mot X2
0
2
4
6
8
10
12
14
0 2 4 6 8 10 12 14 16
Y3 mot X3
0
2
4
6
8
10
12
14
0 5 10 15 20
Y4 mot X4