Upprepade mätningar och tidsberoende analyser · Disclaimer • Statistisk modellering av...

Upprepade mätningar och

tidsberoende analyser

Stefan Franzén StatistikerRegistercentrum Västra Götaland

Innehåll

• Stort område…• Simpsons paradox• En mätning per individ • Flera mätningar per individ• Flera mätningar per individ och en endpoint• (Mediering) • (Tidsberoende confounding)• (Anscombs Kvartett)

Disclaimer

• Statistisk modellering av upprepade mätningar och tidsberoende data är svårt

• Viktiga detaljer saknas

• Rådfråga en statistiker!

Krossektionella data

Upprepade mätningar

Upprepade mätningar och utfall

Simpsons paradox

BMI

Kalendertid

Vi har ett antal observationer på BMI från ett register

Det ser ut som om BMI minskar över tid

Simpsons paradox

BMI

Kalendertid

Vi har ett antal observationer på BMI från ett register

Det ser ut som om BMI minskar över tid

Men vi hade glömt att vi har två mätningar per individ

BMI ökar för alla individer!

Vem kommer med i registret?

Modeller för variation inom och mellan individer

utfall

utfallSystematisk

modell mellan individer

Slumpmodell mellan

individer

Systematisk modell inom

individ

Slumpmodell inom individ

Systematisk modell mellan

individer

Slumpmodell mellan

individer=

=

+

+ + +

En mätning per individ

Flera mätningar per individ

En observation per individ

En grupp:

Flera grupper:

Regression:

𝑙𝑜𝑔 𝑦𝑖 = 𝜇 + 𝜀𝑖

𝑦𝑖𝑗 = 𝜇𝑗 + 𝜀𝑖𝑗

𝑦𝑖 = 𝛼 + 𝛽𝑥𝑖 + 𝜀𝑖

𝑖 = 1,… , 𝑛

𝜀𝑖𝑗~𝑁 0, 𝜎2

𝑗 = 1, 2

𝑖 = 1,… , 𝑛


𝑖 = 1,… , 𝑛


Varför ha flera observationer på en individ?

Man vill precisionen

• Medelvärde per individer• Skillnad innom individer

Man vill följan en individ över tid

• Uppföljning• Övervakning• Tid till händelse

Flera observationer per individ

10 patienter 1 mätning innan behandling4 mätningar under behandling

0

0,5

1

1,5

2

2,5

3

baseline 1 week 2 weeks 3 weeks 4 weeks

LDL (mg/DL)

Analysstrategier:

• Ldl vid 4v.• Förändring från baseline vid 4 v.• Med baseline som kovariat• Linjär regression• Individuella regressioner• Icke linjär modell• Mixad ickelinjär modell• Mixed repeated measures models

G.E.P. Box:

All models are wrong, but some models are useful

Förenkla till 2 observationer per individ

Mätning av ldl före och efter behandling

baseline 4 veckor2.84 2.08

2.54 1.321.94 1.49

1.4 1.22

2.1 1.35

2.42 1.94

2.47 2.612.53 1.821.99 1.921.85 1.99 0

0,5

1

1,5

2

2,5

3

baseline 4 weeks

LDL (mg/DL)

Om variation

Vi kan dela upp variationen inom och mellan individer

𝑌𝑖𝑗 = 𝜇 + 𝜉𝑖 + 𝜀𝑖𝑗i=1,2 : individj=1,2 : mätning

Fix effekt

Random effekt 𝜉𝑖~𝑁 0, 𝜏2

𝜖𝑖𝑗~𝑁 0, 𝜎2 oberoende

𝜉1, 𝜉2 fixed

1 vecka 2 veckor

𝜉1𝜇

𝜀11

Individ 1

Individ 2

Det finns en korrelation 𝜏2

𝜎2+𝜏2 mellan mätningar

på samma individ

2 observationer per individ

När lönar det sig att beräkna differenser inom individer?

𝑋𝑖𝑗 = 𝜇 + 𝛾𝑇 + 𝜉𝑖 + 𝜀𝑖𝑗

Individeffekt ~𝑁 0, 𝜏2

modellfel ~𝑁 0, 𝜎2

Varians för ett värde efter behandling

𝑉𝑎𝑟 𝑋𝑖2 = 𝜏2 + 𝜎2

Varians för skillnaden efter jämfört med före behandling

𝑉𝑎𝑟 𝑋𝑖2 − 𝑋𝑖1 = 2∗𝜎2

Skillnad inom individ är bra om variansen inom individer är större än variansen mellan individer

0

0,5

1

1,5

2

2,5

3

baseline 4 weeks

LDL (mg/DL)

Förenkla till 2 observationer per individ

Mätning av ldl före och efter behandling

baseline 4 veckor difference2.84 2.08 -0.76

2.54 1.32 -1.221.94 1.49 -0.45

1.4 1.22 -0.18

2.1 1.35 -0.75

2.42 1.94 -0.48

2.47 2.61 0.142.53 1.82 -0.711.99 1.92 -0.071.85 1.99 0.14 0

0,5

1

1,5

2

2,5

3

baseline 4 weeks

LDL (mg/DL)

𝜎 = 0.44 𝜎 = 0.43

Här vinner man inget på att räkna differenser!


00,5

11,5

22,5

3

LDL (mg/DL)

0 1 2 3 4

Modell: 𝑌𝑖𝑗 = 𝛼 + 𝛽𝑇 ∗ 𝑡 + 𝜀𝑖𝑗

• En linje per grupp• Samma intercept• Olika lutning


t


00,5

11,5

22,5

3

LDL (mg/DL)

0 1 2 3 4

Modell: 𝑌𝑖𝑗 = 𝛼𝑇 + 𝛽𝑇 ∗ 𝑡 + 𝜀𝑖𝑗

• En linje per grupp• Olika intercept• Olika lutning


t


00,5

11,5

22,5

3

LDL (mg/DL)

0 1 2 3 4

• En linje per individ

𝜇 + 𝜉𝑖𝑖

Modell: 𝑌𝑖𝑗 = 𝜇 + 𝜉𝑖 + 𝛽𝑇 ∗ 𝑡 + 𝜀𝑖𝑗

t


00,5

11,5

22,5

3

LDL (mg/DL)

0 1 2 3 4• En linje per individ• Individuella intercept• Lutning per behandling

𝜉𝑖~𝑁 0, 𝜏2


Modell: 𝑌𝑖𝑗 = 𝜇 + 𝜉𝑖 + 𝛽𝑇 ∗ 𝑡 + 𝜀𝑖𝑗

t

Exempel på modeller


00,5

11,5

22,5

3

LDL (mg/DL)

0 1 2 3 4

Modell: 𝑌𝑖𝑗 = 𝑦0𝑒𝐴

𝛼1−𝑒−𝛼𝑡

+ 𝜀𝑖𝑗

• En linje per individ• Olika parametrar• Tolkningsbarhet!

t


Mixade generaliserade linjära modeller

Exempel: Upprepade mätningar på fysisk aktivitet

𝑌𝑖𝑗 ∈ 0,1

𝑙𝑜𝑔𝑖𝑡 𝑃 𝑌𝑖𝑗 = 1 = 𝜇 + 𝜉𝑖 + 𝜏 + 𝜖𝑖𝑗

Funkar kanske inte så bra på rökning….

…eftersom variationen inom en individ ofta är mycket liten.


𝜉𝑖~𝑁 0, 𝜏2

Mixade ickelinjära modeller

Tillväxt av en tumör

Ibland är det inte realistiskt att ha linjära modeller

Det finns en undre (noll) övre gräns för tumörens storlek

𝑦𝑖𝑗 =𝑏1 + 𝜇1𝑖

1 + 𝑒𝑥𝑝 − 𝑡𝑖𝑗 − 𝑏2 𝑏3

+ 𝜀𝑖𝑗

𝜇1𝑖~𝑁 0, 𝜎𝑢2

𝜀𝑖𝑗~𝑁 0, 𝜎𝜀2 • Mixade ickelinjära modeller är notoriskt

besvärliga.• Man måste nog kontrollera att beräkningen

konvergerat. • Kan vara känsligt för startvärden…

Mixed repeated measure model

Korrelationen inom en individ kan se olika ut

Korrelationen är samma mellan alla värden – de kommer från samma individ

Korrelationen är mellan näraliggande värden är stark

Individ i

Individ i

Man kan modellera korrelationsstrukturen!

Upprepade mätningar och tid till händelse

Tid-till-händelse-data

Vi mäter tiden till en händelse för att kunna uttala oss om risk

Observationerna är inte alltid kompletta - censurering

Tid

Censurering Händelse Oobserverad händelse

Pati

ente

r

33168 njursjuka NDR-patienter

Median uppföljning: 5.15 år

SBP, DBP, HbA1c, Hdl, Ldl, BMI

Endpoint: Död

Ett exempel från NDR

Frågeställning: hur påverkar SBP (exempelvis) risken att dö?

Upprepade mätningar på SBP

Enkel analys, Kaplan-Meier

Ofta ignorerar man alla mätningar på den förklarande variabeln, utom den första

Vi har tid till död eller censurering och baseline blodtryck

De med högt (>140) SBP verkar ha högst risk att dö

Hur modellera sambandet?

Ibland jämför man värde för de med event med värdena för de som inte fick event under uppföljningen

Problematiskt pga censurering

prediktorer utfall

Utfall=f(prediktorer)

Hur modellera sambandet?

Hur beror risken för död på de förklarande variablerna?

Lättast: Första mätningen

Fel: Genomsnitt av alla mätningar !! får ej se framåt i tiden !!

lite knepigare: Senaste mätningen

Coxregression!

Eller Coxregression

𝜆 𝑡 = 𝜆0 𝑡 𝑒𝑥𝑝 𝛽′𝑋

När någon dör så jämförs dennes värde (här vid baseline) med värdena för de (andra) som fortfarande lever

Oftas har den som dör högt SBP i förhållande till de andra som ännu lever

SBP

Tid från index

Tids uppdaterade värden på SBP

I stället för att använda värdet på SBP vid index kan vi använda senaste värdet

𝜆 𝑡 = 𝜆0 𝑡 𝑒𝑥𝑝 𝛽′𝑋 𝑡

Vi försöker förklara risken att dö med ”det nuvarande” värdet på SBP

Vi skulle kunna använda det tidsuppdaterade medelvärdet

Det tiduppdaterade värdet är inte alltid aktuellt…

Vi vill jämföra värdet för den som dött med de senaste värdena på alla andra som ännu inte dött

I praktiken har vi ofta inte så många mätningar så den senaste kan vara ganska gammal

Det tiduppdaterade värdet är inte alltid aktuellt…

Vi vill jämföra värdet för den som dött med de senaste värdena på alla andra som ännu inte dött

I praktiken har vi ofta inte så många mätningar så den senaste kan vara ganska gammal

Det blir lätt LVCF…

Senaste värdet kan var problematiskt

Den senaste mätningen av en förklarande variabel i en Coxregression kan vara påverkad av confounding

Exempel

Cancer kan leda till hastig viktnedgång

Ett BMI tätt innan en diagnos kan varpåverkat av cancern

Vi kan skippa senaste värdet, men hur blirdet för individer vid risk?

Vi vill studera BMI som riskfaktor för cancer

Man får inte använda framtida värden

Ibland används medelvärdet av samtliga mätningar av en förklarande variabel i en Coxregression

Det kan leda till systematiska fel.

Man får bara titta bakåt i tiden!

Varför är det fel att använda medelvärdet av alla mätnignar?

Vid varje händelse fås ett bidrag till analysen där den aktuella personens värde jämförs med alla som ännu är vid risk

Om det finns en underliggande trend (ex BMI ökar med ålder) så påverkas analysen av framtida värden

Kan ge systematiska fel!

Att justera för confounders

En Coxregression används ofta för att ”justera” en jämförelse för potentiella confounders

Man antar då en viss specifik loglinjär relation mellan varje confounder och utfallet.

Så är inte alltid fallet…

Allt är inte som man tror

Ålder BMI SBP

HbA1c Kreatinin Diabetesduration

Post index medierande variabler

Exponering

Mediering

Utfall

Exempel:

Exponering: gastric bypassMediering : BMI över tidUtfall: (tid till) dödAnalysmodell: coxregression

Vad händer om vi har med post index BMI i en analysmodell?

Causal mediation analysis

X

M

Y

Y(x,M(x)) = utfallet* som observeras om vi sätter X=x och den mediatorn tar vädet M(x) dom den naturligt tar om X sätts till x

Naturlig Direkt effekt: = Y(x,M(x)) –Y(x*,M(x))

Naturlig Indirekt effekt: = Y(x*,M(x)) –Y(x*,M(x*))

Total effekt: = Y(x,M(x)) –Y(x*,M(x*))

Teori, SAS och R-kod finns (T Lange)

Exponering som ändras över tid - tidsberoende confounding

Exponering

Mediering

Utfall

Exempel:Exponering: behandling för blodtryckMediering: blodtryckUtfall: (tid till) död

En behandling ger ett tryck som i sin tur leder till en ändring av behandling

Summering

Modellera variation mellan och inom individer

Enkelt är bra!

Överlevnadsanalys kopplar förklarande variabler till risk

Man kan bara se bakåt

Backup

Anscoms kvartett

Om vikten av att plotta data

X1 Y1 X2 Y2 X3 Y3 X4 Y4

10.0 8.04 10.0 9.14 10.0 7.46 8.0 6.58

8.0 6.95 8.0 8.14 8.0 6.77 8.0 5.76

13.0 7.58 13.0 8.74 13.0 12.74 8.0 7.71

9.0 8.81 9.0 8.77 9.0 7.11 8.0 8.84

11.0 8.33 11.0 9.26 11.0 7.81 8.0 8.47

14.0 9.96 14.0 8.10 14.0 8.84 8.0 7.04

6.0 7.24 6.0 6.13 6.0 6.08 8.0 5.25

4.0 4.26 4.0 3.10 4.0 5.39 19.0 12.5

12.0 10.84 12.0 9.13 12.0 8.15 8.0 5.56

7.0 4.82 7.0 7.26 7.0 6.42 8.0 7.91

5.0 6.68 5.0 4.74 5.0 5.73 8.0 6.89

Abscombe ”Graphs in statistical analysis” The American Statistician 1973

Anscoms kvartett


X1 Y1 X2 Y2 X3 Y3 X4 Y4

10.0 8.04 10.0 9.14 10.0 7.46 8.0 6.58

8.0 6.95 8.0 8.14 8.0 6.77 8.0 5.76

13.0 7.58 13.0 8.74 13.0 12.74 8.0 7.71

9.0 8.81 9.0 8.77 9.0 7.11 8.0 8.84

11.0 8.33 11.0 9.26 11.0 7.81 8.0 8.47

14.0 9.96 14.0 8.10 14.0 8.84 8.0 7.04

6.0 7.24 6.0 6.13 6.0 6.08 8.0 5.25

4.0 4.26 4.0 3.10 4.0 5.39 19.0 12.5

12.0 10.84 12.0 9.13 12.0 8.15 8.0 5.56

7.0 4.82 7.0 7.26 7.0 6.42 8.0 7.91

5.0 6.68 5.0 4.74 5.0 5.73 8.0 6.89

9.0 7.5 9.0 7.5 9.0 7.5 9.0 7.5

medelvärde


Y1=3+0.5X1

Y2=3+0.5X2

Y3=3+0.5X3

Y4=3+0.5X4

Sum of squares x-x=110.0Regression of of squares=27.5Residual sum of squares=13.75Degrees of freedom=9Estimated standard error=0.118R2=0.677

Anpassa en regression per individ

Ingen skillnad!


0

2

4

6

8

10

12

0 2 4 6 8 10 12 14 16

Y1 mot X1

0

2

4

6

8

10

0 2 4 6 8 10 12 14 16

Y2 mot X2

0

2

4

6

8

10

12

14

0 2 4 6 8 10 12 14 16

Y3 mot X3

0

2

4

6

8

10

12

14

0 5 10 15 20

Y4 mot X4

Upprepade mätningar och tidsberoende analyser · Disclaimer • Statistisk modellering av...

Documents

Transcript of Upprepade mätningar och tidsberoende analyser · Disclaimer • Statistisk modellering av...