TÖBBSZÖRÖS REGRESSZIÓS SZÁMÍTÁSOK II
description
Transcript of TÖBBSZÖRÖS REGRESSZIÓS SZÁMÍTÁSOK II
TÖBBSZÖRÖS REGRESSZIÓS SZÁMÍTÁSOK II
TÖBBSZÖRÖS LOGISZTIKUS REGRESSZIÓ
A többszörös modellek feltételezései
(assumptions) TÖBBSZÖRÖS LINEÁRIS
TÖBBSZÖRÖS LOGISZTIKUS
PROPRCIONÁLIS HAZARD ANALÍZIS
MIT MODELLEZÜNK? A függő változó átlaga A függő változó egyik értéke bekövetkezése esélyének (odds) temészetes logaritmusa (logit)
A relativ kockázat (hazard)
logaritmusa
A FOLYAMATOS FÜGGETLEN VÁLTOZÓK VISZONYA A FÜGGŐHÖZ (KIMENETELHEZ)
A függő változó átlaga lineárisan változhat több független változóval is
A függő változó logitja lineárisan változhat több független változóval is
A relatív hazard logaritmusa lineárisan változhat több független változóval is
A SKALARIS FÜGGETLEN VÁLTOZÓK VISZONYA A FÜGGŐHÖZ (KIMENETELHEZ)
A függő változó átlaga lineárisan változhat több független változó egységnyi változásával is
A függő változó logitja lineárisan változhat több független változó egységnyi változásával is
A relatív hazard logaritmusa lineárisan változhat több független változó egységnyi változásával is
A FÜGGŐ VÁLTOZÓ ELOSZLÁSA
Normális Binomiális Nincs meghatározva
Többszörös logisztikus regresszió
• Számszerűen (odds ratio formájában) fejezi ki az összefüggést egy független változó és egy dichotóm (beteg/nem beteg, férfi/nő, magas/nem magas, stb) függő változó között úgy, hogy ezt az összefüggést a többi független változóhoz illeszti (adjusted) tehát matamatikai módszerekkel a többi független változó hatását kiküszöböli. A cél általában a predikció.
Relatív rizikó (relative risk) , esély-arány (odds ratio)
• Példa: Az AIDS definiciójának megfelelő opportunista infekciók vagy tumorok előfordulása (továbbiakban röviden és helytelenül AIDS) előrehaladott HIV betegségben szenvedő betegekben. A betegeket folyamatosan két reverz transzkriptáz gátló szerrel kezelték, és két csoportra randomizálták. Az egyik csoport egy proteáz inhibitort (Ritonavir) is kapott, a másik csak placebot az alapkezelés mellett. 16 hétig regisztrálták az AIDS definiciójának megfelelő opportunista infekciók vagy tumorok előfordulását. (Cameron et al. Lancet 351, 543, 1998)
AIDS igen AIDS nem Ös s zes en
Ritonavir 119 (A) 424 (B) 543 (A+B)
Placebo 205 (C 342 (D) 547 (C+D)
Ös s zes en 324 (A+C) 766 (B+D) 1090(A+B+C+D)
Relatív rizikó
• Relatív rizikó: A/A+B osztva C/C+D-vel: a példában 119/543 osztva 205/547-el: 0.22/0.37=0.59 (95% CI: 0,48-0.71), tehát az AIDS kiejlõdésének a relatív kockázata a Ritonavírral kezelt csoportban csaknem a fele a szokásos kezelést kapott betegek kockázatának
Esély-arány (OR)• Először mindkét csoportban kiszámítjuk az esélyét
annak, hogy egy esemény, példánkban az AIDS kifejlődése, bekövetkezzen. Ez A/B, ill C/D, tehát példánkban 119/424=0.28, ill. 205/342=0.60. A két esély arány tehát A/B osztva C/D-vel, 0.28/0.60=0.47 (95% CI 0.33-0.67). Tehát a ritonavírrel is kezelt betegeknek az esélye arra, hogy bennük AIDS fejlõdjön ki. kevesebb, mint fele annak, amely a ritonavirrel nem kezelt betegek esetében áll fenn.
• EZ AZ ÖSSZEFÜGGÉS AZONBAN CSAK AKKOR IGAZ, HA A KÉT CSOPORT MÁS SZEMPONTBÓL NEM KÜLÖNBÖZIK EGYMÁSTÓL. HA IGEN: TÖBBSZÖRÖS LOGISZTIKUS REGRESSZIÓ VAGY MÁS HASONLÓ ELJÁRÁS ELVÉGZÉSE SZÜKSÉGES
exitus
148 75,9 75,9 75,9
47 24,1 24,1 100,0
195 100,0 100,0
,00
1,00
Total
ValidFrequency Percent Valid Percent
CumulativePercent
rehosp vagy halál
104 53,3 53,3 53,3
91 46,7 46,7 100,0
195 100,0 100,0
,00
1,00
Total
ValidFrequency Percent Valid Percent
CumulativePercent
nyha
39 20,0 20,0 20,0
64 32,8 32,8 52,8
69 35,4 35,4 88,2
23 11,8 11,8 100,0
195 100,0 100,0
1
2
3
4
Total
ValidFrequency Percent Valid Percent
CumulativePercent
anamn_dm
122 62,6 62,6 62,6
73 37,4 37,4 100,0
195 100,0 100,0
0
1
Total
ValidFrequency Percent Valid Percent
CumulativePercent
smoking_present
170 87,2 87,2 87,2
25 12,8 12,8 100,0
195 100,0 100,0
0
1
Total
ValidFrequency Percent Valid Percent
CumulativePercent
smoking_ever
74 37,9 37,9 37,9
121 62,1 62,1 100,0
195 100,0 100,0
0
1
Total
ValidFrequency Percent Valid Percent
CumulativePercent
ADATBÁZIS: SZÍVELÉGTELENSÉG:
195 beteg 2 évig majd tovább követve
25th percentilis
Medián 75th percentilis
age 59,26027 69,45205 77,33425
Bal_kamrai_EF 27 34 40
Heart_rate 70 78 90
syst_bp 110 120 140
diast_bp 70 80 80
glucose 5,01 5,64 7,29
na 137 140 142
karb 6,3 8,6 12,3
kreat 78 96 136
hugysav 348 421 512
Total_cholesterol 3,46 4,12 4,96
triglycerid 0,93 1,19 1,68
hdl 0,95 1,16 1,39
apoa1 1,14 1,31 1,49
osszfeherje 67 72 77
albumin 38 41 44
crp 2,98 6,35 13,71
hgb 129 141 154
Milyen tényezők határozzák meg azt, hogy a szívelégtelenségben
szenvedő betegek meghalnak-e a vizsgálati periódus folyamán?
Változó P érték
NYHA 0/1 (enyhe/súlyos) <0,001
Pulmonalis congestio nem/igen <0,001
Bal kamrai ejekciós frakció 0,006
Szisztolés vérnyomás 0,011
Diasztolés vérnyomás 0,009
BMI 0,018
Vércukor 0,010
Nátrium 0.003
Karbamid <0,001
Kreatinin 0,002
GFR 0,003
Össz-koleszterin 0,012
Triglicerid 0,033
ApoA1 <0,001
Albumin <0,001
CRP 0,032
Hemoglobin 0,035
BNP <0,001
TNFalpha 0,031
Anamnézisben DM 0,083
Jelenleg dohányzik igen/nem 0,208
Életkor 0,220
Húgysav 0,068
Össz-fehérje 0,159
Milyen tényezők határozzák meg, hogy a szívelégtelenségben
szenvedő betegek balkamrai ejekciós frakciója alacsony vagy
magas?
Változó P érték
Diszkrét változók
NYHA 0/1 (enyhe/súlyos) 0,001
Pulmonalis congestio nem/igen 0,004
Folyamatos változók
Szisztolés vérnyomás <0,001
Diasztolés vérnyomás 0,014
Karbamid 0,049
Össz-koleszterin 0,016
HDL-koleszterin 0,005
ApoA1 0,004
Össz-fehérje 0,001
BNP 0,001
életkor 0.195
BMI 0.144
Na 0,057
trigicerid 0.163
hemoglobin 0.145
TNFalpha 0,121
A TÖBBSZÖRÖS LOGISZTIKUS REGRESSZIÓ
• Matematikai-statisztikai eljárás, amelyet akkor alkalmazunk, ha egy dichotóm változó bekövetkezésének valószínűsége és az egyes független változók közötti kapcsolatot szeretnénk kiszámítani. Ha a független változó nominális, akkor ezt 0-val, ill 1-el jelőljük, ha folyamatos, akkor egy egységnyi növekedésre vonatkozik a kapcsolat, az OR.
A logisztikus regresszió során alkalmazott számítási mód
• A lineáris regresszióval ellentétben, amelynél a számítás az ún. legkisebb négyzetek módszerén alapszik, a logisztikus regresszió számítási módja az un. iterative maximum likelihood ratio kiszámítása. Ez, mint minden valószínűség-arány számítás, exponenciális, tehát a természetes logaritmus alapra vonatkozik. Ezt átalakítjuk úgy, hogy az egyenlet mindkét oldalán ln-t számítunk.
A logisztikus regresszió egyenlete
• odds (bekövetkezik/nem következik be, A/B= P/1-P. Ha a ln-át vesszük, ln (odds) = ln (P/1-P) = ßo + ßII
• Ha ezt az egyes független változók szerint részeire bontjuk, akkorln (odds) = ßo + X1ß1 + X2ß2....
• A ßo azt jelenti, hogy a ln(odds) mennyivel egyenlő, ha minden független változó = 0. A ß1 érték egyenlő az X változóra vonatkozó OR ln-ával, stb.
A logisztikus regresszió egyenlete (folyt.)
• A 0 hipotézisünk az, hogy a vizsgált változók által meghatározott esély-arány (OR) nem különbözik 1-től, tehát ezek a változók nem növelik az adott esemény bekövetkeztének valószínűségét. Ennek az OR-nek vesszük a ln-át, majd az egyenletet úgy alakítjuk át, hogy ezt az OR-t felbontjuk az egyes változók által meg-határozott OR-ekre, pontosabban ezek ln-áraln (OR) = X1(lnOR1) + X2(lnOR2)....
• Az egyes komputer programok vagy a ß vagy az OR értékeket adják meg, átszámíthatók: ß = ln(OR)
Variables in the Equation
B S.E. Wald df Sig.Exp(B)
95,0% C.I.for EXP(B)
Lower Upper
Step 1(a)
mutka1vstobbi
1,897847
0,881998
4,630064 1
0,031416
6,671515
1,184312
37,58225
danyn40,6790
920,6376
21,1343
12 10,2868
581,9720
850,5651
746,8812
77
age
-0,0097
30,0186
80,2712
36 10,6025
040,9903
190,9547
181,0272
48
nem1,3762
390,5974
475,3062
71 10,0212
493,9599
81,2278
512,771
46
Constant
-5,5526
82,1364
166,7551
39 10,0093
480,0038
77
a .
Modell felépítés a logisztikus regresszióban
• Hasonló a lineáris regresszióhozmanuálisautomatikus: forward selection backward elimination stepwise selection
• A számítógépes programok mérőszámot adnak (vö R2 a lineáris regressziónál), amely az egyes modellek „jóságát” (goodness of fit) fejezik ki.
FIKTÍV PÉLDA• 50 M (morbus) betegségben szenvedő beteget követtek
nyomon 3 éven keresztül, közülük 20 halt meg (1) , 30 életben maradt.(0) Sokfajta adatot és vizsgálati eredményt rögzítettek a betegeknél, de végül a válogatás eredményeképpen csak 3 változó mutatott szignifikáns összefüggést a halálozással: dohányzás (D) (a beteg valaha is dohányzott: 1, sohase dohányzott: 0), életkor (K) a vizsgálat kezdetekor (év) és a C reaktív protein (CRP) koncentráció: alacsony (<5 g/l), magas >5 mg/l). A számítógépes program a következő esélyarányokat mutatta (mindhárom esetében p<0,01 szignifikanciával, az állandó érték
• Halálozás (H), = 0,50 + 0,05D + 0,001K + 0,06CRP
Néhány változat
• 50 éves nem dohányzó, alacsony CRP szintű beteg
H esély=0,50 + 0x0,05 + 0,001x50 + 0x0,06 = 0,55
• 50 éves beteg, dohányos, CRP szintje alacsony
H,esély =0,50 + 1x0,05 + 0,001x50 + 0x0,06 = 0,60
• 50 éves dohányzó és magas CRP szintű beteg H,esély=0,50 + 1x0,05 + 0,001x50 + 1x0,06 = 0,66
Milyen tényezők határozzák meg azt, hogy a szívelégtelenségben szenvedő betegek meghalnak-e a
vizsgálati periódus folyamán?
Változó B A B S.E.M-je
Wald statisztika
P érték Exp(B)(odds ratio)(OR)
Az OR 95%-os CI-a
NYHA3-4/1-2
,370 ,471 ,617 ,432 1,447 ,575-3,641
Pulm congIgen/nem
,822 ,440 3,485 ,062 2,276 ,960-5,396
Diastolés vérnyomás
-,014 ,019 ,566 ,452 ,986 ,949-1,024
Szérum Na -,031 ,050 ,394 ,530 ,969 ,879-1,069
Carbamid N
,076 ,028 7,261 ,007 1,079 1,021-1.141
ApoA1 -,350 ,818 ,183 ,669 ,704 ,142-3,503
Albumin -,083 ,053 2,425 ,119 ,920 ,829-0,022
BNP ,000 ,000 5,414 ,020 1,000 1,001
Konstans 5,959 7,271 ,672 ,412 387,052
A balkamrai ejekciós frakció nagyságával ((magas (>34), vs alacsony (34)) összefüggő független változók a frakcióval az egyváltozós analízis során
szignifikáns (p.<0.05) különbséget mutató változók a modellbe válogatása után.
Számítás a forward selection módszerével Változó B A B
S.E.M-je
Wald statisztika
P érték Exp(B)(odds
ratio)(OR)
Az OR 95%-os CI-a
NYHA 3-4 vs 1-2
-,834 ,310 7,263 ,007 ,434,237-0,797
Sziszt vérnyomás
,021 ,008 7,558 ,006 1,0211,006-1,037
Össz-koleszterin
,229 ,121 3,568 ,059 1,257,991-1,593
Konstans -3,080 1,094 7,928 ,005 ,046
A balkamrai ejekciós frakció nagyságával ((magas (>34), vs alacsony (34)) összefüggő független változók a frakcióval az egyváltozós
analízis során különbséget (p<0.25) mutató változók a modellbe válogatása után. Számítás a forward selection módszerével
Változó B A B S.E.M-je
Wald statisztika
P érték Exp(B)(odds
ratio)(OR)
Az OR 95%-os CI-a
NYHA 3-4 vs 1-2 -1,090 ,334 10,627 ,001 ,336 ,175-0.648
Sziszt vérnyomás
,024 ,008 9,057 ,003 1,0251,009-1,041
Össz-koleszterin
,271 ,124 4,758 ,029 1,3111,028-1,672
Hemoglobin -,030 ,010 8,988 ,003 ,971 ,952-0,990
Konstans ,579 1,624 ,127 ,721 1,785
Mennyi az esélye arra, hogy magas legyen a véralkoholszintje egy 27 éves kaukázusi férfinek, aki csütörtökön du. 2-kor kerül az osztályra?
A többszörös logisztikus regresszióval kapcsolatos legfontosabb kérdések
• Elegendő a megfigyelések száma? (5-10-szer több eset, mint változó)
• A modell megfelelő-e? Ha van interakció az egyes változók között, ezt a modell felépítésnél figyelembe kell és lehet is venni.
• Van-e az eredményeknek biológiai értelme? (automatikus modellfelépítés!)
• Ha váratlan összefüggés jön ki, lehet véletlen, de lehet értelme is: hipotézis felállítás, de ellenőrzés új vizsgálatban!!!
Milyen jó a modell? (Goodness of fit) SPSS
Hosmer and Lemeshow Test
7,977 8 ,436Step1
Chi-square df Sig.
A measure of how well the model fits the data. It is based on the squared differences between the observed and predicted probabilities. A small observed significance level for the goodness-of-fit statistic indicates that the model does not fit well.
MIHEZ SZÁMÍTSUK AZ ODDS RATIOT?
• Ha a független változó kategorikus, főleg, ha bináris, akkor OK (beteg/nem beteg, dohányzik/nem dohányzik, férfi/nő, stb.).
• Ha viszont a független változó folyamatos, akkor koncepcionálisan nehéz felfogni, hogy egy egység változás mit jelent. Megoldások:értelmes kategóriákat állítok fel: pl. életkorban 10 év,binárissá teszem a független változót ( alacsony/nem alacsony, magas/nem magas labor. lelet, IQ, stb.)
HOL HÚZZUK MEG A HATÁRT?
A binárissá átalakítandó független változó minden adatát (a függő változó eredményétől függetlenül!!!) sorba rendezzük és megállapítjuk, hol van a 90. percentilis, a legfelsőbb (legalsóbb) kvartilis, tercilis, esetleg a medián határa. (legtöbb program megcsinálja)
Ezután megvizsgáljuk, hogy a függő változóhoz tartozó két csoportban a magas/nem magas stb. kategóriába tartozó független változó hány esetben fordul elő
Végül a logisztikus regressziós egyenletbe bevisszük mint bináris változót (nem magas: 0, magas: 1) ezt a független változót, és kiszámítatjuk az OR-t
A logisztikus regressziós számítással megoldható problémák
• Az egyes vizsgált változók hatásának számszerűsítése esély-arány (95% CI) formájában
• Ha két változó egymástól független és nem befolyásolják egymás hatását, akkor vizsgálni lehet, hogy van-e együttes hatásuk (joint effect)
• A két független változó egymástól független, de befolyásolják egymás hatását a függő változóra, számszerűsíteni lehet ezt a kölcsönhatást (interakciót) is
Független egymást nem befolyásoló változók
• Mind a magas anti-hsp60 szint, mind a Chl. pneum. fertőzöttség összefüggésben van az ISZB-vel (OR: 7.47 (2.18-25.2), ill. 2.17 (1.18-4.66).
• A két változó között nincs korreláció: Spearman r: - 0.007 (p=0.91)
• Számítsuk ki a magas anti-hsp60 szint OR-át, a Chl.pneum. szeronegatívoknál (2.06 (1.12-3.78)) és a Chl. pneum. szeropozitívoknál (3.85 (2.63-5.62). Tehát az ISZB és a magas anti-hsp közötti összefüggés fennáll a Chl. pneumoniae fertőzéstől függetlenül, a két változó nem (gyengén?) befolyásolja egymást
CP- aHSP lo CP - aHSP hig CP+ aHSP low CP+ aHSP high0
50
100
150
200
250casescontrols
Két változó együttes hatása
age and gender adjusted OR
(95% CI)
p value
CP neg - aHSP60 low
1 -
CP neg aHSP60 high
6.80 (2.02-22.83) 0.0019
CP pos aHSP60 low
2.16 (1.26-3.70) 0.0052
CP pos aHSP60 high
82.0 (10.6-625.0) <0.0001
INTERAKCIÓ
Az alap szérum IL-6 szint és a 3 éves mortalitás
IL-6 szint,pg/ml
<1.78 1.79-3.10 >3.10
Meghalt(%)
17 (8) 24 (12) 54 (27)
Túlé lt 197 180 148
Össze-sen
214 204 202
A korábbi cerebrovascularis betegség (CVB) hatása az IL-6 és a mortalitás közötti
összefüggésre (interakciót találtak, p=0.09)
IL-6,pg/ml
Nincs CVB azanamnézisben
CVB az anamnézisben
szám exitszám
ORmodel3 (95%
CI)
szám exitszám
ORmodel3 (95%
CI)<1.78 131 10 1 83 7 1
1.79-3.10
104 7 0.33(0.11-1.05)
100 17 1.76(0.73 -4.38
>3.10 76 14 1.13(0.44-2.86
126 40 4.15(1.80-9.55)
P fortrend
0.441 <0.001
Haplotípus Egészséges kontrollok
Egyének száma (%)
Colorectalis carcinomások
Egyének száma (%)
P érték
LTA 252G+TNF -308A +HSP70 1267G + RAGE -429C
non carrier heterozygote
108 (92.3) 9 (7.7)
148 (80.9) 35 (19.1)
0.006
A 6.1 kiterjesztett haplotípus és a colorectalis carcinoma
Interakció
• 8.1 haplotípus*nem p=0.0489
• 8.1 haplotípus*életkor p=0.009
A
controls patients0
25
50
75
100
p=0.008
%B
controls patients0
25
50
75
100no AH8.1 carrierAH8.1 carrier
p=0.287
%
C
controls patients0
25
50
75
100p=0.018
%
D
controls patients0
25
50
75
100p=0.146
%
<67 éves (A) and >=67 éves (B); nők (C) and férfiak (D)
Table 4 Gender-adjusted risk of carriers vs non carriers of the LTA 252A+TNF -308A+HSP70 1267G + RAGE -429T haplotype belonging to different age groups at diagnosis to have colorectal cancer
Group Odds ratio (95% confidence interval)
P values
< 67 years old 5.878 (1.300-26.571) 0.021
> 67 years old 1.858 (0.655-5.266) 0.244
All patients 2.870 (1.316-6.263) 0.008
Group Odds ratio (95% confidence interval)
P values
Females 4.208 (1.338-13.232) 0.024
Males 1.828 (0.564-5.929) 0.315
All patients 2.870 (1.316-6.263) 0.008
Table 5 Age-adjusted risk of females and male carriers vs non carriers of the LTA 252A+TNF -308A+HSP70 1267G + RAGE -429T haplotype to have colorectal cancer
TOVÁBBI PÉLDÁK
1. példa. Dean D és mtsai: (PLoS Med 5(1):
e14. doi:10.1371/journal.pmed.0050014 • A trachoma a vakság egyik leggyakoribb oka, a Földön,
elsősorban az elmaradott országokban 6 millió trachoma miatt megvakult ember él. A szerzők azt vizsgálták, hogy a trachoma ismert kórokozója (Chlamydia trachomatis) mellett más Chlamydia speciesek (Chl. psittaci és Chl. pneumonia) is mutatnak-e a betegséggel összefüggést. A kérdést az teszi indokolttá, hogy a betegség kifejlődést gátló, ill. a progressziót lassító gyógyszeres és műtéti beavatkozások hatékonysága elmaradt a várttól és ezért felmerült a vakcináció szükségessége. A vizsgálat során egy nepáli völgyben élő trachomások és nem trachomás kontrollok könny és vérmintáiban vizsgálták a háromféle Chlamydia species elleni IgG típusú antitestek előfordulását
Két Chlamydia (Chl trachomatis és Chl. psittaci) species elleni antitest jelenléte erősen szignifikánsan megnöveli a trachoma rizikóját, míg a Chl pneumoniae esetében nem találtak ilyen összefüggést
2. példa. Feng B-J és mtsai (PLoS Genet 5(8): e1000606.
doi:10.1371/journal.pgen.1000606) • A psoriasis a bőr gyulladásos betegsége minden
50-dik európaiban jelen van. Jól ismert a psoriasis erős kapcsolata az MHC I. osztályú HLA-C antigénekkel, azonban több adat, köztük a szerzők által végzett teljes genom szűrés is arra mutat, hogy más az MHC régióban kódolt gének is hozzájárulhatnak a psoriasis iránti hajlam megnöveléséhez. Jelen munkában azt vizsgálták, hogy a régióban hol találhatók még a psoriasissal asszociált polimorfizmusok és ezek függetlenek-e a HLA-Cw rizikó allélektől.
A HLA-B40 esetében szignifikáns védő hatást tapasztaltak, míg a HLA-B57 hordozás esetében szignifikánsan megnövekedett psoriasis rizikóval járt együtt
3. példa. Gonzalo V és mtsai (PLoS ONE 5(1):
e8777. doi:10.1371/journal.pone.0008777) • A szerzők a vastagbélrák és gén-promoterek
abnormális metilációja közötti kapcsolatot vizsgálták 47 betegben és ugyanennyi nemben és életkorban illesztett kontrollban. a gén metilációjának mértékét mérték, kvantitatív metilációt mérő PCR reakciót használva. Szoros összefüggést észleltek a tumoros léziók száma és a metiláció mértéke között. Mivel más tényezők is összefüggtek a tumoros léziók számával, az összefüggést többszörös logisztikus regresszióval is megvizsgálták..
Három gén-promoter esetében találtak olyan összefüggést, amely még az adjusztálás után is szignifikáns volt, mutatva, hogy a e gének metilációjának mértéke összefügg a léziók számával