Post on 24-Jul-2020
Universidade Federal de Minas GeraisInstituto de Ciências ExatasDepartamento de Estatística
Métodos Estatísticos Avançados em Epidemiologia
Aula 2-1
Regressão Logística:
Modelando Respostas Dicotômicas
Lembrando...
Média de Y: µµµµy = ββββ0 + ββββ1X1 + ... + ββββkXk .
No modelo de regressão linear com Y ~ Normal,a média da variável resposta
é igual à combinação linear das preditores:
pode assumir qualquer valor na reta realpode assumir qualquer valor na reta real
porque Y pode assumir q.q. valor real.
Exemplo: Y = variação no peso (perda ou ganho, em Kg) em mulheres um ano após a menopausa.
Y é contínua, pode ser negativa (perdeu peso), nula (peso não variou) ou positiva (ganhou peso)
Variável Resposta Qualitativa Binária
Y é qualitativa e pode assumir apenas dois valores
Y = { sucesso(=1) , fracasso(=0) },
P(Y=1) = ππππ e P(Y=0) = 1 – ππππ.com probabilidades
P(Y=1) = ππππ e P(Y=0) = 1 – ππππ.
Exemplo: Y = 1 se a mulher ganhou peso (sucesso)Y = 0 se a mulher manteve/perdeu peso (fracasso);
Vamos modelar ππππ, a probabilidade de sucesso,em função das variáveis explicativas X´s:
( )kk XXXf ββββπ ++++= ...22110
Exemplo: X1: idade de entrada na menopausa (anos)X : índice de massa corporal (kg/m2)
Mas que função será esta ? Lembre-se que 0 ≤≤≤≤ ππππ ≤≤≤≤ 1 !
X2: índice de massa corporal (kg/m2)X3: tempo de exercício fisico semanal (minutos)X4: reposição hormonal (sim ou não)…
A função que liga a probabilidade de sucesso
π π π π = P(Y=1) aos valores (x1,x2,....,xk) é:
)...()...(
)...(
110110
110
1
1
1 kkkk
kk
xxxx
xx
ee
eββββββ
βββ
π +++−+++
+++
+=
+=
que garante que π π π π está sempre entre 0 e 1.
Como π depende dos valores das X´s,
vamos denotá-la por π(x).
Vamos começar com o caso mais simples, onde háapenas uma variável explicativa X que é quantitativa.
Regressão Logística Simples com X contínua
Denote a probabilidade de sucesso de Y quando avariável explicativa assume o valor x por:
P(Y=1 | X=x) = ππππ(x).
.1
1)( )( 10 xe
x ββπ +−+=
P(Y=1 | X=x) = ππππ(x).
Então
Esta curva cresce com x se β1 > 0 e descresce se β1 < 0.
Exemplo com β1 > 0
Exemplo com β1 < 0
Exemplo: pressão arterial (X) entre pessoas que tiveram ou não um AVC (Y). Seja “presença de AVC” = 1 e “ausência de AVC” = 0:
https://ebmacademy.wordpress.com/2015/08/17/o-fanta sma-da-regressao-logistica/
Pontos mais concentrados no valor 0 em valores de PA arterial mais baixos, e mais concentrados no valor 1 em valores de PA mais altos:à medida que aumenta a pressão arterial, aumenta a incidência de AVC.
À medida que aumenta a PA, aumenta a incidência de AVC. Mas em quanto? Precisamos transformar a variável AVC em “proporção de AVC”, de acordo com os valores de pressão arterial.
.1
1)( )( xe
x ββπ +−+= .
1)( )( 10 xe
x ββπ +−+=
Exemplo com β1 = 0.05
ππππ(x) cresce lentamente com valores menores de xe rapidamente com os valores maiores de x.
Exemplo com β1 = 0.10
ππππ(x) cresce lentamente com valores menores e maiores de x,e rapidamente com os valores intermediários de x.
Exemplo com β1 = 0.15
ππππ(x) cresce rapidamente com valores menores de xe lentamente com os valores maiores de x.
xex
xxODDS 10
)(1
)( )( ββ
ππ +=−
=
)(10 )(
)( axeax
axODDS++=+=+ ββπ
Chance de sucesso quando X = x:
Chance de sucesso quando X = x + a: (ex.: a=1 ano)
)(10 )(1
)( axeax
axODDS++=
+−=+ ββ
π
.)(
)(),( 1βa
ODDS
ODDSOR e
xax
xax =+=+
Razão das Chances entre x+ a e x:
< 1, se β1 < 0
> 1, se β1 > 0
Para a > 0:
Exemplo com β1 = 0.1
4.7)( 2)1.0(2060,80 ≈== ee OR
Exemplo com β1 = -0.1
14.0)( 2)1.0(2060,80 ≈== −− ee OR
Intervalos de Confiança*
[ ]]ˆ[)(ˆ ; ]ˆ[)(ˆ 12/112/1)%1(100
1ββ αα
α SEzβSEzβICβ ⋅+⋅−=−
onde: é o erro padrão de ,zα/2 é percentil de ordem α/2 na Normal Padrão.
]ˆ[ 1βSE 1̂βLI LS
[ ])()()%1(100)( ; LSaLIa
aOR eeIC =−α
* Apenas para tamanho de amostra grande.
onde LI e LS são os limites inferior e superior do IC para β1.
zα/2 é percentil de ordem α/2 na Normal Padrão.
Razão das Chances entre x+ a e x:
Um teste simples da significância do coeficiente β1,ou seja, para testar H0: ββββ1=0 contra H1: ββββ1≠ 0,
é o Teste de Wald, que usa a estatística Z0:
Testando a Significância de ββββ1
ˆ1̂
0β
βZ =
estimativa de β1
erro padrão de β̂]ˆ[ 10
βSEZ =
que é comparada com a distribuição Normal Padrão*para obtenção do valor p do teste:
erro padrão de
* Apenas para tamanho de amostra grande.
( )02 ZZP pvalor >⋅=
1β̂
Dados de 100 indivíduos para estudar a relação entre idade(AGE, em anos completos) e ocorrência de doençacoronariana (CHD, 0=não, 1=sim).
AGRP: define 8 faixas etárias (20-29,30-34,...,60-69).
Exemplo com Dados: X quantitativa
(Dados completos no arquivo hosmer1.txt)(Hosmer e Lemeshow, 2ª. ed., pg. 2 )
61.40241.0111.0
]ˆ[
ˆ
1
10 ===
ββ
SEZ
Valor P do testede H0: β1=0
Saída do R
.74.1)111.0(5ˆ55ˆ 1)( === ee anos RO β
[ ] [ ] [ ]157.0;063.0)024.0(96.111.096.1ˆ1
11
%95 SEβ IC ββ==⋅= mm
[ ] [ ]17.1;07.1; 157.0063.0%95)1( ee ICOR ==
.12.1)111.0(1ˆ11ˆ 1)( === ee ano RO β
[ ] [ ]192371; )157.0(5)063.0(5%95)5( . ; .ee ICOR ==
Outro caso simples: a única variável explicativaX é qualitativa com duas categorias (x=0 ou x=1).
Regressão Logística Simples com X binária
A probabilidade de sucesso de Y dado o valor de X:
P(Y=1 | X=0) = ππππ(0) ⇒ P(Y=0 | X=0) = 1-ππππ(0)
)( 101
1)( xe
x ββπ +−+=
P(Y=1 | X=0) = ππππ(0) ⇒
Novamente
P(Y=0 | X=0) = 1-ππππ(0) P(Y=1 | X=1) = ππππ(1) ⇒ P(Y=0 | X=1) = 1-ππππ(1)
01
1)0( βπ −+
=e )( 101
1)1( ββπ +−+
=e
.)0(1
)0()0( 0β
ππ
e ODDS =−=
.)1(
)1( 10 ββπ +== e ODDS
Chance de sucesso quando X = 0:
Chance de sucesso quando X = 1:
.)1(1
)1( 10 ββπ
+=−= e ODDS
1
)0()1(
)0,1( βe ODDS
ODDSOR ==
Razão das Chances:
< 1 se β1 < 0
> 1 se β1 > 0
Um estudo* com 3890 motoristas militares para investigar apossível associação entre acidente automobilístico (Y) com apresença de toxoplasmose (X1) e o fator Rh (X2).
Y X1 X21 1 1 12 1 1 13 1 1 14 1 1 1
Y = 1, se sofreu acidente; Y = 0, caso contrário.
Exemplo com Dados: X binária
4 1 1 15 1 1 1
51 0 1 152 0 1 153 0 1 154 0 1 1
213 0 0 0214 0 0 0215 0 0 0
X1 = 1, se portador;X1 = 0, se não-portador.
X2 = 1, se Rh negativo;
X2 = 0, se Rh positivo.
*Flegr et al, BMC Infectious Diseases, 2009 9:72
Modelo 1: Acidente X Toxoplasmose
Coefficients:Estimate Std. Error z value Pr(>|z|)
(Intercept) -3.5595 0.1113 -31.9 77 <2e-16 toxoplasma 0.1324 0.2220 0.597 0.551
OR = exp(0.1324)= 1.14
[ ] [ ] [ ]5675.0;3027.0)222.0(96.11324.096.1ˆ1
11
%95 SEβ IC ββ−==⋅= mm
[ ] [ ]76.1;74.0; 5675.03027.0%95 ee ICOR == − inclui 1inclui 0
Modelo 2: Acidente X Rh
Coefficients:Estimate Std. Error z value Pr(>|z|)
(Intercept) -3.5793 0.1093 -32.74 0 <2e-16Rh 0.2528 0.2311 1.094 0.274
OR = exp(0.2528)= 1.29
[ ]7058.0;20020%951
. ICβ
−=
[ ] [ ]022;82.0; 7058.02002.0%95 . ee ICOR == −
inclui 0
inclui 1
Regressão Logística Múltipla
O caso mais geral, quando há duas ou maisvariáveis explicativas X1, X2, ..., Xk.
A probabilidade de sucesso de Y quando a variáveisexplicativas assumem o valor x=(x1, x2, ... , xk) por:
P(Y=1 | X=x) = ππππ(x)
.1
)( 221101)(
kk xxxex ββββπ ++++−+
=L
P(Y=1 | X=x) = ππππ(x)
(Continuação) Estudo motoristas militares para investigar apossível associação entre acidente automobilístico (Y) com apresença de toxoplasmose (X1) e o fator Rh (X2).
Exemplo com Dados: Múltiplos X´s
Modelo 3: Acidente X Toxoplasmose & Rh
Coefficients:Coefficients:Estimate Std. Error z value Pr(>|z|)
(Intercept) -3.6089 0.1221 -29.549 <2e-16 toxoplasma 0.1262 0.2221 0.568 0.570 Rh 0.2493 0.2312 1.079 0.281
Os coeficientes β1 e β2não são significantes
Modelo 4: Acidente X Toxoplasmose & Rh & Interação
Coefficients:Estimate Std. Error z value Pr(>|z|)
(Intercept) -3.54536 0.12211 -29.034 <2e-16toxoplasma -0.16101 0.27419 -0.587 0.5570
.1
)( 2112221101),(
21 xxxxexx ββββπ +++−+
=
toxoplasma -0.16101 0.27419 -0.587 0.5570 Rh -0.08088 0.29705 -0.272 0.7854 toxoplasma:Rh 1.04935 0.49528 2.119 0.0341
O coeficiente β12, da interação, é significante
)( 2121 05.108.016.054.31),(ˆ
121 xxxxe
xx +−−−−+=π
Equação estimada do modelo:
Para pessoas com Rh + (X2=0):
Chance de acidente entre os que não têm o toxoplasm a (X1=0)
Chance de acidente entre os que têm o toxoplasma ( X1=1)
Razão das Chances = 0.0247/0.0290=0.851 = e(-0.16) = eβ1.
( ) ( )-3.54 + (-0.16 1) + (-0.08 0) + (1.05 1 0) -3.54 -0.160.0247e e× × × × = =
( ) ( )-3.54 + (-0.16 0) + (-0.08 0) + (1.05 0 0) -3.540.0290e e× × × × = =
Chance de acidente entre os que não têm o toxoplasm a (X1=0)
Chance de acidente entre os que têm o toxoplasma ( X1=1)
Razão das Chances = 0.0652/0.0267= 2.435 = e(-0.16+1.05) = e(ββββ1+ββββ12).
( ) ( )-3.54 + (-0.16 1) + (-0.08 1) + (1.05 1 1) -3.54 -0.16 -0.08+ 1.050.0652e e× × × × = =
Para pessoas com Rh - (X2=1):
Preditora Qualitativa com mais de duas categorias
Se a preditora X é qualitativa com m categorias, devemoscriar m-1 variáveis dummy (indicadoras)para representá-lano modelo.
Exemplo: Variável raça no exemplo da doença coronariana.
categoria de referência
.1
)( 44332201)( RACERACERACEe
x αααβπ+++−+
=
.1
)386.1792.1079.2386.1( 4321)( RACERACERACE
ex
+++−−+=π
,1
20.0))0(386.1)0(792.1)0(079.2386.1(1
)( =+
= +++−−ewhiteπ
1
.1
)386.1792.1079.2386.1( 4321)( RACERACERACE
ex
+++−−+=π
,1
67.0))0(386.1)0(792.1)1(079.2386.1(1
)( =+
= +++−−eblackπ
,1
60.0))0(386.1)1(792.1)0(079.2386.1(1
)( =+
= +++−−ehispanπ
,1
50.0))1(386.1)0(792.1)0(079.2386.1(1
)( =+
= +++−−eothersπ
.)( 2ˆ079.28800200
330670
))(1()(
))(1()(, α
ππππ
e e ..
..
WW
BBWBOR === ==
−−
Razão das Chances:
,20.0)( =Wπ
,67.0)( =Bπ
,60.0)( =Hπ
,50.0)( =Oπ
.)( 8800200))(1()(
,ππ
e e ..WW
WBOR === ==−
.)( 32 ˆˆ35.1
400600
330670
))(1()(
))(1()(, 287.0 αα
ππππ −==
−− === e e
..
..
HH
BBHBOR
Verificando o Bom Ajuste do Modelo
Lembrando que a regressão logística modela P(Y=1) = ππππem função dos valores das variáveis explicativas X’s:
.1
1)( )...( 110 kk xxe
x βββππ +++−+==
A partir da amostra de valores de Y e das X’s, os coeficientes são estimados por e, assim, estas β β̂os coeficientes são estimados por e, assim, estas probabilidades são estimadas para cada indivíduo i da amostra:
.1
1ˆ
)ˆ...ˆˆ( 110 kiki xxei βββ
π+++−+
=
β β̂
Valor estimado ou ajustado ou preditoda probabilidade do indivíduo ter Y=1 (ser um sucesso).
0 ≤≤≤≤ ππππ ≤≤≤≤ 1
Se o modelo ajustado é um bom modelo, ou seja,se as variáveis X são boas preditoras da variável Y,então, os indivíduos na amostra:- com Y=1 devem ter valor alto de- com Y=0 devem ter valor baixo de
iπ̂iπ̂
Podemos verificar se o modelo tem um bom ajuste avaliando sua capacidade preditiva, ou seja, se ele é capaz de predizer se o desfecho Y irá ocorrer (Y=1) ou não (Y=0).
Para cada indivíduo i, usar o valor da probabilidade estimada para dizer se, pelo modelo, ele teria ou não o desfecho,como se fosse um teste com resultado positivo/negativo:
1 – Construção da Curva ROC do Modelo
A definição de valor alto ou baixo pode ser feita para váriospontos de corte c entre 0 e 1:
Se é alto, o indivíduo i tem teste positivo, ou seja, ,
Se é baixo, o indivíduo i tem teste negativo, ou seja, .iπ̂iπ̂ 1ˆ =iy
0ˆ =iy
,ˆ ci ≥π,ˆ ci <π
Se o indivíduo i tem resultado positivo no teste do modelo;
Se o indivíduo i tem resultado negativo no teste do modelo.
Verificamos a capacidade de acerto do “teste do modelo” separamente entre os indivíduos com (Y=1) e sem (Y=0) o desfecho na amostra, ou seja, calculamos, para cada ponto de corte,a sensibilidade e a especificidade do “teste do modelo”:
E desenhamos a Curva ROC do Modelo:
Área sob Curva ROC (AUC):
Área sob Curva ROC (AUC):
AUC = 0.5 Sem discriminação (como jogar uma moeda)
A área sob a curva ROC (AUC) é uma medida do poder dediscriminação do modelo entre prever sucesso ou fracasso.AUC vai de 0,5 (nenhum poder) a 1 (poder máximo)
Uma área elevada sob a curva ROC sugere que o modelo é capazde predizer com precisão o valor de uma resposta da observação.
Hosmer e Lemeshow fornecem a seguinte regra geral:
0.7 ≤ AUC < 0.8 Discriminação aceitável
0.8 ≤ AUC < 0.9 Discriminação excelente
AUC ≥ 0.9 Discriminação fora de série (mas, extremamente rara)
Deviance TableSource DF Adj Dev Adj Mean Chi-Square P-ValueRegression 2 15.465 7.732 15.46 0.000Verduras 1 3.706 3.706 3.71 0.054Fratura 1 12.504 12.504 12.50 0.000
Error 383 473.581 1.237Total 385 489.046
Rows: FITS1 Columns: Queda
Não Sim All
0.201431 50 11 6181.97 18.03 100.00
0.298129 144 63 20769.57 30.43 100.00
0.323636 42 22 6465.63 34.38 100.0065.63 34.38 100.00
0.446218 91 71 16256.17 43.83 100.00
2 – Testes de Hosmer-Lemeshow e Pearson
Hipótese nula: o modelo está bem ajustado aos dados
Não se rejeita a hipótese nula de bom ajuste se valor-p ≥≥≥≥ αααα(nível de sugnificância escolhido).
Ambos avaliam o modelo ajustado através das distâncias entre as probabilidades ajustadas e as probabilidades observadas.as probabilidades ajustadas e as probabilidades observadas.
O teste de Hosmer-Lemeshow é mais utilizado e confiável.
CoefficientsTerm Coef SE Coef 95% CI Z-Value P-ValueConstant -1.377 0.235 (-1.837; -0.918) -5.87 0.000VerdurasBaixo 0.521 0.233 ( 0.064; 0.978) 2.23 0.025
FraturaSim 0.640 0.194 ( 0.260; 1.020) 3.30 0.001
Goodness-of-Fit Tests
Exemplo das Quedas em Mulheres Idosas.
Goodness-of-Fit TestsTest DF Chi-Square P-ValuePearson 491 493.22 0.463Hosmer-Lemeshow 2 0.37 0.832
Deviance
A deviance tem o mesmo papel que a SQResíduos na regressão linear, ou seja,
é uma medida da variabilidade não explicada pelo modelo.
Assim, para comparar dois modelos encaixados, como os modelos com a variável X (“cheio”) e sem (“reduzido”) , ou seja, testar H0:β1=0, calcula-se a estatísticaou seja, testar H0:β1=0, calcula-se a estatística
G2 = deviance (reduzido) – deviance(cheio).
Se G2 é um valor alto (na distribuição χ2 com 1 g.l.), então houve uma redução significativa na deviance com a introdução de X. Logo, H0 deve ser rejeitada.
Coefficients:Estimate Std. Error z value Pr(>|z|)
(Intercept) -5.30945 1.13365 -4.683 2.82e-06 AGE 0.11092 0.02406 4.610 4.02e-06 ---
Null deviance: 136.66 on 99 degrees of freedomResidual deviance: 107.35 on 98 degrees of freedom
Saída do R
Teste: H0: β1=0 X β1≠0
Estatística G2 = “null deviance” - “residual deviance”= 136.66 - 107.35 = 29.31.
Valor P = P(χ21 > 29.31) < 0.0001 .
modelo sem AGE
modelo com AGE
Seleção de Modelos
Akaike´s Information Criterion: AIC
AIC = deviance – n + 2p p = no. de preditoras
menor AIC , melhor ajuste
menor,melhor
maior,melhor
menor,melhor
P-ValueRegression 0.001F.etaria 0.092Ativ.fisica 0.100Verduras 0.030Fratura 0.000
AIC: 479.03
Regression 0.000
Verduras 0.022Fratura 0.001
AIC: 622.82
Suposições do Modelo
- A distribuição da variável resposta Y condicional
aos valores das preditoras X´s é uma Bernoulli (π(x)):
� observações são independentes.- Não há forte colineriedade (correlação/associação)
entre as preditoras X´s, verificada por:
� medida de correlação (ex. Pearson) p/ X´s quantitativas;� medida de correlação (ex. Pearson) p/ X´s quantitativas;
� tabelas cruzadas (χ2) para X´s qualitativas.� boxplots/histogramas da variável quantitativa dentro
das categorias da variável qualitativa (compara as médias viateste T/ANOVA ou medianas com testes não-paramétricos.