MAE-Aula02-1 [Modo de Compatibilidade]edna/mae/MAE-Aula02-1.pdf · Mas em quanto? Precisamos...

Universidade Federal de Minas GeraisInstituto de Ciências ExatasDepartamento de Estatística

Métodos Estatísticos Avançados em Epidemiologia

Aula 2-1

Regressão Logística:

Modelando Respostas Dicotômicas

Lembrando...

Média de Y: µµµµy = ββββ0 + ββββ1X1 + ... + ββββkXk .

No modelo de regressão linear com Y ~ Normal,a média da variável resposta

é igual à combinação linear das preditores:

pode assumir qualquer valor na reta realpode assumir qualquer valor na reta real

porque Y pode assumir q.q. valor real.

Exemplo: Y = variação no peso (perda ou ganho, em Kg) em mulheres um ano após a menopausa.

Y é contínua, pode ser negativa (perdeu peso), nula (peso não variou) ou positiva (ganhou peso)

Variável Resposta Qualitativa Binária

Y é qualitativa e pode assumir apenas dois valores

Y = { sucesso(=1) , fracasso(=0) },

P(Y=1) = ππππ e P(Y=0) = 1 – ππππ.com probabilidades

P(Y=1) = ππππ e P(Y=0) = 1 – ππππ.

Exemplo: Y = 1 se a mulher ganhou peso (sucesso)Y = 0 se a mulher manteve/perdeu peso (fracasso);

Vamos modelar ππππ, a probabilidade de sucesso,em função das variáveis explicativas X´s:

( )kk XXXf ββββπ ++++= ...22110

Exemplo: X1: idade de entrada na menopausa (anos)X : índice de massa corporal (kg/m2)

Mas que função será esta ? Lembre-se que 0 ≤≤≤≤ ππππ ≤≤≤≤ 1 !

X2: índice de massa corporal (kg/m2)X3: tempo de exercício fisico semanal (minutos)X4: reposição hormonal (sim ou não)…

A função que liga a probabilidade de sucesso

π π π π = P(Y=1) aos valores (x1,x2,....,xk) é:

)...()...(

110110

1 kkkk

eββββββ

βββ

π +++−+++

que garante que π π π π está sempre entre 0 e 1.

Como π depende dos valores das X´s,

vamos denotá-la por π(x).

Vamos começar com o caso mais simples, onde háapenas uma variável explicativa X que é quantitativa.

Regressão Logística Simples com X contínua

Denote a probabilidade de sucesso de Y quando avariável explicativa assume o valor x por:

P(Y=1 | X=x) = ππππ(x).

1)( )( 10 xe

x ββπ +−+=

P(Y=1 | X=x) = ππππ(x).

Então

Esta curva cresce com x se β1 > 0 e descresce se β1 < 0.

Exemplo com β1 > 0

Exemplo com β1 < 0

Exemplo: pressão arterial (X) entre pessoas que tiveram ou não um AVC (Y). Seja “presença de AVC” = 1 e “ausência de AVC” = 0:

https://ebmacademy.wordpress.com/2015/08/17/o-fanta sma-da-regressao-logistica/

Pontos mais concentrados no valor 0 em valores de PA arterial mais baixos, e mais concentrados no valor 1 em valores de PA mais altos:à medida que aumenta a pressão arterial, aumenta a incidência de AVC.

À medida que aumenta a PA, aumenta a incidência de AVC. Mas em quanto? Precisamos transformar a variável AVC em “proporção de AVC”, de acordo com os valores de pressão arterial.

1)( )( xe

x ββπ +−+= .

1)( )( 10 xe

x ββπ +−+=

Exemplo com β1 = 0.05

ππππ(x) cresce lentamente com valores menores de xe rapidamente com os valores maiores de x.

ππππ(x) cresce lentamente com valores menores e maiores de x,e rapidamente com os valores intermediários de x.

ππππ(x) cresce rapidamente com valores menores de xe lentamente com os valores maiores de x.

xxODDS 10

)( )( ββ

ππ +=−

)(10 )(

)( axeax

axODDS++=+=+ ββπ

Chance de sucesso quando X = x:

Chance de sucesso quando X = x + a: (ex.: a=1 ano)

)(10 )(1

)( axeax

axODDS++=

+−=+ ββ

)(),( 1βa

ODDSOR e

xax =+=+

Razão das Chances entre x+ a e x:

< 1, se β1 < 0

> 1, se β1 > 0

Para a > 0:

4.7)( 2)1.0(2060,80 ≈== ee OR

Exemplo com β1 = -0.1

14.0)( 2)1.0(2060,80 ≈== −− ee OR

Intervalos de Confiança*

[ ]]ˆ[)(ˆ ; ]ˆ[)(ˆ 12/112/1)%1(100

1ββ αα

α SEzβSEzβICβ ⋅+⋅−=−

onde: é o erro padrão de ,zα/2 é percentil de ordem α/2 na Normal Padrão.

]ˆ[ 1βSE 1̂βLI LS

[ ])()()%1(100)( ; LSaLIa

aOR eeIC =−α

* Apenas para tamanho de amostra grande.

onde LI e LS são os limites inferior e superior do IC para β1.

zα/2 é percentil de ordem α/2 na Normal Padrão.

Razão das Chances entre x+ a e x:

Um teste simples da significância do coeficiente β1,ou seja, para testar H0: ββββ1=0 contra H1: ββββ1≠ 0,

é o Teste de Wald, que usa a estatística Z0:

Testando a Significância de ββββ1

estimativa de β1

erro padrão de β̂]ˆ[ 10

βSEZ =

que é comparada com a distribuição Normal Padrão*para obtenção do valor p do teste:

erro padrão de

* Apenas para tamanho de amostra grande.

( )02 ZZP pvalor >⋅=

Dados de 100 indivíduos para estudar a relação entre idade(AGE, em anos completos) e ocorrência de doençacoronariana (CHD, 0=não, 1=sim).

AGRP: define 8 faixas etárias (20-29,30-34,...,60-69).

Exemplo com Dados: X quantitativa

(Dados completos no arquivo hosmer1.txt)(Hosmer e Lemeshow, 2ª. ed., pg. 2 )

61.40241.0111.0

10 ===

Valor P do testede H0: β1=0

Saída do R

.74.1)111.0(5ˆ55ˆ 1)( === ee anos RO β

[ ] [ ] [ ]157.0;063.0)024.0(96.111.096.1ˆ1

%95 SEβ IC ββ==⋅= mm

[ ] [ ]17.1;07.1; 157.0063.0%95)1( ee ICOR ==

.12.1)111.0(1ˆ11ˆ 1)( === ee ano RO β

[ ] [ ]192371; )157.0(5)063.0(5%95)5( . ; .ee ICOR ==

Outro caso simples: a única variável explicativaX é qualitativa com duas categorias (x=0 ou x=1).

Regressão Logística Simples com X binária

A probabilidade de sucesso de Y dado o valor de X:

P(Y=1 | X=0) = ππππ(0) ⇒ P(Y=0 | X=0) = 1-ππππ(0)

)( 101

1)( xe

x ββπ +−+=

P(Y=1 | X=0) = ππππ(0) ⇒

Novamente

P(Y=0 | X=0) = 1-ππππ(0) P(Y=1 | X=1) = ππππ(1) ⇒ P(Y=0 | X=1) = 1-ππππ(1)

1)0( βπ −+

=e )( 101

1)1( ββπ +−+

)0()0( 0β

e ODDS =−=

)1( 10 ββπ +== e ODDS

Chance de sucesso quando X = 0:

Chance de sucesso quando X = 1:

)1( 10 ββπ

+=−= e ODDS

)0()1(

)0,1( βe ODDS

ODDSOR ==

Razão das Chances:

< 1 se β1 < 0

> 1 se β1 > 0

Um estudo* com 3890 motoristas militares para investigar apossível associação entre acidente automobilístico (Y) com apresença de toxoplasmose (X1) e o fator Rh (X2).

Y X1 X21 1 1 12 1 1 13 1 1 14 1 1 1

Y = 1, se sofreu acidente; Y = 0, caso contrário.

Exemplo com Dados: X binária

4 1 1 15 1 1 1

51 0 1 152 0 1 153 0 1 154 0 1 1

213 0 0 0214 0 0 0215 0 0 0

X1 = 1, se portador;X1 = 0, se não-portador.

X2 = 1, se Rh negativo;

X2 = 0, se Rh positivo.

*Flegr et al, BMC Infectious Diseases, 2009 9:72

Modelo 1: Acidente X Toxoplasmose

Coefficients:Estimate Std. Error z value Pr(>|z|)

(Intercept) -3.5595 0.1113 -31.9 77 <2e-16 toxoplasma 0.1324 0.2220 0.597 0.551

OR = exp(0.1324)= 1.14

[ ] [ ] [ ]5675.0;3027.0)222.0(96.11324.096.1ˆ1

%95 SEβ IC ββ−==⋅= mm

[ ] [ ]76.1;74.0; 5675.03027.0%95 ee ICOR == − inclui 1inclui 0

Modelo 2: Acidente X Rh

(Intercept) -3.5793 0.1093 -32.74 0 <2e-16Rh 0.2528 0.2311 1.094 0.274

OR = exp(0.2528)= 1.29

[ ]7058.0;20020%951

. ICβ

[ ] [ ]022;82.0; 7058.02002.0%95 . ee ICOR == −

inclui 0

inclui 1

Regressão Logística Múltipla

O caso mais geral, quando há duas ou maisvariáveis explicativas X1, X2, ..., Xk.

A probabilidade de sucesso de Y quando a variáveisexplicativas assumem o valor x=(x1, x2, ... , xk) por:

P(Y=1 | X=x) = ππππ(x)

)( 221101)(

kk xxxex ββββπ ++++−+

P(Y=1 | X=x) = ππππ(x)

(Continuação) Estudo motoristas militares para investigar apossível associação entre acidente automobilístico (Y) com apresença de toxoplasmose (X1) e o fator Rh (X2).

Exemplo com Dados: Múltiplos X´s

Modelo 3: Acidente X Toxoplasmose & Rh

Coefficients:Coefficients:Estimate Std. Error z value Pr(>|z|)

(Intercept) -3.6089 0.1221 -29.549 <2e-16 toxoplasma 0.1262 0.2221 0.568 0.570 Rh 0.2493 0.2312 1.079 0.281

Os coeficientes β1 e β2não são significantes

Modelo 4: Acidente X Toxoplasmose & Rh & Interação

(Intercept) -3.54536 0.12211 -29.034 <2e-16toxoplasma -0.16101 0.27419 -0.587 0.5570

)( 2112221101),(

21 xxxxexx ββββπ +++−+

toxoplasma -0.16101 0.27419 -0.587 0.5570 Rh -0.08088 0.29705 -0.272 0.7854 toxoplasma:Rh 1.04935 0.49528 2.119 0.0341

O coeficiente β12, da interação, é significante

)( 2121 05.108.016.054.31),(ˆ

121 xxxxe

xx +−−−−+=π

Equação estimada do modelo:

Para pessoas com Rh + (X2=0):

Chance de acidente entre os que não têm o toxoplasm a (X1=0)

Chance de acidente entre os que têm o toxoplasma ( X1=1)

Razão das Chances = 0.0247/0.0290=0.851 = e(-0.16) = eβ1.

( ) ( )-3.54 + (-0.16 1) + (-0.08 0) + (1.05 1 0) -3.54 -0.160.0247e e× × × × = =

( ) ( )-3.54 + (-0.16 0) + (-0.08 0) + (1.05 0 0) -3.540.0290e e× × × × = =

Chance de acidente entre os que não têm o toxoplasm a (X1=0)

Chance de acidente entre os que têm o toxoplasma ( X1=1)

Razão das Chances = 0.0652/0.0267= 2.435 = e(-0.16+1.05) = e(ββββ1+ββββ12).

( ) ( )-3.54 + (-0.16 1) + (-0.08 1) + (1.05 1 1) -3.54 -0.16 -0.08+ 1.050.0652e e× × × × = =

Para pessoas com Rh - (X2=1):

Preditora Qualitativa com mais de duas categorias

Se a preditora X é qualitativa com m categorias, devemoscriar m-1 variáveis dummy (indicadoras)para representá-lano modelo.

Exemplo: Variável raça no exemplo da doença coronariana.

categoria de referência

)( 44332201)( RACERACERACEe

x αααβπ+++−+

)386.1792.1079.2386.1( 4321)( RACERACERACE

+++−−+=π

20.0))0(386.1)0(792.1)0(079.2386.1(1

= +++−−ewhiteπ

)386.1792.1079.2386.1( 4321)( RACERACERACE

+++−−+=π

67.0))0(386.1)0(792.1)1(079.2386.1(1

= +++−−eblackπ

60.0))0(386.1)1(792.1)0(079.2386.1(1

= +++−−ehispanπ

50.0))1(386.1)0(792.1)0(079.2386.1(1

= +++−−eothersπ

.)( 2ˆ079.28800200

330670

))(1()(

))(1()(, α

ππππ

e e ..

BBWBOR === ==

−−

Razão das Chances:

,20.0)( =Wπ

,67.0)( =Bπ

,60.0)( =Hπ

,50.0)( =Oπ

.)( 8800200))(1()(

e e ..WW

WBOR === ==−

.)( 32 ˆˆ35.1

400600

330670

))(1()(

))(1()(, 287.0 αα

ππππ −==

−− === e e

BBHBOR

Verificando o Bom Ajuste do Modelo

Lembrando que a regressão logística modela P(Y=1) = ππππem função dos valores das variáveis explicativas X’s:

1)( )...( 110 kk xxe

x βββππ +++−+==

A partir da amostra de valores de Y e das X’s, os coeficientes são estimados por e, assim, estas β β̂os coeficientes são estimados por e, assim, estas probabilidades são estimadas para cada indivíduo i da amostra:

)ˆ...ˆˆ( 110 kiki xxei βββ

π+++−+

β β̂

Valor estimado ou ajustado ou preditoda probabilidade do indivíduo ter Y=1 (ser um sucesso).

0 ≤≤≤≤ ππππ ≤≤≤≤ 1

Se o modelo ajustado é um bom modelo, ou seja,se as variáveis X são boas preditoras da variável Y,então, os indivíduos na amostra:- com Y=1 devem ter valor alto de- com Y=0 devem ter valor baixo de

iπ̂iπ̂

Podemos verificar se o modelo tem um bom ajuste avaliando sua capacidade preditiva, ou seja, se ele é capaz de predizer se o desfecho Y irá ocorrer (Y=1) ou não (Y=0).

Para cada indivíduo i, usar o valor da probabilidade estimada para dizer se, pelo modelo, ele teria ou não o desfecho,como se fosse um teste com resultado positivo/negativo:

1 – Construção da Curva ROC do Modelo

A definição de valor alto ou baixo pode ser feita para váriospontos de corte c entre 0 e 1:

Se é alto, o indivíduo i tem teste positivo, ou seja, ,

Se é baixo, o indivíduo i tem teste negativo, ou seja, .iπ̂iπ̂ 1ˆ =iy

0ˆ =iy

,ˆ ci ≥π,ˆ ci <π

Se o indivíduo i tem resultado positivo no teste do modelo;

Se o indivíduo i tem resultado negativo no teste do modelo.

Verificamos a capacidade de acerto do “teste do modelo” separamente entre os indivíduos com (Y=1) e sem (Y=0) o desfecho na amostra, ou seja, calculamos, para cada ponto de corte,a sensibilidade e a especificidade do “teste do modelo”:

E desenhamos a Curva ROC do Modelo:

Área sob Curva ROC (AUC):

AUC = 0.5 Sem discriminação (como jogar uma moeda)

A área sob a curva ROC (AUC) é uma medida do poder dediscriminação do modelo entre prever sucesso ou fracasso.AUC vai de 0,5 (nenhum poder) a 1 (poder máximo)

Uma área elevada sob a curva ROC sugere que o modelo é capazde predizer com precisão o valor de uma resposta da observação.

Hosmer e Lemeshow fornecem a seguinte regra geral:

0.7 ≤ AUC < 0.8 Discriminação aceitável

0.8 ≤ AUC < 0.9 Discriminação excelente

AUC ≥ 0.9 Discriminação fora de série (mas, extremamente rara)

Deviance TableSource DF Adj Dev Adj Mean Chi-Square P-ValueRegression 2 15.465 7.732 15.46 0.000Verduras 1 3.706 3.706 3.71 0.054Fratura 1 12.504 12.504 12.50 0.000

Error 383 473.581 1.237Total 385 489.046

Rows: FITS1 Columns: Queda

Não Sim All

0.201431 50 11 6181.97 18.03 100.00

0.298129 144 63 20769.57 30.43 100.00

0.323636 42 22 6465.63 34.38 100.0065.63 34.38 100.00

0.446218 91 71 16256.17 43.83 100.00

2 – Testes de Hosmer-Lemeshow e Pearson

Hipótese nula: o modelo está bem ajustado aos dados

Não se rejeita a hipótese nula de bom ajuste se valor-p ≥≥≥≥ αααα(nível de sugnificância escolhido).

Ambos avaliam o modelo ajustado através das distâncias entre as probabilidades ajustadas e as probabilidades observadas.as probabilidades ajustadas e as probabilidades observadas.

O teste de Hosmer-Lemeshow é mais utilizado e confiável.

CoefficientsTerm Coef SE Coef 95% CI Z-Value P-ValueConstant -1.377 0.235 (-1.837; -0.918) -5.87 0.000VerdurasBaixo 0.521 0.233 ( 0.064; 0.978) 2.23 0.025

FraturaSim 0.640 0.194 ( 0.260; 1.020) 3.30 0.001

Goodness-of-Fit Tests

Exemplo das Quedas em Mulheres Idosas.

Goodness-of-Fit TestsTest DF Chi-Square P-ValuePearson 491 493.22 0.463Hosmer-Lemeshow 2 0.37 0.832

Deviance

A deviance tem o mesmo papel que a SQResíduos na regressão linear, ou seja,

é uma medida da variabilidade não explicada pelo modelo.

Assim, para comparar dois modelos encaixados, como os modelos com a variável X (“cheio”) e sem (“reduzido”) , ou seja, testar H0:β1=0, calcula-se a estatísticaou seja, testar H0:β1=0, calcula-se a estatística

G2 = deviance (reduzido) – deviance(cheio).

Se G2 é um valor alto (na distribuição χ2 com 1 g.l.), então houve uma redução significativa na deviance com a introdução de X. Logo, H0 deve ser rejeitada.

(Intercept) -5.30945 1.13365 -4.683 2.82e-06 AGE 0.11092 0.02406 4.610 4.02e-06 ---

Null deviance: 136.66 on 99 degrees of freedomResidual deviance: 107.35 on 98 degrees of freedom

Saída do R

Teste: H0: β1=0 X β1≠0

Estatística G2 = “null deviance” - “residual deviance”= 136.66 - 107.35 = 29.31.

Valor P = P(χ21 > 29.31) < 0.0001 .

modelo sem AGE

modelo com AGE

Seleção de Modelos

Akaike´s Information Criterion: AIC

AIC = deviance – n + 2p p = no. de preditoras

menor AIC , melhor ajuste

menor,melhor

maior,melhor

menor,melhor

P-ValueRegression 0.001F.etaria 0.092Ativ.fisica 0.100Verduras 0.030Fratura 0.000

AIC: 479.03

Regression 0.000

Verduras 0.022Fratura 0.001

AIC: 622.82

Suposições do Modelo

- A distribuição da variável resposta Y condicional

aos valores das preditoras X´s é uma Bernoulli (π(x)):

� observações são independentes.- Não há forte colineriedade (correlação/associação)

entre as preditoras X´s, verificada por:

� medida de correlação (ex. Pearson) p/ X´s quantitativas;� medida de correlação (ex. Pearson) p/ X´s quantitativas;

� tabelas cruzadas (χ2) para X´s qualitativas.� boxplots/histogramas da variável quantitativa dentro

das categorias da variável qualitativa (compara as médias viateste T/ANOVA ou medianas com testes não-paramétricos.

MAE-Aula02-1 [Modo de Compatibilidade]edna/mae/MAE-Aula02-1.pdf · Mas em quanto? Precisamos...

Documents

Transcript of MAE-Aula02-1 [Modo de Compatibilidade]edna/mae/MAE-Aula02-1.pdf · Mas em quanto? Precisamos...

Aula02 cpg elementbasicos

Java Aula02

Jov Aula02

Pp aula02 formacaoculturamassa

Redes 20112 aula02

Aula02 calcula

Aula02 bioquimica

PUB3AN - Aula02

Aula02: OSTEOLOGIA

Digital2 aula02

Aula02 - Herança

AVC 2013 RECOMMANDATIONS TELE-AVC 05.11€¦ · AVC 2013 Recommandations Télé-AVC Pr M. Giroud Neurologie – CHU Dijon Réseau Bourgogne-AVC Réseau Télé-AVC 05.11.13

Pg aula02 oração

Aula02 biogeografia

Aula02 penal

Aplicativo aula02

Aula02 Farmacia

Aula02 cristologia

Cristologia aula02

Aula02 Natureza.do.Projeto