Post on 30-Dec-2015
description
Les équations de la régression logistique – Deux variables indépendantes
dichotomiques Le tableau s’écrit alors
X1 X2
1 1X1=1 ; X2=1
0 1X1=0 ; X2=1
1 0 X1=1 ; X2=0
0 0 X1=0 ; X2=0
Y=1 A C E G
Y=0 B D F H
Total A+C C+D E+F G+H
Deux variables indépendantes dichotomiques
2211)( XXxg
X1 X2
1 1X1=1 X2=1
0 1X1=0X2=1
1 0 X1=1 X2=0
0 0 X1=0 X2=0
Y=1 A C E G
Y=0 B D F H
Total A+C C+D E+F G+H
]/ln[ HG Avec
]**[ln][ln1
GFHE
HGF
E
Ici la référence est
X1=0 et X2=0]
**[ln][ln2
DGHC
HGD
C
L’équation
Deux variables indépendantes dichotomiques
2211)( XXxg
)11(1 XORe
Ici la référence est
X1=0 et X2=0
)12(2 XORe
L’équation
X1 X2
1 1X1=1 X2=1
0 1X1=0X2=1
1 0 X1=1 X2=0
0 0 X1=0 X2=0
Y=1 A C E G
Y=0 B D F H
Total A+C C+D E+F G+H
Deux variables indépendantes dichotomiques
2211)( XXxg
X1 X2
1 1X1=1 X2=1
0 1X1=0X2=1
1 0 X1=1 X2=0
0 0 X1=0 X2=0
Y=1 a1 b1 a0 b0
Y=0 c1 d1 c0 d0
Total n11 n01 n10 n00
ee
21
21
1)1,1(
ee
1)0,0(
Ici la référence est
X1=0 et X2=0
L’équation
ee
1
1
1)0,1(
ee
2
2
1)1,0(
INTRODUCTION DE LA MESURE DE L’INTERACTION
212211)( XXXXxg
X1 X2
1 1X1=1 X2=1
0 1X1=0X2=1
1 0 X1=1 X2=0
0 0 X1=0 X2=0
Y=1 A C E G
Y=0 B D F H
Total A+C C+D E+F G+H
]**[log
]**[log
]**[log
DGHCGFHE
BGHA
]/ln[ HG Avec
]**[log1
GFHE
Ici la référence est
X1=0 et X2=0
]**[log2
DGHC
L’équation
212211)( XXXXxg
X1 X2
1 1X1=1 X2=1
0 1X1=0X2=1
1 0 X1=1 X2=0
0 0 X1=0 X2=0
Y=1 A C E G
Y=0 B D F H
Total A+C C+D E+F G+H
nInteractioe
)11(1 XORe
Ici la référence est
X1=0 et X2=0
)12(2 XORe
L’équation
INTRODUCTION DE LA MESURE DE L’INTERACTION
212211)( XXXXxg
X1 X2
1 1X1=1 X2=1
0 1X1=0X2=1
1 0 X1=1 X2=0
0 0 X1=0 X2=0
Y=1 A C E G
Y=0 B D F H
Total A+C C+D E+F G+H
ee
21
21
1)1,1(
ee
1)0,0(
Ici la référence est
X1=0 et X2=0
L’équation
ee
1
1
1)0,1(
ee
2
2
1)1,0(
INTRODUCTION DE LA MESURE DE L’INTERACTION
Application numérique (exemple 2.2 du site)source : http://www.uquebec.ca/
Soit un échantillon de 7000 naissances. On cherche à expliquer une variable :
Y « peser (=1) ou ne pas peser (Y=0) moins de 2500 grammes à la naissance » par deux variables dichotomique
X1 : être (X1=1) fumeuse ou ne pas être fumeuse (X1=0)
X2 : avoir (X2=1) ou non (X2=0) des antécédents de prématurité
X1 X2
1 1 0 1 1 0 0 0
Y=1 100 50 50 50
Y=0 475 475 2320 3480
Total 575 525 2370 3530
Application numérique (exemple 2.2 du site)http://www.uquebec.ca/reglog/exemp02.htm#exm2.2
Calculer :
les valeurs des différents coefficients
Calculer les différents risques estimés
X1 X2
1 1 0 1 1 0 0 0
Y=1 100 50 50 50
Y=0 475 475 2320 3480
Total 575 525 2370 3530
Deux variables indépendantes dichotomiques
2
2428,4]3480/50ln[
Avec « 00 » comme référence
4055,0]50*2320
3480*50ln[ 19915,1]
50*4753480*50[ln
2877,00455,09915,1]50*475
3480*100[ln
X1 X2
1 1 0 1 1 0 0 0
Y=1 100 50 50 50
Y=0 475 475 2320 3480
Total 575 525 2370 3530
L’équation s’écrit alors
g(X1,X2)= -4,2428+ 0,4055*X1 + 1,9915*X2 + 0,2877*X1*X2
Deux variables indépendantes dichotomiques
Avec « 00 » comme référence
1739,01
)1,1(2877,01915,00455,02428,4
2877,01915,00455,02428,4
ee
014,01
)0,0(2428,4
2428,4
ee
0211,01
)0,1(4055,02428,4
4055,02428,4
ee
0952,1
)1,0(9915,124,4
9915,124,4
ee
g(X1,X2)= -4,2428+ 0,4055*X1 + 1,9915*X2 + 0,2877X1*X2)
Programme SAS associé (ex2)proc logistic data =ex2 descending ;class
Fumeuse (ref="0") Ant (ref="0") / param=ref ;
model Premat = Fumeuse Ant Fumeuse*Ant;
output out=b1 predicted=probest ;weight eff ;run ;
Modèle déclaré avec les interactions
Lire les proportions estimées dans la table b1 de la librairie WORK
Lecture des sorties SAS (ex1)Partie « Parameter estimates »
Parameter DF Estimate Error Chi-Square Pr > ChiSq
Intercept 1 -4.2427 0.1424 887.3377 <.0001
Fumeuse 1 0.4054 0.2018 4.0362 0.0445
Antécédant 1 1.9914 0.2059 93.5493 <.0001
Interaction 1 0.2879 0.2737 1.1060 0.2930
Odds Ratio Estimates
Point 95% Wald
Effect Estimate Confidence Limits
Fumeuse 1.500 1.010 2.227
Antécédant 7.326 4.893 10.967
Interaction 1.334 0.780 2.280
La table sortie b1
Premat Fumeuse AntProbabilité
estimée
1 1 1 17,4%
1 1 0 2,1%
1 0 1 9,5%
1 0 0 1,4%
Les probabilités données par le modèle sont équivalentes aux proportions calculées à partir
des données observées
Programme SAS associé (ex2)proc logistic data =ex2 descending ;class
Fumeuse (ref="0") Ant (ref="0") / param=ref ;
model Premat = Fumeuse Ant;
output out=b1 predicted=probest ;weight eff ;run ;
Modèle déclaré sans l’interaction car non significative
Lire les proportions estimées dans la table b2 de la librairie WORK
Analysis of Maximum Likelihood Estimates
Standard WaldParameter DF Estimate Error Chi-Square Pr > ChiSq
Intercept 1 -4.3243 0.1243 1209.8527 <.0001Fumeuse 1 1 0.5631 0.1354 17.2963 <.0001Ant 1 1 2.1556 0.1346 256.5120 <.0001
Odds Ratio Estimates
Point 95% Wald Effect Estimate Confidence Limits
Fumeuse 1 vs 0 1.756 1.347 2.290 Ant 1 vs 0 8.633 6.631 11.239
Lecture des sorties SAS (ex2)Partie « Parameter estimates »
La table sortie b2
Premat Fumeuse AntProbabilité
estimée
1 1 1 16,7%
1 1 0 2,3%
1 0 1 10,3%
1 0 0 1,3%
Les probabilités estimées sont DIFFERENTES des proportions calculées à partir des données
observées MAIS PROCHES
Les équations de la régression logistique Deux variables indépendantes dont une polythomique (plus de deux modalités)
X1 Z1 Z2
1 0 1 0 0 1 1 1 0 0 1 0 1 0 0 0 0 0 Total
Y=1 37 158 58 57 208 42 560
Y=0 189 1616 223 662 2074 1676 6440
Total 226 1774 281 719 2282 1718 7000
Soit l’échantillon de 7000 naissances. Y « peser (=1) ou ne pas peser (Y=0) moins de 2500 grammes à la naissance » par deux variables dichotomiqueX1 : être (X1=1) fumeuse ou ne pas être fumeuse (X1=0)X2 : avoir moins de 20 ans (Z1=1) 30 ans ou plus (Z2=1) ou entre 20 ans et 30 ans (Z1=Z2=0)
SITUATION DE REFERENCE = « Non fumeuse ; âgée entre 21 et 29 ans »
Programme SAS associé (ex3)proc logistic data =ex3 descending ;class Fumeuse (ref="0") Age20m (ref="0") Age30p (ref="0") / param=ref ;
model Premat = Fumeuse Age20m Age30p
Fumeuse*Age20m Fumeuse*Age30p Age20m*Age30p ;
output out=b3 predicted=probest ;weight eff ;run ;
Parameter DF Estimate Error Chi-Square Pr > ChiSq
Intercept 1 -3.6865 0.1562 556.8384 <.0001
x 1 1.3868 0.1723 64.7629 <.0001
z1 1 1.2343 0.2085 35.0533 <.0001
z2 1 1.3614 0.1771 59.1102 <.0001
z1x 1 -0.2813 0.2655 1.1228 0.2893
z2x 1 -0.6925 0.2626 6.9541 0.0084
Odds Ratio Estimates
Point 95% Wald
Effect Estimate Confidence Limits
x 4.002 2.855 5.610
z1 3.436 2.283 5.170
z2 3.902 2.757 5.520
z1x 0.755 0.449 1.270
z2x 0.500 0.299 0.837
Parameter DF Estimate
Intercept 1 -3.6865 Fumeuse 1 1 1.3868 Age20m 1 1 1.2343 Age30p 1 1 1.3614 Fumeuse*Age20m 1 1 1 -0.2813 Fumeuse*Age30p 1 1 1 -0.6925
g(X1 ;Z1,Z2) = -3,68 + 1,38 X1 + 1,23 Z1 + 1,36 Z2 - 0,28 X1*Z1 -0,69 X1*Z2
L’équation s’écrit
Lecture des sorties SAS (ex3) Pr > ChiSq
<.0001 <.0001 <.0001 <.0001 0.2893 0.0084
Effect Point Estimate Confidence Limits
Fumeuse 4.002 2.855 5.610Age20m 3.436 2.283 5.170Age30p 3.902 2.757 5.520Fumeuse*Age20m 0.755 0.449 1.270Fumeuse*Age30p 0.500 0.299 0.837
OR = e 1,3868
Le rapport entre les enfants de moins de 2500 et ceux de plus de 2500g est 4 fois plus important chez les fumeuses âgées de 20-30 ans que chez les non fumeuses du même groupe d’âges.
mesure l’association entre " le fait de -faible poids à la naissance (Y)-fumer pendant la grossesse (X1)-âge "20<=age<30 ans« (Z)
e -0,2823 = 0,755 = 3,02/4,002 l’effet modifiant de l'âge de la mère sur l’association entre " le fait de fumer " et " le faible poids à la naissance
Cet effet d’interaction est marqué par le coefficient négatif de Z1 : -0,2813
Fumeuse * Age30p = effet négatif = avoir 30 ans diminue le risque d’avoir un enfant prématuré quand on est fumeuse.
L’effet est significatif !!!
-OR n’est pas significatif. Ic compris de chacun des côté de 1
Pour mesurer l’association entre
-le " faible poids à la naissance (Y=1)«
- le fait de fumer pendant la grossesse (X1=1 )
-l'âge de la mère est "<20 ans" :
Vaut : e (1,3868*1-0,2813*1)=3,02 = OR
Programme SAS sans les associations entre les variables
proc logistic data =ex3 descending ;class Fumeuse (ref="0") Age20m (ref="0") Age30p (ref="0") / param=ref ;
model Premat = Fumeuse Age20m Age30p ;
output out=b3 predicted=probest ;weight eff ;run ;
Standard Wald Parameter DF Estimate Error Chi-Square Pr > ChiSq Intercept 1 -3.4521 0.1039 1104.9237 <.0001 Fumeuse 1 1 1.0942 0.1032 112.4182 <.0001 Age20m 1 1 1.0052 0.1246 65.1283 <.0001 Age30p 1 1 1.0479 0.1160 81.6171 <.0001
Odds Ratio Estimates Point 95% Wald Effect Estimate Confidence Limits Fumeuse 1 vs 0 2.987 2.440 3.656 Age20m 1 vs 0 2.732 2.141 3.488 Age30p 1 vs 0 2.852 2.272 3.580
Commenter
Calculer la probabilité pour une femme fumeuse de moins de 20 ans d’avoir un enfant de moins de 2500 grammes d’après ce modèle 20,54%
Donner l’équation du modèle
Comparer avec la proportion observée dans la population 20,64%