Post on 19-Jun-2022
Introduction a la regression logistique
A. Latouche
1 / 23
Regression Logistique
I On souhaite expliquer une variable reponse Y qualitativebinaire
I On dispose de variable explicatives X1, X2, . . . , Xk
qualitative ou quantitative
I Regression logistique simple k = 1
I Regression logistique multiple k > 1
2 / 23
Regression Logistique simple
I Variable reponse : Y = 0/1
I Variable explicative : X qualitative en 2 (ou plus) classes
I Objectif : Modeliser
P (Y = 1|X = x) = π(x)
I Un modele lineaire n’impose pas de contrainte sur π(x)(∈ [0, 1])
π(x) = a+ b× x
I Alternative : le lien logistique
3 / 23
Origine du lien logistique
On s’interesse a un modele de regression entre l’age (en groupe)et la Maladie coronarienne (CHD)
id agrp chd
1 1 02 1 03 1 1. . .
97 8 098 8 1
I Si au lieu de s’interesser a la variable chd
I on s’interesse a la proportion de chd par classe d’age
4 / 23
Proportion de CHD par classe d’age
Age n CHD absent CHD present proportion
20-29 10 9 1 0.1030-34 15 13 2 0.1335- 39 12 9 3 0.2540-44 15 10 5 0.3345-49 13 7 6 0.4650-54 8 3 5 0.6355-59 17 4 13 0.7660 -69 10 2 8 0.80Total 100 57 43 0.43
5 / 23
Exemple : Age et Coronary Heart Disease Status (chd)
1 2 3 4 5 6 7 8
0.0
0.2
0.4
0.6
0.8
1.0
Age Group
Pro
port
ion
de C
HD
6 / 23
Fonction logit
On definit la fonction de [0, 1]→]−∞,+∞[ par
logit(p) = log(p
1− p)
La quantite p1−p s’appelle un odd (cote)
7 / 23
Fonction logit
0.0 0.2 0.4 0.6 0.8 1.0
−4
−2
02
4
x
log(
x/(1
− x
))
8 / 23
Inversion de la fonction logit
I logit(x) = log(x
1− x)
I l’inverse de la y = logit(x) = log(x
1− x)
I x = exp y1+exp y
9 / 23
0.0 0.2 0.4 0.6 0.8 1.0
−6
−4
−2
02
46
π
η
logit function
η = log( π1 − π
)
−6 −4 −2 0 2 4 6
0.0
0.2
0.4
0.6
0.8
1.0
ηπ
logistic function
π =exp(η)
1 + exp(η)
Figure : Fonction Logit et inverse logit
10 / 23
Regression Logistique Simple
Si π(x) = P (Y = 1|X = x), le modele s’ecrit
logit(π(x)) = a+ bx
Si on dispose d’observation (Xi, Yi)i=1...,n
Comment estimer (a, b) ?Estimateur du maximum de vraisemblance
11 / 23
Regression logistique : Maximum de vraisemblance
On dispose d’observation (xi, yi)i=1...,n ou les yi sont binairesSoit π(x) = P (Y = 1|X = x), le modele de regression logistiques’ecrit
logit(π(x)) = a+ bx
La vraisemblance du modele est
Ln(a, b) =
n∏i=1
π(xi)yi(1− π(xi))
1−yi
a et b sont calcules en utilisant la methode du maximum devraisemblance (solution approchee)log(Ln(a, b)) =
∑ni=1 yi log(π(xi)) + (1− yi) log(1− π(xi))
12 / 23
Interpretation des parametresSoit π(x) = P (Y = 1|X = x)Le modele de regression
logit(π(x)) = a+ bx
peut s’ecrire
P (Y = 1|X = x) =exp(a+ bx)
1 + exp(a+ bx)
Si la variable X est aussi binaire alors
exp(b) = OR
ou OR=Odds Ratio= Rapports de Cotes (Voir association.pdf)
OR =
π(1)1−π(1)π(0)
1−π(0)
13 / 23
Illustration
Toxicite d’un insecticide sur des insectes (femelles et males)
Table : Nombre d’insectes tues parmis 20
Dose[µg] d’insecticide Males Femelles(dc) (dc)
1 1 02 4 24 9 68 13 1016 18 1232 20 16
14 / 23
Unites Statistique
Une observation correspond au nombre d’insectes morts parmis20 insectes exposesLes observations peuvent etre modelisees par une loi Binomiale:Chaque insecte meurt independamment des autres avec uneprobabilite π.Soit
η = logit(π) = logπ
1− π.
Une estimation de π est fournie par π = #insectes morts20
la Fig. 2 represente
I les proportions estimees π = #insectes morts20
I les logits empiriques ≈ log{π/(1− π)}en fonction de log(dose).
15 / 23
M
M
M
M
M
M
F
F
F
F
F
F
0.0 1.0 2.0 3.0
0.0
0.2
0.4
0.6
0.8
1.0
log(dose)
prop
ortio
n
proportion
M
M
M
M
M
M
F
F
F
FF
F
0.0 1.0 2.0 3.0
−4
−2
02
4
log(dose)
empi
rical
logi
t
empirical logit
Figure : Binomial data: proportions et logits empirique.
16 / 23
2 modeles pour la probabilite de deces π semblent plausibles :
πSD = µ+ αS + γ · log(dose) (1)
log(πSD
1− πSD) = logit(πSD) = µ+ αS + γ · log(dose) (2)
Le premier modele pourrait avoir des valeurs plus grandes que 1pour des doses eleveesLa fonction logit evite ce phenomene : on utilisera donc lemodele 2
17 / 23
Interpretation de l’OR
L’etude du lien entre le fait d’etre diabetique et le poids en 10kg donne un OR de 2.
18 / 23
Interpretation de l’OR
I On a etudie y=f(x) avec y=diabetique (oui1/non0),x=poids en kg et f une regression logistique.
I Le modele est donc
P (diabetique|Poids = x Kg) = exp(a+bx)/(1+exp(a+bx))
I La probabilite d’etre diabetique augmente avec le poids carOR > 1.
I Le risque d’etre diabetique est multiplie par 2 a chaque foisque le poids augmente de 10kg.
I Si on compare une personne d’un poids P+10 kg avec unepersonne de poids P, la premiere a un risque 2 fois pluseleve d’etre diabetique.
19 / 23
Regression logistique et Test
L’estimateur du MV est gaussien ce qui permet de construiredes testspour H0 : b = 0On utilisera soit
1. Test de Wald
2. Test du Score
3. Test du rapport de vraisemblance
A retenir : ces 3 tests sont equivalents et suiventasymptotiquement une loi du χ2(1)
20 / 23
Le test de Wald compare l’ecart entre le coefficienttheorique et sa valeur estimee (en abscisse)
21 / 23
Le test du RV compare la difference en ordonnee
22 / 23
Le test du Score compare a zero la pente de la tangenteau point theorique
23 / 23