Introduction à la régression logistique

Introduction a la regression logistique

A. Latouche

1 / 23

Regression Logistique

I On souhaite expliquer une variable reponse Y qualitativebinaire

I On dispose de variable explicatives X1, X2, . . . , Xk

qualitative ou quantitative

I Regression logistique simple k = 1

I Regression logistique multiple k > 1

2 / 23

Regression Logistique simple

I Variable reponse : Y = 0/1

I Variable explicative : X qualitative en 2 (ou plus) classes

I Objectif : Modeliser

P (Y = 1|X = x) = π(x)

I Un modele lineaire n’impose pas de contrainte sur π(x)(∈ [0, 1])

π(x) = a+ b× x

I Alternative : le lien logistique

3 / 23

Origine du lien logistique

On s’interesse a un modele de regression entre l’age (en groupe)et la Maladie coronarienne (CHD)

id agrp chd

1 1 02 1 03 1 1. . .

97 8 098 8 1

I Si au lieu de s’interesser a la variable chd

I on s’interesse a la proportion de chd par classe d’age

4 / 23

Proportion de CHD par classe d’age

Age n CHD absent CHD present proportion

20-29 10 9 1 0.1030-34 15 13 2 0.1335- 39 12 9 3 0.2540-44 15 10 5 0.3345-49 13 7 6 0.4650-54 8 3 5 0.6355-59 17 4 13 0.7660 -69 10 2 8 0.80Total 100 57 43 0.43

5 / 23

Exemple : Age et Coronary Heart Disease Status (chd)

1 2 3 4 5 6 7 8

Age Group

6 / 23

Fonction logit

On definit la fonction de [0, 1]→]−∞,+∞[ par

logit(p) = log(p

1− p)

La quantite p1−p s’appelle un odd (cote)

7 / 23

Fonction logit

0.0 0.2 0.4 0.6 0.8 1.0

8 / 23

Inversion de la fonction logit

I logit(x) = log(x

1− x)

I l’inverse de la y = logit(x) = log(x

1− x)

I x = exp y1+exp y

9 / 23

0.0 0.2 0.4 0.6 0.8 1.0

logit function

η = log( π1 − π

−6 −4 −2 0 2 4 6

logistic function

π =exp(η)

1 + exp(η)

Figure : Fonction Logit et inverse logit

10 / 23

Regression Logistique Simple

Si π(x) = P (Y = 1|X = x), le modele s’ecrit

logit(π(x)) = a+ bx

Si on dispose d’observation (Xi, Yi)i=1...,n

Comment estimer (a, b) ?Estimateur du maximum de vraisemblance

11 / 23

Regression logistique : Maximum de vraisemblance

On dispose d’observation (xi, yi)i=1...,n ou les yi sont binairesSoit π(x) = P (Y = 1|X = x), le modele de regression logistiques’ecrit

La vraisemblance du modele est

Ln(a, b) =

n∏i=1

π(xi)yi(1− π(xi))

1−yi

a et b sont calcules en utilisant la methode du maximum devraisemblance (solution approchee)log(Ln(a, b)) =

∑ni=1 yi log(π(xi)) + (1− yi) log(1− π(xi))

12 / 23

Interpretation des parametresSoit π(x) = P (Y = 1|X = x)Le modele de regression

peut s’ecrire

P (Y = 1|X = x) =exp(a+ bx)

1 + exp(a+ bx)

Si la variable X est aussi binaire alors

exp(b) = OR

ou OR=Odds Ratio= Rapports de Cotes (Voir association.pdf)

π(1)1−π(1)π(0)

1−π(0)

13 / 23

Illustration

Toxicite d’un insecticide sur des insectes (femelles et males)

Table : Nombre d’insectes tues parmis 20

Dose[µg] d’insecticide Males Femelles(dc) (dc)

1 1 02 4 24 9 68 13 1016 18 1232 20 16

14 / 23

Unites Statistique

Une observation correspond au nombre d’insectes morts parmis20 insectes exposesLes observations peuvent etre modelisees par une loi Binomiale:Chaque insecte meurt independamment des autres avec uneprobabilite π.Soit

η = logit(π) = logπ

1− π.

Une estimation de π est fournie par π = #insectes morts20

la Fig. 2 represente

I les proportions estimees π = #insectes morts20

I les logits empiriques ≈ log{π/(1− π)}en fonction de log(dose).

15 / 23

0.0 1.0 2.0 3.0

log(dose)

proportion

0.0 1.0 2.0 3.0

log(dose)

empirical logit

Figure : Binomial data: proportions et logits empirique.

16 / 23

2 modeles pour la probabilite de deces π semblent plausibles :

πSD = µ+ αS + γ · log(dose) (1)

log(πSD

1− πSD) = logit(πSD) = µ+ αS + γ · log(dose) (2)

Le premier modele pourrait avoir des valeurs plus grandes que 1pour des doses eleveesLa fonction logit evite ce phenomene : on utilisera donc lemodele 2

17 / 23

Interpretation de l’OR

L’etude du lien entre le fait d’etre diabetique et le poids en 10kg donne un OR de 2.

18 / 23

Interpretation de l’OR

I On a etudie y=f(x) avec y=diabetique (oui1/non0),x=poids en kg et f une regression logistique.

I Le modele est donc

P (diabetique|Poids = x Kg) = exp(a+bx)/(1+exp(a+bx))

I La probabilite d’etre diabetique augmente avec le poids carOR > 1.

I Le risque d’etre diabetique est multiplie par 2 a chaque foisque le poids augmente de 10kg.

I Si on compare une personne d’un poids P+10 kg avec unepersonne de poids P, la premiere a un risque 2 fois pluseleve d’etre diabetique.

19 / 23

Regression logistique et Test

L’estimateur du MV est gaussien ce qui permet de construiredes testspour H0 : b = 0On utilisera soit

1. Test de Wald

2. Test du Score

3. Test du rapport de vraisemblance

A retenir : ces 3 tests sont equivalents et suiventasymptotiquement une loi du χ2(1)

20 / 23

Le test de Wald compare l’ecart entre le coefficienttheorique et sa valeur estimee (en abscisse)

21 / 23

Le test du RV compare la difference en ordonnee

22 / 23

Le test du Score compare a zero la pente de la tangenteau point theorique

23 / 23

Introduction à la régression logistique

Documents

Transcript of Introduction à la régression logistique

Comparaison de modèles de régression logistique …archimede.mat.ulaval.ca/theses/B-Beauregard_13.pdf · Comparaison de modèles de régression logistique utilisés pour l’analyse

Les équations de la régression logistique – Deux variables indépendantes dichotomiques

A2DI: Régression logistique

Régression Logistique Binaire et Polytomique...logistique. Il nous aide à comprendre ce qui est important dans les sorties de logiciels. Il fait beaucoup référence aux principaux

Régression logistique

Comparaison de modèles de régression logistique utilisés ...

Régression logistique Eugénie Dostie-Goulet

Régression logistique...16 G. Gasso, S. Canu Régression logistique 3/22 Probabilité a postériori, cote et score QuelleestlaprobabilitéPr(C 1=x) quechaqueimagesoitun3? x = 5 10

Statistiques1 Licence STE 2eme année. Statistiques2 1.Introduction 2.Coefficient de corrélation Principe Interprétation 3.Modèles de régression Régression.

INTRODUCTION A LA LOGISTIQUE. 1/ L HISTORIQUE DE LA LOGISTIQUE - De lAntiquité au XIXème siècle - La logistique au début du XXème siècle 2/ LA LOGISTIQUE.

Régression logistique vs autres modèles linéaires ...

Pratique de la régression logistique – Régression logistique binaire

La régression logistique - perso.univ-rennes1.fr · Introduction •La régression logistique s’applique au cas où: Y est qualitative à 2 modalités X k qualitatives ou quantitatives

STATISTIQUE - Corrélation, Régression et Ajustement · Corrélation, Régression et Ajustements 1 - Introduction H. Schyns 1.1 1. Introduction Attention ! Ces notes ne sont pas

Régression logistique avec R - GitHub Pages

Modèle Logistique Multinomial et Ordinalmaths.cnam.fr/IMG/pdf/mult_ord_log_regr_fr_cle021178.pdfGiorgio Russolillo – Régression Logistique Multinomiale et Ordinale Slide 5 Le modèle

Régression logistique avec R - perso.univ-rennes2.fr · Université Rennes 2, UFR Sciences Sociales Régression logistique avec R Laurent Rouvière Université Rennes 2 Place du

La Régression Logistique - Studies2

Séance 3: Régression logistique et réseaux de …...S´eance 3: R egression logistique et r´ ´eseaux de neurones Regression logistique´ Introduction - Modele` Introduction -

1 Michel Tenenhaus La Régression Logistique Michel Tenenhaus.