1 Régression logistique et analyse discriminante : comparaisons théoriques et pratiques Gilbert...
-
Upload
aude-ribeiro -
Category
Documents
-
view
109 -
download
2
Transcript of 1 Régression logistique et analyse discriminante : comparaisons théoriques et pratiques Gilbert...
![Page 1: 1 Régression logistique et analyse discriminante : comparaisons théoriques et pratiques Gilbert Saporta Conservatoire National des Arts et Métiers saporta@cnam.fr.](https://reader038.fdocument.pub/reader038/viewer/2022102900/551d9da2497959293b8d1f67/html5/thumbnails/1.jpg)
1
Régression logistique et analyse discriminante : comparaisons théoriques et pratiques
Gilbert SaportaConservatoire National des Arts et Mé[email protected]://cedric.cnam.fr/~saporta
![Page 2: 1 Régression logistique et analyse discriminante : comparaisons théoriques et pratiques Gilbert Saporta Conservatoire National des Arts et Métiers saporta@cnam.fr.](https://reader038.fdocument.pub/reader038/viewer/2022102900/551d9da2497959293b8d1f67/html5/thumbnails/2.jpg)
2
Bibliographie Bardos: « Analyse discriminante », Dunod, 2001 Celeux, Nakache :« Analyse discriminante sur
variables qualitatives» Polytechnica ,1994 Droesbeke, Lejeune, Saporta (éditeurs): « Modèles
statistiques pour données qualitatives » Technip, 2005 Hastie, Tibshirani, Friedman : « The Elements of
Statistical Learning », Springer-Verlag, 2001 Hosmer, Lemeshow : «Applied logistic regression»,
Wiley, 2000 Nakache, Confais: « Statistique explicative appliquée
», Technip, 2003 Thomas, Edelman,Crook: « Credit scoring and its
applications », SIAM, 2002
![Page 3: 1 Régression logistique et analyse discriminante : comparaisons théoriques et pratiques Gilbert Saporta Conservatoire National des Arts et Métiers saporta@cnam.fr.](https://reader038.fdocument.pub/reader038/viewer/2022102900/551d9da2497959293b8d1f67/html5/thumbnails/3.jpg)
3
Plan
I L’analyse discriminante II La régression logistiqueIII Prédicteurs qualitatifs et scoringIV Comparaison
![Page 4: 1 Régression logistique et analyse discriminante : comparaisons théoriques et pratiques Gilbert Saporta Conservatoire National des Arts et Métiers saporta@cnam.fr.](https://reader038.fdocument.pub/reader038/viewer/2022102900/551d9da2497959293b8d1f67/html5/thumbnails/4.jpg)
4
Objet d’étude
Observations multidimensionnelles réparties en k groupes définis a priori. K=2 le plus souvent
Exemples d’application : Pronostic des infarctus (J.P. Nakache)
• 2 groupes : décès, survie (variables médicales) Iris de Fisher :
• 3 espèces : 4 variables (longueur et largeur des pétales et sépales)
Risque des demandeurs de crédit• 2 groupes : bons, mauvais (variables qualitatives)
Autres : • Publipostage, reclassement dans une typologie.
![Page 5: 1 Régression logistique et analyse discriminante : comparaisons théoriques et pratiques Gilbert Saporta Conservatoire National des Arts et Métiers saporta@cnam.fr.](https://reader038.fdocument.pub/reader038/viewer/2022102900/551d9da2497959293b8d1f67/html5/thumbnails/5.jpg)
5
Quelques dates :
Analyse discriminante Mahalanobis (crâniologie) 1927 Fisher (biométrie) 1936
Régression logistique Berkson (biostatistique) 1944 Cox 1958 Mc Fadden (économétrie) 1973
![Page 6: 1 Régression logistique et analyse discriminante : comparaisons théoriques et pratiques Gilbert Saporta Conservatoire National des Arts et Métiers saporta@cnam.fr.](https://reader038.fdocument.pub/reader038/viewer/2022102900/551d9da2497959293b8d1f67/html5/thumbnails/6.jpg)
6
1. Aspect géomètrique:- Réduction de dimension, axes et
variables discriminantes.- Cas de 2 groupes.- Méthodes géométriques de
classement.
2. AD probabiliste
I : L’analyse discriminante
![Page 7: 1 Régression logistique et analyse discriminante : comparaisons théoriques et pratiques Gilbert Saporta Conservatoire National des Arts et Métiers saporta@cnam.fr.](https://reader038.fdocument.pub/reader038/viewer/2022102900/551d9da2497959293b8d1f67/html5/thumbnails/7.jpg)
7
Représentation des données
n points dans p appartenant à k groupes.
1 21 1 1 1
1 2
1 2
1 2 1 2
1
2
...
0 1 ... 0
1 0 ... 0
...
0 0 ... 1
1 0 ... 0
indicatrices des groupes variables explicatives
j p
j pi i i i
j pn n n n
k j p
i
n
X X X X
X X X X
X X X X
![Page 8: 1 Régression logistique et analyse discriminante : comparaisons théoriques et pratiques Gilbert Saporta Conservatoire National des Arts et Métiers saporta@cnam.fr.](https://reader038.fdocument.pub/reader038/viewer/2022102900/551d9da2497959293b8d1f67/html5/thumbnails/8.jpg)
8
Réduction de dimension. Recherche d’axes et de variables discriminantes.
Dispersion intergroupe et dispersion intra groupe.
W = matrice variance intra W = 1/n ni Vi
B = matrice variance inter B = 1/n ni (gi - g) (gi - g)’
V = W + B variance totale
V1
g1
V2
g2
Vk
gk
![Page 9: 1 Régression logistique et analyse discriminante : comparaisons théoriques et pratiques Gilbert Saporta Conservatoire National des Arts et Métiers saporta@cnam.fr.](https://reader038.fdocument.pub/reader038/viewer/2022102900/551d9da2497959293b8d1f67/html5/thumbnails/9.jpg)
9
Axes discriminants : deux objectifs
Dispersion intraclasse minimale : min u’Wu
Dispersion interclasse maximale : max u’Bu
u
g2
gkg1
![Page 10: 1 Régression logistique et analyse discriminante : comparaisons théoriques et pratiques Gilbert Saporta Conservatoire National des Arts et Métiers saporta@cnam.fr.](https://reader038.fdocument.pub/reader038/viewer/2022102900/551d9da2497959293b8d1f67/html5/thumbnails/10.jpg)
10
Simultanéité impossible
Compromis :
-1 -1
min max
max
V W B
u V u u W u u B u
u B u u B uou
u V u u W u
V Bu u W Bu u
min ' min i
max ' max
u Wu Wu u
u Bu Bu u i
![Page 11: 1 Régression logistique et analyse discriminante : comparaisons théoriques et pratiques Gilbert Saporta Conservatoire National des Arts et Métiers saporta@cnam.fr.](https://reader038.fdocument.pub/reader038/viewer/2022102900/551d9da2497959293b8d1f67/html5/thumbnails/11.jpg)
11
ACP du nuage des gi avec :Métrique V-1
Métrique W-1 Mahalanobis
1
-1
a) Bu u
Bu u
Bu (W B)u
1- Bu Wu
b) W Bu u u1-
V
V
![Page 12: 1 Régression logistique et analyse discriminante : comparaisons théoriques et pratiques Gilbert Saporta Conservatoire National des Arts et Métiers saporta@cnam.fr.](https://reader038.fdocument.pub/reader038/viewer/2022102900/551d9da2497959293b8d1f67/html5/thumbnails/12.jpg)
12
Nombre d’axes discriminants
ACP des groupes : dimension de l’espace contenant les groupes gi
Si n>p>k (cas usuel), k-1 axes discriminantsExemple célèbre : Iris de Fisher
• K = 3 Setosa, Versicolor, Virginica• P=4 longueur pétale, longueur sépale, largeur pétale,
largeur sépale
• n1=n2=n3 =50
Donc deux axes
![Page 13: 1 Régression logistique et analyse discriminante : comparaisons théoriques et pratiques Gilbert Saporta Conservatoire National des Arts et Métiers saporta@cnam.fr.](https://reader038.fdocument.pub/reader038/viewer/2022102900/551d9da2497959293b8d1f67/html5/thumbnails/13.jpg)
13
Iris setosa Iris versicolor Iris virginica
![Page 14: 1 Régression logistique et analyse discriminante : comparaisons théoriques et pratiques Gilbert Saporta Conservatoire National des Arts et Métiers saporta@cnam.fr.](https://reader038.fdocument.pub/reader038/viewer/2022102900/551d9da2497959293b8d1f67/html5/thumbnails/14.jpg)
14
![Page 15: 1 Régression logistique et analyse discriminante : comparaisons théoriques et pratiques Gilbert Saporta Conservatoire National des Arts et Métiers saporta@cnam.fr.](https://reader038.fdocument.pub/reader038/viewer/2022102900/551d9da2497959293b8d1f67/html5/thumbnails/15.jpg)
15
![Page 16: 1 Régression logistique et analyse discriminante : comparaisons théoriques et pratiques Gilbert Saporta Conservatoire National des Arts et Métiers saporta@cnam.fr.](https://reader038.fdocument.pub/reader038/viewer/2022102900/551d9da2497959293b8d1f67/html5/thumbnails/16.jpg)
16
Cas de deux groupes
g1 et g2 sont sur une une droite : 1 seul axe discriminant :
RAPPEL : en ACP axe a, facteur u = M a
Combinaison discriminante proportionnelle à M (g2 - g1) = W-1 (g2 - g1) ou V-1 (g2 - g1)
FONCTION DE FISHER :
1 12 1
1 12 1
2 1
( )p p
X X
W g g W
X X
e
a
d e a
e Ma e uM
,
a g g ( )1 2
![Page 17: 1 Régression logistique et analyse discriminante : comparaisons théoriques et pratiques Gilbert Saporta Conservatoire National des Arts et Métiers saporta@cnam.fr.](https://reader038.fdocument.pub/reader038/viewer/2022102900/551d9da2497959293b8d1f67/html5/thumbnails/17.jpg)
17
Historique
pj
jj=1
1 2
d
1, 2 p
-11 2
-
Historiquement : d= u x =X u
d -dTest (de Student) de comparaison de 2 moyennes : T=
s
Fisher (1936)
Trouver u , u , ..., u tel que T maximal.
Solution : u proportionnel à W g -g
Nota : W
1 -1 21 2
1 2 1 2 p
n ng -g =α V g -g avec : α=1+ D
n n-2
![Page 18: 1 Régression logistique et analyse discriminante : comparaisons théoriques et pratiques Gilbert Saporta Conservatoire National des Arts et Métiers saporta@cnam.fr.](https://reader038.fdocument.pub/reader038/viewer/2022102900/551d9da2497959293b8d1f67/html5/thumbnails/18.jpg)
18
Distance de MAHALANOBIS
Distance au sens de la métrique W-1.
1. pour p=1 :
2. p quelconque :
Standardisation de chaque composante xj
Décorrélation...
2 11 2 1 2'pD g g W g g
2
2 1 21 ~ F 1, n-2
x xD
g1
Dp g2
2 11 2 1 2
2 1/ 2 1/ 21 2 1 2
1/2
'
p
p
W X
D g g W g g
D g g W W g g
![Page 19: 1 Régression logistique et analyse discriminante : comparaisons théoriques et pratiques Gilbert Saporta Conservatoire National des Arts et Métiers saporta@cnam.fr.](https://reader038.fdocument.pub/reader038/viewer/2022102900/551d9da2497959293b8d1f67/html5/thumbnails/19.jpg)
19
Équivalence régression
1
2
1
21 2
1 221 2
1 2
a si G
b si G
ˆRégression : ' '
n n ˆ a= et b= - y 0 alors 2 n n
p
p
Y
y X e X X X y
DSi V g g R
n nD
n n
22
21 2
( 2)
1p
n n RD
n n R
![Page 20: 1 Régression logistique et analyse discriminante : comparaisons théoriques et pratiques Gilbert Saporta Conservatoire National des Arts et Métiers saporta@cnam.fr.](https://reader038.fdocument.pub/reader038/viewer/2022102900/551d9da2497959293b8d1f67/html5/thumbnails/20.jpg)
20
Équivalence régressionMAIS : Modèle linéaire usuel non valide :
en discriminante c’est l’inverse que l’on suppose :
/ ~ ; ix y N
2/ ~ ; y x N x I
![Page 21: 1 Régression logistique et analyse discriminante : comparaisons théoriques et pratiques Gilbert Saporta Conservatoire National des Arts et Métiers saporta@cnam.fr.](https://reader038.fdocument.pub/reader038/viewer/2022102900/551d9da2497959293b8d1f67/html5/thumbnails/21.jpg)
21
Conséquences
Pas de test,pas d’erreurs standard sur les coefficients
MAIS possibilité d’utiliser les méthodes de pas à pas en régression.
Aussi une source de malentendus…
![Page 22: 1 Régression logistique et analyse discriminante : comparaisons théoriques et pratiques Gilbert Saporta Conservatoire National des Arts et Métiers saporta@cnam.fr.](https://reader038.fdocument.pub/reader038/viewer/2022102900/551d9da2497959293b8d1f67/html5/thumbnails/22.jpg)
22
Obs C PRONO FRCAR INCAR INSYS PRDIA PAPUL PVENT REPUL 1 2 SURVIE 90 1.71 19.0 16 19.5 16.0 912 2 1 DECES 90 1.68 18.7 24 31.0 14.0 1476 3 1 DECES 120 1.40 11.7 23 29.0 8.0 1657 4 2 SURVIE 82 1.79 21.8 14 17.5 10.0 782 5 1 DECES 80 1.58 19.7 21 28.0 18.5 1418 6 1 DECES 80 1.13 14.1 18 23.5 9.0 1664 7 2 SURVIE 94 2.04 21.7 23 27.0 10.0 1059 8 2 SURVIE 80 1.19 14.9 16 21.0 16.5 1412 9 2 SURVIE 78 2.16 27.7 15 20.5 11.5 759 10 2 SURVIE 100 2.28 22.8 16 23.0 4.0 807 11 2 SURVIE 90 2.79 31.0 16 25.0 8.0 717 12 2 SURVIE 86 2.70 31.4 15 23.0 9.5 681 13 2 SURVIE 80 2.61 32.6 8 15.0 1.0 460 14 2 SURVIE 61 2.84 47.3 11 17.0 12.0 479 15 2 SURVIE 99 3.12 31.8 15 20.0 11.0 513 16 2 SURVIE 92 2.47 26.8 12 19.0 11.0 615 17 2 SURVIE 96 1.88 19.6 12 19.0 3.0 809 18 2 SURVIE 86 1.70 19.8 10 14.0 10.5 659 19 2 SURVIE 125 3.37 26.9 18 28.0 6.0 665 20 2 SURVIE 80 2.01 25.0 15 20.0 6.0 796
![Page 23: 1 Régression logistique et analyse discriminante : comparaisons théoriques et pratiques Gilbert Saporta Conservatoire National des Arts et Métiers saporta@cnam.fr.](https://reader038.fdocument.pub/reader038/viewer/2022102900/551d9da2497959293b8d1f67/html5/thumbnails/23.jpg)
23
FONCTION LINEAIRE DISCRIMINANTE VARIABLES CORRELATIONS COEFFICIENTS ECARTS T PROBA........ VARIABLES FONCTION REGRESSION TYPES STUDENTNUM LIBELLES AVEC F.L.D. DISC. (RES. TYPE REG.) (SEUIL= 0.20).............................................................................................. 3 FRCAR 0.232 0.0588 0.0133 0.0092 1.44 0.154 4 INCAR -0.697 -6.1539 -1.3887 0.4966 2.80 0.006 5 INSYS -0.673 0.1668 0.0376 0.0374 1.01 0.317 6 PRDIA 0.474 -0.0203 -0.0046 0.0351 0.13 0.897 7 PAPUL 0.431 0.1650 0.0372 0.0271 1.37 0.173 8 PVENT 0.269 0.0469 0.0106 0.0176 0.60 0.549 9 REPUL 0.650 -0.0002 0.0000 0.0002 0.19 0.849CONSTANTE -1.604374 -0.367565 0.9373 0.3922 0.6958..............................................................................................R2 = 0.55759 F = 16.74489 PROBA = 0.000D2 = 4.94213 T2 = 124.77643 PROBA = 0.000..............................................................................................
SPAD
![Page 24: 1 Régression logistique et analyse discriminante : comparaisons théoriques et pratiques Gilbert Saporta Conservatoire National des Arts et Métiers saporta@cnam.fr.](https://reader038.fdocument.pub/reader038/viewer/2022102900/551d9da2497959293b8d1f67/html5/thumbnails/24.jpg)
24
Méthodes géométriques de classement
Échantillon d’apprentissage
e observation de groupe inconnu
e classé dans le groupe i tel que: d(e ; gi) minimal
e
?
y x xp' . . .
.
.
.
1
1
2
1
g1
g2
g3
G1
G2
G3
e
![Page 25: 1 Régression logistique et analyse discriminante : comparaisons théoriques et pratiques Gilbert Saporta Conservatoire National des Arts et Métiers saporta@cnam.fr.](https://reader038.fdocument.pub/reader038/viewer/2022102900/551d9da2497959293b8d1f67/html5/thumbnails/25.jpg)
25
pour deux groupes
On classe dans G1 si:
Fonction de Fisher >cScore de Fisher:
' 1 ' 1 ' 1 ' 11 1 1 2 2 2
1 ' 1 ' 111 2 1 1 2 22
2 2
( ) ' ( )
g W e g W g g W e g W g
g g W e g W g g W g
1 ' 1 ' 111 2 1 1 2 22( ) ' ( )g g W e g W g g W g
![Page 26: 1 Régression logistique et analyse discriminante : comparaisons théoriques et pratiques Gilbert Saporta Conservatoire National des Arts et Métiers saporta@cnam.fr.](https://reader038.fdocument.pub/reader038/viewer/2022102900/551d9da2497959293b8d1f67/html5/thumbnails/26.jpg)
26
Interprétation géométrique
Projection sur la droite des centres avec la métrique W-1
Dualité axe-frontière plane frontière
axe discriminant
![Page 27: 1 Régression logistique et analyse discriminante : comparaisons théoriques et pratiques Gilbert Saporta Conservatoire National des Arts et Métiers saporta@cnam.fr.](https://reader038.fdocument.pub/reader038/viewer/2022102900/551d9da2497959293b8d1f67/html5/thumbnails/27.jpg)
27
Analyse discriminante probabiliste.
p j p r o b a b i l i t é a p r io r i d ’ a p p a r te n i r a u g r o u p e j f j ( x ) lo i d e s x i d a n s l e g r o u p e j
1
( )F o r m u le d e B a y e s : ( / )
( )
j jj k
j jj
p fP G
p f
x
xx
P r o b lè m e : e s t im e r l e s f j ( x )
![Page 28: 1 Régression logistique et analyse discriminante : comparaisons théoriques et pratiques Gilbert Saporta Conservatoire National des Arts et Métiers saporta@cnam.fr.](https://reader038.fdocument.pub/reader038/viewer/2022102900/551d9da2497959293b8d1f67/html5/thumbnails/28.jpg)
28
La règle bayésienne naïve dans le cadre normal
j
11/ 2/ 2
j j
1j j
x densité d'une N ;
1 1 exp -
22
max p f x attribuer x au groupe le plus
probable a posteriori
1 1max Ln p
2 2
j j
j j j jp
j
j j j
f
f x x x
x x Ln
règle quadratique
![Page 29: 1 Régression logistique et analyse discriminante : comparaisons théoriques et pratiques Gilbert Saporta Conservatoire National des Arts et Métiers saporta@cnam.fr.](https://reader038.fdocument.pub/reader038/viewer/2022102900/551d9da2497959293b8d1f67/html5/thumbnails/29.jpg)
29
La règle bayésienne
1 2
1 1 1j
1j
simplificatrice : ... =
On attribue x au groupe j tel que :
1 1max Ln p
2 2
1 : max Ln p
2
j j j
j j
j
indépendantdu groupe
a
Hypothèse
x x x
donc
1
j j
Règle linéaire équivalente à la règle géométrique si équiprobabilité, après estimation
de par g et de par W.
jx
![Page 30: 1 Régression logistique et analyse discriminante : comparaisons théoriques et pratiques Gilbert Saporta Conservatoire National des Arts et Métiers saporta@cnam.fr.](https://reader038.fdocument.pub/reader038/viewer/2022102900/551d9da2497959293b8d1f67/html5/thumbnails/30.jpg)
30
Analyse discriminante probabiliste: cas de deux groupes
1 1 2 2
-11/ 2 / 2
-1 -1 -1 -11 21 1 2 2 2
1
-1 12 11 2 1 2 1 2
fonction de Fisher
1exp 1/ 2 '
2
1/ 2 p 1/ 2 p
' p / 1/ 2 '
i p i i
p f x p f x
f x x x
x Log x Log
x Log p
Affecter au groupe 1 si :
![Page 31: 1 Régression logistique et analyse discriminante : comparaisons théoriques et pratiques Gilbert Saporta Conservatoire National des Arts et Métiers saporta@cnam.fr.](https://reader038.fdocument.pub/reader038/viewer/2022102900/551d9da2497959293b8d1f67/html5/thumbnails/31.jpg)
31
Fonction de score et probabilité
Fonction de score S(x) :
Règle :affecter au groupe 1 si S(x)>0
Probabilité d’appartenance au groupe 1 :
1
11
1 2
2 1
11 1
1 11 1 2 2
1 11 1 2 2
1/2
1/2 1/2
1/2 1/2
G /
/
P
1/ 1
x x
x x x x
x x x x
p ex
p e p e
p p ep
1 121 2 1 2 1 2
1
1( ) ( ) ' ln( ) ( ) ' ( )
2
pS x x
p
![Page 32: 1 Régression logistique et analyse discriminante : comparaisons théoriques et pratiques Gilbert Saporta Conservatoire National des Arts et Métiers saporta@cnam.fr.](https://reader038.fdocument.pub/reader038/viewer/2022102900/551d9da2497959293b8d1f67/html5/thumbnails/32.jpg)
32
Probabilité a posteriori
-S x 1/p-1 1/p=1+e
1 Fonction logistique du score
1 1
S x
S x S x
Log S x
ep
e e
![Page 33: 1 Régression logistique et analyse discriminante : comparaisons théoriques et pratiques Gilbert Saporta Conservatoire National des Arts et Métiers saporta@cnam.fr.](https://reader038.fdocument.pub/reader038/viewer/2022102900/551d9da2497959293b8d1f67/html5/thumbnails/33.jpg)
33
S(x)
2
1
1( ( ) 0) ln
2p
p
pP S x P U
p
• Probabilité d’erreur de classement de G2 en G1 :On classe en G1 si S(x)>0
![Page 34: 1 Régression logistique et analyse discriminante : comparaisons théoriques et pratiques Gilbert Saporta Conservatoire National des Arts et Métiers saporta@cnam.fr.](https://reader038.fdocument.pub/reader038/viewer/2022102900/551d9da2497959293b8d1f67/html5/thumbnails/34.jpg)
34
Posterior Probability of Membership in PRONO From Classified Obs PRONO into PRONO DECES SURVIE 1 SURVIE SURVIE 0.4515 0.5485 2 DECES DECES 0.8140 0.1860 3 DECES DECES 0.9597 0.0403 4 SURVIE SURVIE 0.2250 0.7750 5 DECES DECES 0.8112 0.1888 6 DECES DECES 0.8928 0.1072 7 SURVIE SURVIE 0.3202 0.6798 8 SURVIE DECES * 0.8711 0.1289 9 SURVIE SURVIE 0.0984 0.9016 10 SURVIE SURVIE 0.0797 0.9203 11 SURVIE SURVIE 0.0138 0.9862 12 SURVIE SURVIE 0.0160 0.9840 13 SURVIE SURVIE 0.0052 0.9948 14 SURVIE SURVIE 0.0105 0.9895 15 SURVIE SURVIE 0.0019 0.9981 16 SURVIE SURVIE 0.0258 0.9742 17 SURVIE SURVIE 0.2011 0.7989 18 SURVIE SURVIE 0.2260 0.7740 19 SURVIE SURVIE 0.0022 0.9978 20 SURVIE SURVIE 0.1222 0.8778 21 SURVIE SURVIE 0.0014 0.9986 22 DECES DECES 0.8629 0.1371 23 DECES SURVIE * 0.4804 0.5196 24 DECES DECES 0.9900 0.0100 25 DECES DECES 0.5845 0.4155 26 DECES DECES 0.7447 0.2553 27 DECES DECES 0.7067 0.2933 28 DECES SURVIE * 0.4303 0.5697 29 SURVIE SURVIE 0.1118 0.8882 30 SURVIE DECES * 0.5734 0.4266 31 SURVIE SURVIE 0.2124 0.7876
Proc discrimSAS
![Page 35: 1 Régression logistique et analyse discriminante : comparaisons théoriques et pratiques Gilbert Saporta Conservatoire National des Arts et Métiers saporta@cnam.fr.](https://reader038.fdocument.pub/reader038/viewer/2022102900/551d9da2497959293b8d1f67/html5/thumbnails/35.jpg)
35
II: La régression logistique
II.1 Le modèle logistique simpleII.2 Odds ratiosII.3 Interprétation économètriqueII.4 EstimationII.5 Tests
![Page 36: 1 Régression logistique et analyse discriminante : comparaisons théoriques et pratiques Gilbert Saporta Conservatoire National des Arts et Métiers saporta@cnam.fr.](https://reader038.fdocument.pub/reader038/viewer/2022102900/551d9da2497959293b8d1f67/html5/thumbnails/36.jpg)
36
II.1 Le modèle logistique simple
Réponse dichotomique : Y = 0 / 1Variable explicative : XObjectif : Modéliser
• Le modèle linéaire (x) = 0 + 1x convient mal lorsque X est continue.
• Le modèle logistique est plus naturel
(x) = Prob(Y = 1/X = x)
![Page 37: 1 Régression logistique et analyse discriminante : comparaisons théoriques et pratiques Gilbert Saporta Conservatoire National des Arts et Métiers saporta@cnam.fr.](https://reader038.fdocument.pub/reader038/viewer/2022102900/551d9da2497959293b8d1f67/html5/thumbnails/37.jpg)
37
Le modèle logistique simple
x
x
10
10
e1
e)x(
x))x(1
)x((Log 10
ou
Probabilité d'une maladie cardiaque
en fonction de l'age
AGE
70605040302010
Pro
b(Y
=1 / X
)
1.0
.8
.6
.4
.2
0.0
Fonction de lien : Logit
![Page 38: 1 Régression logistique et analyse discriminante : comparaisons théoriques et pratiques Gilbert Saporta Conservatoire National des Arts et Métiers saporta@cnam.fr.](https://reader038.fdocument.pub/reader038/viewer/2022102900/551d9da2497959293b8d1f67/html5/thumbnails/38.jpg)
38
Il s’agit bien d’un probléme de régression:Modélisation de l’espérance
conditionnelle E(Y/X=x)=f(x)
Choix de la forme logistique en épidémiologie:S’ajuste bienInterprétation de 1 en termes d’odds-ratio
![Page 39: 1 Régression logistique et analyse discriminante : comparaisons théoriques et pratiques Gilbert Saporta Conservatoire National des Arts et Métiers saporta@cnam.fr.](https://reader038.fdocument.pub/reader038/viewer/2022102900/551d9da2497959293b8d1f67/html5/thumbnails/39.jpg)
39
II.2 Odds-Ratio
Si X binaire (sujet exposé X=1, non exposé X=0)
0 1 0
0 1 01/ 1 ( 1/ 0)( )
1 1Y X P Y XP
e e
e e
1( 1/ 1) / ( 0 / 1)
( 1/ 0) / ( 0 / 0)
P Y X P Y XOR e
P Y X P Y X
![Page 40: 1 Régression logistique et analyse discriminante : comparaisons théoriques et pratiques Gilbert Saporta Conservatoire National des Arts et Métiers saporta@cnam.fr.](https://reader038.fdocument.pub/reader038/viewer/2022102900/551d9da2497959293b8d1f67/html5/thumbnails/40.jpg)
40
Odds-Ratio Mesure l’évolution du rapport des
chances d’apparition de l’événement Y=1 contre Y=0 (la cote des parieurs) lorsque X passe de x à x+1.
Formule générale:
1( 1) /(1 ( 1))
( ) /(1 ( ))
x xOR e
x x
![Page 41: 1 Régression logistique et analyse discriminante : comparaisons théoriques et pratiques Gilbert Saporta Conservatoire National des Arts et Métiers saporta@cnam.fr.](https://reader038.fdocument.pub/reader038/viewer/2022102900/551d9da2497959293b8d1f67/html5/thumbnails/41.jpg)
41
II.3Interprétation économètrique
Y possession d’un bien durable par un ménage: manifestation visible d’une variable latente Z inobservable continue.
Z est l’« intensité du désir » de posséder le bien
Si Z<seuil Y=0, sinon Y=1Le seuil peut être choisi égal à 0
![Page 42: 1 Régression logistique et analyse discriminante : comparaisons théoriques et pratiques Gilbert Saporta Conservatoire National des Arts et Métiers saporta@cnam.fr.](https://reader038.fdocument.pub/reader038/viewer/2022102900/551d9da2497959293b8d1f67/html5/thumbnails/42.jpg)
42
Modèle d’utilité
pour le ménage i de caractéristiques xi (âge,
sexe, revenu, CSP...), la possession du bien
procure un niveau d’utilité U(1,xi), la non
possession U(0,xi).
Yi = 1 U(1,xi) > U(0,xi)
Yi = 0 U(0,xi) > U(1,xi)
Variable latente Zi = U(1,xi) – U(0,xi).
![Page 43: 1 Régression logistique et analyse discriminante : comparaisons théoriques et pratiques Gilbert Saporta Conservatoire National des Arts et Métiers saporta@cnam.fr.](https://reader038.fdocument.pub/reader038/viewer/2022102900/551d9da2497959293b8d1f67/html5/thumbnails/43.jpg)
43
Modèle d’utilité (suite)
Zi = xi + i
πi = P(Yi=1|xi)= P(Zi > 0)=P(xi > -i) = F(xi)
F fonction de répartition de -i
Choix de F:Logistique :modèle logit, régression logistiqueNormal: modèle probit
![Page 44: 1 Régression logistique et analyse discriminante : comparaisons théoriques et pratiques Gilbert Saporta Conservatoire National des Arts et Métiers saporta@cnam.fr.](https://reader038.fdocument.pub/reader038/viewer/2022102900/551d9da2497959293b8d1f67/html5/thumbnails/44.jpg)
44
II.4 Estimation des paramètres
Les données
X Y x1 xi xn
y1 yi yn
yi = 1 si caractère présent, 0 sinon
i10
i10
x
x
ii
e1
e
)xX/1Y(P)x(
Le modèle
![Page 45: 1 Régression logistique et analyse discriminante : comparaisons théoriques et pratiques Gilbert Saporta Conservatoire National des Arts et Métiers saporta@cnam.fr.](https://reader038.fdocument.pub/reader038/viewer/2022102900/551d9da2497959293b8d1f67/html5/thumbnails/45.jpg)
45
Vraisemblance (conditionnelle!)
Probabilité d’observer les données[(x1,y1), …, (xi,yi), …, (xn,yn)]
n
1iii )xX/yY(Prob
n
1i
y1i
yi
ii ))x(1()x(
),(L 10
n
1i
y1x
xy
x
xi
i10
i10
i
i10
i10
)e1
e1()
e1
e(
![Page 46: 1 Régression logistique et analyse discriminante : comparaisons théoriques et pratiques Gilbert Saporta Conservatoire National des Arts et Métiers saporta@cnam.fr.](https://reader038.fdocument.pub/reader038/viewer/2022102900/551d9da2497959293b8d1f67/html5/thumbnails/46.jpg)
46
maximum de vraisemblance maximisent
Maximisation de la log-vraisemblance
Estimateurs obtenus par des procédures numériques: pas d’expression analytique
10ˆet ˆ 0 1( , ) (β)L L
1
( ) log ( ) log ( ) (1 ) log(1 ( ))n
i i i ii
L y x y x
β
10
11
( )( ( )) 0
( )( ( )) 0
n
i ii
n
i i ii
y x
x y x
![Page 47: 1 Régression logistique et analyse discriminante : comparaisons théoriques et pratiques Gilbert Saporta Conservatoire National des Arts et Métiers saporta@cnam.fr.](https://reader038.fdocument.pub/reader038/viewer/2022102900/551d9da2497959293b8d1f67/html5/thumbnails/47.jpg)
47
Précision (asymptotique) des estimateurs
La matrice
est estimée par la matrice
)ˆ(V)ˆ,ˆ(Cov
)ˆ,ˆ(Cov)ˆ(V)ˆ(V
110
100
1
ˆ2
2 )(L Log
![Page 48: 1 Régression logistique et analyse discriminante : comparaisons théoriques et pratiques Gilbert Saporta Conservatoire National des Arts et Métiers saporta@cnam.fr.](https://reader038.fdocument.pub/reader038/viewer/2022102900/551d9da2497959293b8d1f67/html5/thumbnails/48.jpg)
48
12
2ˆ
1
1 1
2
1 1
1 1 1 1
( )ˆ( )
ˆ ˆ ˆ ˆ (1 ) (1 )
ˆ ˆ ˆ ˆ(1 ) (1 )
ˆ ˆ1 (1 ) 0 1
ˆ ˆ1 0 (1 ) 1
n n
i i i i ii i
n n
i i i i i ii i
n n n n
V
x
x x
x x
x x
1
1 ( ) .
X VX
![Page 49: 1 Régression logistique et analyse discriminante : comparaisons théoriques et pratiques Gilbert Saporta Conservatoire National des Arts et Métiers saporta@cnam.fr.](https://reader038.fdocument.pub/reader038/viewer/2022102900/551d9da2497959293b8d1f67/html5/thumbnails/49.jpg)
49
Régression logistique multiple
Généralisation à p variables explicatives X1,…, Xp.
0 1 1
0 1 1
...
...( ) ( 1/ )1
p p
p p
x x
x x
ex P Y X x
e
![Page 50: 1 Régression logistique et analyse discriminante : comparaisons théoriques et pratiques Gilbert Saporta Conservatoire National des Arts et Métiers saporta@cnam.fr.](https://reader038.fdocument.pub/reader038/viewer/2022102900/551d9da2497959293b8d1f67/html5/thumbnails/50.jpg)
50
The LOGISTIC Procedure Analysis of Maximum Likelihood Estimates Standard Parameter DF Estimate Error Chi-Square Pr > ChiSq Intercept 1 2.9331 1.7855 2.6985 0.1004 INCAR 1 -4.5491 0.9402 23.4083 <.0001 PAPUL 1 0.2015 0.0622 10.4937 0.0012 Odds Ratio Estimates Point 95% Wald Effect Estimate Confidence Limits INCAR 0.011 0.002 0.067 PAPUL 1.223 1.083 1.382
![Page 51: 1 Régression logistique et analyse discriminante : comparaisons théoriques et pratiques Gilbert Saporta Conservatoire National des Arts et Métiers saporta@cnam.fr.](https://reader038.fdocument.pub/reader038/viewer/2022102900/551d9da2497959293b8d1f67/html5/thumbnails/51.jpg)
51
II.5 Tests sur les paramètres
Trois méthodes sont disponibles pour tester l’apport de la variable X au modèle :
1. Le test de Wald2. La méthode du rapport de vraisemblance3. Le test du score
H0 : j = 0H1 : j 0
![Page 52: 1 Régression logistique et analyse discriminante : comparaisons théoriques et pratiques Gilbert Saporta Conservatoire National des Arts et Métiers saporta@cnam.fr.](https://reader038.fdocument.pub/reader038/viewer/2022102900/551d9da2497959293b8d1f67/html5/thumbnails/52.jpg)
52
Test de Wald
analogue à un test de Student en régression usuelle, si l’on considère la statistique w définie par :
représente l’estimation de l’écart-type de l’estimateur de 1.
Sous l’hypothèse H0, w2 suit approximativement une
loi du khi-deux à un degré de liberté .
Rejet de H0 si w2
1
1
ˆ
ˆˆ( )w
s
1ˆˆ( )s
)1(21
![Page 53: 1 Régression logistique et analyse discriminante : comparaisons théoriques et pratiques Gilbert Saporta Conservatoire National des Arts et Métiers saporta@cnam.fr.](https://reader038.fdocument.pub/reader038/viewer/2022102900/551d9da2497959293b8d1f67/html5/thumbnails/53.jpg)
53
Test du rapport des vraisemblances
L’apport de la variable X est mesuré à l’aide de la statistique :
G = -2 log [ ]
sous l’hypothèse H0 G suit asymptotiquement une loi du khi-deux à un degré de liberté.
Vraisemblance sans la variable:
Vraisemblance sans la variable
Vraisemblance avec la variable
01
01
nnnn
n n
![Page 54: 1 Régression logistique et analyse discriminante : comparaisons théoriques et pratiques Gilbert Saporta Conservatoire National des Arts et Métiers saporta@cnam.fr.](https://reader038.fdocument.pub/reader038/viewer/2022102900/551d9da2497959293b8d1f67/html5/thumbnails/54.jpg)
54
Test du score
U vecteur des dérivées partielles de la log-vraisemblance estimées
Le score suit également asymptotiquement sous H0 une loi du khi-deux à un degré de liberté
En régression logistique simple, le score est égal à nr2 , où r est le coefficient de corrélation linéaire (abusif!) entre Y et X
00 0
1
ˆ ˆˆ( ) ( ) ( )
H HHscore U J U
![Page 55: 1 Régression logistique et analyse discriminante : comparaisons théoriques et pratiques Gilbert Saporta Conservatoire National des Arts et Métiers saporta@cnam.fr.](https://reader038.fdocument.pub/reader038/viewer/2022102900/551d9da2497959293b8d1f67/html5/thumbnails/55.jpg)
55
Comparaison des 3 tests
![Page 56: 1 Régression logistique et analyse discriminante : comparaisons théoriques et pratiques Gilbert Saporta Conservatoire National des Arts et Métiers saporta@cnam.fr.](https://reader038.fdocument.pub/reader038/viewer/2022102900/551d9da2497959293b8d1f67/html5/thumbnails/56.jpg)
56
Tests
Tests d’absence d’effet de toutes les variables: H0 : 1 = …… = p = 0 Rapport de vraisemblance GScore test USous H0, suivent tous deux
asymptotiquement une loi du 2 à p ddl
![Page 57: 1 Régression logistique et analyse discriminante : comparaisons théoriques et pratiques Gilbert Saporta Conservatoire National des Arts et Métiers saporta@cnam.fr.](https://reader038.fdocument.pub/reader038/viewer/2022102900/551d9da2497959293b8d1f67/html5/thumbnails/57.jpg)
57
III Discrimination sur variables qualitatives et scoring
1 2 p 1 2 p
variable de groupe
X , X , ... , X Variables explicatives à m , m , ... , m modalités
bon payeur Y :
mauvais payeur
Y
Solvabilité d'emprunteurs auprès de banques
Exemples
1 2
1 2
X : sexe, X : catégorie professionnelle etc.
bon conducteur (pas d'accidents) Y :
mauvais conducteur
X : sexe, X : t
Risque en assurance automobile
3ranche d'âge, X : véhicule sportif ou non ...
Y numéro de groupe
Reclassement dans une typologie
![Page 58: 1 Régression logistique et analyse discriminante : comparaisons théoriques et pratiques Gilbert Saporta Conservatoire National des Arts et Métiers saporta@cnam.fr.](https://reader038.fdocument.pub/reader038/viewer/2022102900/551d9da2497959293b8d1f67/html5/thumbnails/58.jpg)
58
Un peu de (pré)histoire
Fisher (1940) Un seul prédicteur Equations de l’AFC« Scores » were introduced
![Page 59: 1 Régression logistique et analyse discriminante : comparaisons théoriques et pratiques Gilbert Saporta Conservatoire National des Arts et Métiers saporta@cnam.fr.](https://reader038.fdocument.pub/reader038/viewer/2022102900/551d9da2497959293b8d1f67/html5/thumbnails/59.jpg)
59
![Page 60: 1 Régression logistique et analyse discriminante : comparaisons théoriques et pratiques Gilbert Saporta Conservatoire National des Arts et Métiers saporta@cnam.fr.](https://reader038.fdocument.pub/reader038/viewer/2022102900/551d9da2497959293b8d1f67/html5/thumbnails/60.jpg)
60
![Page 61: 1 Régression logistique et analyse discriminante : comparaisons théoriques et pratiques Gilbert Saporta Conservatoire National des Arts et Métiers saporta@cnam.fr.](https://reader038.fdocument.pub/reader038/viewer/2022102900/551d9da2497959293b8d1f67/html5/thumbnails/61.jpg)
61
Cas général p prédicteursQuantification optimale:
Donner des scores partiels aux catégories pour maximiser la distance de Mahalanobis dans Rp
Une analyse discriminante où les variables qualitatives sont remplacées par des indicatrices
0 1 0 1 0
1 0 0 0 1
0 0 1 1 0
=X
![Page 62: 1 Régression logistique et analyse discriminante : comparaisons théoriques et pratiques Gilbert Saporta Conservatoire National des Arts et Métiers saporta@cnam.fr.](https://reader038.fdocument.pub/reader038/viewer/2022102900/551d9da2497959293b8d1f67/html5/thumbnails/62.jpg)
62
X n’est pas de plein rang: rank(X)=mi-
pSolution classique: éliminer une indicatrice
par prédicteur Disqual (Saporta, 1975):
• ADL effectuée sur une sélection de facteurs de l’ACM de X. Analogue de la régression sur composantes principales
![Page 63: 1 Régression logistique et analyse discriminante : comparaisons théoriques et pratiques Gilbert Saporta Conservatoire National des Arts et Métiers saporta@cnam.fr.](https://reader038.fdocument.pub/reader038/viewer/2022102900/551d9da2497959293b8d1f67/html5/thumbnails/63.jpg)
63
DISQUAL 1ère étape
Analyse des correspondances du tableau des prédicteurs.
k variables numériques : garder les coordonnées factorielles les plus discriminantes
1 . . .
1
2
.=
.
.
n
kz z
Z
1 2 3 4 Prop. Loc
Profession Logement
P P P P .
1 1 0 0 0 0 1
2 0 1 0 0 1 0
. .
.... .
. .
. .
variables indicatrices
X
n
![Page 64: 1 Régression logistique et analyse discriminante : comparaisons théoriques et pratiques Gilbert Saporta Conservatoire National des Arts et Métiers saporta@cnam.fr.](https://reader038.fdocument.pub/reader038/viewer/2022102900/551d9da2497959293b8d1f67/html5/thumbnails/64.jpg)
64
2ème étape :
Analyse discriminante linéaire (Fisher).
Score = combinaison linéaire des coordonnées factorielles= combinaison linéaire des indicatrices des catégories
Coefficients = grille de notation
1
Score k
jj
j
d
s z
: coordonnées des catégories sur l'axe n°j j j jz = Xu u
1 1
grille de score
k kj j
j jj j
s d Xu X d u
1 1 21 2
..
( ).
.
j j
j j
z zd
V
V g gz
![Page 65: 1 Régression logistique et analyse discriminante : comparaisons théoriques et pratiques Gilbert Saporta Conservatoire National des Arts et Métiers saporta@cnam.fr.](https://reader038.fdocument.pub/reader038/viewer/2022102900/551d9da2497959293b8d1f67/html5/thumbnails/65.jpg)
65
Sélection des axes
Selon l’ordre de l’ACM% d’inertie
Selon le pouvoir discriminantStudent sur 2 groupes,F sur k groupes
![Page 66: 1 Régression logistique et analyse discriminante : comparaisons théoriques et pratiques Gilbert Saporta Conservatoire National des Arts et Métiers saporta@cnam.fr.](https://reader038.fdocument.pub/reader038/viewer/2022102900/551d9da2497959293b8d1f67/html5/thumbnails/66.jpg)
66
Example assurance (SPAD)
1106 contrats automobile belges: 2 groupes: « 1 bons», « 2 mauvais »9 prédicteurs: 20 catégories
Usage (2), sexe (3), langue (2), age (3), région (2), bonus-malus (2), puissance (2), durée (2), age du véhicule (2)
![Page 67: 1 Régression logistique et analyse discriminante : comparaisons théoriques et pratiques Gilbert Saporta Conservatoire National des Arts et Métiers saporta@cnam.fr.](https://reader038.fdocument.pub/reader038/viewer/2022102900/551d9da2497959293b8d1f67/html5/thumbnails/67.jpg)
67
ACM
![Page 68: 1 Régression logistique et analyse discriminante : comparaisons théoriques et pratiques Gilbert Saporta Conservatoire National des Arts et Métiers saporta@cnam.fr.](https://reader038.fdocument.pub/reader038/viewer/2022102900/551d9da2497959293b8d1f67/html5/thumbnails/68.jpg)
68
ADL de Fisher sur les composantes
FACTEURS CORRELATIONS COEFFICIENTS .............................................................................. 1 F 1 0.719 6.9064 2 F 2 0.055 0.7149 3 F 3 -0.078 -0.8211 4 F 4 -0.030 -0.4615 5 F 5 0.083 1.2581 6 F 6 0.064 1.0274 7 F 7 -0.001 0.2169 8 F 8 0.090 1.3133 9 F 9 -0.074 -1.1383 10 F 10 -0.150 -3.3193 11 F 11 -0.056 -1.4830 CONSTANTE 0.093575 ..............................................................................R2 = 0.57923 F = 91.35686 D2 = 5.49176 T2 = 1018.69159 ..............................................................................
Score= 6.90 F1 - 0.82 F3 + 1.25 F5 + 1.31 F8 - 1.13 F9 - 3.31 F10
![Page 69: 1 Régression logistique et analyse discriminante : comparaisons théoriques et pratiques Gilbert Saporta Conservatoire National des Arts et Métiers saporta@cnam.fr.](https://reader038.fdocument.pub/reader038/viewer/2022102900/551d9da2497959293b8d1f67/html5/thumbnails/69.jpg)
69
scores normalisésEchelle de 0 à 1000Transformation linéaire du score et du seuil
![Page 70: 1 Régression logistique et analyse discriminante : comparaisons théoriques et pratiques Gilbert Saporta Conservatoire National des Arts et Métiers saporta@cnam.fr.](https://reader038.fdocument.pub/reader038/viewer/2022102900/551d9da2497959293b8d1f67/html5/thumbnails/70.jpg)
70
+----------------------------------------------------------------------------+ | | COEFFICIENTS | TRANSFORMED | | CATEGORIES | DISCRIMINANT | COEFFICIENTS | | | FUNCTION | (SCORE) | +----------------------------------------------------------------------------+ | 2 . Use type | | USE1 - Profess. | -4.577 | 0.00 | | USE2 - private | 0.919 | 53.93 | +----------------------------------------------------------------------------+ | 4 . Gender | | MALE - male | 0.220 | 24.10 | | FEMA - female | -0.065 | 21.30 | | OTHE - companies | -2.236 | 0.00 | +----------------------------------------------------------------------------+ | 5 . Language | | FREN – French | -0.955 | 0.00 | | FLEM - flemish | 2.789 | 36.73 | +----------------------------------------------------------------------------+ | 24 . Birth date | | BD1 - 1890-1949 BD | 0.285 | 116.78 | | BD2 - 1950-1973 BD | -11.616 | 0.00 | | BD? - ???BD | 7.064 | 183.30 | +----------------------------------------------------------------------------+ | 25 . Region | | REG1 - Brussels | -6.785 | 0.00 | | REG2 – Other regions | 3.369 | 99.64 | +----------------------------------------------------------------------------+ | 26 . Level of bonus-malus | | BM01 - B-M 1 (-1) | 17.522 | 341.41 | | BM02 - Others B-M (-1) | -17.271 | 0.00 | +----------------------------------------------------------------------------+ | 27 . Duration of contract | | C<86 - <86 contracts | 2.209 | 50.27 | | C>87 - others contracts | -2.913 | 0.00 | +----------------------------------------------------------------------------+ | 28 . Horsepower | | HP1 - 10-39 HP | 6.211 | 75.83 | | HP2 - >40 HP | -1.516 | 0.00 | +----------------------------------------------------------------------------+ | 29 . year of vehicle construction | | YVC1 - 1933-1989 YVC | 3.515 | 134.80 | | YVC2 - 1990-1991 YVC | -10.222 | 0.00 | +----------------------------------------------------------------------------+
Grille de score
![Page 71: 1 Régression logistique et analyse discriminante : comparaisons théoriques et pratiques Gilbert Saporta Conservatoire National des Arts et Métiers saporta@cnam.fr.](https://reader038.fdocument.pub/reader038/viewer/2022102900/551d9da2497959293b8d1f67/html5/thumbnails/71.jpg)
71
Scoring et régression logistique
Inclusion aisée de prédicteurs qualitatifs en introduisant mi-1 indicatrices
Modalité omise= modalité de référence. Attention à l’interprétation
Standard de l’industrie bancaire (sauf Banque de France)
![Page 72: 1 Régression logistique et analyse discriminante : comparaisons théoriques et pratiques Gilbert Saporta Conservatoire National des Arts et Métiers saporta@cnam.fr.](https://reader038.fdocument.pub/reader038/viewer/2022102900/551d9da2497959293b8d1f67/html5/thumbnails/72.jpg)
72
CATEGORIES COEFFICIENTS LOGISTIC REGRESSION
use type profess private
0.00
0.7060 Insuree type
male female
companies
0.4797 0.4868
0.00 language
french flemish
-0.1236
0.00 birth cohort 1890-1949 1950-1973 unknown
-0.3596 -1.6155
0.00 region
Brussels Other regions
-0.8585
0.00 level of bonus-malus
B-M + other B-M (-1)
0.00
-2.4313 year of subscription
<86 contracts others
0.4932
0.00 horsepower 10-39 HP
40-349 HP
0.7305
0.00 year of vehicle construction
1933-1989 1990-1991
1.3362
0.00 Intercept -0.2498
![Page 73: 1 Régression logistique et analyse discriminante : comparaisons théoriques et pratiques Gilbert Saporta Conservatoire National des Arts et Métiers saporta@cnam.fr.](https://reader038.fdocument.pub/reader038/viewer/2022102900/551d9da2497959293b8d1f67/html5/thumbnails/73.jpg)
73
IV Comparaison logistique- discriminanteAvantages proclamés de la logistique:
Interprétabilité des coefficients (odds-ratios)Erreurs standard calculablesModélisation des probabilitésHypothèses plus générales qu’en AD gaussienneMaximum de vraisemblance au lieu de moindres
carrés (régression linéaire de Y sur les Xj)Prise en charge facile des X qualitatifs (logiciels)
![Page 74: 1 Régression logistique et analyse discriminante : comparaisons théoriques et pratiques Gilbert Saporta Conservatoire National des Arts et Métiers saporta@cnam.fr.](https://reader038.fdocument.pub/reader038/viewer/2022102900/551d9da2497959293b8d1f67/html5/thumbnails/74.jpg)
74
Mais:Erreurs standard asymptotiques , bootstrap en
ADNon convergence en cas de séparation
parfaite. Fisher existe toujours
Maximum de vraisemblance conditionnel:non optimal dans le cas gaussien standard
L’AD peut aussi traiter les variables qualitatives, et de manière plus robuste grâce aux contraintes de sous-espace (Disqual)
![Page 75: 1 Régression logistique et analyse discriminante : comparaisons théoriques et pratiques Gilbert Saporta Conservatoire National des Arts et Métiers saporta@cnam.fr.](https://reader038.fdocument.pub/reader038/viewer/2022102900/551d9da2497959293b8d1f67/html5/thumbnails/75.jpg)
75
Querelle largement idéologique
(modélisation versus analyse des données)L’AD est aussi un modèle, mais sur les lois
des X/Y, la logistique sur les lois de Y/XEn pratique différences peu nettes:
fonctions de score souvent très proches « It is generally felt that logistic regression is a safer,
more robust bet than the LDA model, relying on fewer assumptions . It is our experience that the models give very similar results , even when LDA is used in inappropriately, such as with qualitative variables. » Hastie and al.(2001)
![Page 76: 1 Régression logistique et analyse discriminante : comparaisons théoriques et pratiques Gilbert Saporta Conservatoire National des Arts et Métiers saporta@cnam.fr.](https://reader038.fdocument.pub/reader038/viewer/2022102900/551d9da2497959293b8d1f67/html5/thumbnails/76.jpg)
76
Variable N Mean Std Dev Sum Minimum Maximum scorfish 101 1.00000 1.47644 101.00000 -2.42806 4.21377 scorlog 101 -0.22423 3.68078 -22.64725 -8.76376 7.86074 scorfish scorlog scorfish 1.00000 0.99881 scorlog 0.99881 1.00000
![Page 77: 1 Régression logistique et analyse discriminante : comparaisons théoriques et pratiques Gilbert Saporta Conservatoire National des Arts et Métiers saporta@cnam.fr.](https://reader038.fdocument.pub/reader038/viewer/2022102900/551d9da2497959293b8d1f67/html5/thumbnails/77.jpg)
77
Usages souvent différents: AD pour classer, logistique pour modéliser (facteurs de risque) Logistique aussi utilisée en scoring
Si l’objectif est de classer: On ne fait plus de la science mais de l’aide à la décision Mieux vaut essayer les deux méthodes. Mais comment les comparer? Le vrai critère de choix est la performance en
généralisation
![Page 78: 1 Régression logistique et analyse discriminante : comparaisons théoriques et pratiques Gilbert Saporta Conservatoire National des Arts et Métiers saporta@cnam.fr.](https://reader038.fdocument.pub/reader038/viewer/2022102900/551d9da2497959293b8d1f67/html5/thumbnails/78.jpg)
78
Qualité d’une règle de classement
Tableau de classement : On classe des observations dont le groupe est
connu :
Pourcentage de bien classés :
Taux d’erreur de classement :
n n
n11 22
n n
n12 21
groupe prédit
groupe n n
réel n n
1 2
1
211 12
21 22
![Page 79: 1 Régression logistique et analyse discriminante : comparaisons théoriques et pratiques Gilbert Saporta Conservatoire National des Arts et Métiers saporta@cnam.fr.](https://reader038.fdocument.pub/reader038/viewer/2022102900/551d9da2497959293b8d1f67/html5/thumbnails/79.jpg)
79
Sur quel échantillon faire ce tableau ?
Échantillon test d’individus supplémentaires.Si on reclasse l’échantillon ayant servi à
construire la règle (estimation des coefficients) : «méthode de resubstitution» BIAIS
surestimation du pourcentage de bien classés.Solutions pour des échantillons de petite taille
: Validation croisée ou bootstrap
![Page 80: 1 Régression logistique et analyse discriminante : comparaisons théoriques et pratiques Gilbert Saporta Conservatoire National des Arts et Métiers saporta@cnam.fr.](https://reader038.fdocument.pub/reader038/viewer/2022102900/551d9da2497959293b8d1f67/html5/thumbnails/80.jpg)
80
Seuil et probabilités a posteriori
P(G1/x) dépend des probas a priori p1 et p2
Problèmes de l’échantillonnage stratifié poser priors = en discrim ou pevent= en
Logistic sinon probas a posteriori fausses seul le terme constant 0 est modifié: on
ajoute ln(p2/p1)
Sans importance pour un score
![Page 81: 1 Régression logistique et analyse discriminante : comparaisons théoriques et pratiques Gilbert Saporta Conservatoire National des Arts et Métiers saporta@cnam.fr.](https://reader038.fdocument.pub/reader038/viewer/2022102900/551d9da2497959293b8d1f67/html5/thumbnails/81.jpg)
81
Qualité d’un score Qu’il soit obtenu par Fisher ou logistique:
Comparaison des distributions du score sur les deux groupes
fonctions de répartition
![Page 82: 1 Régression logistique et analyse discriminante : comparaisons théoriques et pratiques Gilbert Saporta Conservatoire National des Arts et Métiers saporta@cnam.fr.](https://reader038.fdocument.pub/reader038/viewer/2022102900/551d9da2497959293b8d1f67/html5/thumbnails/82.jpg)
82
Courbe ROC
Groupe à détecter G1: scores élevés
Sensibilité 1-= P(S>s/G1):% de vrais positifs
Spécificité 1-=P(S<s/G2) :% de vrais négatifs
![Page 83: 1 Régression logistique et analyse discriminante : comparaisons théoriques et pratiques Gilbert Saporta Conservatoire National des Arts et Métiers saporta@cnam.fr.](https://reader038.fdocument.pub/reader038/viewer/2022102900/551d9da2497959293b8d1f67/html5/thumbnails/83.jpg)
83
Courbe ROC
![Page 84: 1 Régression logistique et analyse discriminante : comparaisons théoriques et pratiques Gilbert Saporta Conservatoire National des Arts et Métiers saporta@cnam.fr.](https://reader038.fdocument.pub/reader038/viewer/2022102900/551d9da2497959293b8d1f67/html5/thumbnails/84.jpg)
84
Courbe ROC
Evolution de 1- puissance du test en fonction de , risque de première espèce lorsque le seuil varie
Proportion de vrais positifs en fonction de la proportion de faux positifs
Un site: http://www.anaesthetist.com/mnm/stats/roc/
![Page 85: 1 Régression logistique et analyse discriminante : comparaisons théoriques et pratiques Gilbert Saporta Conservatoire National des Arts et Métiers saporta@cnam.fr.](https://reader038.fdocument.pub/reader038/viewer/2022102900/551d9da2497959293b8d1f67/html5/thumbnails/85.jpg)
85
Courbe ROC invariante pour toute transformation monotone croissante
Surface sous la courbe: mesure de performance permettant de comparer (partiellement) des modèles
On tire une obs de G1 et une de G2
AUC estimée par la proportion de paires concordantes
nc statistique de Wilcoxon-Mann-WhitneyU+W= n1n2+0.5n1(n1+1) AUC=U/n1n2
1 2((1 ) ( )( ) )s
sAUC Xd s P Xs
1 2cc n n n
![Page 86: 1 Régression logistique et analyse discriminante : comparaisons théoriques et pratiques Gilbert Saporta Conservatoire National des Arts et Métiers saporta@cnam.fr.](https://reader038.fdocument.pub/reader038/viewer/2022102900/551d9da2497959293b8d1f67/html5/thumbnails/86.jpg)
86
Association des probabilités prédites et des réponses observées Pairs 2550 Percent Concordant 94.3 Percent Discordant 5.7 Percent Tied 0.0 Somers' D 0.886 Gamma 0.886 Tau-a 0.447 c 0.943
Exemple infarctus proc logistic
![Page 87: 1 Régression logistique et analyse discriminante : comparaisons théoriques et pratiques Gilbert Saporta Conservatoire National des Arts et Métiers saporta@cnam.fr.](https://reader038.fdocument.pub/reader038/viewer/2022102900/551d9da2497959293b8d1f67/html5/thumbnails/87.jpg)
87
Infarctus: comparaison Fisher et logistique
Courbe ROC
1 - Spécificité
1.00.75.50.250.00
Sen
sitiv
ité
1.00
.75
.50
.25
0.00
Source de la courbe
SCORLOG
SCORFISH
![Page 88: 1 Régression logistique et analyse discriminante : comparaisons théoriques et pratiques Gilbert Saporta Conservatoire National des Arts et Métiers saporta@cnam.fr.](https://reader038.fdocument.pub/reader038/viewer/2022102900/551d9da2497959293b8d1f67/html5/thumbnails/88.jpg)
88
Assurance
![Page 89: 1 Régression logistique et analyse discriminante : comparaisons théoriques et pratiques Gilbert Saporta Conservatoire National des Arts et Métiers saporta@cnam.fr.](https://reader038.fdocument.pub/reader038/viewer/2022102900/551d9da2497959293b8d1f67/html5/thumbnails/89.jpg)
89
Zone sous la courbe
.934
.933
Variable(s) derésultats testsSCDISQUASCLOGIST
Zone
![Page 90: 1 Régression logistique et analyse discriminante : comparaisons théoriques et pratiques Gilbert Saporta Conservatoire National des Arts et Métiers saporta@cnam.fr.](https://reader038.fdocument.pub/reader038/viewer/2022102900/551d9da2497959293b8d1f67/html5/thumbnails/90.jpg)
90
Lift chart
% of the target
![Page 91: 1 Régression logistique et analyse discriminante : comparaisons théoriques et pratiques Gilbert Saporta Conservatoire National des Arts et Métiers saporta@cnam.fr.](https://reader038.fdocument.pub/reader038/viewer/2022102900/551d9da2497959293b8d1f67/html5/thumbnails/91.jpg)
91
Surface sous la courbe de lift
Proportion des unités ayant un score>s
Surface:
1 1(1 ) (1 )p p
1 1
1 1
11
(1 ) (1 ) (1 )
(1 ) (1 ) (1 ) (1 )
(1 )2
L d p p
p d p d
pp AUC
![Page 92: 1 Régression logistique et analyse discriminante : comparaisons théoriques et pratiques Gilbert Saporta Conservatoire National des Arts et Métiers saporta@cnam.fr.](https://reader038.fdocument.pub/reader038/viewer/2022102900/551d9da2497959293b8d1f67/html5/thumbnails/92.jpg)
92
Coefficient Ki (Kxen)
Ki=(aire entre courbe lift et diagonale) / (aire entre courbe lift et courbe idéale)
1 1
1 1
12(1 ) 12
1 12
2 1L p p AUC
Ki Cp
Ap
U
Ki=Somers’ D ou Accuracy Ratio AR
![Page 93: 1 Régression logistique et analyse discriminante : comparaisons théoriques et pratiques Gilbert Saporta Conservatoire National des Arts et Métiers saporta@cnam.fr.](https://reader038.fdocument.pub/reader038/viewer/2022102900/551d9da2497959293b8d1f67/html5/thumbnails/93.jpg)
93
Optimiser AUC ou Ki: mêmes résultats.Ne prend pas en compte les coûtsNe pas comparer sur données
d’apprentissage…
![Page 94: 1 Régression logistique et analyse discriminante : comparaisons théoriques et pratiques Gilbert Saporta Conservatoire National des Arts et Métiers saporta@cnam.fr.](https://reader038.fdocument.pub/reader038/viewer/2022102900/551d9da2497959293b8d1f67/html5/thumbnails/94.jpg)
94
Les 3 échantillonsApprentissage: pour estimer les
paramètres des modèlesTest : pour choisir le meilleur modèleValidation : pour estimer la performance
sur des données futuresNécessité de faire plusieurs tirages
Modèle final: avec toutes les observations
![Page 95: 1 Régression logistique et analyse discriminante : comparaisons théoriques et pratiques Gilbert Saporta Conservatoire National des Arts et Métiers saporta@cnam.fr.](https://reader038.fdocument.pub/reader038/viewer/2022102900/551d9da2497959293b8d1f67/html5/thumbnails/95.jpg)
95
Conclusion
ADL et régression logistique: fondements également solides mais différents
Un faux débat s’il s’agit seulement de prédire.
Convergence des pratiques : validation en logistique Courbe ROC en discriminante
Prudence quand on calcule des probabilités: Vraies probas ou simples scores