Apprentissage automatique, Régression Ridge et LASSO
-
Upload
pierre-hugues-carmichael -
Category
Documents
-
view
5.612 -
download
0
description
Transcript of Apprentissage automatique, Régression Ridge et LASSO
![Page 1: Apprentissage automatique, Régression Ridge et LASSO](https://reader033.fdocument.pub/reader033/viewer/2022061521/556a0f60d8b42af0198b4b85/html5/thumbnails/1.jpg)
Quand le cowboy fait le tour de la montagne
Apprentissage automatique, régression Ridge et LASSO
![Page 2: Apprentissage automatique, Régression Ridge et LASSO](https://reader033.fdocument.pub/reader033/viewer/2022061521/556a0f60d8b42af0198b4b85/html5/thumbnails/2.jpg)
Plan
La prédiction pour mieux comprendre Régression linéaire et sélection de modèle Régression Ridge LASSO Comparaison des méthodes de sélection
par simulation Comparaison des méthodes sur un
exemple pratique
![Page 3: Apprentissage automatique, Régression Ridge et LASSO](https://reader033.fdocument.pub/reader033/viewer/2022061521/556a0f60d8b42af0198b4b85/html5/thumbnails/3.jpg)
La prédiction pour mieux comprendre
Inférence basée sur la signification statistique des paramètres d’un modèle
Inférence basée sur la précision des prédictions d’un modèle Biais des prédictions Variance des prédictions
![Page 4: Apprentissage automatique, Régression Ridge et LASSO](https://reader033.fdocument.pub/reader033/viewer/2022061521/556a0f60d8b42af0198b4b85/html5/thumbnails/4.jpg)
La prédiction pour mieux comprendre
Sélection de modèle pour la prédiction Critère d’information d’Akaike (AIC) Données d’entraînement vs Données
de test Validation Croisée (CV)
![Page 5: Apprentissage automatique, Régression Ridge et LASSO](https://reader033.fdocument.pub/reader033/viewer/2022061521/556a0f60d8b42af0198b4b85/html5/thumbnails/5.jpg)
Régression linéaire et sélection de modèle
€
Y = βX +ε
![Page 6: Apprentissage automatique, Régression Ridge et LASSO](https://reader033.fdocument.pub/reader033/viewer/2022061521/556a0f60d8b42af0198b4b85/html5/thumbnails/6.jpg)
Régression linéaire et sélection de modèle
On trouve β qui minimise:
2
1 1∑ ∑= =
⎟⎟⎠
⎞⎜⎜⎝
⎛−
N
i
p
jjiji xy β
![Page 7: Apprentissage automatique, Régression Ridge et LASSO](https://reader033.fdocument.pub/reader033/viewer/2022061521/556a0f60d8b42af0198b4b85/html5/thumbnails/7.jpg)
Régression linéaire et sélection de modèle
Estimation par moindres carrés Sélection de modèle
Procédure « stepwise » Conserver seulement les variables
significatives à chaque étape Conserver seulement la variable qui réduit
au maximum l’AIC
![Page 8: Apprentissage automatique, Régression Ridge et LASSO](https://reader033.fdocument.pub/reader033/viewer/2022061521/556a0f60d8b42af0198b4b85/html5/thumbnails/8.jpg)
Régression Ridge
On trouve β qui minimise:
∑ ∑∑= ==
+⎟⎟⎠
⎞⎜⎜⎝
⎛−
N
i
p
jj
p
jjiji xy
1 1
2
2
1
βλβ
![Page 9: Apprentissage automatique, Régression Ridge et LASSO](https://reader033.fdocument.pub/reader033/viewer/2022061521/556a0f60d8b42af0198b4b85/html5/thumbnails/9.jpg)
Régression Ridge
Estimation des β par moindres carrés
Estimation du λ par CV Ce choix fait effectivement la sélection
du modèle.
![Page 10: Apprentissage automatique, Régression Ridge et LASSO](https://reader033.fdocument.pub/reader033/viewer/2022061521/556a0f60d8b42af0198b4b85/html5/thumbnails/10.jpg)
Régression Ridge
La condition de minimalisation énoncée ci-haut correspond à une contrainte sur la taille maximale des β
€
β j2 ≤ s
j=1
p
∑
![Page 11: Apprentissage automatique, Régression Ridge et LASSO](https://reader033.fdocument.pub/reader033/viewer/2022061521/556a0f60d8b42af0198b4b85/html5/thumbnails/11.jpg)
Régression Ridge
Permet d’estimer un modèle en présence de covariables fortement corrélées.
Estimation dépendante de l’échelle des variables Centrer et réduire toutes les variables
continues
![Page 12: Apprentissage automatique, Régression Ridge et LASSO](https://reader033.fdocument.pub/reader033/viewer/2022061521/556a0f60d8b42af0198b4b85/html5/thumbnails/12.jpg)
LASSO
On trouve β qui minimise:
∑∑ ∑== =
+⎟⎟⎠
⎞⎜⎜⎝
⎛−
p
jj
N
i
p
jjiji xy
1
2
1 1
βλβ
![Page 13: Apprentissage automatique, Régression Ridge et LASSO](https://reader033.fdocument.pub/reader033/viewer/2022061521/556a0f60d8b42af0198b4b85/html5/thumbnails/13.jpg)
LASSO
À cause de la valeur absolue, l’estimation des β ne peut se faire par les moindres carrés Algorithme quadratique employé pour
l’estimation Estimation du λ par CV
Ce choix fait effectivement la sélection du modèle
![Page 14: Apprentissage automatique, Régression Ridge et LASSO](https://reader033.fdocument.pub/reader033/viewer/2022061521/556a0f60d8b42af0198b4b85/html5/thumbnails/14.jpg)
LASSO
Comme pour la régression Ridge, centrer et réduire les variables continues
![Page 15: Apprentissage automatique, Régression Ridge et LASSO](https://reader033.fdocument.pub/reader033/viewer/2022061521/556a0f60d8b42af0198b4b85/html5/thumbnails/15.jpg)
Comparaison des méthodes
Avantage de la régression Ridge Les effets de variables explicatrices
très corrélées se combinent pour se renforcer mutuellement
Avantage du LASSO Les effets peu important sont estimés à
0, donc le modèle sélectionné aura un nombre de variables d < p.
![Page 16: Apprentissage automatique, Régression Ridge et LASSO](https://reader033.fdocument.pub/reader033/viewer/2022061521/556a0f60d8b42af0198b4b85/html5/thumbnails/16.jpg)
Comparaison des méthodes
Désavantage de la régression Ridge Toutes les variables incluses
initialement se retrouvent dans le modèle final, pas moyen de dire quelles variables sont les plus importantes.
Désavantage du LASSO En présence de variables explicatrices
corrélées, le LASSO en choisit une arbitrairement et met les autres à 0.
![Page 17: Apprentissage automatique, Régression Ridge et LASSO](https://reader033.fdocument.pub/reader033/viewer/2022061521/556a0f60d8b42af0198b4b85/html5/thumbnails/17.jpg)
Comparaison des méthodes
La pénalité du filet élastique (Elastic Net) permet de combiner les avantages des deux méthodes
On cherche β qui minimise:
( )∑ ∑∑= ==
⎥⎦
⎤⎢⎣
⎡ +−+⎟⎟⎠
⎞⎜⎜⎝
⎛−
N
i
p
jjj
p
jjiji xy
1 1
2
2
1
12
1βαβαλβ
![Page 18: Apprentissage automatique, Régression Ridge et LASSO](https://reader033.fdocument.pub/reader033/viewer/2022061521/556a0f60d8b42af0198b4b85/html5/thumbnails/18.jpg)
Comparaison des méthodes par simulation
Jeu d’entraînement: 100 individus, modèle linéaire, erreur normale, 20 variables explicatrices candidates
Jeu de test: 50 individus, même modèle que pour le jeu d’entraînement
![Page 19: Apprentissage automatique, Régression Ridge et LASSO](https://reader033.fdocument.pub/reader033/viewer/2022061521/556a0f60d8b42af0198b4b85/html5/thumbnails/19.jpg)
Données simulées
![Page 20: Apprentissage automatique, Régression Ridge et LASSO](https://reader033.fdocument.pub/reader033/viewer/2022061521/556a0f60d8b42af0198b4b85/html5/thumbnails/20.jpg)
Variable Modèle Régression Stepwise Ridge LASSO Elastic Net
Intercepte 2.4 -1.34 -2.58 -3.88 -2.40 -2.38
X2 -0.71 -0.42
X3 0.68 0.06
X4 -0.35 -0.60
X5 -5 -17.13 -17 -15.18 -15.63 -15.58
X6 1.66 1.83 0.63 0.35 0.33
X7 5 14.42 14.43 12.26 12.81 12.75
X8 0.17 -0.54
X9 -1.26 -1.21 -1.14 -0.24 -0.24
X10 1.43 1.48 0.89
X11 -3 -46.22 -46.21 -42.46 -44.72 -44.62
X12 1.30 1.30 1.18
X13 -0.06 0.08
X14 3 46.71 46.47 42.86 44.52 44.42
X15 -0.45 -0.68
X16 0.02 0.84
X17 3.48 3.04 2.96 0.71 0.71
X18 -3 -6.38 -6.21 -6.66 -4.13 -4.16
X19 -1.68 -0.81
X20 -1.24 0.14
X21 0.15 0.15
Erreur Test -0.86 -0.76 -0.66 -1.14 -1.14
Écart-type 18.59 18.29 18.87 17.23 17.24
![Page 21: Apprentissage automatique, Régression Ridge et LASSO](https://reader033.fdocument.pub/reader033/viewer/2022061521/556a0f60d8b42af0198b4b85/html5/thumbnails/21.jpg)
Comparaison de méthodesTrajectoire Ridge
![Page 22: Apprentissage automatique, Régression Ridge et LASSO](https://reader033.fdocument.pub/reader033/viewer/2022061521/556a0f60d8b42af0198b4b85/html5/thumbnails/22.jpg)
Comparaison des méthodesTrajectoire LASSO
![Page 23: Apprentissage automatique, Régression Ridge et LASSO](https://reader033.fdocument.pub/reader033/viewer/2022061521/556a0f60d8b42af0198b4b85/html5/thumbnails/23.jpg)
Comparaison des méthodesTrajectoire Elastic Net
![Page 24: Apprentissage automatique, Régression Ridge et LASSO](https://reader033.fdocument.pub/reader033/viewer/2022061521/556a0f60d8b42af0198b4b85/html5/thumbnails/24.jpg)
Exemple pratique:Polychlorobiphényles et pesticides organochlorés
Données du CSHA: 1848 sujets 28 Covariables, dont 5 variables
dichotomiques et 1 variables catégoriques
Variable réponse: maladie d’Alzheimer
Échantillon séparé: 185 sujets « test » sélectionnés aléatoirement et 1663 sujets d’entraînement
![Page 25: Apprentissage automatique, Régression Ridge et LASSO](https://reader033.fdocument.pub/reader033/viewer/2022061521/556a0f60d8b42af0198b4b85/html5/thumbnails/25.jpg)
Données pratiques
![Page 26: Apprentissage automatique, Régression Ridge et LASSO](https://reader033.fdocument.pub/reader033/viewer/2022061521/556a0f60d8b42af0198b4b85/html5/thumbnails/26.jpg)
Variable Régression Stepwise Ridge LASSO Elastic Net
Intercepte -1.64 0.23 -1.29 -1.45 -1.45
BPC105 -0.38 0.001
BPC118 0.35 0.003
BPC138 -0.25 0.003
BPC153 -0.56 -0.10 0.004
BPC156 0.17 0.004
BPC163 0.74 0.11 0.005
BPC170 -0.14 0.001
BPC180 0.02 0.0001
BPC183 0.77 0.10 0.004
BPC187 -0.61 -0.08 0.0009
BPC99 0.08 0.003
cisNonachlor -0.63 -0.04 -0.005
Hexachlorobenzene 0.01 0.0004
Oxychlordane -0.43 -0.001
ppDDE 0.13 0.004
ppDDT -0.07 -0.002
BetaHCH -0.09 -0.003
transNonachlor 0.68 -0.003
Éducation -0.26 -0.04 -0.006 -0.03 -0.04
Âge 0.52 0.08 0.02 0.39 0.4
Lipides totaux -0.02 -0.007
IMC -0.16 -0.03 -0.01 -0.09 -0.1
Sexe 0.38 0.04 0.02 0.08 0.09
Région 2 -0.88 -0.14 -0.03 -0.2 -0.23
Région3 0.18 0.03 0.16 0.17
Région4 -0.05 -0.05 0.005
Région5 -1.20 -0.18 -0.04 -0.51 -0.54
APOE4 0.88 0.14 0.04 0.55 0.57
Area -0.01 0.004
Cigarette 0.22 -0.01
Alcohol -0.25 -0.03 -0.02 -0.006 -0.02
Erreur Entraînement 20% 20% 21% 21% 21%
Erreur Test 26% 25% 25% 26% 25%
![Page 27: Apprentissage automatique, Régression Ridge et LASSO](https://reader033.fdocument.pub/reader033/viewer/2022061521/556a0f60d8b42af0198b4b85/html5/thumbnails/27.jpg)
Exemple pratiqueTrajectoire Ridge
![Page 28: Apprentissage automatique, Régression Ridge et LASSO](https://reader033.fdocument.pub/reader033/viewer/2022061521/556a0f60d8b42af0198b4b85/html5/thumbnails/28.jpg)
Exemple pratiqueTrajectoire LASSO
![Page 29: Apprentissage automatique, Régression Ridge et LASSO](https://reader033.fdocument.pub/reader033/viewer/2022061521/556a0f60d8b42af0198b4b85/html5/thumbnails/29.jpg)
Exemple pratiqueTrajectoire Elastic Net
![Page 30: Apprentissage automatique, Régression Ridge et LASSO](https://reader033.fdocument.pub/reader033/viewer/2022061521/556a0f60d8b42af0198b4b85/html5/thumbnails/30.jpg)
Exemple pratiqueComparaison des courbes ROC: Entraînement
![Page 31: Apprentissage automatique, Régression Ridge et LASSO](https://reader033.fdocument.pub/reader033/viewer/2022061521/556a0f60d8b42af0198b4b85/html5/thumbnails/31.jpg)
Exemple pratiqueComparaison des courbes ROC: Test
![Page 32: Apprentissage automatique, Régression Ridge et LASSO](https://reader033.fdocument.pub/reader033/viewer/2022061521/556a0f60d8b42af0198b4b85/html5/thumbnails/32.jpg)
Logiciels
R glmnet (Friedman, Hastie, Tibshirani)
SAS Proc GLMSELECT (LASSO et Stepwise) Proc REG, MIXED, LOGISTIC, PHREG,
etc… (Ridge)
![Page 33: Apprentissage automatique, Régression Ridge et LASSO](https://reader033.fdocument.pub/reader033/viewer/2022061521/556a0f60d8b42af0198b4b85/html5/thumbnails/33.jpg)
Référence
Trevor Hastie, Robert Tibshirani, Jerome Friedman. The Elements of Statistical Learning, 2nd ed., 2008