Statistiques en Grande Dimension - M2 MMAhelios.mi.parisdescartes.fr/~ebirmele/depots/... ·...
Transcript of Statistiques en Grande Dimension - M2 MMAhelios.mi.parisdescartes.fr/~ebirmele/depots/... ·...
![Page 1: Statistiques en Grande Dimension - M2 MMAhelios.mi.parisdescartes.fr/~ebirmele/depots/... · 2019-12-04 · Exemple: régressionaprèsACP pcrgasoline](https://reader033.fdocument.pub/reader033/viewer/2022050216/5f61cfdf14c74c60d9654ceb/html5/thumbnails/1.jpg)
Statistiques en Grande Dimension - M2 MMA
Etienne Birmelé
3 novembre 2019
![Page 2: Statistiques en Grande Dimension - M2 MMAhelios.mi.parisdescartes.fr/~ebirmele/depots/... · 2019-12-04 · Exemple: régressionaprèsACP pcrgasoline](https://reader033.fdocument.pub/reader033/viewer/2022050216/5f61cfdf14c74c60d9654ceb/html5/thumbnails/2.jpg)
Introduction
![Page 3: Statistiques en Grande Dimension - M2 MMAhelios.mi.parisdescartes.fr/~ebirmele/depots/... · 2019-12-04 · Exemple: régressionaprèsACP pcrgasoline](https://reader033.fdocument.pub/reader033/viewer/2022050216/5f61cfdf14c74c60d9654ceb/html5/thumbnails/3.jpg)
Grande dimension
I on considère une matrice de données X, et éventuellement unvecteur d’observations Y à expliquer. Les observations portentsur p variables, mesurées sur n individus
I on parle de grande dimension dès que p > n.
![Page 4: Statistiques en Grande Dimension - M2 MMAhelios.mi.parisdescartes.fr/~ebirmele/depots/... · 2019-12-04 · Exemple: régressionaprèsACP pcrgasoline](https://reader033.fdocument.pub/reader033/viewer/2022050216/5f61cfdf14c74c60d9654ceb/html5/thumbnails/4.jpg)
Problèmes liés à la grande dimension
I Problèmes théoriques: répartition de la masse contre-intuitive,points aléatoires équidistants . . .
I Problèmes pratiques: matrices non inversibles, notammentXXT .
I Problèmes d’interprétation en statistiques supervisées:sur-apprentissage.
![Page 5: Statistiques en Grande Dimension - M2 MMAhelios.mi.parisdescartes.fr/~ebirmele/depots/... · 2019-12-04 · Exemple: régressionaprèsACP pcrgasoline](https://reader033.fdocument.pub/reader033/viewer/2022050216/5f61cfdf14c74c60d9654ceb/html5/thumbnails/5.jpg)
Données d’expression de gènes
Les données fil rouge de ce cours seront des données d’apprentissagesupervisé en génomique:
I X ∈M(p, n) désigne la mesure de l’expression de p gènes chezn individus. Typiquement, p est de plusieurs milliers alors quen est de quelques dizaines voire centaines.
I y ∈ Rn est une variable phénotypique mesurée chez tous lesindividus, par exemple un indice de virulence de la tumeur.
Question principale: Peut-on correctement prédire y à l’aide de X?
![Page 6: Statistiques en Grande Dimension - M2 MMAhelios.mi.parisdescartes.fr/~ebirmele/depots/... · 2019-12-04 · Exemple: régressionaprèsACP pcrgasoline](https://reader033.fdocument.pub/reader033/viewer/2022050216/5f61cfdf14c74c60d9654ceb/html5/thumbnails/6.jpg)
Données d’expression de gènes
Exemple: 7129 gènes mesurées chez 72 patients ayant deux typesdifférents de leucémie (AML et ALL).
ALL
ALL
ALL
ALL
ALL
AM
LA
ML
AM
LA
ML
ALL
ALL
ALL
ALL
ALL
ALL
ALL
AM
LA
ML
Conditions
AFFX−BioB−5_atD17525_atD64158_atHG1872−HT1907_atJ03824_atL19063_atL48516_atM29550_atM68520_atS59184_atU09813_atU28811_atU47054_atU63825_atU80184_rna1_atX05615_atX60655_atX79353_atX98801_atZ49099_atV00536_rna1_atHG1471−HT3923_s_atJ04046_s_atM27504_s_atU41068_cds2_s_atL49229_f_atM60750_f_at
Gen
es
![Page 7: Statistiques en Grande Dimension - M2 MMAhelios.mi.parisdescartes.fr/~ebirmele/depots/... · 2019-12-04 · Exemple: régressionaprèsACP pcrgasoline](https://reader033.fdocument.pub/reader033/viewer/2022050216/5f61cfdf14c74c60d9654ceb/html5/thumbnails/7.jpg)
Idées générales
I L’ensemble des méthodes visent à réduire la dimension. Celapeut par contre être fait préalablement à la résolution de laquestion (pré-traitement) ou en même temps (simultané).
I La question principale contient en fait deux sous-cas:
1. Prédiction: On cherche uniquement à prédire Y ,indépendamment de l’interprétabilité des variables retenues
2. Sélection: On souhaite sélectionner un petit nombre devariables pour réaliser la prédiction, ce qui permettra leurinterprétation.
Remarque: la notion de prédiction est distincte de celle de causalité!Un bon prédicteur n’est pas forcément la cause de Y , il peut parexemple en être une conséquence.
![Page 8: Statistiques en Grande Dimension - M2 MMAhelios.mi.parisdescartes.fr/~ebirmele/depots/... · 2019-12-04 · Exemple: régressionaprèsACP pcrgasoline](https://reader033.fdocument.pub/reader033/viewer/2022050216/5f61cfdf14c74c60d9654ceb/html5/thumbnails/8.jpg)
Plan
I Sélection en pré-traitement: Tests mutiplesI Prédiction en pré-traitement: ACP et PLSI Prédiction en simultané: Réseaux de neurones (cf cours
d’Andrés Almansa)I Sélection en simultané: Régressions PénaliséesI (Réseaux de neurones en pré-traitement: les auto-encodeurs)I (Inférence de réseaux: modèles graphiques gaussiens)
![Page 9: Statistiques en Grande Dimension - M2 MMAhelios.mi.parisdescartes.fr/~ebirmele/depots/... · 2019-12-04 · Exemple: régressionaprèsACP pcrgasoline](https://reader033.fdocument.pub/reader033/viewer/2022050216/5f61cfdf14c74c60d9654ceb/html5/thumbnails/9.jpg)
Rappels sur le modèle linéaire en petitedimension
![Page 10: Statistiques en Grande Dimension - M2 MMAhelios.mi.parisdescartes.fr/~ebirmele/depots/... · 2019-12-04 · Exemple: régressionaprèsACP pcrgasoline](https://reader033.fdocument.pub/reader033/viewer/2022050216/5f61cfdf14c74c60d9654ceb/html5/thumbnails/10.jpg)
Modèle linéaire généralisé
Y ∼ fθ, fθ ∈ F(Θ)E(Y ) = µ
g(µ) = Xβ = β0 + β1X1 + . . .+ βpXp.
Pour que ce modèle soit bien défini, il faut choisir:
I La famille paramétrique F(Θ) à laquelle appartient la loi de Y .On choisira F(Θ) dans la famille exponentielle.
I La fonction de lien g qui relie E(Y ) et (X1, . . . ,XK ).
![Page 11: Statistiques en Grande Dimension - M2 MMAhelios.mi.parisdescartes.fr/~ebirmele/depots/... · 2019-12-04 · Exemple: régressionaprèsACP pcrgasoline](https://reader033.fdocument.pub/reader033/viewer/2022050216/5f61cfdf14c74c60d9654ceb/html5/thumbnails/11.jpg)
Modèle linéaire gaussien
On choisit la famille des lois normales et la fonction de lienidentité. En raison des propriétés des lois normales, le modèle peuts’écrire
Y = β0 + β1X1 + . . .+ βpXp + ε, ε ∼ N (0, σ2)
ou
y = Xβ + ε
où β ∈ Rp est le vecteur des βi et ε ∈ Rn est constitué deréalisations indépendantes de ε.
![Page 12: Statistiques en Grande Dimension - M2 MMAhelios.mi.parisdescartes.fr/~ebirmele/depots/... · 2019-12-04 · Exemple: régressionaprèsACP pcrgasoline](https://reader033.fdocument.pub/reader033/viewer/2022050216/5f61cfdf14c74c60d9654ceb/html5/thumbnails/12.jpg)
Modèle linéaire gaussien
I Estimation: Formules closes pour le maximum devraisemblance, notamment
β̂ = (XXT )−1XTy
I Choix de modèle: Comparaisons via le R2 ajusté ou uncritère de vraisemblance pénalisée. Par exemple l’AIC (AkaikeInformation Criterion)
AIC = −2 logL+ 2k
où L désigne la vraisemblance et k le nombre de paramètre dumodèle (ici p + 1).
![Page 13: Statistiques en Grande Dimension - M2 MMAhelios.mi.parisdescartes.fr/~ebirmele/depots/... · 2019-12-04 · Exemple: régressionaprèsACP pcrgasoline](https://reader033.fdocument.pub/reader033/viewer/2022050216/5f61cfdf14c74c60d9654ceb/html5/thumbnails/13.jpg)
Modèle logistique
On choisit la famille binomiale et plus particulièrement une loi deBernoulli, et la fonction de lien logistique g(x) = log( x
1−x ). Lemodèle devient
Y ∼ B(p)
log(P(Y = 1)P(Y = 0)
)= Xβ
Remarque: On ne peut pas écrire Y = Xβ + erreur , en tous caspas avec une erreur de loi connue.
![Page 14: Statistiques en Grande Dimension - M2 MMAhelios.mi.parisdescartes.fr/~ebirmele/depots/... · 2019-12-04 · Exemple: régressionaprèsACP pcrgasoline](https://reader033.fdocument.pub/reader033/viewer/2022050216/5f61cfdf14c74c60d9654ceb/html5/thumbnails/14.jpg)
Modèle logistique
I Estimation: Les formules ne sont plus closes pour lemaximum de vraisemblance, il faut recourir à des algorithmesd’optimisation (Newton-Raphson par exemple) pour estimer lesparamètres.
I Choix de modèle: Comparaisons via la déviance ou un critèrede vraisemblance pénalisée.
![Page 15: Statistiques en Grande Dimension - M2 MMAhelios.mi.parisdescartes.fr/~ebirmele/depots/... · 2019-12-04 · Exemple: régressionaprèsACP pcrgasoline](https://reader033.fdocument.pub/reader033/viewer/2022050216/5f61cfdf14c74c60d9654ceb/html5/thumbnails/15.jpg)
Sélection de variables par tests multiples
![Page 16: Statistiques en Grande Dimension - M2 MMAhelios.mi.parisdescartes.fr/~ebirmele/depots/... · 2019-12-04 · Exemple: régressionaprèsACP pcrgasoline](https://reader033.fdocument.pub/reader033/viewer/2022050216/5f61cfdf14c74c60d9654ceb/html5/thumbnails/16.jpg)
Principe
I Un bon prédicteur devrait avoir un comportement différententre les deux conditions.
I Une manière de sélectionner les variables pour en réduire lenombre est de ne garder que celles qui montrent une différencesignificative d’expression moyenne entre les deux conditions(Test de Student, de Wilcoxon, bootstrap, procédurebayésienne du package limma. . . ).
I Si ce nombre est suffisamment faible, on peut alors utiliser lesstatistiques en petite dimensions dans l’espace réduit à cesvariables.
![Page 17: Statistiques en Grande Dimension - M2 MMAhelios.mi.parisdescartes.fr/~ebirmele/depots/... · 2019-12-04 · Exemple: régressionaprèsACP pcrgasoline](https://reader033.fdocument.pub/reader033/viewer/2022050216/5f61cfdf14c74c60d9654ceb/html5/thumbnails/17.jpg)
p tests simultanés
H0 choisi H1 choisi
H0 vrai TN FP p0
H1 vrai FN TP p − p0
p − R R p
Si chaque test est fait à un niveau 1− α, le nombre moyen de fauxpositifs (FP) est p0α, ce qui peut être bien supérieur au nombre degènes vraiment différentiellement exprimés: la liste renvoyée risqued’être essentiellement constituée d’erreurs.
![Page 18: Statistiques en Grande Dimension - M2 MMAhelios.mi.parisdescartes.fr/~ebirmele/depots/... · 2019-12-04 · Exemple: régressionaprèsACP pcrgasoline](https://reader033.fdocument.pub/reader033/viewer/2022050216/5f61cfdf14c74c60d9654ceb/html5/thumbnails/18.jpg)
Contrôles pour tests multiples
Contrôler le risque de première espèce n’est pas suffisant. On peutdécider de contrôler plutôt:
I le Family Wise Error Rate: FWER = P(FP ≥ 1)I le False Discovery Rate: FDR = E
( FPFP+TP
)Le contrôle du FWER est plus fort, il permet de s’assurer qu’avecforte probabilité, aucun faux positif n’est recruté.
Le contrôle du FDR est plus souple, il permet de moins rejeter depositifs, au prix d’un plus fort taux de faux positifs.
![Page 19: Statistiques en Grande Dimension - M2 MMAhelios.mi.parisdescartes.fr/~ebirmele/depots/... · 2019-12-04 · Exemple: régressionaprèsACP pcrgasoline](https://reader033.fdocument.pub/reader033/viewer/2022050216/5f61cfdf14c74c60d9654ceb/html5/thumbnails/19.jpg)
Contrôle du FWER: Procédure de Bonferroni
I Les tests individuels (gène par gène) sont menés en remplaçantα par α
m .I On a bien FWER ≤ α.
Exemple: On teste 2000 gènes simultanément. Pour obtenir uneFWER de 5%, on effectue chaque test avec un risque de premièreespèce de α = .05
2000 = 2.5 10−5.
![Page 20: Statistiques en Grande Dimension - M2 MMAhelios.mi.parisdescartes.fr/~ebirmele/depots/... · 2019-12-04 · Exemple: régressionaprèsACP pcrgasoline](https://reader033.fdocument.pub/reader033/viewer/2022050216/5f61cfdf14c74c60d9654ceb/html5/thumbnails/20.jpg)
Contrôle de la FWER: procédure de Holm-Bonferroni
Les décisions ne sont pas prises indépendamment les unes des autres:
1. effectuer les p tests et ordonner les p p-valeurs obtenues
p(1) ≤ p(2) ≤ . . . ≤ p(m)
2. d’eterminer I = max{k | ∀i ≤ k, p(i) ≤ αm−i+1}
3. on rejette les p-valeurs inf’erieures ‘a αm−I+1 .
I On a alors FWER ≤ α.I La méthode de Holm est systématiquement supérieure à celle
de Bonferroni.
![Page 21: Statistiques en Grande Dimension - M2 MMAhelios.mi.parisdescartes.fr/~ebirmele/depots/... · 2019-12-04 · Exemple: régressionaprèsACP pcrgasoline](https://reader033.fdocument.pub/reader033/viewer/2022050216/5f61cfdf14c74c60d9654ceb/html5/thumbnails/21.jpg)
Benjamini-Hochberg: Procédure de contrôle du FDR
Les décisions ne sont pas prises indépendamment les unes des autres:
1. effectuer les m test et ordonner les m p-valeurs obtenues
p(1) ≤ p(2) ≤ . . . ≤ p(m)
2. d’eterminer I = max{i | p(i) ≤ α im}
3. on rejette les p-valeurs inf’erieures ‘a α Im .
On a alors FDR ≤ α.
![Page 22: Statistiques en Grande Dimension - M2 MMAhelios.mi.parisdescartes.fr/~ebirmele/depots/... · 2019-12-04 · Exemple: régressionaprèsACP pcrgasoline](https://reader033.fdocument.pub/reader033/viewer/2022050216/5f61cfdf14c74c60d9654ceb/html5/thumbnails/22.jpg)
En pratique
I Pour l’application des gènes, le contrôle du FWER est tropconservatif (p est trop grand). Il est souvent nécessaire de secontenter de contrôler le FDR.
I Il existe des fonctions (p.adjust sous R) qui, étant donnée levecteur des p-valeurs p initiales, les transforment en un vecteurde p-valeurs p∗ ajustées.Elles sont telles que l’hypothèse i est rejeté après correctionpour test multiple si et seulement un test simple rejettel’hypothèse i avec la p-valeur ajustée.
![Page 23: Statistiques en Grande Dimension - M2 MMAhelios.mi.parisdescartes.fr/~ebirmele/depots/... · 2019-12-04 · Exemple: régressionaprèsACP pcrgasoline](https://reader033.fdocument.pub/reader033/viewer/2022050216/5f61cfdf14c74c60d9654ceb/html5/thumbnails/23.jpg)
Réduction de dimension par combinaisonslinéaires de variables: ACP et PLS
![Page 24: Statistiques en Grande Dimension - M2 MMAhelios.mi.parisdescartes.fr/~ebirmele/depots/... · 2019-12-04 · Exemple: régressionaprèsACP pcrgasoline](https://reader033.fdocument.pub/reader033/viewer/2022050216/5f61cfdf14c74c60d9654ceb/html5/thumbnails/24.jpg)
Principe
Une manière de traiter le problème est de réduire la dimension,c’est-à-dire - chercher un sous-espace vectoriel de dimension pluspetite que n - remplacer le nuage de point initial par sa projectionorthogonale sur le sous-espace précédent.
Question: Comment choisir cet espace pour que le nouveau nuagesoit aussi représentatif que possible des données initiales.
![Page 25: Statistiques en Grande Dimension - M2 MMAhelios.mi.parisdescartes.fr/~ebirmele/depots/... · 2019-12-04 · Exemple: régressionaprèsACP pcrgasoline](https://reader033.fdocument.pub/reader033/viewer/2022050216/5f61cfdf14c74c60d9654ceb/html5/thumbnails/25.jpg)
Cadre mathématique
Il s’agit de construire
I une matrice A contenant en colonne les coefficients decombinaisons linéaires des anciennes variables (les vecteursengendrant le nouvel espace):
I une matrice Z (n × r , r << n) contenant r nouvelles variables(le nouveau nuage). Il vérifie
Z = XA
![Page 26: Statistiques en Grande Dimension - M2 MMAhelios.mi.parisdescartes.fr/~ebirmele/depots/... · 2019-12-04 · Exemple: régressionaprèsACP pcrgasoline](https://reader033.fdocument.pub/reader033/viewer/2022050216/5f61cfdf14c74c60d9654ceb/html5/thumbnails/26.jpg)
Principe de construction
Les h − 1 premières variables (ou de façon équivalente les h − 1premiers axes) étant déjà construites, on construit l’axe suivant enrésolvant
ah = argmaxa
C(a,X ,Y )
sous les contraintes
I aTh ah = 1
I et ∀l < h, cov(zh, zl ) = aTh X ′Xal = 0,
où C(a,X ,Y ) est une fonction critère à optimiser.
Les conditions assurent que les coefficient directeurs des axes sontunitaires, et que les nouvelles variables sont décorrélées.
![Page 27: Statistiques en Grande Dimension - M2 MMAhelios.mi.parisdescartes.fr/~ebirmele/depots/... · 2019-12-04 · Exemple: régressionaprèsACP pcrgasoline](https://reader033.fdocument.pub/reader033/viewer/2022050216/5f61cfdf14c74c60d9654ceb/html5/thumbnails/27.jpg)
Transformations préliminaires
On se place dans un cadre centré: on soustrait leur moyenne àchaque variable. Cela revient à simplement changer l’origine del’espace, sans modifier le nuage de points.
Il faut faire le choix de normer ou pas chaque variable (ramener savariance à 1).
-Avantage: on peut comparer des variables dans des unitésdifférentes
-Désavantage: dans le cas de variables comparables, on lisse lesignal.
![Page 28: Statistiques en Grande Dimension - M2 MMAhelios.mi.parisdescartes.fr/~ebirmele/depots/... · 2019-12-04 · Exemple: régressionaprèsACP pcrgasoline](https://reader033.fdocument.pub/reader033/viewer/2022050216/5f61cfdf14c74c60d9654ceb/html5/thumbnails/28.jpg)
Analyse en Composantes Prinipales
L’ACP réduit la dimension en cherchant des axes qui expliquent lemieux possible la variance du nuage des X (indépendamment de Y ).Le critère est alors
C(a,X ) = a′X ′Xa = aT Σa
où Σ est la matrice de covariance empirique. Cela revient à chercherl’axe suivant lequel la variance est la plus grande.
![Page 29: Statistiques en Grande Dimension - M2 MMAhelios.mi.parisdescartes.fr/~ebirmele/depots/... · 2019-12-04 · Exemple: régressionaprèsACP pcrgasoline](https://reader033.fdocument.pub/reader033/viewer/2022050216/5f61cfdf14c74c60d9654ceb/html5/thumbnails/29.jpg)
ACP en pratique
D’un point de vue algorithmique:
I soit on trouve a1, puis on projette tous les individus (qui sontdes points de Rp) sur (a1)⊥. On lance à nouveaul’optimisation de C pour trouver a2 etc. . .
I soit on peut démontrer que les ai correspondent aux vecteurspropres de Σ (qui est diagonalisable car symétrique) et on lesobtient tous d’un coup.
Il est à noter que ce sont aussi les vecteurs propres de ladécomposition en valeurs singulières de X .
![Page 30: Statistiques en Grande Dimension - M2 MMAhelios.mi.parisdescartes.fr/~ebirmele/depots/... · 2019-12-04 · Exemple: régressionaprèsACP pcrgasoline](https://reader033.fdocument.pub/reader033/viewer/2022050216/5f61cfdf14c74c60d9654ceb/html5/thumbnails/30.jpg)
PLS: principe pour Y unidimensionnel
La PLS peut être vue comme une généralisation de l’ACP où oncherche à faire la même chose à part que ce qu’on appelle lemeilleur axe n’est plus celui selon laquelle la variance est la plusgrande, mais celui qui explique le mieux Y .
On peut utiliser comme critère le carré de la covariance entre Y etl’axe candidat:
C(a,X ,Y ) = cov(Y ,Xa)2 = a′X ′YY ′Xa
![Page 31: Statistiques en Grande Dimension - M2 MMAhelios.mi.parisdescartes.fr/~ebirmele/depots/... · 2019-12-04 · Exemple: régressionaprèsACP pcrgasoline](https://reader033.fdocument.pub/reader033/viewer/2022050216/5f61cfdf14c74c60d9654ceb/html5/thumbnails/31.jpg)
PLS en pratique
I on peut à nouveau chercher pas à pas en projetant à chaquefois sur l’orthogonal des axes déjà définis.
I ou déterminer la décomposition en valeurs singulières deX ′YY ′X .
![Page 32: Statistiques en Grande Dimension - M2 MMAhelios.mi.parisdescartes.fr/~ebirmele/depots/... · 2019-12-04 · Exemple: régressionaprèsACP pcrgasoline](https://reader033.fdocument.pub/reader033/viewer/2022050216/5f61cfdf14c74c60d9654ceb/html5/thumbnails/32.jpg)
PLS avec Y multidimensionnel
A chaque pas, on cherche la meilleure covariance entre unecombinaison linéaire des X et une combinaison linéaire des Y :
(u1, v1) = argmaxu,v
cov(Xu,Yv)
sous la contrainte u′u = 1 et v ′v = 1.
On projette ensuite X et Y suivant les vecteurs choisis (déflation) eton recommence.
![Page 33: Statistiques en Grande Dimension - M2 MMAhelios.mi.parisdescartes.fr/~ebirmele/depots/... · 2019-12-04 · Exemple: régressionaprèsACP pcrgasoline](https://reader033.fdocument.pub/reader033/viewer/2022050216/5f61cfdf14c74c60d9654ceb/html5/thumbnails/33.jpg)
Prédiction après réduction de dimension
On peut utiliser l’ACP ou la PLS comme une étape préliminaire à larégression (ou tout autre algorithme de prédiction):
1. on se place dans l’espace des nouvelles variables2. on fait une régression sur ces nouvelles variables (et c’est bien
défini car r < n)3. dans le cas de la régression, on peut reécrire les zj en fonction
des xi dans le modèle linéaire pour obtenir une régressionportant sur les variables initiales.
Cf fonctions pcr et plsr du package pls ou la fonction pls.regressiondu package pls.genomics.
![Page 34: Statistiques en Grande Dimension - M2 MMAhelios.mi.parisdescartes.fr/~ebirmele/depots/... · 2019-12-04 · Exemple: régressionaprèsACP pcrgasoline](https://reader033.fdocument.pub/reader033/viewer/2022050216/5f61cfdf14c74c60d9654ceb/html5/thumbnails/34.jpg)
Exemple: Données gasoline
Chargement des données
library(pls)data(gasoline)
Séparation en Jeu d’appentissage/Jeu test
learn <- sample(1:dim(gasoline)[1],50,replace=FALSE)test <- which(!(1:dim(gasoline)[1]) %in% learn)gasolinelearn <- gasoline[learn,]gasolinetest <- gasoline[test,]
![Page 35: Statistiques en Grande Dimension - M2 MMAhelios.mi.parisdescartes.fr/~ebirmele/depots/... · 2019-12-04 · Exemple: régressionaprèsACP pcrgasoline](https://reader033.fdocument.pub/reader033/viewer/2022050216/5f61cfdf14c74c60d9654ceb/html5/thumbnails/35.jpg)
Exemple: régression après ACPpcrgasoline <- pcr(octane~NIR,ncomp=10,data=gasolinelearn,scale=TRUE,validation="CV",segments=5)summary(pcrgasoline)
## Data: X dimension: 50 401## Y dimension: 50 1## Fit method: svdpc## Number of components considered: 10#### VALIDATION: RMSEP## Cross-validated using 5 random segments.## (Intercept) 1 comps 2 comps 3 comps 4 comps 5 comps 6 comps## CV 1.631 1.625 1.558 0.4529 0.2909 0.2523 0.2581## adjCV 1.631 1.613 1.542 0.3335 0.2877 0.2473 0.2566## 7 comps 8 comps 9 comps 10 comps## CV 0.2228 0.2198 0.2198 0.2236## adjCV 0.2170 0.2193 0.2101 0.2143#### TRAINING: % variance explained## 1 comps 2 comps 3 comps 4 comps 5 comps 6 comps 7 comps## X 71.453 88.57 93.78 97.53 98.35 98.72 99.03## octane 9.519 23.42 96.55 97.43 98.31 98.36 98.87## 8 comps 9 comps 10 comps## X 99.22 99.38 99.50## octane 98.90 99.11 99.11
![Page 36: Statistiques en Grande Dimension - M2 MMAhelios.mi.parisdescartes.fr/~ebirmele/depots/... · 2019-12-04 · Exemple: régressionaprèsACP pcrgasoline](https://reader033.fdocument.pub/reader033/viewer/2022050216/5f61cfdf14c74c60d9654ceb/html5/thumbnails/36.jpg)
Exemple: Régression après PLSplsgasoline <- plsr(octane ~ NIR, ncomp = 10, data = gasolinelearn, validation = "CV",segments=5)summary(plsgasoline)
## Data: X dimension: 50 401## Y dimension: 50 1## Fit method: kernelpls## Number of components considered: 10#### VALIDATION: RMSEP## Cross-validated using 5 random segments.## (Intercept) 1 comps 2 comps 3 comps 4 comps 5 comps 6 comps## CV 1.631 1.443 0.4586 0.2716 0.2917 0.2753 0.2378## adjCV 1.631 1.429 0.4361 0.2707 0.2824 0.2512 0.2224## 7 comps 8 comps 9 comps 10 comps## CV 0.2255 0.2209 0.2295 0.2444## adjCV 0.2118 0.2088 0.2145 0.2279#### TRAINING: % variance explained## 1 comps 2 comps 3 comps 4 comps 5 comps 6 comps 7 comps## X 71.99 79.53 86.70 95.71 96.14 96.97 97.51## octane 32.48 94.51 97.72 98.12 99.08 99.27 99.41## 8 comps 9 comps 10 comps## X 98.25 98.42 98.75## octane 99.46 99.56 99.59
![Page 37: Statistiques en Grande Dimension - M2 MMAhelios.mi.parisdescartes.fr/~ebirmele/depots/... · 2019-12-04 · Exemple: régressionaprèsACP pcrgasoline](https://reader033.fdocument.pub/reader033/viewer/2022050216/5f61cfdf14c74c60d9654ceb/html5/thumbnails/37.jpg)
Exemple: Erreur de prédiction sur jeu d’apprentissage
0 2 4 6 8 10
0.2
0.4
0.6
0.8
1.0
1.2
1.4
1.6
octane
number of components
RM
SE
P
CVadjCV
![Page 38: Statistiques en Grande Dimension - M2 MMAhelios.mi.parisdescartes.fr/~ebirmele/depots/... · 2019-12-04 · Exemple: régressionaprèsACP pcrgasoline](https://reader033.fdocument.pub/reader033/viewer/2022050216/5f61cfdf14c74c60d9654ceb/html5/thumbnails/38.jpg)
Exemple: Interprétation des coefficients ACP
1000 1200 1400 1600
−0.
20−
0.15
−0.
10−
0.05
0.00
0.05
0.10
0.15
nm
load
ing
valu
e
Comp 1 (71.5 %)Comp 2 (17.1 %)Comp 3 (5.2 %)
![Page 39: Statistiques en Grande Dimension - M2 MMAhelios.mi.parisdescartes.fr/~ebirmele/depots/... · 2019-12-04 · Exemple: régressionaprèsACP pcrgasoline](https://reader033.fdocument.pub/reader033/viewer/2022050216/5f61cfdf14c74c60d9654ceb/html5/thumbnails/39.jpg)
Exemple: Interprétation des coefficients PLS
1000 1200 1400 1600
−0.
4−
0.2
0.0
0.2
nm
load
ing
valu
e
Comp 1 (72.0 %)Comp 2 (7.5 %)Comp 3 (7.2 %)
![Page 40: Statistiques en Grande Dimension - M2 MMAhelios.mi.parisdescartes.fr/~ebirmele/depots/... · 2019-12-04 · Exemple: régressionaprèsACP pcrgasoline](https://reader033.fdocument.pub/reader033/viewer/2022050216/5f61cfdf14c74c60d9654ceb/html5/thumbnails/40.jpg)
Exemple: Erreur d’apprentissage sur jeu test## , , 2 comps#### octane## 6 85.36811## 8 88.33678## 9 88.55386## 10 88.27596## 13 87.40934## 21 86.96273## 27 86.54938## 47 88.91762## 51 87.50581## 52 87.04008
## (Intercept) 1 comps 2 comps 3 comps 4 comps## 1.0356 0.9154 0.3994 0.1743 0.1741## 5 comps 6 comps 7 comps 8 comps 9 comps## 0.2404 0.2637 0.3152 0.3389 0.3693## 10 comps## 0.3668
## , , 3 comps#### octane## 6 85.35790## 8 88.44883## 9 88.80326## 10 88.40937## 13 87.36828## 21 86.60393## 27 86.39561## 47 88.20584## 51 88.17540## 52 87.56793
## (Intercept) 1 comps 2 comps 3 comps 4 comps## 1.0356 1.0426 0.9592 0.1752 0.2070## 5 comps 6 comps 7 comps 8 comps 9 comps## 0.1775 0.1858 0.2664 0.2521 0.2586## 10 comps## 0.2589
![Page 41: Statistiques en Grande Dimension - M2 MMAhelios.mi.parisdescartes.fr/~ebirmele/depots/... · 2019-12-04 · Exemple: régressionaprèsACP pcrgasoline](https://reader033.fdocument.pub/reader033/viewer/2022050216/5f61cfdf14c74c60d9654ceb/html5/thumbnails/41.jpg)
Sélection de variables par pénalisation: Lasso,Ridge et consorts
![Page 42: Statistiques en Grande Dimension - M2 MMAhelios.mi.parisdescartes.fr/~ebirmele/depots/... · 2019-12-04 · Exemple: régressionaprèsACP pcrgasoline](https://reader033.fdocument.pub/reader033/viewer/2022050216/5f61cfdf14c74c60d9654ceb/html5/thumbnails/42.jpg)
Question
Est-il possible d’adapter la régression linéaire (gaussienne oulogistique) en grande dimension de façon à
I limiter les effets des corrélationsI avoir un nombre restreint de variables (gènes) qui ont un
coefficient non nul.
![Page 43: Statistiques en Grande Dimension - M2 MMAhelios.mi.parisdescartes.fr/~ebirmele/depots/... · 2019-12-04 · Exemple: régressionaprèsACP pcrgasoline](https://reader033.fdocument.pub/reader033/viewer/2022050216/5f61cfdf14c74c60d9654ceb/html5/thumbnails/43.jpg)
Principe
Soit `(β,X ) la vraisemblance d’un modèle de régression évaluée enune valeur β des paramètres au vu des données X et Y .
Afin de favoriser un certain comportement de la solution, on peutremplacer l’estimateur du maximum de vraisemblance
β̂ = argmax(`(β,X ,Y ))
par
β̂ = argmax(`(β,X ,Y ))− λpen(β)
où pen(beta) est une fonction de pénalité à choisir. La valeur de λfixe le degré de pénalité que l’on veut considérer.
![Page 44: Statistiques en Grande Dimension - M2 MMAhelios.mi.parisdescartes.fr/~ebirmele/depots/... · 2019-12-04 · Exemple: régressionaprèsACP pcrgasoline](https://reader033.fdocument.pub/reader033/viewer/2022050216/5f61cfdf14c74c60d9654ceb/html5/thumbnails/44.jpg)
Régression Ridge
β̂Ridge = argmax(`(β,X ,Y )− λ||β||22)
ou de façon équivalente dans le cas gaussien,
β̂Ridge = argmin(‖Y − Xβ‖2 + λ||β||22)
La pénalité Ridge est utilisée pour diminuer la grande varianceinduite sur β par la présence de variables corrélées.
I
β̂Ridge = (X′X + λI)−1X′Y
I β̂Ridge est un estimateur biaisé contrairement à celui desmoindres carrés dans le cas gaussien, mais sa variance estmoindre.
![Page 45: Statistiques en Grande Dimension - M2 MMAhelios.mi.parisdescartes.fr/~ebirmele/depots/... · 2019-12-04 · Exemple: régressionaprèsACP pcrgasoline](https://reader033.fdocument.pub/reader033/viewer/2022050216/5f61cfdf14c74c60d9654ceb/html5/thumbnails/45.jpg)
Problème dual et interprétation géométrique
Le problème
β̂Ridge = argmax(`(β,X ,Y )−λ||β||22)
est équivalent à un problème dualde la forme
β̂Ridge = argmax(`(β,X ,Y ))
sous la contrainte∑iβ2
i ≤ c(λ)
![Page 46: Statistiques en Grande Dimension - M2 MMAhelios.mi.parisdescartes.fr/~ebirmele/depots/... · 2019-12-04 · Exemple: régressionaprèsACP pcrgasoline](https://reader033.fdocument.pub/reader033/viewer/2022050216/5f61cfdf14c74c60d9654ceb/html5/thumbnails/46.jpg)
Régression Lasso
β̂Lasso = argmax(l(β,X ,Y )− λ||β||1)
ou, de façon équivalente dans le cas gaussien,
β̂Lasso = argmin(‖Y − Xβ‖2 + λ||β||1)
La pénalité Lasso est utilisée pour obtenir des régressionsparcimonieuses, c’est-à-dire tel que beaucoup de coefficients sontnuls.
I Plus λ est grand, plus les solutions sont parcimonieusesI Il n’y a pas de formule close pour β̂Lasso, il faut le déterminer
par un algorithme d’optimimsation.I β̂Lasso est en général un estimateur de grande variance:
problèmes de stabilité de la solution, notamment en présencede variables corrélées.
![Page 47: Statistiques en Grande Dimension - M2 MMAhelios.mi.parisdescartes.fr/~ebirmele/depots/... · 2019-12-04 · Exemple: régressionaprèsACP pcrgasoline](https://reader033.fdocument.pub/reader033/viewer/2022050216/5f61cfdf14c74c60d9654ceb/html5/thumbnails/47.jpg)
Problème dual et interprétation géométrique
Le problème
β̂Lasso = argmax(`(β,X ,Y )−λ||β||1)
est équivalent à un problème dualde la forme
β̂Ridge = argmax(`(β,X ,Y ))
sous la contrainte∑i|βi | ≤ c(λ)
3.2. Régularisations !p 23
!ls
!!1!1
!2
!ls
!!2
!1
!2
Fig. 3.2 – Comparaisons des solutions de problèmes régularisés par une norme !1 et !2.
À gauche de la figure 3.2, !!1 est l’estimateur du problème (3.2) régularisépar une norme !1. La deuxième composante de !!1 est annulée, car l’ellipseatteint la région admissible sur l’angle situé sur l’axe !2 = 0. À droite de lafigure 3.2, !!2 est l’estimateur du problème (3.2) régularisé par une norme!2. La forme circulaire de la région admissible n’incite pas les coefficientsà atteindre des valeurs nulles.
Afin de poursuivre cette discussion avec des arguments à la fois simpleset formels, on peut donner l’expression d’un coefficient des estimateurs!!1 et !!2 , lorsque la matrice X est orthogonale (ce qui correspond à descontours circulaires pour la fonction de perte quadratique). Pour !!2, nousavons
!!2m =
11 + "
!lsm .
Les coefficients subissent un rétrécissement2 proportionnel par le biais dufacteur 1 / (1 + "). En particulier, !!2
m ne peut être nul que si le coefficient!lsm est lui même exactement nul. Pour !!1, nous avons
!!1m = sign
!!lsm
" !|!ls
m| ! ""
+,
où [u]+ = max(0, u). On obtient ainsi un seuillage « doux » : les compo-santes des coefficients des moindres carrés sont rétrécies d’une constante "lorsque |!ls
m| > " , et sont annulés sinon.
Stabilité
Définition 3.2 Stabilité—Selon Breiman [1996], un problème est instable si pour des ensemblesd’apprentissage similaires mais pas identiques (petites perturbations), on obtientdes prédictions ou des estimateurs très différents (grande perturbation).
Remarque 3.5 — Bousquet et Elisseeff [2002] ont défini de façon formelledifférentes notions de stabilité, basées sur le comportement des estima-teurs quand l’échantillon d’apprentissage est perturbé par le retrait ou leremplacement d’un exemple. "
2Shrinkage, en anglais.
![Page 48: Statistiques en Grande Dimension - M2 MMAhelios.mi.parisdescartes.fr/~ebirmele/depots/... · 2019-12-04 · Exemple: régressionaprèsACP pcrgasoline](https://reader033.fdocument.pub/reader033/viewer/2022050216/5f61cfdf14c74c60d9654ceb/html5/thumbnails/48.jpg)
Variante: Elastic-Net
β̂EN = argmax(`(β,X ,Y )− λ(α||β||1 + (1− α)||β||22))
I Avantage: ‘juste milieu’ entre Lasso et Ridge.I Inconvénient: deux paramètres à régler.
![Page 49: Statistiques en Grande Dimension - M2 MMAhelios.mi.parisdescartes.fr/~ebirmele/depots/... · 2019-12-04 · Exemple: régressionaprèsACP pcrgasoline](https://reader033.fdocument.pub/reader033/viewer/2022050216/5f61cfdf14c74c60d9654ceb/html5/thumbnails/49.jpg)
Variante: Group-Lasso
On considère que les variables sont réparties dans L groupesprédéfinies, et soit βl les coordonnées du vecteur β correspondantaux variables du groupe l .
β̂GL = argmax(`(β,X ,Y )−L∑
l=1λl ||βl ||2)
I Avantage: autre moyen d’obtenir un ‘juste milieu’ entre Lassoet Ridge. Les corrélations sont prises à l’intérieur des groupes,et de nombreux groupes sont annulés entièrement.
I Inconvénient: les groupes doivent être déterminés à l’avance.
![Page 50: Statistiques en Grande Dimension - M2 MMAhelios.mi.parisdescartes.fr/~ebirmele/depots/... · 2019-12-04 · Exemple: régressionaprèsACP pcrgasoline](https://reader033.fdocument.pub/reader033/viewer/2022050216/5f61cfdf14c74c60d9654ceb/html5/thumbnails/50.jpg)
Réduction de dimension non-linéaire: lesauto-encodeurs
![Page 51: Statistiques en Grande Dimension - M2 MMAhelios.mi.parisdescartes.fr/~ebirmele/depots/... · 2019-12-04 · Exemple: régressionaprèsACP pcrgasoline](https://reader033.fdocument.pub/reader033/viewer/2022050216/5f61cfdf14c74c60d9654ceb/html5/thumbnails/51.jpg)
Inférence de réseaux: modèles graphiquesgaussiens