Statistiques en Grande Dimension - M2 MMAhelios.mi.parisdescartes.fr/~ebirmele/depots/... ·...

Statistiques en Grande Dimension - M2 MMA

Etienne Birmelé

3 novembre 2019

Introduction

Grande dimension

I on considère une matrice de données X, et éventuellement unvecteur d’observations Y à expliquer. Les observations portentsur p variables, mesurées sur n individus

I on parle de grande dimension dès que p > n.

Problèmes liés à la grande dimension

I Problèmes théoriques: répartition de la masse contre-intuitive,points aléatoires équidistants . . .

I Problèmes pratiques: matrices non inversibles, notammentXXT .

I Problèmes d’interprétation en statistiques supervisées:sur-apprentissage.

Données d’expression de gènes

Les données fil rouge de ce cours seront des données d’apprentissagesupervisé en génomique:

I X ∈M(p, n) désigne la mesure de l’expression de p gènes chezn individus. Typiquement, p est de plusieurs milliers alors quen est de quelques dizaines voire centaines.

I y ∈ Rn est une variable phénotypique mesurée chez tous lesindividus, par exemple un indice de virulence de la tumeur.

Question principale: Peut-on correctement prédire y à l’aide de X?

Données d’expression de gènes

Exemple: 7129 gènes mesurées chez 72 patients ayant deux typesdifférents de leucémie (AML et ALL).

ALL

ALL

ALL

ALL

ALL

AM

LA

ML

AM

LA

ML

ALL

ALL

ALL

ALL

ALL

ALL

ALL

AM

LA

ML

Conditions

AFFX−BioB−5_atD17525_atD64158_atHG1872−HT1907_atJ03824_atL19063_atL48516_atM29550_atM68520_atS59184_atU09813_atU28811_atU47054_atU63825_atU80184_rna1_atX05615_atX60655_atX79353_atX98801_atZ49099_atV00536_rna1_atHG1471−HT3923_s_atJ04046_s_atM27504_s_atU41068_cds2_s_atL49229_f_atM60750_f_at

Gen

es

Idées générales

I L’ensemble des méthodes visent à réduire la dimension. Celapeut par contre être fait préalablement à la résolution de laquestion (pré-traitement) ou en même temps (simultané).

I La question principale contient en fait deux sous-cas:

1. Prédiction: On cherche uniquement à prédire Y ,indépendamment de l’interprétabilité des variables retenues

2. Sélection: On souhaite sélectionner un petit nombre devariables pour réaliser la prédiction, ce qui permettra leurinterprétation.

Remarque: la notion de prédiction est distincte de celle de causalité!Un bon prédicteur n’est pas forcément la cause de Y , il peut parexemple en être une conséquence.

Plan

I Sélection en pré-traitement: Tests mutiplesI Prédiction en pré-traitement: ACP et PLSI Prédiction en simultané: Réseaux de neurones (cf cours

d’Andrés Almansa)I Sélection en simultané: Régressions PénaliséesI (Réseaux de neurones en pré-traitement: les auto-encodeurs)I (Inférence de réseaux: modèles graphiques gaussiens)

Rappels sur le modèle linéaire en petitedimension

Modèle linéaire généralisé

Y ∼ fθ, fθ ∈ F(Θ)E(Y ) = µ

g(µ) = Xβ = β0 + β1X1 + . . .+ βpXp.

Pour que ce modèle soit bien défini, il faut choisir:

I La famille paramétrique F(Θ) à laquelle appartient la loi de Y .On choisira F(Θ) dans la famille exponentielle.

I La fonction de lien g qui relie E(Y ) et (X1, . . . ,XK ).

Modèle linéaire gaussien

On choisit la famille des lois normales et la fonction de lienidentité. En raison des propriétés des lois normales, le modèle peuts’écrire

Y = β0 + β1X1 + . . .+ βpXp + ε, ε ∼ N (0, σ2)

ou

y = Xβ + ε

où β ∈ Rp est le vecteur des βi et ε ∈ Rn est constitué deréalisations indépendantes de ε.

Modèle linéaire gaussien

I Estimation: Formules closes pour le maximum devraisemblance, notamment

β̂ = (XXT )−1XTy

I Choix de modèle: Comparaisons via le R2 ajusté ou uncritère de vraisemblance pénalisée. Par exemple l’AIC (AkaikeInformation Criterion)

AIC = −2 logL+ 2k

où L désigne la vraisemblance et k le nombre de paramètre dumodèle (ici p + 1).

Modèle logistique

On choisit la famille binomiale et plus particulièrement une loi deBernoulli, et la fonction de lien logistique g(x) = log( x

1−x ). Lemodèle devient

Y ∼ B(p)

log(P(Y = 1)P(Y = 0)

)= Xβ

Remarque: On ne peut pas écrire Y = Xβ + erreur , en tous caspas avec une erreur de loi connue.

Modèle logistique

I Estimation: Les formules ne sont plus closes pour lemaximum de vraisemblance, il faut recourir à des algorithmesd’optimisation (Newton-Raphson par exemple) pour estimer lesparamètres.

I Choix de modèle: Comparaisons via la déviance ou un critèrede vraisemblance pénalisée.

Sélection de variables par tests multiples

Principe

I Un bon prédicteur devrait avoir un comportement différententre les deux conditions.

I Une manière de sélectionner les variables pour en réduire lenombre est de ne garder que celles qui montrent une différencesignificative d’expression moyenne entre les deux conditions(Test de Student, de Wilcoxon, bootstrap, procédurebayésienne du package limma. . . ).

I Si ce nombre est suffisamment faible, on peut alors utiliser lesstatistiques en petite dimensions dans l’espace réduit à cesvariables.

p tests simultanés

H0 choisi H1 choisi

H0 vrai TN FP p0

H1 vrai FN TP p − p0

p − R R p

Si chaque test est fait à un niveau 1− α, le nombre moyen de fauxpositifs (FP) est p0α, ce qui peut être bien supérieur au nombre degènes vraiment différentiellement exprimés: la liste renvoyée risqued’être essentiellement constituée d’erreurs.

Contrôles pour tests multiples

Contrôler le risque de première espèce n’est pas suffisant. On peutdécider de contrôler plutôt:

I le Family Wise Error Rate: FWER = P(FP ≥ 1)I le False Discovery Rate: FDR = E

( FPFP+TP

)Le contrôle du FWER est plus fort, il permet de s’assurer qu’avecforte probabilité, aucun faux positif n’est recruté.

Le contrôle du FDR est plus souple, il permet de moins rejeter depositifs, au prix d’un plus fort taux de faux positifs.

Contrôle du FWER: Procédure de Bonferroni

I Les tests individuels (gène par gène) sont menés en remplaçantα par α

m .I On a bien FWER ≤ α.

Exemple: On teste 2000 gènes simultanément. Pour obtenir uneFWER de 5%, on effectue chaque test avec un risque de premièreespèce de α = .05

2000 = 2.5 10−5.

Contrôle de la FWER: procédure de Holm-Bonferroni

Les décisions ne sont pas prises indépendamment les unes des autres:

1. effectuer les p tests et ordonner les p p-valeurs obtenues

p(1) ≤ p(2) ≤ . . . ≤ p(m)

2. d’eterminer I = max{k | ∀i ≤ k, p(i) ≤ αm−i+1}

3. on rejette les p-valeurs inf’erieures ‘a αm−I+1 .

I On a alors FWER ≤ α.I La méthode de Holm est systématiquement supérieure à celle

de Bonferroni.

Benjamini-Hochberg: Procédure de contrôle du FDR

Les décisions ne sont pas prises indépendamment les unes des autres:

1. effectuer les m test et ordonner les m p-valeurs obtenues

p(1) ≤ p(2) ≤ . . . ≤ p(m)

2. d’eterminer I = max{i | p(i) ≤ α im}

3. on rejette les p-valeurs inf’erieures ‘a α Im .

On a alors FDR ≤ α.

En pratique

I Pour l’application des gènes, le contrôle du FWER est tropconservatif (p est trop grand). Il est souvent nécessaire de secontenter de contrôler le FDR.

I Il existe des fonctions (p.adjust sous R) qui, étant donnée levecteur des p-valeurs p initiales, les transforment en un vecteurde p-valeurs p∗ ajustées.Elles sont telles que l’hypothèse i est rejeté après correctionpour test multiple si et seulement un test simple rejettel’hypothèse i avec la p-valeur ajustée.

Réduction de dimension par combinaisonslinéaires de variables: ACP et PLS

Principe

Une manière de traiter le problème est de réduire la dimension,c’est-à-dire - chercher un sous-espace vectoriel de dimension pluspetite que n - remplacer le nuage de point initial par sa projectionorthogonale sur le sous-espace précédent.

Question: Comment choisir cet espace pour que le nouveau nuagesoit aussi représentatif que possible des données initiales.

Cadre mathématique

Il s’agit de construire

I une matrice A contenant en colonne les coefficients decombinaisons linéaires des anciennes variables (les vecteursengendrant le nouvel espace):

I une matrice Z (n × r , r << n) contenant r nouvelles variables(le nouveau nuage). Il vérifie

Z = XA

Principe de construction

Les h − 1 premières variables (ou de façon équivalente les h − 1premiers axes) étant déjà construites, on construit l’axe suivant enrésolvant

ah = argmaxa

C(a,X ,Y )

sous les contraintes

I aTh ah = 1

I et ∀l < h, cov(zh, zl ) = aTh X ′Xal = 0,

où C(a,X ,Y ) est une fonction critère à optimiser.

Les conditions assurent que les coefficient directeurs des axes sontunitaires, et que les nouvelles variables sont décorrélées.

Transformations préliminaires

On se place dans un cadre centré: on soustrait leur moyenne àchaque variable. Cela revient à simplement changer l’origine del’espace, sans modifier le nuage de points.

Il faut faire le choix de normer ou pas chaque variable (ramener savariance à 1).

-Avantage: on peut comparer des variables dans des unitésdifférentes

-Désavantage: dans le cas de variables comparables, on lisse lesignal.

Analyse en Composantes Prinipales

L’ACP réduit la dimension en cherchant des axes qui expliquent lemieux possible la variance du nuage des X (indépendamment de Y ).Le critère est alors

C(a,X ) = a′X ′Xa = aT Σa

où Σ est la matrice de covariance empirique. Cela revient à chercherl’axe suivant lequel la variance est la plus grande.

ACP en pratique

D’un point de vue algorithmique:

I soit on trouve a1, puis on projette tous les individus (qui sontdes points de Rp) sur (a1)⊥. On lance à nouveaul’optimisation de C pour trouver a2 etc. . .

I soit on peut démontrer que les ai correspondent aux vecteurspropres de Σ (qui est diagonalisable car symétrique) et on lesobtient tous d’un coup.

Il est à noter que ce sont aussi les vecteurs propres de ladécomposition en valeurs singulières de X .

PLS: principe pour Y unidimensionnel

La PLS peut être vue comme une généralisation de l’ACP où oncherche à faire la même chose à part que ce qu’on appelle lemeilleur axe n’est plus celui selon laquelle la variance est la plusgrande, mais celui qui explique le mieux Y .

On peut utiliser comme critère le carré de la covariance entre Y etl’axe candidat:

C(a,X ,Y ) = cov(Y ,Xa)2 = a′X ′YY ′Xa

PLS en pratique

I on peut à nouveau chercher pas à pas en projetant à chaquefois sur l’orthogonal des axes déjà définis.

I ou déterminer la décomposition en valeurs singulières deX ′YY ′X .

PLS avec Y multidimensionnel

A chaque pas, on cherche la meilleure covariance entre unecombinaison linéaire des X et une combinaison linéaire des Y :

(u1, v1) = argmaxu,v

cov(Xu,Yv)

sous la contrainte u′u = 1 et v ′v = 1.

On projette ensuite X et Y suivant les vecteurs choisis (déflation) eton recommence.

Prédiction après réduction de dimension

On peut utiliser l’ACP ou la PLS comme une étape préliminaire à larégression (ou tout autre algorithme de prédiction):

1. on se place dans l’espace des nouvelles variables2. on fait une régression sur ces nouvelles variables (et c’est bien

défini car r < n)3. dans le cas de la régression, on peut reécrire les zj en fonction

des xi dans le modèle linéaire pour obtenir une régressionportant sur les variables initiales.

Cf fonctions pcr et plsr du package pls ou la fonction pls.regressiondu package pls.genomics.

Exemple: Données gasoline

Chargement des données

library(pls)data(gasoline)

Séparation en Jeu d’appentissage/Jeu test

learn <- sample(1:dim(gasoline)[1],50,replace=FALSE)test <- which(!(1:dim(gasoline)[1]) %in% learn)gasolinelearn <- gasoline[learn,]gasolinetest <- gasoline[test,]

Exemple: régression après ACPpcrgasoline <- pcr(octane~NIR,ncomp=10,data=gasolinelearn,scale=TRUE,validation="CV",segments=5)summary(pcrgasoline)

## Data: X dimension: 50 401## Y dimension: 50 1## Fit method: svdpc## Number of components considered: 10#### VALIDATION: RMSEP## Cross-validated using 5 random segments.## (Intercept) 1 comps 2 comps 3 comps 4 comps 5 comps 6 comps## CV 1.631 1.625 1.558 0.4529 0.2909 0.2523 0.2581## adjCV 1.631 1.613 1.542 0.3335 0.2877 0.2473 0.2566## 7 comps 8 comps 9 comps 10 comps## CV 0.2228 0.2198 0.2198 0.2236## adjCV 0.2170 0.2193 0.2101 0.2143#### TRAINING: % variance explained## 1 comps 2 comps 3 comps 4 comps 5 comps 6 comps 7 comps## X 71.453 88.57 93.78 97.53 98.35 98.72 99.03## octane 9.519 23.42 96.55 97.43 98.31 98.36 98.87## 8 comps 9 comps 10 comps## X 99.22 99.38 99.50## octane 98.90 99.11 99.11

Exemple: Régression après PLSplsgasoline <- plsr(octane ~ NIR, ncomp = 10, data = gasolinelearn, validation = "CV",segments=5)summary(plsgasoline)

## Data: X dimension: 50 401## Y dimension: 50 1## Fit method: kernelpls## Number of components considered: 10#### VALIDATION: RMSEP## Cross-validated using 5 random segments.## (Intercept) 1 comps 2 comps 3 comps 4 comps 5 comps 6 comps## CV 1.631 1.443 0.4586 0.2716 0.2917 0.2753 0.2378## adjCV 1.631 1.429 0.4361 0.2707 0.2824 0.2512 0.2224## 7 comps 8 comps 9 comps 10 comps## CV 0.2255 0.2209 0.2295 0.2444## adjCV 0.2118 0.2088 0.2145 0.2279#### TRAINING: % variance explained## 1 comps 2 comps 3 comps 4 comps 5 comps 6 comps 7 comps## X 71.99 79.53 86.70 95.71 96.14 96.97 97.51## octane 32.48 94.51 97.72 98.12 99.08 99.27 99.41## 8 comps 9 comps 10 comps## X 98.25 98.42 98.75## octane 99.46 99.56 99.59

Exemple: Erreur de prédiction sur jeu d’apprentissage

0 2 4 6 8 10

0.2

0.4

0.6

0.8

1.0

1.2

1.4

1.6

octane

number of components

RM

SE

P

CVadjCV

Exemple: Interprétation des coefficients ACP

1000 1200 1400 1600

−0.

20−

0.15

−0.

10−

0.05

0.00

0.05

0.10

0.15

nm

load

ing

valu

e

Comp 1 (71.5 %)Comp 2 (17.1 %)Comp 3 (5.2 %)

Exemple: Interprétation des coefficients PLS

1000 1200 1400 1600

−0.

4−

0.2

0.0

0.2

nm

load

ing

valu

e

Comp 1 (72.0 %)Comp 2 (7.5 %)Comp 3 (7.2 %)

Exemple: Erreur d’apprentissage sur jeu test## , , 2 comps#### octane## 6 85.36811## 8 88.33678## 9 88.55386## 10 88.27596## 13 87.40934## 21 86.96273## 27 86.54938## 47 88.91762## 51 87.50581## 52 87.04008

## (Intercept) 1 comps 2 comps 3 comps 4 comps## 1.0356 0.9154 0.3994 0.1743 0.1741## 5 comps 6 comps 7 comps 8 comps 9 comps## 0.2404 0.2637 0.3152 0.3389 0.3693## 10 comps## 0.3668

## , , 3 comps#### octane## 6 85.35790## 8 88.44883## 9 88.80326## 10 88.40937## 13 87.36828## 21 86.60393## 27 86.39561## 47 88.20584## 51 88.17540## 52 87.56793

## (Intercept) 1 comps 2 comps 3 comps 4 comps## 1.0356 1.0426 0.9592 0.1752 0.2070## 5 comps 6 comps 7 comps 8 comps 9 comps## 0.1775 0.1858 0.2664 0.2521 0.2586## 10 comps## 0.2589

Sélection de variables par pénalisation: Lasso,Ridge et consorts

Question

Est-il possible d’adapter la régression linéaire (gaussienne oulogistique) en grande dimension de façon à

I limiter les effets des corrélationsI avoir un nombre restreint de variables (gènes) qui ont un

coefficient non nul.

Principe

Soit `(β,X ) la vraisemblance d’un modèle de régression évaluée enune valeur β des paramètres au vu des données X et Y .

Afin de favoriser un certain comportement de la solution, on peutremplacer l’estimateur du maximum de vraisemblance

β̂ = argmax(`(β,X ,Y ))

par

β̂ = argmax(`(β,X ,Y ))− λpen(β)

où pen(beta) est une fonction de pénalité à choisir. La valeur de λfixe le degré de pénalité que l’on veut considérer.

Régression Ridge

β̂Ridge = argmax(`(β,X ,Y )− λ||β||22)

ou de façon équivalente dans le cas gaussien,

β̂Ridge = argmin(‖Y − Xβ‖2 + λ||β||22)

La pénalité Ridge est utilisée pour diminuer la grande varianceinduite sur β par la présence de variables corrélées.

I

β̂Ridge = (X′X + λI)−1X′Y

I β̂Ridge est un estimateur biaisé contrairement à celui desmoindres carrés dans le cas gaussien, mais sa variance estmoindre.

Problème dual et interprétation géométrique

Le problème

β̂Ridge = argmax(`(β,X ,Y )−λ||β||22)

est équivalent à un problème dualde la forme

β̂Ridge = argmax(`(β,X ,Y ))

sous la contrainte∑iβ2

i ≤ c(λ)

Régression Lasso

β̂Lasso = argmax(l(β,X ,Y )− λ||β||1)

ou, de façon équivalente dans le cas gaussien,

β̂Lasso = argmin(‖Y − Xβ‖2 + λ||β||1)

La pénalité Lasso est utilisée pour obtenir des régressionsparcimonieuses, c’est-à-dire tel que beaucoup de coefficients sontnuls.

I Plus λ est grand, plus les solutions sont parcimonieusesI Il n’y a pas de formule close pour β̂Lasso, il faut le déterminer

par un algorithme d’optimimsation.I β̂Lasso est en général un estimateur de grande variance:

problèmes de stabilité de la solution, notamment en présencede variables corrélées.

Problème dual et interprétation géométrique

Le problème

β̂Lasso = argmax(`(β,X ,Y )−λ||β||1)

est équivalent à un problème dualde la forme

β̂Ridge = argmax(`(β,X ,Y ))

sous la contrainte∑i|βi | ≤ c(λ)

3.2. Régularisations !p 23

!ls

!!1!1

!2

!ls

!!2

!1

!2

Fig. 3.2 – Comparaisons des solutions de problèmes régularisés par une norme !1 et !2.

À gauche de la figure 3.2, !!1 est l’estimateur du problème (3.2) régularisépar une norme !1. La deuxième composante de !!1 est annulée, car l’ellipseatteint la région admissible sur l’angle situé sur l’axe !2 = 0. À droite de lafigure 3.2, !!2 est l’estimateur du problème (3.2) régularisé par une norme!2. La forme circulaire de la région admissible n’incite pas les coefficientsà atteindre des valeurs nulles.

Afin de poursuivre cette discussion avec des arguments à la fois simpleset formels, on peut donner l’expression d’un coefficient des estimateurs!!1 et !!2 , lorsque la matrice X est orthogonale (ce qui correspond à descontours circulaires pour la fonction de perte quadratique). Pour !!2, nousavons

!!2m =

11 + "

!lsm .

Les coefficients subissent un rétrécissement2 proportionnel par le biais dufacteur 1 / (1 + "). En particulier, !!2

m ne peut être nul que si le coefficient!lsm est lui même exactement nul. Pour !!1, nous avons

!!1m = sign

!!lsm

" !|!ls

m| ! ""

+,

où [u]+ = max(0, u). On obtient ainsi un seuillage « doux » : les compo-santes des coefficients des moindres carrés sont rétrécies d’une constante "lorsque |!ls

m| > " , et sont annulés sinon.

Stabilité

Définition 3.2 Stabilité—Selon Breiman [1996], un problème est instable si pour des ensemblesd’apprentissage similaires mais pas identiques (petites perturbations), on obtientdes prédictions ou des estimateurs très différents (grande perturbation).

Remarque 3.5 — Bousquet et Elisseeff [2002] ont défini de façon formelledifférentes notions de stabilité, basées sur le comportement des estima-teurs quand l’échantillon d’apprentissage est perturbé par le retrait ou leremplacement d’un exemple. "

2Shrinkage, en anglais.

Variante: Elastic-Net

β̂EN = argmax(`(β,X ,Y )− λ(α||β||1 + (1− α)||β||22))

I Avantage: ‘juste milieu’ entre Lasso et Ridge.I Inconvénient: deux paramètres à régler.

Variante: Group-Lasso

On considère que les variables sont réparties dans L groupesprédéfinies, et soit βl les coordonnées du vecteur β correspondantaux variables du groupe l .

β̂GL = argmax(`(β,X ,Y )−L∑

l=1λl ||βl ||2)

I Avantage: autre moyen d’obtenir un ‘juste milieu’ entre Lassoet Ridge. Les corrélations sont prises à l’intérieur des groupes,et de nombreux groupes sont annulés entièrement.

I Inconvénient: les groupes doivent être déterminés à l’avance.

Réduction de dimension non-linéaire: lesauto-encodeurs

Inférence de réseaux: modèles graphiquesgaussiens

Statistiques en Grande Dimension - M2 MMAhelios.mi.parisdescartes.fr/~ebirmele/depots/... ·...

Documents

Transcript of Statistiques en Grande Dimension - M2 MMAhelios.mi.parisdescartes.fr/~ebirmele/depots/... ·...