Metodi e strumenti educativi nell'accompagnamento lavorativo di soggetti svantaggiati
Metodi per la riduzione della dimensionalità Strumenti ...
Transcript of Metodi per la riduzione della dimensionalità Strumenti ...
5/12/2015 Metodi per la riduzione della dimensionalità (1)
file:///C:/Users/emanuele.taufer/Dropbox/3%20SQG/Classes/6c_PCA.html#(1) 1/25
Metodi per la riduzione delladimensionalità
Strumenti quantitativi per la gestioneEmanuele Taufer
5/12/2015 Metodi per la riduzione della dimensionalità (1)
file:///C:/Users/emanuele.taufer/Dropbox/3%20SQG/Classes/6c_PCA.html#(1) 2/25
IntroduzioneGli approcci di selezione visti finora cercano di ridurre la variabilitàdi riducendo il numero di predittori usati:
selezionandone un sottoinsieme (best subset)
riducendo alcuni coefficienti a zero, o prossimi allo zero (LASSO e ridge)
Un terzo approccio ricorre all’uso di nuove variabili definiteattraverso opportune trasformazioni dei predittori
L’obiettivo è quello di ottenere un numero di variabilitrasformate inferiore al numero di predittori che sianocomunque altamente informative nella previsione di
In questo caso parliamo di tecniche di riduzione delladimensionalità
f̂
p
Y
5/12/2015 Metodi per la riduzione della dimensionalità (1)
file:///C:/Users/emanuele.taufer/Dropbox/3%20SQG/Classes/6c_PCA.html#(1) 3/25
Combinazioni lineari
Siano dati i predittori
Siano , , delle nuove variabili (combinazionilineari dei predittori)
delle costanti (da determinare)
, … ,X1 Xp
, …Z1 ZM M < p
= m = 1, … , MZm ∑j=1
p
ϕjmXj
, , …ϕ1m ϕ2m ϕpm
5/12/2015 Metodi per la riduzione della dimensionalità (1)
file:///C:/Users/emanuele.taufer/Dropbox/3%20SQG/Classes/6c_PCA.html#(1) 4/25
Regressione lineare sulle variabilitrasformate
L’idea è quella di stimare (semplicemente con OLS) con unmodello di regressione lineare
In questo caso i parametri da stimare sono :
Il problema si semplifica notevolmente se : anzichéstimare coefficienti si stimano solo gli
coefficienti .
La tecnica risulta molto efficace se le combinazioni lineari , preservano adeguatamente l’informazione
contenuta nei predittori originali.
f
= + + , i = 1, … , nyi θ0 ∑m=1
M
θmzm εi
M + 1, , …θ0 θ1 θM
M << p
p + 1 , , … ,β0 β1 βp
M + 1 , , …θ0 θ1 θM
, …Z1 ZM M < p
5/12/2015 Metodi per la riduzione della dimensionalità (1)
file:///C:/Users/emanuele.taufer/Dropbox/3%20SQG/Classes/6c_PCA.html#(1) 5/25
Dettaglio teorico
Si noti che possiamo riscrivere
dove
In termini pratici si adatta un modello di regressione con deivincoli sui coefficienti , che devono soddisfare le relazioni
, .
L’introduzione di vincoli, come abbiamo già visto, riduce laflessibilità del modello e pertanto ci si deve aspettare unincremento del bias a fronte di una riduzione della varianza
Ancora una volta la tecnica cerca di agire sul trade-off bias-varianza per ottenere una stima ottimale di
∑m=1
M
θmzm = ∑m=1
M
θm ∑j=1
p
ϕjmxj
= ∑j=1
p
∑m=1
M
θmϕjmxj
= ∑j=1
p
βjxj
=βj ∑Mm=1 θmϕjm
β
=βj ∑Mm=1 θmϕjm j = 1, 2, … , p
f
5/12/2015 Metodi per la riduzione della dimensionalità (1)
file:///C:/Users/emanuele.taufer/Dropbox/3%20SQG/Classes/6c_PCA.html#(1) 6/25
MetodiI metodi di riduzione della dimensionalità hanno pertanto due fasi:
costruzione di un numero ridotto di variabili ,
utilizzo di per la stima di un modello di regressione lineare
Se il modello costruito sulle variabili è equivalente aquello costruito usando i predittori .
Due tecniche di base per la riduzione della dimensionalità sono
Le componenti principali (CP)
I minimi quadrati parziali (PLS)
, , … ,Z1 Z2 ZM M < p
, , … ,Z1 Z2 ZM
M = p Z
X
5/12/2015 Metodi per la riduzione della dimensionalità (1)
file:///C:/Users/emanuele.taufer/Dropbox/3%20SQG/Classes/6c_PCA.html#(1) 7/25
Analisi delle componenti principali(PCA)
La PCA è una tecnica di riduzione della dimensionalità di un insieme didati rappresentati da una matrice di dimensioni
Ha applicazioni in diversi contesti: dall’analisi esplorativa dei dati allacompressione di grossi file di dati (es. immagini) e riconscimentofacciale.
In questa sede discuteremo di alcune caratteristiche che ci servonoper la sua applicazione nel contesto dell’analisi di regressione.
Nel caso di una matrice di dati possiamo pensare a punti inuno spazio -dimensionale. Se è elevato l’obiettivo è quello diridurre la rappresentazione dei punti ad uno spazio di dimensioni piùridotte ma che mantenga nel miglior modo possibile la struttura dei puntioriginari.
Le nuove dimensioni sono individuate dalla componenti principali: se lospazio ridotto è bidimensionale vi saranno due componenti principali,se a tre dimensioni, tre componenti e così via.
X n × p
n × p np p
5/12/2015 Metodi per la riduzione della dimensionalità (1)
file:///C:/Users/emanuele.taufer/Dropbox/3%20SQG/Classes/6c_PCA.html#(1) 8/25
Criterio di riduzioneNella tecnica della PCA il miglior modo possibile consiste nelladeterminazione della combinazione lineare delle variabili originarie chemassimizza una misura di variabilità.
In altre parole la tecnica della PCA cerca una prima combinazionelineare con varianza massima possibile, dati alcuni vincoli.Successivamente cerca una seconda combinazione lineare chemassimizzi la variabilità dati i vincoli e la prima componente e così via.
In termini più formali, la prima componente principale per le variabili è la combinazione lineare normalizzata
che ha variabilità massima. La normalizzazione è riferita al vincolo
, , … ,X1 X2 Xp
= + ⋯ +Z1 ϕ11X1 ϕp1Xp
= 1∑pj=1 ϕ2
j1
5/12/2015 Metodi per la riduzione della dimensionalità (1)
file:///C:/Users/emanuele.taufer/Dropbox/3%20SQG/Classes/6c_PCA.html#(1) 9/25
CoefficientiLe costanti sono i pesi (loadings) della prima componenteprincipale
La soluzione è determinabile attraverso la decomposizione dellamatrice di varianza-covarianza di in autovalori e autovettori.
Per ogni singola riga della matrice ( unità di osservazione) èpossibile calcolare il corrispondente punteggio (score) fattoriale eutilizzarlo, ad esempio, in una rappresentazione (approssimata)unidimensionale della matrice .
, …ϕ11 ϕp1
X
X n
X
= + + ⋯ +zi1 ϕ11xi1 ϕ21xi2 ϕp1xip
5/12/2015 Metodi per la riduzione della dimensionalità (1)
file:///C:/Users/emanuele.taufer/Dropbox/3%20SQG/Classes/6c_PCA.html#(1) 10/25
Esempio: Advertising
Spesa in pubblicità e popolazione per città in USA
= Popolazione in decine di migliaia
= Spesa in pubblicità in migliaia di $
Tipicamente le variabili sono standardizzate prima di calcolarele CP
n = 100
X1
X2
= 0.839 + 0.544Z1 X1 X2
5/12/2015 Metodi per la riduzione della dimensionalità (1)
file:///C:/Users/emanuele.taufer/Dropbox/3%20SQG/Classes/6c_PCA.html#(1) 11/25
Punteggi della prima CP
5/12/2015 Metodi per la riduzione della dimensionalità (1)
file:///C:/Users/emanuele.taufer/Dropbox/3%20SQG/Classes/6c_PCA.html#(1) 12/25
Seconda CPLa seconda componente principale è la combinazione linearenormalizzata che ha varianza massima ed è incorrelata con la primacomponente principale.
Formalmente:
tale che e
I punteggi fattoriali della seconda CP possono essere utilizzati assiemeai punteggi fattoriali della prima CP, ad esempio, in unarappresentazione (approssimata) bidimensionale della matrice didimensione .
= + ⋯ +Z2 ϕ12X1 ϕp2Xp
= 1∑pj=1 ϕ2
j2 Cor( , ) = 0Z1 Z2
Xn × p
= + + ⋯ +zi2 ϕ12xi1 ϕ22xi2 ϕp2xip
5/12/2015 Metodi per la riduzione della dimensionalità (1)
file:///C:/Users/emanuele.taufer/Dropbox/3%20SQG/Classes/6c_PCA.html#(1) 13/25
Standardizzazione delle variabilinella PCA
Le CP possono essere interpretate in diversi modi.
Ad esempio, la prima CP identifica la direzione in cui i dati hannovariabilità maggiore.
Se la distanza tra punti è misurata con la distanza Euclidea, la primacomponente può anche essere interpretata come la retta più vicinaalle osservazioni nello spazio -dimensionale.
Se alcune variabili hanno, per l’unità di misura usata, variabilitàmolto maggiore rispetto ad altre tendono a dominare la costruzionedelle CP.
Per evitare quest’effetto dovuto semplicemente alla scala con cui sonomisurate e variabili, è opportuno procedere ad una standardizzazionedi tutte le variabili prima di effettuare una PCA
n p
X
5/12/2015 Metodi per la riduzione della dimensionalità (1)
file:///C:/Users/emanuele.taufer/Dropbox/3%20SQG/Classes/6c_PCA.html#(1) 14/25
Percentuale di varianza spiegataPoichèle CP sono calcolate massimizzando la varianza, una misura dellabontà dell’approssimazione dello spazio -dimensionale originario èdata dalla percentuale di variabilità totale presente nella matrice spiegata dalle prime componenti principali.
La variabilità totale nella matrice (standardizzata) è data da
e la varianza spiegata dalla CP , è
quindi la percentuale di varianza spiegata (PVE) dalla -esima CP è
Per la varianza spiegata dalle prime CP basta sommare lecorrispondenti PVE. In totale ci sono CP e la sommadella loro PVE è pari a 1.
pX
M
X
V ar( ) =∑j=1
p
Xj ∑j=1
p 1n
∑i=1
n
x2ij
m m = 1, 2, … , M
=1n
∑i=1
n
z2im
1n
∑i=1
n ( )∑j=1
p
ϕjmxij
2
m
∑ni=1 ( )∑p
j=1 ϕjmxij
2
∑pj=1 ∑n
i=1 x2ij
Mmin(n − 1, p)
5/12/2015 Metodi per la riduzione della dimensionalità (1)
file:///C:/Users/emanuele.taufer/Dropbox/3%20SQG/Classes/6c_PCA.html#(1) 15/25
Scree plot
Sinistra: scree plot (PVE delle singole CP)
Destra: PVE cumulata
5/12/2015 Metodi per la riduzione della dimensionalità (1)
file:///C:/Users/emanuele.taufer/Dropbox/3%20SQG/Classes/6c_PCA.html#(1) 16/25
Regressione con le CP (PCR)L’approccio alla regressione con le CP consiste nel costruire CPdai predittori e utilizzarle come nuovi predittori in un modello diregressione lineare
Poichè le CP cercano di preservare al massimo la variabilità deipredittori, l’assunzione di base, non necessariamente vera, è chequesto preservi al massimo anche la relazione con
Se l’assunto di base della PCR tiene, l’uso di porta arisultati migliori rispetto all’uso di , poiché la maggiorparte o tutta l’informazione dei dati su è contenuta in e stimando solo coefficienti si mitiga l’overfitting.
La PCR, utilizzando nuove variabili incorrelate tra loro è una tecnicaappropriata anche in caso di forte multicollinearità tra i predittorioriginali.
Mp
Y
, … ,Z1 ZM
, … ,X1 Xp
Y , … ,Z1 ZM
M << p
5/12/2015 Metodi per la riduzione della dimensionalità (1)
file:///C:/Users/emanuele.taufer/Dropbox/3%20SQG/Classes/6c_PCA.html#(1) 17/25
Esempio: dati simulati
Sinistra: dati simulati con , - tutti i predittori legati a
Destra: dati simulati con , - solo 2 predittori legati a
p = 45 n = 50 Y
p = 45 n = 50 Y
5/12/2015 Metodi per la riduzione della dimensionalità (1)
file:///C:/Users/emanuele.taufer/Dropbox/3%20SQG/Classes/6c_PCA.html#(1) 18/25
ConfrontiLa PCR non è una tecnica di selezione delle variabili poichè usa sempretutti i predittori originali nella costruzione delle combinazioni lineari
In questo senso è molto simile alla regressione ridge
E’ opportuno procedere ad una standardizzazione dei predittori primadi calcolare le CP
La tecnica funziona bene quando poche componenti riescono ariassumere una parte sostanziale della variabilità totale nei predittori
Il numero di variabili da usare nella PCR è tipicamente scelto concross-validazione
p
M
5/12/2015 Metodi per la riduzione della dimensionalità (1)
file:///C:/Users/emanuele.taufer/Dropbox/3%20SQG/Classes/6c_PCA.html#(1) 19/25
PCR - Ridge - LASSO
Dati imulati in cui le prime 5 CP di contengono tuttal’informazionesu .
XY
5/12/2015 Metodi per la riduzione della dimensionalità (1)
file:///C:/Users/emanuele.taufer/Dropbox/3%20SQG/Classes/6c_PCA.html#(1) 20/25
Esempio: PCR sui dati Credit
Sinistra: stime dei coefficienti standardizzati sui dati di Credit per diversivalori di .
Destra: MSE ottenuto da 10-fold cross-validazione utilizzando PCR, infunzione di .
M
M
5/12/2015 Metodi per la riduzione della dimensionalità (1)
file:///C:/Users/emanuele.taufer/Dropbox/3%20SQG/Classes/6c_PCA.html#(1) 21/25
Minimi quadrati parziali (PLS)Il metodo delle CP non considera la relazione esistente tra
e nella costruzione delle variabili .
Il metodo dei minimi quadrati parziali cerca di considerarequest’aspetto.
Il metodo delle CP può essere visto come una tecnica di statisticallearning unsupervised mentre il metodo PLS è una tecnica supervised
, … ,X1 Xp Y , … ,Z1 ZM
5/12/2015 Metodi per la riduzione della dimensionalità (1)
file:///C:/Users/emanuele.taufer/Dropbox/3%20SQG/Classes/6c_PCA.html#(1) 22/25
Prima combinazione lineare PLSDati predittori standardizzati, il coefficiente è calcolato da unaregressione semplice di su , e la primacombinazione lineare:
Riassumendo:
Nella PCA i coefficienti di sono calcolati massimizzando lavarianza della combinazione linere sotto vincolo dinormalizzazione (somma dei quadrati pari a uno)
Nei PLS ogni coefficiente di è calcolato da regressioni linearisemplici di su ciascuno dei predittori
p ϕj1
Y Xj j = 1, … , p
= + ⋯ +Z1 ϕ11X1 ϕp1Xp
Z1
Z1
Y
5/12/2015 Metodi per la riduzione della dimensionalità (1)
file:///C:/Users/emanuele.taufer/Dropbox/3%20SQG/Classes/6c_PCA.html#(1) 23/25
Confronto PLS e PCA
Continuo: prima componente PLS
Tratteggiato: prima componente PCA
5/12/2015 Metodi per la riduzione della dimensionalità (1)
file:///C:/Users/emanuele.taufer/Dropbox/3%20SQG/Classes/6c_PCA.html#(1) 24/25
PLS successivePer identificare la seconda direzione (componente) ciascun predittoreviene prima depurato dall’effetto di , regredendo ogni variabile su
e calcolandone i residui.
è calcolato sui residui esattamente nello stesso modo in cui è statocalcolato sui dati originali
Questo approccio iterativo può essere ripetuto volte peridentificare più componenti PLS
Infine, si usano le variabili PLS esattamente nello stessomodo come per la PCR
Il numero M di minimi quadrati parziali da utilizzare è determinato concross-validazione
Spesso i PLS non producono risultati sensibilmente migliori rispettoalla regressione ridge o PCR.
Infatti, sebbene la riduzione della dimensionalità supervised dei PLSpossa ridurre il bias, è anche possibile che aumenti la varianza,cosìcché il beneficio complessivo dei PLS rispetto alla PCR è minimo.
Z1Z1
Z2Z1
M, … ,Z1 ZM
, … ,Z1 ZM
5/12/2015 Metodi per la riduzione della dimensionalità (1)
file:///C:/Users/emanuele.taufer/Dropbox/3%20SQG/Classes/6c_PCA.html#(1) 25/25
Riferimenti bibliograficiAn Introduction to Statistical Learning, with applications in R.(Springer, 2013)
Alcune delle figure in questa presentazione sono tratte dal testo con ilpermesso degli autori: G. James, D. Witten, T. Hastie e R. Tibshirani