Contesto applicativo
-
Upload
oren-fitzgerald -
Category
Documents
-
view
15 -
download
0
description
Transcript of Contesto applicativo
UNIVERSITÀ DI PISAUNIVERSITÀ DI PISAFACOLTÀ DI INGEGNERIA FACOLTÀ DI INGEGNERIA
CORSO DI LAUREA SPECIALISTICA IN INGEGNERIA CORSO DI LAUREA SPECIALISTICA IN INGEGNERIA INFORMATICA PER LA GESTIONE D’AZIENDAINFORMATICA PER LA GESTIONE D’AZIENDA
Tesi di laurea:Tesi di laurea: Progettazione e sviluppo di metodi di selezione Progettazione e sviluppo di metodi di selezione
di caratteristiche per analisi di dati ad alta di caratteristiche per analisi di dati ad alta dimensionalità.dimensionalità.
Relatori:Relatori: Prof. Francesco MarcelloniProf. Francesco Marcelloni
Prof. Beatrice LazzeriniProf. Beatrice LazzeriniCandidato: Candidato:
Baldini PaoloBaldini Paolo
ANNO ACCADEMICO 2005-2006ANNO ACCADEMICO 2005-2006
Contesto applicativoContesto applicativo
Data ClusteringData Clustering Rappresentazione relazionale dei datiRappresentazione relazionale dei dati
Problemi:Problemi: Maggiore occupazione di memoriaMaggiore occupazione di memoria Dimensional CurseDimensional Curse
Soluzione:Soluzione: Riduzione del numero di caratteristicheRiduzione del numero di caratteristiche
Da evitare:Da evitare: Perdita di informazioni necessarie alla Perdita di informazioni necessarie alla
corretta classificazione dei daticorretta classificazione dei dati
Algoritmo ARCAAlgoritmo ARCA
Raggiungere l’obiettivo Raggiungere l’obiettivo prepostopreposto
Possibile?Possibile? Sì perché…Sì perché…
Implicita ridondanza della rappresentazione Implicita ridondanza della rappresentazione relazionalerelazionale
Come?Come? Selezione delle caratteristiche salienti Selezione delle caratteristiche salienti
((feature selectionfeature selection)) Implementazione di apposite tecnicheImplementazione di apposite tecniche
MYPCA_FsMYPCA_Fs NP_FsNP_Fs PCA_FsPCA_Fs CORR_FsCORR_Fs
Sviluppate durante la tesiSviluppate durante la tesi
Riprese dalla letteraturaRiprese dalla letteratura
NP_Fs:NP_Fs: Near Points Feature Near Points Feature SelectionSelection
Superfluo considerare più dimensioni relative Superfluo considerare più dimensioni relative alla non somiglianza rispetto a campioni tra alla non somiglianza rispetto a campioni tra loro molto simili. loro molto simili. Individuazione dei campioni meno rappresentativi Individuazione dei campioni meno rappresentativi
rimozione delle dimensioni ad essi corrispondentirimozione delle dimensioni ad essi corrispondenti N-vettore B = [bN-vettore B = [bjj]:]:
A parità di bA parità di bjj, calcolato vettore S = [s, calcolato vettore S = [sjj]: ]:
Caratteristica j-esima eliminata se: Caratteristica j-esima eliminata se:
10,,...,1)},(:{# NiDDDaab MINMEDMEDijijj
n
iijj xs
1
}:max{ Bbbb j
}:min{ Ssss j
Stima di “inutilità” della caratteristica j-esima Stima di “inutilità” della caratteristica j-esima all’interno del data set relazionale (numero dei all’interno del data set relazionale (numero dei
campioni tra loro molto simili in base alla campioni tra loro molto simili in base alla caratteristica in esame)caratteristica in esame)
{{Stima della non somiglianza globale dei dati Stima della non somiglianza globale dei dati rispetto alla caratteristica j-esimarispetto alla caratteristica j-esima
MINMAX
MINMED
DD
DD
MyPCA_FsMyPCA_Fs Principal Component AnalysisPrincipal Component Analysis
Matrice di covarianza dei datiMatrice di covarianza dei datiAutovettoAutovettoriri
Vettore BVettore B
Matrice A Matrice A (ogni riga un (ogni riga un autovettore)autovettore)
AutovaloriAutovalori
1.1. Autovettori pesati per i relativi autovalori Autovettori pesati per i relativi autovalori
2.2. Somma delle componenti relative a ciascuna caratteristicaSomma delle componenti relative a ciascuna caratteristica N-vettore B’ = B x AN-vettore B’ = B x A
b’b’j j = misura dell’importanza della corrispondente dimensione = misura dell’importanza della corrispondente dimensione dello spazio iniziale in termini di varianza sul data set dello spazio iniziale in termini di varianza sul data set considerato. considerato.
3.3. Selezione delle M caratteristiche con massimo valore di b’Selezione delle M caratteristiche con massimo valore di b’jj corrispondentecorrispondente
PCA_FsPCA_Fs
1.1. Eliminazione delle N - q colonne di A con autovalori Eliminazione delle N - q colonne di A con autovalori associati di valore minimoassociati di valore minimo 1 ≤ q ≤ N1 ≤ q ≤ N Nuova matrice A’Nuova matrice A’
Principal Component AnalysisPrincipal Component Analysis
Matrice di covarianza dei datiMatrice di covarianza dei datiAutovettoAutovettoriri
Vettore BVettore B
Matrice A Matrice A (ogni (ogni colonna un colonna un autovettore)autovettore)
AutovaloriAutovalori
Preferibilmente 1 ≤ q Preferibilmente 1 ≤ q ≤ M≤ M
2.2. Clustering delle righe di A’ con numero di prototipi i pari a MClustering delle righe di A’ con numero di prototipi i pari a M
3.3. Individuazione della riga più vicina a ciascuno degli M prototipiIndividuazione della riga più vicina a ciascuno degli M prototipi
4.4. Selezione delle M caratteristiche corrispondenti alle righe individuateSelezione delle M caratteristiche corrispondenti alle righe individuate
CORR_FsCORR_Fs Matrice R di correlazione dei datiMatrice R di correlazione dei dati
Scelta delle M caratteristiche meno correlate Scelta delle M caratteristiche meno correlate fra loro come più rappresentativefra loro come più rappresentative
1.1. Individuata coppia di caratteristiche Individuata coppia di caratteristiche massimamente correlate tra loromassimamente correlate tra loro
2.2. Eliminata delle due quella per cui la somma dei Eliminata delle due quella per cui la somma dei coefficienti di correlazione rispetto a tutte le altre coefficienti di correlazione rispetto a tutte le altre sia massimasia massima
Valore di soglia minima di correlazioneValore di soglia minima di correlazione Procedimento interrotto se non vi sono Procedimento interrotto se non vi sono
elementi di R maggiori di tale sogliaelementi di R maggiori di tale soglia
Criterio di STOP adottatoCriterio di STOP adottato
Eliminazione di un numero prefissato Eliminazione di un numero prefissato di caratteristichedi caratteristiche
Eventuale verifica a Eventuale verifica a posteriori del miglior posteriori del miglior
compromesso tra compromesso tra dimensione dei dati e dimensione dei dati e
quantità di informazione quantità di informazione residuaresidua
Eventuale verifica a Eventuale verifica a posteriori del miglior posteriori del miglior
compromesso tra compromesso tra dimensione dei dati e dimensione dei dati e
quantità di informazione quantità di informazione residuaresidua
Valutazione dei risultati Valutazione dei risultati sperimentalisperimentali
Validità della partizioneValidità della partizione Coefficiente di partizione Coefficiente di partizione
N
k
C
iikuN
P1 1
21
1/C ≤ P ≤ 11/C ≤ P ≤ 1
Misura del livello di fuzzynessMisura del livello di fuzzyness
Ripreso dalla Ripreso dalla letteraturaletteratura
Valutazione dei risultati Valutazione dei risultati sperimentali (II)sperimentali (II)
Differenza dalla partizione di riferimentoDifferenza dalla partizione di riferimento Indice IvxIndice Ivx
Misura della distanza tra due generiche partizioni Misura della distanza tra due generiche partizioni PPii e P e Pjj
Trasposizione dei campioni in un fittizio spazio N-Trasposizione dei campioni in un fittizio spazio N-dimensionaledimensionale
Nuova immagine dei dati dipendente dalla Nuova immagine dei dati dipendente dalla partizione partizione
Distanza normalizzata tra immagini ottenute da Distanza normalizzata tra immagini ottenute da partizioni diversepartizioni diverse
C
i
mik
C
iin
mik
kn
u
uux
1
1
NN
xxIvx
N
k
jk
ik
1
N
k
mik
N
kkj
mik
ij
u
xuv
1
1
C
i
mik
C
iij
mik
kj
u
vux
1
1
Indipendente dall’ordine dei prototipi e dal Indipendente dall’ordine dei prototipi e dal numero di dimensioni dello spazio dei numero di dimensioni dello spazio dei
campionicampioni
Sviluppato durante la tesiSviluppato durante la tesi
Quantizzazione di IvxQuantizzazione di Ivx
Fase SperimentaleFase Sperimentale Fase 1:Fase 1:
5 dataset di dimensioni 5 dataset di dimensioni relativamente contenute relativamente contenute
Dimostrazione della validità delle Dimostrazione della validità delle tesi ipotizzatetesi ipotizzate
Impiego di tutti e 4 gli algoritmi di Impiego di tutti e 4 gli algoritmi di feature selectionfeature selection
Test dell’effettiva efficacia degli Test dell’effettiva efficacia degli algoritmi in esamealgoritmi in esame
conservazione dell’informazione conservazione dell’informazione necessaria per una corretta necessaria per una corretta
classificazione dei campioni anche a classificazione dei campioni anche a seguito dell’eliminazione di un seguito dell’eliminazione di un
elevato numero di caratteristicheelevato numero di caratteristiche
Dati reali dal Dati reali dal database UCIdatabase UCI
Numero di Numero di dimensioni dimensioni variabile da 150 variabile da 150 (Iris) a 1473 (Iris) a 1473 (CMC)(CMC)
CORR_FsCORR_Fs MYPCA_FMYPCA_F
ss NP_FsNP_Fs PCA_FsPCA_Fs
Fase sperimentale (II)Fase sperimentale (II)
Fase 2:Fase 2: 2 dataset ad altissima 2 dataset ad altissima
dimensionalità (dell’ordine delle dimensionalità (dell’ordine delle migliaia di dimensioni) migliaia di dimensioni)
Ulteriore riprova dei risultati ottenuti Ulteriore riprova dei risultati ottenuti nella Fase 1nella Fase 1
Verifica dell’eliminazione della Verifica dell’eliminazione della maledizione dimensionalemaledizione dimensionale
Impiego del solo NP_FsImpiego del solo NP_Fs
Raggiungere le condizioni Raggiungere le condizioni necessarie a far convergere ARCA necessarie a far convergere ARCA anche laddove precedentemente anche laddove precedentemente
essa lo impedivaessa lo impediva
PhonemesPhonemes dati reali dal database del dati reali dal database del progetto ELENAprogetto ELENA5404 caratteristiche5404 caratteristiche
DS8DS8 dati sintetici generati per dati sintetici generati per l’occasionel’occasione15000 caratteristiche15000 caratteristiche
Struttura dei testStruttura dei test
1.1. Partizione di riferimento eseguita sul dataset Partizione di riferimento eseguita sul dataset completocompleto
2.2. Eliminazione successiva di un numero Eliminazione successiva di un numero crescente di caratteristichecrescente di caratteristiche Confronto ogni volta con la partizione di riferimentoConfronto ogni volta con la partizione di riferimento Grafico degli andamenti di Ivx rispetto al numero di Grafico degli andamenti di Ivx rispetto al numero di
dimensioni eliminatedimensioni eliminate
3.3. Più cicli considerando numeri diversi di clusterPiù cicli considerando numeri diversi di cluster Controllo del coefficiente di partizioneControllo del coefficiente di partizione
Esempio di grafico dei testEsempio di grafico dei test
Risultati Fase 1Risultati Fase 1
Nella quasi totalità dei casi è stato Nella quasi totalità dei casi è stato possibile identificare almeno una possibile identificare almeno una configurazione in cui, nonostante configurazione in cui, nonostante l’eliminazione di un sostanzioso numero di l’eliminazione di un sostanzioso numero di dimensioni, la classificazione restasse dimensioni, la classificazione restasse sostanzialmente simile all’originalesostanzialmente simile all’originale
Valore medio globale di Ivx: 0.0681Valore medio globale di Ivx: 0.0681
Risultati Fase 1 (II)Risultati Fase 1 (II)
In alcuni casi la feature selection ha In alcuni casi la feature selection ha permesso addirittura una classificazione permesso addirittura una classificazione dei campioni più aderente all’originale dei campioni più aderente all’originale ripartizione dei datiripartizione dei dati Variazione di andamento della pendenza Variazione di andamento della pendenza
della curva di Ivx: da crescente a della curva di Ivx: da crescente a decrescentedecrescente
Variazione inversa del numero di campioni Variazione inversa del numero di campioni classificati diversamente rispetto al datasetclassificati diversamente rispetto al dataset
overfittingoverfitting
Risultati Fase 1 (III)Risultati Fase 1 (III)
Sostanziale equivalenza dei metodi Sostanziale equivalenza dei metodi di feature selectiondi feature selection Impossibile individuarne uno Impossibile individuarne uno
universalmente miglioreuniversalmente migliore Dipendenza delle prestazioni dai diversi Dipendenza delle prestazioni dai diversi
scenariscenari Algoritmi tra loro più simili:Algoritmi tra loro più simili:
MYPCA_Fs e PCA_FsMYPCA_Fs e PCA_Fs NP_Fs = via di mezzo tra essi e CORR_FsNP_Fs = via di mezzo tra essi e CORR_Fs
Risultati Fase 2Risultati Fase 2
Conferma dei risultati ottenuti durante Conferma dei risultati ottenuti durante la Fase 1 anche quando il numero la Fase 1 anche quando il numero dimensioni dei dati supera il migliaiodimensioni dei dati supera il migliaio
Conferma dell’efficacia della feature Conferma dell’efficacia della feature selection per eliminare la maledizione selection per eliminare la maledizione dimensionaledimensionale Maggiore chiarezza dei dati Maggiore chiarezza dei dati
Convergenza dell’algoritmo di clustering Convergenza dell’algoritmo di clustering (ARCA)(ARCA)
Valori più alti del coefficiente di partizione PValori più alti del coefficiente di partizione P
Dataset Dataset DS8DS8
Dataset Dataset PhonemesPhonemes
ConclusioniConclusioni
Gli obiettivi preposti sono stati raggiuntiGli obiettivi preposti sono stati raggiunti Riduzione del numero di caratteristiche dei dati Riduzione del numero di caratteristiche dei dati
preservando le informazioni essenziali alla preservando le informazioni essenziali alla classificazioneclassificazione
Eliminazione della maledizione dimensionaleEliminazione della maledizione dimensionale Sono stati sviluppati due nuovi algoritmi di Sono stati sviluppati due nuovi algoritmi di
feature selection e se ne è verificata l’efficaciafeature selection e se ne è verificata l’efficacia NP_FsNP_Fs MYPCA_FsMYPCA_Fs