Contesto applicativo

UNIVERSITÀ DI PISAUNIVERSITÀ DI PISAFACOLTÀ DI INGEGNERIA FACOLTÀ DI INGEGNERIA

CORSO DI LAUREA SPECIALISTICA IN INGEGNERIA CORSO DI LAUREA SPECIALISTICA IN INGEGNERIA INFORMATICA PER LA GESTIONE D’AZIENDAINFORMATICA PER LA GESTIONE D’AZIENDA

Tesi di laurea:Tesi di laurea: Progettazione e sviluppo di metodi di selezione Progettazione e sviluppo di metodi di selezione

di caratteristiche per analisi di dati ad alta di caratteristiche per analisi di dati ad alta dimensionalità.dimensionalità.

Relatori:Relatori: Prof. Francesco MarcelloniProf. Francesco Marcelloni

Prof. Beatrice LazzeriniProf. Beatrice LazzeriniCandidato: Candidato:

Baldini PaoloBaldini Paolo

ANNO ACCADEMICO 2005-2006ANNO ACCADEMICO 2005-2006

Contesto applicativoContesto applicativo

Data ClusteringData Clustering Rappresentazione relazionale dei datiRappresentazione relazionale dei dati

Problemi:Problemi: Maggiore occupazione di memoriaMaggiore occupazione di memoria Dimensional CurseDimensional Curse

Soluzione:Soluzione: Riduzione del numero di caratteristicheRiduzione del numero di caratteristiche

Da evitare:Da evitare: Perdita di informazioni necessarie alla Perdita di informazioni necessarie alla

corretta classificazione dei daticorretta classificazione dei dati

Algoritmo ARCAAlgoritmo ARCA

Raggiungere l’obiettivo Raggiungere l’obiettivo prepostopreposto

Possibile?Possibile? Sì perché…Sì perché…

Implicita ridondanza della rappresentazione Implicita ridondanza della rappresentazione relazionalerelazionale

Come?Come? Selezione delle caratteristiche salienti Selezione delle caratteristiche salienti

((feature selectionfeature selection)) Implementazione di apposite tecnicheImplementazione di apposite tecniche

MYPCA_FsMYPCA_Fs NP_FsNP_Fs PCA_FsPCA_Fs CORR_FsCORR_Fs

Sviluppate durante la tesiSviluppate durante la tesi

Riprese dalla letteraturaRiprese dalla letteratura

NP_Fs:NP_Fs: Near Points Feature Near Points Feature SelectionSelection

Superfluo considerare più dimensioni relative Superfluo considerare più dimensioni relative alla non somiglianza rispetto a campioni tra alla non somiglianza rispetto a campioni tra loro molto simili. loro molto simili. Individuazione dei campioni meno rappresentativi Individuazione dei campioni meno rappresentativi

rimozione delle dimensioni ad essi corrispondentirimozione delle dimensioni ad essi corrispondenti N-vettore B = [bN-vettore B = [bjj]:]:

A parità di bA parità di bjj, calcolato vettore S = [s, calcolato vettore S = [sjj]: ]:

Caratteristica j-esima eliminata se: Caratteristica j-esima eliminata se:

10,,...,1)},(:{# NiDDDaab MINMEDMEDijijj

n

iijj xs

1

}:max{ Bbbb j

}:min{ Ssss j

Stima di “inutilità” della caratteristica j-esima Stima di “inutilità” della caratteristica j-esima all’interno del data set relazionale (numero dei all’interno del data set relazionale (numero dei

campioni tra loro molto simili in base alla campioni tra loro molto simili in base alla caratteristica in esame)caratteristica in esame)

{{Stima della non somiglianza globale dei dati Stima della non somiglianza globale dei dati rispetto alla caratteristica j-esimarispetto alla caratteristica j-esima

MINMAX

MINMED

DD

DD

MyPCA_FsMyPCA_Fs Principal Component AnalysisPrincipal Component Analysis

Matrice di covarianza dei datiMatrice di covarianza dei datiAutovettoAutovettoriri

Vettore BVettore B

Matrice A Matrice A (ogni riga un (ogni riga un autovettore)autovettore)

AutovaloriAutovalori

1.1. Autovettori pesati per i relativi autovalori Autovettori pesati per i relativi autovalori

2.2. Somma delle componenti relative a ciascuna caratteristicaSomma delle componenti relative a ciascuna caratteristica N-vettore B’ = B x AN-vettore B’ = B x A

b’b’j j = misura dell’importanza della corrispondente dimensione = misura dell’importanza della corrispondente dimensione dello spazio iniziale in termini di varianza sul data set dello spazio iniziale in termini di varianza sul data set considerato. considerato.

3.3. Selezione delle M caratteristiche con massimo valore di b’Selezione delle M caratteristiche con massimo valore di b’jj corrispondentecorrispondente

PCA_FsPCA_Fs

1.1. Eliminazione delle N - q colonne di A con autovalori Eliminazione delle N - q colonne di A con autovalori associati di valore minimoassociati di valore minimo 1 ≤ q ≤ N1 ≤ q ≤ N Nuova matrice A’Nuova matrice A’

Principal Component AnalysisPrincipal Component Analysis

Matrice di covarianza dei datiMatrice di covarianza dei datiAutovettoAutovettoriri

Vettore BVettore B

Matrice A Matrice A (ogni (ogni colonna un colonna un autovettore)autovettore)

AutovaloriAutovalori

Preferibilmente 1 ≤ q Preferibilmente 1 ≤ q ≤ M≤ M

2.2. Clustering delle righe di A’ con numero di prototipi i pari a MClustering delle righe di A’ con numero di prototipi i pari a M

3.3. Individuazione della riga più vicina a ciascuno degli M prototipiIndividuazione della riga più vicina a ciascuno degli M prototipi

4.4. Selezione delle M caratteristiche corrispondenti alle righe individuateSelezione delle M caratteristiche corrispondenti alle righe individuate

CORR_FsCORR_Fs Matrice R di correlazione dei datiMatrice R di correlazione dei dati

Scelta delle M caratteristiche meno correlate Scelta delle M caratteristiche meno correlate fra loro come più rappresentativefra loro come più rappresentative

1.1. Individuata coppia di caratteristiche Individuata coppia di caratteristiche massimamente correlate tra loromassimamente correlate tra loro

2.2. Eliminata delle due quella per cui la somma dei Eliminata delle due quella per cui la somma dei coefficienti di correlazione rispetto a tutte le altre coefficienti di correlazione rispetto a tutte le altre sia massimasia massima

Valore di soglia minima di correlazioneValore di soglia minima di correlazione Procedimento interrotto se non vi sono Procedimento interrotto se non vi sono

elementi di R maggiori di tale sogliaelementi di R maggiori di tale soglia

Criterio di STOP adottatoCriterio di STOP adottato

Eliminazione di un numero prefissato Eliminazione di un numero prefissato di caratteristichedi caratteristiche

Eventuale verifica a Eventuale verifica a posteriori del miglior posteriori del miglior

compromesso tra compromesso tra dimensione dei dati e dimensione dei dati e

quantità di informazione quantità di informazione residuaresidua

Eventuale verifica a Eventuale verifica a posteriori del miglior posteriori del miglior

compromesso tra compromesso tra dimensione dei dati e dimensione dei dati e

quantità di informazione quantità di informazione residuaresidua

Valutazione dei risultati Valutazione dei risultati sperimentalisperimentali

Validità della partizioneValidità della partizione Coefficiente di partizione Coefficiente di partizione

N

k

C

iikuN

P1 1

21

1/C ≤ P ≤ 11/C ≤ P ≤ 1

Misura del livello di fuzzynessMisura del livello di fuzzyness

Ripreso dalla Ripreso dalla letteraturaletteratura

Valutazione dei risultati Valutazione dei risultati sperimentali (II)sperimentali (II)

Differenza dalla partizione di riferimentoDifferenza dalla partizione di riferimento Indice IvxIndice Ivx

Misura della distanza tra due generiche partizioni Misura della distanza tra due generiche partizioni PPii e P e Pjj

Trasposizione dei campioni in un fittizio spazio N-Trasposizione dei campioni in un fittizio spazio N-dimensionaledimensionale

Nuova immagine dei dati dipendente dalla Nuova immagine dei dati dipendente dalla partizione partizione

Distanza normalizzata tra immagini ottenute da Distanza normalizzata tra immagini ottenute da partizioni diversepartizioni diverse

C

i

mik

C

iin

mik

kn

u

uux

1

1

NN

xxIvx

N

k

jk

ik

1

N

k

mik

N

kkj

mik

ij

u

xuv

1

1

C

i

mik

C

iij

mik

kj

u

vux

1

1

Indipendente dall’ordine dei prototipi e dal Indipendente dall’ordine dei prototipi e dal numero di dimensioni dello spazio dei numero di dimensioni dello spazio dei

campionicampioni

Sviluppato durante la tesiSviluppato durante la tesi

Quantizzazione di IvxQuantizzazione di Ivx

Fase SperimentaleFase Sperimentale Fase 1:Fase 1:

5 dataset di dimensioni 5 dataset di dimensioni relativamente contenute relativamente contenute

Dimostrazione della validità delle Dimostrazione della validità delle tesi ipotizzatetesi ipotizzate

Impiego di tutti e 4 gli algoritmi di Impiego di tutti e 4 gli algoritmi di feature selectionfeature selection

Test dell’effettiva efficacia degli Test dell’effettiva efficacia degli algoritmi in esamealgoritmi in esame

conservazione dell’informazione conservazione dell’informazione necessaria per una corretta necessaria per una corretta

classificazione dei campioni anche a classificazione dei campioni anche a seguito dell’eliminazione di un seguito dell’eliminazione di un

elevato numero di caratteristicheelevato numero di caratteristiche

Dati reali dal Dati reali dal database UCIdatabase UCI

Numero di Numero di dimensioni dimensioni variabile da 150 variabile da 150 (Iris) a 1473 (Iris) a 1473 (CMC)(CMC)

CORR_FsCORR_Fs MYPCA_FMYPCA_F

ss NP_FsNP_Fs PCA_FsPCA_Fs

Fase sperimentale (II)Fase sperimentale (II)

Fase 2:Fase 2: 2 dataset ad altissima 2 dataset ad altissima

dimensionalità (dell’ordine delle dimensionalità (dell’ordine delle migliaia di dimensioni) migliaia di dimensioni)

Ulteriore riprova dei risultati ottenuti Ulteriore riprova dei risultati ottenuti nella Fase 1nella Fase 1

Verifica dell’eliminazione della Verifica dell’eliminazione della maledizione dimensionalemaledizione dimensionale

Impiego del solo NP_FsImpiego del solo NP_Fs

Raggiungere le condizioni Raggiungere le condizioni necessarie a far convergere ARCA necessarie a far convergere ARCA anche laddove precedentemente anche laddove precedentemente

essa lo impedivaessa lo impediva

PhonemesPhonemes dati reali dal database del dati reali dal database del progetto ELENAprogetto ELENA5404 caratteristiche5404 caratteristiche

DS8DS8 dati sintetici generati per dati sintetici generati per l’occasionel’occasione15000 caratteristiche15000 caratteristiche

Struttura dei testStruttura dei test

1.1. Partizione di riferimento eseguita sul dataset Partizione di riferimento eseguita sul dataset completocompleto

2.2. Eliminazione successiva di un numero Eliminazione successiva di un numero crescente di caratteristichecrescente di caratteristiche Confronto ogni volta con la partizione di riferimentoConfronto ogni volta con la partizione di riferimento Grafico degli andamenti di Ivx rispetto al numero di Grafico degli andamenti di Ivx rispetto al numero di

dimensioni eliminatedimensioni eliminate

3.3. Più cicli considerando numeri diversi di clusterPiù cicli considerando numeri diversi di cluster Controllo del coefficiente di partizioneControllo del coefficiente di partizione

Esempio di grafico dei testEsempio di grafico dei test

Risultati Fase 1Risultati Fase 1

Nella quasi totalità dei casi è stato Nella quasi totalità dei casi è stato possibile identificare almeno una possibile identificare almeno una configurazione in cui, nonostante configurazione in cui, nonostante l’eliminazione di un sostanzioso numero di l’eliminazione di un sostanzioso numero di dimensioni, la classificazione restasse dimensioni, la classificazione restasse sostanzialmente simile all’originalesostanzialmente simile all’originale

Valore medio globale di Ivx: 0.0681Valore medio globale di Ivx: 0.0681

Risultati Fase 1 (II)Risultati Fase 1 (II)

In alcuni casi la feature selection ha In alcuni casi la feature selection ha permesso addirittura una classificazione permesso addirittura una classificazione dei campioni più aderente all’originale dei campioni più aderente all’originale ripartizione dei datiripartizione dei dati Variazione di andamento della pendenza Variazione di andamento della pendenza

della curva di Ivx: da crescente a della curva di Ivx: da crescente a decrescentedecrescente

Variazione inversa del numero di campioni Variazione inversa del numero di campioni classificati diversamente rispetto al datasetclassificati diversamente rispetto al dataset

overfittingoverfitting

Risultati Fase 1 (III)Risultati Fase 1 (III)

Sostanziale equivalenza dei metodi Sostanziale equivalenza dei metodi di feature selectiondi feature selection Impossibile individuarne uno Impossibile individuarne uno

universalmente miglioreuniversalmente migliore Dipendenza delle prestazioni dai diversi Dipendenza delle prestazioni dai diversi

scenariscenari Algoritmi tra loro più simili:Algoritmi tra loro più simili:

MYPCA_Fs e PCA_FsMYPCA_Fs e PCA_Fs NP_Fs = via di mezzo tra essi e CORR_FsNP_Fs = via di mezzo tra essi e CORR_Fs

Risultati Fase 2Risultati Fase 2

Conferma dei risultati ottenuti durante Conferma dei risultati ottenuti durante la Fase 1 anche quando il numero la Fase 1 anche quando il numero dimensioni dei dati supera il migliaiodimensioni dei dati supera il migliaio

Conferma dell’efficacia della feature Conferma dell’efficacia della feature selection per eliminare la maledizione selection per eliminare la maledizione dimensionaledimensionale Maggiore chiarezza dei dati Maggiore chiarezza dei dati

Convergenza dell’algoritmo di clustering Convergenza dell’algoritmo di clustering (ARCA)(ARCA)

Valori più alti del coefficiente di partizione PValori più alti del coefficiente di partizione P

Dataset Dataset DS8DS8

Dataset Dataset PhonemesPhonemes

ConclusioniConclusioni

Gli obiettivi preposti sono stati raggiuntiGli obiettivi preposti sono stati raggiunti Riduzione del numero di caratteristiche dei dati Riduzione del numero di caratteristiche dei dati

preservando le informazioni essenziali alla preservando le informazioni essenziali alla classificazioneclassificazione

Eliminazione della maledizione dimensionaleEliminazione della maledizione dimensionale Sono stati sviluppati due nuovi algoritmi di Sono stati sviluppati due nuovi algoritmi di

feature selection e se ne è verificata l’efficaciafeature selection e se ne è verificata l’efficacia NP_FsNP_Fs MYPCA_FsMYPCA_Fs

Contesto applicativo

Documents

Transcript of Contesto applicativo