Carme Thesis Presentation

Post on 05-Jul-2015

545 views 0 download

Transcript of Carme Thesis Presentation

UN APPROCCIO DI REVERSE-ENGINEERING PER INDIVIDUARE I FATTI ALL’INTERNO DI SORGENTI DATI RELAZIONALI

Presentato da Andrea Carmè Cesena, 21 ottobre 2010

DATI E INFORMAZIONI

Sorgenti dati relazionali

Data Warehouse

Informazioni

Modello multidimensionale

Modello relazionale

-Fatti-Dimensioni

- Relazioni- Attributi

PROGETTAZIONE CONCETTUALE

Una progettazione concettuale accurata è fondamentale per la costruzione di un Data Warehouse

Ben documentatoSoddisfare i bisogni degli utenti del business

Analisi delle sorgenti relazionaliIndividuazione degli elementi multidimensionali

Scopo

PROGETTAZIONE GUIDATA DAI DATI

INDIVIDUAZIONE DEGLI ELEMENTI MD

Linee guida

Glossari Vendite Ciclo Fertilità

APPROCCI MANUALI

APPROCCI AUTOMATIZZATI

S_CCCP

Documentazione sorgenti dati

Focalizzati sulle dimensioni

Vendite Ciclo Fertilità

S_CCCP

PROBLEMI

PROBLEMI

I fatti sono gli elementi multidimensionali più importanti dal momento che corrispondono agli eventi di interesse del business

INDIVIDUAZIONE DEI FATTI

APPROCCIO PER FORMALIZZARE L’INDIVIDUAZIONE DEI FATTI

Documentazione sorgenti dati

Basato su euristiche

CWM Relazionale Profilo UML

CARATTERISTICHE

Basato e guidato dai modelli

Vendite Ciclo Fertilità

S_CCCP

UFRO TAHE Fertilidad

APPROCCIO PER INDIVIDUARE I FATTI

ESTRAZIONE ELEMENTI RELAZIONALI

Dizionariodati CWM relazionale

CWM relazionale

Richiesta la partecipazione

degli utenti

INDIVIDUAZIONE STRUTTURE MD

Store City

R = Select idCity from Store where idCity is not null

P = Select distinct idCity from RStore City

M-1

0 0

INDIVIDUAZIONE STRUTTURE MD

MISURE EURISTICHE UTILIZZATE

Ratio degli attributi numerici: Le misure sono sempre numeriche e le tabelle con un alto ratio sono più adatte a ricoprire il ruolo di fatto

Numero di istanze: Le tabelle con il maggior numero di istanze potrebbero corrispondere a fatti

Grado d’ingresso: Le tabelle con poche o nessuna chiavi importate in ingresso potrebbero corrispondere a fatti

SOGLIA: > 25-esimo percentile

SOGLIA: > 75-esimo percentile

SOGLIA: < 0 o 1

INDIVIDUAZIONE STRUTTURE MD

F

D

D

D

1-1 F

M-1M-1

M-1

M-1

M-1

DERIVAZIONE SCHEMA MD

F

D

D

D

1-1 FM-1

M-1

M-1

M-1

M-1

Modello CWM marcato

Schema concettuale multidimensionaleTrasformazione formale tra modelli

CONCLUSIONI

Approccio per formalizzare il processo di identificazione dei fatti a partire da sorgenti dati relazionali

Non richiede la documentazione delle sorgenti dati relazionali

Basato su misure euristiche

Bassa complessità computazionale

~ 30 secondi

(130 tabelle, 140 FKs)

CARATTERISTICHE

SVILUPPI FUTURI

Derivare anche le altre strutture multidimensionali: gerarchie delle dimensioni

Considerare anche le sorgenti non-relazionali

Considerare anche misure euristiche basate sulle caratteristiche semantiche delle sorgenti

DOMANDE?

UN APPROCCIO DI REVERSE-ENGINEERING PER INDIVIDUARE I FATTI ALL’INTERNO DI SORGENTI DATI RELAZIONALI

Andrea Carmè Cesena, 21 ottobre 2010