Modelli matematici e Data Mining - na.icar.cnr.itmariog/Lucidi/04LSIA-DM.pdf · Mario Guarracino...
Transcript of Modelli matematici e Data Mining - na.icar.cnr.itmariog/Lucidi/04LSIA-DM.pdf · Mario Guarracino...
Mario Guarracino Laboratorio di Sistemi Informativi Aziendali a.a. 2006/2007
Modelli matematici Modelli matematici e Data e Data MiningMining
Mario Guarracino Laboratorio di Sistemi Informativi Aziendali a.a. 2006/2007
IntroduzioneIntroduzioneI modelli matematici giocano un ruolo critico negli ambienti di business intelligence e sistemi di supporto alle decisioni.Essi rappresentano un’astrazione selettiva di un sistema reale e vengono utilizzati per capire in astratto come funziona un sistema reale.Nell’elaborazione di un modello bisognerebbe rendere tutto il più semplice possibile, ma non troppo semplice.
Mario Guarracino Laboratorio di Sistemi Informativi Aziendali a.a. 2006/2007
Struttura dei modelliStruttura dei modelliIconici: modelli che costituiscono una rappresentazione fisica della realtà (es. un plastico)
Analogici: rappresenta fisicamente la realtà (es. la galleria del vento)
Simbolici: costituiscono una rappresentazione astratta di un sistema concreto (es. modello matematico).
Mario Guarracino Laboratorio di Sistemi Informativi Aziendali a.a. 2006/2007
Modelli stocastici e Modelli stocastici e deterministicideterministici
Nei modelli stocastici alcune informazioni fornite in ingresso rappresentano eventi aleatori e sono caratterizzate da una distribuzione di probabilitàassegnata oppure ignota
es. modelli della teoria delle code.Un modello si dice deterministico se tutti i dati in ingresso si suppongono noti a priori con certezza.
Mario Guarracino Laboratorio di Sistemi Informativi Aziendali a.a. 2006/2007
Modelli statici e dinamiciModelli statici e dinamiciI modelli statici considerano un sistema ed il relativo processo decisionale in un’unica fase temporale.
Es. alcuni modelli di ottimizzazione I modelli dinamici considerano un sistema attraverso varie fasi temporali, di solito di ampiezza predefinita.
Es. serie temporali.
Mario Guarracino Laboratorio di Sistemi Informativi Aziendali a.a. 2006/2007
Fasi di sviluppoFasi di sviluppoIdentificazione del problema
Identificazione del problema
Formulazionedel modello
Formulazionedel modello
Sviluppo deglialgoritmi
Sviluppo deglialgoritmi
Realizzazionee collaudo
Realizzazionee collaudo
Mario Guarracino Laboratorio di Sistemi Informativi Aziendali a.a. 2006/2007
Identificazione del problemaIdentificazione del problemaLa prima fase consiste nellàidentificare correttamente il problema da affrontare.E’ necessario analizzare i sintomi e formulare le prime ipotesi.
Es. Il livello di giacenza a fronte di indici di rotazione elevati, è sintomo di un’inefficace pianificazione?
Mario Guarracino Laboratorio di Sistemi Informativi Aziendali a.a. 2006/2007
Formulazione del modelloFormulazione del modelloOrizzonte temporale
Es. qual è il periodo di tempo considerato?
Valutazione delle decisioniIndicatori di prestazione: costi e ricavi, livello di efficacia,qualità dei prodotti, flessibilità, affidabilità,…
Variabili di decisioneEs. In un piano di produzione vanno prese in considerazione i volumi produttivi dei prodotti/ processi/ periodi.
Mario Guarracino Laboratorio di Sistemi Informativi Aziendali a.a. 2006/2007
Formulazione del modelloFormulazione del modelloParametri numerici
Es. capacità produttiva, capacità di assorbimento,…
Relazioni matematicheLegami deterministici o probabilistici.
Mario Guarracino Laboratorio di Sistemi Informativi Aziendali a.a. 2006/2007
Sviluppo degli algoritmiSviluppo degli algoritmiLa risoluzione di un modello richiede l’identificazione l’algoritmo risolutivo e degli strumenti software che lo incorporano.Non è possibile prescindere dalla conoscenza dei metodi risolutivi esistenti e delle loro caratteristiche.
Mario Guarracino Laboratorio di Sistemi Informativi Aziendali a.a. 2006/2007
Realizzazione e collaudoRealizzazione e collaudoE’ necessario verificare:
Plausibilità e verosimiglianza delle conclusioni raggiunte;Consistenza dei risultati per valori estremi;Stabilità dei risultati.
Mario Guarracino Laboratorio di Sistemi Informativi Aziendali a.a. 2006/2007
Classi di modelliClassi di modelliModelli predittivi
Esplicativi: identificano la forma funzionale di una relazione.
• Es. Modelli di regressione, classificazione, Serie storiche: identificano eventuali regolarità.
Modelli di apprendimentoModelli di interpretazione: identificano regolarità e le esprimono tramite regole criteri.Apprendimento supervisionato e non supervisionato
Modelli di ottimizzazionePianificazione logistica, produttiva, finanziaria
Mario Guarracino Laboratorio di Sistemi Informativi Aziendali a.a. 2006/2007
Classi di modelliClassi di modelliModelli per la gestione dei progetti
PERT: project evaluation and review techniques.Modelli di analisi del rischio
Teoria bayesiana delle decisioni.Modelli di teoria delle code
Mario Guarracino Laboratorio di Sistemi Informativi Aziendali a.a. 2006/2007
Data Data MiningMiningIl complesso delle attività volte all’analisi di basi di dati di grandi dimensioni per ricavarne conoscenze utilizzabili nel corso dei processi decisionali.Il data mining indica il processo di esplorazione ed analisi di un insieme di dati per individuarne regolarità, estrarne conoscenza e ricavare regole ricorrenti.
Mario Guarracino Laboratorio di Sistemi Informativi Aziendali a.a. 2006/2007
Interpretazione e predizioneInterpretazione e predizioneL’interpretazione è volta ad identificare schemi di regolarità presenti nei dati e a esprimerli attraverso regole e criteri che risultino comprensibili agli esperti.La predizione è volta a prevedere il valore che una variabile casuale assumerà in futuro, oppure a stimare la probabilità di un certo evento.Le due attività non sono mutuamente esclusive: un modello sviluppato per la predizione può risultare efficace anche per l’interpretazione.
Mario Guarracino Laboratorio di Sistemi Informativi Aziendali a.a. 2006/2007
Applicazioni di data Applicazioni di data miningminingMarketing relazionale
Identificazione di segmenti di clienti,Stima del tasso di risposta,Comprensione dei comportamenti d’acquisto,Identificazione delle combinazioni di acquisto.
Identificazione di frodiTelefoniche assicurative, bancaria,…
Valutazione del rischioPrestiti, mutui,…
Mario Guarracino Laboratorio di Sistemi Informativi Aziendali a.a. 2006/2007
Applicazioni di data Applicazioni di data miningminingText mining
Spam, classificazione di notizie d’agenzia,…Web mining
Caching, personalizzazione, pagine dinamiche,…Diagnostica medica
Diagnosi e prognosi.
Mario Guarracino Laboratorio di Sistemi Informativi Aziendali a.a. 2006/2007
Rappresentazione dei dati di inputRappresentazione dei dati di input
CategoriciConteggi (associazione di una carta ad un conto)Nominali (città di residenza)Ordinali (livello di scolarità)
NumericiDiscretiContinui
Mario Guarracino Laboratorio di Sistemi Informativi Aziendali a.a. 2006/2007
Processo di data Processo di data miningmining
DefinizioneDefinizione
Analisi esplorativaAnalisi esplorativa
Selezione degli attributiSelezione degli attributi
Sviluppo modelliSviluppo modelli
PredizioneInterpretazione
PredizioneInterpretazione
Raccolta dati eintegrazione
Raccolta dati eintegrazione
Data martData mart
Mario Guarracino Laboratorio di Sistemi Informativi Aziendali a.a. 2006/2007
Metodologie di analisiMetodologie di analisiApprendimento supervisionato
Caratterizzare e discriminareClassificareStimareSerie storiche
Apprendimento non supervisionatoRegole associativeClusteringDescrizione e visualizzazione
Mario Guarracino Laboratorio di Sistemi Informativi Aziendali a.a. 2006/2007
SommarioSommarioAbbiamo visto:
Struttura dei modelli matematiciFasi di sviluppo dei modelliClassi principali di modelliDefinizione, modelli, applicazioni di data miningRappresentazione dei datiMetodologie di analisi
Mario Guarracino Laboratorio di Sistemi Informativi Aziendali a.a. 2006/2007
Nella prossima lezioneNella prossima lezionePreparazione dei dati
ValidazioneTrasformazioneRiduzione