Big Data - Sfide e Opportunità. La Prospettiva dell ... · Big Data GP Architettura a tre livelli....

Post on 12-Sep-2018

216 views 0 download

Transcript of Big Data - Sfide e Opportunità. La Prospettiva dell ... · Big Data GP Architettura a tre livelli....

Mauro CastelliAssistant Professor di Intelligenza Artificiale e Apprendimento Automatico - NOVA IMS, Universidade Nova de Lisboa, Portugal

Big Data - Sfide e Opportunità. La Prospettiva dell'Intelligenza Computazionale

Instituto Superior de Estatística e Gestão de InformaçãoUniversidade Nova de Lisboa 2

Indice

• PARTE 1:Introduzione ai Big Data

• PARTE 2:Presentazione del Sistema proposto dal miogruppo di ricerca:un sistema basato sull’intelligenza artificialeper la gestione di Big Data.

Instituto Superior de Estatística e Gestão de InformaçãoUniversidade Nova de Lisboa 3

Parte 1:

Big Data: Introduzione

Instituto Superior de Estatística e Gestão de InformaçãoUniversidade Nova de Lisboa 4

Definizione (una delle possibili)

Big Data è un termine usato per indicare insiemi didati così grandi e complessi che non possono essereprocessati con le tecniche tradizionali di dataprocessing.

(Wikipedia)

Instituto Superior de Estatística e Gestão de InformaçãoUniversidade Nova de Lisboa 5

Le “quattro V” dei Big Data

Instituto Superior de Estatística e Gestão de InformaçãoUniversidade Nova de Lisboa 6

Volume

Instituto Superior de Estatística e Gestão de InformaçãoUniversidade Nova de Lisboa 7

Volume

Tipico approccio usato in intelligenza artificiale

Training Set

Learning Algorithm

Data Model

Instituto Superior de Estatística e Gestão de InformaçãoUniversidade Nova de Lisboa 8

Volume – Ambiente Dinamico

The “Big Data” perspective

Training Set 1 Training

Set 2Training Set 3 Training

Set 4Training Set 5

Training Set 6Training

Set 7 …

Training Set N

Learning Algorithm

Instituto Superior de Estatística e Gestão de InformaçãoUniversidade Nova de Lisboa 9

The “Big Data” perspective

Training Set 1 Training

Set 2Training Set 3 Training

Set 4Training Set 5

Training Set 6Training

Set 7 …

Training Set N

Learning Algorithm

Volume – Ambiente Dinamico

Instituto Superior de Estatística e Gestão de InformaçãoUniversidade Nova de Lisboa 11

The “Big Data” perspective

Training Set 1 Training

Set 2Training Set 3 Training

Set 4Training Set 5

Training Set 6Training

Set 7 …

Training Set N

Learning Algorithm

Volume – Ambiente Dinamico

Instituto Superior de Estatística e Gestão de InformaçãoUniversidade Nova de Lisboa 12

The “Big Data” perspective

Training Set 1 Training

Set 2Training Set 3 Training

Set 4Training Set 5

Training Set 6Training

Set 7 …

Training Set N

Learning Algorithm

Volume – Ambiente Dinamico

Instituto Superior de Estatística e Gestão de InformaçãoUniversidade Nova de Lisboa 12

The “Big Data” perspective

Training Set 1 Training

Set 2Training Set 3 Training

Set 4Training Set 5

Training Set 6Training

Set 7 …

Training Set N

Learning Algorithm

Volume – Ambiente Dinamico

Instituto Superior de Estatística e Gestão de InformaçãoUniversidade Nova de Lisboa 14

The “Big Data” perspective

Training Set 1 Training

Set 2Training Set 3 Training

Set 4Training Set 5

Training Set 6Training

Set 7 …

Training Set N

Learning Algorithm

Volume – Ambiente Dinamico

Instituto Superior de Estatística e Gestão de InformaçãoUniversidade Nova de Lisboa 15

The “Big Data” perspective

Training Set 1 Training

Set 2Training Set 3 Training

Set 4Training Set 5

Training Set 6Training

Set 7 …

Training Set N

Learning Algorithm

Volume – Ambiente Dinamico

Instituto Superior de Estatística e Gestão de InformaçãoUniversidade Nova de Lisboa 15

The “Big Data” perspective

Training Set 1 Training

Set 2Training Set 3 Training

Set 4Training Set 5

Training Set 6Training

Set 7 …

Training Set N

Learning Algorithm

Data Model

Volume – Ambiente Dinamico

Instituto Superior de Estatística e Gestão de InformaçãoUniversidade Nova de Lisboa 16

Velocity

Instituto Superior de Estatística e Gestão de InformaçãoUniversidade Nova de Lisboa 17

Velocity

Due obiettivi simultanei:

• Accuratezza

• Velocità

Vogliamo una risposta adesso!

Instituto Superior de Estatística e Gestão de InformaçãoUniversidade Nova de Lisboa 18

Variety

Instituto Superior de Estatística e Gestão de InformaçãoUniversidade Nova de Lisboa 19

Variety

Dati con diversa provenienza e formato differente: grande eterogeneità

Le tecniche esistentinon sono in gradodi gestire questaeterogeneità!

Instituto Superior de Estatística e Gestão de InformaçãoUniversidade Nova de Lisboa 20

Variety

Idea: estrarre solo i dati “rilevanti”!

Instituto Superior de Estatística e Gestão de InformaçãoUniversidade Nova de Lisboa 21

Veracity

Instituto Superior de Estatística e Gestão de InformaçãoUniversidade Nova de Lisboa 22

Veracity

I dati possono essere imprecisi, completamente errati, provenire da fonti non sicure.

Instituto Superior de Estatística e Gestão de InformaçãoUniversidade Nova de Lisboa 23

Part 2:

Big Data GPUn Sistema di Programmazione Genetica per Big Data

Instituto Superior de Estatística e Gestão de InformaçãoUniversidade Nova de Lisboa 24

Programmazione Genetica

Machine Learning Computational Intelligence

Evolutionary Computation

GeneticProgramming

Instituto Superior de Estatística e Gestão de InformaçãoUniversidade Nova de Lisboa 25

Programmazione Genetica

... Miglior modello...

Popolazione Iniziale

Selezione

Popolazione Intermedia

Operatori genetici

Nuova popolazione

Soluzione ammissibile/modello dei dati

Instituto Superior de Estatística e Gestão de InformaçãoUniversidade Nova de Lisboa 26

Perchè la GP?

Una-May O'Reilly (head of the the AnyScale Learning For All (ALFA) groupMIT Computer Science and Artificial Intelligence Laboratory)Evolutionary approaches to big-data problems Interview performed by Eric Brown, MIT News, January 14, 2015. Available at: http://newsoffice.mit.edu/2015/una-may-oreilly-evolutionary-approaches-big-data-problems-0114

“L’intelligenza artificiale è particolarmente efficace nell’analizzare i dati storici al fine di prevedere i trend futuri”

“Oggi disponiamo di una grande mole di dati, so we […] quindi è necessario migliorare le tecniche computazionali esistenti”

“La programmazione Genetica […] è particolarmente adatta nell’affrontare problemi caratterizzati dalla presenza di numerose variabili e da una grande mole di dati”

Instituto Superior de Estatística e Gestão de InformaçãoUniversidade Nova de Lisboa 27

Big Data GP

Big Data GP è un Sistema altamente parallelo, organizzato in tre livelli architetturali.

Tre livelli di parallelismo:

• Inter-Layer (cloud computing)

• Intra-Layer (cloud computing)

• Population (graphic processing units)

Instituto Superior de Estatística e Gestão de InformaçãoUniversidade Nova de Lisboa 28

Big Data GP

Architettura a tre livelli.

Ogni livello caratterizzato da centinaia di popolazioni che:

• Cooperano (Preprocessing e Learning Layers)

• Competono (Configuration Layer).

Il modello dei dati è il risultato dell’interazione tra i differenti livelli e/o popolazioni.

In quest’ottica, Big Data GP è il primo sistema complesso, basato sull’intelligenza artificiale, pensato per i Big Data.

Instituto Superior de Estatística e Gestão de InformaçãoUniversidade Nova de Lisboa 29

Conclusioni

I problemi relativi ai Big Data possono essere mitigati, ma non risolti:

• Difficile (impossibile?) ottenere con I Big Data la stessa accuratezza ottenibile con dataset “tradizionali”

Nonostante ciò l’uso dei Big Data ha un vantaggio importante:

• Permette di estrarre informazioni non presenti in dataset tradizionali, riducendo la possibilità di prendere decisioni errate.

Big Data GP è un Sistema promettente in quest’ambito

Instituto Superior de Estatística e Gestão de InformaçãoUniversidade Nova de Lisboa 30

Messaggio Finale

Una grande opportunità per le aziende in grado di catturare eanalizzare efficacemente la grande mole di dati prodottaquotidianamente al fine di prendere decisioni nell’ambito del lorobusiness, accrescere la competitività e aumentare i profitti.

Big Data rappresenta

Un grande pericolo per le aziende che non sanno adeguare i loroprocessi decisionali: i concorrenti avranno un vantaggiocompetitivo!!

Grazie per l’attenzione!

mcastelli@novaims.unl.pt