NAČRTOVANJE SODOBNE ANALITIČNE ARHITEKTURE … Gašperlin... · 2. Skrbništvo nad podatki in...

22
NAČRTOVANJE SODOBNE ANALITIČNE ARHITEKTURE KATARINA GAŠPERLIN, univ. dipl. inž. el. mag. BOŠTJAN KOS, MBA

Transcript of NAČRTOVANJE SODOBNE ANALITIČNE ARHITEKTURE … Gašperlin... · 2. Skrbništvo nad podatki in...

Page 1: NAČRTOVANJE SODOBNE ANALITIČNE ARHITEKTURE … Gašperlin... · 2. Skrbništvo nad podatki in integracija podatkov (Priprava, objava in zaščita podatkov za zagotavljanje sledljivosti

NAČRTOVANJE SODOBNE ANALITIČNE

ARHITEKTURE KATARINA GAŠPERLIN, univ. dipl. inž. el.

mag. BOŠTJAN KOS, MBA

Page 2: NAČRTOVANJE SODOBNE ANALITIČNE ARHITEKTURE … Gašperlin... · 2. Skrbništvo nad podatki in integracija podatkov (Priprava, objava in zaščita podatkov za zagotavljanje sledljivosti

Izzivi pri gradnji analitičnih rešitev

• Naraščanje števila podatkovnih virov

• Naraščanje raznovrstnosti podatkov (strukturirani, nestrukturirani, slike, IoT, zvok, video, RFID, vremenski podatki, podatki iz socialnih omrežij, itd.)

• Naraščanje raznovrstnosti ter lokacij podatkovnih virov (On-premise, Cloud, Hybrid, SaaS, DBaaS, itd.)

• Naraščanje količine podatkov

• Naraščanje števila rešitev, ki skrbijo za dostop do podatkov v različnih virih.

• Naraščanje kompleksnosti integracije podatkov iz različnih virov

• Naraščanje raznovrstnosti časovnih dostopov do podatkov ter njihovega prenosa (batch, real-time, stream, itd.)

• Manjšanje časovnega okna za integracijo podatkov

Page 3: NAČRTOVANJE SODOBNE ANALITIČNE ARHITEKTURE … Gašperlin... · 2. Skrbništvo nad podatki in integracija podatkov (Priprava, objava in zaščita podatkov za zagotavljanje sledljivosti

Izzivi pri gradnji analitičnih rešitev

• Naraščanje števila različnih podatkovnih shramb v podjetjih (ERP, CRM, DWH, Data Lake, Dokumentni sistemi)

• Nezavedanje ter nepoznavanje podatkovnih shramb ter njihovih vsebin

• Sledenje ter uvajanje državnih, mednarodnih in industrijskih regulativ (npr. Basel, Solvency, GDPR, itd.)

• Zahteva po obveznem skrbništvu nad celotnim procesom pridobivanja, obdelave ter posredovanja podatkov

• Prehod iz reaktivnega analitičnega sistema, kjer so uporabniki zahtevali podatke in poročila od IT, v proaktivni analitični sistem

• Zahteva po infuziji analitike v vse poslovne procese

Page 4: NAČRTOVANJE SODOBNE ANALITIČNE ARHITEKTURE … Gašperlin... · 2. Skrbništvo nad podatki in integracija podatkov (Priprava, objava in zaščita podatkov za zagotavljanje sledljivosti

Izzivi pri gradnji analitičnih rešitev

• Naraščanje števila uporabnikov

• Naraščanje zahtevnosti uporabnikov

• Naraščanje kompleksnost poročil

• Prehod iz masovnih v individualna poročila

• Naraščanje števila končnih aplikacij

• Dostava informacij na različne naprave

• Zahteva po napredni analitiki

• Zahteva po prediktivni analitiki

• Zahteva po peskovnikih ter Big Data

• Zahteva po podatkovni znanosti

• Zahteva po umetni inteligenci ter t.i. chatbot-ov

• Kljub vsemu naštetemu uporabniki zahtevajo čedalje boljšo odzivnost

Page 5: NAČRTOVANJE SODOBNE ANALITIČNE ARHITEKTURE … Gašperlin... · 2. Skrbništvo nad podatki in integracija podatkov (Priprava, objava in zaščita podatkov za zagotavljanje sledljivosti

3. Poslovna

analitika in

podatkovna

znanost

(Razumevanje trenutnih

in prihodnjih trendov,

sprememb ter

napovedi)

1. Hibridno

upravljanje s

podatki (Zapišite enkrat,

dostopajte kjerkoli

z enotnim

dostopom)

2. Skrbništvo nad podatki in

integracija podatkov (Priprava, objava in zaščita podatkov

za zagotavljanje sledljivosti ter skladnosti)

Informacijska arhitektura (IA) je osnova za umetno inteligenco (AI) -> Ni AI brez IA <-

Trije ključni stebri sodobne analitične arhitekture

Analytics

Machine

Learning

AI

Data

AI lestev

Page 6: NAČRTOVANJE SODOBNE ANALITIČNE ARHITEKTURE … Gašperlin... · 2. Skrbništvo nad podatki in integracija podatkov (Priprava, objava in zaščita podatkov za zagotavljanje sledljivosti

1. Hibridno upravljanje s podatki

• Spekter namenskih repozitorijev podatkov, tako strukturiranih kot nestrukturiranih, npr.:

– Operativne baze podatkov

– Dokumentni sistemi

– Podatkovno skladišče

• Strukturirani podatki

• Hramba zgodovinskih podatkov

• Visoke performanse

– Podatkovno jezero

• Nestrukturirani podatki

• Ponor za podatke s področja IoT

• Stroškovno učinkovit distribuiran sistem za hrambo in obdelavo velikih količin podatkov

Analytical Data

Lake Storage

Data

Access

Self-service

Data

virtualization

Data

federation

Open APIs

Object store

and cache

Databases,

Deep analytics,

data modeling,

data marts, and data

warehousing

Enterprise

content store

Landing zone,

exploration, history,

logs and archive

Sand boxes

#

Page 7: NAČRTOVANJE SODOBNE ANALITIČNE ARHITEKTURE … Gašperlin... · 2. Skrbništvo nad podatki in integracija podatkov (Priprava, objava in zaščita podatkov za zagotavljanje sledljivosti

1. Hibridno upravljanje s podatki

• Spekter namenskih repozitorijev podatkov, tako strukturiranih kot nestrukturiranih, npr.:

– Analitični peskovniki

• Omogočajo raziskovanje po podatkih in pridobivanje novega vpogleda v podatke

• Okolje, ki omogoča ponovljivo uporabo transformacij in poizvedb

• Okolje, kjer uporabniki lahko dostopajo do velike količine surovih podatkov

• Okolje za razvoj analitičnega modela

Analytical Data

Lake Storage

Data

Access

Self-service

Data

virtualization

Data

federation

Open APIs

Object store

and cache

Databases,

Deep analytics,

data modeling,

data marts, and data

warehousing

Enterprise

content store

Landing zone,

exploration, history,

logs and archive

Sand boxes

#

Page 8: NAČRTOVANJE SODOBNE ANALITIČNE ARHITEKTURE … Gašperlin... · 2. Skrbništvo nad podatki in integracija podatkov (Priprava, objava in zaščita podatkov za zagotavljanje sledljivosti

1. Hibridno upravljanje s podatki

• Naslavlja potrebo po razširjenem obsegu in povečani hitrosti izvajanja analitičnih obdelav

• Implementacija v privatnem ali javnem oblaku ter zagotavljanje kompatibilnosti aplikacij med njima

• Čedalje pogostejše zahteve po HA in DR postavitvah zaradi vključenosti analitičnih sistemov v operativne procese

• Virtualizacija zakriva kompleksnost ter poenostavlja dostop do podatkov, saj omogoča dostopanje do več repozitorijev istočasno preko ene SQL poizvedbe

• Obvezna visoka stopnja integracije s platformo za analitiko ter podatkovno integracijo

Analytical Data

Lake Storage

Data

Access

Self-service

Data

virtualization

Data

federation

Open APIs

Object store

and cache

Databases,

Deep analytics,

data modeling,

data marts, and data

warehousing

Enterprise

content store

Landing zone,

exploration, history,

logs and archive

Sand boxes

#

Page 9: NAČRTOVANJE SODOBNE ANALITIČNE ARHITEKTURE … Gašperlin... · 2. Skrbništvo nad podatki in integracija podatkov (Priprava, objava in zaščita podatkov za zagotavljanje sledljivosti

2. Skrbništvo nad podatki in integracija podatkov

• Načrtovanje integracije podatkov je odvisno od vrste podatkov, pogostosti zajema podatkov ter izvora in ponora podatkov

• Več vrst integracije podatkov:

– ETL/ELT postopki (batch)

– Replikacija podatkov v realnem času (Change Data Capture)

– Obdelava podatkov v času prenosa podatkov (Streaming)

• Za mesto obdelave podatkov so vse pogosteje izkoriščajo viri na repozitorijih podatkov (npr. hadoop, analitični pospeševalniki, itd.)

• Podpora za pregled izvornih sistemov (Data Profiling), podpora za zagotavljanje kakovosti podatkov (Data Quality)

Information Management & Governance Data lifecycle

management

Master and

entity data

Reference

data Data catalog Data models Data quality

Ingestion &

Integration

Extract,

transform

and load

Change data

capture

Document

capture

Streaming

Page 10: NAČRTOVANJE SODOBNE ANALITIČNE ARHITEKTURE … Gašperlin... · 2. Skrbništvo nad podatki in integracija podatkov (Priprava, objava in zaščita podatkov za zagotavljanje sledljivosti

2. Skrbništvo nad podatki in integracija podatkov

• Zaupanje v pomen podatkov je ključno za pravilno rabo podatkov v poslovnih analizah

• Zaupanje v podatke povečujemo z vzpostavitvijo:

– Centraliziranega sistema upravljanja

– Skupnega poslovnega besednjaka

– Podatkovne sledi

– Skrbnikov podatkov

• Predstavlja podlago za nadaljnje projekte integracije in upravljanja podatkov:

– Upravljanje glavnih podatkov (Master Data Management)

– Upravljanje z življenjskim ciklom podatkov (Data Lifecycle)

– Inicative s področja varnosti in zasebnosti (GDPR, maskiranje)

Information Management & Governance Data lifecycle

management

Master and

entity data

Reference

data Data catalog Data models Data quality

Ingestion &

Integration

Extract,

transform

and load

Change data

capture

Document

capture

Streaming

Page 11: NAČRTOVANJE SODOBNE ANALITIČNE ARHITEKTURE … Gašperlin... · 2. Skrbništvo nad podatki in integracija podatkov (Priprava, objava in zaščita podatkov za zagotavljanje sledljivosti

3. Poslovna analitika in podatkovna znanost

Pridobivanje globjega

vpogleda za razumevanje

vplivov na poslovanje

Poročanje in analiza podatkov

za nazaj

Priprava načrtov, proračuna in

napovedi

Razvoj, uvedba in

upravljanje prediktivnih

modelov

Optimizacija poslovnih odločitev

Kakšen je naš načrt?

Kaj se je zgodilo?

Zakaj se je zgodilo?

Kaj se bo zgodilo?

Kaj moramo narediti?

Actionable

Insight

Enhanced

Applications

Discovery & Exploration

Visualization and

storyboarding

Reporting, analysis

and content

analytics

Decision

management

Predictive analytics

and modeling

Insight as

a service

Cognitive

Customer

experience

New

business models

Financial

performance

Risk

Fraud and

operations

IT

economics

Data science Federated

search

Page 12: NAČRTOVANJE SODOBNE ANALITIČNE ARHITEKTURE … Gašperlin... · 2. Skrbništvo nad podatki in integracija podatkov (Priprava, objava in zaščita podatkov za zagotavljanje sledljivosti

3. Poslovna analitika in podatkovna znanost

Kakšen je naš načrt?

Actionable

Insight

Enhanced

Applications

Discovery & Exploration

Visualization and

storyboarding

Reporting, analysis

and content

analytics

Decision

management

Predictive analytics

and modeling

Insight as

a service

Cognitive

Customer

experience

New

business models

Financial

performance

Risk

Fraud and

operations

IT

economics

Data science Federated

search

• Priprava natančnejših načrtov, proračuna in napovedi

• Zahteva po:

– Agilnosti

– Odzivnosti na spremembe

– Učinkovitosti pri iskanju trendov, modeliranju scenarijev in izvajanju „kaj-če“ analiz

– Avtomatizaciji postopkov

– Sodelovanju, saj postopek planiranja zajema več oddelkov, podjetij,

Planiranje - Priprava načrtov, proračuna in napovedi

Page 13: NAČRTOVANJE SODOBNE ANALITIČNE ARHITEKTURE … Gašperlin... · 2. Skrbništvo nad podatki in integracija podatkov (Priprava, objava in zaščita podatkov za zagotavljanje sledljivosti

3. Poslovna analitika in podatkovna znanost

Kaj se je zgodilo?

Actionable

Insight

Enhanced

Applications

Discovery & Exploration

Visualization and

storyboarding

Reporting, analysis

and content

analytics

Decision

management

Predictive analytics

and modeling

Insight as

a service

Cognitive

Customer

experience

New

business models

Financial

performance

Risk

Fraud and

operations

IT

economics

Data science Federated

search

• Delitev na:

– Operativno poslovno poročanje

– Samostojno izvajanje analiz

• Potreba po celovitem upravljanju obeh načinov analiz za zaupanje v rezultate le-teh

• Potreba po interaktivnosti in enostavnosti uporabe

Poročanje - Poročanje in analiza podatkov za nazaj

Zakaj se je

zgodilo?

Analiza - Pridobivanje globjega vpogleda za razumevanje vplivov na poslovanje

Page 14: NAČRTOVANJE SODOBNE ANALITIČNE ARHITEKTURE … Gašperlin... · 2. Skrbništvo nad podatki in integracija podatkov (Priprava, objava in zaščita podatkov za zagotavljanje sledljivosti

3. Poslovna analitika in podatkovna znanost

Kaj se bo zgodilo?

Actionable

Insight

Enhanced

Applications

Discovery & Exploration

Visualization and

storyboarding

Reporting, analysis

and content

analytics

Decision

management

Predictive analytics

and modeling

Insight as

a service

Cognitive

Customer

experience

New

business models

Financial

performance

Risk

Fraud and

operations

IT

economics

Data science Federated

search

• Uporaba statističnih metod in metod strojnega učenja

• Ključne lastnosti platforme za podatkovno analitiko:

– Raznolikost orodij na enem mestu, ki naslavljajo različne tipe uporabnikov

– Upravljanje z analitičnimi sredstvi, modeli in podatki

– Sodelovanje med analitiki

– Povezovanje s skupnostjo podatkovnih znanstvenikov

– Uvedba modelov v procese organizacije

• Izvajanje obdelav na mestu, kjer so podatki

• Peskovniki

• Virtualiziran dostop do podatkov

Napovedovanje - Razvoj, uvedba in upravljanje prediktivnih modelov

Page 15: NAČRTOVANJE SODOBNE ANALITIČNE ARHITEKTURE … Gašperlin... · 2. Skrbništvo nad podatki in integracija podatkov (Priprava, objava in zaščita podatkov za zagotavljanje sledljivosti

3. Poslovna analitika in podatkovna znanost

Kaj moramo narediti?

Actionable

Insight

Enhanced

Applications

Discovery & Exploration

Visualization and

storyboarding

Reporting, analysis

and content

analytics

Decision

management

Predictive analytics

and modeling

Insight as

a service

Cognitive

Customer

experience

New

business models

Financial

performance

Risk

Fraud and

operations

IT

economics

Data science Federated

search

• Podaja odgovor na vprašanje kakšne odločitve naj sprejmemo, da bodo najbolj optimalne

• Ključno je prepletanje z rešitvami za podatkovno znanost, npr.

– Integracija s planiranjem

– Integracija z napovedovanjem

• Ena platforma za podatkovno znanost in optimizacijo odločitev

Optimizacija – Optimizacija poslovnih odločitev

Page 16: NAČRTOVANJE SODOBNE ANALITIČNE ARHITEKTURE … Gašperlin... · 2. Skrbništvo nad podatki in integracija podatkov (Priprava, objava in zaščita podatkov za zagotavljanje sledljivosti

Analytical Data

Lake Storage

Security

Platform

Information Management & Governance

Actionable

Insight

Analytics In-Motion

Enhanced

Applications

Discovery & Exploration

Analytics Operating System

Ingestion &

Integration

Data

Access Machine &

sensor data

Image & video

Enterprise content

Social data

Weather data

Commercial data sets

New Data sources

Traditional

sources

Third-party data

Transactional data

System of record data

Data

acquis

itio

n &

applic

ation a

ccess

Internet data sets

Application data

Extract,

transform

and load

Change data

capture

Self-service

Data

virtualization

Data

federation

Open APIs

Object store

and cache

Databases,

Deep analytics,

data modeling,

data marts, and data

warehousing

Enterprise

content store

Landing zone,

exploration, history,

logs and archive

Sand boxes

#

Visualization and

storyboarding

Reporting, analysis

and content

analytics

Decision

management

Predictive analytics

and modeling

Insight as

a service

Cognitive

Customer

experience

New

business models

Financial

performance

Risk

Fraud and

operations

IT

economics Streaming analytics Complex event processing Data enrichment

In-memory processing Simple programming paradigm

Data lifecycle

management

Master and

entity data

Reference

data Data catalog Data models Data quality

Data encryption Data masking and redaction Data protection Security intelligence

Managed service Traditional PaaS SaaS Hybrid

Data science Federated search

Real-time ingestion

Document

capture

Sodobna analitična arhitektura

Page 17: NAČRTOVANJE SODOBNE ANALITIČNE ARHITEKTURE … Gašperlin... · 2. Skrbništvo nad podatki in integracija podatkov (Priprava, objava in zaščita podatkov za zagotavljanje sledljivosti

Analytical Data

Lake Storage

Security

Platform

Information Management & Governance

Actionable

Insight

Analytics In-Motion

Enhanced

Applications

Discovery & Exploration

Analytics Operating System

Ingestion &

Integration

Data

Access Machine &

sensor data

Image & video

Enterprise content

Social data

Weather data

Commercial data sets

New Data sources

Traditional

sources

Third-party data

Transactional data

System of record data

Data

acquis

itio

n &

applic

ation a

ccess

Internet data sets

Application data

DataStage,

IDAA Loader,

DataWorks

Change data

capture & Data

Replication

Big SQL

Fluid Query,

Services

Director

Federation

Server

Open APIs

Cleversafe,

REDIS

IBM Integrated

Analytics System,

IBM Db2 Analytics

Accelerator,

Db2 Warehouse,

Db2

Box,

Content Manager,

Filenet

Hortonworks

Sand boxes

#

Watson Analytics

Cognos Analytics

Watson Content

Analytics

SPSS Decision

management

SPSS

Weather Insight

Twitter Insight

Watson APIs

Customer

experience

New

business models

Financial

performance

Risk

Fraud and

operations

IT

economics Streams Complex event processing Data enrichment

Spark

Optim,

StoredIQ

Master Data

Management

Reference

data Mgmt.

Governance

Catalog Data models

Information

Server

Guardium Data

Encryption Optim Data Privacy

Guardium Activity

Monitoring QRadar

Managed service Traditional PaaS SaaS Hybrid

Data science Experience Watson Explorer

Real-time ingestion

DataCap

Sodobna analitična arhitektura – IBM rešitve

Page 18: NAČRTOVANJE SODOBNE ANALITIČNE ARHITEKTURE … Gašperlin... · 2. Skrbništvo nad podatki in integracija podatkov (Priprava, objava in zaščita podatkov za zagotavljanje sledljivosti

• Zajemanje, shranjevanje in analiziranje strukturiranih podatkov iz relacijskih baz (rešitve: DataStage, Db2 Warehouse Local, Cognos Analytics, Data Science Experience),

• Zajemanje, shranjevanje in analiziranje nestrukturiranih podatkov (dokumenti tipa .doc, .pdf, .txt, ipd.). Dokumenti lahko prispejo elektronsko ali po pošti (skeniranje in OCR), (rešitve: DataCap, FileNet, Hortonworks, BigSQL, Watson Explorer)

• Iskanje informacij po spletnih straneh (crawling) in shranjevanje informacij v najbolj stroškovno učinkovit repozitorij (rešitve: Watson Explorer + Hortonworks)

• Strukturirani podatki naj bodo shranjeni v relacijski bazi (rešitve: Db2 Warehouse Local)

• Dokumenti naj bodo shranjeni v dokumentnem sistemu (rešitve: FileNet)

• Nad vsemi podatki v podjetju mora biti vzpostavljeno iskanje ter sistem obogatenje podatkov (Watson Explorer, Data Science Experience).

• Zahteva se vzpostavitev t.i. Chat Bot-a (Watson Assistant, Watson Services and Watson APIs)

Primer iz prakse – poslovne zahteve

Page 19: NAČRTOVANJE SODOBNE ANALITIČNE ARHITEKTURE … Gašperlin... · 2. Skrbništvo nad podatki in integracija podatkov (Priprava, objava in zaščita podatkov za zagotavljanje sledljivosti

Analytical Data

Lake Storage

Security

Platform

Information Management & Governance

Actionable

Insight

Analytics In-Motion

Enhanced

Applications

Discovery & Exploration

Analytics Operating System

Ingestion &

Integration

Data

Access Machine &

sensor data

Image & video

Enterprise content

Social data

Weather data

Commercial data sets

New Data sources

Traditional

sources

Third-party data

Transactional data

System of record data

Data

acquis

itio

n &

applic

ation a

ccess

Internet data sets

Application data

DataStage

Change data

capture & Data

Replication

Big SQL

Fluid Query,

Services

Director

Federation

Server

Open APIs

Cleversafe,

REDIS

IBM Integrated

Analytics System,

IBM Db2 Analytics

Accelerator,

Db2

Content Manager,

Filenet

Hortonworks

Sand boxes

#

Watson Analytics

Cognos Analytics

SPSS Decision

management

SPSS

Weather Insight

Twitter Insight

Watson APIs

Customer

experience

New

business models

Financial

performance

Risk

Fraud and

operations

IT

economics Streams Complex event processing Data enrichment

Spark

Optim,

StoredIQ

Master Data

Management

Reference

data Mgmt.

Governance

Catalog Data models

Information

Server

Guardium Data

Encryption Optim Data Privacy

Guardium Activity

Monitoring QRadar

Managed service Traditional PaaS SaaS Hybrid

Data science Experience Watson Explorer

Real-time ingestion

DataCap

Db2 Warehouse

Primer iz prakse – mapiranje na arhitekturo

Page 20: NAČRTOVANJE SODOBNE ANALITIČNE ARHITEKTURE … Gašperlin... · 2. Skrbništvo nad podatki in integracija podatkov (Priprava, objava in zaščita podatkov za zagotavljanje sledljivosti

Data Sources

Unstructured Data

RDBMS

Flat Files

Big Data Platform

Enterprise Data

Warehouse

Data Lake

Data Science Platform Data Scientists

Business Users

PREDICTIVE MODELING

MACHINE LEARNING

Reporting

ETL

Data Integration

DEPLOYMENT

CAPTURE

OCR Document Management

System

Websites

Data Explorers

ENTERPRISE SEARCH

Data Exploration Chatbot & Cognitive Services

SEARCH

Crawler

Knowledge Workers Document Search

Discovery

Analysis

Analytics

Machine

Learning

AI AI

Data

IBM DataStage

IBM Cognos Analytics

IBM Db2 Warehouse

Hortonworks Data Platform

IBM Datacap

IBM Filenet

IBM Data Science Experience

IBM Content Navigator

IBM Watson Assistant IBM Watson Services

IBM Watson Explorer 3

4

7

6

5

2

1

8

IBM Watson Explorer

9

10

9

Primer iz prakse – sodobna analitična arhitektura

Page 21: NAČRTOVANJE SODOBNE ANALITIČNE ARHITEKTURE … Gašperlin... · 2. Skrbništvo nad podatki in integracija podatkov (Priprava, objava in zaščita podatkov za zagotavljanje sledljivosti

mag. Boštjan Kos, MBA

Direktor tehnične prodaje,

Analytics Technical Leader, Central and Eastern Europe

E: [email protected]

M: +386 40 456 681

LinkedIn: https://www.linkedin.com/in/bostjankos/

Page 22: NAČRTOVANJE SODOBNE ANALITIČNE ARHITEKTURE … Gašperlin... · 2. Skrbništvo nad podatki in integracija podatkov (Priprava, objava in zaščita podatkov za zagotavljanje sledljivosti