adatok kezelésének adatbázis technológiai következményei ... · Work = Work Product Master...

22
A nagyméretű és nagy mennyiségű adatok kezelésének adatbázis technológiai következményei Vállalati információrendszerek GIKOF 2013 Molnár Bálint ELTE, Információs rendszerek tanszék TÁMOP-4.2.2/B-10/1-2010-0030 támogatásával készült kutatás

Transcript of adatok kezelésének adatbázis technológiai következményei ... · Work = Work Product Master...

Page 1: adatok kezelésének adatbázis technológiai következményei ... · Work = Work Product Master Schedule Time = Business Event Cycle = Business Cycle Business Plan End = Business

A nagyméretű és nagy mennyiségűadatok kezelésének adatbázis technológiai következményei

Vállalati információrendszerekGIKOF 2013

Molnár BálintELTE, Információs rendszerek tanszék

TÁMOP-4.2.2/B-10/1-2010-0030 támogatásával készült kutatás

Page 2: adatok kezelésének adatbázis technológiai következményei ... · Work = Work Product Master Schedule Time = Business Event Cycle = Business Cycle Business Plan End = Business

A nagyméretű adatok fogalma

– Mik a nagyméretű adatok (Big data)– 3V

– (volumen, viharsebesség, változatosság)– Adatmennyiség= data volumes, – Nagysebességgel keletkezik = high velocity – Nagy változatosság variety;

– Amikor a hagyományos adatkezelési eljárások akadályokba ütköznek

– Inkább egy koncepció, mint egy pontos definíció, fogalom meghatározása

ELTE, Információs rendszerek tanszék, Dr. Molnár Bálint, tudományos főmunkatárs 2

Page 3: adatok kezelésének adatbázis technológiai következményei ... · Work = Work Product Master Schedule Time = Business Event Cycle = Business Cycle Business Plan End = Business

ELTE, Információs rendszerek tanszék, Dr. Molnár Bálint, tudományos főmunkatárs 3

Vállalati információ kezelése (Vik)

Információrendszerek irányítása

Üzleti /szervezeti modell

Információ menedzsmentje és használata

Vállalati technológia

és architektúra

Vállalati szervezet és

kultúra

IT infrastruktúra

IT üzemeltetés

és támogatás

IT környezet

Üzleti alkalmazási rendszerek

Tranzakcióközpontú

alkalmazások

Működést támogató

alkalmazások

Döntés támogató

alkalmazások (EDW, BI, Analízis)

Vállalati adatmodell és adattárolók

Információ életciklus kezelés

Szabályozás (hatóságok) és szabályszerűség

Page 4: adatok kezelésének adatbázis technológiai következményei ... · Work = Work Product Master Schedule Time = Business Event Cycle = Business Cycle Business Plan End = Business

A nagyméretű adatok kezelésének új megközelítései vállalati környezetben

– Hagyományos (vállalati) információrendszerek információkezelése– Strukturált adatok, tárolva:

• Relációs adatbázis-kezelő;• Objektum-orientált adatbázis-kezelő;• Hálós adatbázis;• Hierarchikus adatbázis

ELTE, Információs rendszerek tanszék, Dr. Molnár Bálint, tudományos főmunkatárs 4

Page 5: adatok kezelésének adatbázis technológiai következményei ... · Work = Work Product Master Schedule Time = Business Event Cycle = Business Cycle Business Plan End = Business

A nagyméretű adatok kezelésének új megközelítései vállalati környezetben

– Az adatok nagy része ma strukturálatlan formában keletkezik;

– Az adatok 85%-90%– Ezeket az adatokat nem aknázzák ki:

– Nehéz elemezni (parsing);– Modellezni;– Értelmezni.

ELTE, Információs rendszerek tanszék, Dr. Molnár Bálint, tudományos főmunkatárs 5

Page 6: adatok kezelésének adatbázis technológiai következményei ... · Work = Work Product Master Schedule Time = Business Event Cycle = Business Cycle Business Plan End = Business

A nagyméretű adatok kezelésének új megközelítései vállalati környezetben

– A nagyméretű adatok keretében:– A strukturált;– Félig-strukturált;– A strukturálatlan;– A polistrukturált adatokat is kezelni kell.

• Pl.: e-levél, web lap tartalom, videó, audió stb.• Adatbázis tartalom, napló állományok, XML

állományok, strukturálatlan szöveges dokumentumok, web lapok, grafikák.

ELTE, Információs rendszerek tanszék, Dr. Molnár Bálint, tudományos főmunkatárs 6

Page 7: adatok kezelésének adatbázis technológiai következményei ... · Work = Work Product Master Schedule Time = Business Event Cycle = Business Cycle Business Plan End = Business

A nagyméretű adatok kezelésének új megközelítései vállalati környezetben

– Skálázhatóság– Infrastruktúra menedzsment– Végfelhasználó kielégítő kiszolgálása– Adatmodellezés - NoSQL adatbázisok

kifejlesztése– ETL (Extract-Transform-Load) vállalati

adattárházak hagyományos megoldásai – szűk keresztmetszet félig-strukturált adatok céljaira.– Adatok felfalása (data ingestion)– Map-reduce technológia a párhuzamos

feldolgozásra (funkcionális programozás)

ELTE, Információs rendszerek tanszék, Dr. Molnár Bálint, tudományos főmunkatárs 7

Page 8: adatok kezelésének adatbázis technológiai következményei ... · Work = Work Product Master Schedule Time = Business Event Cycle = Business Cycle Business Plan End = Business

Vállalati információrendszerek

– Az információrendszerek dokumentum központúvá válnak

– Nem csak a nagy mennyiség és méret, hanem az adatszerkezet típusok magas fokú heterogenitása is probléma.

– Hagyományos rendszerszervezési, elemzési és tervezési módszerek, információ kezelési eljárások nem kielégítőek

ELTE, Információs rendszerek tanszék, Dr. Molnár Bálint, tudományos főmunkatárs 8

Page 9: adatok kezelésének adatbázis technológiai következményei ... · Work = Work Product Master Schedule Time = Business Event Cycle = Business Cycle Business Plan End = Business

Adatbázisok evolúciója

– RDBMS (SQL, relációs adatbázis-kezelés)– RDBMS oszlop-orientált (Sybase IQ/SAP)

– Teljesítmény: lekérdezések kontra sor-orientált problémái

– Üzleti intelligencia igényei, egyéb adat analitika igények;

– Memória-alapú adatbázis kezelés (In-memory);– Grid (homogén csomópontok) illetve számítási

felhő (heterogén csomópontok)

ELTE, Információs rendszerek tanszék, Dr. Molnár Bálint, tudományos főmunkatárs 9

Page 10: adatok kezelésének adatbázis technológiai következményei ... · Work = Work Product Master Schedule Time = Business Event Cycle = Business Cycle Business Plan End = Business

Adatbázisok evolúciója

– Not Only SQL, NoSQL– DBMS

– Teljesítmény: • Elosztott hálózati architektúra (distributed

arch.)• Masszív párhuzamos, konkurens adatfeldolgozás

(high concurrency)• Particionálással szembeni tűrés (parttion

tolerance)• Kiterjeszthetően skálázható arch. (Scale-out

architecture)ELTE, Információs rendszerek tanszék, Dr. Molnár Bálint, tudományos főmunkatárs 10

Page 11: adatok kezelésének adatbázis technológiai következményei ... · Work = Work Product Master Schedule Time = Business Event Cycle = Business Cycle Business Plan End = Business

Relációs kontra nem relációs adatbáziskzelés

– Strukturált adat: – Minden adatelemre létezik meta-adat, SQL

tárolás, elérés pontosan definiált.– Strukturálatlan adat:

• Az adatbázis séma nem írja le pontosan.

ELTE, Információs rendszerek tanszék, Dr. Molnár Bálint, tudományos főmunkatárs 11

Page 12: adatok kezelésének adatbázis technológiai következményei ... · Work = Work Product Master Schedule Time = Business Event Cycle = Business Cycle Business Plan End = Business

Relációs kontra nem relációs adatbáziskzelés

– RDBMS : – 3NF, táblák, kapcsolatok, integritási feltételek.

Oszlopok strukturált adat. Logikai adatmodell– Nem relációs DBMS

– Egymásba ágyazott, – hierarchikus adatszerkezetek

• BoM, darabjegyzék, XML komplex dok.• A régi hierarchikus, és hálós adatbázisok, objektum,

objektum-relációs adatszerkezetek, dokumentumok, XML adatszerkezetek, gráfok

– Új SQL (NewSQL)– NoSQL

ELTE, Információs rendszerek tanszék, Dr. Molnár Bálint, tudományos főmunkatárs 12

Page 13: adatok kezelésének adatbázis technológiai következményei ... · Work = Work Product Master Schedule Time = Business Event Cycle = Business Cycle Business Plan End = Business

Alkalmazhatóság (OldSQL, NewSQLm NoSQL)

ELTE, Információs rendszerek tanszék, Dr. Molnár Bálint, tudományos főmunkatárs 13

Összetett séma

Gráf séma

Egymásba ágyazott modellek

Hópehely séma

Csillag séma

3NF séma

Egy tábla

40 TB > 40 TB

NoSQL

OldSQL NewSQL

Ada

tsze

rkez

et b

onyo

lultsá

ga

Page 14: adatok kezelésének adatbázis technológiai következményei ... · Work = Work Product Master Schedule Time = Business Event Cycle = Business Cycle Business Plan End = Business

NoSQL– Kulcs-érték pár (key-value pair)– Gráf adatbázis– Dokument adatbázis– XML által definiált adatszerkezet– JSON (JavaScript object notation )

Page 15: adatok kezelésének adatbázis technológiai következményei ... · Work = Work Product Master Schedule Time = Business Event Cycle = Business Cycle Business Plan End = Business

ELTE, Információs rendszerek tanszék, Dr. Molnár Bálint, tudományos főmunkatárs 15

Poliglott tartós tárolás (perzisztencia)

– RDBMS és egy vagy több NoSQL adatbázis kohabitációja az adatbázis-kezelés rétegében

Page 16: adatok kezelésének adatbázis technológiai következményei ... · Work = Work Product Master Schedule Time = Business Event Cycle = Business Cycle Business Plan End = Business

Poliglott tartós tárolás (perzisztencia)

ELTE, Információs rendszerek tanszék, Dr. Molnár Bálint, tudományos főmunkatárs 16

Hadoop ökoszisztemaN

yers

ada

tok

RDBMS

NewSQL

NoSQL

AlkalmazásokKö

tege

lt a

datf

eldo

lgoz

ás /

Valós

ide

jűad

atfe

ldolgo

zási f

olya

mat

Page 17: adatok kezelésének adatbázis technológiai következményei ... · Work = Work Product Master Schedule Time = Business Event Cycle = Business Cycle Business Plan End = Business

Bálint Molnár, Senior Researcher, Information Systems Department 17

Page 18: adatok kezelésének adatbázis technológiai következményei ... · Work = Work Product Master Schedule Time = Business Event Cycle = Business Cycle Business Plan End = Business

Bálint Molnár, Senior Researcher, Information Systems Department 18

Based on work by John A. Zachman

VA Enterprise Architecture

DATAWhat

FUNCTIONHow

NETWORKWhere

PEOPLEWho

TIMEWhen

MOTIVATIONWhy

DATAWhat

FUNCTIONHow

NETWORKWhere

PEOPLEWho

TIMEWhen

MOTIVATIONWhy

SCOPE(CONTEXTUAL)

Planner

ENTERPRISEMODEL(CONCEPTU AL)

Owner

SYSTEM MODEL(LOGICAL)

Designer

TECHNOLOGYMODEL(PHYSICAL)

Builder

DETAILEDREPRESENTATIONS(OUT-OF-CONTEXT)

Sub-Contractor

FUNCTIONINGENTERPRISE

SCOPE(CONTEXTUAL)

Planner

ENTERPRISEMODEL

(CONCEPTU AL)

Owner

SYSTEM MODEL(LOGICAL)

Designer

TECHNOLOGYMODEL

(PHYSICAL)

Builder

DETAILEDREPRESENTATIONS(OUT-OF-CONTEXT)

Sub-Contractor

FUNCTIONINGENTERPRISE

Things Important to the Business

Entity = Class of Business Thing

Processes Performed

Function = Class of Business Process

Semantic Model

Ent = Business Entity Rel = Business Relationship

Business Process Model

Proc = Business Process I/O = Business Resources

Business LogisticsSystem

Node = Business Location Link = Business Linkage

Work Flow Model

People = Organization Unit Work = Work Product

Master Schedule

Time = Business Event Cycle = Business Cycle

Business Plan

End = Business Objectiv e Means = Business Strategy

ImportantOrganizations

People = Major Organizations

Business locations

Node = Major Business Locations

Ev ents Significantto the Business

Time = MajorBusiness Event

Business Goalsand Strategy

Ends/Means =Major Business Goals

Logical DataModel

Ent = Data Entity Rel = Data Relationship

Application Architecture

Proc = Application Function I/O = User Views

Distributed SystemArchitecture

Node = IS Function Link = Line Characteristics

Human InterfaceArchitecture

People = Role Work = Deliv erable

ProcessingStructure

Time = System Event Cycle = Processing Cycle

Business RuleModel

End = Structural Assertion Means = Action Assertion

Physical DataModel

Ent = Segment/Table Rel = Pointer/Key

SystemDesign

Proc = Computer Function I/O = Data Elements/Sets

TechnologyArchitecture

Node = Hardware/Softw are Link = Line Specifications

PresentationArchitecture

People = User Work = Screen Format

ControlStructure

Time = Ex ecute Cycle = Component Cycle

RuleDesign

End = Condition Means = Action

DataDefinition

Ent = Field Rel = Address

Program

Proc = Language Statement I/O = Control Block

Netw orkArchitecture

Node = Addresses Link = Protocols

SecurityArchitecture

People = IdentityWork = Job

Timing Definition

Time = InterruptCycle = Machine Cycle

RuleDesign

End = Sub-Condition Means = Step

Data

Ent = Rel =

Function

Proc =I/O =

Netw ork

Node = Link =

Organization

People = Work =

Schedule

Time = Cycle =

Strategy

End = Means =

Based on work by John A. Zachman

VA Enterprise Architecture

DATAWhat

FUNCTIONHow

NETWORKWhere

PEOPLEWho

TIMEWhen

MOTIVATIONWhy

DATAWhat

FUNCTIONHow

NETWORKWhere

PEOPLEWho

TIMEWhen

MOTIVATIONWhy

SCOPE(CONTEXTUAL)

Planner

ENTERPRISEMODEL(CONCEPTU AL)

Owner

SYSTEM MODEL(LOGICAL)

Designer

TECHNOLOGYMODEL(PHYSICAL)

Builder

DETAILEDREPRESENTATIONS(OUT-OF-CONTEXT)

Sub-Contractor

FUNCTIONINGENTERPRISE

SCOPE(CONTEXTUAL)

Planner

ENTERPRISEMODEL

(CONCEPTU AL)

Owner

SYSTEM MODEL(LOGICAL)

Designer

TECHNOLOGYMODEL

(PHYSICAL)

Builder

DETAILEDREPRESENTATIONS(OUT-OF-CONTEXT)

Sub-Contractor

FUNCTIONINGENTERPRISE

Things Important to the Business

Entity = Class of Business Thing

Processes Performed

Function = Class of Business Process

Semantic Model

Ent = Business Entity Rel = Business Relationship

Business Process Model

Proc = Business Process I/O = Business Resources

Business LogisticsSystem

Node = Business Location Link = Business Linkage

Work Flow Model

People = Organization Unit Work = Work Product

Master Schedule

Time = Business Event Cycle = Business Cycle

Business Plan

End = Business Objectiv e Means = Business Strategy

ImportantOrganizations

People = Major Organizations

Business locations

Node = Major Business Locations

Ev ents Significantto the Business

Time = MajorBusiness Event

Business Goalsand Strategy

Ends/Means =Major Business Goals

Logical DataModel

Ent = Data Entity Rel = Data Relationship

Application Architecture

Proc = Application Function I/O = User Views

Distributed SystemArchitecture

Node = IS Function Link = Line Characteristics

Human InterfaceArchitecture

People = Role Work = Deliv erable

ProcessingStructure

Time = System Event Cycle = Processing Cycle

Business RuleModel

End = Structural Assertion Means = Action Assertion

Physical DataModel

Ent = Segment/Table Rel = Pointer/Key

SystemDesign

Proc = Computer Function I/O = Data Elements/Sets

TechnologyArchitecture

Node = Hardware/Softw are Link = Line Specifications

PresentationArchitecture

People = User Work = Screen Format

ControlStructure

Time = Ex ecute Cycle = Component Cycle

RuleDesign

End = Condition Means = Action

DataDefinition

Ent = Field Rel = Address

Program

Proc = Language Statement I/O = Control Block

Netw orkArchitecture

Node = Addresses Link = Protocols

SecurityArchitecture

People = IdentityWork = Job

Timing Definition

Time = InterruptCycle = Machine Cycle

RuleDesign

End = Sub-Condition Means = Step

Data

Ent = Rel =

Function

Proc =I/O =

Netw ork

Node = Link =

Organization

People = Work =

Schedule

Time = Cycle =

Strategy

End = Means =

Page 19: adatok kezelésének adatbázis technológiai következményei ... · Work = Work Product Master Schedule Time = Business Event Cycle = Business Cycle Business Plan End = Business

Bálint Molnár, Senior Researcher, Information Systems Department 19

Page 20: adatok kezelésének adatbázis technológiai következményei ... · Work = Work Product Master Schedule Time = Business Event Cycle = Business Cycle Business Plan End = Business

Bálint Molnár, Senior Researcher, Information Systems Department 20

Page 21: adatok kezelésének adatbázis technológiai következményei ... · Work = Work Product Master Schedule Time = Business Event Cycle = Business Cycle Business Plan End = Business

Bálint Molnár, Senior Researcher, Information Systems Department 21

A schematic mapping between Zachman architecture and requirements and constraints in the framework of

Axiomatic Design

Aspects

Perspectives

Entities Activities Locations People Time Motivation

Contextual URIntensional document

UR UR UR Intensional document

UR UR Intensional document

Scope

Conceptual FRDocument hierarchy

FRDocument hierarchy

FR FR Document hierarchy

FR FR Document hierarchy

Enterprise Model

Logical DC&P DC&P DC&P DC&P DC&P DC&P System Model

Physical DC&P DC&P DC&P DC&P DC&P DC&P Technical Model

Detailed representation (Actual implementation and operation)

IF&OV IF&OV IF&OV IF&OV IF&OV IF&OV Components

Functioning enterprise/organization

Data Function Network Organization Schedule Strategy

Page 22: adatok kezelésének adatbázis technológiai következményei ... · Work = Work Product Master Schedule Time = Business Event Cycle = Business Cycle Business Plan End = Business

–Köszönöm a figyelmet

…Kérdések?