Big data

24
BIG DATA: mýty a fakty - čo by ste rozhodne mali vedieť! Hadoop a spracovanie veľkého objemu dát - realita verzus potenciál Big Data – začiatok novej éry v dátovej analýze BIG DATA – technológie a referenčné architektúry Big Data a aplikačná architektúra „VEĽKÉ DÁTA“ si žiadajú „VEĽKÉ“ procesy Biznis analytika veľkých dát Digitálny poriadok z papierového chaosu Panelová diskusia: Data & Big data – ako na ne?! Štvrtok, 21. 3. 2013 * kongresové centrum Technopol, Bratislava KONFERENCIA Data & Big data - pripravujete sa zvládnuť novú paradigmu? KONFERENCIA

description

Konferencia Big data 2014

Transcript of Big data

Page 1: Big data

✓ BIG DATA: mýty a fakty - čo by ste rozhodne mali vedieť!

✓ Hadoop a spracovanie veľkého objemu dát - realita verzus potenciál

✓ Big Data – začiatok novej éry v dátovej analýze

✓ BIG DATA – technológie a referenčné architektúry

✓ Big Data a aplikačná architektúra

✓ „VEĽKÉ DÁTA“ si žiadajú „VEĽKÉ“ procesy

✓ Biznis analytika veľkých dát

✓ Digitálny poriadok z papierového chaosu

✓ Panelová diskusia: Data & Big data – ako na ne?!

Štvrtok, 21. 3. 2013 * kongresové centrum Technopol, Bratislava

KONFERENCIA

Data & Big data - pripravujete sa zvládnuť novú paradigmu?

KON

FER

ENC

IAKO

NFE

REN

CIA

KON

FER

ENC

IAKO

NFE

REN

CIA

KON

FER

ENC

IA

Page 2: Big data

Organizátor

Generálny partner:

Hlavní partneri:

Mediálny partner:

PA

RTN

ERI

PA

RTN

ERI

PA

RTN

ERI

PA

RTN

ERI

PA

RTN

ERI

PA

RTN

ERI

Page 3: Big data

PR

OG

RA

M P

OD

UJA

TIA

PR

OG

RA

M P

OD

UJA

TIA

09.00 – 09.10 Privítanie Jozef Šupšák, šéfredaktor efocus.sk

I. Trendy a stratégie09:10 – 09:40 Keynote: Big Data: Mýty a fakty - čo by ste rozhodne mali vedieť Mark Child, Senior Research Analyst, IDC CEMA

09:40 – 10:05 Hadoop a spracovanie veľkého objemu dát – realita verzus potenciál Martin Šeleng, Ústav informatiky, SAV Bratislava

10:05 – 10:30 BIG DATA je oveľa viac ako Hadoop Martin Pavlik, BIG DATA specialist, IBM Česká republika

10:30 – 11:00 Prestávka na kávu

II. Architektúra /infraštruktúra / technológie: Big data – ako na ne

11:00 – 11:25 Big Data – začiatok novej éry v dátovej analýze Tomaš Buday, Information Systems Architect, Hewlett-Packard Slovakia

11:25 – 11:50 The BIG Data Era has arrived…Reinvent your storage! Luka Topic, Regional Territory Manager, Central Europe, EMC

11:50 – 12:15 BIG DATA – technológie a referenčné architektúry v podaní IBM Miroslav Iwachow, IBM Certifi ed IT Architect, IBM Česká republika

12:15 – 12:40 Big Data a aplikačná architektúra Tomáš Zeman, Enterprise Solution Architect, Team Leader, TEMPEST

12:40 – 13:05 „VEĽKÉ DÁTA“ si žiadajú „VEĽKÉ“ procesy Stanislav Levársky, Software PreSales Specialist, DATALAN

13:05 – 14:00 Obedňajšia prestávka

III. Analýza dát14:00 – 14:25 Datawatch - radikálne uľahčenie práce s podnikovými informáciami Botond Tkačik, Managing Director, 2.quadrant

14:25 – 14:50 Biznis analytika veľkých dát Dušan Krcho, Business Consultant, SAS Slovakia

IV. Manažment dát14:50 – 15:15 Digitálny poriadok z papierového chaosu Milan Paštrnák, ATOS IT Solutions and Services

V. Panelová diskusia15:20 – 16:20 Panelová diskusia: Data & Big data – ako na ne?!

Panelisti:

Tomáš Bél, EXIsport Radovan Čechvala, Omega Solutions Vladimir Kyjonka, SAS Česka republika Michal Laclavík, Ústav informatiky SAV Miroslav Petrek, IBM Slovensko

Vedúci panelu: Ivo Kovačič

Page 4: Big data

Miroslav IwachowIBM Česká [email protected]

Dušan KrchoSAS [email protected]

Ivo Kovačičvedúci [email protected]

Vladimír KyjonkaSAS Česká [email protected]

Tomáš Bé[email protected]

Tomáš BudayHewlett-Packard [email protected]

Radovan ČechvalaOmega [email protected]

Mark ChildIDC [email protected]

Michal LaclavíkÚstav informatiky [email protected]

František Levá[email protected]

Rastislav Neczlimoderá[email protected]

Milan PaštrnákATOS IT Solutions and [email protected]

Miroslav PetrekIBM [email protected]

Martin ŠelengÚstav informatiky [email protected]

Botond Tkač[email protected]

Tomáš [email protected]

Luka [email protected]

PR

OFI

LY R

EČN

ÍKO

VP

RO

FILY

REČ

NÍK

OV

Page 5: Big data

BIG DATA v ponímaní spoločnosti IBM

Pri diskusiách s našimi zákazníkmi na tému Big data dostávame veľmi zaujímavú spätnú väzbu. Stále ešte väč-šina z nich vníma problematiku Big data ako buzzword a neverí, že môže existovať hmatateľné a uchopiteľné riešenie s preukázateľnými výsledkami. A keď už sa diskusia na tému Big data začne posúvať ďalej – v tomto prípade smerom k ich súčasnému vnímaniu tejto problematiky – ukáže sa, že väčšina z nich považuje Big data a Hadoop za rovnaké. Hadoop je potom chápaný ako platforma, ktorá je určená iba na spracovanie neštrukturova-ných dát – hlavne rozsiahlych textov. Cieľom našich diskusií a aj tohto článku je ukázať, že problematika Big data je výrazne komplexnejšia a ucelenejšia a môže prinášať praktické benefity v mnohých oblastiach.

Keď hovoríme so svojimi zákazníkmi, ktorí boli, rovnako ako my všetci, obklopení štandardnými systémami, logic-ky očakávajú, že riešenia v oblasti Big data budú v zásade podobné s tými existujúcimi s jediným rozdielom - budú schopní pracovať s väčším objemom dát. Toto očakávanie je ale často prekvapujúco nenaplnené. Celý rad riešení, ktoré patria do oblasti Big data, musia chtiac nechtiac fungovať iným spôsobom, než akým fungujú klasické sys-témy. Bez toho by nebolo možné, aby sa tieto riešenia adekvátne popasovali s výzvami, ktoré sa v problematike Big data objavujú každý deň. Dalo by sa povedať, že pre plné pochopenie významu a uplatnenie problematiky Big data je potrebné, aby došlo v našich mysliach k určitému mentálnemu posunu, ktorý je schopný akceptovať zbú-ranie klasických a skôr nedotknuteľných dogiem v prospech dosiahnutia nových zaujímavých cieľov.

Ako už bolo spomenuté vyššie, Big data nie je len Hadoop. Hadoop je len podmnožinou toho, čo je do tejto oblasti možné z dobrých dôvodov zaradiť. Väčšina technologických spoločností sa na problematiku Big data pozerá z troch pohľadov známych ako problematika tzv troch „V“:

• Volume - je jasné, že veľký objem dát hrá v problematike Big data zásadnú úlohu

• Velocity - ďalšiou dimenziou je potom samozrejme rýchlosť s akou nové dáta pribúdajú alebo sú generované. Pri mnohých dátových zdrojoch generujúcich dáta je situácia taká, že v okamihu, keď údaje nie sú spracované takmer okamžite, prestávajú mať veľkú časť svojej informačnej hodnoty a môžu sa dokonca stať úplne bezcen-nými.

• Variety - nedá sa predpokladať, že všetky dáta budú typovo vyzerať rovnako a budú mať rovnaký formát. V oblasti Big data sa musia spoločnosti ysporiadať ako so štruktúrovanými, tak neštruktúrovanými dátami vo všetkých ich podobách (text, zvuk, video ...)

V spoločnosti IBM pridávame k týmto trom „V“ ešte štvrté „V“ a tým je Veracity (pravdovravnosť). Preklad z ang-ličtiny môže byť trochu zavádzajúci, ale v princípe ide o to, že v okamihu, keď spracovávame veľký objem naj-rôznejších dát, musíme byť schopní sa vysporiadať aj s tým, že značná časť dát obsahuje rôzne šumy, ktoré by výsledky našich analýz mohli výrazne skresliť.

Pri diskusiách s našimi zákazníkmi, pre ktorých je oblasť Big data zaujímavá, väčšinou identifikujeme minimálne jednu z nižšie uvedených piatich oblastí, ktoré sú pre nich kľúčové a sú predmetom nasledujúcich podkapitol.

Konsolidovaný pohľad na dáta roztrieštené cez systémyUkazuje sa, že celá rada spoločností má problém s tým, že nemajú jednoduchý prístup ku všetkým dátam, ktoré potrebujú pre svoju každodennú činnosť. Predstavme si napríklad úlohu marketingového špecialistu, ktorý je zodpovedný za predaj určitej skupiny produktov. Aby bol schopný správne definovať marketingovú stratégiu, potrebuje sa pozerať na informácie o danom produktovom rade zo všetkých možných uhlov pohľadu. Potrebuje

Page 6: Big data

mať možnosť vidieť nielen dáta o predajoch, ale aj o tom, ako boli úspešné marketingové kampane, aká je spät-ná väzba zákazníkov na predávané výrobky, ako vyzerajú skladové zásoby a ako funguje partnerská predajná sieť a predajné kanály. Zdrojom týchto informácií sú najrôznejšie systémy, či už vnútrofiremné (CRM, ERP, Cam-paign management, e-maily ...) alebo dáta na sociálnych sieťach či najrôznejších webových stránkach.

Na tomto príklade je vidieť, že problematika Big data nemusí byť primárne opretá o veľký dátový objem - môže sa jednať o iný problém - v tomto prípade o problém fragmentácie dát medzi najrôznejšie systémy, kde nako-niec chýba konsolidovaný pohľad na dáta bez ohľadu na to, v ktorom zo systému sa jednotlivé útržky informácií nachádzajú a bez ohľadu na to, či dáta majú štrukturovaný či neštrukturovaný charakter.

Nejde pri tom o prenášanie dát nového konsolidovaného úložiska. Dáta môžu zostať tam, kde sú a kde je o ne dobre „postarané”, len je potom vhodný konsolidovaný pohľad. Riešenie IBM InfoSphere Data Explorer tvoriace jeden z kľúčových prvkov platformy IBM Big Data je presným riešením, ktoré je odpoveďou spoločnosti IBM na túto výzvu.

Analýza veľkého objemu surových dát Keď už spoločnosti začnú uvažovať o tom, že by mohli využívať dáta z najrôznejších veľkoobjemových dátových zdrojov (sociálne siete, webové stránky, dáta za senzorov, najrôznejších prístrojov, aplikačných log súborov, ...), volia pre ich uloženie distribuovaný paralelný súborový systém, akým je napr HDFS (Hadoop Distributed File System). To je určite správna úvaha najmä vzhľadom k veľmi nízkym nákladom takéhoto riešenia. Kým ale tieto dáta nie sú spracované a zanalyzované, nemajú pre danú spoločnosť väčšinou zodpovedajúci prínos. Ako ich ale spracovať, keď štandardné nástroje pre Business Intelligence, data mining alebo Campaign management typicky pracujú s dátami v štrukturovanej relačnej podobe a už vôbec nerozumejú paralelným súborovým sys-témom? V zásade prichádzajú do úvahy dve možnosti:

1. Konvertovať surové dáta do striktne štrukturovanej relačnej podoby a uložiť ich v niektorej z relačných data-báz, ktoré sú potom prístupné pre analytické nástroje.

2. Použiť niektorú z nových technológií, ktoré sú určené práve pre analytiku nespracovaných dát a sú uložené nad HDFS.

Ktorá z týchto možností je ale vhodnejšia a v ktorom prípade? Bohužiaľ nie je možné jednoznačne sa rozhodnúť, ale dá sa povedať, že v prvých fázach projektov je vhodné začať možnosťou č. 2 a potom je vhodné prejsť k prvej diskutovanej možnosti. To, prečo je tomu tak, sa pokúsim vysvetliť nižšie.

Ide o to, že pri klasických analyticky zameraných projektoch je situácia taká, že business užívatelia sú typicky schopní presne definovať svoje požiadavky, teda otázky, na ktoré chcú poznať odpovede, aby pre nich IT špe-cialisti mohli pripraviť príslušné infraštruktúrne a softvérové riešenie. V prípade Big data projektov tak tomu ale často nie je. Business užívatelia presne nevedia (a ani nemôžu vedieť), čo vlastne chcú. Na základe najrôznejších informácií môžu napríklad tušiť, že je vhodné analyzovať dáta zo sociálnych sietí. Bohužiaľ ale nemôžu vedieť, či je na sociálnych sieťach presne to, čo by pre nich mohlo mať zásadný význam, napríklad v spojení s ich pro-duktovým portfóliom. Rovnako tak nemôžu vedieť, či je možné informácie zo sociálnych sietí nejako rozumne napojiť na dáta, ktoré sú k dispozícii v ich vnútrofiremných informačných systémoch. A presne v ten okamih je vhodné, keď je im IT schopné dať k dispozícii nástroje, s ktorými budú schopní vykonať high-level analýzu suro-vých dát uložených v HDFS vrátane skúmania možnosti prepojenia s firemnou informačnou bázou, ktorú majú vo svojej spoločnosti k dispozícii. Až vtedy, keď dáta a ich potenciál dostatočne zanalyzujú, môžu adekvátne a dostatočne podrobne definovať požiadavky na vybudovanie zodpovedajúceho štandardného analytického riešenia, ktoré bude dodávať očakávané výsledky. Bez rešpektovania tohto princípu sa môže veľmi ľahko stať, že pomerne náročný projekt s vysokými prvkami očakávania prinesie na konci aj prvky značného sklamania.

Page 7: Big data

Vyššie bol niekoľkokrát spomenutý Hadoop. Pre tých z Vás, ktorí Hadoop nepoznajú, by som len stručne uviedol, že sa jedná o Apache open source projekt, ktorý si kladie za cieľ implementáciu nového princípu, ktorý je možné zhrnúť do vety: „Prineste spracovanie dát priamo k dátam“. Čo to znamená? V klasických systémoch existujú ser-very disponujúce výpočtovým výkonom a vedľa nich žijú dáta v špeciálnych úložiskách. V okamihu, keď chceme dáta spracovávať, je nutné dáta dostať po sieťových linkách k serverom a tie sa postarajú o ich spracovanie. V Hadoop svete je tomu inak. Namiesto silného serveru sa v Hadoop infraštruktúre používa rôzne veľké množstvo relatívne malých a lacných kompletných počítačov s vlastným procesorom, pamäťou a úložiskom. Dáta sú roz-distribuované viacmenej rovnomerne medzi jednotlivé počítače. V okamihu, keď chceme vykonať nejakú úlohu, je táto úloha rozdelená na dve časti. Prvá časť zodpovedá tej časti algoritmu, ktorá sa dá paralelizovat a táto prvá časť teda môže bežať paralelne na jednotlivých počítačoch infraštruktúry. Druhá časť potom zozbiera výsledky z jednotlivých počítačov a algoritmus určí, ako na základe týchto čiastkových výsledkov zostaviť výsledok celej úlohy. Hadoop infraštruktúra je teda vhodná na akékoľvek úlohy, ktoré sa dajú aspoň čiastočne s výhodou pa-ralelizovat. Niektoré úlohy ale paralelizovať možné nie je (napr. výpočet mediánu) a tieto úlohy teda nemôžu z Hadoop infraštruktúry príslušným spôsobom profitovať.

Vo svete IT existuje niekoľko distribúcií, tj implementácie open source projektu Hadoop. Jednu z nich má vo svojej Big data platforme aj spoločnosť IBM. Príslušný produkt nesie názov IBM InfoSphere BigInsights. Nejedná sa pritom len o vlastnú implementáciu open source Hadoop projektu, ale ide o jej rozšírenie v tom zmysle, že robí celý svet platformy Hadoop výrazne menej zložitý ako pre koncových business užívateľov, tak aj užívateľov z radov IT. Štandardný Hadoop framework je veľmi komplexný a obsahuje celý rad komponentov, ktoré sú pre jeho beh nutné. Len inštalácia týchto komponentov na príslušné počítače v Hadoop infraštruktúre je veľmi ne-triviálne a pomerne zdĺhavá. IBM modul IBM InfoSphere BigInsights môže byť dodaný v tzv Basic Edition, ktorá je zadarmo a oproti IBM distribúcii open source frameworku Hadoop obsahuje aj kompletnú inštalačnú sadu, ktorá výrazne zjednodušuje celú inštaláciu a je k nej možné dokúpiť IBM podporu tak, aby celý framework, na ktorom môžu byť vyvíjané príslušné aplikácie, bol v prípade akýchkoľvek problémov zodpovedajúcim spôso-bom podporovaný. Súčasťou Basic Edition je aj IBM vytvorený špeciálny programovací jazyk JAQL určený pre veľmi rýchly, efektívny a pritom prehľadný vývoj aplikácií nad Hadoop infraštruktúrou. Vďaka jazyku JAQL je možné, aby programátor mohol príslušným spôsobom abstrahovať od technických detailov platformy Hadoop a mohol sa venovať biznis logike, ktorú chce naimplementovať. Pre komunikáciu s non-Hadoop technológiami sú súčasťou Basic Edition aj príslušné JDBC konektory a natívny konektor do databázy DB2.

Platená verzia - IBM InfoSphere BigInsights Enterprise Edition - obsahuje celý rad ďalších komponentov, ktoré sú odtieňom všetkých užívateľov (ako biznis, tak IT) od komplexnosti frameworku Hadoop, ak je to žiadúce. Medzi tieto rozširujúce komponenty patrí modul pre pokročilú analýzu textu pre biznis analytikov, ďalej potom modul s rozhraním pripomínajúce prostredia MS Excel, v ktorom je možné analyzovať dáta uložené v Hadoop infraštruktúre, kam sa dostala napríklad extrakcia zo sociálnych sietí, najrôznejších senzorov či aplikačných lo-gov. V poslednom spomínanom module je možné aj zodpovedajúcim (pre business používateľov príjemným) spôsobom spájať dáta z tradičných dátových zdrojov a dáta uložené v Hadoop infraštruktúre tak, aby bolo mož-né overiť, či majú príslušné Big data pre danú spoločnosť analytický význam alebo nie. Platená verzia má potom neoceniteľnú pridanú hodnotu aj v oblasti integrácie (R, LDAP, IBM Guardium, IBM InfoSphere Streams, IBM Pu-reData System for Analytics (Netezza), IBM InfoSphere Data Explorer) a v pohodlnosti vývoja aplikácií prostred-níctvom Eclipse nástrojov.

Často sa stretávame s otázkou vzájomného umiestnenia dátových skladov a Hadoop infraštruktúry. Najčastejšie nastavenie u našich zákazníkov je také, že Hadoop infraštruktúra predstavuje úložisko, kam sú smerované veľké dátové objemy získané z najrôznejších dátových zdrojov. Nad týmto objemným úložiskom sú potom spúšťané analytické úlohy, ktorých výsledky sú potom najčastejšie ukladané do klasického relačného dátového skladu za účelom realizácie ďalších analýz štandardnými a dnes bežnými prostriedkami.

Page 8: Big data

Zníženie nákladov prostredníctvom Hadoop infraštruktúryU niektorých klientov má ale veľký zmysel vzájomné umiestnenie dátového skladu a Hadoop infraštruktúry v opačnom garde. Tj., Hadoop infraštruktúra slúži ako „externé“ veľkoobjemové úložisko tých dát, ktorých ulože-nie v dátovom sklade je príliš drahé - najmä z dôvodu ich menej častého použitia. Prostredníctvom databázo-vých užívateľsky definovaných funkcií je možné realizovať prepojenie dátového skladu a Hadoop infraštruktúry tak, aby koncový užívateľ mohol pristupovať do Hadoop infraštruktúry transparentne SQL dotazom položeným smerom do dátového skladu. Databáza dátového skladu sa potom prostredníctvom užívateľsky definovanej funkcie postará o presmerovanie príslušnej časti SQL dotazu do Hadoop infraštruktúry.

Nad Hadoop infraštruktúrou môžu byť realizované databázové systémy, pre ktoré existujú špeciálne dopytova-cie jazyky podobné jazyku SQL - napr databázový systém Hive a jazyk HiveQL. Pre jazyk HiveQL existuje dokonca JDBC rozhranie. Z toho vyplýva, že v čase, keď sme si istí tým, že dáta uložené v Hadoop infraštruktúre majú relačnú podobu, môžeme využiť ľubovoľný nástroj generujúci SQL a ktorý je schopný pracovať s týmto JDBC rozhraním tak, ako by dáta boli uložené v relačnej databáze. Toto je možné napríklad v business intelligence nástroji IBM Cognos BI.

Zjednodušenie dátových skladov a ich priblíženie business užívateľomKeď už vyššie bola reč aj o dátových skladoch, dotýka sa samozrejme problematika Big data aj tejto oblasti. Po-čas mnohých minulých rokov sa stávali dátové sklady oprávnene základom informačného bohatstva nejednej spoločnosti. Celý rad dátových skladov sa však za mnoho rokov vývoja dostal do stavu, keď sú vďaka veľmi rôz-norodým požiadavkám jednotlivých business užívateľov veľmi zložité nielen čo do dátových štruktúr, ale aj vo vzťahu k dátovým tokom a ich údržbe. Pomerne veľká zložitosť a záťaž je viazaná aj na obmedzenú výkonnosť štandardných databázových technológií, najmä čo sa týka ich schopností vykonávať efektívne filtrovanie a pre-dovšetkým potom agregácie nad obrovským množstvom záznamov. Vďaka tomu musí vznikať veľké množstvo predpočítaných agregačných tabuliek, ktoré síce na jednej strane prinášajú zrýchlenie práce pre koncových uží-vateľov, na strane druhej však výrazne zvyšujú komplexnosť celého riešenia a ich načítanie potom predlžuje čas, ktorý je potrebný na úplné naplnenie dátového skladu. V okamihu, keď objem dát v dátových skladoch neustále rastie a rastie aj chuť business užívateľov spracovávať Big data z neštandardných zdrojov, je vysoká zložitosť mnohých dátových skladov limitujúcim faktorom ich udržateľnosti a úspešného rozvoja. Nie je nezvyčajné, že aj relatívne triviálne zmenové požiadavky biznis užívateľov sú realizované v tímoch, ktoré majú na starosti správu dátových skladov, v radoch niekoľkých mesiacov, čo je značne nepružné. Nepružnosť takéhoto riešenia je zá-sadná najmä pre analytikov, ktorí sú veľmi často až na základe výsledkov svojich analýz bežiacich nad dátovým skladom schopní povedať, ako bude vyzerať ich ďalšie analytické skúmanie.

Našťastie už nejakú dobu existujú riešenia, ktoré sa snažia túto komplexnosť a jej spôsobené problémy elimino-vať. Jedná sa o riešenia, ktoré sú špeciálne určené pre analytické dátové sklady, kde sa dá predpokladať veľmi úzke spojenie s business užívateľmi. Tí potrebujú veľkú flexibilitu a nemôžu si dovoliť čakať s každou svojou po-žiadavkou na to, až ich IT časť spoločnosti realizuje. Tieto riešenia sú určené na mieru presne pre tieto analytické potreby. Ide väčšinou o tzv appliance - tj riešenie, ktoré je kombináciou databázového software a ako štandard-ného, tak aj špeciálneho hardware, ktorý je schopný na úrovni jednotlivých aritmetických logických jednotkách vykonávať veľké časti SQL dotazov či akýchkoľvek iných paralelizovatelných algoritmov.

Jedným z takýchto riešení je aj IBM PureData System for Analytics, ktorý je postavený na dlhoročne odskúšanej platforme IBM Netezza, ktorá je úspešne nasadená u stoviek zákazníkov a pracuje s objemom dát až do poriadku jednotiek PB (teda tisíce TB). Vedľa obrovskej rýchlosti systému kvitují zákazníci IBM najmä nedostižnú jedno-duchosť pre databázových administrátorov, ktorí s databázovou údržbou dátových skladov postavených aspoň čiastočne nad touto technológiou trávia zlomok času (1/5 - 1/10) v porovnaní s časom, ktorý je potrebný pri správe iných riešení konkurenčných dodávateľov.

Page 9: Big data

Near on-line spracovanie dát krátko po tom, čo sú vygenerovanéJedným z kľúčových aspektov problematiky Big data je rýchlosť s akou sú dáta generované. V dnešnej dobe sa stretávame čím ďalej viac so situáciami, v ktorých už nestačí vykonávať analýzu dát v tradičnej dávkovej podobe, keď sú dáta zhromaždené v dátovom sklade alebo novo v Hadoop infraštruktúre a v periodických intervaloch (najčastejšie 1 x denne) sú tu uložené dáta analyzované. Ukazuje sa, že je z mnohých veľmi dobrých dôvodov žiaduce, aby dáta boli spracované a zanalyzované čo najskôr potom, ako sa objavia na dátovom zdroji alebo keď sú vygenerované najrôznejšími senzormi alebo zariadeniami.

Typický prípad použitia je taký, že na základe analýz historických dát uložených buď v klasickom dátovom skla-de či Hadoop infraštruktúre sú detekované určité vzory správania (prediktívne modely), ktoré je potom možné automaticky využívať pri spracovaní dát v near-on-line režime okamžite potom, ako sa dáta objavia na jednot-livých vstupoch.

Príslušná technológia, ktorú má spoločnosť IBM v Big data v portfóliu je schopná v near-on-line režime spracová-vať neuveriteľné množstvo dát a nazýva sa IBM InfoSphere Streams. Táto technológia je vhodná na spracovanie dát, ktoré môžu prichádzať v rôznej frekvencii z mnohých rôznych zdrojov naraz a s dátami je možné vykonávať akúkoľvek operáciu, ako napríklad obyčajné filtrovanie dát, ich agregáciu (vrátane agregácie a podmienok na-stavených v pohyblivom časovom okne), tak aj near-on-line skóring s využitím prediktívnych modelov vygene-rovaných predtým v nástrojoch pre data mining (napr. IBM SPSS, SAS Enterprise Miner). Ak zákazníkovi zoznam preddefinovaných operátorov a operácií, ktoré je možné na dáta aplikovať, nestačí, môže si veľmi ľahko vytvoriť vlastnú, či jednoducho zapuzdriť existujúce algoritmy a programy tak, aby ich bolo možné používať aj v prostre-dí IBM InfoSphere Streams.

Technológia IBM InfoSphere Streams bola mnoho rokov vyvíjaná a používaná vládou USA a ku komerčnému použitiu bola uvoľnená pomerne nedávno. Je využitá napríklad v niektorých nemocniciach na jednotkách in-tenzívnej starostlivosti, ak sú na základe analýzy historických dát nastavené prediktívne modely umožňujúce odhadnúť pravdepodobnosť neočakávaného úmrtia pacienta na základe kombinácie stoviek hodnôt genero-vaných najrôznejšími prístrojmi, ktoré sa na jednotkách intenzívnej starostlivosti používajú. Tieto prediktívne modely sú potom spolu s ďalšími transformačnými a procesnými mechanizmami vytvorenými v technológii InfoSphere Streams nasadené pre near-on-line analýzu dát zo systémov monitorujúcich zdravie pacientov a sú schopné včas detekovať veľmi komplexné situácie, ktoré by mohli vo svojom dôsledku bez vykonania prísluš-ných nápravných liečebných opatrení viesť v krajnom prípade až k úmrtiu pacienta.

Big data platforma spoločnosti IBMV tomto článku bolo spomenutých päť oblastí, ktoré sú často spomínané pri diskusiách na tému Big data s naši-mi zákazníkmi. Na každú z nich má spoločnosť IBM odpoveď v podobe príslušnej technológie patriacej do IBM Big data platformy. Platforma je predstavovaná v súčasnej dobe štyrmi vyššie uvedenými produktmi, ktoré sú samozrejme schopné samostatného fungovania, ale ten pravý prínos prinášajú najmä v okamihu, kedy sú kom-binované medzi sebou, tak aj s ďalšími produktmi a vytvárajú tak zmysluplné riešenie. Môžu byť samozrejme integrované s produktmi spoločnosti IBM, ako aj s nástrojmi tretích strán.

Kým pilotný či prvý projekt našich zákazníkov je typicky postavený len na jednej z Big data technológií, tie ďalšie potom s výhodou využívajú to, že jednotlivé assets vyvinuté v predchádzajúcich projektoch môžu byť priamo využité aj v ďalších produktoch IBM Big data platformy. Vzájomná integrácia a prepojenie produktov, ktoré pat-ria do IBM Big data platformy, sú jedným z hlavných atribútov, na ktoré sa spoločnosť IBM sústredí.

Page 10: Big data

BIG DATATRANSFORMS BUSINESS

Big Data presents a big opportunity for businesses to gain new insights from both traditional structured data and new unstructured information sources. New data that is being generated from what we call “the Internet of Things” which consist of sensors, surveillance cameras, smart meters, appliances, medical devises are becoming a major source of “Big Data.” In addition, non-enterprise information such as videos and social media are data sources that can provide new insights. Together, all of this Big Data can help businesses better understand cus-tomer behavior, optimize operations, manage risk and enable innovation.

Page 11: Big data

Isilon is the scale-out NAS platform that is ideal for Big Data. It enables scale up to 15PBs in a single file system. Plus it has HDFS built into the OneFS operating system enabling you to deploy enterprise-hadoop systems. Ma-nagement of isilon is simple. You can manage PBs of data just as you would TBs of data. The bottom line is, you don’t increase your operational expenses with Isilon as it can manage all your data even as it grows to PBs.

Isilon® Systems is the worldwide leader in clustered storage systems and software for file-based data. Isilon’s award-winning family of Isilon IQ products combine an intelligent distributed file system with modular, enter-prise-class, industry-standard hardware to deliver unmatched simplicity, scalability and value. Isilon IQ clustered storage systems speed access to critical data, while dramatically reducing the cost and complexity of storing and managing it—giving enterprises the power to transform data into information and information into break-throughs.

Companies turn to Isilon because their file-based data—audio, video, images, reference information and other unstructured data—has requirements that traditional storage systems were simply not designed for. File-based data consumes large amounts of storage capacity, grows much faster than traditional data stores, and often requires high throughput and high concurrency. Isilon’s family of award-winning clustered storage product-s—powered by Isilon’s OneFS® operating system software—speeds access to customers’ file-based data, while dramatically reducing the cost and complexity of storing it.

HOW CAN WE MAKE BETTER USE OF

BIG DATA?

Page 12: Big data

Greenplum is designed from the ground up to handle Big Data analytics. It provided a shared-nothing, massi-vely parallel processing (MPP) architecture that supports extreme performance on commodity infrastructure enabling PB scale analytics data warehouses and Hadoop environments.

The Greenplum Database architecture provides automatic parallelization of data and queries—all data is au-tomatically partitioned across all nodes of the system, and queries are planned and executed using all nodes working together in a highly coordinated fashion.

IDC MarketScape: Worldwide Scale-Out File-Based Storage 2012 Vendor Analysis

SITUATION OVERVIEW

Many organizations, regardless of their size, are seeing an enormous increase in data. This brings unprecedented performance challenges and data management complexities. The increase in amount of data means an incre-ased need for capacity, bandwidth, and compute resources for IT organizations. In addition, owing to the geo-graphical nature of business, storage investments are driven by the need to organize and distribute files. As a consequence, quality of service, uninterrupted performance, compliance, and data protection are top priorities for IT organizations. All these factors make data management a complicated task.

Page 13: Big data

Specific verticals such as healthcare, life sciences, media and entertainment, and oil and gas demand efficient storage, organization, long-term retention, and timely retrieval of files. It is this demand that is driving the scale-out file-based storage market. While the need for scale-out file-based storage really came from specific indu-stries, many organizations of varying sizes with focus on other verticals are faced with similar problems.

FUTURE OUTLOOK

The IDC MarketScape vendor assessment for the scale-out file-based storage market represents IDC‘s assess-ment on which vendors are well positioned today through current capabilities and which are best positioned to gain market share over the next few years. Positioning in the upper right of the grid indicates that vendors are well positioned to gain market share. For the purposes of discussion, IDC divided potential key strategy measu-res for success into two primary categories: capabilities and strategies.

Positioning on the y-axis reflects the vendor‘s current capabilities around scale-out file-based storage and how well aligned it is to customer needs. The capabilities category focuses on the capabilities of the vendor and pro-duct today, here and now. Under this category, IDC analysts will look at how well a vendor is building/delivering capabilities that enable it to execute its chosen strategy in the market. Positioning on the x-axis, or strategies axis, indicates how well the vendor‘s future strategy aligns with what customers will require in three to five years. The strategies category focuses on high-level strategic decisions and underlying assumptions about offerings, customer segments, business, and go-to-market plans for the future, in this case defined as the next 18 months. Under this category, analysts look at whether or not a supplier‘s strategies in various areas are aligned with cus-tomer requirements (and spending) over a defined future time period.

Figure 1 shows each vendor‘s position in the vendor assessment chart. Its market share is indicated by the size of the bubble, and a (+), (-), or (=) icon indicates whether or not the vendor is growing faster than, slower than, or even with, respectively, overall market growth.

FIGURE 1

Source: IDC, 2012

EMC has consistently dominated the storage space for several years. It has been able to do so by identifying upcoming trends and bringing to market timely and appropriate storage solutions. EMC has also benefited from strategic alliances and acquisitions to enhance its portfolio, giving it an edge over its competition. The acquisitions of Data Domain and Isilon have specifically served EMC well, increasing its market share in a very short time.

Page 14: Big data

EMC‘s portfolio encompasses a variety of storage products for the entry, midrange, and enterprise levels that serve numerous use cases. EMC‘s backbone for the scale-out file-based storage segment is Isilon. EMC acquired Isilon in late 2010 and positions Isilon‘s unique clustered architecture for customers that face rapid growth of data, high bandwidth needs, and high availability demands.

EMC positions Isilon as its solution for scale-out NAS for big data storage and maintains that Isilon‘s products are simple to install, manage, and scale. Isilon offers automated storage tiering using an automated policy engine known as SmartPools. Using SmartPools, additional nodes can be added and data can be restriped across these nodes nondisruptively. EMC has leveraged its laser focus and mindshare in the marketplace to significantly ex-pand Isilon‘s market share in the past two years.

EMC has stopped short of pushing iSCSI support for new installations, referring block data support over to VNX and VMAX in the EMC portfolio. Isilon will continue to support iSCSI installations in its installed base. Currently, EMC is predominantly focused on file-based storage with its Isilon products.

Over the years, EMC has been growing its reseller network across the globe along with service and support professionals. It extensively supports online communities of customers, resellers, and partners through social media to foster exchange of ideas and technical knowledge. To ensure market reach in various verticals, EMC offers mandatory vertical market sales training to its internal sales organization as well as its reseller and partner community.

EMC is a Leader in this IDC MarketScape.

Page 15: Big data

Hewlett - Packard Slovakia, s.r.oProfil spoločnosti

Page 16: Big data

1. Profil spoločnosti HPSpoločnosť Hewlett-Packard sa zaoberá vývojom technológií a má pobočky vo viac ako 170 krajinách sveta. Prostred-níctvom svojich produktov – technológií a služieb sa snaží pomáhať ľuďom a spoločnostiam riešiť ich problémy a úspešne čeliť novým výzvam. Za viac ako štyridsať rokov prítomnosti na slovenskom IT trhu získala výnimočne silné vedúce postavenie z hľadiska celkového obratu a šírky portfólia zákazníkov. Ich priazeň si získava širokou ponukou produktov, sprevádzanou kvalitnými službami, ktoré poskytuje podnikovým zákazníkom, malým a stredným podni-kateľom, ako aj drobným spotrebiteľom, a to priamo alebo prostredníctvom siete obchodných partnerov.

Spoločnosť HP pôsobí na slovenskom trhu od roku 1967. V roku 2000 vznikol samostatný právny subjekt Hewlett-Pac-kard Slovakia, s.r.o., ktorý slovenským zákazníkom poskytuje komplexné portfólio služieb najväčšej svetovej techno-logickej spoločnosti. Vo februári 2003 došlo k oficiálnemu zlúčeniu spoločnosti Compaq Computer Slovakia, s.r.o so spoločnosťou Hewlett-Packard Slovakia, s.r.o.

Európske operačné centrá v SRVýznamným úspechom z hľadiska dynamického rastu počtu klientov a zamestnancov HP sú naše operačné centrá. Postupne sme ich otvárali od roku 2003 a obsluhujú globálnych zákazníkov spoločnosti HP.

Global Delivery Application Services Slovak Centre pomáha zákazníkom optimalizovať procesy, zvyšovať nákladovú efektivitu ich aplikačného portfólia a zaručuje kvalitu dodávaných služieb.

IT Operations Global Delivery Center Slovakia sa zameriava na poskytovanie služieb, podporu a riešenie úloh spoje-ných s prevádzkou IT infraštruktúry HP zákazníkov na globálnej úrovni.

Organizácia spoločnosti

• Divízia Printing and Personal Systems (PPS)

Divízia Printing and Personal Systems vznikla zlúčením dvoch pôvodných divízií: divízie zobrazovania a tlače (Ima-ging and printing group - IPG) a divízie osobných systémov (Personal systems group – PSG).

•DivíziaEnterpriseGroup(EG)

Divíziu EG tvoria business oblasti Enterprise storage, Server & Networking (ESSN) a Technology services (TS). EG ponúka svojim zákazníkom komplexné infraštruktúrne riešenia, štandardné podnikové servery a má vedúce trhové postave-nie v segmente podnikových technológí na ukladanie údajov – storage. Oblasť Technology Services ponúka širokú škálu služieb technologickej podpory a poradenstva.

•DivíziaEnterpriseServices

Enterprise Services (ES) je najväčšou divíziou v HP Slovakia, a to nielen počtom ľudí, ale aj objemom biznisu na slo-venskom trhu. Poskytuje najväčšie portfólio služieb – od Application Services, cez Infrastructure Outsourcing, až po Business Process Outsourcing, s ktorým sa zákazníci na Slovensku iba zoznamujú.

HP lízingové a finančné služby sú rovnako súčasťou HP. Svojím zákazníkom (nadnárodným spoločnostiam, stredne veľkým aj malým firmám), poskutujú finančné a správcovské riešenia, ktoré im umožňujú inteligentne a ekonomicky spravovať ich obchodné investície do technologií.

Spoločenská zodpovednosťSpoločnosť HP Slovakia sa aktívne zapája do diverzitných programov, programov na podporu vzdelávania, rozvoja informačnej spoločnosti a znalostnej ekonomiky. V rámci našich grantových programov už tradične podporujeme viaceré slovenské univerzity, či už materiálne alebo finančne, a tak sa snažíme prispievať k vyššej úrovni absolventov našich univerzít. HP sa ako spoločensky zodpovedná firma zúčastňuje na dobrovoľníckych aktivitách Business Leaders Fóra a pracovnej skupiny Engage, spolupracujeme s organizáciou Junior Achievement Slovensko – Mládež pre budúc-nosť. V rámci tejto spolupráce sme na Slovensko priniesli “Globálny etický program” a do života sme uviedli program “HP Responsible Award”, zameraný na vzdelávanie mladých ľudí na poli zodpovedného podnikania. V rámci sponzo-ringovej a grantovej politiky podporujeme viaceré charitatívne projekty: Divé maky, Naše Mesto, Dobrá krajina a iné.

Page 17: Big data

RiešenieTEMPEST v spoločnosti NAY a.s. nasadil manažérsky informačný systém (MIS). Kľúčovými súčasťami riešenia sú centrálny dátový sklad a Business Intelligence prostredie. MIS spracováva údaje z viacerých heterogénnych systémov v reálnom čase a poskytuje analýzy pre operatívne i strategické rozhodnutia NAY. Implementáciou MIS NAY zvýšil kvalitu služieb, zlepšil efektivitu svojho podnikania a podporil svoj ďalší rast.

Spoločnosť NAY a.s. bola založená v roku 1992 a je najväčším predajcom spotrebnej elektroniky na Slovensku. Pod značkou NAY Elektrodom priniesla v roku 1998 ako prvá koncept veľkoformátových predajní. Zákazníci tu majú k dispozícii široký sortiment značkovej elektroniky pod jednou strechou. V predajniach je zároveň možné nájsť kom-plexnú ponuku služieb súvisiacich s používaním alebo nákupom techniky. V súčasnosti má NAY sieť 28 predajní v 23 mestách Slovenska a modernú internetovú predajňu.

O spoločnosti NAY a.s.

vytvorenie jedného dôveryhodného zdroja informácií naprieč systémami (centrálne DWH)zlepšenie a zrýchlenie rozhodovania vďaka jednoduchej tvorbe nových reportov a analýzzískanie konzistentného pohľadu na aktuálne aj historické dáta zlepšenie a zrýchlenie rozpoznávania súvislostí pomocou vnárania sa z agregovaných informácií do detailných dát alebo transakciílepšie sledovanie a zvýšenie produktivity zamestnancov prepojenie externých dát (obchodné, finančné a KPI plány, počítadlá návštevníkov predajní, dochádzky zamest-nancov, externé číselníky) s údajmi zo zdrojových systémovodstránenie záťaže zdrojových systémov spôsobenej reportmi s dlhým trvanímzníženie závislosti od externých dodávateľov

Výhody

Spoločnosť NAY prevádzkovala viacero heterogénnych systémov, ktoré mali limitované reportovacie možnosti. Kľúčové reporty sa skladali z čiastkových vstupov zo systémov dodávaných tretími stranami. Zladenie reportov z viacerých systémov bolo problematické. Niektoré údaje úplne chýbali. Manažment NAY tak nemal k dispozícii na jednom mieste všetky detailné informácie a súvislosti potrebné na želané rozhodnutia v reálnom čase. Repor-tovanie prebiehalo pre izolované oblasti a nebolo konzistentné s nastavenými KPI. Medzi dátami chýbali viaceré súvislosti a historické väzby. Otázna bola aj aktuálnosť dát. Pri spúšťaní a tvorbe reportovacích nástrojov dochádzalo k zaťaženiu zdrojových systémov, časovým posunom i chybovosti. Na získanie zložitejších informácií bola potrebná vysoká prácnosť.

Pôvodný stav

V NAY Elektrodome IT pomáha predávať

Page 18: Big data

Cieľom projektu bolo zjednodušiť tvorbu a dostupnosť reportov pre všetky úrovne manažmentu. Pôvodne používaný reportovací systém bol založený na prispôsobených, oddelených reportoch vyt-vorených v dočasne vybratom nástroji. Ten nebol primárne určený na spúšťanie náročných reportov, čo spôsobovalo ďalší problém – dlhé odozvy. Dynamický vývoj retailového predaja potreboval nové analytické pohľady. Problémom bolo aj spracovanie výstupov z čiastkových reportov do manažérsky komplexných celkov. Dané spracovanie znamenalo oneskorenia, vysokú prácnosť a možné riziko vnesenia chýb z dôvodu manuálnych zásahov. Zadaním bolo odstrániť tieto problémy, vybudovať dá-tový sklad ako „jediný zdroj pravdy“ a takisto MIS.

Zadanie

TEMPEST bol v širšom tendri vybratý ako dodávateľ riešenia. Zabezpečoval konzultačné a analytické služby, dodávku hardvéru, softvéru, integráciu, prispôsobenie riešenia, vlastný softvérový vývoj i projektové riadenie. Súčasťou projektu bolo aj vybudovanie testovacieho prostredia. V oblasti konzultácií TEMPEST pokryl:

zber a analýzu požiadaviek,analýzu produkčných systémov, návrh riešenia dátového modelu dátového skladu, implementáciu aktualizačných procesov ETL, návrh riešenia a nastavenie prostredia BI nástrojov, návrh a implementáciu dashboardu a základného radu reportov,zaškolenie biznis používateľov.

Projekt

Platforma Oracle Business Intelligence 10 navrhnutá TEMPEST-om bola vybratá ako vhodná vzhľadom na špecifické potreby NAY aj príbuznosť s ERP systémom, ktorý je v NAY už implementovaný.

Projekt bol naplánovaný tak, aby pokryl reportingové a analytické požiadavky naprieč celou firmou. Na začiatku projektu bola vykonaná prioritizácia biznis oblastí, ktorá bola rozdelená na niekoľko implementačných balíkov (inkrementov), realizovaných postupne. V prvom inkremente boli pokryté všetky reportovacie potreby pre oblasti nákupu a predaja. Tie obsahujú najmä analýzy sledovaných obchodných výsledkov. Nasledovala implementácia balí-ka zameraného na kontrolu a bezpečnosť, ktorý okrem iného obsahuje nástroje na inventúry a riadenie špeciálnych zásob. Súčasťou tohto balíka boli aj reportovacie potreby pre finančné riadenie a ľudské zdroje. Do budúcnosti je naplánované rozširovanie MIS-u formu ďalších inkrementov.

Oracle Database Enterprise EditionOracle Business Intelligence Standard Edition OneWindows Server Enterpriseproprietárna aplikácia pre správu číselníkovproprietárna aplikácia pre automatizované riadenie aktualizačných procesov ETLservery HP DL360G7servery HP DL380G7storage EMC CX4-120

Technologické komponenty

Page 19: Big data

Projekt splnil všetky stanovené ciele a významnou mierou prispel k zlepšeniu efektivity podnikania spoločnosti NAY. Vďaka vytvoreniu centrálneho dátového skladu a reportovacích nástrojov dnes NAY analyzuje kľúčové informácie v reálnom čase a dokáže robiť nové a rýchlejšie manažérske rozhodnutia. Nový manažérsky informačný systém priniesol NAY zlepšenie služieb aj obchodných výsledkov.

„Nasadením manažérskeho informačného systému sa približujeme k zákazníkovi. Spoznávame jeho ďalšie zvyklosti, spôsob rozhodovania, preferencie a predstavujeme mu adresnejšiu ponuku tovarov i služieb. Rovna-ko nám MIS umožňuje zefektívňovať naše vlastné činnosti a podnikanie,“ komentuje projekt Roman Kocourek, CFO spoločnosti NAY a.s.

„MIS v reálnom čase spracováva a vyhodnocuje množstvo rozličných informácií z viacerých heterogénnych zdrojov. Pre dobrý výsledok projektu bolo kľúčové porozumieť biznisu a očakávaniam zákazníka. Z pohľadu komplexnosti je riešenie jedinečnou kombináciou technológií, odborných kompetencií a projektového riadenia,“ hodnotí projekt Peter Laco, riaditeľ divízie softvérového vývoja spoločnosti TEMPEST, a. s.

„Spolupráca so zákazníkom bola na veľmi vysokej úrovni. NAY má jasnú víziu a ciele. Som rád, že sme mohli zákaz-níkovi pomôcť v ich napĺňaní, a ďakujem obom tímom za spoluprácu. Teší ma, že projekt nekončí a že ho ďalej rozvíjame,“ zhodnotil spoluprácu Peter Pongrác, key account manager spoločnosti TEMPEST, a. s.

Záver

Page 20: Big data

www.2quadrant.com

Manažérske informácie pre okamžité použitie jednoducho a rýchlo

Potrebujú vaši manažéri spoľahlivé, konzistentné a presné informácie pohotovo pripravené na dosah ruky? Chcú sa zbaviť ťažkopádneho prehrabávania sa tlačovými zostavami či, v lepšom prípade, množstvom excelovských tabuliek? Prečo v dobe, keď si jediným kliknutím za pár sekúnd zobrazíte informáciu z druhého konca sveta, musíte pracne dolovať, kopírovať a sumarizovať základné údaje o chode vašej firmy? ... či ich nebodaj prepisovať z papierových dokumentov?

Práve preto, aby manažéri mohli mať všetky podnikové informácie na jednom mieste, prepojené navzájom a prístupné jednoduchým spôsobom cez internetový prehliadač, spoločnosť Datawatch stvorila Monarch Enterprise Server. Tento výkonný a zároveň ľahko použiteľný informačný systém umožní, aby každý manažér, každý referent, každý analytik na základe pridelených prístupových práv mal prístup k podnikovým dátam podľa momentálnej potreby.

Údaje z databáz, z podnikových dokumentov, z tlačových zostáv, z Excelovských súborov, z HTML stránok navzájom skombinované a prepojené môže mať na svojej obrazovke každý, kto ich práve potrebuje. Tieto údaje naviac dostane v „živej podobe“ – môže ich filtrovať podľa jednotlivých stĺpcov, zoraďovať, robiť medzisúčty, pridávať kalkulácie, vytvárať z nich grafy, vpisovať do nich

Page 21: Big data

www.2quadrant.com

komentáre a posielať ich ďalším spolupracovníkom. Môže ich sám navzájom prepájať a robiť sofistikované výpočty a analýzy.

Každý pracovník tak môže jednoducho a rýchlo získať presné podklady potrebné pre optimálne rozhodnutia.

Monarch Enterprise Server (MES) je vhodný pre používateľov s rozličnými potrebami a pracovnými návykmi pretože poskytuje množstvo spôsobov, ako s dátami pracovať.

Dátová integrácia za zlomok ceny dátového skladu

Monarch Data Pump je mimoriadne jednoduchý, efektívny a cenovo prístupný nástroj na automatizovaný zber dát z rôznych systémov, ich úpravu do správnej podoby a distribúciu v podobe informácií množstvu používateľov (ETL – extract, transform, load). Oproti ostatným ETL nástrojom má však jedinečnú schopnosť čítať dáta nielen z databáz alebo CSV tabuliek, ale dokáže, podobne ako Monarch Professional čítať aj rôzne neštruktúrované, či semi-štruktúrované PDF, HTML, textové a iné súbory.

Nemusíte už komplikovane analyzovať databázové štruktúry informačných systémov, aby ste z nich exportovali dáta pre dátový sklad. Stačí použiť štandardné tlačové zostavy s ktorými si Monarch Data Pump hravo poradí. Štandardné zostavy majú okrem jednoduchosti aj ďalšiu dôležitú výhodu. Obsahujú už prečistené, spoľahlivé dáta a používatelia im rozumejú. Vďaka tomu sa ušetrí množstvo času a práce na čistenie surových dát, čo je jednou z príčin vysokej ceny štandardných dátových skladov. Potrebné reporty z takto prepojených údajov potom softvér automaticky distribuuje jednotlivým používateľom rôznymi distribučnými kanálmy, napríklad e-mailom alebo cez RSS či prostredníctvom SharePointu na základe definovaných používateľských práv. Samozrejme, spracované dáta dokáže automatizovane exportovať do databáz alebo textových či iných typov súborov.

Toto všetko zvládne bez akéhokoľvek programovania a špecializovaných databázových znalostí. V spojení s reportingovým systémom Monarch Enterprise Server dokáže komfortným spôsobom sprístupniť údaje cez web rozhranie všetkým autorizovaným používateľom v podniku podľa ich potrieb a vytvoriť plnohodnotný celopodnikový systém pre manažérske informácie (business intelligence) s vysokou mierou nákladovej efektívnosti.

Monarch Professional

Monarch Professional dokáže čítať rôzne údaje a spájať ich dokopy. Vie čítať nielen databázy, ale aj rôzne druhy zostáv, či už vo forme PDF, tlačových súborov, formátovaných textových súborov, web stránok, tabuliek Excel a podobne. Dôležité je, že Monarch nepotrebuje mať údaje uložené v stĺpcoch ako ostatné programy, ale vie ich čítať podobne ako človek. Vie sa zorientovať aj v takých dokumentoch ako napr. súvaha či výkaz ziskov a strát, vie vytiahnuť dáta zo zostavy skladových

Page 22: Big data

www.2quadrant.com

kariet či prehľadu faktúr. Tieto dokáže následne skombinovať s informáciami z ďalších dokumentov a potom zobraziť v požadovanej podobe.

Nastavenie tohto procesu je zároveň veľmi jednoduché a netreba pri ňom nič programovať, takže ho zvládne každý, čo i len trochu skúsený používateľ PC. Takto získané údaje je potom možné nie len vytlačiť, ale dynamicky si ich prezerať, je možné si ich zobraziť v grafoch alebo v tabuľkách, zoraďovať ich podľa veľkosti, sumarizovať podľa rôznych skupín, napr. tržby podľa zákazníkov alebo produktov a pod. Tiež ich je možné jednoducho exportovať do Excelu či Accessu.

Exkluzívnym distribútorom Datawatch Monarch pre Slovensko, Čechy a Maďarsko je spoločnosť 2. quadrant, s.r.o. Prostredníctvom vlastného tímu skúsených konzultantov taktiež zabezpečuje analýzu, vypracovanie projektu, návrh a implementáciu riešení podnikových manažérskych informačných systémov. Poskytuje školenia používateľov a administrátorov ako aj transfer know-how potrebného pre optimálne využitie a ďalší rozvoj dodaného riešenia.

Page 23: Big data

PO

ZN

ÁM

KY

PO

ZN

ÁM

KY

Page 24: Big data

PO

ZN

ÁM

KY

PO

ZN

ÁM

KY