Élet az SQL után: Az adatfeldolgozás legújabb trendjei
-
Upload
starschema -
Category
Documents
-
view
1.378 -
download
5
description
Transcript of Élet az SQL után: Az adatfeldolgozás legújabb trendjei
![Page 2: Élet az SQL után: Az adatfeldolgozás legújabb trendjei](https://reader033.fdocument.pub/reader033/viewer/2022042623/54bcecf94a7959b70a8b4581/html5/thumbnails/2.jpg)
www.starschema.net
IBM KutatóközpontSan Jose, California, 1970
![Page 3: Élet az SQL után: Az adatfeldolgozás legújabb trendjei](https://reader033.fdocument.pub/reader033/viewer/2022042623/54bcecf94a7959b70a8b4581/html5/thumbnails/3.jpg)
www.starschema.net
![Page 4: Élet az SQL után: Az adatfeldolgozás legújabb trendjei](https://reader033.fdocument.pub/reader033/viewer/2022042623/54bcecf94a7959b70a8b4581/html5/thumbnails/4.jpg)
www.starschema.net
![Page 5: Élet az SQL után: Az adatfeldolgozás legújabb trendjei](https://reader033.fdocument.pub/reader033/viewer/2022042623/54bcecf94a7959b70a8b4581/html5/thumbnails/5.jpg)
www.starschema.net
![Page 6: Élet az SQL után: Az adatfeldolgozás legújabb trendjei](https://reader033.fdocument.pub/reader033/viewer/2022042623/54bcecf94a7959b70a8b4581/html5/thumbnails/6.jpg)
Negyven évvel
később…
www.starschema.net
![Page 7: Élet az SQL után: Az adatfeldolgozás legújabb trendjei](https://reader033.fdocument.pub/reader033/viewer/2022042623/54bcecf94a7959b70a8b4581/html5/thumbnails/7.jpg)
www.starschema.net
Gartner Report
Elsősorban relációs
adatbázisok
Tranzakciókezelés
(ACID)
Erős adatbázis
szerverek (SMP)
Megjelenik a Masszív
Párhuzamos
feldolgozás
Adattárházakban használt adatbázis-kezelők
mágikus kvadránsai, Gartner 2010
![Page 8: Élet az SQL után: Az adatfeldolgozás legújabb trendjei](https://reader033.fdocument.pub/reader033/viewer/2022042623/54bcecf94a7959b70a8b4581/html5/thumbnails/8.jpg)
Legforgalmasabb weboldalak
Weboldal Terhelés
Google Adat előfeldolgozás: 20 Petabájt / nap
Facebook Inbox: 100 TB, 150 gépes klaszter
Adattárház: 15 Petabyte adat, 1400 gép, 11200 CPU
Youtube Napi 30 milliárd lekérés, 350ezer oldal/másodperc
Microsoft Live, Bing Havonta 50 millió egyedi látogató
Yahoo! 92 Petabyte adat, a legnagyobb lekérdezés 10ezer
gépen fut párhuzamosan 73 óráig
Twitter Adatbázis növekedés 7TB naponta, 2+ PB évente
Wikipedia
BBC
Myspace Napi 11 milliárd oldalletöltés
Amazon
www.starschema.net
![Page 9: Élet az SQL után: Az adatfeldolgozás legújabb trendjei](https://reader033.fdocument.pub/reader033/viewer/2022042623/54bcecf94a7959b70a8b4581/html5/thumbnails/9.jpg)
Legforgalmasabb weboldalak
www.starschema.net
Weboldal Főbb adatbázismotor Adatbázis típusa
Google GFS, Google BigTable Columnar NoSQL
Facebook Cassandra, Hadoop/HIVE Columnar NoSQL
Youtube MySQL RDBMS
Microsoft Live,
Bing
Azure Tuple store, RDBMS
Yahoo! Hadoop, PNUTS Columnar NoSQL
Twitter FlockDB, Cassandra,
Hadoop/Hbase
Graph, Columnar NoSQL
Wikipedia Flatfile, MySQL Flat file, RDBMS
BBC CouchDB Document
Myspace Aster Data nCluster MPP RDBMS + MapReduce
Amazon Amazon Dynamo Columnar NoSQL
![Page 10: Élet az SQL után: Az adatfeldolgozás legújabb trendjei](https://reader033.fdocument.pub/reader033/viewer/2022042623/54bcecf94a7959b70a8b4581/html5/thumbnails/10.jpg)
www.starschema.net
![Page 11: Élet az SQL után: Az adatfeldolgozás legújabb trendjei](https://reader033.fdocument.pub/reader033/viewer/2022042623/54bcecf94a7959b70a8b4581/html5/thumbnails/11.jpg)
= Not only SQL
Mi a NoSQL?
www.starschema.net
“Choosing the right tool for the job”
Werner Vogels, Amazon CTO
![Page 12: Élet az SQL után: Az adatfeldolgozás legújabb trendjei](https://reader033.fdocument.pub/reader033/viewer/2022042623/54bcecf94a7959b70a8b4581/html5/thumbnails/12.jpg)
Új trendek
www.starschema.net
![Page 13: Élet az SQL után: Az adatfeldolgozás legújabb trendjei](https://reader033.fdocument.pub/reader033/viewer/2022042623/54bcecf94a7959b70a8b4581/html5/thumbnails/13.jpg)
Miért NoSQL?
Web és adattárház alkalmazásoknak más
igényeik vannak
Alacsony és kiszámítható válaszidők
Skálázhatóság és dinamikus bővíthetőség
Hibatűrés
Rugalmasság
Illetve nem feltétlenül szükséges
Tranzakciókezelés, erős konzisztencia
Horizontálisan kiválóan skálázhatóak
www.starschema.net
![Page 14: Élet az SQL után: Az adatfeldolgozás legújabb trendjei](https://reader033.fdocument.pub/reader033/viewer/2022042623/54bcecf94a7959b70a8b4581/html5/thumbnails/14.jpg)
RDBMS vs. NoSQL
RDBMS-ek:
Konzisztens
Hibatűrő
Új szereplők:
www.starschema.net
Hibatűrő, széttagolható
Nem teljesen konzisztensek
Más megkötések a teljesítmény és
skálázhatóság érdekében
![Page 15: Élet az SQL után: Az adatfeldolgozás legújabb trendjei](https://reader033.fdocument.pub/reader033/viewer/2022042623/54bcecf94a7959b70a8b4581/html5/thumbnails/15.jpg)
Múlt és jelen
www.starschema.net
![Page 16: Élet az SQL után: Az adatfeldolgozás legújabb trendjei](https://reader033.fdocument.pub/reader033/viewer/2022042623/54bcecf94a7959b70a8b4581/html5/thumbnails/16.jpg)
A jövő pedig
www.starschema.net
![Page 17: Élet az SQL után: Az adatfeldolgozás legújabb trendjei](https://reader033.fdocument.pub/reader033/viewer/2022042623/54bcecf94a7959b70a8b4581/html5/thumbnails/17.jpg)
Tárolási trendek
„Shared Nothing”
Minden szerver saját diszkjeit használja
Horizontálisan skálázható architektúra
Tároló és az adatbázis kezelő összeolvad
A tároló tudja, mit tárolnak rajta
Tartalom alapú replikáció és párhuzamos
olvasás
Kiváltja a RAID funkcionalitását
Olcsó PC a drága SAN helyett
www.starschema.net
![Page 18: Élet az SQL után: Az adatfeldolgozás legújabb trendjei](https://reader033.fdocument.pub/reader033/viewer/2022042623/54bcecf94a7959b70a8b4581/html5/thumbnails/18.jpg)
SAS és a Masszív Parallel jövő
A SAS új technológiájának köszönhetően 18
óráról két és fél percre csökkentette egy
marketing-adatbázis feldolgozási idejét
196 szerver, 1664 CPU mag
„Shared-nothing” alapú memóriahasználat
Több terabájtnyi memória
A legtöbb szállító MPP architektúrát fejleszt
![Page 19: Élet az SQL után: Az adatfeldolgozás legújabb trendjei](https://reader033.fdocument.pub/reader033/viewer/2022042623/54bcecf94a7959b70a8b4581/html5/thumbnails/19.jpg)
Jelenlegi trendek
www.starschema.net
![Page 20: Élet az SQL után: Az adatfeldolgozás legújabb trendjei](https://reader033.fdocument.pub/reader033/viewer/2022042623/54bcecf94a7959b70a8b4581/html5/thumbnails/20.jpg)
Map-Reduce
www.starschema.net
![Page 21: Élet az SQL után: Az adatfeldolgozás legújabb trendjei](https://reader033.fdocument.pub/reader033/viewer/2022042623/54bcecf94a7959b70a8b4581/html5/thumbnails/21.jpg)
MapReduce
A Google által kifejlesztett elosztott
adatfeldolgozási eljárás, amely két
részből áll:
MAP: A feladatot elemi szintre bontja,
szétszórja a hálózatban, majd elemi
szinten kiszámolja
REDUCE: A részeredményeket begyűjti a
hálózatról, majd összesíti
![Page 22: Élet az SQL után: Az adatfeldolgozás legújabb trendjei](https://reader033.fdocument.pub/reader033/viewer/2022042623/54bcecf94a7959b70a8b4581/html5/thumbnails/22.jpg)
Példa MapReduce 1.
Feladat
Új tarifacsomag tesztelése kiválasztott
telefonszámok korábbi hívásadatain
„Map”
Kiválasztja hívásrekordokat telefonszám és
időintervallum alapján, majd telefonszám
szinten elkészíti a számlaösszegeket
„Reduce”
Összegzi a telefonszám alapú eredményeket
www.starschema.net
![Page 23: Élet az SQL után: Az adatfeldolgozás legújabb trendjei](https://reader033.fdocument.pub/reader033/viewer/2022042623/54bcecf94a7959b70a8b4581/html5/thumbnails/23.jpg)
Példa MapReduce 2.
www.starschema.net
Telefonszám
7-9-ig
Telefonszám
4-6-ig
Telefonszám
0-3-ig
Teljes hívásrekord
adatbázis
telefonszám alapján
szétosztva a tárolók
között
![Page 24: Élet az SQL után: Az adatfeldolgozás legújabb trendjei](https://reader033.fdocument.pub/reader033/viewer/2022042623/54bcecf94a7959b70a8b4581/html5/thumbnails/24.jpg)
REDUCEMAP
részfeladatok
Példa MapReduce 2.
www.starschema.net
Telefonszám
7-9-ig
Kiválasztott
telefonszámokTelefonszám
4-6-ig
Telefonszám
0-3-ig
Eredmények
Új
számlázási
adatok
![Page 25: Élet az SQL után: Az adatfeldolgozás legújabb trendjei](https://reader033.fdocument.pub/reader033/viewer/2022042623/54bcecf94a7959b70a8b4581/html5/thumbnails/25.jpg)
MapReduce
A „mit?” helyett a „hogyan?”
Független, elosztott végrehajtás
A feladatokat az adatbázis-kezelő felszeleteli,
és a szeleteket ott futtatja le, ahol a releváns
adat található
Tervezhető futási idő és erőforrások
Felhőképes koncepció
www.starschema.net
![Page 26: Élet az SQL után: Az adatfeldolgozás legújabb trendjei](https://reader033.fdocument.pub/reader033/viewer/2022042623/54bcecf94a7959b70a8b4581/html5/thumbnails/26.jpg)
MapReduce támogatás
www.starschema.net
Bejelentés dátuma Adatbázis szállító
2008. Augusztus Aster Data Systems
2008. Augusztus Greenplum
2009. Július Microsoft (Azure)
2009. Augusztus Vertica
2009. Szeptember Teradata
2009. Október Oracle
2009. December Sybase
![Page 27: Élet az SQL után: Az adatfeldolgozás legújabb trendjei](https://reader033.fdocument.pub/reader033/viewer/2022042623/54bcecf94a7959b70a8b4581/html5/thumbnails/27.jpg)
www.starschema.net
![Page 28: Élet az SQL után: Az adatfeldolgozás legújabb trendjei](https://reader033.fdocument.pub/reader033/viewer/2022042623/54bcecf94a7959b70a8b4581/html5/thumbnails/28.jpg)
Myspace Adattárház
Ügyfél: Myspace
120 millió aktív felhasználó
Többszáz terabájtos DW
2-3 TB/nap új adat
Riport és elemzési igények
Megoldás: Aster Data
Aster Data nCluster MPP adatbázis-szerver
MapReduce alapú ETL
BI és Ad-hoc elemzések közvetlenül az adattárházból
www.starschema.net
![Page 29: Élet az SQL után: Az adatfeldolgozás legújabb trendjei](https://reader033.fdocument.pub/reader033/viewer/2022042623/54bcecf94a7959b70a8b4581/html5/thumbnails/29.jpg)
Hadoop
![Page 30: Élet az SQL után: Az adatfeldolgozás legújabb trendjei](https://reader033.fdocument.pub/reader033/viewer/2022042623/54bcecf94a7959b70a8b4581/html5/thumbnails/30.jpg)
Mi a Hadoop?
“Bővíthető és hibatűrő
megoldás nagy mennyiségű, elosztott
számítási és adatfeldolgozási feladat
elvégzéséhez hétköznapi
PC-kből álló hálózaton”
Nyílt forráskód + Olcsó hardver = IT
költségcsökkentés
www.starschema.net
![Page 31: Élet az SQL után: Az adatfeldolgozás legújabb trendjei](https://reader033.fdocument.pub/reader033/viewer/2022042623/54bcecf94a7959b70a8b4581/html5/thumbnails/31.jpg)
Hol használják?
AOL
Fox Interactive Media
IBM
ImageShack
Joost
Last.fm
Meebo
Microsoft
The New York Times
Rackspace
www.starschema.net
![Page 32: Élet az SQL után: Az adatfeldolgozás legújabb trendjei](https://reader033.fdocument.pub/reader033/viewer/2022042623/54bcecf94a7959b70a8b4581/html5/thumbnails/32.jpg)
Hadoop Ecosystem
www.starschema.net
![Page 33: Élet az SQL után: Az adatfeldolgozás legújabb trendjei](https://reader033.fdocument.pub/reader033/viewer/2022042623/54bcecf94a7959b70a8b4581/html5/thumbnails/33.jpg)
Hadoop HIVE
Hadoop DWH megoldása
MapReduce feldolgozás
HDFS tárolás
Hive Query Language
Alap SQL utasítások
Nagyteljesítményű
adattárház, BI illesztéssel
www.starschema.net
![Page 34: Élet az SQL után: Az adatfeldolgozás legújabb trendjei](https://reader033.fdocument.pub/reader033/viewer/2022042623/54bcecf94a7959b70a8b4581/html5/thumbnails/34.jpg)
Yahoo-Hadoop Story
Yahoo Search! optimalizálás
1 trilliárd link feldolgozása (1 000 000 000 000
000 000 000, billiószor milliárd)
15 Petabájt kapacitás
10.000 magos klaszter
Eredmények:
Hadoop használatával 66%-os teljesítmény
növekedés az előző célszoftverhez képest
Egy hétről három napra csökkent a futásidő
![Page 35: Élet az SQL után: Az adatfeldolgozás legújabb trendjei](https://reader033.fdocument.pub/reader033/viewer/2022042623/54bcecf94a7959b70a8b4581/html5/thumbnails/35.jpg)
Összefoglalás
www.starschema.net
![Page 36: Élet az SQL után: Az adatfeldolgozás legújabb trendjei](https://reader033.fdocument.pub/reader033/viewer/2022042623/54bcecf94a7959b70a8b4581/html5/thumbnails/36.jpg)
Hazai helyzet
Jelenleg nem tudunk sem éles, sem pilot
adattárházas felhasználásról
Több cég foglalkozik a technológia
tesztelésével, elemzésével
Komoly befektetések nélkül könnyen
kipróbálható, tesztelhető
www.starschema.net
![Page 37: Élet az SQL után: Az adatfeldolgozás legújabb trendjei](https://reader033.fdocument.pub/reader033/viewer/2022042623/54bcecf94a7959b70a8b4581/html5/thumbnails/37.jpg)
Összefoglalás
NoSQL létezik és erősödik a használata
Különösen a skálázhatósági igények felső
végén
Ingyenes szoftverek és olcsó hardverigény
Konvergencia: nagy terjesztők is
felkarolják
Fejlődés viszont nem áll meg
A jövő kérdéses, de izgalmas!
![Page 39: Élet az SQL után: Az adatfeldolgozás legújabb trendjei](https://reader033.fdocument.pub/reader033/viewer/2022042623/54bcecf94a7959b70a8b4581/html5/thumbnails/39.jpg)
Felhasznált képek / Used pictures
Dia / Slide no. Forrás / Source
3-5, 12 Tim Anglade – NoSQL for Fun and Profit (presentation)
7 Gartner - Magic Quadrant for Data Warehouse
Database Management Systems (white paper)
15,16 Jason Davies - Non-relational databases and world
domination (presentation)
19,32,33 Philippe Julio – Hadoop Architecture (presentation)
28 Aster Data - MySpace.com Scales
Analytics for All of Its Friends (white paper)
www.starschema.net