Google Cloud a gyakorlatban BigData/Hadoop fejlesztésekhez - Google I/O Extended Budapest 2014

Google I/O Extended Budapest 2014

Ujj Tamás István

2014.06.25.

Google Cloud a gyakorlatbanBigData/Hadoop fejlesztésekhez

A ereje

• Többmiliárd keresés másodpercenként

• 6 milliárd órányi YouTube videó havonta

• 425 millió Gmail felhasználó

A infrastruktúrája

• Fejlett globális hálózat> Sok ezer km optikai kábel

• Redundancia> A világ minden pontján jelen van

• A számítástudomány élvonala> Trendeket teremt a szoftveriparban

Középpontban a termék

• Nem kell rendszeradminisztrációval foglalkozni

• A Google vállalja a menedzsmentet> Adatbázis adminisztráció

> Szerver konfiguráció

> Terhelés kiegyensúlyozás

• Fejlesztőeszközök ismerős környezetekhez

• Teljesítmény monitorozás és finomhangolás egy egyszerű, összevont webes konzolon keresztül, vagy parancssorról

Skálázhatóság

• Menedzselt szolgáltatások> Automatikusan skálázódnak a felhasználók

számának növekedésével!

• Nyers szolgáltatások> Gyorsan és egyszerűen lehet új erőforrásokat

beépíteni

> Költséghatékonyság: csak azért kell fizetni, amit valóban használsz

> Akár több száz szerver néhány órára

App EnginePlatform-as-a-Service

Szolgáltatás modellek

App Engine

• Népszerű nyelvek és keretrendszerek> Python, Java, PHP, Go

> Django, Flask, Spring, stb.

• A fejlesztő feladata a kód megírása (utópia)

• Különböző adattárolási lehetőségek> Cloud SQL: hagyományos MySQL

> Datastore: sémátlan NoSQL adatbázis

> Cloud Storage: felhő alapú objektumtár

App Engine

• Beépített szolgáltatások> Pl. Memcache

• Megszokott fejlesztőeszközök> Eclipse, IntelliJ, Maven, Git, PyCharm, stb.

• Tesztelés a fejlesztő gépén

• Akár napi 7 milliárd kérés kiszolgálása

Compute EngineInfrastructure-as-a-Service

Szolgáltatás modellek

Compute Engine

• Nagyteljesítményű virtuális gépek> A feladatnak megfelelő konfiguráció választható

> Linux VM-ek: jól konfiguráltak, biztonságosak

• Kihasználják a Google hálózati kapacitásait> Komoly cluster-ek építhetők

• Adatközpontok USA-ban, Európában, Ázsiában

• A gépek indítása nagyon egyszerű> RESTful API, parancssor, webes konzol

• Az App Engine ingyenes! (egy kvóta eléréséig)

• Valóban csak a használatért kell fizetni

• Compute Engine> 1-16 mag, 2-100GB RAM, $0.07-$1.3/óra

> Memória és CPU aránya variálható

• Háttértár(100GB/hó): HDD $4, SSD $33

Apache HadoopGyakorlatias áttekintés

Mennyi adat!

A Hadoop gyökerei

• Google publikációk> 2003 - The Google File System

> 2004 - MapReduce: Simplified Data Processing onLarge Clusters

• A Yahoo! felkarolta, 2005-ben készült el

• Ma Apache License alatt áll

• 2012-től jelentős változások, új generáció

Mi az a Hadoop?

• Szűk értelemben 2 technológia együttműködése> HDFS - Hadoop Distributed Filesystem

> YARN - Yet Another Resource Negotiator(MapReduce v2 és még sok más)

• Nagy (tényleg!) méretű adatfeldolgozó clusterek

• Viszonylag olcsó, hétköznapi szervereken

• Tágabb értelemben egy egész ökoszisztéma

Célok - HDFS

• Több millió nagy file tárolása> Akár egyenként több tíz GB

> Összességében akár PB nagyságrend

• Horizontális skálázódás> RAID helyett JBOD modell

> Adat replikáció az alkalmazásrétegben

Célok - HDFS

• Nagy átbocsátóképességre optimalizált> Előnyben a batch jellegű stream I/O a kis

késleltetésű, interaktív hozzáférésekkel szemben

• A gépek tönkremennek, főleg a lemezek> Nem különleges eset, napi rutin

• Együttműködés a YARN-nal> Helyben való feldolgozás

Célok - YARN

• Egyszerű fejlesztés elosztott környezetben> Nincs socket programozás

> Nem kell foglalkozni szálakkal, szinkronizációval

> Semmi különös technikára nincs szükség óriási mennyiségű adat kezeléséhez

• Skálázhatóság> Állapotmentes taszkok, nem kommunikálnak

közvetlenül (share nothing system), bármely gépen futhatnak

> Teljesen átlátszóan bővíthető a cluster

Célok - YARN

• Automatikus párhuzamosítás, terheléselosztás> A fejlesztőnek elég a logikát megírnia

> A keretrendszer ott futtatja, ahol az adat van

• A hibák mindennaposak> Hibás node-ok detektálása

> Taszkok automatikus újrafuttatása

> Egy taszk vagy teljesen lefut, vagy eldobjuk és újrafuttatjuk

• Social media óriás> Több mint 100 petabyte adat

> Több száz milliárd fotó

> Több száz millió új fotó naponta

• Facebook Messaging> Hadoop áll mögötte

• Reportok készítése> Fejlesztőknek, elemzőknek, termékmenedzsereknek,

reklámpartnereknek

Egy tipikus Hadoop cluster

• 100 node (5 rack)

• Tipikus node:> 3 GHz-es dual hex core CPU

> 64-378 GB RAM

> 24-36 TB lemezterület (6-10 TB effektív tárterület)

• Az egész cluster:> 6.4-37.8 TB RAM (RAM!!! Wow…)

> Akár 1 PB effektív tárterület

> A Facebook clustere nem tipikus…

De mit lehet ezzel kezdeni?

• TB-os nagyságrendű adatok feldolgozása memóriában egyszerűen és hibatűrően

> Apache Spark, a MapReduce trónfosztója

> Java, Scala és Python

> Stream-feldolgozás, adatbányászat, gépi tanulás, ETL, felderítő adatelemzés, gráf számítások, stb.

De mit lehet ezzel kezdeni?

• PB-os nagyságrendű adatok interaktív kezelése> Cloudera Impala, az első valódi SQL-on-Hadoop

> Valóban gyors lekérdezési sebesség

> Analitikus lekérdezésekben gyilkos

> Adattárház Hadoop alapon

Hol jön képbe a Google Cloud?

• Durva becslés: minden TB kapacitás kb. $1000

• Egy valamirevaló Hadoop cluster komoly befektetés már a fejlesztés elején

• Ne legyenek illúziók > Hosszútávon a Cloud drágább, de a költség eloszlik

• A trükk> Fejlesztés helyi, pszeudo-elosztott környezetben

> Teszteléshez cluster automatizált felépítése, használata, majd lebontása: költségminimalizálás

Megoldandó problémák

• A Hadoop-ot alapvetően nem a Compute Enginemögött álló infrastruktúrára optimalizálták

> Pl. RAID és egyéb alacsonyszintű háttértár menedzsment szolgáltatások rontják a teljesítményt, csökkentik a replikáció előnyeit

• A lebontás/felépítés problémás> Fix IP címért fizetni kell

> A háttértárakat meg kell őrizni kikapcsolt állapotban is, ez $4/100GB/hó költséget jelent

Összefoglalás

• Apache Hadoop és Google Cloud> A fejlesztés korai szakaszában ideális

> Éles rendszereknél szuboptimális, vagy túl drága

> Fejlesztési ciklus– Fejlesztés kis teljesítményű, lokális gépeken

– Cluster felépítése (10-15 perc, automatizált)

– Adatok betöltése (opcionális, időigényes lehet)

– Teszt futtatása valós környezetben

– Adatok törlése (opcionális)

– Cluster leállítása és lebontása (5-10 perc, automatizált)

Hadoop adminisztrációDEMO

Köszönöm a figyelmet!

Google Cloud a gyakorlatban BigData/Hadoop fejlesztésekhez - Google I/O Extended Budapest 2014

Documents

Transcript of Google Cloud a gyakorlatban BigData/Hadoop fejlesztésekhez - Google I/O Extended Budapest 2014

Tisztaszoftver a gyakorlatban

KRÍZISKOMMUNIKÁCIÓ A GYAKORLATBAN

Villamolvasas a Gyakorlatban

Bigdata bizoppor

Bigdata w serwisach e-commerce z wykorzystaniem narzędzi Google

BigData MapReduce

BigData - NoSQL

Bigdata opensource

Koinónia a gyakorlatban

Marketingtervezes a gyakorlatban

bigdata document

Bio bigdata

JavaScript a gyakorlatban

Tanulastechnika a gyakorlatban

Naplózás a gyakorlatban

Keresőoptimalizálás a gyakorlatban

Konnektivizmus a gyakorlatban

Tématérképek a gyakorlatban

Szövegbányászat a gyakorlatban

Bigdata & Hadoop