Big data ja hadoop esitys 07.05.2014, ivorio oy, immo salo

Post on 04-Jun-2015

419 views 11 download

description

Big data esitys ICTexpo 2014 -messuilla ("Big data ja Hadoop")

Transcript of Big data ja hadoop esitys 07.05.2014, ivorio oy, immo salo

Big DataMEGATRENDI 2011 ⇒

"The next frontier for innovation, competition and productivity"

“Cloud Computing” ja “Big Data”

big data

cloud computing

Big data ohitti pilven

Google-haut vuosina 2009-2014

Mitä tarkoittaa big data?1. Havaintoa siitä, että dataa on koko ajan määrällisesti

enemmän ja sen muoto ja laatu vaihtelevat suuresti

2. Haastetta hallita ja hyödyntää tuota tietomäärää perinteisten järjestelmien ja ratkaisujen avulla

3. Ratkaisuja (tuotteet, palvelut, ohjelmistot, teknologiat), joilla tuohon haasteeseen tartutaan

Big datan 3 V:täVolume Tietoa (dataa) on koko ajan enemmän. Se pitäisi pystyä tallentamaan ja hyödyntämään.

Velocity Tietoa (dataa) tulee koko ajan nopeammin. Päätöksiä pitäisi pystyä tekemään nopeasti.

Variety Tietoa (dataa) tulee eri muodoissa ja erilaisista lähteistä, eikä se istu hyvin nykyisiin toimintamalleihin.

Veracity, Value, Virality, Validity, Viscosity, Vulnerability… myös muita V-kirjaimia on jälkeenpäin lisätty kuvaamaan ilmiötä.

Datan määrä maailmassa

v. 2011

2 ZB

v. 2020

v. 2030

44 ZB 1 333 ZB

Mistä sitä dataa oikein tulee?

Saatavilla olevat datavarannot

(avoin data, datamarkkinat)

Potentiaalinen data(ei vielä kerätä)

Digitaalinen todellisuus(internet, sosiaalinen media)

Fyysinen todellisuus(sensorit, esineiden internet)

Organisaation hallussa tai saatavilla oleva data

(ERP, CRM, DW, RDBMS)

Suppein näkökulma dataan

Tästä näkökulmasta big data koskettaa ilmiönä n. 0,2 % maailman organisaatioista

“Eihän meillä edes ole big dataa!”

Yrityksen oma strukturoitu dataYrityksen vielä hyödyntämätön data

Yrityksen vielä keräämätön data

Suppeahko näkökulma dataan

Tästä näkökulmasta big data koskettaa ilmiönä n. 3 % maailman organisaatioista

“Entä jos hyödyntäisimme kaiken sen datan jota jo keräämme?”

Yrityksen oma strukturoitu dataYrityksen vielä hyödyntämätön data

Yrityksen vielä keräämätön data

Verkostoitunut näkökulma dataan

Tästä näkökulmasta big data koskettaa ilmiönä n. 22 % maailman organisaatioista

“Voisimmeko kerätä enemmän dataa toiminnastamme?”

Yrityksen oma strukturoitu dataYrityksen vielä hyödyntämätön data

Yrityksen vielä keräämätön data

Verkostoitunut näkökulma dataan

Tästä näkökulmasta big data koskettaa ilmiönä n. 72 % maailman organisaatioista

“Verkottunut yritys ei voi piilotella dataansa!”

Organisaatio

Kumppani Kumppani

Kumppani Kumppani

Kumppani Kumppani

Kokonaisvaltainen näkökulma dataan“Pelkkä omaan dataan tuijottelu ei tuota ikuisesti kilpailuetua!”

Tästä näkökulmasta big data koskettaa ilmiönä n. 98 % maailman organisaatioista

Avoin data: dokumentoidut rajapinnat

Data marketplace: pilvessä olevat datan markkinapaikat

Datakauppiaat: yksittäiset suoraan omaa tai verkostonsa dataa myyvät

Puoliavoin data: ei rajapintoja, hajallaan

Big datan hyödyntämiskohteita● Markkinointi, asiakassegmentointi, kohdentaminen

● Hiljaisten signaalien tunnistaminen, koneoppiminen

● Virheiden ja väärinkäytön tunnistaminen

● Tutkimus- ja kehitystyö, tuotekehitys

● Ilmiöiden mallintaminen ja ennustaminen

● Resurssien kohdentaminen tehokkaammin

● ...

Mahdollisuuksien tunnistaminen vaatii toimialan ja organisaation ymmärtämistä!

Analytiikan askeleet kohti kilpailuetua

kohti reaaliaikaisuutta

Raportointi Ennustaminen Automatisointi

Big datan teknologiat● Hadoop (tunnetuin yksittäinen uusi teknologia)

● NoSQL (uudenlaiset tietokannat)

● Appliance (valmisratkaisut)

● In-memory -analytics

● Pilvipalvelut○ Amazon Elastic MapReduce (Hadoop)○ Google BigQuery (Dremel)○ Microsoft HDInsight (Hadoop)

HadoopBig datan teollisuusstandardi

Mitä Hadoop tekee?Hadoop valjastaa palvelinklusterin vastaamaan datan tallennuksesta ja prosessoinnista.

Miksi haluaisin Hadoop-klusterin?- edullista tallennustilaa (mikä vaan x86-palvelin käy)- tehokasta prosessointia (rinnakkaisuus)- toimintavarmuutta (moninkertainen tallennus)- skaalautuvuutta (klusteria helppo laajentaa)- ekosysteemit, lisäosia ja laajennoksia!

Klusteri?Klusteri = joukko toisiinsa kytkettyjä palvelimia (nodeja, noodeja), jotka suorittavat annettua tehtävää hajautettuna, mutta näkyvät käyttäjälle yhtenä järjestelmänä

Commodity Hardware Node?Yleisesti saatavilla olevista komponenteista koottuja palvelimia. Ei kallista palvelinrautaa.

Ei kuitenkaan perus-PC, vaan kotelollinen tehokkaita komponentteja.

CPU: 2 x 4/6/8 -coreMem: 48Gb+Disk: 12 x 2-3TbNet: 1Gb+ Ethernet

~ 5 000 €

Googlen julkaisu Vuosi Avoimen lähdekoodin projekti Vuosi Mihin tarkoitukseen?

GFS ja MapReduce

2003,2004 Hadoop 2006 Datan tallentaminen ja analysointi

(klusteri)

Sawzall 2005 Pig ja Hive 2008 Massa-analytiikka

BigTable 2006 HBase 2008 Avain-arvopari -tietokanta (NoSQL)

Pregel 2010 Giraph 2011 Graph-tietokanta

Dremel / F1 2010 Cloudera Impala 2012 Nopeat kyselyt (SQL)

Spanner 2012 ? ???? Transaktiot

Innoittajana Google

Hadoopin asema big data -ilmiössä

Hadoop

Tiedon määrä

Tied

on r

aken

teis

uus

2 Tb1 Gb 20 Tb 200 Tb

Nearly all sectors in the US economy had at least an average of 200 terabytes of stored data per company with more than 1,000 employees.McKinsey 2011

By 2015, 65 percent of packaged analytic applications with advanced analytics will come embedded with Hadoop.Gartner 2013

HadoopHDFS

Hadoop Distributed File System: HDFSHadoopin hajatettu tiedostojärjestelmä HDFS

● Tiedostot ovat tallennettuina hajautetusti klusteriin● Suuri data pilkotaan “blokeiksi”, määritellyn logiikan

mukaan ● Nimipalvelin (name node) tallentaa (meta)tiedot siitä,

missä tiedostot fyysisesti sijaitsevat● Oletusarvo on, että tiedostot tallennetaan kolmeen

kertaan

Innoittajana GFS eli Google File System

Hadoop Distributed File System: HDFS

Node 1

data piece

Big Data(= 1 or more files)

data piecedata piece

Node 2

data piecedata piecedata piece

Node 3

data piecedata piecedata piece

Node 4

data piecedata piecedata piece

HDFS

Lähde: mukaillen www.glennklockwood.com

Hadoop Distributed File System: HDFS

Name node

BlocksClient

Rack 1

Data node

Data node

Data node

Rack 2

Data node

Data node

Data nodewrite

write

Client

readmetadata ops

block ops

Metadata (Name, replicas…): /home/foo/data, 3...

Hadoop Distributed File System: HDFS

Parhaimmillaan ennakoitavissa oloissa:● Tiedostot suurikokoisia, oletuksena 64Mb● Tiedostoja luetaan peräkkäin, alusta loppuun● Tiedostot kirjoitetaan kerran, luetaan useasti

HadoopArkkitehtuuri

Hadoop: Prosessoinnin logiikkaMapReduce: Viedään prosessointi datan luo!

Lähde: www.glennklockwood.com

“Map/reduce is ideally suited for trivially parallel calculations on large quantities of data.”

Hadoop: MapReduceMapReducen idea/vahvuus on rinnakkaistaa ja hajauttaa analytiikka.

Node 1

Node 1

“raakadata”

Map

“välitulokset”

Reduce

HDFS

Node 2

Node2

“raakadata”

Map

“välitulokset”

Reduce

HDFS

Data

Hadoopissa ennen ja nytMapReduce edelleen isossa roolissa.

Lähde: Hortonworks

Hadoop

Laajennokset tekevät Hadoopista kiinnostavan

HbaseHivePigSqoopZookeeper

ImpalaHueAmbariSparkTez

jne….

HadoopMistä sellaisen saa?

Neljä vaihtoehtoa1. http://hadoop.apache.org2. Valmis jakelu3. Hadoop osana laajempaa kokonaisuutta4. Pilvipalvelu

Hadoopin käyttöönotto

1. http://hadoop.apache.org

“Harva organisaatio päätyy käyttämään Hadoopia näin. Startup-yritysten, tutkimuslaitosten ja yliopistojen vaihtoehto.”

Vahvuudet (+) Ilmainen

Heikkoudet (-) Joutuu tekemään kaiken itse

2. Valmis jakelu

Otetaan käyttöön valmiiksi paketoitu kokonaisuus

Cloudera (CHD)

Hortonworks (HDP)

MapR (M7)

Pivotal (Pivotal HD)

IBM (IHC)

Hadoop-jakeluyritysten tunnettuus

Cloudera on tällä hetkellä tunnetuin

Cloudera

Hortonworks

MapR

2. Valmis jakeluVahvuudet (+) Helppous, tuki, koulutus, partnerit ja

optimoitu suorituskyky

Heikkoudet (-) Lukittumisuhka (lock-in), maksullinen

“Tyypillinen tapa tällä hetkellä ottaa Hadoop käyttöön. Objektiivinen vertailu hankalaa, tietoa vaikea saada. Vaatii vahvaa kehitystiimiä.”

3. Hadoop osana kokonaisuuttaBig data Appliancet (esimerkkilista tunnetuista)HP (HAVEn)IBM (Infosphere BigInsights, Watson)Microsoft (Analytics Platform System)Oracle (Big Data Appliance)Pivotal (Pivotal Big Data Suite)Teradata (Teradata Aster Big Analytics Appliance)

3. Hadoop osana Appliance-ratkaisuaVahvuudet (+) Kehittyneet ominaisuudet,

integroitavuus, tuki- ja partneriverkosto

Heikkoudet (-) Kallis, vendor lock-in

“Tämä on se todennäköinen tapa, jolla Hadoop hiipii yrityksiin, joilla on voimakas toimittajasuhde. Hadoop osana isompaa kokonaisuutta.”

4. Hadoop pilvipalveluna

Hadoop pilvipalveluna tarjolla mm.:Amazon (AWS Elastic MapReduse, EC2)Microsoft (Windows Azure HDInsight)

Lisäksi esim. MapR M7 Googlen pilvessä, jolla tehty nopeusennätyksiä (terasort, minutesort)Google (Google Compute Cloud)

4. Hadoop pilvipalvelunaVahvuudet (+) Nopea käyttöönotto, joustavuus,

kustannusten ennakointi

Heikkoudet (-) Tietoturvahuolet, lainsäädäntö, lisää osaamisvaatimuksia

“Helpoin, riskittömin ja nopein tapa pilotointiin, demoamiseen ja testaamiseen. Todennäköisesti tulevaisuudessa yhä merkittävämpi vaihtoehto myös tuotantokäyttöön.”

Hadoop osana modernia IT-arkkitehtuuriaYhteiskäyttö raportointi-, analytiikka- (BI) ja visualisointiratkaisujen kanssa. Käytetyimmät laajennokset. Tunnetuimpien jakeluiden keskeiset edut ja erot.

Big DataLandscape

Kiitos

Ivorion Hadoop-verkkokurssi on erinomainen tapa tutustua big datan keskeisimpään teknologiaan.

Hadoop-sertifikaatin avulla osoitat syvällisen osaamisesi aiheesta, niin teorian kuin teknologioiden osalta.

Ilmoittautumiset, lisätiedot ja muut koulutukset: ivorio.fi 31.5. mennessä tilatuista koulutustuotteista 15% alennus koodilla ICTEXPO

Hadoop-verkkokurssi

Ivorio Certificate for Hadoop