Big data ja hadoop esitys 07.05.2014, ivorio oy, immo salo

Big DataMEGATRENDI 2011 ⇒

"The next frontier for innovation, competition and productivity"

“Cloud Computing” ja “Big Data”

big data

cloud computing

Big data ohitti pilven

Google-haut vuosina 2009-2014

Page 4: Big data ja hadoop esitys 07.05.2014, ivorio oy, immo salo

Mitä tarkoittaa big data?1. Havaintoa siitä, että dataa on koko ajan määrällisesti

enemmän ja sen muoto ja laatu vaihtelevat suuresti

2. Haastetta hallita ja hyödyntää tuota tietomäärää perinteisten järjestelmien ja ratkaisujen avulla

3. Ratkaisuja (tuotteet, palvelut, ohjelmistot, teknologiat), joilla tuohon haasteeseen tartutaan

Page 5: Big data ja hadoop esitys 07.05.2014, ivorio oy, immo salo

Big datan 3 V:täVolume Tietoa (dataa) on koko ajan enemmän. Se pitäisi pystyä tallentamaan ja hyödyntämään.

Velocity Tietoa (dataa) tulee koko ajan nopeammin. Päätöksiä pitäisi pystyä tekemään nopeasti.

Variety Tietoa (dataa) tulee eri muodoissa ja erilaisista lähteistä, eikä se istu hyvin nykyisiin toimintamalleihin.

Veracity, Value, Virality, Validity, Viscosity, Vulnerability… myös muita V-kirjaimia on jälkeenpäin lisätty kuvaamaan ilmiötä.

Page 6: Big data ja hadoop esitys 07.05.2014, ivorio oy, immo salo

Datan määrä maailmassa

v. 2011

2 ZB

v. 2020

v. 2030

44 ZB 1 333 ZB

Page 7: Big data ja hadoop esitys 07.05.2014, ivorio oy, immo salo

Mistä sitä dataa oikein tulee?

Saatavilla olevat datavarannot

(avoin data, datamarkkinat)

Potentiaalinen data(ei vielä kerätä)

Digitaalinen todellisuus(internet, sosiaalinen media)

Fyysinen todellisuus(sensorit, esineiden internet)

Organisaation hallussa tai saatavilla oleva data

(ERP, CRM, DW, RDBMS)

Page 8: Big data ja hadoop esitys 07.05.2014, ivorio oy, immo salo

Suppein näkökulma dataan

Tästä näkökulmasta big data koskettaa ilmiönä n. 0,2 % maailman organisaatioista

“Eihän meillä edes ole big dataa!”

Yrityksen oma strukturoitu dataYrityksen vielä hyödyntämätön data

Yrityksen vielä keräämätön data

Page 9: Big data ja hadoop esitys 07.05.2014, ivorio oy, immo salo

Suppeahko näkökulma dataan

Tästä näkökulmasta big data koskettaa ilmiönä n. 3 % maailman organisaatioista

“Entä jos hyödyntäisimme kaiken sen datan jota jo keräämme?”

Yrityksen oma strukturoitu dataYrityksen vielä hyödyntämätön data

Yrityksen vielä keräämätön data

Page 10: Big data ja hadoop esitys 07.05.2014, ivorio oy, immo salo

Verkostoitunut näkökulma dataan

Tästä näkökulmasta big data koskettaa ilmiönä n. 22 % maailman organisaatioista

“Voisimmeko kerätä enemmän dataa toiminnastamme?”

Yrityksen oma strukturoitu dataYrityksen vielä hyödyntämätön data

Yrityksen vielä keräämätön data

Page 11: Big data ja hadoop esitys 07.05.2014, ivorio oy, immo salo

Verkostoitunut näkökulma dataan

Tästä näkökulmasta big data koskettaa ilmiönä n. 72 % maailman organisaatioista

“Verkottunut yritys ei voi piilotella dataansa!”

Organisaatio

Kumppani Kumppani

Page 12: Big data ja hadoop esitys 07.05.2014, ivorio oy, immo salo

Kokonaisvaltainen näkökulma dataan“Pelkkä omaan dataan tuijottelu ei tuota ikuisesti kilpailuetua!”

Tästä näkökulmasta big data koskettaa ilmiönä n. 98 % maailman organisaatioista

Avoin data: dokumentoidut rajapinnat

Data marketplace: pilvessä olevat datan markkinapaikat

Datakauppiaat: yksittäiset suoraan omaa tai verkostonsa dataa myyvät

Puoliavoin data: ei rajapintoja, hajallaan

Page 13: Big data ja hadoop esitys 07.05.2014, ivorio oy, immo salo

Big datan hyödyntämiskohteita● Markkinointi, asiakassegmentointi, kohdentaminen

● Hiljaisten signaalien tunnistaminen, koneoppiminen

● Virheiden ja väärinkäytön tunnistaminen

● Tutkimus- ja kehitystyö, tuotekehitys

● Ilmiöiden mallintaminen ja ennustaminen

● Resurssien kohdentaminen tehokkaammin

● ...

Mahdollisuuksien tunnistaminen vaatii toimialan ja organisaation ymmärtämistä!

Page 14: Big data ja hadoop esitys 07.05.2014, ivorio oy, immo salo

Analytiikan askeleet kohti kilpailuetua

kohti reaaliaikaisuutta

Raportointi Ennustaminen Automatisointi

Page 15: Big data ja hadoop esitys 07.05.2014, ivorio oy, immo salo

Big datan teknologiat● Hadoop (tunnetuin yksittäinen uusi teknologia)

● NoSQL (uudenlaiset tietokannat)

● Appliance (valmisratkaisut)

● In-memory -analytics

● Pilvipalvelut○ Amazon Elastic MapReduce (Hadoop)○ Google BigQuery (Dremel)○ Microsoft HDInsight (Hadoop)

Page 16: Big data ja hadoop esitys 07.05.2014, ivorio oy, immo salo

HadoopBig datan teollisuusstandardi

Page 17: Big data ja hadoop esitys 07.05.2014, ivorio oy, immo salo

Mitä Hadoop tekee?Hadoop valjastaa palvelinklusterin vastaamaan datan tallennuksesta ja prosessoinnista.

Miksi haluaisin Hadoop-klusterin?- edullista tallennustilaa (mikä vaan x86-palvelin käy)- tehokasta prosessointia (rinnakkaisuus)- toimintavarmuutta (moninkertainen tallennus)- skaalautuvuutta (klusteria helppo laajentaa)- ekosysteemit, lisäosia ja laajennoksia!

Page 18: Big data ja hadoop esitys 07.05.2014, ivorio oy, immo salo

Klusteri?Klusteri = joukko toisiinsa kytkettyjä palvelimia (nodeja, noodeja), jotka suorittavat annettua tehtävää hajautettuna, mutta näkyvät käyttäjälle yhtenä järjestelmänä

Page 19: Big data ja hadoop esitys 07.05.2014, ivorio oy, immo salo

Commodity Hardware Node?Yleisesti saatavilla olevista komponenteista koottuja palvelimia. Ei kallista palvelinrautaa.

Ei kuitenkaan perus-PC, vaan kotelollinen tehokkaita komponentteja.

CPU: 2 x 4/6/8 -coreMem: 48Gb+Disk: 12 x 2-3TbNet: 1Gb+ Ethernet

~ 5 000 €

Page 20: Big data ja hadoop esitys 07.05.2014, ivorio oy, immo salo

Googlen julkaisu Vuosi Avoimen lähdekoodin projekti Vuosi Mihin tarkoitukseen?

GFS ja MapReduce

2003,2004 Hadoop 2006 Datan tallentaminen ja analysointi

(klusteri)

Sawzall 2005 Pig ja Hive 2008 Massa-analytiikka

BigTable 2006 HBase 2008 Avain-arvopari -tietokanta (NoSQL)

Pregel 2010 Giraph 2011 Graph-tietokanta

Dremel / F1 2010 Cloudera Impala 2012 Nopeat kyselyt (SQL)

Spanner 2012 ? ???? Transaktiot

Innoittajana Google

Hadoopin asema big data -ilmiössä

Hadoop

Tiedon määrä

Tied

on r

aken

teis

uus

2 Tb1 Gb 20 Tb 200 Tb

Nearly all sectors in the US economy had at least an average of 200 terabytes of stored data per company with more than 1,000 employees.McKinsey 2011

By 2015, 65 percent of packaged analytic applications with advanced analytics will come embedded with Hadoop.Gartner 2013

Page 22: Big data ja hadoop esitys 07.05.2014, ivorio oy, immo salo

HadoopHDFS

Page 23: Big data ja hadoop esitys 07.05.2014, ivorio oy, immo salo

Hadoop Distributed File System: HDFSHadoopin hajatettu tiedostojärjestelmä HDFS

● Tiedostot ovat tallennettuina hajautetusti klusteriin● Suuri data pilkotaan “blokeiksi”, määritellyn logiikan

mukaan ● Nimipalvelin (name node) tallentaa (meta)tiedot siitä,

missä tiedostot fyysisesti sijaitsevat● Oletusarvo on, että tiedostot tallennetaan kolmeen

kertaan

Innoittajana GFS eli Google File System

Page 24: Big data ja hadoop esitys 07.05.2014, ivorio oy, immo salo

Hadoop Distributed File System: HDFS

Node 1

data piece

Big Data(= 1 or more files)

data piecedata piece

Node 2

data piecedata piecedata piece

Node 3

data piecedata piecedata piece

Node 4

data piecedata piecedata piece

HDFS

Lähde: mukaillen www.glennklockwood.com

Page 25: Big data ja hadoop esitys 07.05.2014, ivorio oy, immo salo

Hadoop Distributed File System: HDFS

Name node

BlocksClient

Rack 1

Data node

Rack 2

Data node

Data nodewrite

write

Client

readmetadata ops

block ops

Metadata (Name, replicas…): /home/foo/data, 3...

Page 26: Big data ja hadoop esitys 07.05.2014, ivorio oy, immo salo

Hadoop Distributed File System: HDFS

Parhaimmillaan ennakoitavissa oloissa:● Tiedostot suurikokoisia, oletuksena 64Mb● Tiedostoja luetaan peräkkäin, alusta loppuun● Tiedostot kirjoitetaan kerran, luetaan useasti

Page 27: Big data ja hadoop esitys 07.05.2014, ivorio oy, immo salo

HadoopArkkitehtuuri

Page 28: Big data ja hadoop esitys 07.05.2014, ivorio oy, immo salo

Hadoop: Prosessoinnin logiikkaMapReduce: Viedään prosessointi datan luo!

Lähde: www.glennklockwood.com

“Map/reduce is ideally suited for trivially parallel calculations on large quantities of data.”

Page 29: Big data ja hadoop esitys 07.05.2014, ivorio oy, immo salo

Hadoop: MapReduceMapReducen idea/vahvuus on rinnakkaistaa ja hajauttaa analytiikka.

Node 1

“raakadata”

Map

“välitulokset”

Reduce

HDFS

Node 2

Node2

“raakadata”

Map

“välitulokset”

Reduce

HDFS

Data

Hadoopissa ennen ja nytMapReduce edelleen isossa roolissa.

Lähde: Hortonworks

Hadoop

Laajennokset tekevät Hadoopista kiinnostavan

HbaseHivePigSqoopZookeeper

ImpalaHueAmbariSparkTez

jne….

Page 33: Big data ja hadoop esitys 07.05.2014, ivorio oy, immo salo

HadoopMistä sellaisen saa?

Page 34: Big data ja hadoop esitys 07.05.2014, ivorio oy, immo salo

Neljä vaihtoehtoa1. http://hadoop.apache.org2. Valmis jakelu3. Hadoop osana laajempaa kokonaisuutta4. Pilvipalvelu

Hadoopin käyttöönotto

http://hadoop.apache.org

Page 35: Big data ja hadoop esitys 07.05.2014, ivorio oy, immo salo

1. http://hadoop.apache.org

“Harva organisaatio päätyy käyttämään Hadoopia näin. Startup-yritysten, tutkimuslaitosten ja yliopistojen vaihtoehto.”

Vahvuudet (+) Ilmainen

Heikkoudet (-) Joutuu tekemään kaiken itse

Page 36: Big data ja hadoop esitys 07.05.2014, ivorio oy, immo salo

2. Valmis jakelu

Otetaan käyttöön valmiiksi paketoitu kokonaisuus

Cloudera (CHD)

Hortonworks (HDP)

MapR (M7)

Pivotal (Pivotal HD)

IBM (IHC)

Page 37: Big data ja hadoop esitys 07.05.2014, ivorio oy, immo salo

Hadoop-jakeluyritysten tunnettuus

Cloudera on tällä hetkellä tunnetuin

Cloudera

Hortonworks

MapR

Page 38: Big data ja hadoop esitys 07.05.2014, ivorio oy, immo salo

2. Valmis jakeluVahvuudet (+) Helppous, tuki, koulutus, partnerit ja

optimoitu suorituskyky

Heikkoudet (-) Lukittumisuhka (lock-in), maksullinen

“Tyypillinen tapa tällä hetkellä ottaa Hadoop käyttöön. Objektiivinen vertailu hankalaa, tietoa vaikea saada. Vaatii vahvaa kehitystiimiä.”

Page 39: Big data ja hadoop esitys 07.05.2014, ivorio oy, immo salo

3. Hadoop osana kokonaisuuttaBig data Appliancet (esimerkkilista tunnetuista)HP (HAVEn)IBM (Infosphere BigInsights, Watson)Microsoft (Analytics Platform System)Oracle (Big Data Appliance)Pivotal (Pivotal Big Data Suite)Teradata (Teradata Aster Big Analytics Appliance)

Page 40: Big data ja hadoop esitys 07.05.2014, ivorio oy, immo salo

3. Hadoop osana Appliance-ratkaisuaVahvuudet (+) Kehittyneet ominaisuudet,

integroitavuus, tuki- ja partneriverkosto

Heikkoudet (-) Kallis, vendor lock-in

“Tämä on se todennäköinen tapa, jolla Hadoop hiipii yrityksiin, joilla on voimakas toimittajasuhde. Hadoop osana isompaa kokonaisuutta.”

Page 41: Big data ja hadoop esitys 07.05.2014, ivorio oy, immo salo

4. Hadoop pilvipalveluna

Hadoop pilvipalveluna tarjolla mm.:Amazon (AWS Elastic MapReduse, EC2)Microsoft (Windows Azure HDInsight)

Lisäksi esim. MapR M7 Googlen pilvessä, jolla tehty nopeusennätyksiä (terasort, minutesort)Google (Google Compute Cloud)

Page 42: Big data ja hadoop esitys 07.05.2014, ivorio oy, immo salo

4. Hadoop pilvipalvelunaVahvuudet (+) Nopea käyttöönotto, joustavuus,

kustannusten ennakointi

Heikkoudet (-) Tietoturvahuolet, lainsäädäntö, lisää osaamisvaatimuksia

“Helpoin, riskittömin ja nopein tapa pilotointiin, demoamiseen ja testaamiseen. Todennäköisesti tulevaisuudessa yhä merkittävämpi vaihtoehto myös tuotantokäyttöön.”

Page 43: Big data ja hadoop esitys 07.05.2014, ivorio oy, immo salo

Hadoop osana modernia IT-arkkitehtuuriaYhteiskäyttö raportointi-, analytiikka- (BI) ja visualisointiratkaisujen kanssa. Käytetyimmät laajennokset. Tunnetuimpien jakeluiden keskeiset edut ja erot.