Big DataMEGATRENDI 2011 ⇒
"The next frontier for innovation, competition and productivity"
“Cloud Computing” ja “Big Data”
big data
cloud computing
Big data ohitti pilven
Google-haut vuosina 2009-2014
Mitä tarkoittaa big data?1. Havaintoa siitä, että dataa on koko ajan määrällisesti
enemmän ja sen muoto ja laatu vaihtelevat suuresti
2. Haastetta hallita ja hyödyntää tuota tietomäärää perinteisten järjestelmien ja ratkaisujen avulla
3. Ratkaisuja (tuotteet, palvelut, ohjelmistot, teknologiat), joilla tuohon haasteeseen tartutaan
Big datan 3 V:täVolume Tietoa (dataa) on koko ajan enemmän. Se pitäisi pystyä tallentamaan ja hyödyntämään.
Velocity Tietoa (dataa) tulee koko ajan nopeammin. Päätöksiä pitäisi pystyä tekemään nopeasti.
Variety Tietoa (dataa) tulee eri muodoissa ja erilaisista lähteistä, eikä se istu hyvin nykyisiin toimintamalleihin.
Veracity, Value, Virality, Validity, Viscosity, Vulnerability… myös muita V-kirjaimia on jälkeenpäin lisätty kuvaamaan ilmiötä.
Datan määrä maailmassa
v. 2011
2 ZB
v. 2020
v. 2030
44 ZB 1 333 ZB
Mistä sitä dataa oikein tulee?
Saatavilla olevat datavarannot
(avoin data, datamarkkinat)
Potentiaalinen data(ei vielä kerätä)
Digitaalinen todellisuus(internet, sosiaalinen media)
Fyysinen todellisuus(sensorit, esineiden internet)
Organisaation hallussa tai saatavilla oleva data
(ERP, CRM, DW, RDBMS)
Suppein näkökulma dataan
Tästä näkökulmasta big data koskettaa ilmiönä n. 0,2 % maailman organisaatioista
“Eihän meillä edes ole big dataa!”
Yrityksen oma strukturoitu dataYrityksen vielä hyödyntämätön data
Yrityksen vielä keräämätön data
Suppeahko näkökulma dataan
Tästä näkökulmasta big data koskettaa ilmiönä n. 3 % maailman organisaatioista
“Entä jos hyödyntäisimme kaiken sen datan jota jo keräämme?”
Yrityksen oma strukturoitu dataYrityksen vielä hyödyntämätön data
Yrityksen vielä keräämätön data
Verkostoitunut näkökulma dataan
Tästä näkökulmasta big data koskettaa ilmiönä n. 22 % maailman organisaatioista
“Voisimmeko kerätä enemmän dataa toiminnastamme?”
Yrityksen oma strukturoitu dataYrityksen vielä hyödyntämätön data
Yrityksen vielä keräämätön data
Verkostoitunut näkökulma dataan
Tästä näkökulmasta big data koskettaa ilmiönä n. 72 % maailman organisaatioista
“Verkottunut yritys ei voi piilotella dataansa!”
Organisaatio
Kumppani Kumppani
Kumppani Kumppani
Kumppani Kumppani
Kokonaisvaltainen näkökulma dataan“Pelkkä omaan dataan tuijottelu ei tuota ikuisesti kilpailuetua!”
Tästä näkökulmasta big data koskettaa ilmiönä n. 98 % maailman organisaatioista
Avoin data: dokumentoidut rajapinnat
Data marketplace: pilvessä olevat datan markkinapaikat
Datakauppiaat: yksittäiset suoraan omaa tai verkostonsa dataa myyvät
Puoliavoin data: ei rajapintoja, hajallaan
Big datan hyödyntämiskohteita● Markkinointi, asiakassegmentointi, kohdentaminen
● Hiljaisten signaalien tunnistaminen, koneoppiminen
● Virheiden ja väärinkäytön tunnistaminen
● Tutkimus- ja kehitystyö, tuotekehitys
● Ilmiöiden mallintaminen ja ennustaminen
● Resurssien kohdentaminen tehokkaammin
● ...
Mahdollisuuksien tunnistaminen vaatii toimialan ja organisaation ymmärtämistä!
Analytiikan askeleet kohti kilpailuetua
kohti reaaliaikaisuutta
Raportointi Ennustaminen Automatisointi
Big datan teknologiat● Hadoop (tunnetuin yksittäinen uusi teknologia)
● NoSQL (uudenlaiset tietokannat)
● Appliance (valmisratkaisut)
● In-memory -analytics
● Pilvipalvelut○ Amazon Elastic MapReduce (Hadoop)○ Google BigQuery (Dremel)○ Microsoft HDInsight (Hadoop)
HadoopBig datan teollisuusstandardi
Mitä Hadoop tekee?Hadoop valjastaa palvelinklusterin vastaamaan datan tallennuksesta ja prosessoinnista.
Miksi haluaisin Hadoop-klusterin?- edullista tallennustilaa (mikä vaan x86-palvelin käy)- tehokasta prosessointia (rinnakkaisuus)- toimintavarmuutta (moninkertainen tallennus)- skaalautuvuutta (klusteria helppo laajentaa)- ekosysteemit, lisäosia ja laajennoksia!
Klusteri?Klusteri = joukko toisiinsa kytkettyjä palvelimia (nodeja, noodeja), jotka suorittavat annettua tehtävää hajautettuna, mutta näkyvät käyttäjälle yhtenä järjestelmänä
Commodity Hardware Node?Yleisesti saatavilla olevista komponenteista koottuja palvelimia. Ei kallista palvelinrautaa.
Ei kuitenkaan perus-PC, vaan kotelollinen tehokkaita komponentteja.
CPU: 2 x 4/6/8 -coreMem: 48Gb+Disk: 12 x 2-3TbNet: 1Gb+ Ethernet
~ 5 000 €
Googlen julkaisu Vuosi Avoimen lähdekoodin projekti Vuosi Mihin tarkoitukseen?
GFS ja MapReduce
2003,2004 Hadoop 2006 Datan tallentaminen ja analysointi
(klusteri)
Sawzall 2005 Pig ja Hive 2008 Massa-analytiikka
BigTable 2006 HBase 2008 Avain-arvopari -tietokanta (NoSQL)
Pregel 2010 Giraph 2011 Graph-tietokanta
Dremel / F1 2010 Cloudera Impala 2012 Nopeat kyselyt (SQL)
Spanner 2012 ? ???? Transaktiot
Innoittajana Google
Hadoopin asema big data -ilmiössä
Hadoop
Tiedon määrä
Tied
on r
aken
teis
uus
2 Tb1 Gb 20 Tb 200 Tb
Nearly all sectors in the US economy had at least an average of 200 terabytes of stored data per company with more than 1,000 employees.McKinsey 2011
By 2015, 65 percent of packaged analytic applications with advanced analytics will come embedded with Hadoop.Gartner 2013
HadoopHDFS
Hadoop Distributed File System: HDFSHadoopin hajatettu tiedostojärjestelmä HDFS
● Tiedostot ovat tallennettuina hajautetusti klusteriin● Suuri data pilkotaan “blokeiksi”, määritellyn logiikan
mukaan ● Nimipalvelin (name node) tallentaa (meta)tiedot siitä,
missä tiedostot fyysisesti sijaitsevat● Oletusarvo on, että tiedostot tallennetaan kolmeen
kertaan
Innoittajana GFS eli Google File System
Hadoop Distributed File System: HDFS
Node 1
data piece
Big Data(= 1 or more files)
data piecedata piece
Node 2
data piecedata piecedata piece
Node 3
data piecedata piecedata piece
Node 4
data piecedata piecedata piece
HDFS
Lähde: mukaillen www.glennklockwood.com
Hadoop Distributed File System: HDFS
Name node
BlocksClient
Rack 1
Data node
Data node
Data node
Rack 2
Data node
Data node
Data nodewrite
write
Client
readmetadata ops
block ops
Metadata (Name, replicas…): /home/foo/data, 3...
Hadoop Distributed File System: HDFS
Parhaimmillaan ennakoitavissa oloissa:● Tiedostot suurikokoisia, oletuksena 64Mb● Tiedostoja luetaan peräkkäin, alusta loppuun● Tiedostot kirjoitetaan kerran, luetaan useasti
HadoopArkkitehtuuri
Hadoop: Prosessoinnin logiikkaMapReduce: Viedään prosessointi datan luo!
Lähde: www.glennklockwood.com
“Map/reduce is ideally suited for trivially parallel calculations on large quantities of data.”
Hadoop: MapReduceMapReducen idea/vahvuus on rinnakkaistaa ja hajauttaa analytiikka.
Node 1
Node 1
“raakadata”
Map
“välitulokset”
Reduce
HDFS
Node 2
Node2
“raakadata”
Map
“välitulokset”
Reduce
HDFS
Data
Hadoopissa ennen ja nytMapReduce edelleen isossa roolissa.
Lähde: Hortonworks
Hadoop
Laajennokset tekevät Hadoopista kiinnostavan
HbaseHivePigSqoopZookeeper
ImpalaHueAmbariSparkTez
jne….
HadoopMistä sellaisen saa?
Neljä vaihtoehtoa1. http://hadoop.apache.org2. Valmis jakelu3. Hadoop osana laajempaa kokonaisuutta4. Pilvipalvelu
Hadoopin käyttöönotto
1. http://hadoop.apache.org
“Harva organisaatio päätyy käyttämään Hadoopia näin. Startup-yritysten, tutkimuslaitosten ja yliopistojen vaihtoehto.”
Vahvuudet (+) Ilmainen
Heikkoudet (-) Joutuu tekemään kaiken itse
2. Valmis jakelu
Otetaan käyttöön valmiiksi paketoitu kokonaisuus
Cloudera (CHD)
Hortonworks (HDP)
MapR (M7)
Pivotal (Pivotal HD)
IBM (IHC)
Hadoop-jakeluyritysten tunnettuus
Cloudera on tällä hetkellä tunnetuin
Cloudera
Hortonworks
MapR
2. Valmis jakeluVahvuudet (+) Helppous, tuki, koulutus, partnerit ja
optimoitu suorituskyky
Heikkoudet (-) Lukittumisuhka (lock-in), maksullinen
“Tyypillinen tapa tällä hetkellä ottaa Hadoop käyttöön. Objektiivinen vertailu hankalaa, tietoa vaikea saada. Vaatii vahvaa kehitystiimiä.”
3. Hadoop osana kokonaisuuttaBig data Appliancet (esimerkkilista tunnetuista)HP (HAVEn)IBM (Infosphere BigInsights, Watson)Microsoft (Analytics Platform System)Oracle (Big Data Appliance)Pivotal (Pivotal Big Data Suite)Teradata (Teradata Aster Big Analytics Appliance)
3. Hadoop osana Appliance-ratkaisuaVahvuudet (+) Kehittyneet ominaisuudet,
integroitavuus, tuki- ja partneriverkosto
Heikkoudet (-) Kallis, vendor lock-in
“Tämä on se todennäköinen tapa, jolla Hadoop hiipii yrityksiin, joilla on voimakas toimittajasuhde. Hadoop osana isompaa kokonaisuutta.”
4. Hadoop pilvipalveluna
Hadoop pilvipalveluna tarjolla mm.:Amazon (AWS Elastic MapReduse, EC2)Microsoft (Windows Azure HDInsight)
Lisäksi esim. MapR M7 Googlen pilvessä, jolla tehty nopeusennätyksiä (terasort, minutesort)Google (Google Compute Cloud)
4. Hadoop pilvipalvelunaVahvuudet (+) Nopea käyttöönotto, joustavuus,
kustannusten ennakointi
Heikkoudet (-) Tietoturvahuolet, lainsäädäntö, lisää osaamisvaatimuksia
“Helpoin, riskittömin ja nopein tapa pilotointiin, demoamiseen ja testaamiseen. Todennäköisesti tulevaisuudessa yhä merkittävämpi vaihtoehto myös tuotantokäyttöön.”
Hadoop osana modernia IT-arkkitehtuuriaYhteiskäyttö raportointi-, analytiikka- (BI) ja visualisointiratkaisujen kanssa. Käytetyimmät laajennokset. Tunnetuimpien jakeluiden keskeiset edut ja erot.
Big DataLandscape
Kiitos
Ivorion Hadoop-verkkokurssi on erinomainen tapa tutustua big datan keskeisimpään teknologiaan.
Hadoop-sertifikaatin avulla osoitat syvällisen osaamisesi aiheesta, niin teorian kuin teknologioiden osalta.
Ilmoittautumiset, lisätiedot ja muut koulutukset: ivorio.fi 31.5. mennessä tilatuista koulutustuotteista 15% alennus koodilla ICTEXPO
Hadoop-verkkokurssi
Ivorio Certificate for Hadoop
Top Related