igDataLab De Techniek van Big Data - BI-Podium...De techniek van Big Data: Agenda igDataLab Het is...

Post on 30-Jul-2020

0 views 0 download

Transcript of igDataLab De Techniek van Big Data - BI-Podium...De techniek van Big Data: Agenda igDataLab Het is...

igDataLab

DeTechniekvanBigData

GerritSlot

BigDataLabB.V.

igDataLabDetechniekvanBigData:Agenda

HoekrijgjehettechnischvoorelkaarHetisgewoonBIalleenmetmeerdata

CMMenbeheersbaarheidIntegra@evanon-premisecompu@ngmetcloud

SchalenvantoepassingenGezondheidenouderenzorg

igDataLabEenkleinequiz:

• WiedenktdatBigDataomTECHNIEKgaat?

• WiedenktdatBigDataomDATAgaat?

• WiedenktdatBigDataoverMENSENgaat?

igDataLabAgendarevisited

• Hoezijnwijgekomenwaarwijzijn?• DebetekenisvanBigDatavooronsallemaal• DerolvantechniekinBigData• DegovernancevanBigData

igDataLabBelangrijke mijlpalen in de evolutie

igDataLabVuur

igDataLabGereedschap

igDataLabOrganisatie en infrastructuur

igDataLabCommunicatie

igDataLabKennisdeling

igDataLabStandaardisatie en industrialisatie

igDataLabGlobalisering

igDataLabDemocratisering

igDataLab

igDataLabDe consequentie van onze evolutie? DepiramidevanMaslow:

•  BasisbehoeMesingevuld:•  Wereldgezondheidwasnognooitzohoog•  Wereldvoedselschaarstewasnognooitzolaag

•  Bestaanszekerheidgaran@esdoor:•  Democra@sering•  Sociaalrechtsstelsel•  Socialesolidariteit

•  SocialebehoeMeswordensteedsmeeringevuld:•  Socialecontactenwordenopwereldschaalonderhouden•  KennisisnaarbehoeMebeschikbaar•  Dewerkvloeriseensocialewerkplaats

•  Erkenningwiejebent:•  Discrimina@ewordthardbevochten•  Ongelijkebehandelingvanmannenenvrouwenis“not-done”•  Sexuelevoorkeurenzijninhetnieuws

igDataLabZelfontwikkelingstaatinbeginstadiumVelevragen:• WatiserkenningbijhetontstaanvanMachineIntelligen@e?• Hoezithetmetkennisdeling?•  Standaardisa@ealseinddoel?• Watishetblijvendeffectvanglobaliseringendemocra@sering?• WatisderolvanKunstma@geintelligen@eenvirtualisa@e• DebetekenisvanBigData:Socialisa@eenHemelvaart(Ascension)?

igDataLabExponenAelegroeidoorstapeleffecten

igDataLabHoelangduurthetomdeAmsterdamArenAvoltelatenlopenalselkesecondehetaantaldruppelswaterverdubbelt?

28-10-2016

igDataLabWatbetekentBigData?

• Onzeinterac@eisveranderd• Directensimplificerend• Context,normenenwaardenzijnimpliciet

• Organiserendvermogenisexplosiefgegroeidengebaseerdop:• Verantwoordelijkheid• Delegeren• Vertrouwen

• Hetcreërenvanwaardeuitdatastaatcentraal•  Ziepresenta@evanErwinenLevie

•  Zoekdemenselijkheidineensamenlevingmetintelligentesystemen•  Ziepresenta@evanJenny

igDataLabDe“stateoftheart”vanBigData•  Steedscomplexerebouwblokken(switches,assembler,hogereprogrammeertalen,lisp,objec@veprogramming,nonlinearprogramming,neuralenetwerken)

•  Domainspecificlanguages,Modeldrivenarchitecture/programming,SOA,Micro-services

•  DevOpslanguages:automa@seringvandeautoma@sering(non-procedural(statedriven):puppet,ansible,andproceduralchef,salt)

•  Databasetheorieen:•  ACID•  CAPtheorema•  BASE

•  Voortschrijdendestandaardisa@eenmogelijkheidvankennisdeling(sequen@alfile,dbms,rdbms,NoSQL:paradigmaGraphDatabases)

•  Machinelearningendeeplearning(domain(a-)specificalgorithms)•  Robo@caenIoT•  Kunstma@geintelligen@e(IQ,EQenSQ)

igDataLabVeelData!Schaalbaarheid

(sources:RandyBias/EMC

igDataLabInvalshoek databases: CAP theorema

•  Eisenvoorgedistribueerdedata:1.  Consisten@ebehoud:naeen

opera@eisdatanogsteedsconsistent

2.  Beschikbaarheid:dataisal@jdbeschikbaar

3.  Par@@etoleran@e:bijonbetrouwbareverbindingenblijMhetsysteemfunc@oneren

28-10-2016

igDataLabACID vs BASE

ACID(RDBMS) BASE (NoSQL)Atomic BasicallyAvailable

Consistency SoMstate Isola@on EventualconsistencyDurable

VoorbeeldenvanBASEsystemen:BigTable,Cassandra,SimpleDB

igDataLabGoogle’ssolu@ons:Hadoop

igDataLabHDFS

HadoopDistributedFilesystem:

" Brengtdedatabijdenodediehetverwerkt

" Rela@vehighlatency" Notop@mizedforsmallfiles

igDataLabHDFS

HadoopDistributedFilesystem:

"  canbedeployedoncommodityhardware"  Sizecangrowon-the-flybyaddingnewnodes" op@mizedforstreaming(writeonce,readmany@mes)"  faulttolerantbyreplica@ngdatan@mes(defaultn=3)

" Rela@vehighlatency" Notop@mizedforsmallfiles

igDataLabHDFSBlocks

• HDFSvolumeisdividedintoblocks.• Blocksizeissta@cbutconfigurable(default128Mb)

(source:HadoopforDummies)

igDataLabAanleiding MapReduce

• Hoekanjeeenveelheidvantakenparallelverdelen?• Googlevoorbeeld:“indexeerhetinternet”

1.  Gaallewebsitesaf2.  Iden@ficeerentelallewoordenperURL

3.GroepeerperwoordenvermelddeURL’swaarzetevindenzijn4.SorteerdeURL’sinvolgordevanaantal/belangrijkheid

“Map”

“Reduce”

igDataLabMapReduceworkflow

• Nogmeer

(source:DianaMacLean/AVeryBriefIntroduc@ontoMapReduce

igDataLabMapReducepros&cons

Pro

" Gemaaktvoorparallellisa@e

" Gebruiktdatalokaal" Robuust

Con

"  Flinkeleercurvealsprogrammeeromgeving

"  Startlangzaamop,flinkeoverhead

" Batch-processingonly

igDataLabVanHadoop1.0naar2.0Introduc@evanYARN

igDataLabHadoop: de toolkit

• Pig–verlaagtdeleercurvevoorMapReduce• ApacheHive–BrengtSQLnaarHDFS•  Flume/Storm–Verwerkingvanreal@medata

• Ranger–DataManagement• Kerberos–Security•  Spark–BrengtStreamingenSta@s@csnaarHadoop

28-10-2016

igDataLabApacheHiveWhatisHive?•  ApacheHiveisadatawarehouseinfrastructurebuiltontopofHDFSthattranslatesSQLqueriesintoMapReducejobstotakeadvantageofHadoop’sdistributedprocessingcapabili@es.

WhyHive?•  AllowsyoutousethestrengthsofHadoopthroughafamiliarinterface.

igDataLabApacheSparkWhatisSpark?•  ApacheSparkisafastclustercompu@ngengineforlarge-scaledataprocessing

WhySpark?•  In-memorydataprocessing(advantageforitera@veprocessing

•  SparkStreaming©(supportforcon@nuousstreamprocessing)

igDataLabSparkperformance

igDataLabSparkcomponents

(source:TUMRABigDataScience)

igDataLabSpark:Detoekomst?

28-10-2016

(source:Datanami)

igDataLabErvaringenenresultatenmet“massiveparallelprocessing”

Detechnischetoolboxhebbenwijbesproken:•  NoSQL•  Hadoop•  Spark

Daarnaastnognodig:•  Ontwerpvanintelligentealgoritmenenmodellen(DataScien@sts)•  DataWranglingtools•  Visualisa@etools

Nognietbesprokenelementen:•  Agileontwikkelmethodenhebbenhunwaardebewezen

•  LeanenSCRUMopmicroniveau•  Spo@fymodelopmacroniveau

•  DevOps:BehoeMeaanautoma@seringvandeployment

igDataLabAgileontwikkelen:Scrummethode

28-10-2016

igDataLabSpoAfyorganisaAemodel

28-10-2016

igDataLabDevOps:Thesimpleview

28-10-2016

igDataLabDevOps:Everythingiscode(virtualisaAe)

28-10-2016

Autoscaling•  Scaleup•  Scaledown

igDataLabSamenva]ng:Hoekrijgjehetwerkend?•  DeGovernancevanBigData

•  Focusophetprobleemdatjegaatoplossenmetalsvoornaamstefactoren:•  Bedrijfsmodel,•  Concurren@eposi@e•  Privacy,•  Security,•  IntegriteitenPR•  Ziepresenta@evanErwinenLieve

•  Hoemanagejededata?•  Ziepresenta@eDonnaBurbank

•  Voortbrengingsproces:Projectaanpakvolgensagilemethoden•  4fasen:

•  Innova@e•  Explora@e•  Ontwikkeling•  Produc@e

•  Spo@fymodeloporganisa@eniveau•  Scrumalsontwikkelmodel

igDataLabSamenva]ng:Hoekrijgjehetwerkend?•  TechniekenAnaly@cszijnhulpmiddelen

•  Geenprimairprocesbehalvewaardomeinkennisisvereist

•  DataScienceiseennieuwe,opzichzelfstaandediscipline•  Eigenspecialisa@es•  Somsmetensomszonderdomeinkennis

•  DataEngineeringontwikkelingengaanrazendsnel•  Hetisingewikkeldomhetopera@oneeltehouden

•  Hadoopclustersvoorbatchanalysezijnheeldynamischenkortlevend•  Real-@meinrich@ngenzijnsta@schermitsautoma@schschalend•  Securityinrich@ngiscomplex

•  Houaanslui@ngbijdeOpenSourcecommunity•  Buybeforemake

•  StayAgile•  Klacht:hetlandschapisverwarrendendatklopt.Hetzalvoorlopignietsimpelerworden•  Distribu@eszijnnietallemaalhetzelfde

•  HortonworksishetdichtstbijOpenSource•  MapR,Cloudera,Azure,IBMbaserenzichopopensource

•  Vendorsvoegenproprietaryelemententoe•  Eenmooionderwerpvooreenanderekeer

28-10-2016

igDataLabLastbutnotleast:ScopeisEverything

28-10-2016