CDAP, la boîte à outil pour concevoir vos applications Big Data
-
Upload
synaltic-group -
Category
Technology
-
view
1.062 -
download
0
Transcript of CDAP, la boîte à outil pour concevoir vos applications Big Data
Copyright Synaltic 2015
CDAP, la boîte à outil pour concevoir vos applications Big Data
Simplifier l'approche Big Data
Charly ClairmontSynaltic@[email protected]://synaltic.fr
Copyright Synaltic 2015
Plus d'une dizaine d'années d'expérience
Co-fondateur d'Altic, maintenant Synaltic
Co-fondateur du Hadoop User Groupe France
Aime faire connaître les technologies open source surtout celles dédiées à l'entreprise
Charly Clairmont
2
Copyright Synaltic 2015
Société de conseils et de services spécialisée dans la mise en œuvre de projets de Data Management
Créée en 2004, Synaltic est la fusion des sociétés Synotis et Altic
25 spécialistes en Data Management
Filiale en Suisse , à Lausanne
Nos valeursEngagement
Expertise
Fidélité
Synaltic
3
R&D
Training
SupportProject
Expertise
Data Intelligence
Data Platform
Data Governance
Data ExchangeSYNALTIC
Copyright Synaltic 2015
Big Data, un écosystème « hyperactif »
Core HadoopHDFS, MR
2006
HbaseZookeeper
Core Hadoop
2008
HivePig
MahoutHbase
ZookeeperCore Hadoop
2009
SqoopwhirrAvroHivePig
MahoutHbase
ZookeeperCore Hadoop
2010
FlumeBigtopOozie
MRUnitHCatalog
SqoopwhirrAvroHivePig
MahoutHbase
ZookeeperCore Hadoop
2011
SparkImpala
SolrKafkaFlumeBigtopOozie
MRUnitHCatalog
SqoopwhirrAvroHivePig
MahoutHbase
ZookeeperCore Hadoop
2012
NifiFlinkAtlas
RangerDrill
ParquetSentrySparkImpala
SolrKafkaFlumeBigtopOozie
MRUnitHCatalog
SqoopwhirrAvroHivePig
MahoutHbase
ZookeeperCore Hadoop
Aujourd'hui
Arun Murthy, founder of Hortonworks : « I think you are getting a lot more attention to fit and finish rather than to just getting the new technology in»
Copyright Synaltic 2015
!! Simplifier Hadoop !!
Copyright Synaltic 2015
Le nouveau mot d'ordre : « Le Data Lake »
Data Lake
« Enterprise-wide datamanagement platforms for
analyzing disparate sources of data in its native format »
Data Lake
« Collect everything, dive inanywhere, give flexible
access. Maximum scale and insight with the lowest Possible friction and cost. »
Data Hub
« A centralized, unified data Source that can quickly
provide diverse business users with the information
they need to do their jobs. »
Gartner Hortonworks Cloudera
Copyright Synaltic 2015
« Le Data Lake », plusieurs architectures
« Étang » « Lac » « Réservoir »
Données Internes Existantes
Traitements / Analyses
Diffusion
Données Externes
PME / Business Units
« Dessilotage »
Startups / IoT
Stockage & Analyse de logs
logs brutes
Traitements & Analyses
Toutes données !!
Audits
Gouvernance
Traitements & Analyses
Grandes Organisations
Passage à l'échelle du DWH
Diffusion
Données Internes Existantes
DiffusionDonnées Externes
Copyright Synaltic 2015
« Le Data Lake », de nombreux challenges
« Étang » « Lac » « Réservoir »
Traitements manuels
Traçabilité (lineage)
Exploitabilité
Découpler ingestion et traitements
Conserver la donnée d'origine
Partager l'infrastructure
Couvrir plusieursarchitectures
Traçabilité
Agile / réactif
Copyright Synaltic 2015
Attention aux enjeux techniques des projets !
Consistance Intégration Éviter l'inutile
Ré-utilisabilité Simplicité Productivité
Copyright Synaltic 2015
Cask Data Application Platform
L'objectif de Cask Data Application Platform, CDAP, est de permettre à tout développeur ou toute organisation de rapidement et facilement créer, déployer, exécuter et suivre des applications modernes à l'aide de technologies Big Data telles que Hadoop
Copyright Synaltic 2015
Open Source (Licence Apache V 2.0)
Framework & Plateforme pour développeurs & organisations
Construire, déployer, et gérer vos applications
CDAP
11
Supporte les principales distributions Hadoop
S'appuie sur les dernières technologies Big Data
Standards
Copyright Synaltic 2015
CDAP, tout en un !
12
Copyright Synaltic 2015
Architecture hautement disponible
13
Copyright Synaltic 2015
CDAP, tout en un !
14
Copyright Synaltic 2015
Hydrator, un ETL pour le Big Data
15
Copyright Synaltic 2015
Ex : Réputation de pages web, architecture application
16
Programmes– Injection des paires d'url
– SparkPageRankProgram : Calcul des PageRank, via Apache Spark ⇒ résultat d'un jeu de données : ranks
– RanksCounter : Agrégation des résultats pour toutes les url, via Map / Reduce ⇒ résultat d'un jeu de données : rankscount
Workflow
– PageRankWorkflow : Enchaînement des programmes SparkPageRankProgram et RanksCounter
Service :
– SparkPageRankService : connaître le rang d'une url
Copyright Synaltic 2015
Ex : Réputation de pages web, l'application
17
Copyright Synaltic 2015
Ex : Réputation de pages web, déploiement de l'application
18
Enregistrement et déploiement de l'application
Lancement du service
Exécution d'un flux de l'application
Copyright Synaltic 2015
Ex : Réputation de pages web, visible depuis l'interface web
Liste des applications,
Liste des jeux de données
Copyright Synaltic 2015
Ex : Réputation de pages web, visible depuis l'interface web
Pour chaque application
– Les programmes associés
– Traçabilité des programmes
Copyright Synaltic 2015
Ex : Réputation de pages web, visible depuis l'interface web
Pour chaque application
– Les jeux de données associés
● Traçabilité des jeux de données
Copyright Synaltic 2015
Ex : Réputation de pages web, visible depuis l'interface web
Pour chaque application
– Paramétrage
– Exécution de l'application
Copyright Synaltic 2015
Ex : Réputation de pages web, visible depuis l'interface web
Pour chaque application
– Suivi des exécutions
Copyright Synaltic 2015
Ex : Réputation de pages web, visible depuis l'interface web
Les services sont disponibles pour l'intégration aux applications tierces
Copyright Synaltic 2015
Ex : Réputation de pages web, visible depuis l'interface web
Les jeux de données peuvent être accédés via JDBC
Copyright Synaltic 2015
CDAP simplifie les projets Big Data
CDAP apporte une gestion de bout en bout de vos projets Big Data
CDAP offre une vision complète et unifiée pour l'ensemble de vos applications Big Data
– Extensibilité– Metadonnées– Audit– Suivi
Ce qu'il faut retenir
26
Copyright Synaltic 2015
CDAP : – http://cdap.io/
Documentation :– http://docs.cdap.io/cdap/current/en/index.html
Source : – https://github.com/caskdata/cdap
Editeur : – http://cask.co/
Liens
27
Copyright Synaltic 2015
Questions / Réponses