Commencer avec Hadoop
-
Upload
marc-eric-larocque -
Category
Technology
-
view
504 -
download
1
description
Transcript of Commencer avec Hadoop
![Page 1: Commencer avec Hadoop](https://reader036.fdocument.pub/reader036/viewer/2022062307/557dcdb7d8b42ae4688b4b2e/html5/thumbnails/1.jpg)
Hadoop en EntrepriseLes vraies opportunités aujourd’hui4 décembre, 2013
![Page 2: Commencer avec Hadoop](https://reader036.fdocument.pub/reader036/viewer/2022062307/557dcdb7d8b42ae4688b4b2e/html5/thumbnails/2.jpg)
Marc-Eric LaRocque
• Associé principal chez• Consultant depuis 1997• En données et en BI depuis 1994• BI et données mais avec un focus sur
–Gestion de projet et programme–Stratégie–Agilité
• MBA, PMP, CBIP et CSM• Président du Salon BI
![Page 3: Commencer avec Hadoop](https://reader036.fdocument.pub/reader036/viewer/2022062307/557dcdb7d8b42ae4688b4b2e/html5/thumbnails/3.jpg)
Hadoop = Big Data?
![Page 4: Commencer avec Hadoop](https://reader036.fdocument.pub/reader036/viewer/2022062307/557dcdb7d8b42ae4688b4b2e/html5/thumbnails/4.jpg)
Hadoop: cool, mais utile?
![Page 5: Commencer avec Hadoop](https://reader036.fdocument.pub/reader036/viewer/2022062307/557dcdb7d8b42ae4688b4b2e/html5/thumbnails/5.jpg)
POURQUOI PROCIMA EXPERTS?Une seule diapositive, promis
![Page 6: Commencer avec Hadoop](https://reader036.fdocument.pub/reader036/viewer/2022062307/557dcdb7d8b42ae4688b4b2e/html5/thumbnails/6.jpg)
Pourquoi Procima Experts?
Partenaires technologiques
Microsoft HDInsight Server
PartenairesProcima est intégrateurde solutions Hortonworks
PartenairesProcima est intégrateurde solutions Microsoft BI
Hadoop sur Windows Azure
![Page 7: Commencer avec Hadoop](https://reader036.fdocument.pub/reader036/viewer/2022062307/557dcdb7d8b42ae4688b4b2e/html5/thumbnails/7.jpg)
UN PEU DE BACKGROUNDHDInsight, Hadoop et Hortonworks Data Platform
![Page 8: Commencer avec Hadoop](https://reader036.fdocument.pub/reader036/viewer/2022062307/557dcdb7d8b42ae4688b4b2e/html5/thumbnails/8.jpg)
Big Data Microsoft et Hadoop
Discover Combine Refine
Relational Non-relational Streaming
INSIGHT
DATA ENRICHMENT
DATA MANAGEMENT
Self-Service Collaboration Corporate Apps Devices
Analytical
![Page 9: Commencer avec Hadoop](https://reader036.fdocument.pub/reader036/viewer/2022062307/557dcdb7d8b42ae4688b4b2e/html5/thumbnails/9.jpg)
Hadoop derrière les couvertes
Stockage distribué
Traitement distribué
“MPP” sur stéroide
![Page 10: Commencer avec Hadoop](https://reader036.fdocument.pub/reader036/viewer/2022062307/557dcdb7d8b42ae4688b4b2e/html5/thumbnails/10.jpg)
Hadoop dans HDInsight
![Page 11: Commencer avec Hadoop](https://reader036.fdocument.pub/reader036/viewer/2022062307/557dcdb7d8b42ae4688b4b2e/html5/thumbnails/11.jpg)
POURQUOI HADOOP EST PLUS QUE COOL, MAIS PEUT ÊTRE UTILE
C’est la question qui vaut la peine d’être répondue
![Page 12: Commencer avec Hadoop](https://reader036.fdocument.pub/reader036/viewer/2022062307/557dcdb7d8b42ae4688b4b2e/html5/thumbnails/12.jpg)
Cadre d’évaluation
Batch Interactif En ligne
• Archivage de données
• Analyses Exploratoires• Analyse de Découverte
• Engins de recommandations
• Analyses de sentiments
![Page 13: Commencer avec Hadoop](https://reader036.fdocument.pub/reader036/viewer/2022062307/557dcdb7d8b42ae4688b4b2e/html5/thumbnails/13.jpg)
Mais on peut faire tout ceci avec une BD?
![Page 14: Commencer avec Hadoop](https://reader036.fdocument.pub/reader036/viewer/2022062307/557dcdb7d8b42ae4688b4b2e/html5/thumbnails/14.jpg)
Vrai, mais Hadoop est différent
1. Peut gérer et traiter des volumes massifs “facilement”. Sans dépenser une fortune en équipement.
2. Pas une BD*, mais un système de stockage de fichiers. Donc la structure est imposée à la lecture
* une BD peu être créée sur HDFS
![Page 15: Commencer avec Hadoop](https://reader036.fdocument.pub/reader036/viewer/2022062307/557dcdb7d8b42ae4688b4b2e/html5/thumbnails/15.jpg)
Structure imposée à la lecture
• Une BD nous force à structurer pour pouvoir insérer• Structurer requiert
–De l’analyse–De l’architecture–Du design–Du développement “up-front”–Donc…de l’argent
• Structurer nous force à faire des choix de priorités• Sans avoir à structurer à l’écriture
–On peut insérer plein de choses sans investissement “up-front”–On structure au moment ou le besoin d’analyse se manifeste–Si les données sont accessibles, on est déjà bien partis
![Page 16: Commencer avec Hadoop](https://reader036.fdocument.pub/reader036/viewer/2022062307/557dcdb7d8b42ae4688b4b2e/html5/thumbnails/16.jpg)
Ok, mais…
Pourquoi stocker des données si on
a pas l’intention de les analyser?
![Page 17: Commencer avec Hadoop](https://reader036.fdocument.pub/reader036/viewer/2022062307/557dcdb7d8b42ae4688b4b2e/html5/thumbnails/17.jpg)
Parce que la découverte est non-prévisible
Interactif
• Analyses Exploratoires• Analyse de Découverte
![Page 18: Commencer avec Hadoop](https://reader036.fdocument.pub/reader036/viewer/2022062307/557dcdb7d8b42ae4688b4b2e/html5/thumbnails/18.jpg)
Analyse et prédiction
![Page 19: Commencer avec Hadoop](https://reader036.fdocument.pub/reader036/viewer/2022062307/557dcdb7d8b42ae4688b4b2e/html5/thumbnails/19.jpg)
Proposition: Hadoop comme “data lake”
• Amenez les données dans Hadoop autant que possible• Elles seront dispos au moment ou on en aura besoin pour
analyse de découverte ou autre• Nous n’auront pas investi dans l’analyse et le design au
début• Essentiellement, Hadoop comme landing-zone
![Page 20: Commencer avec Hadoop](https://reader036.fdocument.pub/reader036/viewer/2022062307/557dcdb7d8b42ae4688b4b2e/html5/thumbnails/20.jpg)
Le data lake nous supporte l’archivage aussi
Batch Interactif
• Archivage de données• Analyses Exploratoires• Analyse de Découverte
![Page 21: Commencer avec Hadoop](https://reader036.fdocument.pub/reader036/viewer/2022062307/557dcdb7d8b42ae4688b4b2e/html5/thumbnails/21.jpg)
SECTION DES DESSINS TECHNIQUESParce qu’il en faut, c’est tout
![Page 22: Commencer avec Hadoop](https://reader036.fdocument.pub/reader036/viewer/2022062307/557dcdb7d8b42ae4688b4b2e/html5/thumbnails/22.jpg)
Le “data lake”
Insérer toutes les sourcesde données
Data Lake, Data Reservoir, Landing Zone, Catch Basin, etc.
Garde les données “en ligne” longtemps
Peut garder les formats intermédiaires aussi
![Page 23: Commencer avec Hadoop](https://reader036.fdocument.pub/reader036/viewer/2022062307/557dcdb7d8b42ae4688b4b2e/html5/thumbnails/23.jpg)
Utiliser le data lake
“Cruncher” les données en-place sans les transférer ailleurs pour analyses pointues
![Page 24: Commencer avec Hadoop](https://reader036.fdocument.pub/reader036/viewer/2022062307/557dcdb7d8b42ae4688b4b2e/html5/thumbnails/24.jpg)
COMMENT COMMENCEREn fait, on commence par où exactement?
![Page 25: Commencer avec Hadoop](https://reader036.fdocument.pub/reader036/viewer/2022062307/557dcdb7d8b42ae4688b4b2e/html5/thumbnails/25.jpg)
Pour commencer
1. Comprendre ce qu’est Hadoop
2. Valider le business case possible
3. Valider le cadrage éventuel dans l’architecture informationnelle
4. Identifier les données et les fonction requises; valider qu’Hadoop couvre le besoin
5. Assurer que les différences de Hadoop par rapport aux technologies traditionnelles (RDBMS, appliance, etc.) sont mises en évidence par le business case choisit – pas de « trip techno »
6. Émettre un Document de Vision
![Page 26: Commencer avec Hadoop](https://reader036.fdocument.pub/reader036/viewer/2022062307/557dcdb7d8b42ae4688b4b2e/html5/thumbnails/26.jpg)
Document de Vision
• Énoncés de problèmes• Fonctionnalités clés attendues• Diagramme de contexte (sources, cible, etc.)• Architecture conceptuelle pour solution éventuelle• Architecture logique pour la PdC• Cas d’utilisation de la solution
–Acteurs, profils d’utilisation–Envergure des données–Détail des sources–Traitements à appliquer à la lecture–Requêtes à supporter par la PdC
![Page 27: Commencer avec Hadoop](https://reader036.fdocument.pub/reader036/viewer/2022062307/557dcdb7d8b42ae4688b4b2e/html5/thumbnails/27.jpg)
Exécution: la Preuve de concept (5 étapes)• Analyse et architecture
• Cédule• Kickoff• Revue des besoins• Analyse des données• Conception de l’application
• Installation• Configuration
• Chargements, mise en place des données• Mise en place des composantes requises
• Vérification• Déploiement• Transition (si la PdC demeure en place)
![Page 28: Commencer avec Hadoop](https://reader036.fdocument.pub/reader036/viewer/2022062307/557dcdb7d8b42ae4688b4b2e/html5/thumbnails/28.jpg)
CONCLUSION
![Page 29: Commencer avec Hadoop](https://reader036.fdocument.pub/reader036/viewer/2022062307/557dcdb7d8b42ae4688b4b2e/html5/thumbnails/29.jpg)
Conseils
• Informez-vous• Soyez supportés• Choisissez un business case clair, de base• Assurez-vous que les bénéfices sont des retombées
AFFAIRES• Commencez par une preuve de concept• Planifiez bien ce que vous désirez prouver• Attachez les bons intervenants• Utilisez Azure et HDInsight pour partir plus rapidement