Hadoop en 1461 leçons

Post on 21-Mar-2017

442 views 0 download

Transcript of Hadoop en 1461 leçons

HadoopHadoop

en 1461 leçonsen 1461 leçons

David MorelDavid Morel

1 / 22

Qui suis-je ?Qui suis-je ?

Dev chez Booking.com de 02/2007 à 11/2015

Frontend, Email marketing, Infra, Visitor personalization,puis Big Data (2011)

Il n'y a pas de problème, il n'y a que dessolutions

(beaucoup de solutions)

2 / 22

© Gareth Bogdanoff/flickr

L'effet recherchéL'effet recherché

3 / 22

© peasap/flickr

Le prix à payerLe prix à payer

4 / 22

©kunkelstein/flickr

Des data devenues vraimentDes data devenues vraimenttoo bigtoo bigAssez de scaffolding code !

Requêtes MySQL prenantplusieurs heures, voire jours !

Enough is enough !

5 / 22

Le prototypeLe prototypeVite fait, machines hétéroclites, jobs enHadoopStreaming. Mariage peu orthodoxe(Hadoop+Perl), mais des résultats encourageants, voiremagiques

6 / 22

Le premier Le premier vraivrai cluster clusterImport de tables de BDD (Sqoop) pour quelquesanalystes : permettre enfin les requêtes cross-DB

Manque de docs à l'époque. Plus le cas aujourd'hui :nombreux livres très utiles, voire obligatoires

Tout est à (ré)apprendre

7 / 22

Mise en productionMise en productionPassage rapide à deux clusters pour les tests deconfiguration, les upgrades et la redondance

Consultants Cloudera pour le bootstrap, utilisation deCM au début puis Puppet

8 / 22

Le dédale des optionsLe dédale des optionsC'est un cauchemar !

Aucune config standard adaptée

Théorie : les gros utilisateurs (early adopters) n'ont pasde temps pour la doc

Différent aujourd'hui ?

9 / 22

Nos premiers utilisateursNos premiers utilisateurs

Venant de MySQL, Hive était un choix évident

TRANSFORM est une killer feature10 / 22

Ce qu'ils nous apprennentCe qu'ils nous apprennentUne vélocité jamais atteinte, très favorable auxprocessus de développement itératifs

Un effort de formation très important :

mapreduce demande un paradigm shiftles utilisateurs voient une chose qui just works etcassent tout très facilement

11 / 22

La montée en chargeLa montée en chargeIngestion des events du site : millions, puis milliards deJSON par jour

Demande endémiquement sous-évaluée : croissance duvolume dans toutes les directions

Reprocess, big jointures : quelques indigestions

Prévisions d'espace disque et CPU : encore plusdifficiles sur un petit cluster

Les clusters sont de petits gros êtres fragiles

12 / 22

La minute de la haineLa minute de la haineLe jour où on a effacé toutes les partitions

Le jour où le FairScheduler est devenu fou

Le jour où le HistoryServer a fait tomber le cluster

Et les 1458 autres jours

De grands moments de solitude (surtout la nuit)

Chasser les bugs est so fun

13 / 22

Pourquoi tant de Pourquoi tant de hainehaine bugsbugsfun ?fun ?Parce que ce sont des systèmes jeunes !

Parce que ce sont des systèmes complexes (pas unsystème, mais un écosystème)

Parce que le développement est rapide, et laconcurrence féroce

Encore très loin de la stabilité et de la prévisibilité desSGBDR (même si c'est très différent)

14 / 22

Le cloud, pourquoi pas ?Le cloud, pourquoi pas ?Obstacles culturels et confidentialité

Le faire si l'on peut, surtout pour le démarrage : seconcentrer sur la valeur, pas sur la plomberie

Virtualisation in-house ? Now you have 2 problems

15 / 22

La division du tempsLa division du temps40 % troubleshoot infra, maintenance, évolution

40 % troubleshoot users, formation, assistance

40 % codage de scripts de monitoring, et facilitationd'accès pour les users

Demande un peu d'organisation :-)

16 / 22

Des solutions ?Des solutions ?Briques de bases (automatisation, profiling, grossesconfig comme Kerberos) à implémenter toujours trèstôt ; les systèmes distribués ne rendent pas les chosesplus simples

Peut-être une 2ème équipe déchargée du supportutilisateurs ?

Favoriser la diffusion de la connaissance, utiliser desoutils adaptés, type StackOverflow. Former desutilisateurs experts qui forment les autres

Classique, non ? Presque...17 / 22

La récompenseLa récompenseUn analyste: "Without you guys, I simply

couldn't do my job anymore"

Yeehaa! 18 / 22

Recette : réussir ses lasagnesRecette : réussir ses lasagnesà la big dataà la big dataUn investissement humain et matériel important, unR.O.I incertain

Le data-centrisme et la transdiciplinarité en préalable

Pourquoi ai-je besoin d'Hadoop ? Quelles alternatives ?

Comme toujours, la clé est dans la qualité de l'exécution

Workhorses, not show ponies ; faire bien une chose,plutôt que dix mal

19 / 22

Une promenade de santéUne promenade de santéAllez-y !

20 / 22

Une promenadeUne promenade

de santéde santéAllez-y !

(doucement, quand même)

21 / 22

david.morel@amakuru.net

http://www.amakuru.net/

22 / 22