Hugfr infotel-11 juin2014
-
Upload
hadoop-user-group-france -
Category
Technology
-
view
774 -
download
0
description
Transcript of Hugfr infotel-11 juin2014
#Hadoop Stories avec Infotel & Ericsson#Hadoop Summit overview
Twitter : #hugfrFollow @hugfrance
Som
mai
re
Historique Infotel en 2mn
Classification dans le monde du brevet
Hadoop + MongoDB + ElasticSearch pour un portail survitaminé
Q?/R
11 Juin 2014
PART 1 : CLASSIFICATION SUPERVISEE
8 Octobre 2013
Comment Hadoop s’est imposé à Infotel ?
Au départ, en 1979, était le MainFrame
11 Juin 2014
Automobile & Industrie
Banque & Finance
Transport
Services
Comment Hadoop s’est imposé à Infotel ?
Une expertise sur la gestion de grands volumes de données non démentie dans le temps
11 Juin 2014
Comment Hadoop s’est imposé à Infotel ?
En 2014, le MainFrame est toujours là!
11 Juin 2014
Banque & Finance
Aéronautique & Services
Mobile / Web
Assurance, retraite
Propriété IntellectuelleConstruction automobile
BI
Office de brevet: les grandes lignes métier
Qualifier les demandes de brevets émises auprès de l’office.
Confronter les requêtes auprès de l’historique interne
Valider la pertinence au regard des autres offices
Offrir des outils de mise à disposition de l’information:Aux entreprises et au grand public pour qu’il puisse faire des recherches d’antécédents ainsi qu’un suivi de leur demandes,
Aux offices nationaux et internationaux
11 Juin 2014
Les familles d’applications d’un office de brevet
811 Juin 2014
Notre projet : Classification de la ‘Non-Patent Litterature’
11 Juin 2014
130 Millions de documents
Acquis par divers flux:Web (crawling, plugin FF) / ‘Bibliothèques’ / OCR
Labelliser, Identifier & Classer
La classification sert à : Améliorer le patrimoine documentaire
o Meilleure organisation,o Nettoyage (doublons)
Créer des opportunités de parcours et de recherche
Aperçu de l’algorithme
Première étape : générer la carte d’identité ou l’ADN pour chaque document
11 Juin 2014
1,4 Milliard de clés composites générées pour marquer chaque document
Une volumétrie en entrée modeste, mais une volumétrie temporaire et une puissance de calcul importantes.
Q DocId Key[99] 000025829793 [99]-10.1016/0015-6264(68)90089-8[90] 000025829793 [90]-0015-6264-6-1-65-FOCOTO[85] 000025829793 [85]0015-6264-FOCOTO-1-65[80] 000025829793 [80]0015-6264-6-FOCOTO-65[75] 000025829793 [75]0015-6264-6-1-FOCOTO[68] 000025829793 [68]0015-6264-6-1-65[65] 000025829793 [65]0015-6264-0-1-65[60] 000025829793 [60]0015-6264-6-0-65[55] 000025829793 [55]0015-6264-6-1-0[50] 000025829793 [50]0015-6264-0FOCOTO-65[45] 000025829793 [45]0015-6264-FOCOTO-0-65[45] 000025829793 [45]0015-6264-0-1-FOCOTO[40] 000025829793 [40]0015-6264-6-0-FOCOTO[40] 000025829793 [40]0015-6264-FOCOTO-1-0[35] 000025829793 [35]0015-6264-6-FOCOTO-0[01] 000025829793 [01]000025829793
Qualité(pondération)
Valeur
Aperçu de l’algorithme
Deuxième étape : appliquer une stratégie de ‘Community detection algorithm’
11 Juin 2014
Ex : Classification de cellules
Principes simplifié
Notre classification documentaire:- Trouver les liens forts,- Casser les liens faibles,- Limiter les faux-positifs,
Aperçu de l’algorithme
Concordance et Non-concordance de clés
11 Juin 2014
Calculer la proximité de documents dans le Corpus
Le document qui postule est trop éloigné de la clé d’identité du groupe
Transposition en MAP / Reduce
17 Itérations
11 juin 2014
Q DocId Key[99] 000025829793 [99]-10.1016/0015-6264(68)90089-8[90] 000025829793 [90]-0015-6264-6-1-65-FOCOTO[85] 000025829793 [85]0015-6264-FOCOTO-1-65[80] 000025829793 [80]0015-6264-6-FOCOTO-65[75] 000025829793 [75]0015-6264-6-1-FOCOTO[68] 000025829793 [68]0015-6264-6-1-65[65] 000025829793 [65]0015-6264-0-1-65[60] 000025829793 [60]0015-6264-6-0-65[55] 000025829793 [55]0015-6264-6-1-0[50] 000025829793 [50]0015-6264-0FOCOTO-65[45] 000025829793 [45]0015-6264-FOCOTO-0-65[45] 000025829793 [45]0015-6264-0-1-FOCOTO[40] 000025829793 [40]0015-6264-6-0-FOCOTO[40] 000025829793 [40]0015-6264-FOCOTO-1-0[35] 000025829793 [35]0015-6264-6-FOCOTO-0[01] 000025829793 [01]000025829793
Co
ns
truc
tion
de
l’arb
re
Mainframe vs Hadoop : le match
11 juin 2014
MainFrame Hadoop
Coûts de développementUtilisation du générateur d e
clés Java
Coûts de mise en productionHW + Soft
Commodity Hardware
Disques (300Go temp) + MSU
Ouverture à de nouveaux usagesIntégration avec la
classification temps réel
Complexité de mise en œuvre Connecteurs MF 2 Hadoop
Données sous MF
Avantage à Hadoop (léger)
Hors jeu de par son MapReduce non Robuste, MongoDB est utile sur la
chaine de traitement
Architecture technique globale
11 juin 2014
DB2
Dump
XML + EBCDIC
Clés générées sur MongoDB
En Java
ETL
MongoDB
2 collections: biblio + clé
++ schemaless
Hadoop
BSON
BSON
150GbPar MongoDB
Connector 200 Gb
Vérification & stats
EBCDIC
Run >= 12h
Focus cluster
Hadoop:Un cluster modeste de 7 nœuds
32Go RAM / 4 cœur
Facteur de réplication : 3
11 juin 2014
Résultat
La classification
…et les restitutions graphiques de la phase de validation
Performance Tips
Enchainement de 33 jobsPassage de 1h à 25mn pour le plus coûteux
Optimisation des paramètres pour exploiter toutes les ressources du cluster
Nombre de Reducer,
Ajustement de l’allocation mémoire,
Equilibrage entre les deux disques présents sur chaque nœud
Répartition des opérations de lecture /écriture
11 juin 2014
Optimisation du map et du reduce
mapreduce.task.io.sort.mbmapreduce.task.io.sort.factor
etc…
dfs.datanode.data.dir et yarn.nodemanager.local-dirs
Performance Tips 2/2
CompressionGain important lors du shuffle avec la compression
Taille des blocks HDFS
JVM et mémoireUne batterie de paramètres finement ajustés
Taille occupée par la tâche en RAM, taille de la JVM, taille des mémoires tampons, etc ...
A suivre ….11 juin 2014
mapreduce.output.fileoutputformat.compressmapreduce.output.fileoutputformat.compress.codec
mapreduce.map.memory.mbmapreduce.reduce.memory.mb
Points divers
L’équipe 1 CP
4 Développeurs Hadoop / Java / MongoDB
1 Développeur MainFrame
La suite : Industrialisation des flux,
Spark !: transposition de l’algorithme pour accélérer drastiquement les traitements
Utilisation en mode ‘Temps Réel / Incrémental’
11 juin 2014
PART 2UN PORTAIL SURVITAMINE
11 juin 2014
DataMining & BigDataBaobab : Explorer une galaxie documentaire
Objectif n° 1:
Acquérir / Stocker / indexer
Objectif n° 2:…..
Objectif n° 3:…..
photos vidéosDonnées & méta
données 10 To
synchroMongoDB ElasticSearch
mainframe
DataMining & BigDataBaobab : Explorer une galaxie documentaire
Objectif n° 1:
Acquérir / Stocker / indexer
Objectif n° 2:
Rechercher intelligemment et Visualiser
Objectif n° 3:…..
Visualisation
Répartition dans le temps
Répartition géographique
Recherche ‘plein texte’ en qqs ms
Recherche par critères
Parcours par proximité
Lecture ergonomique
DataMining & BigDataBaobab : Explorer une galaxie documentaire
Objectif n° 1:
Acquérir / Stocker / indexer
Objectif n° 2:
Rechercher intelligemment et Visualiser
Objectif n° 3:
Comprendre et suggérer
Exploration statistique supervisée et non supervisée pour ‘comprendre’
Hadoop
TF - IDF
Dictionnaire / langue
Règles métier
Extraction des mots pertinents
Nettoyage d’informations
parasites et affinage
Alignement sur les spécificités du domaine
BOOST de SCORE
DataMining & BigDataBaobab : Explorer une galaxie documentaire
Objectif n° 1:
Acquérir / Stocker / indexer
Objectif n° 2:
Rechercher intelligemment et Visualiser
Objectif n° 3:
Comprendre et suggérer
Nuages de mots
hexafluoride
uraniumfluorine
Recommandations
Tendances Classification supervisée / non supervisée
VIDEO
Prochainement
11 juin 2014
Machine Learning avec Spark – Classification hiérarchique de documents texte
11 juin 2014
A suivre…
Notre livre blanchttp://infotel.com/services/big-data-360/formulaire-livreblanc/
@hstef