AVRIL 2014 Au delà de Hadoop - bigdataparis.com · 10 NOSQL QU-EST CE QUE C’EST ? Avril 2014 Au...

Panorama des solutions NoSQL

AVRIL 2014

Au delà de Hadoop

QUI SOMMES NOUS ?

Avril 2014 Au delà de Hadoop

SMILE, EN QUELQUES CHIFFRES

1er INTÉGRATEUR EUROPÉEN DE SOLUTIONS OPEN SOURCE

NOS EXPERTISES ET NOS CONVICTIONS

DANS NOS LIVRES BLANCS

EXPERTISE

NOS PRINCIPALES SOLUTIONS

QUE FAIT-ON POUR VOUS ?

CONSEIL Cadrage / Audits / Benchmark

AGENCE Identité visuelle / Ergonomie

Accessibilité / Stratégie

Éditoriale / Référencement

EXPLOITATION Hosting / Infogérance /

Maintenance corrective et

évolutive / Support

FORMATION Accompagnement au changement

Formation intra et inter entreprises

INGÉNIERIE Conception / Développement /

Paramétrage

DES SERVICES DE

GRANDE QUALITÉ

POUR UNE

COUVERTURE À 360°

DE VOS PROJETS

NOTRE SAVOIR FAIRE

2 livres blancs

Articles sur le blog des experts Smile

Exemples de projets Big Data réalisés

SMILE ET LE BIG DATA

Intégration de MongoDB pour

motoriser le catalogue produits

du site E-commerce

Eclatement de pièces d’achat

pour rapprochement

Mise en œuvre de 2 clusters de

données MongoDB

QU-EST CE QUE C’EST ?

NoSQL prône la spécialisation :

Les bases NoSQL sont optimisées pour certains patterns d’accès aux données

Les contraintes (durabilité, réplication, cohérence, …) adapté au cas d’usage

Ce sont majoritairement des bases de données opérationnelles :

Latence faible

Taille moyenne (quelques TO)

Remplacement ou complément de SQL (Not Only SQL)

Fonctionnalités généralement supportées :

Réplication et « eventual consistency » paramétrable

Failover automatisé

Répartition des données sur un cluster (sharding)

BESOIN N°1

D’une manière générale, il est

préférable de privilégier la scalabilité

horizontale :

Matériel moins couteux (commodity hardware)

Disponibilité de matériel de machines de

rechange.

Capacity planning : évolution plus progressive

des investissements, ajout de matériel et non

remplacement

Pour les plus grosse architecture : la limite du

scale up est atteinte rapidement

DISTRIBUER LES DONNEES ET LEUR TRAITEMENT

Scalabilité verticale

Scalabilité horizontale

RDBMS ET SCALABILITE HORIZONTALE

Deux problèmes principaux :

ACID : les RDBMs classiques sont

conçus pour se comporter comme

des systèmes transactionnels

cohérents. Le maintien de la

cohérence des données dans un

système distribué n’est pas possible

en assurant à la fois le

partitionnement des données et la

disponibilité du système

Le maintien de l’intégrité

référentielle (contraintes) est très

couteux dans une système

distribué.

RDB PICK

TWO OF

Consistency

Availability Partition

tolerance

CAP Theorem

BESOIN N°2

NoSQL ne prône pas l’abandon de SQL mais bel et bien la spécialisation des bases de données

Ce n’est pas entièrement nouveau :

LDAP est un exemple de NoSQL

La spécialisation induit de nouveaux paradigmes :

Clé-Valeur

Documentaire

Graphes

Orientée Colonnes

Les moteurs de recherche

SPECIALISATION DES BASES DE DONNEES

NoSQL = Not Only SQL

BESOIN N°3

Toutes les données n’ont pas la même valeur

La durabilité de la données est l’un des critères impactant le plus directement les performances

Toutes les solutions n’apportent pas les même garanties de

durabilité et n’utilisent pas les même méthodes

Redis dispose d’un paramètre général (équivalent à MySQL)

MongoDB : laisse au développeur le soin de spécifier la durabilité par requête

ADAPTATION AU CONTRAINTES DE DURABILITE / COHÉRENCE

BESOIN N°4

Deux problématiques distinctes :

Distribution des données

Réplication des données

Le système peut t’il être déployé sur plusieurs DataCenter ?

Impact sur les performances ?

En cas de perte du lien ?

Comment est gérée la cohérence entre les différents nœuds ?

Eventually Consistent (Cassandra) ?

Localisation du master dépendant des données (MongoDB) ?

ADAPTATION AUX PROBLEMATIQUE D’INFRASTRUCTURE

Janvier 2014 NoSQL : Les concepts

A chaque cas

d’usage

correspond un

type de base

LES DIFFÉRENTS TYPE DE BASES

Base clé-valeurs

Bases documentaires

Orienté graphe

Base orientée colonne

Moteurs de recherche

BASE DE DONNÉES CLÉ-VALEUR

Offre peu de fonctionnalités : principalement CRUD

Performance souvent en pointe grâce à la simplicité du système

La plupart des systèmes NoSQL sont avant tout des bases de données clé-valeur

Solutions :

MemCached

Voldemort

Amazon Dynamo (SaaS)

BASE DE DONNÉES DOCUMENTAIRES

Offre plus de fonctionnalités, nottament de requêtes complexes sur les documents :

Systèmes de vues : CouchBase, CouchDb

Requête MapReduce : MongoDB, Riak

Language de requête spécifique MongoDB

Mécanisme de hook permettant l’extensibilité : CouchDB, Riak

Nécessairement, l’ajout de ces fonctionnalités à un impact sur les performances

Solutions :

MongoDB

CouchDB

CouchBase

BASE DE DONNÉES ORIENTÉE GRAPHE

Basiquement une base de données orientée graphe est une base de données clé-valeur ou documentaire à laquelle on ajoute :

Un stockage de liens entre les objets

Une API permettant de parcourir le graphe ainsi formé

Cas d’utilisation majeurs :

Knowledge Graph

Réseaux sociaux

Recommandations

Solutions :

OrientDB

BASE DE DONNÉES ORIENTÉE COLONNE

Reprise sur une base clé-valeur d’une idée déjà utilisée pour des bases

spécialisées dans l’analyse (VerticaDB par exemple) :

Stocker ensemble toutes les données d’une colonne plutôt que celle d’une ligne

Performances :

Rend les fonctions d’agrégation plus efficaces (somme, moyenne)

Penalise la lecture et l’écriture d’un objet complet

Solutions :

Cassandra

Accumulo

LES MOTEURS DE RECHERCHE

Reprise sur une base clé-valeur d’une idée déjà utilisée pour des bases

spécialisées dans l’analyse (VerticaDB par exemple) :

Stocker ensemble toutes les données d’une colonne plutôt que celle d’une ligne

Performances :

Rend les fonctions d’aggrégation plus efficaces (somme, moyenne)

Penalise la lecture et l’écriture d’un objet complet

Solutions :

ElasticSearch

HADOOP ET NOSQL

DEUX MONDES

Latence faible des requêtes (100ms – 1s.)

Concurrence élevée

Lecture / Ecriture

Volume de données faibles (Go, To)

Applications : Vue donnes 360°, Gestion de commandes, Stocks, Catalogue produits, Content management …

SYSTÈME OPÉRATIONNEL

NoSQL et bases relationnelles

Latence importantes des requêtes > 1s.

Concurrence réduite

Lecture principalement

Volumes de données importants (To, Po)

Applications : BI, Analytics, Détection fraudes, Etude de risque, Scoring, Search Quality

SYSTEME DECISIONNEL

Hadoop et OLAP

DEUX TECHNOLOGIES

Export des données opérationnelles pour analyse Export des analyses pour utilisation

opérationnelle

MIDDLEWARES

NOSQL ET HADOOP

SÉLECTION DE MIDDLEWARES

Chargement de données en masse :

Apache Sqoop

Agrégation de flux de données :

Flume, Scribe, Logstash

Event processing : Storm, Akka

ETLs :

Pig : the Hadoop script ETL

Talend, Pentaho Data Integration

APPLICATIONS CONCRÈTES

QUELQUES

DÉVELOPPEMENT PHP

SESSIONS ET CACHE VIA REDIS

Objectif :

• Sécuriser les sessions

utilisateurs en assurant

leur persistance

• Silo de session par

DataCenter

• Traffic important :

concurrence élevée

Solution préconisée : stockage dans Redis

Avantages :

Durabilité paramétrable : bon compromis entre performances et sécurité des données

Réplication

Mise en œuvre rapide

Inconvénients :

Sharding au niveau applicatif

Cross Datacenter difficile (réplicaiton unidirectionnelle et par shard)

Failover manuel (Sentinel)

Autres utilisations possibles :

Stockage de caches applicatifs

Middleware basique (pushsub pattern)

E-COMMERCE

PASSAGE À L’ECHELLE DE MAGENTO

Objectif :

• Réduire l’impact du

modèle de données

de Magento sur les

performances

• Gérer des catalogues

de plusieurs millions de

produits

Solutions hybride de stockage des produits :

MySQL : stockage de la référence du produit (clé étrangère dans de nombreux) + stock (données typiquement transactionnelle)

MongoDB : stockage des attributs du produits

Gains :

Augmentation drastique des performances de lecture et d’écriture (x10 à x20)

Meilleure scalabilité (sharding) et failover automatisé

OpenSource :

http://github.com/Smile-SA/mongogento

E-COMMERCE

MOTEUR D’OPTIMISATION

Objectif :

• Peser sur l’offre

présentée aux clients

pour vendre plus et

• Rétroaction des

comportements

utilisateurs

• Fonctionnalités de

recommandations

Collecte de données

•Tracker classique :

•80 variables suivies (session et page)

Agrégation des logs

•Transfert des logs vers Hadoop (HDFS) via Flume

•Script Pig :

•Consolidation par session utilisateur

•Lutte contre le spam de pixel

Valorisation des données

•Script Pig

•ProductRank (popularité de fond + tendance)

•Association terme de recherche + attributs produits

•Scoring autocomplétion

Utilisation

•Indexation :

•Ajout des données valorisées à l’index produits (ElasticSearch)

•Utilisation des données valorisées dans les requêtes

REAL USER METRICS

COMPRENDRE LES PERFORMANCES DE VOTRE SITE

Objectif :

• Comprendre l’impact

des performances sur

les métriques business

• Décider d’un plan

d’action et mesurer

son efficacité

• Offre SaaS mutualisée

• Permettre l’exploration

des données par les

utilisateurs

Modification du tracker de moteur d’optimisation

pour porter les données de performances

Indexation dans ElasticSearch de session

Utilisation du framework d’aggregation

d’ElasticSearch

VISION A 360° DU CLIENT

Objectif : • Niveau d’information

permettant le conseil adéquat

• Déploiement large :

• Service client

• Terminaux mobiles dans les magasins

• …

• Restitution au client

(agrégation de profil)

• Alimentation par import ou API (ESB idéalement)

Couchbase Achat sur le

Réclamations

Paiement

Demande de support

Vue service client

Vue vendeur

Vue SAV Vue

compta

MERCI !!!

AVRIL 2014 Au delà de Hadoop - bigdataparis.com · 10 NOSQL QU-EST CE QUE C’EST ? Avril 2014 Au...

Documents

Transcript of AVRIL 2014 Au delà de Hadoop - bigdataparis.com · 10 NOSQL QU-EST CE QUE C’EST ? Avril 2014 Au...

Big$Data$Processing$using$ Hadoop$ - prace.it4i.czprace.it4i.cz/sites/prace.it4i.cz/files/files/hadoop-10-2015... · Original Hadoop distributed grep Hadoop+BlobSeer sort Execution

How to Use the PowerPoint Templates-event.cn › EDM › oracle › 161229 › ysd.pdf · 2016-12-30 · Oracle Big Data 云服务 （Hadoop and NoSQL） 3rd Party Cloud 以 BYOL

NoSQL 프로그래밍 : 한 권으로 끝내는 NoSQL 솔루션 활용법

Fisa disciplinei BD2 DM 2018-2019 - feaa.uaic.ro · (fișiere text, .csv, .xls, servere de baze de date SQL, servere NoSQL, Hadoop, NewSQL, web scrapping, API) Prezentare/demonstrații

Les familles NoSQL Cours 2 · 2020-04-11 · • Hadoop • Neo4j Contenu du chapitre Document Graphe. Le dilemme du stockage massif ... Amazon S3 et DynamoDB Memcached Infinispan

NOSQL - CRS4dassia.crs4.it/wp-content/uploads/2014/11/01_NOSQL.pdf · 2015-03-06 · NOSQL Origini e Significato NOSQL = NO a SQL NOSQL = Not Only SQL Il termine NOSQL fu introdotto

Hadoopソースコードリーディング 2回目 hadoopでwikipedia解析（≒hadoopでxml解析）

Real-time analytics with Storm, NoSQL, and Hadoop · PDF fileReal-time analytics with Storm, NoSQL, ... Storm has problems 0mq -> Netty TCP transition ! ... //github.com/nathanmarz/storm-contrib

NoSQL - expertojava.ua.esexpertojava.ua.es/experto/restringido/2014-15/nosql/slides/nosql03.p… · NoSQL © 2014-2015 Depto. Ciencia de la Computación e IA NoSQL - MongoDB Avanzado

Shift into High Gear: Dramatically Improve Hadoop & NoSQL Performance

SENSE - capgemini.com · • tu as un profil technique (Java /Hadoop, R, Python, Cloudera, Hortonworks), • tu disposes de connaissances en bases de données SQL, NoSQL,

How companies use NoSQL & Couchbase - NoSQL Now 2014

Hadoop - Abteilung Datenbanken Leipzig · 0 Hadoop HDFS und MapReduce Seminararbeit im Modul NoSQL-Datenbanken Bachelorstudiengang Informatik Universität Leipzig JOHANNES FREY UNTER

Hadoop Trends & Hadoop on EC2

NoSQL Databases

Adattárház alapú vezetői információs rendszerek · Yahoo! Hadoop, PNUTS Columnar NoSQL Twitter FlockDB, Cassandra, Hadoop/Hbase Graph, Columnar NoSQL Wikipedia Memcached, Flatfile,

Big Data en Fast Data technologie voor Business Intelligence · Big Data en Fast Data technologie voor Business Intelligence Hadoop, NoSQL, Spark, Kafka, Storm, NewSQL, Streams Verhelderende

NoSQL COLUNAS Jairo Tiburtino dos Santos. Roteiro Cenário Características Apache Cassandra Apache Hadoop.

DER UMGANG MIT DEM „DATENSCHATZ“ – … · IBM DB2, ORACLE, TERADATA EMERGING TECHNOLOGIES HADOOP & NOSQL HIGH PERFORMANCE BI SAP HANA, ... Orange Tata Consultancy Janz …

L’utilisation d’une base NoSQL (HBASE) dans un milieu ......L’utilisation d’une base NoSQL (HBASE) dans un milieu distribué (Hadoop) Année universitaire:2016-2017 i Remerciement

How to Use the PowerPoint Templates-event.cn › EDM › oracle › 161229 › ysd.pdf · 2016-12-30 · Oracle Big Data 云服务（Hadoop and NoSQL） 3rd Party Cloud 以 BYOL

Hadoopソースコードリーディング　2回目　　 hadoopでwikipedia解析（≒hadoopでxml解析）