Post on 01-Dec-2015
description
Remerciements
En préambule à ce mémoire, nous tenons à remercier Monsieur Patrice Guillon, notre
Directeur de mémoire, qui s’est toujours montré à l’écoute et disponible.
Nous adressons également nos plus sincères remerciements aux personnes qui nous
ont apporté leur aide et qui ont contribué à l’élaboration de ce travail de recherche, à
savoir :
- Philippe KUHN, Business Développeur Veille & Innovation chez Digimind,
- Henri ISAAC, Professeur associé à l’université Paris-Dauphine,
- Luc BYHET - Chargé de l’innovation & stratégie marketing chez Commerce Guys,
- Julien MORESCHETTI - Ingénieur avant vente & Architecte solution chez IBM
- Bruno DA COSTA OLIVEIRA - Chargé de l’innovation produit chez MYTF1 VOD
- Thomas Chiron - Directeur de production chez Napoléon production
- Yoan Cabidoche - Data Analyst chez Carat (Groupe AEGIS Media)
Table des matières
introduction ..................................................................................................................... 1
I. Le marché de la donnée ........................................................................................... 5 A. Les différents types de données .............................................................................. 5
1. Les données internes et externes ..................................................................................... 5 2. Les données structurées et non structurées ................................................................... 11
B. L’enjeu de l’analyse des données internes ........................................................... 13 1. Les pratiques actuelles ................................................................................................... 13 2. Les moyens de demain ................................................................................................... 16
II. Big Data .................................................................................................................. 20 A. Caractéristiques et fondements du Big Data ......................................................... 20
1. Le Volume ....................................................................................................................... 20 2. La Variété ....................................................................................................................... 25 3. La Vélocité ...................................................................................................................... 29 4. La Véracité ...................................................................................................................... 33
B. Facteurs clés de succès .......................................................................................... 35 1. Une méthodologie éprouvée ........................................................................................... 36 2. La stratégie de recrutement ............................................................................................ 41
III. Big Data, Big business ? ...................................................................................... 43 A. Maîtriser son marché et sa marque ........................................................................ 43
1. Connaître son marché .................................................................................................... 43 2. Connaître sa marque ...................................................................................................... 44 3. Anticiper des évènements .............................................................................................. 45
B. Connaître sa clientèle .............................................................................................. 46 1. Une granularisation poussée du profil client ................................................................... 46 2. Le Community Management et la méthode de l’embasement ....................................... 48
C. L’avènement du “Marketing on Demand” .............................................................. 50 1. Les outils de recommandation ........................................................................................ 50 2. Vers une “boutique on demand” ..................................................................................... 54 3. Un marketing prédictif ..................................................................................................... 55 4. Le Big Data et la recherche de la Qualité ....................................................................... 58
IV. Difficultés et dérives du Big Data ....................................................................... 59 A. Un principe de prédiction remis en cause ............................................................. 59
1. Les techniques prédictives encore peu rentables ........................................................... 59 2. Une durée d’intégration plus longue que prévue ............................................................ 61 3. Une veille améliorée par l’arrivée du Big Data ................................................................ 62
B. La difficile conduite du changement au sein de l’entreprise ............................... 64 1. Les entreprises ne sont pas prêtes ................................................................................. 64 2. Les organisations internes ne sont pas prêtes ............................................................... 66
3. Le problème majeur que représente la qualité de la donnée ......................................... 67 C. Le Big Data, c’est pour quand ? ............................................................................. 68 D. Cadre juridique et réveil de l’internaute ................................................................. 70
1. Le rôle fondamental de l’internaute ................................................................................ 71 2. Les gouvernements à la croisée des chemins ................................................................ 73
Conclusion .................................................................................................................... 76
1
introduction
L’avènement du numérique, accompagné des nouvelles technologies mobiles a
considérablement augmenté la quantité et la nature des données qui circulent au sein
de l’écosystème numérique. A titre d’exemple, 90% des données dans le monde ont été
créées au cours des deux dernières années. Les données sont partout, des capteurs
utilisés pour collecter les informations climatiques, des messages sur les sites de
médias sociaux, des images numériques, des signaux GPS de téléphones mobiles...
Elles sont aujourd’hui la représentation mathématique ou statistique d’une activité
opérée par un internaute, un détenteur de Smartphone, d’une TV connectée ou tout
autre appareil relié à internet. Elles sont le reflet de sa personnalité, de ses usages, de
ses préférences d’achats, de ses goûts et de ses envies.
Cependant, le terme est vaste et la définition que l’on a des data est souvent floue.
Mais alors, de quoi parle-t-on exactement ? Quelles sont les données à disposition des
entreprises et quelle est leur maturité par rapport au marché de la data ? De grands
acteurs du numérique comme IBM ont, par le passé, apporté bon nombre de solutions
technologiques qui permettent aujourd’hui aux entreprises d’exploiter des données.
Nous pensons notamment aux outils d’informatique décisionnelle, tels que la Business
Intelligence1 qui, depuis le début des années 2000, permet aux entreprises de connaître
et de comprendre les ressorts de leurs activités (logistique, commerciale, management
de la qualité, etc.).
L’arrivée prochaine de “l’internet des objets” (Google Glass, montre numérique, etc.) et
la démocratisation massive des plateformes sociales (Facebook, Twitter) va pourtant
constituer une étape supplémentaire dans l’exploitation des données. Il s’agira cette
fois-ci de récolter, de traiter et d’exploiter des données créées par l’internaute sur des
territoires étrangers aux marques. Et, alors que des outils comme la Business 1 Désigne les moyens, méthodes et outils qui permettent de récolter, traiter et modéliser les données de l’entreprise en vue d'offrir une aide à la décision et de permettre à un décideur d’avoir une vue d’ensemble de son activité.
2
Intelligence montrent actuellement leurs limites quant à l’exploitation de ces nouvelles
données (commentaires, avis sur les forums, etc.), comment les entreprises vont-elles
opérer cette transition qui s’annonce de toute évidence complexe ? Ces changements
imposent aux entreprises de trouver de nouvelles solutions pour faire face à cette
prolifération des donnés. Lesquelles ?
Une des solutions évoquées depuis quelques mois porte le nom de “Big Data”2.
Véritable Buzzword de l’année 2013 - Indice 1003 selon Google Trends - le Big Data est
attendu par les acteurs du numérique comme un véritable messie. Il est, à ce titre,
supposé répondre à l’intégralité des enjeux du marché de la donnée, à savoir, la
volumétrie, le temps réel, la variété ou encore la véracité des données. Alors, quelles
sont véritablement les solutions apportées par le Big Data et quelles sont les principales
différences avec les systèmes actuels ? Comment les entreprises vont-elles pouvoir
mettre en place des architectures capables de supporter des téraoctets de données
sans sombrer dans un marasme géant ? De nombreux intervenants nous ont aidé à
répondre à ces questions, qui sont pour la plupart des explications techniques que nous
avons tenté de vulgariser au maximum. De la même manière, nous avons souhaité
pointer les principaux facteurs clés de succès du Big Data, car, il est clair que, s’il
permet de répondre aux défis du numérique, la transition s’annonce ardue. Elle semble
pourtant nécessaire.
En effet, tout l’intérêt du sujet repose sur les perspectives et les opportunités induites
par le Big Data, qui promettent d’ailleurs d’être colossales. Le marché mondial du Big
Data est évalué à 24 milliards de dollars à l’horizon 20164. On parle également d’une
croissance annuelle de l’ordre de 31,7%. La principale raison de ce succès réside dans
la diversité des usages rendus possibles par le Big Data. En exploitant au mieux les
données, les entreprises s’offrent de nouveaux leviers de croissance, mais également
2 Le Big Data peut être défini par sa capacité à traiter l’intégralité des données du web et de l’entreprise. Il apporte également des solutions pour résoudre les problématiques de volumétrie et de vélocité. On entend par vélocité la capacité des entreprises à collecter, analyser et exploiter les données en temps réel. 3 le nombre 100 correspond au volume de recherche maximal 4 http://www.zdnet.fr/actualites/big-data-un-marche-de-24-milliards-de-dollars-en-2016-39786119.htm
3
de rentabilité ou de qualité. Des secteurs porteurs comme la criminologie ou la
médecine ont déjà adopté le Big Data. Alors, comment la donnée a-t-elle redéfini les
usages de secteurs aussi complexes ? Une partie de notre travail de recherche a
consisté à comprendre en quoi le Big Data représente une véritable rupture dans les
métiers du marketing. En effet, la granularisation5 du client a d’ores et déjà redéfini et
rendu obsolète les principes de la moyenne ou du modèle Pareto6. De ce fait, quels
sont les stratégies et les usages marketing qui pourront être mis en place grâce à ce
travail sur la donnée ? S’agit-il vraiment d’une révolution, et, existe-t-il des points
d’ombre au Big Data ?
En effet, bien que les experts soient unanimes sur sa capacité à modifier notre vision du
client ainsi que l’ensemble de nos méthodes d’analyse, nous avons souhaité en
apprendre davantage sur les difficultés réellement rencontrées par les entreprises.
Quelles sont, en ce sens, les raisons qui pourraient nous pousser à considérer
davantage le Big Data comme un paradigme et non plus comme la révolution
attendue ? Derrière ce travail d’évangélisation, il existe effectivement de vraies zones
d’ombre, que ce soit en termes technologiques, organisationnelles, et bien sûr
juridiques. Remettent-elles pour autant en cause l’existence du Big Data ou vont-elles
simplement retarder son application ? A partir des éléments que nous avons recueillis, il
est probable que cette deuxième hypothèse soit la plus probable.
Pour répondre à cette problématique, des ouvrages comme «Big Data Now» et «Big
Data : A revolution that will transform how we live, work and think», ainsi que de
nombreuses études numériques (livres blancs, études de marché) et enfin un grand
nombre d’articles de la presse généraliste et spécialisée nous ont permis d’appréhender
les grands lignes du sujet. Nous avons ensuite assisté, lors de la deuxième étape de
recherche, à deux conférences, EBC et Athènes. Elles nous ont apporté des
connaissances ainsi qu’une vision plus stratégique et opérationnelle des enjeux du Big
Data associés aux métiers du marketing.
5 pratique qui consiste à segmenter au maximum un contenu ou un échantillon 6 Modèle qui soutient que 20% des causes produit 80% des effets.
4
C’est pourtant notre troisième phase de recherche qui fut la plus fondatrice, à savoir les
entretiens avec Luc Byhet, Henry Isaac, Philippe Kuhn, et Julien Moreschetti, tous en
contact direct ou indirect avec les vraies problématiques métiers qu’impliquent le Big
Data. D’autres intervenants, comme Bruno Da Costa Oliveira, Thomas Chiron ainsi que
Yoan Cabidoche, nous ont permis à travers leurs métiers respectifs, d’affiner notre
problématique et de partager leurs visions du Data Management.
5
I. Le marché de la donnée
A. Les différents types de données
Les sources s’accordent toutes sur un même point, une « donnée » peut être définie, au
sens propre du terme, comme un élément d’information qui sert de point de départ à un
raisonnement. Les révolutions technologiques successives ont, depuis, mis en avant
une autre définition. Une donnée est principalement définie comme la représentation
d’une information en vue d’un traitement automatique.
Aujourd’hui, les données représentent la brique de base des sociétés de l’information.
Alors que la loi de Moore7, qui prédisait un dédoublement de la capacité de calcul des
ordinateurs tous les 18 mois, touche à sa fin, il est temps de reconsidérer l’intégralité
des enjeux que représentent les « données » pour les entreprises.
Dans cette partie, nous tenterons d’effectuer un audit des données que les entreprises,
dans leurs globalités, possèdent pour faire fructifier leurs business.
1. Les données internes et externes
a. Les données internes
i. Définition et usages
Les données internes portent sur l’activité de l’entreprise. Elles relèvent de son propre
écosystème et englobe l’intégralité de la chaîne de production, de la supply-chain à la
production, en passant par les ventes. Elles peuvent être qualitatives ou quantitatives.
En mettant en place des outils de “collecte”, une entreprise peut connaître l’état de son
business, ses facteurs clés de succès, ses sources d’améliorations et les leviers
d’actions à sa disposition. Une première approche consiste à mieux connaître ses 7 http://www.generation-nt.com/fin-loi-moore-actualite-1717372.html
6
clients, ses concurrents, son marché, ses résultats et sa chaîne d’opération. Cette
connaissance se caractérise, par exemple, par la mise en place de KPI (Key
Performance Indicator) qui renseigne sur l’atteinte des objectifs et la bonne santé de
l’activité. Chez ShowRoomPrivé.com par exemple, l’utilisation du NPS (Net Promoter
Score) représente la clé de voute de l’activité. Ce KPI permet de diagnostiquer la fidélité
et le taux de recommandation client. L’entreprise peut ainsi identifier les promoteurs ou
ambassadeurs sur lesquels la marque peut s’appuyer pour lancer une opération de
communication, augmenter sa viralité, et bien d’autres usages.
Philippe KUHN, Business développeur veille & innovation chez Digimind, nous en dit
plus sur les usages actuels associés au traitement des données.
“Une entreprise est aujourd’hui capable de récolter suffisamment de données pour
établir un Dashboard de ses ventes (géolocalisé, par produit, etc.), de ses retours clients
(répartition des retours et statistiques associées), de sa chaîne logistique, etc. Elle est
ensuite en mesure de proposer des solutions pour augmenter la qualité de son produit
ou de son service.” 8
Pour répondre à ce besoin, de nombreux outils de CRM (Customer Relationship
Management) proposent des solutions modulables et adaptées à chaque secteur
d’activité. Au cours de ces dernières années, l’accès à ce type de solutions est
d’ailleurs devenu suffisamment simple et abordable pour que le marché français
atteigne les 5 milliards d’euros en 20139. Une société comme Sales Force propose
l’accès à ses services sur la base d’un abonnement mensuel et en mode SaaS10.
Thomas Chiron, Directeur de production chez Napoléon (Architecture de l’information et
optimisation UX), nous explique quels sont les apports de la data dans le domaine de la
conception et de l’expérience utilisateur.
8 Entretien Philippe KUHN - Business Développeur, veille & innovation chez Digimind - 20 mai 2013 9 http://www.xerfi.fr/etudes/1sae18.pdf 10 L’appellation SaaS (Software as a Service) caractérise une solution logicielle installée sur un ordinateur distant dont l’utilisateur peut bénéficier depuis n’importe quel appareil, et depuis n’importe où.
7
“Les statistiques de navigation de l’internaute (parcours client, taux de rebond...) sont
structurantes sur ce qu’il faut améliorer sur une plateforme Web ou mobile. Le temps où
les plateformes se créaient uniquement sur la base de l’intuition est révolu. Aujourd’hui,
les statistiques aident à définir les grandes lignes de ce que sera ou ne sera pas une
plateforme. Cela peut passer par la valorisation d’une catégorie au fort taux de
transformation mais qui génère pourtant peu de trafic à cause de son manque de
visibilité... Beaucoup d’usages sont possibles”. 11
L’amélioration des sites Web ou applications à partir des données de parcours clients
(les plus visitées, durées, parcours détaillées menant à l’achat, taux de rebond) est une
des solutions qui permettent de réduire au maximum la prise de risque.
Ce constat est également partagé par Philipe Kuhn.
“La conception d’une bonne application nécessite de bien connaître ses clients. La
navigation au sein d’une plateforme et l’usage proposé aux consommateurs doit être en
accord avec leurs niveaux d’expertise sur les nouvelles technologies. Une application
comme MYTF1 VOD doit respecter l’identité de ses clients pour adapter l’interface
produit. Cette connaissance passe aujourd’hui par la récolte de données”. 12
Le marché est suffisamment mature pour proposer des solutions techniques adaptées à
chaque secteur d’activité. Parmi eux, on trouve Google Analytics qui propose des
moyens simples permettant à toutes entreprises disposant d’une plateforme Web de
connaître les statistiques liées à son activité.
Une autre approche porte sur les opportunités d’anticipation et de prévision qu’offrent
les données. En effet, sur la base d’une analyse historique des données (baisse des
ventes, modification du comportement utilisateur), une entreprise peut faire le choix de
privilégier un scénario plutôt qu’un autre, et ainsi occuper un nouveau territoire de
marque et/ou faire évoluer son offre. Une entreprise qui constate une baisse régulière 11 Entretien Thomas Chiron - Directeur de production - Napoléon production - 17 mai 2013 12 Entretien Phillipe Kuhn - Responsable Veille - Digimind - 22 mai 2013
8
en valeur d’un de ses segments de vente sera en mesure d’adapter son positionnement
et son offre par la même occasion.
Au niveau marketing, Philipe Kuhn, confirme l’utilité de cet usage.
“L’efficacité des campagnes marketing passe par une analyse segmentée de ses
consommateurs et de leurs habitudes d’achat sur la base des données récoltées. Un
service marchand récolte ainsi un nombre de renseignements suffisant sur ses
utilisateurs pour mieux connaître sa communauté et ainsi développer une stratégie
marketing cohérente”.
Sur le marché de l’analyse de la donnée interne, les contraintes de budget ou
d’accessibilité se sont considérablement réduites avec le temps. Preuve en est, ¾ des
CMS13 disposent de Back-office qui offrent des Dashboard complets regroupant toute
l’activité de la plateforme, qu’elle soit commerçante ou non. C’est là qu’intervient la
Business Intelligence.
ii. La Business Intelligence, l’analyse des données internes
Le traitement des données n’est pas une discipline nouvelle, des acteurs tels qu’IBM,
Microsoft, SAP ou Oracle se bousculent pour proposer des solutions informatiques sur
le marché de l’informatique décisionnelle, en constante évolution depuis les années
2000. L’objectif de la Business Intelligence est de regrouper et agréger de multiples
sources internes de l’entreprise telles que des données financières et comptables, des
données clients issus d’un CRM, des données émanant de la production, des données
RH, etc.
Elle restitue par la suite les résultats sous forme d’un Dashboard regroupant les
chiffres-clés. La BI permet de faire des regroupements à différents niveaux
13 Un CMS (Content Management Systems) ou système de gestion de contenu est destiné à la conception et à la mise à jour dynamique de site web ou d'application multimédia.
9
géographiques d’une usine local, en passant par la gestion d’une région, pour aller
jusqu’au management de filiales à l'international.
Les résultats peuvent se générer en temps réel. Ils sont comparables à des objectifs
fixés par le Top Management et permettent de suivre l’évolution d’un indicateur dans le
temps. La BI peut gérer toutes les fonctions internes au sein d'une entreprise. Des
clients, au marketing, en passant par les ventes, les produits, les services, la
communication, ou les promotions, il offre une vision opérationnelle.
Philippe Minier, Directeur des Systèmes d’Information de l’entreprise Kaufman&Broad,
spécialiste en promotion immobilière, explique les raisons qui l’ont poussé à adopter
des outils de BI :
“Les salariés passaient beaucoup de temps à faire des regroupements de tableaux
Excel divers pour prendre des décisions. J’ai donc souhaité réduire le temps
d'élaboration des Reporting afin de pouvoir gérer des volumes importants de données
tout en conservant de bonnes performances.“14
Une fois ces données internes maitrisées, il convient à l’entreprise de s’ouvrir à des
données qui ne résultent pas de son activité. C’est pour cela qu’elle se tournera vers
des données externes.
b. Les données externes
Les données externes sont toutes les données qui circulent autour de l’entreprise et qui
ne sont pas générées dans le cadre de l’activité de l'entreprise. Elles sont récoltées à
travers le Web, par tous types de média ou bien via des fournisseurs de données
(études de marché, base de données clients, instituts statistiques).
14 Kaufman&Broad Customer Success Story, Qlikview, 2011, p.2
10
Ces données permettent à une entreprise d’obtenir une vision globale de son
écosystème, de sa position sur le marché, de sa cible et de son activité, son
comportement ou ses habitudes d’achats.
Yoan Cabidoche, lors d’un entretien, nous a expliqué de quelle manière les annonceurs
média récupèrent et exploitent les informations sur les media TV, presse et radio,
fournies par Médiamétrie :
“Nous disposons d’un outil, MMW, qui nous fournit des indices de performance
prévisionnelles à partir de données historiques. A chaque fois qu’un annonceur souhaite
mettre en place une campagne media, il nous communique sa cible (âge, CSP,
localisation...). En retour, nous lui fournissons le media adapté ainsi que les indices de
performance associés. Les résultats permettront de prendre une décision quant à la
chaîne la plus adaptée, le programme, les plages horaires, ainsi qu’un taux de
couverture (nombre de personnes ayant vu l’annonce) et un GRP (Gross Rating Point)
qui détermine le taux de répétition du message sur le coeur de cible. Les informations
fournies par Médiamétrie se basent sur les 10 dernières années. Pour analyser le ROI
d’une campagne, les données nous sont automatiquement communiquées à J+10.” 15
Les données externes sont, de fait, toutes les informations créées et échangées sur des
plateformes externes à l’entreprise. Cependant, nous aborderons ci-dessous une
nouvelle classification et segmentation des données, celle des données structurées,
semi-structurées, et non structurées.
15 Entretien Yoan Cabidoche - Chargé des stratégies média - Carat (Groupe AEGIS Media) - 6 juin 2013
11
2. Les données structurées et non structurées
a. Les données structurées
Une donnée structurée est une donnée qui peut être automatiquement intégrée et
traitée par une base de données16.
Par exemple, un champ de saisie dans un formulaire d’inscription d’une plateforme Web
renseigne des informations structurées (nom, prénom, âge) et certaines non structurées
mais dont on reconnaît leurs natures aux champs de saisie associés (lieu de naissance).
Toute donnée est potentiellement structurée à partir du moment où la base de données
censée traiter l’information dispose des prérequis et des références nécessaires.
Les données structurées reflètent principalement l’organisation d’une société
(ressources humaines, géographique, fonctionnel), son activité commerciale (produits,
ventes, clients) ou marketing (campagnes et données opérationnelles, indicateurs de
performance).
Les données structurées représentent environ 20% des données présentes sur le
Web 17 . Elles proviennent en générale directement du système d’information de
l’entreprise. Elles sont de ce fait facilement interrogeables et exploitables puisqu’elles
sont abritées dans des bases de données relationnelles18.
b. Les données semi-structurées
Les données semi-structurées sont les fichiers logs19 de sites Web et les données
émanant de capteurs intelligents, par exemple les coordonnées GPS d’appareils
mobiles. Elles tendent à devenir de plus en plus présentes dans la perspective où les 16 Une base de données est un ensemble d'informations, connexes de manière directe ou indirecte, enregistrées dans un dispositif informatique. 17 http://www.silicon.fr/hans-joseph-jeanrond-sinequa-80-des-donnees-dune-entreprise-sont-non-structurees-84984.html 18 Une base de données relationnelle est un stock d'informations décomposées et organisées dans des matrices appelées relations ou tables. 19 Un fichier log désigne le fichier contenant les enregistrements d’une application, d’une plateformes ou d’un appreil.
12
objets connectés composeront le quotidien de millions de personnes dans les
prochaines années (exemples : Google Glass, Google Car, Google Watch, etc.).
c. Les données non structurées
Les données non structurées sont des données qui nécessitent d’être traitées pour être
intégrées à une base de données. Elles exigent un traitement avant intégration dans la
mesure où elles ne peuvent pas être interprétées automatiquement par le système de
collecte. Leur stockage, néanmoins, ne pose pas de problèmes majeurs.
Les données non structurées sont majoritairement des informations textuelles
provenant de différents canaux :
● réseaux sociaux (Facebook, Twitter, etc.)
● blogs et forums
● réponse à des enquêtes clients
● email ou SMS
● fichiers multimédia (son, image, vidéo)
Les données non structurées représentent aujourd’hui 75% des données présentent sur
internet20. Elles sont le fruit de l’activité de l’internaute sur le Web. On considère donc à
juste titre que ce sont des données externes à l’entreprise.
Elles ne sont généralement peu voire pas exploitées du fait de la haute complexité de
leurs traitements et de leurs difficultés d’intégration à un système d’informations
standard. On estime à moins de 10% le taux d’exploitation des données non structurées
au sein de l’entreprise21.
20 http://www.silicon.fr/hans-joseph-jeanrond-sinequa-80-des-donnees-dune-entreprise-sont-non-structurees-84984.html 21 http://blog.antidot.net/2012/10/17/les-donnees-non-structurees-sont-totalement-sous-exploitees-par-les-entreprises-et-c-est-un-veritable-gachis/
13
B. L’enjeu de l’analyse des données internes
1. Les pratiques actuelles
Dans une étude menée en mai 2010, des chercheurs ont montré que les cinquante
sites Web américains les plus visités collectent en moyenne 10 informations par
utilisateur et par page. En 2012, lors de la même enquête, il est apparu que la moyenne
est passée à 60 informations collectées par utilisateur et par page. Certains sites
récoltent même jusqu’à 200 informations par page22.
Ces chiffres soulignent clairement la tendance grandissante des entreprises à connaître
et analyser l’activité de leurs clients. Nous pouvons également parler de “besoin”
puisque comme nous l’avons décrit dans la partie précédente, les données permettent
aujourd’hui à une entreprise d’affiner sa stratégie en réduisant ses risques et donc de
valoriser ses investissements.
Pour collecter cette manne de données, plusieurs moyens sont utilisés. Parmi eux, les
cookies (ou “beacon”, “robot”) sont sans doute la plus ancienne et la plus efficace des
techniques. Les cookies peuvent être définis comme des mouchards chargés de veiller
sur l’activité de l’internaute lorsqu’il navigue sur un environnement numérique. Il s’agit
en fait d’un protocole de communication entre un Serveur HTTP23 et un Client HTTP24.
Le cookie permet de stocker des informations spécifiques sur l’utilisateur. On en
distingue actuellement trois types :
§ les cookies d’origine : ils servent à mémoriser les articles ajoutés à un
panier d’achat ou un service de facturation
22 Big Data Now : 2012 edition, O’Reilly Media Inc, p.47 23 logiciel permettant d’exécuter des requêtes 24 logiciel conçu pour se connecter à un serveur HTTP
14
§ les cookies de suivi : ils portent sur le parcours utilisateur (pages
fréquentées, durée, etc.) et sur l’activité de l’utilisateur (provenance,
articles achetés, etc.)
§ les cookies de fonctionnalité : ils sont utilisés pour mémoriser les
préférences et/ou modifications communiquées par l’utilisateur (langue
sélectionnée par l’utilisateur, magasins le plus proche, consultations des
produits, widgets25, etc.) sur une plateforme donnée.
L’exploitation des données effectuée par les Cookies fait parfois débat. Certains d’entre
eux fonctionnent en effet de manière assez opaque, comme le “MC”, qui fait partie de la
famille des “cookies tiers”. Le cookie “MC” se charge de transférer les données de
l’internaute vers un partenaire commercial afin qu’il puisse améliorer la pertinence des
annonces publicitaires à l’intention des visiteurs. L’outil le plus utilisé du marché n’est
autre que Google Display, qui capte plus de 50% des recettes publicitaire sur le web.26
Il permet d’afficher une publicité sur un site tiers à partir d’un site déjà visité par
l’internaute. Par exemple, l’internaute se rend sur Sarenza.com et consulte plusieurs
modèles de chaussures, il va par la suite quitter le site et se rendre sur Youtube, où il
retrouvera dans l’espace publicitaire, les chaussures qu’il a regardé. Google, lors de
votre passage sur Youtube, va analyser les cookies tiers présents dans votre historique,
et faire ressortir les produits que vous avez visités sur Sarenza.com.
Évidemment, les cookies ne sont qu’un moyen parmi d’autres de récupérer des
données. Aujourd’hui, de nouvelles technologies permettent de disposer de nombreux
points de contacts avec le consommateur. En effet, on couple ces techniques avec
d’autres plus récentes et en cours de démocratisation comme la technologie RFID27
(Radio Frequency Identification) qui stocke sur un serveur dédié toute information
25 Outil qui permet d'obtenir et visionner des informations. 26 http://www.journaldunet.com/ebusiness/publicite/marche-e-pub-mondial-1211.shtml 27 Cette technologie permet d’identifier un objet, d’en suivre le cheminement et d’en connaître les caractéristiques à distance grâce à une étiquette émettant des ondes radio, attachée ou incorporée à l’objet.
15
(consommation, partage) créée à partir d’un capteur distant. La technologie RFID offre
la possibilité aux constructeurs de disposer d’un véritable réseau de traçabilité des
objets, quels qu’ils soient. Jean Christophe Lecosse en dit davantage sur les
hypothétiques usages liés à la RFID28.
“On est seulement aux prémisses de telles applications, mais on pourrait imaginer un
vêtement muni d’une puce permettant de le localiser rapidement dans son dressing
grâce à son smartphone, ou qui indique à quand remonte son dernier passage à la
blanchisserie”
L’avènement de la mobilité et l’adoption des Smartphones ou tablettes ont également
permis aux technologies de géolocalisation de devenir incontournables au point d’être
systématiquement utilisées à travers les applications actuelles et surtout au niveau
hardware29.
Des sociétés comme Facebook, Twitter et autres réseaux sociaux ont pris un autre
virage en proposant des plateformes qui s’approvisionnent directement des données
créées par ses utilisateurs. Au vu de l’usage de ces plateformes et de leurs taux
d’utilisation, on peut présumer que, structurellement, la création et le partage
d’informations passeront au cours des prochaines années essentiellement par le biais
de réseaux sociaux.
28 http://www.lenouveleconomiste.fr/lesdossiers/puces-rfid-a-lusage-des-pme-16985/ 29 http://www.rtbf.be/info/chroniques/detail_mediatic-la-geolocalisation-de-plus-en-plus-populaire-alain-gerlache?id=7754068
16
2. Les moyens de demain
a. L’internet des objets
De nouvelles tendances vont prochainement être appliquées sur des marchés de
masse et permettront aux entreprises d’en savoir encore plus sur leurs cibles. Parmi
celles-ci, on retrouve les objets connectés. Ils reposent sur un service de stockage en
Cloud qui héberge des données d’usages et de consommations portant sur l’utilisation
de l’objet par le client.
Ces produits, qui multiplient les points de contact avec l’utilisateur, permettent de
densifier et d’approfondir cette relation à travers une connexion quasi sans coupure qui
prend en compte les usages des consommations encore peu ou pas analysés. Dans
son dernier rapport30, la société Hadoop indique d’ailleurs que le nombre d’objets
connectés a d’ores et déjà dépassé le nombre d’ordinateurs. De son côté, Ericsson, le
géant des équipements de réseaux mobiles, prédit qu'il y aura 50 milliards d'objets
connectés31 (voitures, frigos, capteurs intelligents, etc.) dans le monde d'ici à 2020,
contre une douzaine de milliards aujourd'hui.
Actuellement, les TV connectés sont la première concrétisation de cette tendance. De
nombreux constructeurs comme LG ou Samsung disposent déjà de gammes de
produits commercialisés. Deux autres secteurs sont sur le point d’être intrinsèquement
modifiés par ces nouveaux usages, l’habitat et l’automobile. Lors du dernier CES
(Consumer Electronic Show), de nombreuses innovations ont été présentées dans le
domaine de l’habitat. Nous avons assisté à des annonces de nouvelles fonctions telles
que le contrôle à distance de la température, de la luminosité, des appareils
électroménagers et d’autres informations comme le nombre de personnes présentes
dans un habitat et leurs occupations. La maison deviendra bientôt un lieu entièrement
connecté où les habitudes de vie seront collectées et analysées en flux continu.
30 Hype Cycle for Big Data, 2012, Gartner, 2012, 100p. 31 http://www.ericsson.com/res/docs/whitepapers/wp-50-billions.pdf
17
Les perspectives sont peu ou prou les mêmes dans le domaine de l’automobile. Lors de
ce même CES, le P-DG d’Audi, Rupert Stadler déclarait que :
“Le futur de la voiture n’est pas un système où toutes les informations sont gérées en
local, mais plutôt via une connexion permanente. Recherche, navigation, applications
utilisées dans le véhicule seraient donc communiquées à un serveur Web dédié. On
parle d’une voiture connectée susceptible de répondre aux besoins de son conducteur
mais également de renvoyer tous types d’informations comme la gestion de la vitesse,
de la lumière, les points d’arrêt ...” 32
La tendance est déjà en marche avec les récentes annonces de Google concernant ses
Google Glass. La généralisation de capteurs en tous genres pour suivre nos faits,
gestes et états, qu’Olivier Ezzrati, spécialiste des TIC, a caractérisé « d’API humaine
»33, est en pleine explosion.
Le marché ne peut que valider ce constat puisque la majorité des constructeurs
spécialistes de l’innovation ont déjà pris le chemin de la numérisation complète de leurs
offres. Il existe ainsi une forte probabilité pour que le monde de demain soit régi
majoritairement par la création et la transmission de données, que l’on peut d’ores et
déjà nommé, “d’or gris”34.
b. Les limites actuelles
Comme nous l’avons vu, la plupart des entreprises disposent des infrastructures
nécessaires pour collecter et codifier chaque action en donnée, afin de la transformer
en information. Une fois synthétisée, cette information sera exploitée dans un objectif
32
http://www.egmcartech.com/2011/01/06/audi-ceo-rupert-stadler-delivers-2011-ces-keynote-speech/ 33
http://www.oezratty.net/wordpress/2012/leweb-2012-services-connectes-aux-objets/ 34 Le big data est souvent appelé « Or gris » en référence aux perspectives de business qu’il est susceptible de générer, au même titre que l’or noir.
18
d’amélioration des processus internes. L’arrivée de l’informatique décisionnelle telle que
la Business Intelligence a permis ces évolutions.
Cependant, alors que les données non structurées représentent environ 80% de la
masse de données totale présente sur le Web, leur exploitation est actuellement trop
complexe.
Philippe KUHN explique que :
“Les données non structurées représentent un vrai challenge pour 99 % des entreprises.
Leur valeur est immense mais techniquement, leur exploitation est si complexe qu’il est
impossible de les faire « parler ». Leurs variétés, leurs multiplicités, leurs sources et
leurs volumes rendent leurs traitements trop complexes”.35
Le marché est donc en attente de perspectives et d’évolutions techniques capables
d’apporter des possibilités de traitement plus efficaces et plus adaptées. Ces besoins
se traduisent aujourd’hui par une forte volumétrie de données, ainsi qu’une nécessité
accrue de traitement rapide et plus précis. Les sites e-commerce, par exemple, ont un
vrai besoin de réactivité puisque c’est cette même réactivité qui leur permet d’apporter
des solutions et des réponses aux besoins clients, qui sont aujourd’hui de plus en plus
volatiles et complexes.
Dans l’évolution du marketing, on observe deux phases assez distinctes. La première a
obéi à la règle du “One to many”. On parle ici des premiers pas du marketing et des
périodes de média de masse. Un même message était alors utilisé pour l’ensemble des
clients, sans aucune distinction.
La deuxième phase obéit à une logique de “One to One”. Cette phase se traduit par la
recherche d’un message adapté à chaque client. La logique de segment arrive ainsi à
son terme. Le but des entreprises est de proposer un produit adapté à chaque client (on
pense notamment aux différents outils de recommandation déjà mis en place). Cette
35 Entretien Philippe KUHN - Business Développeur, veille & innovation chez Digimind - 20 mai 2013
19
logique, implique justement d’en connaître beaucoup sur son client (volume des
données). Il convient ensuite d’intégrer les nouvelles données le concernant le plus
rapidement possible, de manière à disposer de propositions à jour (rapidité de
traitement des données) et également d’intégrer dans ces données des sources
diverses qui viennent étayer et valider ces recommandations (variété des données et
des sources).
Dans cette recherche de granularité36 du client, les entreprises sont donc confrontées à
des limites techniques fortes. Quelles sont, alors, les solutions qui pourront permettre
de répondre à ces différents besoins ? Parmi les solutions évoquées depuis quelque
temps, le “Big Data” est un concept qui fait son chemin. Mais de quoi parlons-nous
exactement ?
36 La notion de granularité définit la taille du plus petit élément, de la plus grande finesse d'un système. Quand on arrive au niveau de granularité d'un système, on ne peut plus découper l'information.
20
II. Big Data
A. Caractéristiques et fondements du Big Data
On peut littéralement qualifier le Big Data comme une solution permettant de traiter un
grand volume de données variées, véraces et avec une forte vélocité.
Ainsi, le Big Data se définit généralement par la règle des 4V, à savoir :
● le Volume,
● la Vélocité,
● la Variété,
● la Vélocité.
1. Le Volume
a. Le Big Data répond à une volumétrie nouvelle
La croissance des données est comparable à la fonction exponentielle. A titre
d’exemple, on comptait plus de 2,7 milliards d’internautes dans le monde début 2013,
alors qu’ils n’étaient que 147 millions en 199837. La courbe de volume des données a
évidemment suivi cette évolution. L’année 2005 a été marquée par l’apparition du Web
2.0 grâce aux nouveaux réseaux et l’émergence du Web social. Depuis cette date, le
web est devenu une plateforme géante, en mouvement constant, qui accumule des
milliards de messages sous toutes leurs formes, émis par une multitude d’acteurs et
d’objets connectés.
La capacité de stockage mise à disposition des internautes et des consommateurs
témoignent d’une manière marquante cette évolution du marché (augmentation des
espaces de stockage des boites e-mail, augmentation croissante des capacités de
stockage des disques durs, démocratisation du Cloud grand public et professionnel). 37
http://www.archimag.com/article/27-milliards-dinternautes-dans-le-monde
21
C’est au tour des entreprises de s’adapter à l’état du marché. D’après Henry Isaac,
chercheur et professeur associé à l’université Paris-Dauphine,
“Le Big Data est apparu à un moment où les data sont devenues si volumineuses qu’il
était indispensable de repenser les bases de données existantes. Auparavant, il était
très compliqué de collecter plusieurs centaines de téraoctets et de les analyser. Pourtant,
les données étaient bel et bien là. Le Big Data offre certaines perspectives grâce à des
moyens techniques plus puissants”. 38
Pour reprendre les termes de Bruno Walther, CEO de Captain Dash, une agence
spécialisée dans le Big Data, “On peut considérer le Big Data comme un énorme «
fichier à plat » qui permet de traiter plusieurs milliers de données” 39 (l’équivalent d’un
tableau Excel de plusieurs dizaines de milliers de lignes et de colonnes).
Cette évolution du “fichier Excel” collecte des données depuis de nombreuses sources
internes et externes. Ainsi, les données du Web, comme celles récupérées depuis les
objets connectés, sont littéralement “aspirées”, qu’importe le volume et le nombre, pour
être stockées. Grâce à des solutions techniques que nous détaillerons plus bas, le Big
Data permet de briser ce qui représente un des principaux freins des entreprises :
l’analyse d’un grand nombre de données, qui, par ailleurs est également l’un des plus
grands enjeux de demain.
Henry Isaac nous explique en quoi le Big Data permet de faire face à cette contrainte.
“Nous sommes aujourd’hui en mesure d’exécuter un nombre de requêtes encore jamais
vu. On assiste à une remise en cause de la modélisation. En effet, plutôt que d'exécuter
les modèles de calcul un par un, on va pouvoir envoyer plus de 100 000 modèles en une
fraction de seconde afin d’arriver au même résultat. Autrefois, les développeurs étaient
effectivement dans l’obligation (du fait des contraintes techniques) de trouver le modèle
de calcul permettant de résoudre un problème X, c’est à dire la mise en place d’une
38 Entretien Henry Isaac - Professeur Associé Paris Dauphine - 28 mai 2013 39
https://www.youtube.com/watch?v=u3uH6MYrAmI
22
réponse générique à un problème donné, il leur est aujourd’hui possible d’effectuer un
nombre suffisamment grand de requêtes pour trouver cette même réponse en un laps
de temps réduit.40”
C’est par exemple grâce à la technique du Bootstrapping41 qui consiste à faire de
l’inférence statistique sur de nouveaux échantillons à partir d’un échantillon initial, que
Google a pu lors de l’année 2011 détecter l’apparition et mesurer la contamination de la
grippe au niveau mondial. C’est également grâce à cette technique que “le prodige du
Big Data”, Nate Silver, a “prédit” l'élection de Barack Obama lors de sa dernière
campagne présidentielle.
Beaucoup de spécialistes considèrent à ce titre que l’application de ce type de pratique
est aujourd’hui rendue possible grâce aux outils Big Data. La démarche intellectuelle
n’est pas très éloignée de ce que l’on peut trouver dans le domaine de la statistique ou
des sondages, car, dans ce cas de figure, seule la capacité de calcul varie. Ici, et plus
particulièrement dans le domaine de Google et de la campagne d’Obama, il s’agit
essentiellement de valider une hypothèse observée dans un échantillon réduit au sein
d’un échantillon, qui, pour le coup, peut s’avérer être aussi vaste que l’écosystème
numérique.
En mentionnant la firme Google, nous abordons un sujet plus complexe au sujet du Big
Data : son accessibilité. D’après une étude menée au près de 1000 entreprises42, par le
cabinet ESG au cours de l’année 2012, il a été démontré que le principal défi pour les
entreprises portait sur la gestion et le stockage des données. Même si elles
conviennent que le Big Data apporte des solutions dans le traitement de leurs données,
il les confronte également à de nombreux challenges techniques. Dans la même étude,
on apprend également que les deux besoins dont elles sont les plus demandeurs
40 Entretien Henry Isaac - Professeur Associé Paris Dauphine - 28 mai 2013 41
http://www.entrepreneur.com/encyclopedia/bootstrapping 42
http://www.esg-global.com/blogs/ingest-to-insight-big-data-vendor-of-the-year-2012-and-2013-outlook-finalists-cloudera-ibm-opera-solutions/
23
portent sur une meilleure réactivité (55%) ainsi que sur des analyses prédictives plus
rapides (44%).
b. Des solutions Open source qui s’adaptent au marché
Pour répondre à ces difficultés, des sociétés ont mis en place des logiciels Open
Source43 spécifiquement conçus pour le Big Data. Parmi eux, nous pouvons citer le plus
célèbre, Hadoop, qui fait partie de la solution Big Data proposée par IBM. Cette
plateforme associe technologies classiques bien adaptées aux tâches structurées et
répétitives ainsi qu’aux nouvelles technologies, idéales pour l'exploration, la
reconnaissance de données et l'analyse de données non structurées.
Hadoop est souvent considéré, à tord, comme une base de données. En réalité, il s’agit
d’un système de fichiers organisant les données, capable d’uploader et de trier des
volumes de données très importants (de l’ordre de plusieurs dizaines de téraoctets en
quelques secondes). De la même manière, Hadoop est un “écosystème d’analyse” et
non pas une solution uniforme et standard. Hadoop répond à deux besoins essentiels :
le stockage et le traitement des données.
Charles Zedleweski, Vice-Président Produit chez Cloudera cite 3 besoins auxquels
répond Hadoop :
“Le premier est évidemment le traitement massif des données. Le deuxième répond à
un besoin plus spécifique qui porte sur la transformation des données vers un format
structuré. Enfin, troisième besoin, celui de “l’analytique avancée”, c’est à dire
l’élaboration de modèles prédictifs (lutte contre la fraude, type de publicité à proposer en
ligne...) dans des environnements divers”.44
La solution de « Stockage des données » s’appuie sur un système de fichiers distribués
(HDFS pour Hadoop Distributed File System). Ces systèmes sont déjà développés sous
43
http://www.gnu.org/philosophy/free-software-for-freedom.fr.html 44
http://www.youtube.com/watch?v=H43HbMD8kLk
24
d’autres formes, cependant, ils proposent une particularité bien spécifique. Il répartit en
effet le traitement des données sur un grand nombre de nœuds serveur45, offrant ainsi
une certaine robustesse aux systèmes en place. Hadoop repose sur un paradigme
appelé « MapReduce ».
MapReduce répartit les données entre un serveur central et un réseau de serveur
moins puissants. Les requêtes peuvent, de ce fait, être traitées et réparties en fonction
de leurs natures (volume, complexité). Les serveurs secondaires (esclaves) traitent les
données et envoient leurs réponses aux serveurs principaux (ou maîtres), qui génèrent
ces réponses via une « sortie principale ». Le fait que plusieurs nœuds fonctionnent en
simultanés permet aux données d’être traitées et chargées très rapidement. Cette
solution est aujourd’hui utilisée par Amazon, AOL, Apple, Facebook, Microsoft, Twitter
ou Yahoo!.
c. Le Cloud Computing
Jusqu’à l’apparition du Cloud, les données étaient uniquement traitées de façon locale
dans des Data Warehouse. Le Cloud permet aujourd’hui d’effectuer ces activités
d’analyse, de production, et de stockage dans un serveur externe, loué à une société
tierce. De nombreux acteurs présentent aujourd’hui leurs solutions Cloud pour les
entreprises. IBM a, pour sa part, une nette avance sur le marché français et américain,
et plus généralement sur le marché mondial.
Au delà du fait qu’il présente de réels avantages pour les petites entreprises, il va
permettre de faciliter la mise en place de systèmes informatiques complexes en les
externalisant, mais également en réduisant considérablement les investissements
financiers et humains. Le Cloud permet en effet de réduire les coûts de structure et
d’avoir accès à un espace de stockage modulable en fonction de la charge de données 45 un nœud serveur repose sur un ou plusieurs serveurs liés à un ou plusieurs ordinateurs qui permettent une gestion globale de
l’information dans le but d’augmenter la disponibilité, faciliter la montée en charge et permettre une répartition de la charge.
25
à traiter. Pour pouvoir exploiter cette manne d'informations et ces gigantesques flux de
données, d'importantes capacités de calcul sont nécessaires, le Cloud Computing
permet donc de "louer" une puissance de calcul et un espace de stockage adapté pour
un traitement Big Data. En effet, seuls peu d'acteurs sont en mesures d'effecteur ce
traitement avec leurs propres infrastructures, au vu des équipements informatiques
nécessaires.
On peut bien sûr parfaitement faire du Big Data sans Cloud, mais le volume de données
à disposition des entreprises et la difficulté de mise en place d’infrastructures ainsi que
le coût associé rend évidemment la solution extrêmement avantageuse. La
démocratisation du Cloud est donc en passe de se concrétiser, et il permet au Big Data
de trouver un nouveau levier de développement, notamment des raisons d’engagement
de durée, de tarification à l’utilisation, stockage et volume évolutif en fonction des
besoins. Évidemment, la liste de ces facteurs est non exhaustive. Il est clair, pourtant,
que ces évolutions tendent à favoriser l’usage du Big Data.
Ce traitement volumineux de données peut être considéré comme la principale
caractéristique du Big Data, pourtant, il reste encore trois critères essentiels.
2. La Variété
a. La variété des données, un enjeu considérable
Nous l’avons vu dans la partie précédente, les données sont variées (structurées, semi-
structurées, non structurées). Parmi elles, les données non structurées ont toujours
représenté un véritable enjeu pour les entreprises. Ce sont, en effet, celles qui
possèdent le plus de “valeur” mais dont le traitement apparaît comme quasiment
impossible dans la mesure où leur nature est incompatible avec “l’intelligence
informatique.”
26
Le Big Data repose aussi sur l’Open Data, synonyme de “mine d’or” pour cette nouvelle
tendance de la libération des données publiques, dont les Etats-Unis sont leader en la
matière. Ce mouvement a précédé l’arrivée du Big Data et procurent aux entreprises
des données fraîches encore inexploitées par le secteur privé. On retrouve parmi elles
des indicateurs démographiques, sociologiques et médicaux qui concernent la
population, mais aussi des informations sur les transports publics, l’urbanisme. En
structurant ces données, de nombreuses start-up sont nées et proposent des services
innovants, utiles aux citoyens, et prennent en quelque sorte le relai des services publics.
Il va s’en dire que ces données représentent une manne très qualitative.
Une base de données dispose de tables46, qui correspondent à des valeurs (nom,
prénom, numéro de téléphone, liste déroulante). Elle ne peut intégrer que des données
structurées. Les données non structurées comme avis consommateurs ou les
commentaires de forums sont de facto plus complexes à collecter et stocker.
A titre d’exemple, si une entreprise décidait de récupérer 100 avis et qu’elle les intégrait
dans l’une de ses tables. Que donnerait l’extraction de ces données ? Pas grand chose
car elles ne seraient pas analysables et reconnaissables par des systèmes classiques
d’exploration de données, on ne pourrait donc en tirer aucune statistique ni aucune
information précise.
Sur quel levier s’appuie le Big Data pour aller au-delà de cette contrainte ?
b. Une analyse intelligente de l’information
L’objectif est ici de se servir des points de redondance sémantique. Une phrase est
dotée d’un sens qui trouve sa racine autour de l’articulation d’une suite de mots. C’est
justement cette articulation qui apporte son sens à une phrase. Il existe plusieurs
dizaines voire centaines d’articulations et de formules possibles. Pourtant, le sens
46
http://cerig.efpg.inpg.fr/tutoriel/bases-de-donnees/chap02.htm
27
restera inchangé, c’est sur ce constat que les solutions Big Data ont développé des
outils qui permettent une analyse poussée des données non-structurées.
Par exemple : “cette entreprise escroque ses clients depuis 10 ans” et “cette société
vole la clientèle depuis des années” sont deux phrases qui possèdent un sens proche,
pourtant, les mots utilisés sont différents. On remarque cependant une typologie
commune autour des mots qui composent cette phrase : escroquerie, clients, société.
C’est comme ça que fonctionne le Big Data, autour de typologie de mots.
En transformant des données non structurées en “typologies structurantes”, le Big Data
apporte une réponse à l’analyse des données externes. Cette possibilité est aujourd’hui
explorée et mise en place par de nombreux outils. Parmi eux, on retrouve Hadoop,
comme nous le disions auparavant, il offre la possibilité de traiter une multitude de
données simultanément. Cependant, sa force réside également dans sa capacité à
traiter plusieurs types de données, structurées, semi-structurées et non structurées.
Hadoop est de ce fait une plateforme pour données multi-structurées.
Julien Moreschetti, Ingénieur avant-vente et Architecte de solutions techniques chez
IBM nous explique que :
“Chaque phrase dispose d’une particularité, dans sa tournure, et avec une opinion
négative ou positive qui peut être distinguée. A partir de ces éléments, le Big Data va
procéder à un classement. Il n’est pas question ici de classer des données dans des
tables aussi précises que celles qui gèrent les données structurées. Cependant, les
outils Big Data permettent de trouver des redondances dans les données afin de les
classer, les segmenter. Cette segmentation va permettre de les faire “parler”, de les
interpréter. Sans pour autant rentrer dans une analyse poussée, en les regroupant par
thèmes, nous sommes aujourd’hui capable de donner un sens à tous types de données.
Les outils mis en place, par exemple par IBM, permettent d’observer ce qui se passent
sur la toile, les réseaux sociaux, les forums. Ces techniques fonctionnent évidemment
sur la base d’un grand nombre de données. C’est ce volume qui va permettre de faire
ressortir une logique, une tendance”.
28
Le Big Data permet donc de scruter les données non structurées Web dans le but d’en
savoir plus sur un marché donné :
“Dans l’exemple du secteur bancaire, je suis par exemple capable de connaître ce qui
se dit sur chacun des acteurs grâce un Dashboard47 défini par des indicateurs. Ces
données sont récupérées depuis le logiciel SMA48 (Social Media Aggregator) et traitées
grâce à un logiciel de type Hadoop”.49
Parmi ces indicateurs évoqués par Julien Moreschetti, nous trouvons :
“Share of Voice overview” : de qui parle-t-on le plus ?
Exemple : Bank Of America : 23%.
Ici, 23% des données actuellement partagées sur le marché bancaire concernent la
société Bank of America.
“Share of Voice sentiment distribution” : comment parle-t-on de la marque ?
Exemple : 67% d’opinion positive
Ici, 67% des données actuellement partagées autour du sujet de la société Bank of
America sont des avis positifs.
“Share of Voice trend” : évolution sur une période donnée
Ici, un graphique permet de connaître l’évolution de la masse de données partagée sur
un thème au cours d’une période de temps donnée.
“Share of Voice by sources” : depuis quelles sources ?
Exemple : Facebook 23%
SMA permet de savoir depuis quelles plateformes les données sont échangées.
Cette technique ne peut être mise en place qu’après une sélection au préalable des
plateformes. 47 Résumé des données associées à des indicateurs sous la forme d’images, graphiques, etc. 48 https://www-304.ibm.com/social/aggregator/ 49 Entretien Julien Moreschetti - Ingénieur avant vente & Architecte solution - IBM - 5 juin 2013
29
“Share of Voice by geography” : depuis quelles zones géographiques ?
Exemple : New York : 13%
Ici, 13% des échanges proviennent de l’état de New York.
L’analyse de ces différentes variables va permettre d’identifier des signaux faibles.
C’est à dire l’analyse des opportunités ou menaces du marché de manière prédictive
par la mise en place d’une veille.
3. La Vélocité
a. Garantir la performance
Julien Moreschetti nous explique le problème.
“Généralement, on récupère les fichiers, on les agrège, puis les stockent dans un Data
Warehouse50. C’est le fonctionnement basique. La variété des données implique que
l’on va chercher plus d'informations qu’auparavant, et donc qu’on dispose d’un volume
de données beaucoup plus important. Sans modifier le fonctionnement du traitement de
données, on risque deux choses. Premièrement, une dégradation conséquente des
performances, ou, deuxièmement, une explosion du système”.51
La question est donc la suivante : comment traiter un grand volume de données
provenant de sources variées si la capacité d’affichage et de traitement n’est pas au
rendez-vous ? Au delà du “comment”, nous pourrions également nous poser la question
du “pourquoi”. La mise en place de solutions Big Data sans une notion de vélocité ne
seraient être entièrement remis en question. Néanmoins, ses usages et sa pertinence
s’en trouveraient, alors, fortement réduits. Le Big Data implique nécessairement un
besoin de performance. C’est cette même performance qui va offrir une synergie entre
la variété et le volume. 50 Serveur informatique dans lequel est centralisé un volume important de données consolidées à partir des différentes sources de renseignements d'une entreprise 51 Entretien Julien Moreschetti - Ingénieur avant vente & Architecte solution - IBM - 5 juin 2013
30
L’efficacité, la rapidité et la pertinence sont permises grâce à plusieurs évolutions
majeures qui accompagnent l’évolution et l'émergence de ce phénomène.
“Hadoop répond en partie au problème grâce à sa capacité à repartir les requêtes en
fonction de leurs priorités et leurs natures (volume, complexité). Cependant, un outil
comme Streams, développé par IBM permet de répondre plus efficacement à cette
problématique. Il réduit considérablement le coût et la complexité des environnements
actuels d’intégration de données. Streams va donc transférer toutes les transformations
vers un moteur ETL (Extract-Transform-Load) qui va stocker les informations en cache52.
Vous réduisez ainsi les opérations de staging des données 53 et/ou l’envoi des
transformations dans la base de données”.54
Comme son nom l’indique, l’ETL 2.0 comme l’appelle Steven HADDAD, ingénieur chez
Syncsort, le moteur ETL va d’abord traiter et filtrer les données. Pendant ce temps, ces
dernières sont stockées en cache. Une fois le filtrage effectué, les données seront
ensuite stockées dans le Data Warehouse. L’ETL 2.0 redéfinit l’intégration de données
dans les entreprises, exploite la problématique du Big Data pour la transformer en
avantage compétitif. Évidemment, Streams n’est qu’un exemple parmi d’autres.
52 Une mémoire cache enregistre temporairement des copies de données provenant d'une autre source de donnée, afin de diminuer le temps d'accès d'un matériel informatique à ces données. La mémoire cache est plus rapide et plus proche du matériel informatique qui demande la donnée, mais plus petite que la mémoire pour laquelle elle sert d'intermédiaire. 53 Espace de stockage temporaire 54 Entretien Julien Moreschetti - Ingénieur avant vente & Architecte solution - IBM - 5 juin 2013
31
D’autres évolutions technologiques permettent cette vélocité. Parmi elles, l'émergence
des bases de données NoSQL.
b. L'émergence du NoSQL
Pour aborder les bases de données NoSQL, il convient de rappeler ce que sont les
bases de données SQL. Les données utilisées et collectées par une entreprise sont
stockées et partagées dans des systèmes de gestion de bases de données (SGBD).
Ces SGBD permettent, de stocker et partager, mais également de retrouver, trier,
modifier et ainsi d’effectuer des reportings depuis ces mêmes données.
Un SGBD regroupe donc un ensemble d'informations, classé et regroupé grâce à des
tables. Ces données sont reliées logiquement entre elles. On dit qu’elles sont
relationnelles. MySQL est donc un système de base de données relationnelles. Les
SGBD sont depuis toujours largement répandus dans les structures d’entreprises. Elles
sont généralement dimensionnées en fonction de l’entreprise et correspondent à des
besoins précis en terme d’utilisateurs, de taille, et de type de données.
Face à cette nouvelle volumétrie, le MySQL montrent cependant des limites en terme
de temps de réponses et de répartition des charges. A titre d’exemple, un site Web
disposant de plusieurs millions de visiteurs par jour et traitant un nombre de requêtes
importantes exigerait alors la mise en place d’une architecture coûteuse et des
compétences en optimisation de serveurs importantes. Cette nouvelle volumétrie
implique également 3 notions stratégiques pour une entreprise, la conservation de la
vélocité des tâches de production nécessaires au bon fonctionnement de l’entreprise
(production), l’utilisation des données pour granulariser au maximum les recherches
(analyse), et enfin la conservation de sa fonction de stockage et de sauvegarde
(stockage).
L’enjeu se résume pour l’entreprise à cette simple question : comment conserver une
forte performance sur ces trois activités (production, analyse, stockage) alors que le
32
volume de données à traiter tend à se démultiplier ? Dans cette perspective, selon
laquelle le taux d’utilisation des interfaces numériques tend à augmenter
considérablement, il convient de repenser l’architecture des bases de données et leurs
fonctionnements. Ce rôle est aujourd’hui rempli par les bases de données NoSQL,
conçues spécifiquement pour des usages volumineux, véloces et variés. La technologie
NoSQL va ainsi dissocier les activités de production, d’analyse et de stockage en
répondant en même temps aux besoins de scalabilité55, c’est à dire de montée en
charge. Cette montée en charge s’effectue de manière qualitative en ajoutant une
valeur (on touche ici davantage à des logiciels comme Hadoop) et quantitativement
(hausse du trafic d’une plateforme Web).
Le système est simple, on utilise la donnée que l’on souhaite et on la croise avec une
autre, sans pour autant qu’il soit nécessaire que ces deux tables aient été paramétrées
ensemble. Ces bases de données sont non relationnelles et permettent de mettre à plat
l’ensemble des tables. Cette solution a vu le jour sous l’impulsion de firmes comme
Twitter, Facebook, Amazon ou Google qui génèrent plusieurs téraoctets de données
par jour et qui par conséquent avaient de vrais besoins asynchrones 56 dans la gestion
des requêtes. Cette même solution va permettre de donner un sens aux données sans
remettre en cause les performances des plateformes Web.
55 Capacité que possède l’architecture pour évoluer en cas de montée en charge 56 Du point de vue du développeur, une méthode est asynchrone si elle est lancée en parallèle de l'exécution du programme. Le programme continue donc à s'exécuter en attendant la réponse de la méthode asynchrone.
33
4. La Véracité
L’objectif du Big Data est, comme nous l’avons dit précédemment, de profiter de
l’incroyable richesse que représentent les échanges conversationnels sur les réseaux
sociaux (Facebook, Twitter, Foursquare, etc.) et autres média pour pouvoir collecter,
analyser, croiser ces données avec les données internes de l’entreprise.
Depuis l’avènement du numérique et des plateformes sociales, ce sont bel et bien les
internautes qui “ont le micro” selon la célèbre expression de Tara Hunt, experte en e-
communication. Ce sont de ce fait, les internautes qui génèrent les contenus et les
informations. Et c’est justement parce qu’elles sont émises par le client qu’elles
nécessitent un travail de qualité et de vérification. Les données en effet, peuvent
s’avérer être erronées ou fausses.
En effet, comme le montre le rapport “The Real-World Use of Big Data” 57 par IBM et la
Saïd Business School de l’université d’Oxford, la majorité des entreprises ont des
doutes sur la fiabilité des données récupérées sur le Web grâce au Big Data. C’est un
fait, le Big Data, comme tous les autres outils existants, ne permet pas de différencier
une information vraie d’une information fausse ou erronée. Même en effectuant un tri en
amont du traitement, comme nous avons pu le voir grâce aux outils d’ETL notamment,
la “vérité” est une notion trop subjective pour être aborder au sens stricte du terme.
Ainsi, il est clair qu’une part d'incertitude sera toujours présente lorsqu’il s’agira de
traiter les données non structurées de l’écosystème numérique et plus particulièrement
des réseaux sociaux. Le Big Data implique d’accepter cette incertitude. Néanmoins,
pour appréhender au mieux cette part de “faux”, il est nécessaire de mettre en place
une “contextualisation des données”. Julien Moreschetti nous explique que :
“C’est l’évolution des données qui va essentiellement renseigner une entreprise sur la
véracité des données. Aujourd’hui, le meilleur moyen d’exploiter des données en tenant
compte de cette incertitude est d’accepter une marge d’erreur, comme dans toute
57
http://www-935.ibm.com/services/us/gbs/thoughtleadership/ibv-big-data-at-work.html
34
pratique statistique. Sur 10 000 commentaires recueillis depuis Facebook, je sais
environ que 15% d’entre eux seront soit erronés, soit faux. Pour pallier cette incertitude,
les entreprises doivent cibler les données dans un but précis. Par exemple le bruit
généré autour d’un produit ou d’une marque. C’est l’évolution des différents segments
de données (positif, négatif, géographique) qui va permettre de faire parler les
données”.58
Ce sont donc les critères de tendance et d’évolution des données qui vont permettre de
les qualifier comme théoriquement viables et potentiellement exploitables. Ici, c’est
davantage le volume qui va permettre de minimiser au maximum cette contrainte de
véracité. En effet, c’est en analysant une communauté dans sa globalité que l’analyse
des tendances permettra de ne pas tenir compte des quelques pourcentage qui
disposent d’une faible fiabilité. Dans d’autres domaines, cette même approche peut
aussi être utilisée. Vestas, numéro 1 mondial des éoliennes, constitue un exemple en la
matière. Au même titre que les avis ou les commentaires sur les forums ou réseaux
sociaux, la météo proposent également des données compliquées à intégrer du fait de
sa viabilité.
Confronté au problème constant d'optimiser l’emplacement des éoliennes pour capter
les vents les plus forts, Vestas a décidé de mettre en place une solution ambitieuse qui
lui permet d’analyser 16 pétaoctets de données pour chaque éolienne ainsi que des
données météo comprenant plus de 170 variables. Grâce à cela, Vestas a pu réduire la
durée de prévision de la vitesse des vents de trois semaines à moins d’une heure. On
comprend ici que les données recueillies par l’entreprise mélange à la fois de “vraies
informations”, celles qui vont confirmer une hypothèse, et les autres, qui vont invalider
une hypothèse. C’est finalement le mélange de ces deux types d’informations qui va
former ces données homogènes et exploitables pour l’entreprise. Le Big Data implique
donc de traiter des informations qui vont invalider une hypothèse à cause de leurs
caractères erronées voire faux dans certains contextes. Cette incertitude doit être
58 Entretien Julien Moreschetti, Ingénieur avant vente & Architecte solution, 5 juin 2013
35
appréhendée de manière intelligente, en créant un contexte autour des données. C’est
ce contexte qui permettra aux entreprises de transformer ces données en “informations”.
B. Facteurs clés de succès
Selon le Big Data Survey Europe conduit par BARC en 2012 auprès de 274 entreprises
en Allemagne, Autriche, France, Suisse et Royaume-Uni, les points clés qui poussent
les entreprises à intégrer un système Big Data sont :
● de meilleures possibilités de traitement des données (75%),
● un traitement de grands volumes de données (72%),
● des entrées multiples de données dans l’entreprise (66%),
● une vision globale des données internes et externes sous forme d’un tableau de
bord (43%).
Les réponses de l’étude ont déterminé que les fonctions de l’entreprise les plus
concernées par le Big Data sont les équipes de Business Intelligence (47%), viennent
ensuite les équipes informatiques (23%) et les équipes commerciales (16%).
L’attribution du sujet à ces différentes fonctions dépend intrinsèquement des besoins de
l’entreprise et de son activité.
Les fonctions marketing souhaitent intégrer le BD pour résoudre des problématiques
d'intégration des données des médias sociaux et le perfectionnement des sites e-
36
commerce. Pour la fonction vente, le facteur clé d’acquisition s’explique dans
l’approfondissement du comportement des clients et la création d’offres personnalisées.
Quels sont, alors, les facteurs clés de succès pour la réussite d’un projet Big Data ?
1. Une méthodologie éprouvée
Dans tous projets, la méthodologie est la pierre angulaire et l'élément indispensable de
toute réussite. Les méthodologies sont autant d’atouts qu’elles permettent d’avoir une
vision claire sur les rôles de chacun, les étapes à valider ainsi que sur la démarche
qualité. Selon le cabinet McKinsey, la méthodologie représente 80% de la réussite d’un
projet, quel qu’il soit. Tout ce processus est évidemment applicable pour la mise en
place d’un système Big Data.
Pour Tim McGuire, Directeur du cabinet McKinsey,
« Le Big Data va devenir un enjeu extrêmement important au cours des prochaines
années, et cela pour une raison très simple, il va redéfinir la frontière entre les perdants
et les gagnants. A ce titre, la réussite du Big Data passe par une méthodologie centrée
sur l’entreprise et non sur la donnée. Les bonnes questions doivent être posées dans le
bon ordre. »
Ainsi, quatre étapes semblent essentielles à ses yeux.
a. Réfléchir sur l’identité de l’entreprise.
Il est primordial de s'interroger sur le véritable core-business de l’entreprise, de
connaître et de comprendre les axes de création de valeur susceptibles d’être activés
grâce à de nouvelles données.
“Les réflexions sur les objectifs, les besoins et les capacités de l’entreprise sont une
étape majeure pour éviter le fiasco que beaucoup d’entreprises ont connu ces dernières
37
années. Quel est l’objectif que je veux atteindre grâce à la mise en place d’un système
Big Data ?”
Le chemin du Big Data est long et coûteux. Selon le cabinet, un projet Big Data dure en
moyenne un an et son coût est évidemment impactant, que ce soit en terme de
ressources humaines que d’investissement financier.
Pour traverser les différentes difficultés il est primordial de connaître et de partager les
intentions de l’entreprise, à la fois en interne (en communicant avec l’intégralité des
collaborateurs concernés), et en externe, (porter l’innovation et l’avancée de l’entreprise
auprès de la clientèle, des média et des investisseurs).
L’entreprise doit connaître et comprendre les objectifs permis grâce au Big Data. C’est
cet objectif qui permettra à l’entreprise d’appréhender le challenge de la meilleure des
manières.
b. Connaître ses besoins en terme de données
Choisir, c’est renoncer. Accumuler les données ne sert pas à grand chose et,
d’expériences, McKinsey a vu énormément de sociétés échouer dans leurs objectifs
parce qu’elles n’ont pas été assez pragmatiques dans l’approche de leurs besoins. Une
fois l’objectif clairement défini, il est donc essentiel de réfléchir aux données dont
l’entreprise a besoin pour atteindre cet objectif.
Trois questions sont essentielles pour réussir cette étape :
● Que veut-on faire des données ?
● Quel est le sens que l’on veut leur donner ?
● Quel est le bénéfice que l’on souhaite en retirer ?
38
De la même manière, il est primordial de se poser la question des données externes,
car ce sont elles qui vont permettre aux entreprises de créer de la valeur ajoutée.
A ce titre, une vraie étude de marché est nécessaire pour cibler les sources qui
correspondent le plus à votre secteur d’activité et à votre besoin. Sur quels réseaux
sociaux, sur quelle plateformes vais-je pouvoir trouver mes données ?
L’exemple de Ford permet de bien illustrer cette approche. John Ginder, Responsable
de l’Analytics explique sa démarche :
« nous pensons qu’il y a un fort intérêt à collecter les données issues de capteurs
intelligents (siège, pédales, signalétique, gestuelle) pour mieux comprendre comment la
voiture opère et comment le consommateur utilise les véhicules dans le but d’alimenter
notre processus de conception et d’optimiser l’expérience de conduite dans le futur.”59
Le professeur Shigeomi Koshimizu, du Japan's Advanced Institute of Industrial
Technology, arrive à déterminer grâce à des capteurs intégrés au siège d’un véhicule si
le conducteur qui s’assied dans le véhicule est bien celui qui le conduit d’habitude. La
simple action de s’asseoir dans son véhicule est mesurée par 360 capteurs différents,
capables d’estimer à 98% si c’est la bonne personne qui conduit le véhicule. Basé sur
cette technologie, des constructeurs automobiles y voient déjà un apport non
négligeable en terme de sécurité avec la mise en place d’un système antivol, mais
aussi pour déterminer l’endormissement du conducteur et le réveiller grâce à un effet
sonore dans le but de diminuer les accidents de la route dus à la somnolence.
c. « Find the nugget of gold »60 «C’est sans doute l‘étape la plus complexe puisqu’elle consiste à trouver et définir les
modélisations types qui vont permettre un traitement et une exploitation optimale des
données. Enfin, il faut également trouver la solution qui va permettre d’intégrer ces
données aux outils en place et à l’architecture existante. Pour cela, il faut aller dans ces
59 http://www.youtube.com/watch?v=PsxAe77axMc 60 traduction « trouver la pépite d’or », expression de McKinsey
39
données, les comprendre, les transformer pour qu’elles vous permettent de modifier les
processus de votre entreprise.»61 explique Tim McGuire.
Matthias Roggendorf, consultant expert au sein du cabinet McKinsey, explique que :
« La phase de mise en place d’un système d’informations en adéquation avec les
attentes, que l’on appelle la phase « transforming data », peut de ce fait, durer entre 6 et
9 mois ».
Pour valoriser cet investissement, il est important de profiter des résultats pour modifier
l’organisation de la société. La finalité d’un projet Big Data n’existe en effet que dans un
seul et unique objectif, améliorer les processus. Si aucun changement n’est effectué
dans l’entreprise, alors la valeur créée restera marginale par rapport aux
investissements effectués. A quoi bon avoir mobiliser du temps, de l’argent, si la
structure d’exploitation du business et vos processus décisionnels ne sont pas modifiés
voire améliorée ?
A ce titre, Tim McGuire avertit sur un danger assez fréquent : le manque ou l’absence
d’hypothèses.
« Il est primordial de débuter le travail avec des hypothèses. Nous avons, dans le passé,
rencontré beaucoup d’entreprises qui attendaient que les résultats et les données
parlent d’eux mêmes. Il est au contraire important voire essentiel de définir une liste
d’hypothèses que les données vont valider ou invalider ».
Matt Ariker, Chief Operation Officer chez McKinsey est clair :
“ le Big Data n’est pas de la magie. Il est primordial de démarrer avec des hypothèses et
de définir de manière très précise là où l’on veut emmener l’entreprise. Il ne faut pas se
lancer dans le projet et attendre que les conclusions viennent d’elles mêmes.” 61 Big Data: The next frontier for innovation, competition, and productivity ; McKinsey, p.156
40
Tim Mc Guire résume sa méthodologie par une phrase simple mais qui en dit long sur
ce type de projet : « The right company, the right data, the right modeling capabality and
the right transformation methods ».
Henry Isaac rajoute lui une dernière étape à cette méthodologie, à savoir “la
gouvernance des données”. Comme il le fait remarquer :
« Il y a en parallèle de ce travail une vraie réflexion à mener sur la gouvernance des
données. Qui est responsable des données ? Une fois qu’elles ont été traitées, il est
essentiel de connaître la procédure à suivre entre les différents pôle marketing ou
DSI»62
d. Une structure et une visibilité forte
Tim Mc Guire explique que l’entreprise doit “avoir les reins solides” pour supporter cette
transition. En effet, la bonne gestion du budget alloué au développement et à
l’intégration des outils Big Data doit être bien comprise, bien évaluée et doit
accompagner et pérenniser le projet.
Le Big Data permet certes de créer de la valeur. Cependant, cette valeur ne doit pas se
créer au détriment du core-business de l’entreprise et il est important d’aborder ce type
de projets en parallèle de ce qui fait et fera la réussite de l’entreprise.
La bonne santé financière de l’entreprise à court et moyen terme, est, en cela, une
prérogative majeure. Un projet Big Data implique de nombreuses ressources humaines
et une enveloppe financière conséquente qu’il est important de conserver tout au long
de la phase de développement. Ces phases permettront de montrer des résultats
régulièrement et d’entretenir la motivation des équipes. C’est ce fonctionnement itératif
et méthodique qui permettra aux entreprises d’aller au bout du projet.
62 Entretien Henry Isaac - Professeur Associé Paris Dauphine - 28 mai 2013
41
A titre d’exemple, et pour attester de l’investissement nécessaire à la mise en place de
solutions Big Data, la Caisse des Dépôts avec ICANIC (Intellectual Capital Analytics),
aura investi environ 2 millions d’euros dans l’élaboration de sa plateforme consacré à la
mesure de la valeur des brevets.
2. La stratégie de recrutement
Les nouvelles technologies de traitement de données et les nouveaux outils mis à
disposition des entreprises ont en effet créé un véritable besoin en terme de
compétences.
Aujourd’hui, comme le fait remarquer Jean-François Marcotorchino, VP, Scientific
Director chez Thales Division DSC, les entreprises sont à la recherche de salariés
hybrides, à la fois experts en informatique et en statistiques. Ces deux métiers,
autrefois différents, tendent aujourd’hui à se rapprocher.
«Il est nécessaire aujourd’hui pour les entreprise de disposer d’une ressource qui
disposent une connaissance et une compréhension de l’intégralité de la chaîne de
valeur des données»63.
Pourtant, le marché de la formation n’est pas encore prêt. Actuellement, les formations
adaptées à ces nouveaux besoins sont peu nombreuses, bien qu’elles tendent à
émerger sous le poids des entreprises. Les écoles sont en pleine mutation et mettent
un accent particulier sur le développement de parcours spécialisés, telles que Telecom-
ParisTech qui débutera dès septembre son mastère spécialisé Big Data. Il existera à
court et moyen-terme une demande estimée à plus de 20 000 professionnels. Au
niveau marketing, il est également indispensable de former les élèves sur la valeur que
représente la donnée dans la stratégie produit ou service d’une entreprise. Cette
difficulté est d’autant plus complexe à gérer que les métiers du marketing sortent tout
63
http://www.telecom-paristech.fr/formation-continue/les-entretiens-de-telecom-paristech/dec-2012-big-data-big-value/avis-experts.html
42
juste d’une phase de transition liée aux métiers du numérique. En effet, c’est seulement
au cours des dernières années que les formations ont adapté et intégré la notion de
NTIC à leurs programmes.
Il faut donc compter environ 10 ans avant que le marché ne soit fourni de
professionnels. Avant cela, il incombe aux entreprises de raisonner intelligemment. Il
faut par conséquent qu’elles disposent d’une véritable stratégie à moyen terme et
qu’elles sachent en amont ce qu’elles souhaitent faire au niveau de la donnée. Cette
stratégie va aider à mettre en place une tactique, qui consistera soit à former ses
troupes sur les prérequis en terme d’exploitation de la donnée, ou bien, à définir un plan
de recrutement au sein duquel les profils hybrides seront privilégiés.
En effet, on voit bien que de plus en plus de secteurs sont en cours d’automatisation, et
ce, pour des raisons de productivité. Le principe de “destruction créatrice”64 défini par
Schumpeter impose à tous les métiers de se réinventer. Les métiers du marketing, par
exemple, doivent d’ores et déjà se poser la question de savoir quels rôles ils joueront
dans la chaîne de valeur de l’entreprise numérique. Si cette évolution se confirme, les
marketeurs devront, en plus de leurs compétences de bases, être rompus aux usages
statistiques et mathématiques.
Évidemment, de nombreux autres facteurs clés de succès sont indispensables dans la
réussite d’un projet Big Data. On pense notamment à la stabilité technique de
l’entreprise qui souhaite s’attaquer au sujet, mais aussi aux fonctions marketing qu’il
convient de repenser totalement, car les usages sont voués à évoluer
considérablement.
64 Désigne le processus continuellement à l'œuvre dans les économies et qui voit se produire de façon simultanée la disparition de secteurs d'activité économique conjointement à la création de nouvelles activités économiques.
43
III. Big Data, Big business ?
Les outils Big Data permettent, comme nous l’avons expliqué ci-dessus, d’exploiter les
données externes et non structurées. Évidemment, cette capacité nouvelle des
technologies à intégrer ces nouveaux types de données est, en soit, une révolution.
Cependant, quels usages peuvent découler de ces nouvelles caractéristiques
apportées parmi le Big Data ? Quelles sont les opportunités à saisir ? Cette partie
s’articulera autour de Business Cases déjà implémentés par des entreprises.
A. Maîtriser son marché et sa marque
1. Connaître son marché
L’avènement du web 2.0 a considérablement redéfini le rapport de force entre les
clients et la marque. Aujourd’hui, les clients ou prospects disposent de l’espace et des
plateformes nécessaires pour parler d’une marque, en bien ou en mal. Leur influence
est grandissante et susceptible de modifier la stratégie des marques. Seulement, pour
qu’une marque puisse utiliser les informations qui gravitent autour d’elle, encore faut-il
qu’elle puisse identifier clairement les messages et les zones de partage. C’est
justement ce qu’apportent les outils Big Data.
Cet usage permet effectivement de mieux connaître son marché, et ce, en temps réel. Il
offre un “overview” complet sur ce qui se dit d’un marché à l’instant T. Quel est l’état du
marché ? Où est-il principalement localisé ? Quel est l’état de satisfaction générale de
sa clientèle ou ses prospects ? Quels sont les freins identifiés ?
De ce premier usage découle de nombreuses opportunités, notamment celles qui
consistent à se démarquer de la concurrence en adoptant un positionnement plus
approprié. Par exemple, sur un marché relativement atone (où les prix du marché sont
estimés trop élevés par une grande majorité des clients) une entreprise décide
44
d’envoyer à tous ses clients ainsi qu’à ses prospects une réduction de 5 euros sur
l’achat d’un de ses produits. On imagine alors qu’elle aura profité de ces informations
pour affiner sa stratégie, et par conséquent, augmenter son CA.
La comparaison entre différents acteurs d’un même segment permet également de
connaître son positionnement par rapport à la concurrence et d’obtenir ainsi un premier
KPI sur ses investissements. On va pouvoir observer que la société avec laquelle nous
sommes en concurrence est beaucoup plus citée et qu’elle génère beaucoup plus de
bruit sur la toile. L’enjeu est ensuite de deviner les raisons de cet écart. En analysant
par exemple la stratégie de communication de cette marque concurrente, l’entreprise
sera en mesure de savoir qu’elle est visiblement la bonne stratégie à adopter. Cette
connaissance générale de son marché et de son positionnement, apporte donc de
nouvelles instructions sur ses forces et faiblesses.
2. Connaître sa marque
La redistribution des cartes entre la marque et l’internaute induite par le web 2.0 a
considérablement réduit la maîtrise de son identité numérique. Alors qu’auparavant,
une marque revendiquait son identité grâce à des opérations de communication en
mass-market, aujourd’hui, c’est davantage l’internaute qui va structurer l’identité de la
marque à travers sa prise de parole. On observe à ce moment là un véritable gap entre
l’identité revendiquée par la marque et sa véritable identité perçue sur le web.
L’exemple de “La vache qui rit” du groupe Bel illustre bien ce changement. En menant
une étude aux USA, IBM s’est aperçu que les produits de la marque étaient
principalement perçus comme diététiques. Or ce n’est clairement pas le positionnement
initial de la marque. Fort de ce constat, la marque a ajusté son positionnement,
notamment dans les points de vente où le transfert des produits dans les rayons
diététiques a augmenté les ventes de 40%.
45
Autre exemple, celui d’Henkel, qui après avoir observé les échanges portant sur sa
marque, s’est aperçu qu’un grand nombre de commentaires négatifs portait sur l’odeur
de sa gamme de lessive. Ce problème, jamais remonté auparavant lors des échanges
directs avec la clientèle, a poussé la marque à modifier sa formule. Peu de temps après
cette modification, les échanges observés sur le web ont fait état d’une baisse de 20%
des avis négatifs.
Le Big Data offre aux entreprises une opportunité unique, celle de connaître l’intégralité
des leviers d’actions qui lui permettent d’augmenter son chiffre d’affaires ou d’affirmer
son positionnement. En recueillant les feedback clients en temps réel, l’entreprise
dispose d’une vision claire et limpide sur ce qu’elle doit améliorer, ce qu’elle doit
communiquer et la manière dont elle doit le faire.
3. Anticiper des évènements
Un des principaux enjeux auxquels les marques sont confrontées porte sur la gestion
des Bad-buzz. Une marque comme Groupon connaît aujourd’hui beaucoup de
difficultés à maîtriser ce qui se dit sur elle. On peut d’ores et déjà affirmer qu’un bad-
buzz est techniquement inévitable. S’il doit avoir lieu, l’entreprise pourra au mieux,
réduire son importance. L’unique levier d’action réside dans la capacité de l’entreprise à
identifier les causes et y remédier efficacement.
C’est ce besoin auquel le Big Data est en mesure de répondre. Pour une entreprise
comme Groupon qui propose une cinquantaine de Daily Deal en France et par pays
(Allemagne, UK, USA, etc.), le Big Data permet d’identifier en temps réel les retours
clients et de les traiter rapidement. Une série de mesures est ensuite envisageable pour
maîtriser au mieux ce qui va se partager sur la toile. Par exemple, on peut imaginer
qu’une opération d’emailing visant à avertir la totalité des clients sur un défaut de
fabrication produit permettrait à l’entreprise de couper court à toutes mauvaises
publicités et à tout déchaînement numérique.
46
Cet usage est d’autant plus parlant lorsqu’il porte sur des métiers où le risque associé à
un défaut de fabrication est susceptible de remettre en cause l’existence même d’une
société au sein d’un marché. L’exemple du marché automobile est assez parlant.
Nombreux sont les exemples de marques ayant eu du mal à se relever d’un défaut de
fabrication (pédale de freins...) que ce soit en termes financiers ou en terme d’image de
marque. Une entreprise susceptible d’identifier rapidement un défaut de fabrication et
qui contactera alors la totalité des utilisateurs du produit pour les avertir du problème
aura de ce fait gagner sur deux tableaux. Le premier, nous venons de le dire, permettra
à l’entreprise d’éviter un drame ainsi que les conséquences financières et d’image que
cela engendre. Le second permettra dans bien des cas, de rassurer la clientèle sur la
capacité de la marque à anticiper les problèmes. Deux enjeux sont liés à cette seconde
opportunité, la fidélisation et le rapport de confiance entre la marque et le client. Deux
objectifs recherchés par toutes entreprises et qui sont aujourd’hui permis par le Big
Data.
B. Connaître sa clientèle
1. Une granularisation poussée du profil client
A ce sujet, Marc Atallah, directeur chez Deloitte France explique, nous en dit plus sur ce
sujet.
«On exploite désormais toutes les données dont on dispose sur un client, en les mettant
toutes au même niveau, sans les hiérarchiser : leur âge, leur profession, les boutiques
autour de chez eux… Cela nous permet d’établir des profils de clients totalement
nouveaux »65.
Aujourd’hui, la granularisation du client est devenue une évidence. Mais qu’est ce que
cela implique pour les métiers du marketing ?
65
http://mobile.lemonde.fr/technologies/article/2012/12/26/vertigineux-big-data_1810213_651865.html
47
Pour Bruno Walther, une des clés du Big Data est de ne plus raisonner en terme de
moyenne.
« Quand on y réfléchit, toute la pensée marketing est basée sur la moyenne et les
segments. Certes, c’est rassurant et relativement efficace bien sûr. Mais ça ne
fonctionne plus. Raisonner sur la moyenne quand on fait du marketing, c’est aussi
absurde qu’un vendeur de jeans qui dirait qu’il ne propose que des tailles 42 dans sa
boutique parce que c’est la taille la plus vendue. »66
Autre exemple avancé par Bruno Walther, celui des clients qui appartiennent à
plusieurs types de segments et pour lesquels il est difficile voire impossible d’avoir une
vision claire de leurs besoins à un instant T. Un client qui, le midi, ira s’acheter un
sandwich et qui dégustera le soir une bouteille de Dom Pérignon appartient à deux
segments bien distincts. Le problème, dans ce cas de figure, c’est que c’est bel et bien
la moyenne qui sera analysée. Le Big Data permet au marketing de sortir des dogmes
encrés dans les usages depuis l’avènement du commerce.
La situation est similaire lorsque l’on observe les campagnes de publicité sur internet.
En se servant de la granularité de la donnée, on s’aperçoit qu’une campagne peut vite
passer d’un taux de clic de 5% à 0% selon l’heure à laquelle elle est diffusée. Par
exemple, on s’aperçoit qu’au moment où elle est diffusée à la télévision, elle va générer
un taux de clic sur internet 5 à 6 fois supérieur au taux de clic moyen. La raison réside
dans le fait que 72% des possesseurs de tablettes regardent la TV en même temps67.
Encore une fois, l’application de la moyenne induit un gommage de la donnée.
L’approche permise par la granularisation du client apparaît indispensable dans la
compréhension des comportements et dans la mise en place de recommandations
pertinentes.
66
https://www.youtube.com/watch?v=u3uH6MYrAmI 67
http://www.inmobi.com/press-releases/2012/05/10/inmobi-and-mobext-reveal-tablet-users-shop-more-on-their-device-than-pc-and-smartphone-users/
48
Le Big Data permet donc d’identifier les clients et les prospects d’une entreprise non
plus selon les critères comportementaux usuels, mais en construisant une
segmentation nouvelle que l’on qualifiera d’attitudinale, dans la mesure où ils émanent
des avis, commentaires, opinions, souhaits, jugements, valeurs, goûts, préférences,
aversions, critiques, demandes, attentes, réclamations, désirs…
2. Le Community Management et la méthode de l’embasement
Parmi les usages offerts par la granularisation du client, on retrouve l’embasement,
c’est à dire la capacité d’une entreprise à faire correspondre le profil d’un client volatile
avec un profil de sa base clientèle, accessible via CRM. C’est donc sa capacité à
retrouver un client et à l’identifier au delà de ses frontières.
Pour comprendre l’utilité de cette technique, il convient d’effectuer un rapide retour sur
la situation actuelle. En effet, l’efficacité de l’emailing se ternit peu à peu face à
l’émergence de nouveaux moyens de communication bien plus efficaces. On observe
que les taux d’ouverture ainsi que les taux de clics des campagnes sont en chute libre.
Le canal e-mail va perdurer mais on constate une sur-sollicitation progressive des
internautes. C’est pourquoi les marques s’ouvrent aux réseaux sociaux. La tendance
est à l'interaction et la communication directe avec les clients. Cependant, les marques
ont besoin d’aller encore plus loin dans cette interaction grâce à des outils Big Data.
Prenons l’exemple d’un client fidèle, depuis 15 ans, à la marque Sony. Ce client a
acheté un grand nombre de produits (TV, téléphone, baladeur...). Énervé et déçu pour
une raison donnée, ce client décide de poster un message sur la page Facebook de
Sony France. Le community manager de l’entreprise va lui répondre, et le convier à se
rendre dans le magasin le plus proche pour résoudre son problème.
Il est d’ailleurs intéressant de souligner une tendance qui consiste à considérer les
réseaux sociaux comme un espace de “défoulement”. En effet, ces derniers sont
souvent utilisés par les clients pour remonter des retours négatifs (retours d’expérience,
49
produits défectueux). Alors que cette utilisation était jusque là considérée comme une
menace pour les marques, elle peut dorénavant être considérée comme une
opportunité du fait de la capacité de réaction permise par le Big Data.
En appliquant l’embasement, c’est à dire l’exploitation de données externes telles qu’un
profil Facebook et la base de données interne de l’entreprise (qui regroupe tous les
historiques d’achats), l’entreprise va pouvoir corréler les deux informations pour agir
juste. La marque va adopter un ton différent, faire naître une connivence entre elle et le
client. Grâce à cela, la marque valide l’engagement et le degré d’attachement de son
client. En effectuant un audit de l’historique d’achat du client et en le croisant aux
données issues de son profil Facebook, une marque est également en mesure de
proposer des offres commerciales pertinentes et personnalisées. Cette corrélation
permet de reconnaître les ambassadeurs de marque via les réseaux sociaux et d’affiner
leur Net Promoter Score (NPS)68.
Le Big Data, grâce à sa capacité de granularisation permet de proposer aux clients des
services et des recommandations sur mesure, deux moyens qui impactent énormément
la satisfaction client.
68 Le NPS est la part de client prête à recommander une entreprise. C’est généralement ceux qui accordent une note comprise entre 9 et 10 lorsqu’il s’agit d’évaluer les services d’une marque.
50
C. L’avènement du “Marketing on Demand”
1. Les outils de recommandation
Cette granularisation permet de proposer le bon produit au bon client. Cet usage, qu’on
peut rattacher aux outils de recommandation va très vite se retrouver profondément
amélioré par la mise en place d’outils Big Data.
Une entreprise comme Amazon propose un des moteurs de recommandation les plus
efficaces du marché. Cependant, ce dernier montre toute de même certaines limites,
notamment en terme de variété de données. Il puise actuellement sa force sur sa
capacité à gérer la forte volumétrie induite par les données d’achats client. De manière
assez simpliste, l’outil de recommandation d’Amazon s’appuie sur deux types de valeur,
le nom du client et les achats qu’il a effectués.
Exemple :
- Le client A a acheté les livres 1 – 4 – 7 – 9 – 10 au sein d’une gamme produit
- Le client B a acheté les livres 2 – 3 – 5 – 6 – 8 au sein de la même gamme de produit
- Le client A se verra recommander les produits achetés par le client B et vice versa.
En intégrant des données externes, non structurées issues du profil utilisateur, de
nombreuses opportunités marketing sont possibles.
Premièrement, on évite de proposer des contenus que le client est susceptible de
connaître. Comme le souligne Jeremy Howard, professeur à l’université de San
Francisco dans l’ouvrage Big Data Now : Edition 2012,
“Les outils de recommandation actuels n’offrent que peu de nouveautés et de surprises
aux consommateurs. La plupart du temps, les produits recommandés sont basés sur
l’auteur ou le thème. Le Big Data, à travers des outils de recommandation pointus, offre
la possibilité de proposer des contenus qui ne sont pas en tête des ventes et qui ne sont
51
pas du même auteur ni forcement du même thème mais qui peuvent néanmoins
correspondre aux goûts et aux attentes du consommateur.” 69
Jeremy Howard explique :
“Qu’en se basant sur l’intégralité des données utilisateurs, à savoir son profil, ses lieux
de consommation, ses types d’achat, les heures et dates d’achat, ses commentaires et
ses appartenances communautaires, bientôt toute entreprise sera capable de proposer
bien qu’un plus qu’un film du même réalisateur ou un livre du même auteur.” 70
Ainsi, les entreprises seraient en mesure d’offrir un vrai rôle de conseil qu’on peut
retrouver dans les librairies où le client se laisse l’orienter vers ce qu’il est susceptible
d’aimer mais surtout vers un produit qu’il n’aurait sans doute pas acheter sans avoir été
recommandé.
Un autre avantage découle de l’utilisation d’un tel outil de recommandation, la
valorisation du catalogue. Un catalogue est en effet composé de produits qui comporte
de fortes inégalités, où la règle des 20/80 règne depuis des d’années. La
granularisation du client permettrait aux marketeurs de sortir de ce qu’Elie Pariser, CEO
de la société Upworthy, spécialisée dans la mise en place d’outils de recommandation,
appelle « le Bubble Filter », un terme qui décrit la tendance selon laquelle l’affichage de
produits recommandés ne se base que sur des critères de ventes et de popularité. Le
Big Data offre donc la possibilité de sortir de la logique de meilleures ventes ou de
réseaux d’acheteurs (bien qu’efficace) et de disposer d’un Marketing On Demand ou
chaque utilisateur disposerait de son propre algorithme.
Dans le cadre des catalogues de vidéo à la demande, ce type de données permettrait
aux équipes marketing de varier les sources de CA et de doper leurs ventes sur des
contenus à faible valeur ajoutée. Bruno Da Costa Oliveira, Chef de projet au sein de
MYTF1 VOD confirme cette hypothèse. 69 Big Data Now : 2012 Edition, O’Reilly Media Inc., p.30 70 Big Data Now : 2012 Edition, O’Reilly Media Inc., p.32
52
“Les outils de recommandation basés sur un algorithme personnalisé, permettraient en
effet aux services VOD de mettre en avant des contenus souvent peu accessibles au
sein des boutiques. En terme d’image, les outils de recommandation permettent
également de valoriser un positionnement qui se veut proche du consommateur.
Néanmoins, la mise en place de ce type d’outils est basée sur deux principes. Soit il est
uniquement basé sur le parcours du client, auquel cas on tourne vite en rond et c’est le
problème des outils de recommandation actuels. Ce n’est pas parce que l’on clique sur
un contenu qu’on a envie de l’acheter. Or un outil de recommandation se basera sur ce
parcours pour proposer d’autres contenus du même genre. Le problème peut très vite
devenir contraignant car on se voit proposer des contenus sur la base d’une navigation
où l’erreur est fréquente. Deuxième solution, l’outil de recommandation est basé sur un
écosystème interne où l’on fait parler au maximum le consommateur à travers des
commentaires, des Likes et autres outils qui permettent de cerner au mieux son profil”. 71
C’est justement cet écosystème qu’essaye de mettre en place Amazon à travers ses
fonctionnalités de Like et de commentaires (sur un produit ou entre clients).
Dans le livre Big Data Now : Edition 2012, Jeremy Howard, comme Bruno Da Costa
auparavant, aborde également le thème de l’allongement de la durée de vie des
produits ou du « lifetime value». Sur des secteurs comme la VOD, ce sont les produits
les plus “chauds” qui réalisent 80% des ventes, voire plus. En remontant des contenus
à faible valeur mais qui correspondent pourtant aux goûts de l’utilisateur (Les Dents de
la Mer, Apocalypse Now), on tend à faire baisser le ratio 20/80 et à équilibrer le CA
réalisé sur l’ensemble de la boutique. Bruno Da Costa nous cite plusieurs exemples qui
pourraient permettre d’atteindre cette finalité.
“Offrir des réductions sur des produits que le consommateur n’était pas prêt à acheter
ou aurait acheter ailleurs, offrir aux consommateurs des réductions sur des produits qu’il
n’aurait sans doute jamais acheté mais qu’il est susceptible d’aimer, offrir les premières
71Entretien Bruno Da Costa - Chargé de l’innovation produit - MYTF1 VOD - 15 mai 2013
53
minutes ou les premières pages d’un livre ou d’une vidéo fréquemment visité mais
jamais converties.”
Ici, nous sommes cependant dans un cas de figure où le prix d’achat reste peu élevé.
Les taux de transformation sont différents lorsqu’il s’agit par exemple d’acheter un jean.
Le prix ainsi que l’incertitude liée à la qualité du produit et à sa taille sont autant
d'éléments qui peuvent freiner considérablement l’achat.
Pour répondre à ce défi, certaines entreprises mettent en place des approches
créatives pour récolter et traiter des données qui permettent de booster les ventes
vestimentaires. Zafu, une agence spécialisée dans la mise en place d’outil de
recommandation, débute par une série de questions à propos du corps de l’internaute
(ses dimensions, son gabarit, ses spécificités…), comment l’internaute porte les jeans
qu’ils possèdent, quelles sont ses préférences en terme de style, et bien d’autres
questions. Il propose par la suite une série de produits triés par gamme, et demande à
l’utilisateur de donner son avis sur ce qu’il voit (“not for me” ou “I love it”).
Une fois ces étapes de renseignement et de collecte de donnée effectuées, la
plateforme met au point l’algorithme personnalisé qui permettra de proposer les bons
produits au bon client. On peut clairement identifier les avantages opérationnels que
cette solution apporte à l’entreprise.
Premièrement, boosté par la pertinence des produits proposés, le taux de conversion
sur la plateforme tend à augmenter de façon significative. En toute logique, le résultat
communiqué par Zafu fait état d’une augmentation du taux de conversion de 154% sur
les plateformes qui utilisent cet outil.
Deuxièmement, en réduisant les freins à l’achat, l’algorithme personnel permet
d’augmenter le panier moyen. Le résultat communiqué par Zafu fait état d’une
augmentation du panier moyen de 11%. A titre d’exemple, le panier moyen sur une
plateforme comme Placedestendances.com représente environ 55€. En mettant en
54
place un outil similaire, la plateforme augmenterait son panier moyen de 6€ et le ferait
passer à 61€. Sur une base clientèle de 200 000 clients/an, le chiffre d’affaires pourrait
grimper à 12 200 000 € au lieu de 11 000 000 € actuellement.
Autre avantage qu’offre la solution de Zafu porte sur le management de la qualité. Le
chiffre avancé par la société montre une baisse des retours clients de 9%. Le Big Data
et plus précisément l’adoption d’algorithme personnalisé permettent, en proposant les
produits adaptés aux besoins du client, de réduire les insatisfactions.
Enfin, cela permet également de créer un dialogue avec l’utilisateur et d’éviter
d’hypothétiques dérives du Big Data, comme l’absence totale de lien avec l’internaute.
C’est effectivement une des craintes prononcées par Daniel Kaplan, directeur général
de la fondation internet nouvelle génération, qui explique que :
« Desfois, si on veut savoir ce que quelqu’un aime, est ce qu’on ne ferait pas mieux de
lui demander ? Cela permet d’éviter une situation au sein de laquelle l’entreprise n’aurait
plus aucun intérêt à communiquer à ses clients. » 72
L’outil de recommandation fait donc parti des applications du Big Data. Néanmoins, il
est possible d’aller plus loin dans la personnalisation du point de vente.
2. Vers une “boutique on demand”
Si une entreprise est capable de connaître les produits qui vont générer le plus fort taux
de transformation chez un client, pourquoi s’arrêter au simple outil de
recommandation ? En effet, chaque client dispose de ses propres critères de sélection
et de navigation. En fonction des segments, certains clients sélectionneront
automatiquement des tris par prix, d’autres par nouveautés. Certains clients
sélectionneront automatiquement des filtres par genres, que ce soit pour des vêtements,
72
http://www.telecom-paristech.fr/formation-continue/les-entretiens-de-telecom-paristech/dec-2012-big-data-big-value/avis-experts.html
55
des livres, des films, voire des meubles. Chaque client dispose d’un tropisme73 qui lui
est propre dans sa manière de naviguer sur le web.
C’est à partir de ce constat que la société Adku a conçu un algorithme personnalisé afin
de proposer une boutique sur mesure pour chacun des clients. Cette société, rachetée
par Groupon au bout de seulement 6 mois d’existence, a évidemment mis le doigt sur
un enjeu majeur pour les prochaines années. Le rôle de la plateforme s’en trouve
radicalement changé puisqu’il ne s’agit plus alors que d’une structure fixe (cadre
inchangé, emplacement des catégories similaire) au sein de laquelle les catégories de
produits s'adapteront en fonction de l’utilisateur.
On comprend bien l'intérêt d’une société comme Groupon à proposer ce type
d’avantage à ses clients. Le principe de Daily Deal et la diversité des offres sont autant
d’arguments pour proposer rapidement aux clients ce qu’il ont l’habitude d’acheter ou
de consommer. Cette personnalisation est un bon levier de fidélisation.
De la même manière, on réduit considérablement la réduction du temps de parcours
utilisateur et par conséquent le nombre de clic nécessaire au client pour trouver ce qu’il
souhaite. A ce titre, comment répondre au mieux à ce prérequis autrement qu’en
proposant une Plateforme On Demand qui prend en compte l’historique de navigation
de l’utilisateur pour lui proposer ce qu’il aime ? En allant plus loin, nous pourrions même
mettre en place une boutique qui proposerait à l’utilisateur ce qu’il va ou compte acheter.
Alors, possible ?
3. Un marketing prédictif
Gilles Babinet, investisseur dans de nombreuses start-up dont Captain Dash, l’assure.
“Ce qu’on est capable de faire avec la météorologie et la prévision à quinze jours est
possible dans tous les domaines. Par exemple, en analysant les recherches et les
73 Tendance naturelle et/ou intrinsèque à tendre vers quelque chose ou quelqu'un
56
habitudes de navigation des internautes pour tenter de deviner quels seront leurs
prochains achats. Et leur proposer de façon proactive des publicités ou des produits
correspondants. Jusqu’ici, lorsqu’un internaute effectuait une recherche sur un produit
(un vol, un appareil photo, une machine à laver, etc.), les spécialistes du « retargeting »
étaient capables de proposer une bannière liée à ce produit. Il est d’ailleurs devenu
fréquent de voir apparaître des publicités ciblées après une recherche (cf. cookie
tiers).”74
Il devient possible de prédire si une personne pourra être intéressée par des produits
proches, comme une réservation d’hôtel, une location de voiture ou une caméra vidéo.
Gille Babinet va plus loin dans l’analyse.
“C’est là tout l’enjeu du Big Data : faire des propositions sur la base de l’historique client
mais qui disposent tout de même d’une forte valeur prédictive. La barrière est assez
abstraite, pourtant il s’agit bien de prédire les actes de consommation d’un client sur la
base de ses recherches récentes. Dans le cadre d’un parcours GPS, on pourra très bien
mettre en avant certains itinéraires plutôt que d’autres en fonction des recherches. C’est
finalement bon pour le business mais également bon pour le client, qui dispose d’un outil
qui lui met l’intégralité des solutions à disposition. Il y a énormément de cas d’usages”. 75
Parmi ces usages, on retrouve l’exemple d’une plateforme américaine qui permet de
connaître le pourcentage de chance que deux personnes ont de tomber amoureux.
Un autre exemple en dehors de la sphère marketing, illustre lui aussi le potentiel
prédictif du Big Data. En effet, plusieurs grandes villes américaines se sont équipées du
logiciel PredPol (pour Predictive Policing), qui permet de prédire où et quand un crime
va se produire. Grâce à une base de données recensant les infractions passées,
l’algorithme, tenu secret mais disponible à la vente, permet d’aiguiller très précisément
les forces de l’ordre. Alors qu’aucune infraction n’a encore été commise, une patrouille
est envoyée à un lieu donné directement par PredPol. Le système, accessible depuis
un ordinateur, une tablette, ou même un Smartphone, s’actualise en temps réel et
74
http://www.laposte.fr/lehub/Peut-on-imaginer-de-predire-le 75
http://www.laposte.fr/lehub/Peut-on-imaginer-de-predire-le
57
détermine les zones à risques, celles où la probabilité d’infraction est la plus importante.
À Los Angeles, entre novembre 2011 et mai 2012, ce dispositif a contribué à faire
chuter de 33 % les agressions et de 21 % les crimes violents. À Santa Cruz, le nombre
de cambriolages a diminué de 19 % sur les six premiers mois de l’année.
Enfin, dans le domaine de la santé, les acteurs du Big Data tels qu’IBM se sont déjà mis
en route. Certainement parce que le volume d'informations de ce marché a doublé en
cinq ans et sans doute parce que les médecins ont de plus en plus de patients.
Pour cela, IBM a créé Watson76, une machine qui possède une capacité de traitement
inégalée et, qui est capable d'analyser 20 millions de pages de données en moins de
trois secondes. IBM a par ailleurs ajouté un programme d’intelligence artificielle conçu
dans le but de communiquer avec les professionnels de la médecine, et ce, dans le
langage humain. Enfin, il inclue une plateforme Big Data permettant l’agrégation de
multiples sources de données. Cette merveille technologique peut être programmée
pour intégrer toutes les publications médicales, les dossiers des patients et les
encyclopédies de médecine. Les capacités d’analyse de Watson lui permettent de
traiter toutes les données rassemblées autour d’un patient, à savoir ses symptômes, les
remarques faites par le médecin, les entrevues avec le patient et ses antécédents
familiaux.
Wellpoint, une entreprise américaine d’assurance maladie, a signé un partenariat
commercial avec IBM pour équiper des hôpitaux. Quatre, à ce jour, l’utilisent déjà dans
le but d’améliorer les soins de santé pour des millions d’américains. Des dizaines de
milliards de dollars pourraient être économisés si les soins étaient dispensés de
manière plus pertinente, en tenant compte et en exploitant de manière plus efficiente
tout ce que l'on sait déjà.
76
http://www-05.ibm.com/fr/watson/
58
4. Le Big Data et la recherche de la Qualité
La majorité des entreprises mettent en action le management de la qualité qui a pour
objectif l’amélioration des performances à la fois en interne (collaborateurs) mais aussi
en externe (clients, partenaires, actionnaires). Ce perfectionnement peut être apportée
par l’usage du Big Data, comme nous le démontre l’exemple de l’entreprise UPS
spécialisée dans le transport et la livraison de colis.
Lorsqu’une organisation aussi importante qu’UPS constate le moindre problème sur sa
flotte de véhicules, une partie de la promesse “vous amener plus loin” peut prendre fin.
La réduction des coûts de non qualité apparaît comme essentielle. UPS, par la mise en
place de nouvelles technologies sur sa flotte géante en implémentant le Big Data va
pouvoir économiser des millions de dollars par an et ainsi exceller dans un domaine
clés.
Tous ces bénéfices vont être apportés par la collecte et l’analyse de données recueillies
par des capteurs placés sur les camions que ça soit au niveau du moteur, des
suspensions, des freins ou des pneus. Par conséquent, ils peuvent observer en temps
réel la charge d’utilisation des camions sur toute sa structure. Ils n’ont donc plus besoin
de changer des pièces de manière régulière alors qu’elles pourraient fonctionner
correctement encore quelques années.
En mettant en pratique le Big Data, l’entreprise a réalisé des économies, améliorer les
conditions de travail des conducteurs et a réduit considérablement son empreinte
carbone, mais pas seulement car les autres entreprises du secteur n’ont pas encore
adopté cette pratique, ce qui représente pour UPS un avantage concurrentiel non
négligeable par rapport à FedEx ou DHL.
59
IV. Difficultés et dérives du Big Data
A. Un principe de prédiction remis en cause
1. Les techniques prédictives encore peu rentables
Ne nous trompons pas sur l’origine du terme “prédiction”. Il s’agit bien de la mise en
place d’hypothèses qui tendent à se réaliser dans le futur et qui sont issues d’une
analyse passée et historique.
Comme nous l’ont montré les business cases, les projets Big Data se sont toujours
basés sur de l’analyse historique (parcours navigateurs, actes ou intentions d’achat).
C’est le passif et “les empruntes numériques” des internautes qui permettent aux outils
Big Data d’effectuer des recommandations et de pousser certaines offres ou services.
Seulement, quelle est la véracité de ces modèles dans le moyen et long terme ?
Michael Wu, Chief Scientist de l’entreprise Lithium Technologies prend pour exemple
les prévisions météorologiques. Selon lui, si l’on recueille toutes les données météo du
jour et qu’on les utilise pour une prédiction, les résultats ne seront uniquement valables
à court terme. Si l’on applique cette prévision sur un mois, la pertinence sera forcement
moindre. 77
Appliquée aux domaines du marketing, de la communication et de la publicité, cette
inexactitude parait compliquée à appréhender au-delà d’un laps de temps supérieur à
quelques jours voire quelques heures. En effet, quelle sera la véracité d’un avis client
au delà d’une semaine ? Les modifications comportementales qu’ont entraîné le
numérique sont complexes à mesurer. Cependant, la navigation et les achats sur
internet se font de plus en plus impulsif. La montée en puissance de plateformes de
Daily Deal (VentePrivées.com), d’achats groupés (Groupon) ou d’enchères (Clic’n’take)
77
https://lithosphere.lithium.com/t5/science-of-social-blog/Big-Data-Big-Prediction-Looking-through-the-Predictive-Window/ba-p/41068
60
souligne une tendance nouvelle : les actes d’achats sont basés sur l’offre tarifaire et de
moins en moins sur de véritables besoins à moyen terme. C’est clairement le prix qui
conditionne l’achat et non plus le besoin consommateur. Nous sommes davantage dans
un schéma où l’utilisateur va chercher l’hypothétique besoin qu’il est susceptible de
combler au prix le plus avantageux. Les entreprises sont donc face à un défi complexe
bien résumé par Tarah Hunt dans son livre “The Whuffie Factor” :
“Comment trouver une logique dans le comportement d’achat d’un internaute alors que
les marques tentent, depuis 10 ans, de remplacer toute notion de logique par une notion
d’instantanéité et d’impulsion ? L’internaute navigue de manière totalement aléatoire sur
le web et les applications. Tenter d’y trouver, par la publicité, une source de revenu
exponentiel me parait trop complexe et illusoire, que ce soit aujourd’hui ou demain”. 78
En partant de ce constat, peu d’entreprises sont aujourd’hui en mesure d’investir des
budgets communication à partir d’indicateurs de véracité aussi faibles. Dans le domaine
de la publicité, le Big Data n’a pas encore fait ses preuves. Selon Criteo, le leader de la
publicité ciblée en ligne, les taux de clic issus des recommandations prédictives sont
inférieurs aux produits classiques de « retargeting » (deux fois environ), mais au moins
trois fois supérieurs aux bannières classiques. Les méthodes de retargeting sont donc
deux fois plus efficaces que les méthodes de recommandation prédictives.
Techniquement, les méthodes de retargeting disposent effectivement d’un ratio
risque/gain plus faible. Cela permet aux annonceurs d’investir des sommes publicitaires
avec un retour sur investissement plus fiable.
Ce retard à l’allumage s’explique aussi de manière conjoncturelle. En France par
exemple, le marché de la publicité numérique n’est pas suffisamment mature pour
adopter des techniques aussi pointues même dans un avenir proche. Les annonceurs
comme les agences ne sont pas vraiment engagées dans un cercle vertueux
d'innovation et de prise de risque. Les uns comme les autres se replient sur des
techniques de communication traditionnelles et n'hésitent pas à couper des budgets
78 HUNT, Tarah, The Whuffie Factor, 2009, 320 p.
61
initialement alloués aux nouveaux médias. Toujours selon la même étude le digital
devrait passer en France de 20,9 % aujourd'hui à 24,6 % des investissements
publicitaires en 2015, contre 41 % au Royaume-Uni. Le retard de l'Hexagone, déjà
perceptible en 2012, devrait s'accentuer. Le constat est sensiblement le même sur les
objets connectés de type Smartphones ou tablettes. Tandis que le marché pèse environ
526 millions de livres, il ne représente en France que 48 million d’euros.79
Toutefois, Olivier Mazeron, président de GroupM Interaction (WPP) tempère ce constat.
“Bien que le marché soit, d’une manière générale atone et plutôt frileux, En terme
d'innovation, la France est plutôt en avance sur la data et la publicité ciblée.”
2. Une durée d’intégration plus longue que prévue
Alors que dans les faits, les méthodes de retargeting existent depuis plusieurs années
grâce à l’utilisation des cookies tiers, elles ne sont mises en place par les entreprises
que depuis 1 ou 2 ans. Facebook par exemple, a lancé son propre système de publicité
ciblée et de retargeting début 2013. Ce dernier prend en compte les requêtes et
navigations effectuées en dehors de la plateforme et “retarget” l’utilisateur une fois que
ce dernier est sur son fil d’actualité. La mise en place de ce système par Facebook à ce
stade d’usage en dit long sur le laps de temps nécessaire entre l’implémentation d’une
technologie et son adoption par les entreprises.
Autre exemple, toujours sur Facebook, les publicités ciblées. La firme américaine
propose depuis peu un service publicitaire destiné aux marques ou associations qui
vise à granulariser au maximum la cible recherchée. Cet outil permet, par exemple, de
toucher la cible Londonienne, fan de Rock’n’roll, entre 18 et 25 ans, et fan des Rolling
Stones. Dans ce cas précis, il s’agit bien d’un exemple d’utilisation massive de données
variées et externes, et donc de Big Data. Ces usages sont suffisamment nouveaux pour
les entreprises. Leurs adoptions vont prendre 2 voire 3 années avant d’être totalement 79 http://www.lefigaro.fr/medias/2013/05/05/20004-20130505ARTFIG00114-la-france-en-retard-dans-la-publicite-numerique.php
62
démocratisés, adoubés et compris par toute la chaîne de production de l’entreprise.
Autant de temps qui retarde l’hypothétique mise en place de publicités prédictives.
Le chemin semble donc encore long pour que le marché intègre les techniques de Big
Data et son caractère prédictif, cependant, dans le secteur de la veille, les enjeux et les
difficultés sont différents.
3. Une veille améliorée par l’arrivée du Big Data
Comme vu précédemment, la vérité consiste à considérer le Big Data comme capable
de proposer des hypothèses comportementales à très court terme. Cette donnée
implique une gestion des données en temps réel comme l’explique Julien Moreschetti.
“Il faut savoir où chercher. Sans piste et sans historique, tenter de prédire une tendance
ou des changements comportementaux relève de l’impossible. Dans le cadre de la
campagne d’Obama et des algorithmes mis au point par Nate Silver, ils savaient
exactement où chercher. Les périodes d'élection sont cycliques et les points d’échanges
sont clairement identifiés. Néanmoins, dans le cas d’une marque, qui souhaite en
partant de rien, prédire les comportements de ses clients, ça relève du domaine de
l’impossible. Une marque a besoin de points de repère. Internet est trop grand pour
tenter ce genre d’approche. C’est lorsqu’un phénomène s’est déjà produit et que la
source du bruit a bien été repérée qu’une entreprise sera capable de tracker et
d’anticiper un évènement. C’est cet effet d’expérience qui va permettre aux entreprises
de disposer de données prédictives”.
Philippe Kuhn nous parle également de la situation et du travail qui attend les
entreprises au cours des prochains mois et années :
“Aujourd’hui, les solutions Big Data ne permettent pas de solutionner tous les problèmes
ni de répondre à toutes les questions des entreprises dans le domaine du marketing et
plus particulièrement de la veille. Dans quelques années, lorsque les marques auront
appris à analyser chacun des phénomènes impactant pour elles, c’est à dire sa
63
localisation, sa manifestation, les leaders d’opinion associés, les sources et plateformes
de relais... les nouveaux usages de veille seront démocratisés et permettront aux
marques de devenir plus intelligentes.” 80
C’est donc une veille constante de son marché qui permettra aux marques d’utiliser et
d'appréhender le caractère prédictif des outils Big Data. Sans cette étape qui s’avère
essentielle, le Big Data ne permet pas de cadrer le périmètre d’action et d’influence de
sa marque sur la totalité du web. Ce challenge relève en effet de l’impossible, que ce
soit en terme technique ou fonctionnel. Techniquement, la quantité de données serait
évidemment trop grande et les recherches trop vastes. Fonctionnellement, l’analyse par
les équipes de Data Scientist ou Marketing serait toute sauf productive et difficilement
pertinente. Julien Moreschetti confirme :
“Il est fondamental de choisir les bons mots-clés, les bonnes sphères de recherche afin
d’avoir des résultats facilement exploitables et suffisamment pertinents pour qu’ils
puissent être exploitables par les pôles décisionnels. C’est un travail complexe à la fois
au niveau de l’entreprise que de notre côté chez IBM. Nous devons paramétrés les
outils pour qu’ils correspondent aux objectifs de recherches de l’entreprise. Du côté de
l’entreprise cliente, elle devra opérer ses propres recherches en amont et connaître son
marché”.81
Encore une fois, le Big Data implique de ne pas tomber dans un manichéisme primaire.
Les résultats diffèrent en fonction des usages et des contextes. Nous sommes
cependant sûrs que le Big Data apporte des réponses supplémentaires dans le ciblage
clients et dans la connaissance de ses besoins à court terme.
80 Entretien Philippe Kuhn - Chargé Veille & Innovation - Digimind - 20 mai 2013 81 Entretien Julien Moreschetti - Ingénieur avant vente & Architecte solution - IBM - 5 juin 2013
64
B. La difficile conduite du changement au sein de l’entreprise
Nous l’avons vu plus haut, le Big Data implique des prérequis, qui nécessitent des
investissements, qu’ils soient financiers, humains, ou organisationnels. Cependant, au-
delà de ces investissements, les entreprises doivent pour la plupart faire face à de
nombreuses difficultés.
1. Les entreprises ne sont pas prêtes
Parmi ces prérequis, on peut placer en premier la stabilité et la robustesse de
l’infrastructure technique, qui est aujourd’hui indispensable pour effectuer une montée
en charge au niveau de la masse de données ou pour ajouter une brique à cette
architecture dans le but d’améliorer et d’approfondir les traitements. Or, s’il s’agit d’une
évidence, Henry Isaac explique que la réalité est bien différente.
“Pour des raisons pratiques, on constate que dans les faits, la tendance est au contraire
à la réduction de la quantité et de la nature des données. On est plutôt dans une logique
de “Small data” avec pour question principale “De quelles données ai-je vraiment
besoin ?”. Cette tendance s’explique par le fait que dans beaucoup d’entreprises
rencontrent des difficultés énormes pour mettre en place des architectures techniques
capables de traiter une quantité de données importante.” 82
Alors que l’on serait tenté de penser que ces contraintes sont réservées aux TPE et aux
PME, on s’aperçoit que de nombreux groupes Français rencontrent eux aussi de
sérieux problèmes lorsqu’il s’agit de mettre en place des architectures viables et
pérennes. C’est ce que nous confirme une nouvelle fois Henry Isaac.
«Certains groupes Télécom sont confrontés depuis 15 ans à des problématiques de
volumétrie. Ils travaillent sur des sets de données, des technologies de requêtage et de
vectorisation. Là où ils pourraient travailler sur 25 variables, ils n’en retiennent que 2. La 82 Entretien Henry Isaac - Professeur Associé Paris Dauphine - 28 mai 2013
65
raison est toujours financière. Cela nécessite des serveurs, du temps, des ressources,
et quel est le bénéfice pour l’entreprise ? Quasiment nul. Aujourd’hui, le coût de la
donnée est trop cher et le bénéfice n’est pas suffisamment visible. Par conséquent,
beaucoup d’entreprises décident de réduire leurs niveaux de connaissance.”
Pour le moment la complexité, le coût, et le temps nécessaire à la mise en place
d’architectures Big Data impliquent des investissements trop importants pour les
entreprises. Prochainement, les choses peuvent changer. Une évolution du marché du
Cloud permettra de simplifier les problématiques de stockage et de faciliter l’accès aux
entreprises qui bloquent sur les coûts d’installation parfois démesurés qui leurs sont
demandés. C’est ce qu’avance Luc Byhet.
“L’évolution du Cloud représente une véritable porte d’entrée pour le Big Data. Aux USA,
le Cloud a permis une véritable démocratisation du stockage et du traitement de la
donnée. En France, le retard est assez grand et le marché présente trop de barrières
d’adoption. Cela fait effectivement parti des évolutions qui vont permettre la mise en
place d’outils Big Data. Le Cloud est trop petit pour le moment83, surtout dans des gros
volumes de données. pour espérer une adoption massive des entreprises.” 84
Le Big Data fait donc figure de paradigme. Les idées et les concepts évoluent 20 fois
plus vite que les sociétés qui composent l’économie réelle. Le gap entre ce que l’on
souhaite et ce qui existent réellement est immense et ne risque pas, selon nous, d’être
résorbé avant de nombreuses années.
83 http://www.journaldunet.com/solutions/cloud-computing/marche-du-cloud.shtml 84Luc BYHET - Chargé de l’innovation & stratégie marketing - Commerce Guys - 30 mai 2013
66
2. Les organisations internes ne sont pas prêtes
La restructuration d’une architecture d’entreprise est une mission extrêmement
complexe, qui demande du temps, de la patience et des compétences organisées
autour d’un même objectif. Mais ce n’est pas tout, les difficultés sont également d’ordre
organisationnel.
“Dans 90% des cas, les entreprises arrêtent le projet au début, parce que le principal
problème d’une entreprise, c’est l’étape de l’ETL, qui représente 80% d’un projet de
structuration de la donnée. Les entreprises passent un temps fou à trier les données.
Pour éviter cela, les DSI mettent en place un contrôle de qualité de la donnée qui
entraîne une restriction d’usages. Si demain on décide de supprimer les restrictions
imposées pour la saisie des factures, il y a de fortes chances pour que les personnes
qui s’occupent de l’analyse des réponses se retrouvent dans votre bureau dans les 10
minutes qui suivent. Les données seront impossibles à analyser car elles n’auront plus
de structure. Si l’opérationnel est perturbé, c’est toute l’entreprise qui s’arrête. 85
Le problème posé par Henry Isaac porte sur ce qu’on appelle le “Master Data
Management” ou “la gouvernance de la donnée”. Qui est responsable de la donnée, de
sa définition, de son périmètre, de sa mise à jour ? Qui assure sa fiabilité et sa
véracité ? Au delà des difficultés techniques évoquées ci-dessus, la gouvernance de la
donnée est également l’un des prérequis indispensables.
“Vous avez des données mais vous ne pouvez rien en faire. C’est la réalité quotidienne
du Business Intelligence. Pourtant, nous sommes sûrs de la donnée structurée, interne,
dont le périmètre est maîtrisé par l’entreprise. Quels seraient les résultats avec des
données non structurées issues des réseaux sociaux ? Maintenant, ça ne veut pas dire
que c’est impossible, mais simplement que la réalité est toujours plus besogneuse que
ce qu’on imagine. La qualité de la donnée est un enjeu fondamental. D’où vient la
donnée ? Qui l’a produit ? Qui peut valider sa véracité ? Le Big Data implique les
mêmes niveaux de complexité bien supérieurs au niveau de compétences actuel des
entreprises.” 85 Entretien Henry ISAAC - Professeur Associé Paris-Dauphine - 28 mai 2013
67
On comprend donc qu’au delà des prérequis techniques et organisationnels, la qualité
de la donnée est un véritable problème pour les entreprises.
3. Le problème majeur que représente la qualité de la donnée
Le Big Data implique une pondération de la véracité des données. En partant de
constat, les entreprises sont prévenues, il est impératif qu’elles fassent preuve de
méfiance à l’égard des données générées par le web. Cependant, cela rend-il les
données inexploitables ? La réponse est oui en grande partie.
En effet, à l’heure où un pourcentage non négligeable des avis publiés sur les
plateformes sociales ne peut pas être considérées comme valables, comment mettre au
point des recommandations jugées pertinentes au niveau marketing ? En allant plus loin
dans le processus décisionnel de l’entreprise, comment justifier un investissement
marketing en tenant compte de cette part (petite ou grande) d’incertitude ?
Le récent exemple86 de Peter Hook, qui, au cours des deux dernières années et sous le
pseudonyme “Tavare” n’a publié pas moins de 105 avis visant à discréditer ses
concurrents montre bien cette difficulté. Cette politique de faux avis, qu’on
appelle “astroturfing” aux USA, est un véritable fléau pour les sites de
recommandations. Selon une étude publiée en avril 2013 et réalisée par le
cabinet Edelman Berland auprès de 35.042 participants dans 26 pays (15.595
voyageurs et 19.447 entreprises), 44% des internautes ont choisi leur dernier
hébergement en se basant uniquement sur les avis en ligne87.
Au niveau de l’entreprise, c’est donc l’intégralité des données créées qui deviennent
inexploitables. Peu importe le traitement que l’on en fait et le travail effectué en interne.
Comme nous l’a expliqué Julien Moreschetti lors de notre entretien “garbage in,
garbage out”. Une donnée biaisée à la base ne pourra donner suite qu’à un résultat
86http://www.latribune.fr/entreprises-finance/services/tourisme-loisirs/20130527trib000766783/accor-victime-de-la-malveillance-de-
l-un-de-ses-employes-en-australie.html 87 http://www.leparisien.fr/high-tech/les-avis-en-ligne-influencent-9-voyageurs-sur-10-selon-tripadivsor-04-04-2013-2696899.php
68
caduque donc impossible à interpréter. La donnée doit être considérée comme un
produit ou plutôt comme une matière première. La démarche d’assurance qualité est
indispensable, elle va permettre d’assurer le bon fonctionnement des prochaines étapes
de la chaîne de production.
Par extension, il s’agit bien de traiter la problématique de la cyber sécurité. Si une
société décide de mettre en difficulté une société concurrente, il suffit pour cela de
hacker ses sources d’informations pour mettre à mal son algorithme et donc la
pertinence même de ses résultats. Nous mettons en garde ici sur un véritable point
faible qui vaut pour l’intégralité des acteurs du web et qui serait susceptible d’être
hautement préjudiciable pour n’importe quelles entreprises.
C. Le Big Data, c’est pour quand ?
Des investissements techniques colossaux, des réflexions organisationnelles
complexes et profondément engageantes, des résultats plus besogneux à obtenir qu’il
n’y parait, des incertitudes sur la qualité de la donnée, des questions sur l’évolution des
technologies.... L'énumération des doutes et des contraintes concernant la mise en
place et l’application des solutions Big Data ne manquent pas. Quel est alors l’état du
marché et sa maturité par rapport à l’arrivée du Big Data ? Henry Isaac nous a fourni
des éléments de réponses.
“À l’heure où je vous parle, 99% des entreprises ne sont pas en mesure de mettre en
place ce type de solutions. Mon expérience montre qu’elles n’ont pas encore assez de
maturité pour implémenter des systèmes cohérents et fonctionnels. La majorité des
sociétés, en dehors des firmes internationales comme Facebook et quelques exemples
américains, qui prétendent maîtriser les 4V du Big Data sont évidemment conscientes
de l’apport en terme d’image que cela peut représenter. A ce titre, on peut très bien
considérer le Big Data comme un coup marketing, et ça l’est en partie. Le Big Data fait
vendre. Les entreprises cherchent à se démarquer et à trouver de nouvelles sources de
revenus grâce aux évolutions technologiques. Des entreprises comme IBM qui se sont
69
positionnées sur le marché du Big Data depuis plusieurs années disposent aujourd’hui
d’une position importante sur le marché. Les raisons s’expliquent par une très bonne
communication sur leur activité, leurs dépenses en R&D, et leurs offres de service. Or
aujourd’hui, nous sommes davantage au stade d’une Business Intelligence améliorée,
nous tendons vers le Big Data, mais il reste de belles années au marché pour qu’il soit
maîtrisé et adopté.” 88
Ce constat assez unique pour être souligné est également partagé par Luc Byhet :
“On l’a bien vu avec les précédentes arrivées technologiques qu’ont représenté la
Business Intelligence, le marché met énormément de temps à appréhender les
nouveaux usages. A ce titre, j’évaluerais l’arrivée du Big Data entre 2015 et 2020. D’ici
là, certaines entreprises mettront en place de très bons systèmes, mais elles resteront
extrêmement marginales. Il faut aussi être clairvoyant sur ce qu’il se passe
véritablement. Des sociétés comme IBM ou Cap Gemini font plus de bruits qu’autres
choses. IBM n’innove pas constamment mais rachète des sociétés qui travaillent sur le
sujet. Le Big Data est une affaire d’acquisitions bien sentie. Les acteurs font du
“vaporware”, des effets d’annonces qui ont pour but de se positionner en tant que leader
d’une technologie qui n’est pourtant pas ou très rarement mis en pratique. Pour le
moment, ce sont avant tout des budgets marketing colossaux et des stratégies
d’évangélisation. De plus, les technologies à base des fondements du Big Data comme
le NoSQL s’avèrent très instables. L’effet d’annonce passé, beaucoup d’acteurs se
rendent compte que le NoSQL n’apporte, pour l’instant, pas les réponses tant espérées.”
Tandis que le Big Data est présenté comme “la prochaine étape pour les entreprises”,
nos études montrent en effet que beaucoup d’étapes intermédiaires sont
indispensables pour atteindre et relever ses challenges, aussi bien techniques
qu’organisationnels.
On est encore dans la promesse du début du marché. Actuellement, les compétences
ne sont pas encore là et il reste sans doute de nombreuses années avant que ce
88Henri ISAAC - Professeur associé Paris-Dauphine - 28 mai 2013
70
phénomène puisse efficacement produire tous les bénéfices qu’il prétend apporter. Un
autre point assez important pour être souligné porte sur le cadre juridique censé
entourer le traitement de la donnée à grande échelle.
D. Cadre juridique et réveil de l’internaute
Quelles sont les évolutions possibles du marché en ce qui concerne la protection de
l’utilisateur ? En effet, il est clair que le Big Data repose sur une manne d’informations
utilisateurs libre de droit et d’exploitation. Cependant, que se passerait-il si toutes ces
informations, sous la pression des gouvernements et de la méfiance des internautes,
venaient à se tarir ?
Il y a un an, une étude réalisée par le cabinet Domo89, montrait qu’à chaque minute,
plus de 100 000 messages étaient postés sur Twitter, 684 000 messages (liens, statuts,
photos, etc.) partagés sur Facebook, 48 heures de vidéos envoyées sur Youtube, et
3600 photos postées sur Instagram. Nous l’avons affirmé tout au long de ce mémoire,
le grand défi de la prochaine décennie consiste à exploiter ces données. Facebook a
d’ores et déjà révolutionné le marché publicitaire grâce aux informations récoltées
depuis sa plateforme sociale. Une démocratisation des outils d’analyse sémantique
permettra d’ici peu d’en faire de même avec des plateformes comme Instagram ou
Pinterest. La stabilité de leurs systèmes repose donc sur un seul et unique :
l’exploitation et la vente de ces données, qui s’effectue jusqu’à présent sans réel
problème ni contestation extérieure.
Deux éléments sont pourtant susceptibles de remettre en cause cette tendance. Pour
l’instant, rien ne laisse présager une insurrection de la part des internautes ni un
encadrement sévère de la part des gouvernements. Pourtant, il semblerait que les
choses soient en mesure de changer, tout du moins, le débat est ouvert.
89 http://www.journaldunet.com/ebusiness/le-net/barometre-confiance-numerique.shtml
71
1. Le rôle fondamental de l’internaute 55% des français ont conscience de l’utilisation de leurs données à des fins publicitaires
et 30% craignent que leurs données soient utilisées à des fins publicitaires. Au cours
des prochaines années, il est inéluctable que ce pourcentage augmente pour atteindre
finalement les 80 ou 90% avant 2020.
a. Les réseaux sociaux
En 2011, environ 35% des internautes témoignaient une relative confiance dans les
réseaux sociaux, en 2013, ils sont 32%. Cette baisse de 3 points est importante. 2
français sur 3 ne font pas confiance dans les réseaux sociaux. Combien seront-ils en
2020 et quelles sont les raisons de cette méfiance ? Les principales raisons évoquées
portent directement sur l’utilisation de leurs données.
En effet, 82% des personnes interrogées sont gênées par l’utilisation de leurs données
à des fins publicitaires. Pour éviter de recevoir des publicités, 47% d’entre eux
communiquent même de fausses informations. Alors, quels sont les leviers qui
pourraient pallier cette méfiance ? Pour 41% d’entre eux, aucune action ne pourra leur
donner confiance en les réseaux sociaux et 20% pense qu’une meilleure politique de
confidentialité pourrait les y aider.
b. Dans le e-commerce
En 2009, environ 51% des internautes témoignaient une relative confiance dans le e-
commerce, en 2011 ils étaient aux alentours de 56%, avant de descendre à 53% en
2013. On note que la courbe s’est inversée depuis 2012. Combien seront-ils en 2020 et
quelles sont les sources de leurs méfiances ?
48% craignent que leurs données soient utilisées à des fins abusives, 32% craignent
que les données soient conservées sans limites de temps et 38% à des fins
72
publicitaires. A ce titre, 98% des internautes jugent essentiels qu’une limite de temps
soit fixée dans le cadre de l’utilisation de leurs données.
c. Dans ces conditions, quel avenir pour la data ?
Dans le domaine du e-commerce, 90% des français disent avoir déjà achetés sur
internet, alors qu’ils étaient 85% en 2009. Dans le domaine des réseaux sociaux, le
taux d’utilisation est aujourd’hui de 77% contre 75% en 2011. En somme, bien que les
usages se renforcent, l’internaute se veut beaucoup plus méfiant et plus “éveillé” en ce
qui concerne l’utilisation faite de ses données. Cette tendance remet évidemment en
question le Big Data.
Comme nous avons pu le voir, le Big Data se nourrit des données utilisateurs. Le Web
des objets connectés se base d’ailleurs sur un principe de total transparence en ce qui
concerne l’activité de l’internaute. Or quels seraient les usages, si 75% des détenteurs
de Smartphones refusaient par défaut d’activer la fonctionnalité de géolocalisation ? La
réponse est complexe, autant que les sujets qu’elle soulève, il est cependant clair que
les tendances du futur se basent sur des prédictions fragiles. Leurs réactions seront-
elles exacerbées par cette prolifération d’appareils et d’usages ? On pense notamment
aux Google Glass de Google, qui semblent proposer des services intéressants mais
extrêmement intrusifs et à priori bancale d’un point de vue législatif. A la vue de ce type
d’évolution et de la situation actuelle, ce scénario est probable.
i. Le rapport coût / avantage pour l’internaute L’un des principaux facteurs qui va influencer l’avenir repose évidemment sur la nature
des services proposés par les entreprises. On parle ici du rapport coût / avantage,
indicateur économique qui permet de juger la valeur d’un investissement. On nommera
investissement le fait, consciemment, de partager ses données sur le web et de les
communiquer à des plateformes tiers. Ainsi, si les avantages qui en résultent s'avèrent
73
suffisants pour supporter le coût de cet investissement, nous pouvons partir du principe
qu’une grande part des internautes décidera de jouer le jeu. A l’inverse, si les
investissements s’avèrent insuffisants, la tendance actuelle sera sans doute confirmée.
Cette théorie est actuellement validée par le scandale “Prism” qui a eu lieu au cours du
mois de Juin 2013 et qui porte sur la récolte et l’analyse des données des citoyens
américains par les services de renseignements du pays. Une étude menée par le
Washington Post montre que 62% des personnes interrogées jugent importants que
leurs données soient récoltées et exploitées pour prévenir un hypothétique acte
terroriste même si cela se fait au détriment d’une protection de la vie privée. Toutes
proportions gardées, nous pensons justement que si les entreprises utilisent de manière
intelligente ces données et qu’elles permettent aux utilisateurs de faciliter, d’approfondir
et d’améliorer la qualité de leurs activités, tout en respectant leurs vies privées, un
accord tacite devrait être trouvé. La base de cet accord repose sur la philosophie
adoptée par les entreprises et leurs capacités à considérer l’internaute comme un client
et non comme un produit.
Le deuxième élément susceptible d’influencer les tendances futures repose sur la
capacité et la volonté des gouvernements à encadrer le marché de la donnée.
2. Les gouvernements à la croisée des chemins
Le Big Data pose nécessairement une question juridique sur le droit des entreprises à
utiliser des données qui pourraient émaner d’internautes non avertis. L’exemple des
Google Glass est sans doute l’un des plus marquants. Comment réguler un appareil qui
enregistrera des heures et des heures d’enregistrement vidéo sans aucune
considération de la notion propriété intellectuelle et de la protection de la vie privée ?
Plusieurs instances françaises et européennes encadrent le marché de la donnée sur
internet. En première ligne, nous retrouvons la CNIL90 qui a pour principal objectif de
protéger les données personnelles, d’accompagner l’innovation, et de préserver les 90 Commission Nationale de l’Information et des Libertés
74
libertés individuelles. Pour cette raison, les CNIL européennes et nationales tentent
actuellement de gérer la problématique du Big Data. Cependant, Henry Isaac nous
explique deux choses, premièrement qu’il est sans doute déjà trop tard, et
deuxièmement que les rapports de force entre les institutions et les entreprises sont
aujourd’hui en passe de s’inverser.
“Aujourd’hui, les gouvernements sont incapables d’appréhender la problématique de
l’exploitation des données personnelles. C’est de toute façon un sujet qui aurait dû être
traité et considéré comme majeur au cours de la dernière décennie. J’ai l’impression que
les états se rendent compte seulement aujourd’hui de l’importance du sujet. D’ailleurs je
pense très sincèrement qu’il est déjà trop tard. Google centralise d’ores et déjà, via ses
services des milliards de données chaque jour. Pour l’instant ils n’ont pas décidé de les
commercialiser, mais quand ils le souhaiteront, qui pourra les en empêcher ? A titre
d’exemple, Facebook le fait déjà. Il y a également un vrai enjeu d’éducation, combien de
personnes sont réellement au courant de l’utilisation faites de leurs données ? La vérité
qui se cache derrière cela est que chaque action effectuée sur internet remplie de
manière continue notre “casier numérique”. 91
La Commission européenne, qui souhaite évidemment suivre l’évolution technologique,
a publié un projet de nouvelle réglementation destinée à remplacer le cadre juridique
actuel. Il introduit de nouveaux droits, comme le droit à l'oubli, le droit à la portabilité des
données 92 , la vie privée par la conception et la confidentialité par défaut. De
nombreuses discussions ont également lieu dans les hautes sphères politiques pour
encadrer l’utilisation des cookies tiers, en compagnie d’acteurs comme Facebook ou
Google. Ils sont âpres et font l’objet de lobbying puissant de la part des firmes
Américaines. Cependant, sous la pression de l’Allemagne, beaucoup plus concernée
par la question de la propriété de la donnée, l’Europe est donc en passe de réussir à
mettre en place un projet juridique viable.
91 Entretien Henry Isaac - Professeur Associé Paris Dauphine - 28 mai 2013 92 Désigne la possibilité de gérer soi-même ses données personnelles, de les porter d'un système à un autre, de les partager entre plusieurs systèmes.
75
Nous l’avons vu précédemment, le marché de la data représente plusieurs milliards de
dollars. Si de nouvelles barrières à l’entrée faisaient leur apparition au niveau européen,
quelles seraient les conséquences pour les entreprises françaises ? Henry Isaac
souligne que :
“Pour les internautes, il s’agirait effectivement d’une très bonne nouvelle. Le droit à
l’oubli permettrait de sortir d’un système où les entreprises disposent de tous les droits,
la restriction de la collecte des données permettrait d’éviter tous types d’abus et de
sensibiliser les internautes. La vraie question repose maintenant sur les conséquences
que ces réglementations vont engendrées en terme de business. Clairement, il existe
une vraie dualité entre l’internaute et l’entreprise. Favoriser l’un revient à défavoriser
l’autre. Le problème ici est concurrentiel, puisque les USA ne sont pas dans une optique
de protection de l’utilisateur. Si l’Europe décide de réglementer le marché de la data,
cela se fera au détriment d’une compétitivité sur le marché de la data, de la publicité
ciblée etc.”93
Il faut donc choisir entre la protection de l’internaute et la compétitivité des entreprises
européennes sur le marché de la data. Sans être aussi manichéen, il existe bien sûr
des scénarios intermédiaires, qui comme nous l’avons vu consisterait par exemple à
considérer à sa juste valeur l’internaute. Quoi qu’il en soit, les vides juridiques sont
nombreux à l’approche de cette nouvelle ère numérique. Il est impératif et fondamental
pour les futures générations de rétablir un équilibre entre les entreprises et le
consommateur et de redéfinir le cadre de la vie privée numérique.
93 Entretien Henry Isaac - Professeur Associé Paris Dauphine - 28 mai 2013
76
Conclusion
Le Big Data est donc amené à soulever des problématiques bien plus importantes que
ses seules avancées technologiques. Nous l’avons vu, bien que ces dernières soient
innovantes, leur application va demander du temps, beaucoup de temps avant qu’elles
ne puissent être maîtrisées et intégrées aux processus décisionnels des entreprises.
Ces mêmes entreprises sont actuellement trop fragiles et trop jeunes pour appréhender
de telles architectures car les contraintes sont nombreuses. Elles sont premièrement
d’ordre financier, car la mise en place implique de lourds investissements qui sont
supportables pour des sociétés comme Facebook ou Google mais qui restent
inabordables pour 99% d’entre elles. La complexité induite par la mise en place de ces
architectures représente elle aussi un frein important, d’autant que, comme nous
l’avons vu les ressources et les compétences requises par le Big Data ne sont pas
encore disponibles sur le marché. Plusieurs scénarios vont potentiellement permettre
au Big Data d’éclore et de connaître l’évolution que bon nombre d’experts lui prêtent.
Dans un premier temps, il est fort probable que les instances de formation prennent en
compte ce phénomène pour adapter leurs parcours et ainsi permettre aux entreprises
de recruter les Data Scientist nécessaires. De la même manière, cette évolution globale
du marché va sans doute impliquer de repenser en grande partie la nature même des
métiers du marketing, car, il parait évident à la vue des éléments fournis précédemment
que la data va modifier l’intégralité des secteurs d’activité.
Deuxièmement, l’évolution du Cloud va, au cours des prochaines années, représenter
un autre facteur essentiel à la démocratisation du traitement de la data. Lui seul peut
permettre de faire baisser le prix de la donnée en augmentant la capacité de stockage
et en facilitant le travail d’analyse et de traitement. C’est ce scénario qui s’est déroulé
aux USA et c’est principalement grâce à cela que les entreprises américaines disposent
aujourd’hui d’une avance considérable dans la maîtrise et l’exploitation de la donnée.
Le marché français risque donc d’assister à une transition longue et besogneuse qui
passera sans doute par la disparition des Data Warehouse au profit d’espaces de
77
stockage exclusivement externes. Ce phénomène est en soit un énorme défi pour les
entreprises françaises et en dit long sur le chemin nécessaire avant que les sociétés
puissent mettre en place des processus techniques et organisationnels propices au Big
Data.
Car il est clair qu’au-delà des challenges techniques qu’impliquent le Big Data, il est
indispensable pour les entreprises d’adopter une vraie politique de la donnée. A ce titre,
cette politique doit être centrée sur les besoins et les objectifs de la marque et doit
permettre à tous les salariés de considérer la data comme une véritable matière
première, susceptible à elle seule d’améliorer la qualité de production ou de service. Un
des principaux enjeux du Big Data est donc de valoriser la data, de lui donner du sens
tout en travaillant sur sa véracité et sa fiabilité, pour qu’elle devienne vecteur de
performance au sein des structures. C’est ce travail de fond qui permettra aux
entreprises de bien négocier ce tournant, car nous l’avons vu, la difficulté que rencontre
les entreprises porte sur le nettoyage des données. Pour éviter cette contrainte,
plusieurs moyens sont à la portée des entreprises.
Nous l’avons vu à travers d’exemples comme Zafu ou Zap Travel qui ont décidé de
privilégier la qualité à la quantité. C’est d’ailleurs ce type de solutions qui risquent de se
développer dans un premier temps. Leurs mises en place nécessitent effectivement
moins de temps, d’argent, et il n’est pas rare de retrouver des résultats aussi pertinents
et instructifs sur l’utilisateur qu’avec des données externes. Il est donc essentiel d’avoir
en tête que le Big Data n’implique pas obligatoirement de traiter un volume colossal de
données et qu’il est tout à fait possible de récréer un écosystème interne de partage et
d’expression utilisateur qui permette d’affiner la segmentation client sans grosse
volumétrie.
Concernant le traitement des données non structurées disponibles sur le web, les
enjeux sont bien plus complexes et le niveau de difficulté bien supérieur. Actuellement,
très peu d’entreprises peuvent revendiquer un traitement de données non structurées
comme peuvent l’être les commentaires, les Likes ou les posts sur Twitter. Les outils
78
disponibles ont certes permis d’appréhender plus précisément ce challenge, cependant,
leurs intégrations et leurs interprétations ne sont aujourd’hui qu’à un stade exploratoire.
Pourtant, au niveau micro, certains usages sont d’ores et déjà permis, nous pensons
notamment aux outils de veille autour desquels nous assistons à une véritable
révolution sous l’impulsion des SMA94. Pour les marques, il s’agit véritablement de
connaître les fluctuations de son marché, des acteurs qui le compose et surtout,
d’anticiper d’éventuels évènements susceptibles de modifier la structure du marché à
court, moyen ou long terme. Dans ce domaine, Google ne cesse de proposer et
d’inventer de nouveaux usages. On pense à Google Trends, qui est actuellement le
seul outil capable d’obtenir un temps de réponse aussi court par rapport à la quantité de
données récupérées, au point de pouvoir prédire les comportements des internautes
qui effectuent des requêtes sur le célèbre moteur de recherche.
C’est ce fameux caractère prédictif qui agite tant les débats et qu’il est possible de
retrouver dans certains cas, mais, qui a pourtant du mal à faire ses preuves dans
d’autres secteurs. Car si la prédiction est aujourd’hui permise à travers des usages
microéconomiques, elle l’est beaucoup moins dans des situations où la segmentation et
la granularisation sont élevées. En effet, la mise en place de recommandations
prédictives centrées sur l’utilisateur est encore bien trop opaque et complexe pour qu’on
puisse la considérer comme acquise. Les résultats sur le marché de la publicité le
prouvent. Pourtant, cette granularisation de la clientèle offrent aux métiers du marketing
d’énormes opportunités d’augmenter le taux de transformation, le panier moyen, la
fidélisation et également les cycles de vie du produit. Nous l’avons vu à travers les
outils de recommandation qui s’annoncent déjà comme un des principaux défis des
entreprises et sans doute l’une des premières applications du Big Data. Ce MOD -
Marketing On Demand - représente une véritable aubaine dans la quête de
personnalisation des services. Il permettra lorsqu’il sera mis en place de réduire les
freins à l’achat et de proposer des expériences de navigation nouvelles et novatrices.
94 Social Media Aggregator
79
Avant cela, les entreprises devront apprendre à améliorer leurs connaissances du client
à travers des données plus simples car structurées mais qui permettront tout de même
de trouver de nouvelles sources de segmentation. Car l’internet des objets représente
le premier défi auquel les entreprises vont être confrontées. Il offrira une vision précise
des usages utilisateurs et permettra de connaître chaque client d’une manière bien plus
poussée. Encore faut-il que ces usages soient acceptés par l’utilisateur qui montre des
signaux réfractaires quant au “flicage” massif qu’il s’apprête à subir. L’évolution des
mentalités est en ce sens un facteur déterminant dans l’évolution du Big Data, au même
titre que les stratégies politiques européennes, dont les débats et les actes de lobbying
s’annoncent d’ores et déjà nombreux. A ce titre, il nous semble indispensable de
réguler les rapports entre le consommateur et l’entreprise au sein de l’écosystème
numérique. Le droit à l’oubli, la propriété intellectuelle sont autant de sujets fondateurs
et pour lesquels les sociétés du monde entier accusent un retard considérable.
Attention, il convient toutefois de pondérer la rapidité des transitions technologiques et
philosophie induites par le Big Data. En effet, alors que des acteurs comme IBM ou Cap
Gemini promettent, grâce à son arrivée, des systèmes entièrement automatisés ou
prédictifs, le passé nous a montré que la réalité était souvent bien différente. Déjà, à
l’époque, l’arrivée de la Business Intelligence avait laissé entrevoir ce même genre
d’avancées. Or, la réalité actuelle est tout autre. L’automatisation par exemple, ne
semble toujours pas praticable. Plusieurs raisons expliquent cet engouement, souvent
démesuré. Premièrement il est profondément normal que le marché attende
énormément des Évolutions technologiques apportées par le Big Data. L’imaginaire est
sans cesse nourri par les visions futuristes qui composent le paysage
cinématographique et littéraire. De plus, notre passé proche nous pousse à envisager
les Révolutions technologiques de manière beaucoup plus rapide qu’auparavant. Il y a
10 ans, internet se démocratisait à peine, alors finalement, pourquoi pas ? Rappelons
nous de cette phrase prononcée par Henry Isaac et qui résume bien cette idée : “la
réalité est toujours plus besogneuse que ce que l’on croit”. Deuxièmement, les enjeux
commerciaux pour des acteurs comme IBM sont énormes. Leur stratégie
d’évangélisation n’est autre qu’une vaste opération de prospection où le Big Data fait
80
figure d'appât. De plus, dans un monde où l’innovation est devenue le principal facteur
clé de réussite, cette image de pionnier est en soit une vraie victoire pour la firme, qui
s’est d’ores et déjà positionné comme leader sur le marché. En somme, bien que le Big
Data apporte des réponses bien plus poussées que la Business Intelligence, iI convient
de pondérer les différentes promesses qui ont émanées de toute part. A ce titre, il nous
semble que la doctrine “let the data speak” n’est pas encore d’actualité, et ce, pour de
nombreuses années encore.
Il n’empêche, le Big Data permet d’aborder des thèmes qui s’avèrent fondamentaux
pour l’avenir de nos sociétés : quelle sera la place de la technologie dans le futur ? Quel
rôle souhaite-t-on donner à la donnée et dans quelle mesure souhaitons-nous impliquer
la machine dans les processus décisionnels ? La société américaine a d’ores et déjà
décidé de modifier son ADN en intégrant le Big Data dans des secteurs comme la
criminologie ou la médecine. Dénuée de sa capacité de décision et donc de ses
responsabilités, quelle sera alors la place de l’homme ?