Miettes de données - Keynote BDA 2015
-
Upload
amelie-marian -
Category
Data & Analytics
-
view
796 -
download
0
Transcript of Miettes de données - Keynote BDA 2015
![Page 1: Miettes de données - Keynote BDA 2015](https://reader035.fdocument.pub/reader035/viewer/2022062401/58edf7f61a28abee398b456d/html5/thumbnails/1.jpg)
Accommoder les miettes de données : Ingrédients, Recettes et Astuces
Amélie Marian – Arnaud Sahuguet
BDA, Porquerolles, 2 Octobre 2015
https://goo.gl/dgAWnp
1
![Page 2: Miettes de données - Keynote BDA 2015](https://reader035.fdocument.pub/reader035/viewer/2022062401/58edf7f61a28abee398b456d/html5/thumbnails/2.jpg)
Dramatis Personae
Amelie Marian@ameliemarian
Arnaud Sahuguet@sahuguet
Paris IX DauphineColumbia Univ., PhD
X – ENPC – Paris VIUniv. of Pennsylvania, PhD
Bell Labs / Alcatel-LucentGoogleThe Governance Lab @ NYU
2
![Page 3: Miettes de données - Keynote BDA 2015](https://reader035.fdocument.pub/reader035/viewer/2022062401/58edf7f61a28abee398b456d/html5/thumbnails/3.jpg)
Les objectifs de ce keynote
vous rappeler que c'est un sujet d'actualité brûlant
définir les concepts, e.g. miettes, small data, big data
présenter les axes de recherches liés aux miettes de données
vous convaincre de vous lancer dans l'aventure
rappeler que votre expertise est essentielle à un plus large débat3
![Page 4: Miettes de données - Keynote BDA 2015](https://reader035.fdocument.pub/reader035/viewer/2022062401/58edf7f61a28abee398b456d/html5/thumbnails/4.jpg)
4
![Page 5: Miettes de données - Keynote BDA 2015](https://reader035.fdocument.pub/reader035/viewer/2022062401/58edf7f61a28abee398b456d/html5/thumbnails/5.jpg)
Plus malin que l’ogre BigData ?
… et a été dénoncée par Rite Aid pour “excessive transactions”Se cacher devient suspect
http://time.com/83200/privacy-internet-big-data-opt-out/
?
5
Elle a caché sa grossesse sur internet...Social medias
Achats en cash ou gift card
Tor pour surfer le web
Janet Vertesi, Assistant Professor of Sociology à Princeton a essayé
![Page 6: Miettes de données - Keynote BDA 2015](https://reader035.fdocument.pub/reader035/viewer/2022062401/58edf7f61a28abee398b456d/html5/thumbnails/6.jpg)
Finance
Web of Things/Quantified Self
Administration
Commerce
Services Web/Réseaux Sociaux
Transport
Mobile
Santé / Assurance
Services
Loisirs
6
![Page 7: Miettes de données - Keynote BDA 2015](https://reader035.fdocument.pub/reader035/viewer/2022062401/58edf7f61a28abee398b456d/html5/thumbnails/7.jpg)
miette :sous-produit digital de nos activités quotidiennes, telles que couriel, texto, appel téléphonique, achat, transport, jeux, etc.
7
“J'ai laissé des bouts de moi au creux de chaque endroitUn peu de chair à chaque empreinte de mes pas”Jean-Jacques Goldman, 1987.
![Page 8: Miettes de données - Keynote BDA 2015](https://reader035.fdocument.pub/reader035/viewer/2022062401/58edf7f61a28abee398b456d/html5/thumbnails/8.jpg)
Dessine-moi une miette
8
![Page 9: Miettes de données - Keynote BDA 2015](https://reader035.fdocument.pub/reader035/viewer/2022062401/58edf7f61a28abee398b456d/html5/thumbnails/9.jpg)
Taxonomie basée sur l'origine des miettes
Directement depuis l'utilisateur
Miette fournie- initiée- transactionnelle- publiée par l'utilisateur
Miette observée- par engagement- non-anticipée- passive
9
Depuis le fournisseur de service
Miette dérivée- computationelle- notationelle
Miette inferrée- statistique- modèle plus avancé
Source: OECD 2014, Martin Abrams
![Page 10: Miettes de données - Keynote BDA 2015](https://reader035.fdocument.pub/reader035/viewer/2022062401/58edf7f61a28abee398b456d/html5/thumbnails/10.jpg)
Taxonomie pour les réseaux sociauxService data: data you give to SP in order to use it.
Disclosed data: data you post on your own pages.
Entrusted data: data you post on other people's pages.
Incidental data: data other people post about you.
10
Behavioral data: data collected by SP about your habits.
Derived data: data derived from all other data.
Source: IEEE Privacy & Security, 2010, by Bruce Schneier
![Page 11: Miettes de données - Keynote BDA 2015](https://reader035.fdocument.pub/reader035/viewer/2022062401/58edf7f61a28abee398b456d/html5/thumbnails/11.jpg)
Taxonomie basée sur la nature des miettes
11
Transport
Communications
Commerce
Loisirs
Santé, Bien-être
Activités Citoyennes
Education
Travail
Social
![Page 12: Miettes de données - Keynote BDA 2015](https://reader035.fdocument.pub/reader035/viewer/2022062401/58edf7f61a28abee398b456d/html5/thumbnails/12.jpg)
Soupe de "Data"big, small, personal, etc.
12
![Page 13: Miettes de données - Keynote BDA 2015](https://reader035.fdocument.pub/reader035/viewer/2022062401/58edf7f61a28abee398b456d/html5/thumbnails/13.jpg)
BIG DATA vs small data
13
small data
BIG DATA
![Page 14: Miettes de données - Keynote BDA 2015](https://reader035.fdocument.pub/reader035/viewer/2022062401/58edf7f61a28abee398b456d/html5/thumbnails/14.jpg)
L'intérêt des miettes
14
e.g. personalisation
e.g. quantified self, IoT.
e.g. data philanthropyUber, Google FluTrends, Twitter
![Page 15: Miettes de données - Keynote BDA 2015](https://reader035.fdocument.pub/reader035/viewer/2022062401/58edf7f61a28abee398b456d/html5/thumbnails/15.jpg)
Ce dont on ne va pas parler...Big Data
Analytics
Learning
EthiquesDroit à l’oubli
Big Brother
Patriot Act / Loi de renseignement
Beaucoup de choses à dire...
RèglementationCNIL
HIPAA
ProprietéA besoin d’une vraie réflexion
15
![Page 16: Miettes de données - Keynote BDA 2015](https://reader035.fdocument.pub/reader035/viewer/2022062401/58edf7f61a28abee398b456d/html5/thumbnails/16.jpg)
La vie d'une miette
16
![Page 17: Miettes de données - Keynote BDA 2015](https://reader035.fdocument.pub/reader035/viewer/2022062401/58edf7f61a28abee398b456d/html5/thumbnails/17.jpg)
La vie d'une miette
17
![Page 18: Miettes de données - Keynote BDA 2015](https://reader035.fdocument.pub/reader035/viewer/2022062401/58edf7f61a28abee398b456d/html5/thumbnails/18.jpg)
Interêt PersonnelApplication:
"Personal Information Management"
18
![Page 19: Miettes de données - Keynote BDA 2015](https://reader035.fdocument.pub/reader035/viewer/2022062401/58edf7f61a28abee398b456d/html5/thumbnails/19.jpg)
Suivre les miettes pour retracer ses pas
19
Quel est le restaurant où j’ai mangé la dernière fois qu’on est allé au ski ?
Dates du voyage: Email de réservation, Calendrier, GPS
Nom du restaurant: Relevé de CB, checkin Foursquare
Quand est-ce que j’ai vu Sihem pour la dernière fois?
Email et SMS avec Sihem
Photos où Sihem et moi sommes taguées au même endroitLes informations existent, mais sont difficiles à accéder et connecter
![Page 20: Miettes de données - Keynote BDA 2015](https://reader035.fdocument.pub/reader035/viewer/2022062401/58edf7f61a28abee398b456d/html5/thumbnails/20.jpg)
Projet Digital Self à Rutgers University
Les miettes de données sont riches en contexte
Des travaux en Psychologie ont montré qu’on se souvient des informations/événements à partir d’indices de contexte
Qui, Quand, Où, Quoi, Pourquoi, Comment
Nous proposons un PIMS basé sur des données contextuelles.
Extrait les miettes de données Intègre les données fragmentéesPermet la recherche sur les données
personellesCrée une base de connaissances personelle
En collaboration avec:Thu NguyenAlex BorgidaDaniela ViannaValia KalokyriAlicia-Michelle YongChaolun Xia
20
![Page 21: Miettes de données - Keynote BDA 2015](https://reader035.fdocument.pub/reader035/viewer/2022062401/58edf7f61a28abee398b456d/html5/thumbnails/21.jpg)
Digital Self Architecture
21
•Collection de données–Identification, récupération, stockage, – Personal Extraction Tool:
https://github.com/ameliemarian/DigitalSelf•Integration de données
–Modèle de données unifié–Multidimensionnel, contextuel–Analyse NLP
w5h Model •Recherche
–basée sur des travaux sur la mémoire–contextuelle, imprécise
w5h Search •Base de connaissance
–Identifier des connections et séquences–Intégrer les comportements et réactions
![Page 22: Miettes de données - Keynote BDA 2015](https://reader035.fdocument.pub/reader035/viewer/2022062401/58edf7f61a28abee398b456d/html5/thumbnails/22.jpg)
w5h - Modèle de données Contextuel
•Différents types de contexte–Metadata–Application data –Environnement–Inférence
•Cognitive Psychology–le contexte peut être utliser pour rappeller et stocker l’information
22
Who, When, WhereMetadata, Environnement, Inférence
WhatContenu de la miette
WhyTâche; fait le lien entre des miettesInférence
HowComment a-t-on enregistré la
miette, Application Data
![Page 23: Miettes de données - Keynote BDA 2015](https://reader035.fdocument.pub/reader035/viewer/2022062401/58edf7f61a28abee398b456d/html5/thumbnails/23.jpg)
Preliminary Results - MRR
En gras: significance statistique (p<0.05)23
w5hrecherche contextuelle, index w5h
Text Index texte natif Mongodb sur données modelisée en w5h
SolrIndex texte sur données extraites
![Page 24: Miettes de données - Keynote BDA 2015](https://reader035.fdocument.pub/reader035/viewer/2022062401/58edf7f61a28abee398b456d/html5/thumbnails/24.jpg)
Base de Connaissances Personnelle (PKB)Dimension Why
Connecter des miettes en identifiant les processes dont elles font partie (e.g., aller à un concert)
Ontologies de processes
Algorithmes de reconnaissance
24
![Page 25: Miettes de données - Keynote BDA 2015](https://reader035.fdocument.pub/reader035/viewer/2022062401/58edf7f61a28abee398b456d/html5/thumbnails/25.jpg)
Application II"small data for good"
25
![Page 26: Miettes de données - Keynote BDA 2015](https://reader035.fdocument.pub/reader035/viewer/2022062401/58edf7f61a28abee398b456d/html5/thumbnails/26.jpg)
Intérêt Général & Gouvernance 2.0
26
« Améliorer la vie des gens en améliorant la façon dont les décisions sont prises. »
Data Driven
Collaborative
Participatory
![Page 27: Miettes de données - Keynote BDA 2015](https://reader035.fdocument.pub/reader035/viewer/2022062401/58edf7f61a28abee398b456d/html5/thumbnails/27.jpg)
Les Données Ouvertes
27
« […] that can be freely used, re-used and redistributed by anyone – subject only, at most, to the requirement to attribute and sharealike. » Open Data Handbook.
En 2013, mandat de la Maison Blanche pour ouvrir les données.
Etude McKinsey qui évalue à $3 milliards la valeur de l'open data.
Plus d'un million de jeux de données.
En France,
Open Civic Data: Of the People, By the People, For the People.Sahuguet et al. 2015.
RDF
open data
data models
![Page 28: Miettes de données - Keynote BDA 2015](https://reader035.fdocument.pub/reader035/viewer/2022062401/58edf7f61a28abee398b456d/html5/thumbnails/28.jpg)
sdX project à Cornell Tech (Estrin et al.) smalldata.io
« Creating community infrastructure for small data apps and services »
Exemples de projet de recherche- correlation entre sommeil et activité sur les réseaux sociaux
- pilote pour aider les gens qui souffrent de problèmes de dos
Les défis- collecte de données & intégration
- modèle de données, meta-données et langage de requête
- stockage (privacy at rest) et contrôle d'accès
- analyse, modèles, visualisation28
ML
privacy trust
data models
UX
![Page 29: Miettes de données - Keynote BDA 2015](https://reader035.fdocument.pub/reader035/viewer/2022062401/58edf7f61a28abee398b456d/html5/thumbnails/29.jpg)
La collecte de données
2 problèmes intéressants
29
La création d'expériences- trouver les bons sujets
- leur expliquer comment les données vont être utilisées
- les convaincre de donner leurs données
- garantir la confidentialité des données
Exemple de requête : utilisateur iOS, vivant à New York, avec un compte Twitter actif et un sensor de sommeil.PAMYADL
RDF
privacy trust
social
data models
crowd
UX
![Page 30: Miettes de données - Keynote BDA 2015](https://reader035.fdocument.pub/reader035/viewer/2022062401/58edf7f61a28abee398b456d/html5/thumbnails/30.jpg)
Comment inciter aux dons de donnéesP × B + D > C: a ‘calculus’ for Open DataP: probabilité que l'ouverture des données apporte de la valeur à son propriétaire.
B: bénéfice pour le propriétaire des données.
D: bénéfice global
C: coût30
privacy trust
social
open data
![Page 31: Miettes de données - Keynote BDA 2015](https://reader035.fdocument.pub/reader035/viewer/2022062401/58edf7f61a28abee398b456d/html5/thumbnails/31.jpg)
Problématiques de recherche
31
![Page 32: Miettes de données - Keynote BDA 2015](https://reader035.fdocument.pub/reader035/viewer/2022062401/58edf7f61a28abee398b456d/html5/thumbnails/32.jpg)
Revenons au Petit Poucet
32
Les compagnies se gavent de nos miettes de données
Comment les transformer en petits cailloux blancs?
![Page 33: Miettes de données - Keynote BDA 2015](https://reader035.fdocument.pub/reader035/viewer/2022062401/58edf7f61a28abee398b456d/html5/thumbnails/33.jpg)
Défis de rechercheCapture des données
software, e.g. eye tracking
hardware, e.g. IoT
crowdsourcing
Integration de données
Alignement d’objets
Identification d’entités, PKB
Ontologies de tâches personnelles
Stockage et Archivage
Personal clouds
Synchronization
Recherche
Five “R”s
33
Privacy
Encryption
Partage d’information
Interface Homme-Machine (HCI)
Comment les utilisateurs partagent leurs données
Comment les utilisateurs consultent leur données
Personal Data Analytics
Apprentissage
Prediction, alertes
Données clairsemées
![Page 34: Miettes de données - Keynote BDA 2015](https://reader035.fdocument.pub/reader035/viewer/2022062401/58edf7f61a28abee398b456d/html5/thumbnails/34.jpg)
Au-delà de la technologie
34
![Page 35: Miettes de données - Keynote BDA 2015](https://reader035.fdocument.pub/reader035/viewer/2022062401/58edf7f61a28abee398b456d/html5/thumbnails/35.jpg)
Même si nous avions promis de ne pas en parler
- la gouvernance des données
- la notion de propriété des données
- les incitations
- les cadres juridiques
- le rôle que nous, scientifiques, avons à jouer
« Data science sans conscience n'est que ruine de l'âme. » #gargantua2.0
« Est-on la somme de ses miettes numériques ? » Bac Philo 2016, Académie de Toulon
35
![Page 36: Miettes de données - Keynote BDA 2015](https://reader035.fdocument.pub/reader035/viewer/2022062401/58edf7f61a28abee398b456d/html5/thumbnails/36.jpg)
Les miettes, une tradition scientifique bien française
36
![Page 37: Miettes de données - Keynote BDA 2015](https://reader035.fdocument.pub/reader035/viewer/2022062401/58edf7f61a28abee398b456d/html5/thumbnails/37.jpg)
FAIM FIN.et bon appétit.
Mais avant de vous laisser partir,
temps pour quelques questions.
37
![Page 38: Miettes de données - Keynote BDA 2015](https://reader035.fdocument.pub/reader035/viewer/2022062401/58edf7f61a28abee398b456d/html5/thumbnails/38.jpg)
Références bibliographiques,
Conseils de lecture
38
![Page 39: Miettes de données - Keynote BDA 2015](https://reader035.fdocument.pub/reader035/viewer/2022062401/58edf7f61a28abee398b456d/html5/thumbnails/39.jpg)
Researchers wrestle with a privacy problem, Nature Sep 2015.
As we may think, Vannevar Bush, the Atlantic Monthly, 1945.
Beyond total capture: a constructive critique of Lifelogging, Sellen and Whitaker, CACM 2010.
The Black Box Society, Frank Pasquale, 2015
39
![Page 40: Miettes de données - Keynote BDA 2015](https://reader035.fdocument.pub/reader035/viewer/2022062401/58edf7f61a28abee398b456d/html5/thumbnails/40.jpg)
Data extraction•A tool for personal data extraction. D. Vianna, A.-M. Yong, C. Xia, A. Marian, and T. NguyenPIMS:•Personal Information Management. W. Jones and J. Teevan, editors. U of Washington Press, 2007.•Seetrieve, Gyllstrom and Soules, IUI 2008.Societal issues•Managing your digital life with a Personal information management system, Serge Abiteboul, Benjamin André, Daniel Kaplan, Comm. of the ACM•http://mesinfos.fing.org•http://www.midatalab.org.uk•https://www.data.gov/consumer/smart-disclosure-policy
40
![Page 41: Miettes de données - Keynote BDA 2015](https://reader035.fdocument.pub/reader035/viewer/2022062401/58edf7f61a28abee398b456d/html5/thumbnails/41.jpg)
Data Integration:•Principles of Data integration, Doan, Halevy, Ives, 2012.•Principles of dataspace systems, Halevy, Franklin, and Maier. CACM, 2006.Security and trust•Management of Personal Information Disclosure: The Interdependence of Privacy, Security, and Trust, Clare-Marie Karat, John Karat, and Carolyn Brodie•Secure Personal Data Servers: a Vision Paper. T Allard et al. VLDB, 2010.Knowledge management•Ontology for PIMS: OntoPIM, Katifori, Poggi, Scannapieco, et al. 2005•Networked Environment for Personal, Ontology-based Management of Unified Knowledge (NEPOMUK).
41