Web sémantique et Web de données, et si on passait à la pratique ?
Transcript of Web sémantique et Web de données, et si on passait à la pratique ?
Web sémantique, web de données : et si on passait à la pratique ?
Pierre Col Julien Homo@PierreCol @Julien_Homo
2
Pierre Col @PierreCol
Julien Homo @Julien_Homo
1978
1963
1983
1986
1996
2007
2010
2006
2009
2011
198
7
3
Web sémantique,web de données :de quoi parle-t-on ?
4
Le web sémantique, concrètementCertains en parlent…d’autres le font !
5
Le web sémantique, concrètement
6
Le web sémantique, concrètement
KnowledgeGraph
7
KnowledgeGraph
Le web sémantique, concrètement
8
KnowledgeGraph
Le web sémantique, concrètement
9
Le web sémantique, concrètement
KnowledgeGraph
10
Le web sémantique, concrètement
KnowledgeGraph
11
KnowledgeGraph
Le web sémantique, concrètement
12
Le web sémantique, concrètementKnowledgeGraph
13
Le web sémantique, concrètement
KnowledgeGraph
14
Tim Berners-Lee verbatim« The Semantic Web is a web of data,
in some ways like a global database »
« The Semantic Web is not a separate Web but an extension of the current one, in which information is given well-defined
meaning, better enabling computers and people
to work in cooperation »
15
« Raw data now ! » février 2009
http://www.ted.com/talks/tim_berners_lee_on_the_next_web?language=fr
16
http://www.flickr.com/photos/jimgris/281139738/
L’idée : casser la vieille logique des silos de données cloisonnées…
Siège social d’Oracle, l’éditeur du SGBDR le plus utilisé dans le monde, dans la Silicon Valley
17
…pour partager la donnée structurée sur un espace décentralisé : le web
Un Web de documents
●Documents reliés par des liens●Pas de structuration sémantique●Pas de requêtes structurées
18
…pour partager la donnée structurée sur un espace décentralisé: le web
Puis un Web d’applications
●Données exposées à travers des API●API valables uniquement pour un silo●Pas d’interopérabilité entre les silos
19
…pour partager la donnée structurée sur un espace décentralisé : le web
Et maintenant un Web de données
●Web de données = espace unifié●Liens entre les données elles-mêmes●APIs remplacées par des standards ouverts
20
Web sémantique,web de données :quels standards aujourd’hui ?
21
Une condition nécessaire : assurer l’interopérabilité des données structurées
●Transport
22
Une condition nécessaire : assurer l’interopérabilité des données structurées
●Syntaxe
23
Une condition nécessaire : assurer l’interopérabilité des données structurées
●Sémantique
24
Un langage pour les machinesUne grammaire Le vocabulaire Des règles
d’écritureDes moyens
de communication
RDF RDFS / OWLOntologie
RDF/XMLN3, Turtle
RDFaHTTP
SPARQL
25
Standards : le layer cake aujourd’hui
Déjà normalisé ou en cours de normalisation au W3C
26
Le Linked Open Data Cloud - 2014
27
Web sémantique,web de données :levons le capot !
28
Contexte●Site portail
29
Contexte●Site portail
30
Contexte●Site portail
31
Problématique●Mesurer « la faisabilité technique de
réaliser un site portail basé sur les règles du web de données et du web sémantique »
32
Mais pourquoi recourir au Web Sémantique ?
●Agréger les données●Enrichir les données par des données
externes libre d’accès●Faciliter leur échange●Faciliter leur publication
33
Objectifs ●Offrir aux visiteurs une vision plus globale
des ressources disponibles
34
Objectifs ●Favoriser leur découverte par un effet de
sérendipité
35
Objectifs ●Enrichir l’expérience de navigation
36
Objectifs ●Mettre les données à la disposition de
tous
37
Par où commencer ?●Définir le périmètre de l’étude●Analyser les données●Réaliser un prototype
38
Quelles sont les sources disponibles ?
39
Comment accéder aux données ?●API intégrée au système de gestion de
bibliothèque
Requête SIGB Base de données Export XML
●Export au format XML
40
Quelles sont les données disponibles ?
41
Quelles sont les données disponibles ?
20 000 films
250 000 textes imprimés
2 500 ouvrages numériques
20 000 enregistrements musicaux
42
Comment sont structurées les données ?
43
Comment sont structurées les données ?
Propriétés
ID
Dénomination
Auteur
Lieu de création
Date de création
Dimensions
Catégorie matière
Catégorie technique
Mots-clés
Référence commerciale
44
Comment sont structurées les données ?
Propriétés
ID
Dénomination
Auteur
Lieu de création
Date de création
Dimensions
Catégorie matière
Catégorie technique
Mots-clés
Référence commerciale
Propriétés génériques d’une œuvre ?
45
Comment sont structurées les données ?
Propriétés
ID
Dénomination
Auteur
Lieu de création
Date de création
Dimensions
Catégorie matière
Catégorie technique
Mots-clés
Référence commerciale
Lien vers le Linked Open Data ?
46
Laisse Béton (Renaud)●Prenons un exemple !
47
Laisse Béton (Renaud)●Vu du catalogue Web (OPAC) …
48
Laisse Béton (Renaud)●… et du XML
49
Laisse Béton (Renaud)
●Il y a sûrement des choses à faire…
Propriétés ValeursID b18895888Dénomination Laisse BétonAuteur RenaudLieu de création -Date de création -Dimensions 1 disque compact (36 min)Catégorie matière -Catégorie technique -Mots-clés -Référence commerciale 0042282534828
50
…Et bien faisons les !●Réalisation d’un prototype
●Mesurer la faisabilité technique du projet sur un échantillon
●Montrer l’apport de l’Open Data
●Evaluer les difficultés
51
Mettre les données en communfilm01.avi “Livre A”
http://exemple.org/film/01 http://exemple.org/livre/A
52
Identifier les objets●Schéma arbitraire
●http://data.leschampslibres.org/
●Origine : numérotation arbitraire
Source Numéro Propriété IDBibliothèque de Rennes 1 Controlfield 001
http://data.leschampslibres.org/1/b18895888
53
Modéliser les objets
Modèle HADOCModèles “évènements” (LODE, CIDOC CRM, The Event Ontology…)
54
Laisse Béton (Renaud)
55
Relier les données à l’extérieur
●Oui mais dans quel but ?
56
Données VS Usages
57
Usages…●« Apporter à l’utilisateur des
compléments d’informations sur les objets culturels qu’il consulte sur le portail des Champs Libres »
58
… VS Données
PropriétésISBN
Référence commerciale
Nom et date de naissance de l’auteur
Noms de lieux
59
Sélectionner les sources externes
60
Graphe
Référence commerciale
Nom de l’auteur +
Date de naissanceNom de lieu
ISBN
ID
IDID
ID
61
Laisse Béton (Renaud)
62
Automatisons-le !
Aligner Annoter
Préparer les données
Localement
A distance
Récupérer les données externes
Interroger Interroger
63
Préparer les données : aligner
Nom Prénom Date de naissance
Hugo victor 26 février 1802
sartre jean paul 21/06/1905
…
http://catalogue.bnf.fr/ark:/12148/cb11907966z
Nom Prénom Date de naissance
Hugo Victor 1802-02-26
Victor 1802-02-26
64
Préparer les données : annoter
http://sws.geonames.org/2911298
65
Préparer les données●Idéalement
●Dumps RDF
●SPARQL Endpoint
●APIs Web RDF …
●Triplestore intermédiaire
66
Préparer les données●En réalité
●Dumps divers
●Pas de SPARQL Endpoint
●APIs Web diverses
●Conversion RDF
Triplestore
…
67
Récupérer les données externes●Requêtes SPARQL
●Triplestore intermédiaire
●SPARQL EndpointEnrichissements
Enrichissements
68
Récupérer les données externes●Requêtes SPARQL : exemples
http://catalogue.bnf.fr/ark:/12148/cb11907966z
Victor Hugo
1802-02-26
foaf:givenName foaf:name
db:birthDatehttp://catalogue.bnf.fr/ark:/12148/cb11907966z
69
Récupérer les données externes●Requêtes SPARQL : exemples
http://data.leschampslibres.org/1/b18895888
“0042282534828”
hadoc:isbn
“4.25 / 5” http://www.discogs.com/master/11710
http://www.wikidata.org/wiki/Q3216384
http://musicbrainz.org/release-group/374fd86d-838c-3d40-a2c8-680b800290e7
“0042282534828”
mb:barcode
owl:sameAsowl:sameAs
dcogs:rating
“4.25 / 5”
70
Récupérer les données externes●Autres : pas de RDF
●APIs Web
●Dumps (XML, CSV…)
●HTML
●…
…
Enrichissements
71
Récupérer les données externes●En réalité
●Architecture complexe
●A adapter selon les besoins
… …
72
Laisse béton (Renaud)Normalisation Triplestore intermédiaire Enrichissements RDF Enrichissements APIs
barcode ?
IDs Discogs Allmusic ?
73
74
Résultats
75
Outils
76
Outils●Convertir les données
Actions Outils
Aligner, annoter Antidot Information Factory, Gate, Python…
Créer des données RDF avec un éditeur
Morla, Top Braid composer, Editeur XML (Oxygen), Protégé
Transformer des données de XML vers RDF/XML
XSL, Python…
Transformer des entrées clés/valeurs en RDF
Google Refine
Transformer une base de données relationnelle en RDF
Db2triples, D2R server, …
77
Outils●Stocker les données dans un triplestore
Optimisation Outils
Mémoire Corese, Redstore
Triplestore natif Mulgara, AllegroGraph, BigOWLIM, 4store, Neo4j
BDR paramétrée Virtuoso, ARC, Oracle 11g, Sesame, 3store
Column store Cstore, Heart, BigData, Cloudera
78
Outils●Exploiter les données en RDF
Langages Outils
Java (triples) Jena, Sesame, Trialox SCB, RDF2Go
Java (ORM) Topaz, RDFReactor, So(m)mer, Elmo, jenabean
PHP RAP, ARC (généraliste)
C Redland
Python RDFlib
Ruby ActiveRDF
Scala Scardf
79
Laisse béton (Renaud)●Publication des données en RDF
80
Conclusion
81
Le web sémantique, ça marche !●Les géants mondiaux de l’Internet
avancent rapidement●De plus en plus d’organisations l’adoptent
pour des usages ciblés ●« Que puis-je faire pour le web
sémantique ? »●« Qu’est ce que le web sémantique
peut faire pour moi ? »
82
Le Web Sémantique, des atouts uniques●Disposer d’une quantité colossale de
jeux de données
●Accéder aux données de façon standardisée donc automatisable
●Les agréger pour servir tous types d’usages nouveaux
83
Le Web Sémantique, aller plus loin ?
Un livre dirigé parFabien Gandon, INRIA / W3C
EAN13 : 9782100572946
84
Le web sémantique : à vous de jouer !
WANTS YOU
85
Merci pour votre attention !
Des questions [email protected] @PierreCol
[email protected]@Julien_Homo
@AntidotNet
www.antidot.net