Quelques repères sur le Web sémantique / Web de données
-
Upload
besa -
Category
Technology
-
view
576 -
download
2
Transcript of Quelques repères sur le Web sémantique / Web de données
Quelques repères sur le Web sémantique / Web de données
Bertrand SajusMinistère de la Culture et de la Communication
Département des programmes numériques
INTD, 05/04/2013
1989-1993 : gestation du Web
Quelques dates clés
2
1994 : - World Wide Web Consortium- T Berners-Lee : “ The Need for Semantics in the Web ”
1995 : HTML 2.0
1996 : HTTP 1.0
2001 : “The Semantic Web”T B-L, James Hendler and Ora Lassila, Scientific American Magazine
2000-2005 : Éclosion du Web 2.0
2006 Initiative W3C :Linked Open Data
2004 : RDF, OWL
2007 DBpedia
2008 SPARQL
2011Schema.org
2006 : - VIAF - Geonames
2011data.bnf.fr
Dans l'expérience commune des internautes, le Web c'est d'abord des « pages HTML »lisibles par des êtres humains et reliées entre elles par des hyperliens
Du Web des « pages HTML » au Web dit « sémantique »
3
Le Web sémantique est une extension du Web : il relie non pas des pages mais des données et s'adresse d'abord à des machines
Cadre de description des Ressources
RDF Resource Description Framework
4
Norme fondamentale du Web sémantique (2004)
- R comme Resource :
pages, images, videos, toute chose matérielle ou immatérielle
- D comme Description :
… tout ce qui peut avoir une URI
les caractéristiques des ressources et leurs interrelations
- F comme Framework :
le modèle et la syntaxe de ces descriptions
L'unité de base du Web sémantique est le triplet RDF
Arc de Triomphe de l’Étoile Parisest situé à
Sujet Prédicat Objet
Triplet RDF
5
Sujet Verbe ComplémentLangage naturel :
Triplet : ensemble constitué d'un sujet, d'un prédicat et d'un objet
Nœud Arc NœudGraphe :
http://viaf.org/viaf/44396537/
http://purl.org/dc/terms/creator
http://fr.dbpedia.org/page/Arc_de_triomphe_de_l%27%C3%89toile
Jean-François Chalgrin Arc de Triomphe de l’Étoileest l'auteur de
URIs (Uniform Ressource Identifier)
Chaque partie de la déclaration peut être nommée, et donc identifiée de manière absolueau plan mondial, par un URI :
http://viaf.org/viaf/44396537/
http://purl.org/dc/terms/creator
Utiliser le Web comme source de référentiels
Le Sujet est référencé dans VIAF (Virtual International Authority File)
Le Prédicat est défini dans le Dublin Core (DMCI)
L'Objet est décrit dansWikipédia / DBpediahttp://fr.dbpedia.org/resource/Arc_de_triomphe_de_l'Étoile
Arc de Triomphe de l’Étoile Parisest situé à
Jean-François Chalgrin
est l'architecte de
Académie des Beaux-Artsest membre de
Graphe composé de 5 triplets interconnectés
La place de l'Etoile de nuit Photographieest une
Repré
sent
e
8
Arc de Triomphe de l’Étoile Parisest situé à
Jean-François Chalgrin
est l'architecte de
Académie des Beaux-Artsest membre de
Enrichissement des données par liage
La place de l'Etoile de nuit Photographieest une
Repré
sent
e
Site dédié à l'architecture du XIXe s.
9
Arc de Triomphe de l’Étoile Parisest situé à
Jean-François Chalgrin
est l'architecte de
Académie des Beaux-Artsest membre de
Liens profonds entre les corpus
La place de l'Etoile de nuit Photographieest une
Repré
sent
e
Site dédié à l'architecture du XIXe s.
BDD biographique d'artistes néoclassiques
Plate-forme Web 2.0 d'échange de photos personnelles10
Arc de Triomphe de l’ÉtoileJean-François Chalgrinest l'architecte de
Les données ne sont pas spontanément interopérables
Site dédié à l'architecture du XIXe s.
BDD biographique d'artistes néoclassiques
Chalgrin, J-F. Académie des Beaux-Artsest membre de
?
… D'où l'utilité de référentiels communs
Exemple : VIAF (Virtual International Authority File), pour les auteurs
Arc de Triomphe de l’Étoile Parisest situé à
http://viaf.org/viaf/44396537/
est l'architecte de
Académie des Beaux-Artsest membre de
Site dédié à l'architecture du XIXe s.
BDD biographique d'artistes néoclassiques
SPARQL
Le langage de requête : SPARQL Protocol and RDF Query Language
Conçu et promu par le W3C (2008, version 1.0)
Le langage de requête : SPARQL Protocol and RDF Query Language
Destiné à interroger les graphes RDF et en extraire des jeux de données :
Quelles sont les œuvres des membres de l'Académie des Beaux-Arts situées à Paris ?
Arc de Triomphe de l’Étoile Parisest situé à
Jean-François Chalgrin
est l'architecte de
Académie des Beaux-Artsest membre de
BDD biographique d'artistes néoclassiques
Site dédié à l'architecture du XIXe s.
13
Interconnexion des «Communautés»
Site dédié à l'architecture du XIXe s.Communauté de spécialistes
de l'architecture
BDD biographique d'artistes néoclassiquesCommunauté de spécialistes
du néoclacissisme
Plate-forme d'échange de photos personnellesCommunauté de photographes
amateurs
Data
14
Sorties des silos, les données traversent les frontières
Domaines institutionnels
Sujets d'intérêt
Domaines de connaissance
Espaces linguistiques
Data
Territoiresgéographiques
Circonscriptionsadministratives
Aires culturelles
15
Etc.
Tim Berners-Lee : « Le Web va changer de dimension »La Recherche - 01/11/2007
Web sémantique vs Web de(s) données
16
Web de données = résultat de l'application des normes et recommandationsdu "Web sémantique" aux données mises en ligne sur le Web
Web de données = immense graphe, indéfiniment extensible, composé de myriadesde triplets RDF
- Journal La Recherche : "Web sémantique, que signifie cette appellation ?"
- Tim Berners-Lee : "Le terme sémantique prête un peu à confusion (...) certains ont pensé qu'il s'agissait d'un Web qui permettrait par exemple d'effectuer des recherches sur Internet en posant des questions sous forme de phrases, en langage naturel. Or ce n'est pas son but. En fait, nous aurions dû l'appeler dès le départ Web de données."
Le Web de données est un espace de connaissance mondial :
17
- L'information est disponible à un niveau granulaire très fin (data)
- Elle est décrite selon un modèle de description commun (RDF)
- Les données sont fortement reliées entre elles (Linked Data)
- Elles sont analysables par des machines
Les 4 principes du Web de données
18
1) Toute ressource sur laquelle on veut faire porter une assertion doit êtreidentifiée par un URI (Uniform Ressource Identifier)
2) Tout URI doit être construit à partir du protocole HTTP ce qui permet d’y accéder par des moyens numériques
3) L'utilisation d'un URI doit permettre de renvoyer des données aux formats standards du Web sémantique : RDF... et non pas seulement du HTML
4) Les ressources doivent être le plus possible liées entres elles selon ces normes
Le Web de données et les « données ouvertes »
19
L'échelle des données ouvertes selon T. Berners-Lee :
Les données sont en ligne quel que soit leur format
Les données sont disponibles sous forme structurée (ex. : CSV, XML, Excel, RDF)
Les données sont libres d'être exploitées juridiquement et techniquement dans des formats non-propriétaires (pas d'Excel par exemple)
Utilisation d'URIs pour identifier les données, de sorte que l'on puisse pointer dessus
Les données sont liées à d'autres données pour fournir un contexte à ces données= Linked Open Data (LOD)
«1, 2, 3.0 », ça buzze, c'est commode et percutant
… mais c'est quand même très simplificateur...
Et le 3.0 dans tout ça ?
20
Web 1.0
Années 1990
= Web documentaire
Web 2.0
Années 2000
= Web social
Web 3.0
Années 2010
= Web de données
• semantic web
L'utilisation des notions "semantic web" (Web sémantique) et "linked data" (Web de données) dans Google. Source : Google Trends
•linked data
L'essor du Web de données
2007 Dbpedia
21
Dbpedia première application grandeur nature du Web de données
LOD (Linked Open Data) Cloud, source lod-cloud.net/
Le Web de données comme écosystème de référentiels mondial
22
Dbpedia.org