Jour 4 : Publication des données sur l'Internet Création de réseaux d'information sur la...
-
Upload
jeanette-bouchet -
Category
Documents
-
view
103 -
download
1
Transcript of Jour 4 : Publication des données sur l'Internet Création de réseaux d'information sur la...
![Page 1: Jour 4 : Publication des données sur l'Internet Création de réseaux d'information sur la biodiversité.](https://reader036.fdocument.pub/reader036/viewer/2022070309/551d9db5497959293b8d997a/html5/thumbnails/1.jpg)
Jour 4 :Jour 4 :
Publication des données sur Publication des données sur l'Internetl'Internet
Création de réseaux Création de réseaux d'information sur la d'information sur la
biodiversitébiodiversité
![Page 2: Jour 4 : Publication des données sur l'Internet Création de réseaux d'information sur la biodiversité.](https://reader036.fdocument.pub/reader036/viewer/2022070309/551d9db5497959293b8d997a/html5/thumbnails/2.jpg)
Sommaire
Rappel sur le XML
Présentation des standards de connexion
![Page 3: Jour 4 : Publication des données sur l'Internet Création de réseaux d'information sur la biodiversité.](https://reader036.fdocument.pub/reader036/viewer/2022070309/551d9db5497959293b8d997a/html5/thumbnails/3.jpg)
Sommaire
Présentation de l’IPT (Integrated Publishing Toolkit)
Démonstration de l’IPT
![Page 4: Jour 4 : Publication des données sur l'Internet Création de réseaux d'information sur la biodiversité.](https://reader036.fdocument.pub/reader036/viewer/2022070309/551d9db5497959293b8d997a/html5/thumbnails/4.jpg)
XMLXML
![Page 5: Jour 4 : Publication des données sur l'Internet Création de réseaux d'information sur la biodiversité.](https://reader036.fdocument.pub/reader036/viewer/2022070309/551d9db5497959293b8d997a/html5/thumbnails/5.jpg)
Sommaire
Présentation Avantages Utilisation du XML
![Page 6: Jour 4 : Publication des données sur l'Internet Création de réseaux d'information sur la biodiversité.](https://reader036.fdocument.pub/reader036/viewer/2022070309/551d9db5497959293b8d997a/html5/thumbnails/6.jpg)
Présentation
XML : eXtensible Markup Language Format d’échange de données Méta-Langage à balises
Même principe que le HTML Information ajoutée au contenu pour marquer la
structure logique
![Page 7: Jour 4 : Publication des données sur l'Internet Création de réseaux d'information sur la biodiversité.](https://reader036.fdocument.pub/reader036/viewer/2022070309/551d9db5497959293b8d997a/html5/thumbnails/7.jpg)
Présentation<?xml version="1.0" encoding="UTF-8"?> ENTÊTE et ENCODAGE<DataSets xmlns="http://www.tdwg.org/schemas/abcd/1.2"> <DataSet> <OriginalSource> <SourceInstitutionCode>BDI</SourceInstitutionCode> ELEMENT
<SourceName>BoBO - Botanic Garden Berlin BDI Observations</SourceName> <SourceLastUpdatedDate>2004-09-27</SourceLastUpdatedDate>
</OriginalSource> <DatasetDerivations> <Units> <!– liste des unités --> COMMENTAIRE <Unit> BALISE OUVRANTE <UnitID>2</UnitID> <RecordBasis>Observation</RecordBasis> ... <HigherTaxon TaxonRank="Kingdom">animalia</HigherTaxon> ATTRIBUT </Unit> BALISE FERMANTE </Units> </DataSet></DataSets>
![Page 8: Jour 4 : Publication des données sur l'Internet Création de réseaux d'information sur la biodiversité.](https://reader036.fdocument.pub/reader036/viewer/2022070309/551d9db5497959293b8d997a/html5/thumbnails/8.jpg)
Présentation
Séparation du fond et de la forme Forme : présentation à partir de la structure (style) Fond : structure + données (contenu)
Langage multi-support
![Page 9: Jour 4 : Publication des données sur l'Internet Création de réseaux d'information sur la biodiversité.](https://reader036.fdocument.pub/reader036/viewer/2022070309/551d9db5497959293b8d997a/html5/thumbnails/9.jpg)
Avantages
Lisibilité : simple à comprendre Autodescriptif et extensible Structure arborescente Facilement déployable Intégrabilité
![Page 10: Jour 4 : Publication des données sur l'Internet Création de réseaux d'information sur la biodiversité.](https://reader036.fdocument.pub/reader036/viewer/2022070309/551d9db5497959293b8d997a/html5/thumbnails/10.jpg)
Utilisation du XML
Standardise l’information indépendamment de la structure de la base de données source
Principe de « wrapping » : permet une mise en correspondance des
colonnes et les tables d'une base de données
avec un ou plusieurs éléments d'un schéma
XML donné
![Page 11: Jour 4 : Publication des données sur l'Internet Création de réseaux d'information sur la biodiversité.](https://reader036.fdocument.pub/reader036/viewer/2022070309/551d9db5497959293b8d997a/html5/thumbnails/11.jpg)
Utilisation du XML
Au niveau du wrapper:
Standards XML : ABCD et DarwinCore
Logiciels : Biocase, TAPIR, DIGIR et IPT
![Page 12: Jour 4 : Publication des données sur l'Internet Création de réseaux d'information sur la biodiversité.](https://reader036.fdocument.pub/reader036/viewer/2022070309/551d9db5497959293b8d997a/html5/thumbnails/12.jpg)
StandardsStandards
![Page 13: Jour 4 : Publication des données sur l'Internet Création de réseaux d'information sur la biodiversité.](https://reader036.fdocument.pub/reader036/viewer/2022070309/551d9db5497959293b8d997a/html5/thumbnails/13.jpg)
Standards
Standard : document qui fournit des règles pour des procédés et méthodes de production.
Utilisé pour la conception des collections et bases de données de gestion de l'information.
![Page 14: Jour 4 : Publication des données sur l'Internet Création de réseaux d'information sur la biodiversité.](https://reader036.fdocument.pub/reader036/viewer/2022070309/551d9db5497959293b8d997a/html5/thumbnails/14.jpg)
Standards
Standards d’échange de données :
Protocoles de transfert utilisés pour organiser et formater l’information pour échange.
ABCD et Darwin Core : standards d’échange les plus connus pour les données de collection.
![Page 15: Jour 4 : Publication des données sur l'Internet Création de réseaux d'information sur la biodiversité.](https://reader036.fdocument.pub/reader036/viewer/2022070309/551d9db5497959293b8d997a/html5/thumbnails/15.jpg)
Standards
Pourquoi des standards? Fournir le medium, les règles et les protocoles
pour échanger l’information. Permer l’interoperatibilité des données avec
d’autres données. Homogeneise l’information en vue de son
intégration à un système mondial
![Page 16: Jour 4 : Publication des données sur l'Internet Création de réseaux d'information sur la biodiversité.](https://reader036.fdocument.pub/reader036/viewer/2022070309/551d9db5497959293b8d997a/html5/thumbnails/16.jpg)
Darwin Core
Facilite l’échange d’information à propos des occurrences géographiques des espèces et l’existence des spécimens dans les collections.
Pertinent pour les collections d’histoire naturelle.
![Page 17: Jour 4 : Publication des données sur l'Internet Création de réseaux d'information sur la biodiversité.](https://reader036.fdocument.pub/reader036/viewer/2022070309/551d9db5497959293b8d997a/html5/thumbnails/17.jpg)
Darwin Core
Schéma simple, adapté aux données sur fichiers plats.
46 éléments regroupés dans 7 catégories :Record level, taxonomic, identification, locality, collecting event, biological, reference.
Liste des champs sur : http://wiki.tdwg.org/twiki/bin/view/DarwinCore/DarwinCoreDraftStandard
![Page 18: Jour 4 : Publication des données sur l'Internet Création de réseaux d'information sur la biodiversité.](https://reader036.fdocument.pub/reader036/viewer/2022070309/551d9db5497959293b8d997a/html5/thumbnails/18.jpg)
ABCD
Projet BIOCASE
Standard d’échange de données sur les spécimens et les données d’observation.
Plus complexe que Darwin Core (1200 élements).
Site internet : http://wiki.tdwg.org/activities/ABCD
(Access to Biological Collections Data)
![Page 19: Jour 4 : Publication des données sur l'Internet Création de réseaux d'information sur la biodiversité.](https://reader036.fdocument.pub/reader036/viewer/2022070309/551d9db5497959293b8d997a/html5/thumbnails/19.jpg)
Biocase
Logiciel mettant en correspondance une source de données avec un standard choisi.
Produit : Fichier XML formaté et exploitable
![Page 20: Jour 4 : Publication des données sur l'Internet Création de réseaux d'information sur la biodiversité.](https://reader036.fdocument.pub/reader036/viewer/2022070309/551d9db5497959293b8d997a/html5/thumbnails/20.jpg)
DémonstrationDémonstration
![Page 21: Jour 4 : Publication des données sur l'Internet Création de réseaux d'information sur la biodiversité.](https://reader036.fdocument.pub/reader036/viewer/2022070309/551d9db5497959293b8d997a/html5/thumbnails/21.jpg)
Integrated Publishing Integrated Publishing Toolkit (1.0)Toolkit (1.0)
![Page 22: Jour 4 : Publication des données sur l'Internet Création de réseaux d'information sur la biodiversité.](https://reader036.fdocument.pub/reader036/viewer/2022070309/551d9db5497959293b8d997a/html5/thumbnails/22.jpg)
Présentation générale de l’IPT
Introduction Fonction dans le réseau GBIF Resources Caractéristiques Fonctionnalités Une plate-forme pour faciliter la décentralisation
Sommaire
![Page 23: Jour 4 : Publication des données sur l'Internet Création de réseaux d'information sur la biodiversité.](https://reader036.fdocument.pub/reader036/viewer/2022070309/551d9db5497959293b8d997a/html5/thumbnails/23.jpg)
Démonstration
Configuration Publication de métadonnées Publication de données Web application, interfaces
Sommaire
![Page 24: Jour 4 : Publication des données sur l'Internet Création de réseaux d'information sur la biodiversité.](https://reader036.fdocument.pub/reader036/viewer/2022070309/551d9db5497959293b8d997a/html5/thumbnails/24.jpg)
L’IPT est…Une web application Java open-source :
Connecter et publier 3 types de données de biodiversité :
- Données primaires
- Information sur les espèces
- Métadonnées sur les ressources À partir d’une source de données :
- Base de données
- Fichier plat Pour rendre ces données visibles sur le réseau distribué du GBIF
![Page 25: Jour 4 : Publication des données sur l'Internet Création de réseaux d'information sur la biodiversité.](https://reader036.fdocument.pub/reader036/viewer/2022070309/551d9db5497959293b8d997a/html5/thumbnails/25.jpg)
Un composant du réseau GBIF
![Page 26: Jour 4 : Publication des données sur l'Internet Création de réseaux d'information sur la biodiversité.](https://reader036.fdocument.pub/reader036/viewer/2022070309/551d9db5497959293b8d997a/html5/thumbnails/26.jpg)
Ressources Documentation et téléchargement
http://code.google.com/p/gbif-providertoolkit/
Demo sitehttp://ipt.gbif.org
Version 1.0 disponible depuis le 31/03/2009
Chef de projet :Markus Döring, Senior Software Engineer, GBIF
![Page 27: Jour 4 : Publication des données sur l'Internet Création de réseaux d'information sur la biodiversité.](https://reader036.fdocument.pub/reader036/viewer/2022070309/551d9db5497959293b8d997a/html5/thumbnails/27.jpg)
Caractéristiques Web application multilingue Contient un serveur de géolocalisation Gestion de rôles Base de données embarquée Supporte l’utilisation de fichiers texte (.csv) Utilisation de vocabulaire pour limiter les termes Utilisation d’extension pour Darwin Core Vérification de la qualité de données basique Utilisation d’identifiant unique (uuid)
![Page 28: Jour 4 : Publication des données sur l'Internet Création de réseaux d'information sur la biodiversité.](https://reader036.fdocument.pub/reader036/viewer/2022070309/551d9db5497959293b8d997a/html5/thumbnails/28.jpg)
Utilisation des wrappeurs
Scénario original
Les wrappeurs exposent les bases de données aux requêtes
![Page 29: Jour 4 : Publication des données sur l'Internet Création de réseaux d'information sur la biodiversité.](https://reader036.fdocument.pub/reader036/viewer/2022070309/551d9db5497959293b8d997a/html5/thumbnails/29.jpg)
Utilisation des wrappeurs Scénario fréquent
Une copie de base est utilisée pour la publication des données
Souvent sur une machine de moins bonne qualité (perte de performance)
Souvent non mise à jour (fraîcheur des données)
![Page 30: Jour 4 : Publication des données sur l'Internet Création de réseaux d'information sur la biodiversité.](https://reader036.fdocument.pub/reader036/viewer/2022070309/551d9db5497959293b8d997a/html5/thumbnails/30.jpg)
![Page 31: Jour 4 : Publication des données sur l'Internet Création de réseaux d'information sur la biodiversité.](https://reader036.fdocument.pub/reader036/viewer/2022070309/551d9db5497959293b8d997a/html5/thumbnails/31.jpg)
‘Récolte’ avec les protocoles existants Le fournisseur a un wrappeur TAPIR
Ce wrappeur permet de récuperer 200 enregistrements par requete.Si la base contient 260,000 enregistrements à récuperer :
1300 request / responses9 heures au total
500MB de transfert XMLSeulement 32MB “utiles” à l’index
Compressées en 3MB
![Page 32: Jour 4 : Publication des données sur l'Internet Création de réseaux d'information sur la biodiversité.](https://reader036.fdocument.pub/reader036/viewer/2022070309/551d9db5497959293b8d997a/html5/thumbnails/32.jpg)
UUne fois défini, le vocabulaire est accessible à tous les utilisateurs de l’IPT
Contrôle du vocabulaire
![Page 33: Jour 4 : Publication des données sur l'Internet Création de réseaux d'information sur la biodiversité.](https://reader036.fdocument.pub/reader036/viewer/2022070309/551d9db5497959293b8d997a/html5/thumbnails/33.jpg)
Schéma extensible
![Page 34: Jour 4 : Publication des données sur l'Internet Création de réseaux d'information sur la biodiversité.](https://reader036.fdocument.pub/reader036/viewer/2022070309/551d9db5497959293b8d997a/html5/thumbnails/34.jpg)
Page d’accueil paramétrable (1)
![Page 35: Jour 4 : Publication des données sur l'Internet Création de réseaux d'information sur la biodiversité.](https://reader036.fdocument.pub/reader036/viewer/2022070309/551d9db5497959293b8d997a/html5/thumbnails/35.jpg)
Page d’accueil paramétrable (2)
![Page 36: Jour 4 : Publication des données sur l'Internet Création de réseaux d'information sur la biodiversité.](https://reader036.fdocument.pub/reader036/viewer/2022070309/551d9db5497959293b8d997a/html5/thumbnails/36.jpg)
Gestion de rôles
Les users ne peuvent qu’explorer les données
Les managers ne gèrent que leurs données
Possibilité de partager une même instance IPT
![Page 37: Jour 4 : Publication des données sur l'Internet Création de réseaux d'information sur la biodiversité.](https://reader036.fdocument.pub/reader036/viewer/2022070309/551d9db5497959293b8d997a/html5/thumbnails/37.jpg)
S’enregistrer au GBIF
![Page 38: Jour 4 : Publication des données sur l'Internet Création de réseaux d'information sur la biodiversité.](https://reader036.fdocument.pub/reader036/viewer/2022070309/551d9db5497959293b8d997a/html5/thumbnails/38.jpg)
Gestion des extensions
![Page 39: Jour 4 : Publication des données sur l'Internet Création de réseaux d'information sur la biodiversité.](https://reader036.fdocument.pub/reader036/viewer/2022070309/551d9db5497959293b8d997a/html5/thumbnails/39.jpg)
Gestion des vocabulaires
![Page 40: Jour 4 : Publication des données sur l'Internet Création de réseaux d'information sur la biodiversité.](https://reader036.fdocument.pub/reader036/viewer/2022070309/551d9db5497959293b8d997a/html5/thumbnails/40.jpg)
Créer des métadonnées
![Page 41: Jour 4 : Publication des données sur l'Internet Création de réseaux d'information sur la biodiversité.](https://reader036.fdocument.pub/reader036/viewer/2022070309/551d9db5497959293b8d997a/html5/thumbnails/41.jpg)
Catégories de métadonnées Basic metadata Resource originator Geographic coverage Taxonomic coverage Temporal coverage IP Rights Research project information Methods Keywords
![Page 42: Jour 4 : Publication des données sur l'Internet Création de réseaux d'information sur la biodiversité.](https://reader036.fdocument.pub/reader036/viewer/2022070309/551d9db5497959293b8d997a/html5/thumbnails/42.jpg)
Mapping
![Page 43: Jour 4 : Publication des données sur l'Internet Création de réseaux d'information sur la biodiversité.](https://reader036.fdocument.pub/reader036/viewer/2022070309/551d9db5497959293b8d997a/html5/thumbnails/43.jpg)
Chargement des données
Pendant le chargement, les données sont importées de la source
(fichier plat ou base de données) Des statistiques sont calculés
![Page 44: Jour 4 : Publication des données sur l'Internet Création de réseaux d'information sur la biodiversité.](https://reader036.fdocument.pub/reader036/viewer/2022070309/551d9db5497959293b8d997a/html5/thumbnails/44.jpg)
Vue sur les ressources disponibles
![Page 45: Jour 4 : Publication des données sur l'Internet Création de réseaux d'information sur la biodiversité.](https://reader036.fdocument.pub/reader036/viewer/2022070309/551d9db5497959293b8d997a/html5/thumbnails/45.jpg)
Exploration taxonomique
La taxonomie provient de la source de données
Un premier niveau de contrôle de qualité de données est effectué
![Page 46: Jour 4 : Publication des données sur l'Internet Création de réseaux d'information sur la biodiversité.](https://reader036.fdocument.pub/reader036/viewer/2022070309/551d9db5497959293b8d997a/html5/thumbnails/46.jpg)
Résumé statistique
![Page 47: Jour 4 : Publication des données sur l'Internet Création de réseaux d'information sur la biodiversité.](https://reader036.fdocument.pub/reader036/viewer/2022070309/551d9db5497959293b8d997a/html5/thumbnails/47.jpg)
Graphiques
![Page 48: Jour 4 : Publication des données sur l'Internet Création de réseaux d'information sur la biodiversité.](https://reader036.fdocument.pub/reader036/viewer/2022070309/551d9db5497959293b8d997a/html5/thumbnails/48.jpg)
Contrôle de la qualité de données
![Page 49: Jour 4 : Publication des données sur l'Internet Création de réseaux d'information sur la biodiversité.](https://reader036.fdocument.pub/reader036/viewer/2022070309/551d9db5497959293b8d997a/html5/thumbnails/49.jpg)
Sortie XML
![Page 50: Jour 4 : Publication des données sur l'Internet Création de réseaux d'information sur la biodiversité.](https://reader036.fdocument.pub/reader036/viewer/2022070309/551d9db5497959293b8d997a/html5/thumbnails/50.jpg)
Web site: http://www.gbif.org
Data portal: http://data.gbif.org
GBIF SecretariatUniversitetsparken 152100 CopenhagenDenmark
E-mail: [email protected]
Phone: +45 3532 1487
Contact