Atelier 28 mars 2017 : Rechercher et réutiliser les ... · Entrepôt de données définition,...
Transcript of Atelier 28 mars 2017 : Rechercher et réutiliser les ... · Entrepôt de données définition,...
Atelier
Rechercher & Réutiliser
les données de la recherche
Christine Silvy (Inra) et Dominique Fournier (Inra)
Agropolis International, 28 mars 2017
Objectifs de l’atelier
• Rechercher des données sur une thématique
• Vérifier les droits d’accès et de réutilisation de ces données
• [ Analyser, exploiter et s’approprier ces données pour leur donner un
nouveau sens, une nouvelle interprétation à travers une nouvelle publication,
la création de services, …]
• Citer ces données en cas de réutilisation
Atelier
http://www.inist.fr/donnees/co/module_Donnees_recherche_7.html
Quelques exemples de réutilisationshttp://www.gbif.org/newsroom/uses
DOI: 10.1038/srep31605
Comment trouver des données ?
• Les sources bibliographiques classiques (bases de
données, archives ouvertes, réseaux sociaux, moteurs de
recherche) intègrent quasiment pas ou très peu de
datasets
• En pratique, les données sont le + souvent repérées à
partir de l’article qui mentionne un lien vers le jeu de
données utilisé (hébergement par la revue ou dans un
entrepôt)
Où trouver les jeux de données ?
• Entrepôts multidisciplinaires
• Entrepôts thématiques
• Annuaires d’entrepôts
• Moteurs de recherche
Entrepôt de données définition, finalité
• Un entrepôt de données (Data repository, digital
repository) est un réservoir constitué majoritairement de
données de recherche, brutes ou élaborées, qui sont
décrites par des métadonnées de façon à pouvoir être
retrouvées.
“Repository (aka Data Repository or Digital Data Repository) is a searchableand queryable interfacing entity that is able to store, manage, maintainand curate Data/Digital Objects.” Définition du groupe d’intérêt RDA Data Foundation and Terminology Interest Group http://smw-rda.esc.rzg.mpg.de/index.php/Repository
Différents entrepôts de donnéesNom Entrepôt Thématiques Propriétaire Volume dataset
(source OpenDOAR et/ou re3data)
GenBank Séquences ADN US National Institutes of Health 199 341 377 séquences ADN
(re3data)
PANGAEA Sciences de
l’environnement
Institutions publiques (Allemagne) 290 000
(09/2015)
Zenodo Pluridisciplinaire Commission Européenne / CERN 190 564
(03/2017)
VizieR Physique et
Astronomie
Centre de Données astronomiques
de Strasbourg
30 587
(03/2017)
IFREMER Données marines IFREMER 16 855 (03/2017)
ADA Pluridisciplinaire Australian Data archive 2 000 dataset
Dryad Pluridisciplinaire Organisation à but non lucratif 11 595 (03/2016)
FigShare Pluridisciplinaire Digital Science 5 000 (02/2016)
Gene Expression
Omnibus
Génomique
fonctionnelle
US National Institutes of Health 3 341 (re3data)
Registry of Open Access Repositories http://roar.eprints.org/Directory of Open Access Repositories http://www.opendoar.org/Registry of Research Data Repositories Re3data http://www.re3data.org/
Les entrepôts de confiance
• Dans le contexte de l'ouverture des données de la recherche,
l'entrepôt de données doit aussi permettre la traçabilité (via une
identification unique et pérenne) et la curation (archivage et
préservation) des données.
• Un entrepôt de confiance (« trusted repository ») est un entrepôt
de données qui répond à un certain nombre de critères
concernant le dépôt et l'accès aux données, la pérennité de
l'entrepôt et les services associés.
Statut juridique des données de la recherche
• A l'heure actuelle, l'environnement juridique entourant les
données reste flou. Les données brutes ne sont a priori pas
protégées par le droit d'auteur.
• Sous certaines conditions, le droit protégeant les bases de
données peut s'appliquer.
• Il est donc important que les producteurs de données protègent
leurs données par des licences prédéfinies.
• Les utilisateurs de données doivent appliquer les conditions
d’utilisation mentionnées dans ces licences
“Ouverture des données de recherche. Guide d’analyse du cadre juridique en France”
http://prodinra.inra.fr/record/382263
Les licences utilisées pour la publication et diffusion des jeux de données
CC0 permet aux producteurs de données de les placer dans le domaine public, sans aucune restriction de
réutilisation. La citation n’est pas obligatoire mais fortement conseillée d’un point de vue éthique et scientifique.
(imposée par Dryad, BioMed Central et Nature Publishing Group)
CC-by 4.0 permet de partager, copier, distribuer et communiquer les données par tous moyens et sous tous
formats, de les réutiliser pour créer de nouveaux jeux de données. Toutes les utilisations, y compris
commerciales, sont possibles, sous réserve de créditer les données à leurs créateurs (obligation d’attribution).
(préconisée par la majorité des entrepôts)
Licence ouverte (Etalab) autorise la réutilisation, la reproduction, la modification, la redistribution des
données et leur exploitation à titre commercial sous réserve de mentionner a minima le nom du producteur et
la date de dernière mise à jour (utilisée sur la plateforme de données publique data.gouv.fr)
Les licences Creatives Commons
Les licences de l’Open Knowledge Fondation (OKF) basées sur le droit anglo-saxon et orientées bases de
données, peuvent être appliquées aux bases de données et aux données qu’elles contiennent prises isolément
Licence ouverte
La licence ODC-by impose d’indiquer le nom de l’auteur/créateur de la base de données
originale (obligation d’attribution) (utilisée par l’éditeur Pensoft)
La citation : élément clé pour la réutilisation des données
• Le DOI (Digital Object Identifier) est un identifiant pérenne et unique permettant de référencer, citer et fournir un lien stable vers un objet scientifique et sa citation.
• Le DOI peut être attribué à tout objet scientifique que l’on souhaite rendre citable.
• DataCite (consortium international) opère comme une agence d’enregistrement des DOI, en s’appuyant sur un réseau d’institutions membres dans différents pays (INIST-CNRS, mise en place de services attribution DOI dans établissements)
10.15454/1.481273124091092E12
• DataCite Metadata Search : recherche des métadonnées associées aux jeux de données enregistrées dans DataCite
Comment citer des données dans un article ?
• Recommandations par la revue du format de citation– Oui : suivre la recommandation
– Non
• l’entrepôt de stockage de la donnée recommande un format de citation– Oui: suivre la recommandation
– Non
• la donnée est identifiée par un DOI– Oui: utiliser le service DOI formatter de Datacite pour générer un
format de citation dans le style qui convient
– Non
• construire la citation en s’appuyant sur le format standard de Datacite– Creator (Publication Year) Title, Publisher, Identifier
Comment citer des données ?
• La plupart des entrepôts propose plusieurs formats classiques de citations
des données
• Dans EndNote, il existe un type de document « dataset »
• Dans Zotero, "itemType: dataset" prévu
Exemple « Cite » dans DataCite
Zenodo
• Créé par OpenAIRE et le CERN et financé par la Commission européenne,
ZENODO est un entrepôt qui permet aux chercheurs de partager leurs
publications, leurs posters, leurs vidéos, leurs présentations, les données de
leurs recherches.
• Une mise à jour majeure de Zenodo a été lancée le 12/09/2016
– rapidité augmentée,
– recherche améliorée,
– espace de stockage de 50GB par défaut au lieu de 2 GB,
– liaison avec les projets H2020
Entrepôt multidisciplinaire - Dryad
http://datadryad.org/
Entrepôt de données scientifiques et médicales liées à des publications
Géré par une organisation à but non lucratif
Dépôt des données : 120 $ de charges de publication et supplément si > 20GB
Service d’attribution de DOI aux données déposées
Dryad – réutilisation des données
• un ou plusieurs fichiers (package)
• licence CC-0 imposée
• aucune restriction pour la réutilisation des
données, la citation n’est pas obligatoire mais
conseillée
http://datadryad.org/resource/doi:10.5061/dryad.k5c8v/2
Se rapporter à l’article
(autosomal microsatellite Loci)
Entrepôt thématique – PANGAEA https://www.pangaea.de/
• Entrepôt hébergé par the Alfred Wegener Institute, Helmholtz Center for
Polar and Marine Research (AWI) and the Center for Marine Environmental
Sciences, University of Bremen (MARUM).
• World Data Center PANGAEA member du World Data System (WDS) of the
International Council for Science (ICSU)
• Entrepôt de données géo-référencées, brutes ou liées à des publications
• Pas de frais pour le dépôt des données
• Service attribution de DOI
• Possibilité de protéger par mots de passe le temps d’un projet
Annuaires d’entrepôts
• Re3Data (re3data.org) multidisciplinaire, répertorie 1 500
entrepôts de données
• OpenDOAR http://opendoar.org/
• Réseau Quetelet (données sciences sociales)
• Liste d’entrepôts recommandés par un éditeur
Annuaire Re3datahttp://www.re3data.org/
1 571 entrepôts disciplinaires
467 entrepôts institutionnels
189 autres
Moteurs de recherche
• Elsevier DataSearch (10 sources)
• DataCite MetaData Search
• OpenAire+ (6 128 entrepôts, 44 970 datasets)
• BASE (5 300 sources, + 3 millions datasets)
• Agrégateurs / métamoteurs
Google ?
• pas encore de recherche spécifique sur les jeux de données
• Google indexe des datasets que l’on peut retrouver si on
connait le titre exact
• Possibilité de préciser le format du fichier dans la requête
(mais fiabilité des sites ? )
filetype:csv ou filetype:xlsx
Elsevier Datasearch
https://datasearch.elsevier.com
Type de données:
tabular data, file set,
raw data et statistical data
Syntaxe de recherche :
Par défaut OR
Utiliser « », AND, OR, NOT
Troncature par défaut
Recherche approchée
agriculture agricultural
https://search.datacite.org
• Moteur gratuit de DataCite
• Recherche de jeux de données à partir des métadonnées
Opérateurs booléens
Par défaut : AND
Utiliser AND, OR, AND NOT, « »
Troncature *
Infrastructure européenne OpenAire+ et Zenodo
Possibilité de rechercher dans « Research Data » ou
d’affiner par type de document « dataset »
Opérateurs booléens
Par défaut : OR
Utiliser AND, OR, NOT
Pas de troncature
BASE (Bielefeld Academy Search Engine)www.base-search.net
Interrogation de 5 300 sources, 3 236 524 datasets
Opérateurs booléens
Par défaut : AND
Utiliser AND, OR, NOT
Troncature * ou cocher
« autre forme du mot »
Agrégateurs & Outils de découverte
• Initiative DataOne : Agrégateur de contenus dans
le domaine de l’environnement
– 36 entrepôts, 951 000 data files
• Entrepôts de données Biodiversité (GBIF)
– 1 186 data publishers, 31 975 datasets
• Research Data Discovery Service (JISC, UK)
– 14 entrepôts (dont UK Data Service), 16 850 datasets
• ISIDORE : Sciences Humaines et Sociales
– 4 242 sources SHS, 5 034 données enquêtes
DataOne
• Application Web qui permet d’interroger les contenus des
entrepôts de données des membres du projet
ISIDOREhttps://www.rechercheisidore.fr
• ISIDORE est une plateforme de recherche permettant l'accès aux données numériques
des sciences humaines et sociales (SHS).
• Ouverte à tous et en particulier aux enseignants, chercheurs, doctorants et étudiants, elle
s'appuie sur les principes du web de données et donne accès à des données en accès
libre (open access).
• ISIDORE est une réalisation de la très grande infrastructure de recherche Huma-Num
(CNRS, Aix-Marseille Université, Campus Condorcet).
Data Citation Index Index de citation de jeux de données
Base de données payante de Clarivate Analytics (ex-Thomson Reuters)
Indexe plus de 3 millions d'enregistrements issus de 300 entrepôts de données
scientifiques en ligne.
Data Citation Index
• 3 types de données indexées : – Entrepôts de données (Repositories)
– Jeux de données (Datasets)
– Données issues d'études (Data Studies)
• Recherche par type de document, auteur, affiliation, titre, année, langue, sujet, source de financement ou DOI
• Chaque résultat affiché est associé à un résumé, au lien internet (Source URL) vers le jeu ou l’entrepôt de données référencé, et à sa référence bibliographique (How to cite this Resource).
Chaque résultat est accompagné du nombre de citations reçues à partir d’autres jeux de données et des publications indexées dans les bases de données de Thomson Reuters (Data Citation Index, Web of Science CoreCollection, BIOSIS Citation Index, SciELO Citation Index).
ResearchGate
Dépôt de données limité à 512MB
Pas de possibilité de rechercher des
jeux de données avec le moteur de
ResearchGate
Google data site:researchgate.net