Recommandations rda sur la citation des données
-
Upload
francois-andre -
Category
Science
-
view
157 -
download
0
Transcript of Recommandations rda sur la citation des données
![Page 1: Recommandations rda sur la citation des données](https://reader030.fdocument.pub/reader030/viewer/2022021500/58f0e5991a28abe00e8b459d/html5/thumbnails/1.jpg)
I D E N T I F I C A T I O N D E S D O N N É E S
L E S R E C O M M A N D A T I O N S R D A
20/21 janvier 2016
![Page 2: Recommandations rda sur la citation des données](https://reader030.fdocument.pub/reader030/viewer/2022021500/58f0e5991a28abe00e8b459d/html5/thumbnails/2.jpg)
Présentation globale
![Page 3: Recommandations rda sur la citation des données](https://reader030.fdocument.pub/reader030/viewer/2022021500/58f0e5991a28abe00e8b459d/html5/thumbnails/3.jpg)
3
Add an image
Constat d’une d i ff iculté Citer des données n’est pas trivial
• Un jeu de données peut évoluer dans le temps
• Un jeu de données peut être corrigé
• On peut vouloir citer plusieurs ou des parties de jeux de données
• Citer des données n’est pas citer les programmes ou les personnes
Les préconisat ions RDA Travail de 18 mois
14 préconisations permettant un mécanisme de citation précis
des données
Téléchargement https://rd-alliance.org/system/files/documents/RDA-DC-
Recommendations_151020.pdf
C i t e r l e s D o n n é e s
3
![Page 4: Recommandations rda sur la citation des données](https://reader030.fdocument.pub/reader030/viewer/2022021500/58f0e5991a28abe00e8b459d/html5/thumbnails/4.jpg)
O b j e c t i f s
4
CITATION Permettre l’identification et la citation de toute partie d’un ensemble de données associées
à un instant précis du système de données
RÉCUPÉRATION Permettre de récupérer – à partir d’une citation – les données dans l’état qu’elles avaient au
moment où la citation a été définie
STABILIT É Assurer une stabilité au fil des changements technologiques
![Page 5: Recommandations rda sur la citation des données](https://reader030.fdocument.pub/reader030/viewer/2022021500/58f0e5991a28abe00e8b459d/html5/thumbnails/5.jpg)
S o l u t i o n
5
SUIVI des
VERSIONS
Les différentes versions d’une données doivent être conservées dans le système de
données
HORODATAGE Chaque opération sur les données doit être horodatée
STOCKAGE des
REQUÊTES
Les jeux de données sont identifiées en assignant des PID aux requêtes qui les ont retournés.
Le couple PID-Requête* est stocké de manière pérenne dans le SI : c’est le query store
* On parle bien des requêtes et non de leur résultat.
![Page 6: Recommandations rda sur la citation des données](https://reader030.fdocument.pub/reader030/viewer/2022021500/58f0e5991a28abe00e8b459d/html5/thumbnails/6.jpg)
Les recommandations
![Page 7: Recommandations rda sur la citation des données](https://reader030.fdocument.pub/reader030/viewer/2022021500/58f0e5991a28abe00e8b459d/html5/thumbnails/7.jpg)
A : P r é p a r a t i o n s d e s d o n n é e s ( R 1 R 3 )
7
R1
Les différentes versions des données doivent être conservées.
G e s t i o n d e s v e r s i o n s
R2
Les opérations sur les données – addition, suppression, … – doivent-être horodatées.
H o r o d a t a g e
R3
Les requêtes et leurs métadonnées doivent être stockées de manière pérenne et doivent pouvoir être exécutées à nouveau.
S t o c k a g e d e s r e q u ê t e s
![Page 8: Recommandations rda sur la citation des données](https://reader030.fdocument.pub/reader030/viewer/2022021500/58f0e5991a28abe00e8b459d/html5/thumbnails/8.jpg)
B : I d e n t i f i c a t i o n d e s j e u x ( R 4 R 1 0 )
8
R4
Les requêtes doivent être normalisées afin de détecter des requêtes identiques.
U n i c i t é d e s r e q u ê t e s
R5
L’ordre des données au sein des jeux de données produits lors des extractions doit être stable.
S t a b i l i t é d e l ’o r d r e d e s d o n n é e s
R6
Lors de la première exécution d’une requête, la signature du jeu de données (somme de contrôle) doit être calculée et stockée avec la requête afin de vérifier le résultat d’une re-exécution.
Vé r i f i c a t i o n d e s j e u x d e d o n n é e s
![Page 9: Recommandations rda sur la citation des données](https://reader030.fdocument.pub/reader030/viewer/2022021500/58f0e5991a28abe00e8b459d/html5/thumbnails/9.jpg)
B : I d e n t i f i c a t i o n d e s j e u x ( R 4 R 1 0 )
9
R7
Chaque requête doit contenir la date de son exécution ou, préférablement, la date de la dernière mise à jour de la base de données
H o r o d a t a g e d e l a r e q u ê t e
R8
Le PID doit permettre d’identifier la requête. Le calcul du PID de la requête doit prendre en compte tous les paramètres, y compris l’horodatage
A f f e c t a t i o n d ’ u n P I D à l a r e q u ê t e
R9
Le query store doit stocker la requête et ses métadonnées: requête normalisée, somme de contrôle, horodatage… Ces informations doivent pouvoir être affichées sans calcul complémentaire conséquent
S t o c k a g e d e l a r e q u ê t e (c o m p l é m e n t R 3 )
![Page 10: Recommandations rda sur la citation des données](https://reader030.fdocument.pub/reader030/viewer/2022021500/58f0e5991a28abe00e8b459d/html5/thumbnails/10.jpg)
B : I d e n t i f i c a t i o n d e s j e u x ( R 4 R 1 0 )
10
R10
Le texte de citation doit être généré automatiquement doit être fourni en même temps que le jeu de données
Te x t e d e c i t a t i o n a u t o m a t i q u e s
![Page 11: Recommandations rda sur la citation des données](https://reader030.fdocument.pub/reader030/viewer/2022021500/58f0e5991a28abe00e8b459d/html5/thumbnails/11.jpg)
C : R e - e x é c u t i o n d e s r e q u ê t e s ( R 1 1 R 1 2 )
11
R11
La landing page des PID doit permettre • De re-exécuter la requête •Obtenir les métadonnées associées à la requête (y.c. le texte de citation)
L a n d i n g P a g e
R12
Les fonctionnalités de R11 doivent être automatisables (interopérabilité)
A u t o m a t i s a t i o n
![Page 12: Recommandations rda sur la citation des données](https://reader030.fdocument.pub/reader030/viewer/2022021500/58f0e5991a28abe00e8b459d/html5/thumbnails/12.jpg)
D : I n v a r i a n c e a u c h a n g e m e n t ( R 1 3 R 1 4 )
12
R13
Lors d’une migration (modèle du stockage, technologique, hébergement,…) les requêtes doivent être migrées (adaptation, déplacement)
M i g r a t i o n d e s r e q u ê t e s
R14
Une migration de requête doit faire l’objet d’une vérification de re-exécution (comparaison des sommes de contrôle) .
Vé r i f i c a t i o n d e s m i g r a t i o n s
![Page 13: Recommandations rda sur la citation des données](https://reader030.fdocument.pub/reader030/viewer/2022021500/58f0e5991a28abe00e8b459d/html5/thumbnails/13.jpg)
C o m p l é m e n t s
13
IMPLÉMENTATIONS • Dans le cadre de son activité le WG Data Citation a aidé à la mise en place
d’implémentations spécifiques pilotes
• Pas d’implémentation générique pour le moments
POURSUITE
Le WG a achevé sa mission initiale
Suite de l’activité :
- Un document complémentaire aux recommandations est en cours de validation
- Webminaire en mars
![Page 14: Recommandations rda sur la citation des données](https://reader030.fdocument.pub/reader030/viewer/2022021500/58f0e5991a28abe00e8b459d/html5/thumbnails/14.jpg)
Extensions
![Page 15: Recommandations rda sur la citation des données](https://reader030.fdocument.pub/reader030/viewer/2022021500/58f0e5991a28abe00e8b459d/html5/thumbnails/15.jpg)
R e c o m m a n d a t i o n s s u p p l é m e n t a i r e s
15
R9b
Parmi les critères de recherche, certains doivent permettre au PI d’identifier facilement ces données afin de créer facilement les PID le concernant
Re c h e r c h e d e s é l e c t i o n s p o u r l e p r o d u c t e u r d e l a d o n n é e
R10b
Le système d’information doit proposer la publication du PID sur une Registration Authorities (RA). La publication n’est pas le seul fait du fournisseur de la donnée. On peut ne stocker que les requêtes pour lesquelles l’utilisateur a explicité exprimé ce besoin
P u b l i c a t i o n d u P I D
R10c
Le système doit permettre d’obtenir un PID (et de le publier) sans pour autant réaliser l’extraction (dans ce cas la somme de contrôle n’est pas présente)
G é n é r a t i o n d u P I D s a n s e x é c u t e r l ’e x t r a c t i o n
![Page 16: Recommandations rda sur la citation des données](https://reader030.fdocument.pub/reader030/viewer/2022021500/58f0e5991a28abe00e8b459d/html5/thumbnails/16.jpg)
R e c o m m a n d a t i o n s s u p p l é m e n t a i r e s
16
R11b
La landing page doit permettre de savoir si les données ont été modifiées depuis la requête
L a n d i n g p a g e é t e n d u e
R11c
La landing page doit permettre de re-exécuter la requête avec les données actuelles (c.a.d. sans tenir compte de l’horodatage de la requête)
O b t e n i r l e s d o n n é e s p l u s r é c e n t e s
R?
Le système doit permettre de PID correspondant à plusieurs PID existants
G é n é r e r u n P I D d e P I D s
![Page 17: Recommandations rda sur la citation des données](https://reader030.fdocument.pub/reader030/viewer/2022021500/58f0e5991a28abe00e8b459d/html5/thumbnails/17.jpg)
Pros & Cons
![Page 18: Recommandations rda sur la citation des données](https://reader030.fdocument.pub/reader030/viewer/2022021500/58f0e5991a28abe00e8b459d/html5/thumbnails/18.jpg)
AVA N TA G E S
Répond à un besoin scientif ique (?)
Précis ion de la c itat ion
Traite la quest ion de la granularité
Est compatible avec le mécanisme classique
Ouvre la publ icat ion à l ’ut i l isateur
P r o s & C o n s C o m p l é m e n t s
Lien avec d’autres problèmatiques
structurantes (métadonnées , provenance,…)
![Page 19: Recommandations rda sur la citation des données](https://reader030.fdocument.pub/reader030/viewer/2022021500/58f0e5991a28abe00e8b459d/html5/thumbnails/19.jpg)
I N C O N V E N I E N T S
Implémentations l imitées à des prototypes
Eléments structurel lement spécif iques
Certaines fonctionnal ités complexes
P r o s & C o n s
![Page 20: Recommandations rda sur la citation des données](https://reader030.fdocument.pub/reader030/viewer/2022021500/58f0e5991a28abe00e8b459d/html5/thumbnails/20.jpg)
S U I T E
Une implémentation part iel le ou
incrémentale peut être intéressante
Certaines recommandations peuvent être
assoupl ies
P r o s & C o n s
Communauté motivée (pi lotes RDA,
ENVRI+,…)
Technologies proposant l ’horodatage (SQL
2011, Git ,…)
Act ion Interpôles ?
![Page 21: Recommandations rda sur la citation des données](https://reader030.fdocument.pub/reader030/viewer/2022021500/58f0e5991a28abe00e8b459d/html5/thumbnails/21.jpg)
Autres initiatives
![Page 22: Recommandations rda sur la citation des données](https://reader030.fdocument.pub/reader030/viewer/2022021500/58f0e5991a28abe00e8b459d/html5/thumbnails/22.jpg)
A u t r e s i n i t i a t i v e s
22
FORCE11 : https://www.force11.org/datacitation
•CODATA : http://www.codata.org/task-groups/data-citation-standards-and-practices
CEOS : 29 recommandations basées sur les DOI • 29 recommandations basées sur les DOI
Téléchargement :
http://ceos.org/document_management/Working_Groups/WGISS/Interest_Groups/Data_Stewardship/Best_Practices/CEOS%20Persistent%20Identifier
%20Best%20Practices_v1.0.pdf
• Extraits
R8
PID non significatif Nouvelles versions nouveau PID
S i m i l a i r e à R D A R8
Citation au niveau de la collection Perte de la citation fine
Gestion des séries évolutives : PID unique Perte de la reproductibilité.
Citation de données venant de jeux différents potentiellement citation très longue.
D i f f é r e n t d e R D A
Autres
![Page 23: Recommandations rda sur la citation des données](https://reader030.fdocument.pub/reader030/viewer/2022021500/58f0e5991a28abe00e8b459d/html5/thumbnails/23.jpg)
M e r c i
www.aeris-data.fr
Modèle de présentation : ttp://thepopp.com/ - Jun Akizak