Datenqualität im Kontext der Deutschen Digitalen...
Transcript of Datenqualität im Kontext der Deutschen Digitalen...
Datenqualität im Kontext der Deutschen Digitalen Bibliothek
Session: Datenqualität und Standards
DDBforumBerlin, 04. Juni 2018
Francesca [email protected]
+49 (0) 69 1525-1763
2
Metadatenstandards sind Voraussetzung für einheitliche Erfassung und Austausch von strukturierten Kulturerbe-Daten
„… if we have standards, then‚ why isthe data so craped at the end?‘“ (Valentine Charles 2015)
4
• Zusammenführen von heterogenen Metadaten massenweise: > 24 Millionen Datensätze zu Kulturobjekten jeglicher Art
unterschiedlicher Herkunft: 369 Einrichtungen aus sechs Kultursparten (Archiv, Bibliothek, Denkmalpflege, Forschungseinrichtung, Mediathek, Museum)
• Metadaten sind … in verschiedenen Anwendungen entstanden
… für unterschiedliche Zielgruppen entstanden
… über verschiedene Workflows an DDB geliefert worden
• Metadatenstandards werden unterschiedlich angewendet Regelwerke: sparten-/domänenspezifisch, hausintern oder gar keine
Austauschformate: 7 Standardformate (Dublin Core, EAD, EDM, ESE, LIDO, MARCXML,
METS/MODS), plus diverse Anwendungsprofile und proprietäre Formate
Kontrollierte Vokabulare: anwendungsspezifisch vs. anwendungs-übergreifend, domänenspezifisch vs. domänenübergreifend, teils gar keine
Herausforderungen der DDB
5
• Allgemeine Kriterien menschen- und maschinenlesbar, vertrauenswürdig, sichtbar/auffindbar,
standardisiert, aussagekräftig, nachnutzbar, konsistent
vgl. Europeana Metadata Quality Task Force Report 2015
• Abhängig von Anforderungen seitens Anwendungen (lokal vs. domänenspezifisch vs. domänenübergreifend)
Nutzer (wissenschaftliche Nutzung vs. „Kulturtourist“)
Zeitfaktor (alt vs. neu)
• Metadaten im anwendungsübergreifenden Kontext Finden – Identifizieren – Explorieren/Navigieren – Zugreifen
vgl. bspw. User Tasks im IFLA Library Reference Model 2017, S. 15
Metadatenqualität
„What metadata quality is and what itmeans is therefore context-dependant.“(Valentine Charles 2015)
7
Explorieren?
„Wenn Sie an eine tolle Sammlung von Kulturerbe denken und Ihre erste Anlaufstelle ein Suchfeld ist, ist das einfach nur tragisch.“ (George Oates 2015)
8
Finden: Freitextsuche
“Should I look under violin or fiddle or both?” (Michael Buckland 2017, S. 92)
9
Finden: kontrollierte Vokabulare
von insgesamt 2.692 Ergebnissen bei Freitextsuche nach „violine“
Informationsverlust: Mangelnde Vollständigkeit durch fehlende Synonymkontrolle
10
Finden: kontrollierte Vokabulare
Informationsballast: Mangelnde Genauigkeit durch fehlende Homonymkontrolle
mit nur 13 Ergebnissen zu Fidel als Musikinstrument
11
Identifizieren: aussagekräftige Titel/Objektnamen
mangelnde Unterscheidbarkeit ähnlicher Objekte
12
Identifizieren: kontextunabhängige Beschreibung
https://www.deutsche-digitale-bibliothek.de/item/LR7HC4TWPMIK23OKRELA7P4YPE3IXSQ5
13
Navigieren: Normdaten
https://www.deutsche-digitale-bibliothek.de/entity/118584588
GND-URI
?
?
14
Rechte
Standort
?
Zugreifen
Direkter Link
https://www.deutsche-digitale-bibliothek.de/item/CFGRZE4FA6VLDQMBMJROO4IAOGLZXUYX
„As the data travels through different channels its quality deteriorates.”(Valentine Charles 2015)
16
Der „lange Weg“ der Metadaten
Erzeugung unterschiedliche
Erschließungspraktiken und Use Cases
Weitergabedurch den
Datengeber
Vorverarbeitungdurch Fachstellen/
Aggregatoren
Aufbereitung/Bearbeitungfür DDB und
andere Anwendungen
einrichtungs-/spartenspezifisch spartenübergreifend kontextabhängig
Erfassungs-/ Verbundsysteme
Internes Datenformat z.B. OAI-DC, EAD(DDB),
ESE, EDM, DDB-LIDO, METS/MODS-Profil,
MARCXML
DDB-LieferformatExportformat
z.B. CSV, XML, OAI-DC, EAD, EDM, ESE, LIDO, METS/MODS,
MARCXML
Export-schnittstellen
DDB-Metadatenformatz.B. EDM RDF/XML
DDB-View (Objektseite)
z.B. FTP, OAI-PMH
DDB-Systemkomponentenz.B. Mapping Library,
DDBDash
DigitalisierungErschließungRegelwerkeVokabulare
Analyse
Validierung
Mapping
Bereinigung
Anreicherung
D
D
B
A
P
I
Analyse
Validierung
Mapping
Bereinigung
Anreicherung
Werkzeugez.B. Data Preparation
Tool, MINT, OpenRefine
Nutzungin verschiedenen
Anwendungen
„All metadata is dirty, but you can do something about it“ (Seth van Hooland and Ruben Verborg 2014)
18
Buckland, Michael (2017): Information and Society. Cambridge, Massachusetts: The MIT Press.
Charles, Valentine (2015): We want better data quality: NOW!. Europeana Foundation. – URL: https://pro.europeana.eu/page/data-quality-etech15-roundtables.
Claire-Dangerfield, Marie; Karlshoven, Lisette (2013-2015): Report and Recommendations from the Task Force on Metadata Quality. Europeana. – URL: https://pro.europeana.eu/post/metadata-quality-task-force-report.
Pekel, Joris (2015): Finden ohne Suche: Ein Interview mit George Oates. – URL: https://www.deutsche-digitale-bibliothek.de/content/ueber-uns/aktuelles/finden-ohne-suche-ein-interview-mit-george-oates.
Riley, Jenn; Becker, Davin (2009-2010): Seeing Standards: A Visualization of the Metadata Universe. –URL: http://jennriley.com/metadatamap/.
Riva, Pat; Le Boeuf, Patrick; Zumer, Maja (August 2017): IFLA Library Reference Model. Hrsg. International Federation of Library Associations and Institutions. – URL: https://www.ifla.org/files/assets/cataloguing/frbr-lrm/ifla-lrm-august-2017_rev201712.pdf.
Van Hooland, Seth; Verborgh, Ruben (2014): Linked Data for Libraries, Archives and Museums. How toclean, link and publish your metadata. London: Facet Publishing.
Quellen
19
Vielen Dank!
Francesca [email protected]
Twitter: https://twitter.com/ddbkultur
http://www.deutsche-digitale-bibliothek.de/
DDBpro: https://pro.deutsche-digitale-bibliothek.de/
Foliensatz: CC-BY 4.0. Das gilt nicht für einzelne Abbildungen.
http://creativecommons.org/licenses/by/4.0/
Facebook: https://twitter.com/ddbkultur