Post on 05-Feb-2017
Sind wir bereit für Linked Data?Datenqualität –keine leichte Aufgabe!
Francesca SchulzeMichael BüchnerDeutsche Digitale BibliothekTechnische Koordination
104. BibliothekartagBibliotheken – von Anfang an ZukunftNürnberg, 27. Mai 2015
Deutsche Digitale Bibliothek – „Datenqualität – keine leichte Aufgabe!“ – Bibliothekartag – 27. Mai 2015
1. Datenlieferung2. Datenmodell3. Normdaten4. Persistente Identifikatoren
Übersicht
Datenlieferung
Deutsche Digitale Bibliothek – „Datenqualität – keine leichte Aufgabe!“ – Bibliothekartag – 27. Mai 2015
denkXWeb
Lieferformate für die DDB
Mediatheken BibliothekenDenkmalpflegeDublin Core
EAD LIDOArchive
METS/MODS MARCXML
Film Bild Open Access Repositorien
Museen Mediatheken Forschung
Bild
Ton
Kunstgeschichte
Bibliotheken
Digitalisierte Drucke
Bibliotheken… weitere Formate folgen
Deutsche Digitale Bibliothek – „Datenqualität – keine leichte Aufgabe!“ – Bibliothekartag – 27. Mai 2015
• Ursachen• Schema wurde erweitert/verändert • Falsche oder fehlende Deklarierung von Namensräumen• Falsche Anwendung von Namensräumen• Fehlende Pflichtelemente bzw. Werte in Pflichtelementen
Problem: Lieferdaten passen nicht zum Schema
• Beispiele
• Lösung: • Validierung (XML-Syntax, Schema)• Versionierung & Dokumentation von Schema-Änderungen
Deutsche Digitale Bibliothek – „Datenqualität – keine leichte Aufgabe!“ – Bibliothekartag – 27. Mai 2015
• Ursachen• Schema wurde erweitert/verändert • Falsche oder fehlende Deklarierung von Namensräumen• Falsche Anwendung von Namensräumen• Fehlende Pflichtelemente bzw. Werte in Pflichtelementen
Problem: Lieferdaten passen nicht zum Schema
• Beispiele
• Lösung: • Validierung (XML-Syntax, Schema)• Versionierung & Dokumentation von Schema-Änderungen
Deutsche Digitale Bibliothek – „Datenqualität – keine leichte Aufgabe!“ – Bibliothekartag – 27. Mai 2015
In den Lieferdaten kommen alle möglichen Zeichenkodierungen vor!z. B. ASCII, ISO8859-1/-15, UTF-8 oder undefinierte Kodierungen (mit Steuerzeichen)
• UTF-8• kanonische Dekomposition (NFD)• kanonischen Komposition (NFC)
• NFD: ʿAqiva Ben-Moše Êger –cabf417169cc827661cc822042656e2d4d6f73cc8c652045cc82676572
• NFC: ʿAqîvâ Ben-Moše Êger –cabf4171c3ae76c3a22042656e2d4d6fc5a16520c38a676572
• ASCII: Aqiva Ben-Mose Eger –41716976612042656e2d4d6f73652045676572
Problem: Zeichenkodierung
Lösung: Einigung auf eine einheitliche Zeichenkodierung: UTF-8 (NFD)!?
Deutsche Digitale Bibliothek – „Datenqualität – keine leichte Aufgabe!“ – Bibliothekartag – 27. Mai 2015
• 15% (Stand Mai 2014) unserer Daten beinhalten verstecktesund zum Teil unsicheres HTML• <b>, <em>, <i>, <strong>, <u>, <br>, <p> usw.
• Woher kommt das?• … zum Teil aus einem fehlerhaften Mapping• … zum Teil aus den Lieferdaten
Problem: Verstecktes HTML in den Lieferdaten
Lösung: HTML muss unbedingt herausgefiltert werden –Sensibilisierung und Validierung
Deutsche Digitale Bibliothek – „Datenqualität – keine leichte Aufgabe!“ – Bibliothekartag – 27. Mai 2015
• 15% (Stand Mai 2014) unserer Daten beinhalten verstecktesund zum Teil unsicheres HTML• <b>, <em>, <i>, <strong>, <u>, <br>, <p> usw.
• Woher kommt das?• … zum Teil aus einem fehlerhaften Mapping• … zum Teil aus den Lieferdaten
Problem: Verstecktes HTML in den Lieferdaten
Lösung: HTML muss unbedingt herausgefiltert werden –Sensibilisierung und Validierung
Deutsche Digitale Bibliothek – „Datenqualität – keine leichte Aufgabe!“ – Bibliothekartag – 27. Mai 2015
• 15% (Stand Mai 2014) unserer Daten beinhalten verstecktesund zum Teil unsicheres HTML• <b>, <em>, <i>, <strong>, <u>, <br>, <p> usw.
• Woher kommt das?• … zum Teil aus einem fehlerhaften Mapping• … zum Teil aus den Lieferdaten
Problem: Verstecktes HTML in den Lieferdaten
Lösung: HTML muss unbedingt herausgefiltert werden –Sensibilisierung und Validierung
Deutsche Digitale Bibliothek – „Datenqualität – keine leichte Aufgabe!“ – Bibliothekartag – 27. Mai 2015
• 10 unserer Datengeber nutzen Dublin Core-Profile für Datenlieferung• ~ 1.3 Mio. Objekte vornehmlich aus Sparte Mediathek• Informationen und logische Zusammenhänge gehen verloren• z.T. falsche Zuordnungen der Elemente beim Mapping
Problem: Verlust durch flache Lieferformate
<dc:subject>Druckgrafik</dc:subject> <dc:subject>Druck</dc:subject> <dc:subject>Druckgrafik</dc:subject> <dc:subject>Fotografie</dc:subject> <dc:subject>Fotos</dc:subject><dc:subject>Ortskatalog zur Kunstund Architektur</dc:subject>
Lösung: Einführung komplexerer Formate (hier: LIDO)
Deutsche Digitale Bibliothek – „Datenqualität – keine leichte Aufgabe!“ – Bibliothekartag – 27. Mai 2015
• 10 unserer Datengeber nutzen Dublin Core-Profile für Datenlieferung• ~ 1.3 Mio. Objekte vornehmlich aus Sparte Mediathek• Informationen und logische Zusammenhänge gehen verloren• z.T. falsche Zuordnungen der Elemente beim Mapping
Problem: Verlust durch flache Lieferformate
?
Lösung: Einführung komplexerer Formate (hier: LIDO)
Deutsche Digitale Bibliothek – „Datenqualität – keine leichte Aufgabe!“ – Bibliothekartag – 27. Mai 2015
• 10 unserer Datengeber nutzen Dublin Core-Profile für Datenlieferung• ~ 1.3 Mio. Objekte vornehmlich aus Sparte Mediathek• Informationen und logische Zusammenhänge gehen verloren• z.T. falsche Zuordnungen der Elemente beim Mapping
Problem: Verlust durch flache Lieferformate
<dc:creator>Friedrich, Caspar David</dc:creator>
Lösung: Einführung komplexerer Formate (hier: LIDO)
Deutsche Digitale Bibliothek – „Datenqualität – keine leichte Aufgabe!“ – Bibliothekartag – 27. Mai 2015
• 10 unserer Datengeber nutzen Dublin Core-Profile für Datenlieferung• ~ 1.3 Mio. Objekte vornehmlich aus Sparte Mediathek• Informationen und logische Zusammenhänge gehen verloren• z.T. falsche Zuordnungen der Elemente beim Mapping
Problem: Verlust durch flache Lieferformate
<dc:coverage>Staatliche Kunstsammlungen Dresden (SKD)</dc:coverage> <dc:coverage>Dresden</dc:coverage>
Lösung: Einführung komplexerer Formate (hier: LIDO)
Deutsche Digitale Bibliothek – „Datenqualität – keine leichte Aufgabe!“ – Bibliothekartag – 27. Mai 2015
• 10 unserer Datengeber nutzen Dublin Core-Profile für Datenlieferung• ~ 1.3 Mio. Objekte vornehmlich aus Sparte Mediathek• Informationen und logische Zusammenhänge gehen verloren• z.T. falsche Zuordnungen der Elemente beim Mapping
Problem: Verlust durch flache Lieferformate
<dc:description>Friedrich, Caspar David, Die Frau mit dem Raben am Abgrund</dc:description>
Lösung: Einführung komplexerer Formate (hier: LIDO)
Deutsche Digitale Bibliothek – „Datenqualität – keine leichte Aufgabe!“ – Bibliothekartag – 27. Mai 2015
• z.B. fehlende oder falsche Verknüpfungen bei hierarchischen Objekten in komplexen Formaten (EAD, METS/MODS, MARCXML)
Problem: Logische Inkonsistenzen
Bsp. EAD Tektonik
FindbuchWichtig für alle Lieferdaten:• Analyse (maschinell/intellektuell)• Validierung (Syntax, Schema, ggf.
regelbasiert mit Schematron)• Rückmeldung an Datengeber
Deutsche Digitale Bibliothek – „Datenqualität – keine leichte Aufgabe!“ – Bibliothekartag – 27. Mai 2015
In der validierten XML-Datei konnten insgesamt 20.090 mal Abweichungen zum MODS AP 2.1 festgestellt werden.
Ausschnitt aus einem Analyse-Report METS/MODS für ZVDD
Kritische Fehler'mods:title', das Kindelement von 'mods:titleInfo', ist nicht vorhanden.- Vorkommnisse: 24- Beispiel: identifier 'http://nbn-resolving.de/urn/[…]' ,mets:dmdSec[@ID='DMDLOG_0000']
Warnung
mods:titleInfo[not(mods:title)]
menschenlesbar maschinelle Regel
Hinweise
'mods:title' 'Berliner Adreßbuch 1914' ist eventuell keine Titelangabe, sondern besteht nur aus einer ArtBandbezeichnung.- Vorkommnisse: 1- Beispiel: identifier 'urn:nbn:de:[…]' , mets:dmdSec[@ID='DMDLOG_0001']
mets:structMap[@TYPE='LOGICAL'][//mets:div[parent::mets:div[mets:mptr]]][preceding-sibling::mets:dmdSec[@ID=$DMDID_sub]//mods:titleInfo/mods:title/text()[string-length(.)<3]]
Deutsche Digitale Bibliothek – „Datenqualität – keine leichte Aufgabe!“ – Bibliothekartag – 27. Mai 2015
• Austauschformate ausreichend spezifiziert, aber: • semantisch viel Interpretationsspielraum für Datengeber• generell und nicht für spezielle Anwendungen entwickelt• LIDO: kaum Vorgaben für Element- und Attributinhalte,
die Aussage über Datenstruktur machen
Problem: Anwendung der Metadatenformate
Empfehlungen für strukturierende LIDO-Elemente/Attribute• Deutscher Museumsbund und DDB entwickeln „LIDO-Terminologie“:
Wertelisten, Verwendungshinweise und Praxisbeispiele
Anwendungsprofile für Datenaustausch• Für DDB: EAD(DDB), DDB-LIDO, METS-MODS zvdd-DDB• Für Materialarten im DFG-Viewer: METS/MODS digitalisierte
Drucke und ASR2 METS/MODS digitalisierter Ton
Praxisnahe Dokumentationen mit Anwendungsbeispielen
https://www.deutsche-digitale-bibliothek.de/item/BAW6UAU6LVIIO7J3V4MGDOBZPZSKPJJJ
Deutsche Digitale Bibliothek – „Datenqualität – keine leichte Aufgabe!“ – Bibliothekartag – 27. Mai 2015
Erfassung
Problem: Verschiedene DatenworkflowsKleine Auswahl von Systemen & Werkzeugen
Mapping & Datenmangement Digitalisierungsmanagement
Verbundkatalogisierung
Data Preparation ToolMINT
Vokabularmanagement
digiCULT.meta
digiCULT.web
digiCULT.xTree
Deutsche Digitale Bibliothek – „Datenqualität – keine leichte Aufgabe!“ – Bibliothekartag – 27. Mai 2015
1) Analyse/Optimierung von Workflows & Werkzeugen• Festlegung sparten-/formatspezifischer Anforderungen• Datenaufbereitung durch Fachstellen und Aggregatoren
2) Zusammenarbeit mit Systemanbietern• Umfrage unter Anbietern von Erfassungssystemen• Langfristiges Ziel: Hinwirken auf Umsetzung von DDB
Anforderungen & Empfehlungen
3) Nachnutzung von Community Tools & Services• LoCloud Services, APEX Data Preperation Tool, MINT…
4) Stärkung der Rolle von Aggregatoren für DDB• Leistungskatalog • Aggregatoren als gesonderte Vertragspartner• Arbeit von DINI: Zertifikat für Digitale Sammlungen
Lösungswege Workflows & Werkzeuge
https://www.deutsche-digitale-bibliothek.de/item/G2QO6424CRSPVRAEKSRO63UVDDRPY6BA
Erfolgsbeispiel: Import von GND-URIs seit Goobi v2.0, aber aufwendige Altdatenbearbeitung nötig bis zur Auslieferung in METS/MODS
Datenmodell
Deutsche Digitale Bibliothek – „Datenqualität – keine leichte Aufgabe!“ – Bibliothekartag – 27. Mai 2015
Archival Information Packet – [AIP]
Metadatenformate der DDB
<view>
Daten für Objektansicht im DDB-Frontend
<provider>
Daten des Datengebers
<binaries>
Links zu Derivaten
<index-profile>
Indexierungsprofil
… und einiges mehr
<metadata-record>Wrapper für Lieferformat
<edm>
Daten im Europeana Data Model-Format
LinkedDataLinkedData
Deutsche Digitale Bibliothek – „Datenqualität – keine leichte Aufgabe!“ – Bibliothekartag – 27. Mai 2015
• DDB-eigenes Datenformat cortex• XML-basierter Wrapper
Metadatenformate der DDB
Deutsche Digitale Bibliothek – „Datenqualität – keine leichte Aufgabe!“ – Bibliothekartag – 27. Mai 2015
RDF & EDM
Goethe schrieb Rede bey Eröffnung...
Resource Description Framework„Die Welt als ein Graph von Subjekt-Prädikat-Objekt-Tripeln“
EDM = Europeana Data Model
RDF/XML Serialisierung (Ausschnitt):<edm:Event xmlns:edm="http://www.europeana.eu/schemas/edm/" rdf:about=„GIXI2PMQLJOVJ5I5WSF4AXX4WMK6OJIO">
<edm:hasType rdf:resource="http://terminology.lido-schema.org/lido0001"/><crm:P11_had_participant xmlns:crm="http://www.cidoc-crm.org/rdfs/cidoc_crm_v5.0.2_english_label.rdfs#"/> <rdf:resource="http://d-nb.info/gnd/118540238"/>
</edm:Event><edm:Agent xmlns:edm="http://www.europeana.eu/schemas/edm/" rdf:about="http://d-nb.info/gnd/118540238">
<skos:prefLabel xmlns:skos="http://www.w3.org/2004/02/skos/ core#">Goethe, Johann Wolfgang</skos:prefLabel><edm:wasPresentAtrdf:resource="GIXI2PMQLJOVJ5I5WSF4AXX4WMK6OJIO"/>
</edm:Agent>
edm:ProvidedCHO
dc:title
Rede bey Eröffnung des neuen Bergbaus zu Ilmenau: Den 24sten Februar 1784
edm:hasMet
edm:hasType
Goethe, Johann Wolfgang von
skos:prefLabel
crmP11_had_participant
edm:EventGIXI2PMQLJOVJ5I5WSF4AXX4
WMK6OJIO
edm:Agenthttp://d-
nb.info/gnd/118540238
Geistige Schöpfunghttp://terminology.lido-schema.org/lido00012
http://www.deutsche-digitale-bibliothek.de/item/NDFGYMI3THLFPE
V5AVZW2X36CGEITCGS
Deutsche Digitale Bibliothek – „Datenqualität – keine leichte Aufgabe!“ – Bibliothekartag – 27. Mai 2015
DDB-EDM Graph: GND-URI als Knoten
edm:Agenthttp://d-
nb.info/gnd/118614940edm:hasMetedm:hasMet
edm:ProvidedCHOhttp://www.deutsche-digitale-
bibliothek.de/item/VQYKLT44YBK7ZLRRXFN4K3CUF5JYCQVG
edm:ProvidedCHOhttp://www.deutsche-digitale-
bibliothek.de/item/OJ3BV6DKYH5UJXGQUJMU6CLUS4D5LQBY
edm:hasTypeedm:hasType
crmP11_had_participant
edm:EventHULFFBHQLTLXXSF6Y2V5GJN6SII5
3SSS
Herstellunghttp://terminology.lido-schema.org/lido00007
Herstellunghttp://terminology.lido-schema.org/lido00007
crm:P11_had_participant
edm:EventXZW5V6AG27PEQBRYPDQESAH3S
IKOTEMY
edm:ProvidedCHOhttp://www.deutsche-digitale-
bibliothek.de/item/YBC3Q5QLS765XJDYOPQ4AJMKJNUZZNXN
dcterms:subject
Deutsche Digitale Bibliothek – „Datenqualität – keine leichte Aufgabe!“ – Bibliothekartag – 27. Mai 2015
• DDB-EDM = eigenes Profil von Europeana-EDM• Verluste durch Mapping zu DDB-Objektansichten• „Redundanzen“ durch Mapping zu Europeana-EDM• Zusätzliche Lösungen für DDB
Problem: EDM für verschiedene Anwendungen
http://pro.europeana.eu/share-your-data/data-guidelines/edm-documentation
Machbarkeitsanalyse EDM als primäres DDB-DatenformatMachbarkeitsanalyse EDM als primäres DDB-Datenformat
Entwicklung von EDM-Anwendungsprofilen
Andere Projekte: DM2E, DPLA, Europeana Fashion, …
Entwicklung von EDM-Anwendungsprofilen • Europeana: EDM for Sound, Hierarchical Objects, Collections• Andere Projekte: DM2E, DPLA, Europeana Fashion, …
• Bsp. Goethe als Thema Europeana
DDB
Deutsche Digitale Bibliothek – „Datenqualität – keine leichte Aufgabe!“ – Bibliothekartag – 27. Mai 2015
• DDB-EDM = eigenes Profil von Europeana-EDM• Verluste durch Mapping zu DDB-Objektansichten• „Redundanzen“ durch Mapping zu Europeana-EDM• Zusätzliche Lösungen für DDB
Problem: EDM für verschiedene Anwendungen
http://pro.europeana.eu/share-your-data/data-guidelines/edm-documentation
Machbarkeitsanalyse EDM als primäres DDB-DatenformatMachbarkeitsanalyse EDM als primäres DDB-Datenformat
Entwicklung von EDM-Anwendungsprofilen
Andere Projekte: DM2E, DPLA, Europeana Fashion, …
Entwicklung von EDM-Anwendungsprofilen • Europeana: EDM for Sound, Hierarchical Objects, Collections• Andere Projekte: DM2E, DPLA, Europeana Fashion, …
• Bsp. LithographieDDB <view>
DDB <edm> -
Deutsche Digitale Bibliothek – „Datenqualität – keine leichte Aufgabe!“ – Bibliothekartag – 27. Mai 2015
• DDB-EDM = eigenes Profil von Europeana-EDM• Verluste durch Mapping zu DDB-Objektansichten• „Redundanzen“ durch Mapping zu Europeana-EDM• Zusätzliche Lösungen für DDB
Problem: EDM für verschiedene Anwendungen
http://pro.europeana.eu/share-your-data/data-guidelines/edm-documentation
Machbarkeitsanalyse EDM als primäres DDB-DatenformatMachbarkeitsanalyse EDM als primäres DDB-Datenformat
Entwicklung von EDM-Anwendungsprofilen Entwicklung von EDM-Anwendungsprofilen • Europeana: EDM for Sound, Hierarchical Objects, Collections• Andere Projekte: DM2E, DPLA, Europeana Fashion, …
• Bsp. Hierarchien
Deutsche Digitale Bibliothek – „Datenqualität – keine leichte Aufgabe!“ – Bibliothekartag – 27. Mai 2015
• Mapping zu DDB-Formaten = intellektueller & technischer Prozess• Regelmäßig Anpassungen nötig
• Lieferungen neuer Datengeber, Entwicklungen der DDB, tlw. auch bei Updates
• Aufwendige Fehleranalyse • nicht für gesamte Lieferung möglich• bezieht sich oft nur auf sichtbare Daten im DDB-Frontend• unterschiedliche Kenntnisse der DDB-Formate
Problem: Qualitätsverluste beim Mapping
Intellektuell: Testpläne, praxisnahe Dokumentationen, SchulungenIntellektuell: Testpläne, praxisnahe Dokumentationen, Schulungen
Validierung als Hilfsmittel für Fehleranalyse:• Prüfung, ob Pflichtelemente vorhanden• Prüfung best. Elementinhalte (kontrollierte Werte, Syntax-Check u.s.w.)• Regelbasiert, z.B. wenn Element a vorh. => dann muss auch Element b vorh. sein• Fehlerkategorisierung nach Schweregrad• Report an Fachstelle & Datengeber
https://www.deutsche-digitale-bibliothek.de/item/UGMRLXCGTYGVXXOAO
7G52UG7RDLP7IDX
Generell: Ob Elementinhalte semantisch richtig zugeordnet sind, kann nur intellektuell geprüft werden
Deutsche Digitale Bibliothek – „Datenqualität – keine leichte Aufgabe!“ – Bibliothekartag – 27. Mai 2015
• Wir reichern Daten nur bedingt an• Bei Mapping und Transformation
Zuordnung von URIs (z.B. Lizenzen/Kennzeichnungen) regelbasierte Normalisierung (Zeitwerte, Sprache,
Medientyp …)
• Tests: Erkennung von GND-Entitäten auf Basis von Objekt-Metadaten
• Asynchrone Indexanreicherung
Anreicherung und Normierung
• Strukturanalyse: Ziffern werden zu # 1ste Hälfte 20. Jh. #Hälfte ## Jh.
• Regeln für häufig verkommene Muster• Normierung zu internem Standard• Umwandlung in Zeitwerte
1. Hälfte 20. Jahrhundert 1901/1950
• Normalisierung Zeitwerte
Allerdings nur intern: Zeitstempel in DDB-Daten
Je eher Daten geprüft, normiert und angereichert werden, desto besser!
Normdaten
Allgemeines Vorgehen in der DDB
Deutsche Digitale Bibliothek – „Datenqualität – keine leichte Aufgabe!“ – Bibliothekartag – 27. Mai 2015
• Standardisierte Knotenpunkte• normierter Aufbau Ontologie• Zusammenführung von Informationen kontrollierte Vokabulare• Erleichterung der Datenanreicherung• Verbesserung der Austauschbarkeit und Wiederverwendung• Verbesserung der Auffindbarkeit für Mensch und Maschine
• vielfältige Suchmöglichkeiten: Unscharfe Suchen, alternative Begriffe usw.• alternative Sucheinstiege
Kurz: „Normdaten sind der Feenstaub in den Metadaten!“
Wozu brauchen wir Normdaten?
Deutsche Digitale Bibliothek – „Datenqualität – keine leichte Aufgabe!“ – Bibliothekartag – 27. Mai 2015
• Wird haben vielfältige Normdaten in unseren Lieferdaten!• Gemeinsame Normdatei (GND)• Getty (Art & Architecture Thesaurus usw.)• Oberbegriffsdatei (OBG) • Iconclass• ISIL usw.
• … unser derzeitiges Vorgehen: GND als gemeinsamer Normdatenhub• wichtige Voraussetzungen:
• Öffnung der GND für alle Sparten• Akzeptanz der GND in anderen Sparten• Kooperative Projekte wie IN2N sind wichtig!
• ABER: Wir sind unsicher, ob das die Lösung ist!
Normdaten in der DDB
GND
B
CD
Deutsche Digitale Bibliothek – „Datenqualität – keine leichte Aufgabe!“ – Bibliothekartag – 27. Mai 2015
• DDB-Entitäten bekommen ein festes Vokabular• Personen: GND• Körperschaften: ISIL, GND … ?• Orte: GND, Geonames … ?• Objektarten: AAT, DDB-Voc … ?
ggfs. weitere Klassifizierungen für grundlegende Objekteigenschaften• Werke: GND, CONA … ?• Sachschlagworte: DDC, DNB-Sachgruppen, GND, Spartenvokabulare … ?
• Wir brauchen Cross-Konkordanzenzwischen Normdatenvokabularen!• teilweise schon vorhanden• teilweise nicht vorhanden• teilweise nicht möglich
GND als Normdatenhub?
GND
B
CD
Deutsche Digitale Bibliothek – „Datenqualität – keine leichte Aufgabe!“ – Bibliothekartag – 27. Mai 2015
• z. B. Mapping von spartenspezifischen Vokabularen zur GND• Tool: xTreeConnect von Digicult• Crosskonkordanzen: Anreicherung der GND!?
Gemeinsame Werkzeuge und Dienste
Matching-Station(automatisierter Vergleich)
Mapping-Station(intellektuelle Zuordnung)
Personenseiten in der DDB
Deutsche Digitale Bibliothek – „Datenqualität – keine leichte Aufgabe!“ – Bibliothekartag – 27. Mai 2015
Suchfeld
Suchbereich
Suchergebnis in den Objekten
Suchergebnis bei Personen
Normdaten
Filterfacetten
Deutsche Digitale Bibliothek – „Datenqualität – keine leichte Aufgabe!“ – Bibliothekartag – 27. Mai 2015
Deutsche Digitale Bibliothek – „Datenqualität – keine leichte Aufgabe!“ – Bibliothekartag – 27. Mai 2015
Personen in den Facetten der DDB
Deutsche Digitale Bibliothek – „Datenqualität – keine leichte Aufgabe!“ – Bibliothekartag – 27. Mai 2015
Körperschaften in Facetten der DDB
Deutsche Digitale Bibliothek – „Datenqualität – keine leichte Aufgabe!“ – Bibliothekartag – 27. Mai 2015
Das ist um Klassen besser – dank der Normdaten der GND!
Berufe der Personen in den Facetten der DDB
HerausforderungenEine kleine Auswahl!
Deutsche Digitale Bibliothek – „Datenqualität – keine leichte Aufgabe!“ – Bibliothekartag – 27. Mai 2015
Wer (falsche) Daten zugänglich macht ist dafür „verantwortlich“!
• … für die Normdaten aus der GND• Fall 1: Lieferdaten haben falsche Zuordnungen• Fall 2: Daten in der GND sind nicht korrekt oder verletzten Rechte
• … die DDB erreichen: Anfragen, Hinweise und Verbesserungen• … für ihre Lieferdaten• … für ihre Normdaten
• Wir brauchen hier sparten- undinstitutionsübergreifende Workflows!• Idee: Korrekturformular in DDB Durchsicht durch
Servicestelle DDB und ??? Aktualisierung
• …als (semi-) automatischer Vorgang?
„Shoot the messenger!“
Entity Facts
Deutsche Digitale Bibliothek – „Datenqualität – keine leichte Aufgabe!“ – Bibliothekartag – 27. Mai 2015
• leichtgewichtiger Normdatendienst auf Basis der GND• maschinenlesbare Faktenblätter für Entitäten der
Gemeinsamen Normdatei (GND)• einfach zu benutzender Normdatenservice• aktueller Umfang: Personen
• Entwicklung und Service der Deutschen Nationalbibliothek• Ziele
• Bereitstellung von Informationen zu GND-Entitäten• einfache Integration in andere Anwendungen• Verknüpfungen mit anderen Datenquellen• Anreicherung mit Informationen aus anderen Datenquellen
Entity Facts
Deutsche Digitale Bibliothek – „Datenqualität – keine leichte Aufgabe!“ – Bibliothekartag – 27. Mai 2015
JSONLD-Antwort von Entity Facts
{"@context":"http://hub.culturegraph.org/entityfacts/context/v1/entityfacts.jsonld","valid":"2014-04-09T12:48:36+0200","license":"http://cre
ativecommons.org/publicdomain/zero/1.0/legalcode","@id":"http://d-nb.info/gnd/118540238","person":{"preferredName":"Johann Wolfgang von Goet
he","surname":"Goethe","prefix":"von","forename":"Johann Wolfgang","placeOfBirth":{"@id":"http://d-nb.info/gnd/4018118-2","@value":"Frankfur
t am Main"},"placeOfDeath":{"@id":"http://d-nb.info/gnd/4065105-8","@value":"Weimar"},"variantName":["Johann Wolfgang v. Goethe","Johann Wol
fgang Goethe","Johann W. von Goethe","Johann W. Goethe","Johan Wolfgang von Goethe","Joh. Wolfg. v. Goethe","J. Wolfgang Goethe","J. W. von
Goethe","J. W. v. Goethe","J. W. Goethe","Ioannes W. Goethe","Iohan Wolphgang Goethe","Jan Wolfgang Goethe","Jean Wolfgang von Goethe","Joã
o Wolfgang von Goethe","Juan W. Goethe","Juan Wolfgang von Goethe","Volfango Goethe","Volfgango Goethe","Wolfgang von Goethe","Wolfgang Goe
the","Wolfango Goethe","Wolfgango Goethe","... Goethe","... Goethius","Johann Wolfgang von Göthe","J. W. von Göthe","Giov. Volfango Göthe","
Iogann V. Göte","... Göte","... Gede","... Gēte","... Gě'ṭe","... Gete","Iogann W. Gete","Iogann Volʹfgang Gete","J. V. Gete","Iogann Vol'f
gang Gete","Iohan Volfgang Gete","I. V. Gete","Johan Volfgang Gete","Johans Volfgangs Géte","Johann Volʹfgang Gete","Jogann Vol'fgang fon
Gete","Volʹfgang Gete","Yogann Volʹfgang Gete","Yôhân Wôlfgang fôn Gete","Yôhan Wolfgang Gête","Yohann Volfqanq Gete","Y. W. Gêtê","Yohan Ṿ
olfgang fon Geteh","... Gkaite","Giochan Bolphnkannk phon Gkaite","Giochan B. phon Gkaite","... Gót","... G'ote","Jochan Volfgang G'ote",".
.. Goet'e","Iohan Volp'gang Goet'e","Yūhān Wulfgāng fun Gūta","Yūhān Wulfgāng fūn Gūta","... Gūta","Yūhān Vūlfġanġ fūn Ġūtih","Yohan Wolfga
ng Gyot'e","Ehan Vol'fhanh Hete","Johann-Vol'fhanh Hete","... Koet'e","Yohan Polp'ŭgang p'on Koet'e","Johanas Volfgangas Gėtė","Iohann
Volfqanq Höte","Johann Wolfgang von Goethe","괴테, 요한 볼프강 폰","歌德","約翰・沃爾夫岡・馮・歌德","约翰・沃尔夫冈・冯・歌德","ゲーテ, ヨハン・ヴォルフガ
ング・フォン"," ","]יוהן וולפגנג פון גתה dateOfBirth":"28. August 1749","dateOfDeath":"22. März 1832","professionOrOccupation":[{"@id":"http://d-nb.info/gnd/4053309-8","@value":"Schriftsteller"},{"@id":"http://d-nb.info/gnd/4176310-5","@value":"Publizist"},{"@id":"http://d-nb.info/gn
d/4046517-2","@value":"Politiker"},{"@id":"http://d-nb.info/gnd/4029050-5","@value":"Jurist"},{"@id":"http://d-nb.info/gnd/4041423-1","@val
ue":"Naturwissenschaftler"},{"@id":"http://d-nb.info/gnd/4185044-0","@value":"Theaterintendant"},{"@id":"http://d-nb.info/gnd/4037215-7",„
@value":"Maler"},{"@id":"http://d-nb.info/gnd/4200345-3","@value":"Zeichner"}],"gender":{"@id":"http://d-nb.info/gnd/standards/vocab/gnd/ge
nder#male","@value":"Mann"},"relatedPerson":[{"@id":"http://d-nb.info/gnd/118617222","relationship":"Freundin","preferredName":"Charlotte v
on Stein"},{"@id":"http://d-nb.info/gnd/118633252","relationship":"Freundin","preferredName":"Marianne von Willemer"},{"@id":"http://d-nb.i
nfo/gnd/118638076","relationship":"Freundin","preferredName":"Charlotte Buff"},{"@id":"http://d-nb.info/gnd/119277387","relationship":"Freu
ndin","preferredName":"Minna Herzlieb"}],"familialRelationship":[{"@id":"http://d-nb.info/gnd/118695940","relationship":"Vater","preferredN
ame":"Johann Caspar Goethe"},{"@id":"http://d-nb.info/gnd/118540246","relationship":"Mutter","preferredName":"Katharina Elisabeth Goethe"},
{"@id":"http://d-nb.info/gnd/11871791X","relationship":"Schwester","preferredName":"Cornelia Goethe"},{"@id":"http://d-nb.info/gnd/11879516
3","relationship":"Schwager","preferredName":"Johann Georg Schlosser"},{"@id":"http://d-nb.info/gnd/118628011","relationship":"Ehefrau","pre
ferredName":"Christiane von Goethe"},{"@id":"http://d-nb.info/gnd/11854022X","relationship":"Sohn","preferredName":"August von Goethe"},{"
@id":"http://d-nb.info/gnd/118540254","relationship":"Schwiegertochter","preferredName":"Ottilie von Goethe"},{"@id":"http://d-nb.info/gnd/
11687256X","relationship":"Tante","preferredName":"Johanna Maria Melber"}],"depiction":{"image":"http://upload.wikimedia.org/wikipedia/comm
ons/0/0e/Goethe_(Stieler_1828).jpg","thumbnail":"http://upload.wikimedia.org/wikipedia/commons/thumb/0/0e/Goethe_(Stieler_1828).jpg/270px-
Goethe_(Stieler_1828).jpg","url":"http://commons.wikimedia.org/wiki/File:Goethe_(Stieler_1828).jpg?uselang=de"}},"sameAs":[{"@id":"http://t
oolserver.org/~authoritycontrol/redirect/gnd/de/118540238","publisher":{"abbr":"WKPDE","name":"Wikipedia (Deutsch)","icon":"http://de.wikip
Deutsche Digitale Bibliothek – „Datenqualität – keine leichte Aufgabe!“ – Bibliothekartag – 27. Mai 2015
JSONLD-Antwort von Entity Facts
"person" : {"preferredName" : "Johann Wolfgang von Goethe","placeOfBirth" : {"@id" : "http://d-nb.info/gnd/4018118-2","@value" : "Frankfurt am Main"
},
"placeOfDeath" : {"@id" : "http://d-nb.info/gnd/4065105-8","@value" : "Weimar"
},
"dateOfBirth" : "28. August 1749","dateOfDeath" : "22. März 1832","professionOrOccupation" : [ {"@id" : "http://d-nb.info/gnd/4053309-8","@value" : "Schriftsteller"
},
... ]
"variantName" : [ "Yohann Volfqanq Gete", ... ],
"depiction" : {"image" : ...,
"thumbnail" : ...,"url" : ...
}
}
"sameAs" : [{"@id" : "http://en.wikipedia.org/wiki/Johann_Wolfgang_von_Goethe",
"publisher" : {"abbr" : "WKP","name" : "Wikipedia (Englisch)","icon" : "http://en.wikipedia.org/favicon.ico"
},
...
}]
Deutsche Digitale Bibliothek – „Datenqualität – keine leichte Aufgabe!“ – Bibliothekartag – 27. Mai 2015
Mittwoch, 27. Mai 2015 (heute), 16:00 – 18:00Raum Stockholm
Neuerungen rund um die GND: „Entity Facts – Aufbereitung von Informationen aus der GND“
Mehr Informationen zu Entity Facts?
Persistente Identifikatoren
Probleme in der DDB
Deutsche Digitale Bibliothek – „Datenqualität – keine leichte Aufgabe!“ – Bibliothekartag – 27. Mai 2015
• Datengeber können zum Teil keine persistente Identifikatorenzur Verfügung stellen• … keine lokalen stabilen Identifikatoren• … und schon gar keine globalen stabilen Identifikatoren
• Probleme in der DDB bei …• Rückverlinkung vom Portal bzw. Nachweissystem auf Webdarstellung
der liefernden Einrichtung• Aktualisierung von bereits gelieferten Datensätzen auf dem Portal bzw. im
Nachweissystem
Keine PI in den Lieferdaten!
Deutsche Digitale Bibliothek – „Datenqualität – keine leichte Aufgabe!“ – Bibliothekartag – 27. Mai 2015
Datenlieferung an ein Portal (z. B. die DDB)
Titel: Johann Jakob Fugger
Datum: 19.11.1752
…
Titel: Johann Jakob Fugger
Datum: 19.11.1752
…
ID: 123ID: 123
11 Titel: Johann Jakob Fugger
Datum: 19.11.1752
…
Titel: Johann Jakob Fugger
Datum: 19.11.1752
…
ID: 123ID: 123
Deutsche Digitale Bibliothek – „Datenqualität – keine leichte Aufgabe!“ – Bibliothekartag – 27. Mai 2015
Nutzung als Nachweissystem
Titel: Johann Jakob Fugger
Datum: 19.11.1752
…
Titel: Johann Jakob Fugger
Datum: 19.11.1752
…
ID: 123ID: 123
11 Titel: Johann Jakob Fugger
Datum: 19.11.1752
…
Titel: Johann Jakob Fugger
Datum: 19.11.1752
…
ID: 123ID: 123
ID: 123ID: 123
Deutsche Digitale Bibliothek – „Datenqualität – keine leichte Aufgabe!“ – Bibliothekartag – 27. Mai 2015
Suche im Portal …
… führt zu Treffern, Detailansichten und …
… der Objektansicht beim Datengeber
Deutsche Digitale Bibliothek – „Datenqualität – keine leichte Aufgabe!“ – Bibliothekartag – 27. Mai 2015
Veränderung Identifier und URLs
Titel: Johann Jakob Fugger
Datum: 19.11.1752
…
Titel: Johann Jakob Fugger
Datum: 19.11.1752
…
ID: 123ID: 123
11
22
Titel: Johann Jakob Fugger
Datum: 19.11.1752
…
Titel: Johann Jakob Fugger
Datum: 19.11.1752
…
ID: 456ID: 456
Titel: Johann Jakob Fugger
Datum: 19.11.1752
…
Titel: Johann Jakob Fugger
Datum: 19.11.1752
…
ID: 123ID: 123
ID: 123ID: 123
Deutsche Digitale Bibliothek – „Datenqualität – keine leichte Aufgabe!“ – Bibliothekartag – 27. Mai 2015
Suche im Portal …
Deutsche Digitale Bibliothek – „Datenqualität – keine leichte Aufgabe!“ – Bibliothekartag – 27. Mai 2015
… führt noch zu Treffern und Detailansichten …
Deutsche Digitale Bibliothek – „Datenqualität – keine leichte Aufgabe!“ – Bibliothekartag – 27. Mai 2015
… aber nicht mehr zum Datengeber
Deutsche Digitale Bibliothek – „Datenqualität – keine leichte Aufgabe!“ – Bibliothekartag – 27. Mai 2015
Weitere Folgen: Duplikate im Portal
Lösungen?
Deutsche Digitale Bibliothek – „Datenqualität – keine leichte Aufgabe!“ – Bibliothekartag – 27. Mai 2015
1. Datengeber müssen mindestens stabile lokale Identifikatoren liefern2. … viel besser: Datengeber liefern stabile globale Identifikatoren
• z. B. URN oder URI• auch: CHE (…)
• Trotzdem gibt es viele Gründe, warum das nicht möglich ist …• fehlende Sensibilisierung für die Problematik• mangelnde Ressourcen• eingesetzte Softwarelösungen unterstützen dies nicht
• kein Export von lokalen Identifikatoren• keine Übernehme bei Migrationsprozessen
• uvm.
Datenqualität: Stabile Identifikatoren
Deutsche Digitale Bibliothek – „Datenqualität – keine leichte Aufgabe!“ – Bibliothekartag – 27. Mai 2015
• Fachkonzept für einen neuartigen PI-Dienst• Zusammenarbeit von Deutsche Nationalbibliothek, Deutsche Digitale Bibliothek,
Bundesarchiv, Landesarchiv Baden-Württemberg• … und in diesem Jahr: Einbeziehung der Sparten Museum & Mediathek
• Ziel ist ein PI-Dienst• Vergabe für physische und logische Ressourcen • offen für alle Kultursparten
• „Webschaufenster“ sind digitale Stellvertreter für logische oderphysische Ressourcen auf dieder PI über eine URL aufgelöst
CHE – Persistent Identifiers for Cultural Heritage Entities
Deutsche Digitale Bibliothek – „Datenqualität – keine leichte Aufgabe!“ – Bibliothekartag – 27. Mai 2015
Vielen Dank für Ihre Aufmerksamkeit!Haben Sie Fragen?
Herzlichen Dank!