MODS2FRBRoo : Ein Tool zur Anbindung von bibliographischen Daten an eine Ontologie für Begriffe und...
-
Upload
becker-hans-georg -
Category
Technology
-
view
608 -
download
1
description
Transcript of MODS2FRBRoo : Ein Tool zur Anbindung von bibliographischen Daten an eine Ontologie für Begriffe und...
Deutsche Gesellschaft für Informationswissenschaft und Informationspraxis e.V.
1. DGI-Konferenz, 62. DGI JahrestagungSemantic Web & Linked Data
Elemente zukünftiger Informationsinfrastrukturen
MODS2FRBRoo
Ein Tool zur Anbindung von bibliographischen
Daten an eine Ontologie für Begriffe und
Informationen im Bereich des kulturellen Erbes
Deutsche Gesellschaft für Informationswissenschaft und Informationspraxis e.V.Deutsche Gesellschaft für Informationswissenschaft und Informationspraxis e.V.Deutsche Gesellschaft für Informationswissenschaft und Informationspraxis e.V.Deutsche Gesellschaft für Informationswissenschaft und Informationspraxis e.V.
Agenda
• Motivation
– DFG-Projekt „ArcheoInf“
– CIDOC CRM und die Rolle als Referenzontologie
• CIDOC CRM + FRBR = FRBRoo
– Modell der „physikalischen“ Objekte
• RDA
– Modell der „biologischen“ Objekte
• Der Konverter
– Technik
– Ergebnisse
• Ausblick
Deutsche Gesellschaft für Informationswissenschaft und Informationspraxis e.V.Deutsche Gesellschaft für Informationswissenschaft und Informationspraxis e.V.Deutsche Gesellschaft für Informationswissenschaft und Informationspraxis e.V.Deutsche Gesellschaft für Informationswissenschaft und Informationspraxis e.V.
Motivation
• DFG-Projekt „ArcheoInf“ seit 2007
• Ziel:„ein Informationsnetz zur Bereitstellung von digitalen Forschungsdaten archäologischer Feldprojekte (Ausgrabungen, Surveys) sowie eine darauf zugeschnittene Serviceumgebung zu schaffen“
Deutsche Gesellschaft für Informationswissenschaft und Informationspraxis e.V.Deutsche Gesellschaft für Informationswissenschaft und Informationspraxis e.V.Deutsche Gesellschaft für Informationswissenschaft und Informationspraxis e.V.Deutsche Gesellschaft für Informationswissenschaft und Informationspraxis e.V.
Motivation
• Hohe Komplexität der Daten erwartet
• => ontologische Betrachtung der
Informationen
• => größtmögliche Flexibilität bei der
Datenstrukturierung
Deutsche Gesellschaft für Informationswissenschaft und Informationspraxis e.V.Deutsche Gesellschaft für Informationswissenschaft und Informationspraxis e.V.Deutsche Gesellschaft für Informationswissenschaft und Informationspraxis e.V.Deutsche Gesellschaft für Informationswissenschaft und Informationspraxis e.V.
ArcheoInf
• Modell der Forschungsdaten (Stand Anfang 2010)
Deutsche Gesellschaft für Informationswissenschaft und Informationspraxis e.V.Deutsche Gesellschaft für Informationswissenschaft und Informationspraxis e.V.Deutsche Gesellschaft für Informationswissenschaft und Informationspraxis e.V.Deutsche Gesellschaft für Informationswissenschaft und Informationspraxis e.V.
CIDOC CRM
• „Das CIDOC Conceptual Reference Model bietet die erweiterbare Ontologiefür Begriffe und Informationen im Bereich des Kulturerbes. Es ist eine Norm (ISO 21127:2006) für den kontrollierten Austausch von Informationen im Bereich des kulturellen Erbes und soll unter anderem von Archiven, Bibliotheken und Museen zur Verbesserung der Verfügbarkeit von Wissen angewandt werden.
• Es ist das Ziel des CIDOC CRM, die vielfältigen Informationen im Bereich des kulturellen Erbes gemeinsam zu erfassen und einen allgemeinen Rahmen ihrer formalen Semantik zur Verfügung zu stellen, damit jede Information dieses Bereichs den Begriffen des CIDOC CRM zugeordnet werden kann. Auf diese Weise werden wichtige Voraussetzungen für die Informationsintegration geschaffen, da auf der Grundlage des CIDOC CRM Werkzeuge zur Schematransformation und -integration entwickelt werden können.“
• Seite „CIDOC Conceptual Reference Model“. In: Wikipedia, Die freie Enzyklopädie. Bearbeitungsstand: 4. Februar 2010,
20:53 UTC. URL: http://de.wikipedia.org/w/index.php?title=CIDOC_Conceptual_Reference_Model&oldid=70245933
(Abgerufen: 3. Oktober 2010, 06:52 UTC)
Deutsche Gesellschaft für Informationswissenschaft und Informationspraxis e.V.Deutsche Gesellschaft für Informationswissenschaft und Informationspraxis e.V.Deutsche Gesellschaft für Informationswissenschaft und Informationspraxis e.V.Deutsche Gesellschaft für Informationswissenschaft und Informationspraxis e.V.
CIDOC CRM
• … ist ereignisorientiert
Crofts,N., Doerr, M. and Gill, T "The CIDOC Conceptual Reference Model: A standard for communicating cultural contents",
Cultivate Interactive, issue 9, 7 February 2003. URL: http://www.cultivate-int.org/issue9/chios/
Deutsche Gesellschaft für Informationswissenschaft und Informationspraxis e.V.Deutsche Gesellschaft für Informationswissenschaft und Informationspraxis e.V.Deutsche Gesellschaft für Informationswissenschaft und Informationspraxis e.V.Deutsche Gesellschaft für Informationswissenschaft und Informationspraxis e.V.
ArcheoInf + CIDOC CRM
Deutsche Gesellschaft für Informationswissenschaft und Informationspraxis e.V.Deutsche Gesellschaft für Informationswissenschaft und Informationspraxis e.V.Deutsche Gesellschaft für Informationswissenschaft und Informationspraxis e.V.Deutsche Gesellschaft für Informationswissenschaft und Informationspraxis e.V.
Bibliographische
Informationen
• Datenbanken enthalten
Literaturangaben
• Quantitativ und qualitativ sehr
heterogen
• Bezüge zu den Forschungsdaten
• => Anbindung ans Modell der
Forschungsdaten via FRBRoo
Deutsche Gesellschaft für Informationswissenschaft und Informationspraxis e.V.Deutsche Gesellschaft für Informationswissenschaft und Informationspraxis e.V.Deutsche Gesellschaft für Informationswissenschaft und Informationspraxis e.V.Deutsche Gesellschaft für Informationswissenschaft und Informationspraxis e.V.
FRBR + CRM = FRBRoo
• Functional Requirements for
Bibliographic Records (FRBR, 1998)
• Erweiterung des CRM durch FRBR
ergab FRBRoo
• Dabei: Präzisierung der FRBR-
Entitäten
Deutsche Gesellschaft für Informationswissenschaft und Informationspraxis e.V.Deutsche Gesellschaft für Informationswissenschaft und Informationspraxis e.V.Deutsche Gesellschaft für Informationswissenschaft und Informationspraxis e.V.Deutsche Gesellschaft für Informationswissenschaft und Informationspraxis e.V.
Publikationstypen
• … nach
Gantert/Hacker (2008)
• Feinere Entitäten des
Works in FRBRoo
Deutsche Gesellschaft für Informationswissenschaft und Informationspraxis e.V.Deutsche Gesellschaft für Informationswissenschaft und Informationspraxis e.V.Deutsche Gesellschaft für Informationswissenschaft und Informationspraxis e.V.Deutsche Gesellschaft für Informationswissenschaft und Informationspraxis e.V.
„physikalisches Modell“
Deutsche Gesellschaft für Informationswissenschaft und Informationspraxis e.V.Deutsche Gesellschaft für Informationswissenschaft und Informationspraxis e.V.Deutsche Gesellschaft für Informationswissenschaft und Informationspraxis e.V.Deutsche Gesellschaft für Informationswissenschaft und Informationspraxis e.V.
RDA- Resource Description
and Access
• Erschienen Sommer 2010
• Neues Regelwerk basierend auf den
FRBR/FRAD(/FRSAD)
– Definition von Merkmalen und
Beziehungen für/zwischen Entitäten
– Regeln für Merkmalen
– Regeln für die Beziehungen
Deutsche Gesellschaft für Informationswissenschaft und Informationspraxis e.V.Deutsche Gesellschaft für Informationswissenschaft und Informationspraxis e.V.Deutsche Gesellschaft für Informationswissenschaft und Informationspraxis e.V.Deutsche Gesellschaft für Informationswissenschaft und Informationspraxis e.V.
RDA – Ein Beispiel
H. Wiesenmüller, 2010
Deutsche Gesellschaft für Informationswissenschaft und Informationspraxis e.V.Deutsche Gesellschaft für Informationswissenschaft und Informationspraxis e.V.Deutsche Gesellschaft für Informationswissenschaft und Informationspraxis e.V.Deutsche Gesellschaft für Informationswissenschaft und Informationspraxis e.V.
„biologisches Modell“
Deutsche Gesellschaft für Informationswissenschaft und Informationspraxis e.V.Deutsche Gesellschaft für Informationswissenschaft und Informationspraxis e.V.Deutsche Gesellschaft für Informationswissenschaft und Informationspraxis e.V.Deutsche Gesellschaft für Informationswissenschaft und Informationspraxis e.V.
Der Konverter
• ArcheoInf:
bib. Daten Citavi MODS
• Aufgabe:
MODS FRBRoo-kompatibles RDF
• Vorhanden:
– RDF-Darst. des CIDOC CRM v5.0.1
– RDF-Darst. der RDA
Deutsche Gesellschaft für Informationswissenschaft und Informationspraxis e.V.Deutsche Gesellschaft für Informationswissenschaft und Informationspraxis e.V.Deutsche Gesellschaft für Informationswissenschaft und Informationspraxis e.V.Deutsche Gesellschaft für Informationswissenschaft und Informationspraxis e.V.
Der Algorithmus – Schritt 1
• Erzeugen der FRBRoo-Entitäten für
jeden MODS-Datensatz
• Sortiert nach Publikationstyp
<xsl:for-each select="/modsCollection/mods">
<xsl:variable name="ebene1" select="position()" />
<xsl:if test="genre[@authority='local']='Contribution' or
genre[@authority='local']='JournalArticle'">
[...]
Deutsche Gesellschaft für Informationswissenschaft und Informationspraxis e.V.Deutsche Gesellschaft für Informationswissenschaft und Informationspraxis e.V.Deutsche Gesellschaft für Informationswissenschaft und Informationspraxis e.V.Deutsche Gesellschaft für Informationswissenschaft und Informationspraxis e.V.
<?xml version="1.0" encoding="UTF-8"?>
<rdf:RDF xmlns:rdf="http://www.w3.org/1999/02/22-rdf-syntax-ns#"
xmlns:frbroo=http://lod.ub.tu-dortmund.de/frbroo#
xmlns:rdaRole="http://RDVocab.info/roles/"
xmlns:rda="http://RDVocab.info/Elements/"
xmlns:rdaGr2="http://RDVocab.info/ElementsGr2/"
xmlns:rdaGr3="http://RDVocab.info/ElementsGr3/">
<!--F14 Individual Work-->
<rdf:Description rdf:about="http://lod.ub.tu-dortmund.de/data/thing14-F14-1">
<rdf:type rdf:resource="http://lod.ub.tu-dortmund.de/frbroo#F14"/>
<frbroo:R19B rdf:resource="http://lod.ub.tu-dortmund.de/data/thing14-F28-1"/>
<rdaRole:authorWork rdf:resource="http://lod.ub.tu-dortmund.de/data/thing14-F10-1"/>
</rdf:Description>
<!--F19 Publication Work-->
<rdf:Description rdf:about="http://lod.ub.tu-dortmund.de/data/thing14-F19-1">
<rdf:type rdf:resource="http://lod.ub.tu-dortmund.de/frbroo#F19"/>
<frbroo:R23B rdf:resource="http://lod.ub.tu-dortmund.de/data/thing14-F30-1"/>
<frbroo:R10B rdf:resource="http://lod.ub.tu-dortmund.de/data/thing14-F18-1"/>
<rda:preferredTitleForTheWork>
Agrigento : La necropoli greca di Pezzino
</rda:preferredTitleForTheWork>
</rdf:Description>
…
<!--F28 Expression Creation-->
<rdf:Description rdf:about="http://lod.ub.tu-dortmund.de/data/thing14-F28-1">
<rdf:type rdf:resource="http://lod.ub.tu-dortmund.de/frbroo#F28"/>
<frbroo:R19F rdf:resource="http://lod.ub.tu-dortmund.de/data/thing14-F14-1"/>
<frbroo:R17F rdf:resource="http://lod.ub.tu-dortmund.de/data/thing14-F22-1"/>
<frbroo:P14F rdf:resource="http://lod.ub.tu-dortmund.de/data/thing14-F10-1"/>
</rdf:Description>
…
Deutsche Gesellschaft für Informationswissenschaft und Informationspraxis e.V.Deutsche Gesellschaft für Informationswissenschaft und Informationspraxis e.V.Deutsche Gesellschaft für Informationswissenschaft und Informationspraxis e.V.Deutsche Gesellschaft für Informationswissenschaft und Informationspraxis e.V.
…
<!--F3 Manifestation Product Type-->
<rdf:Description rdf:about="http://lod.ub.tu-dortmund.de/data/thing14-F3-1">
<rdf:type rdf:resource="http://lod.ub.tu-dortmund.de/frbroo#F3"/>
<frbroo:CLR6F rdf:resource="http://lod.ub.tu-dortmund.de/data/thing14-F24-1"/>
<frbroo:R4B rdf:resource="http://lod.ub.tu-dortmund.de/data/thing14-F22-1"/>
<frbroo:R26B rdf:resource="http://lod.ub.tu-dortmund.de/data/thing14-F32-1"/>
<rdaRole:publisherManifestation
rdf:resource="http://lod.ub.tu-dortmund.de/data/thing14-F11_2-1-1"/>
<rda:placeOfPublicationManifestation>Messina</rda:placeOfPublicationManifestation>
<rda:publishersNameManifestation>Sicania</rda:publishersNameManifestation>
<rda:dateOfPublicationManifestation>1989</rda:dateOfPublicationManifestation>
<rda:publicationStatementManifestation>
Messina : Sicania, 1989
</rda:publicationStatementManifestation>
<rda:identifierForTheManifestation>
[ISBN] 88-7268-013-1
</rda:identifierForTheManifestation>
</rdf:Description>
…
<!--Personen-->
<rdf:Description rdf:about="http://lod.ub.tu-dortmund.de/data/thing14-F10-1">
<rdf:type rdf:resource="http://lod.ub.tu-dortmund.de/frbroo#F10"/>
<frbroo:P14B rdf:resource="http://lod.ub.tu-dortmund.de/data/thing14-F28-1"/>
<rdaGr2:preferredNameForThePerson>
De Miro, Ernesto
</rdaGr2:preferredNameForThePerson>
</rdf:Description>
…
Deutsche Gesellschaft für Informationswissenschaft und Informationspraxis e.V.Deutsche Gesellschaft für Informationswissenschaft und Informationspraxis e.V.Deutsche Gesellschaft für Informationswissenschaft und Informationspraxis e.V.Deutsche Gesellschaft für Informationswissenschaft und Informationspraxis e.V.
Der Algorithmus – Schritt 2
• Zusammenfassen von „gleiche“
Personen und Körperschaften
• Kriterium: gleiche Zeichenketten
Deutsche Gesellschaft für Informationswissenschaft und Informationspraxis e.V.Deutsche Gesellschaft für Informationswissenschaft und Informationspraxis e.V.Deutsche Gesellschaft für Informationswissenschaft und Informationspraxis e.V.Deutsche Gesellschaft für Informationswissenschaft und Informationspraxis e.V.
<rdf:Description rdf:about="http://lod.ub.tu-dortmund.de/data/thing160-F11-Gela">
<rdf:type rdf:resource="http://lod.ub.tu-dortmund.de/frbroo#F11"/>
<frbroo:P14B rdf:resource="http://lod.ub.tu-dortmund.de/data/thing454-F28-1"/>
<frbroo:P14B rdf:resource="http://lod.ub.tu-dortmund.de/data/thing474-F28-1"/>
<frbroo:P14B rdf:resource="http://lod.ub.tu-dortmund.de/data/thing481_1-F28-1"/>
<frbroo:P14B rdf:resource="http://lod.ub.tu-dortmund.de/data/thing481_2-F28-1"/>
<rdaGr2:preferredNameForTheCorporateBody>
Società degli archeologi medievisti italiani
</rdaGr2:preferredNameForTheCorporateBody>
</rdf:Description>
Deutsche Gesellschaft für Informationswissenschaft und Informationspraxis e.V.Deutsche Gesellschaft für Informationswissenschaft und Informationspraxis e.V.Deutsche Gesellschaft für Informationswissenschaft und Informationspraxis e.V.Deutsche Gesellschaft für Informationswissenschaft und Informationspraxis e.V.
Der Algorithmus – Schritt 3
• Ersetzen der „alten URIs“ für
Personen und Körperschaften durch
neue URIs
Deutsche Gesellschaft für Informationswissenschaft und Informationspraxis e.V.Deutsche Gesellschaft für Informationswissenschaft und Informationspraxis e.V.Deutsche Gesellschaft für Informationswissenschaft und Informationspraxis e.V.Deutsche Gesellschaft für Informationswissenschaft und Informationspraxis e.V.
<rdf:Description rdf:about="http://lod.ub.tu-dortmund.de/data/thing454-F28-1">
<rdf:type rdf:resource="http://lod.ub.tu-dortmund.de/frbroo#F28"/>
<frbroo:R19F rdf:resource="http://lod.ub.tu-dortmund.de/data/thing454-F17-1"/>
<frbroo:R17F rdf:resource="http://lod.ub.tu-dortmund.de/data/thing454-F22-1"/>
<frbroo:P14F rdf:resource="http://lod.ub.tu-dortmund.de/data/thing191-F10-Gela"/>
<frbroo:P14F rdf:resource="http://lod.ub.tu-dortmund.de/data/thing160-F11-Gela"/>
<frbroo:P14F rdf:resource="http://lod.ub.tu-dortmund.de/data/thing161-F11-Gela"/>
</rdf:Description>
<rdf:Description rdf:about="http://lod.ub.tu-dortmund.de/data/thing454-F28-1">
<rdf:type rdf:resource="http://lod.ub.tu-dortmund.de/frbroo#F28"/>
<frbroo:R19F rdf:resource="http://lod.ub.tu-dortmund.de/data/thing454-F17-1"/>
<frbroo:R17F rdf:resource="http://lod.ub.tu-dortmund.de/data/thing454-F22-1"/>
<frbroo:P14F rdf:resource="http://lod.ub.tu-dortmund.de/data/thing454-F10-1"/>
<frbroo:P14F rdf:resource="http://lod.ub.tu-dortmund.de/data/thing454-F11_1-1"/>
<frbroo:P14F rdf:resource="http://lod.ub.tu-dortmund.de/data/thing454-F11_1-2"/>
</rdf:Description>
<rdf:Description rdf:about="http://lod.ub.tu-dortmund.de/data/thing160-F11-Gela">
<rdf:type rdf:resource="http://lod.ub.tu-dortmund.de/frbroo#F11"/>
<frbroo:P14B rdf:resource="http://lod.ub.tu-dortmund.de/data/thing454-F28-1"/>
<frbroo:P14B rdf:resource="http://lod.ub.tu-dortmund.de/data/thing474-F28-1"/>
<frbroo:P14B rdf:resource="http://lod.ub.tu-dortmund.de/data/thing481_1-F28-1"/>
<frbroo:P14B rdf:resource="http://lod.ub.tu-dortmund.de/data/thing481_2-F28-1"/>
<rdaGr2:preferredNameForTheCorporateBody>
Società degli archeologi medievisti italiani
</rdaGr2:preferredNameForTheCorporateBody>
</rdf:Description>
Deutsche Gesellschaft für Informationswissenschaft und Informationspraxis e.V.Deutsche Gesellschaft für Informationswissenschaft und Informationspraxis e.V.Deutsche Gesellschaft für Informationswissenschaft und Informationspraxis e.V.Deutsche Gesellschaft für Informationswissenschaft und Informationspraxis e.V.
Der Algorithmus – Was fehlt?
• Autom. FRBRisierung der Entitäten
der Gruppe 1: Work, Expression,
Manifestation, Item
• Grund: fehlende eindeutige Kriterien
Deutsche Gesellschaft für Informationswissenschaft und Informationspraxis e.V.Deutsche Gesellschaft für Informationswissenschaft und Informationspraxis e.V.Deutsche Gesellschaft für Informationswissenschaft und Informationspraxis e.V.Deutsche Gesellschaft für Informationswissenschaft und Informationspraxis e.V.
Ergebnisse
• RDF verifiziert und in Triple Store
„Sesame“ eingespielt
• Abfragen möglich mit sinnvollen
Ergebnissen
• Aber:
– Laufzeit ok
– Bedarf an Arbeitsspeicher: sehr hoch
Deutsche Gesellschaft für Informationswissenschaft und Informationspraxis e.V.Deutsche Gesellschaft für Informationswissenschaft und Informationspraxis e.V.Deutsche Gesellschaft für Informationswissenschaft und Informationspraxis e.V.Deutsche Gesellschaft für Informationswissenschaft und Informationspraxis e.V.
Ausblick
• Modell
– Verbindung der Forschungs- und
bibliographischen Daten durch
sacherschließende Relationen
– Optimierung der Merkmale/Attribute
• Technisch
– XSLT-Konverter vs. Speicherbedarf
Deutsche Gesellschaft für Informationswissenschaft und Informationspraxis e.V.Deutsche Gesellschaft für Informationswissenschaft und Informationspraxis e.V.Deutsche Gesellschaft für Informationswissenschaft und Informationspraxis e.V.Deutsche Gesellschaft für Informationswissenschaft und Informationspraxis e.V.
Vielen Dank für Ihre Aufmerksamkeit!
Hans-Georg Becker
Universitätsbibliothek Dortmund
Links: http://www.delicious.com/hansgeorgbecker/dgi2010