Sven Vlaeminck | SUB Göttingen
„Kooperative Langzeitarchivierung für Wissenschaftsstandorte“ http://kolawiss.uni-goettingen.de
AP2: Erfassen & Kategorisieren von AP2: Erfassen & Kategorisieren von Datenbeständen Datenbeständen
Expertenworkshop09.12.2008Göttingen
Sven VlaeminckNiedersächsische Staats- und Universitätsbibliothek (SUB) Göttingen
Historisches Gebäude, Papendiek 14, 37073 Göttingen Fon: 0551 39-4773 | Mail to: [email protected]
Sven Vlaeminck | SUB Göttingen
AP2 – Ziele & MethodikAP2 – Ziele & Methodik
Ziele: Ermittlung von Eigenschaften der Datenbestände Ermittlung von Kriterien zur Kategorisierung Einbeziehen heterogener Datenbestände
Methode: Evaluierung des Ist-Standes durch Nachnutzung des nestor-
Online-Surveys 2007 („Bedarfsabklärung zur Langzeitarchivierung digitaler Daten an der Universität Göttingen“)
Literaturstudium
Sven Vlaeminck | SUB Göttingen
= Ist-Stand Erfassung == Ist-Stand Erfassung =
Ergebnisse der Bedarfsabklärung zur Langzeitarchivierung digitaler Daten
an der Universität Göttingendes nestor – Netzwerks [www.langzeitarchivierung.de]
„Kooperative Langzeitarchivierung für Wissenschaftsstandorte“ http://kolawiss.uni-goettingen.de
Sven Vlaeminck | SUB Göttingen
„„Gibt es Daten, die über den aktuellen Gibt es Daten, die über den aktuellen Gebrauch hinweg erhalten bleiben sollen?“Gebrauch hinweg erhalten bleiben sollen?“
Sven Vlaeminck | SUB Göttingen
Interesse an & Planung von Maßnahmen Interesse an & Planung von Maßnahmen zur digitalen Langzeitarchivierungzur digitalen Langzeitarchivierung
Sven Vlaeminck | SUB Göttingen
Die Verwendung von Metadaten…Die Verwendung von Metadaten…
Sven Vlaeminck | SUB Göttingen
Metadatenstandards Metadatenstandards
Sven Vlaeminck | SUB Göttingen
Genutzte FormateGenutzte Formate
Insgesamt wurden 96 (!) unterschiedliche Formate genannt. Schwerpunkte: Adobe PDF, Formate der MS-Office Familie, JPG, TIFF, Plain Text.
Sven Vlaeminck | SUB Göttingen
Genutzte Formate IIGenutzte Formate II
Sven Vlaeminck | SUB Göttingen
Datenmengen nach Fakultät Datenmengen nach Fakultät
0 1000 2000 3000 4000 5000 6000 7000 8000 9000 10000 11000 12000 13000 14000 15000 16000
Wirtschaftswis. Fak.
Agrarwissenschaften
Biologie
Chemie
Forstwissenschaften
Juristische Fakultät
Mathematische Fak.
Medizinische Fak.
Philosophische Fak.
Physik
Sozialwiss. Fak.
Theolog. Fak.
Geowissenschaften
Durchschnittliche Datenmengen in verschiedenen Fakultäten nach Vorhaltezeiträumen (in GB)
LZA
5-10 Jahre
< 5 Jahre
Sven Vlaeminck | SUB Göttingen
ErgebnisseErgebnisse
Großes Interesse & großer Bedarf Kaum konkrete Planungen Starke Divergenz bei Datenumfang Formate stark heterogen, häufig proprietär Geringe Metadatenimplementierung Kaum standardisierte MetadatenschemataKomplexe Ausgangslage für dLZA von
Forschungsdaten
Sven Vlaeminck | SUB Göttingen
„Kooperative Langzeitarchivierung für Wissenschaftsstandorte“ http://kolawiss.uni-goettingen.de
= Kategorisierungsansätze = = Kategorisierungsansätze =
Sven Vlaeminck | SUB Göttingen
Wie lassen sich Forschungsdaten Wie lassen sich Forschungsdaten kategorisieren?kategorisieren?
Viele Ebenen der Kategorisierung denkbar:- Nach ihrer (fachwissenschaftlichen) Herkunft…- Nach MIME-Type o.ä. …- Nach ihrem Inhalt / Content…- Nach der Datengröße (z.B. in GB)…
Vorschlag:- Kategorisierung anhand von Kriterien, die Auswirkungen
(z.B. auf Kosten oder Policy) haben…- Daher: Kategorisierung anhand von Vorhaltezeiträumen &
Formateignung für dLZA- Vorteile: Ausreichend generisch, quantifizierbar…
Sven Vlaeminck | SUB Göttingen
Dimension I: Kategorisierung nach Dimension I: Kategorisierung nach VorhaltzeiträumenVorhaltzeiträumen
Kategorisierung nach geplanter Archivierungszeit
Vier sinnvolle Vorhaltezeiträume:- bis zu 5 Jahren - bis zu 10 Jahren - bis zu 30 Jahren - mehr als 30 Jahre
=> Überführung in Service Level
Vorhaltezeiträume (4 Kategorien)
weniger als 5 Jahre
mehr als 30 Jahre
bis 30 Jahre
bis 10 Jahre
Sven Vlaeminck | SUB Göttingen
Dimension II: Format-EignungDimension II: Format-Eignung Ermittlung & Bewertung der Format-Eignung für dLZA
anhand von sieben Kriterien- Offenheit & Lizenzfreiheit- Verbreitungsgrad- Selbstdokumentation- Robustheit- Komplexität- Schutzmechanismen - Abhängigkeiten
Diese Kriterien verfügen über unterschiedlich viele Ausprägungen: - z.B.: Kriterium: (geringe) Abhängigkeiten
Ausprägung I: Unabhängigkeit von bestimmter Hardware Ausprägung II: Unabhängigkeit von bestimmten OS Ausprägung III: Unabhängigkeit von bestimmter Software Ausprägung VI: Unabhängigkeit von externen Ressourcen
Sven Vlaeminck | SUB Göttingen
Beispiele:Beispiele:
Sven Vlaeminck | SUB Göttingen
Bewertung der Format-EignungBewertung der Format-Eignung Bestimmen der Format-Eignung* durch
a) Gewichtung der Relevanz verschiedener Kriterien-Ausprägungen (abhängig von Policy, z.B. zwischen 1 & 9)
b) Vergabe von Punktwerten für bestimmte Formate ( z.B. Bedingung sehr gut erfüllt =2 Punkte, Kriterium mittelmäßig erfüllt = 1 Punkt, Kriterium nicht erfüllt = 0 Punkte)
c) Multiplikation der Punktwerte für Gewicht der Kriterien-Ausprägung und dem vergebenen Wert
d) Division durch die Anzahl der Ausprägungen eines Formats.
Der Punkt-Gesamtwert bestimmt die Eignung des Formats – je höher er ausfällt, desto geeigneter ist ein Format
* Nach: Rog, Judith / van Wijk, Caroline: Evaluating File Formats for Long-term Preservation. National Library of the Netherlands, Den Haag, 2008
Sven Vlaeminck | SUB Göttingen
Die Kategorisierungsmatrix (I)Die Kategorisierungsmatrix (I)
Sven Vlaeminck | SUB Göttingen
Die Kategorisierungsmatrix (II)Die Kategorisierungsmatrix (II)
Sven Vlaeminck | SUB Göttingen
Die Kategorisierungsmatrix (III)Die Kategorisierungsmatrix (III)
Sven Vlaeminck | SUB Göttingen
Die Kategorisierungsmatrix (IV)Die Kategorisierungsmatrix (IV)
Kategorisierungsdimension „Vorhaltezeitraum“ noch nicht implementiert
Bei einer Formatbewertung für alle „Vorhaltezeitraum“ ergibt sich folgende Grafik (-> fiktive Werte!)
Sven Vlaeminck | SUB Göttingen
Diagramm zur Format-Eignung Diagramm zur Format-Eignung
Sven Vlaeminck | SUB Göttingen
Vielen Dank für Ihre Vielen Dank für Ihre Aufmerksamkeit!Aufmerksamkeit!
Nun ist Raum für Anmerkungen und Nun ist Raum für Anmerkungen und zur Diskussion…zur Diskussion…
„Kooperative Langzeitarchivierung für Wissenschaftsstandorte“ http://kolawiss.uni-goettingen.de
Sven Vlaeminck | SUB Göttingen
= Leitfragen zur Diskussion == Leitfragen zur Diskussion =
Ist diese Form der Kategorisierung zielführend?- Ist das vorgeschlagene Konzept ausreichend generisch
UND ausreichend konkret?- Werden weitere Kriterien und Ausprägungen gesehen, die
Eingang in eine Bewertung erhalten sollten? Sehen Sie andere sinnvolle Ebenen für eine
Kategorisierung von Forschungsdaten? Fehlen Ihnen grundlegende Punkte, die Ihrer
Meinung nach unbedingt Eingang in eine Kategorisierung finden müssten?
Top Related