F. Lützenkirchen HochschulRechenZentrum der Universität Essen
description
Transcript of F. Lützenkirchen HochschulRechenZentrum der Universität Essen
07.11.2001 Präsentation Humboldt-Universität Berlin 1
F. LützenkirchenHochschulRechenZentrum der Universität Essen
Das MILESS Projekt der Universität Essen
Implementierung einer Digitalen Bibliothek auf Basis des IBM Content Managers
Zukunft der Software im MyCoRe Projekt
07.11.2001 Präsentation Humboldt-Universität Berlin 2
Themen
• Was ist MILESS?• Entstehung, Intentionen und Ziele• Systemkomponenten und Datenmodell• Funktionalität und graphische Benutzeroberfläche• Stand und Weiterentwicklung
• Was ist IBM Content Manager?• Systemkomponenten und Funktionalität• Erfahrungen bei der MILESS Implementierung• Stärken und Schwächen des Produktes
•Was ist MyCoRe?• Entstehung, Intentionen und Ziele• Organisation und Projektbeteiligte• Stand der Entwicklung
• Diskussion
07.11.2001 Präsentation Humboldt-Universität Berlin 3
• oft mühsam auffindbar, verstreut in der Hochschule
Lehr- und Lernmaterial istvorhanden, aber Ziele des MILESS Projektes:
• Zentraler, einheitlicher Zugang für alle Fachbereiche, Suche und Navigation in einem homogenen System• keine systematische
Ordnung • Sachliche, systematische Erschließung in bibliothekarischer Qualität, Integration der Bibliothek in den Dokumentenworkflow
Intentionen und Ziele
07.11.2001 Präsentation Humboldt-Universität Berlin 4
• oft flüchtig, Verfügbarkeit nicht garantiert
Lehr- und Lernmaterial ist Ziele des MILESS Projektes:
• Archivierung und Sicherung, dauerhafte, zuverlässige Verfügbarkeit
• Pflege des Distributionssystems (Web-Server) aufwendig
• Zentrale Plattform zur Verteilung von Materialien
• Manipulationsgefahr, Urheberschutzprobleme • Manipulationssicherheit,
Digitale Signatur, Zugriffsschutz• Elektronische Dissertationen
Intentionen und Ziele
07.11.2001 Präsentation Humboldt-Universität Berlin 5
• Verschiedenste Formate
Multimediales Material: Ziele in MILESS:
• Unterstützung beliebiger Dateiformate
• Audio / Videomaterialien: Große Datenmengen
• Skalierbarkeit des Systems: Spezielle Audio-/Videosoftware
• Audio / Videomaterialien: Intensive Nutzung bisher nicht verbreitet
• Einsatz direkt in der Vorlesung: geringe technische Hemmschwelle
Intentionen und Ziele
07.11.2001 Präsentation Humboldt-Universität Berlin 6
Medien-zentrum
Universitäts-bibliothek
Fachbereiche
Hochschul-rechenzentrum
Gemeinschaftsprojekt der zentralenEinrichtungen der Universität Essen
http://miless.uni-essen.de/
07.11.2001 Präsentation Humboldt-Universität Berlin 7
• MILESS: Multimedialer Lehr- und Lernserver Essen• Projekt an der Universität Essen: seit 1998 ständig weiterentwickelt• Essener Digitale Bibliothek: Infrastruktur für die Universität Essen• In Essen für Essen entwickelte Applikation, d .h. - ursprünglich zugeschnitten auf Essener Anforderungen - aber: Standards bei Metadaten u. Content: Dublin Core, XML, ... - aber: zunehmende Flexibilisierung zur einfacheren Nachnutzung• Benötigt IBM Content Manager 6.1 oder 7.1, DB2 unter AIX / NT• Java-Applikation: ca. 45000 Zeilen Quellcode - Servlets, Applets• Open Source unter GNU General Public License, nichtkommerziell• Nachnutzung durch andere Universitäten erfolgreich, z. B. Leipzig (Bach Digital), Jena (Urmel), ca. ein Dutzend Installationen• Teil der CampusSource Initiative NRW, Teil des MyCoRe Projekts
Was ist MILESS?
07.11.2001 Präsentation Humboldt-Universität Berlin 8
• Ein Produkt der IBM in Zusammenarbeit mit der Universität Essen• Ein Produkt der Universität Essen im kommerziellen Sinne - Support, Hotline, ... - Kommerziell vermarktet - Von Beginn an zugeschnitten auf die Bedürfnisse möglichst vieler „Kunden“ d. h. Nachnutzer - ABER: Ständige Weiterentwicklung in Richtung Flexibilisierung, Verbesserung der Software-Qualität, Dokumentation etc. - ABER: Nachnutzung ist erwiesenermaßen gut möglich• Eine interaktive Lernumgebung: - Kursverwaltung: Studenten, Diskussionsforen, Online-Üungen - Führung des Benutzers durch die Lerninhalte etc.
Was ist MILESS nicht?
07.11.2001 Präsentation Humboldt-Universität Berlin 9
Katalogsysteme:• Integration auf Metadatenebene, nur Nachweis (Link)• Keine Archivierung, keine Verfügbarkeitsgarantie
MILESS:• Dokumente werden im System selbst gehalten: Einheit von Metadaten und Inhalten• Verfügbarkeit der Inhalte kann garantiert werden
• Keine ungültigen Verweise • Grundlage für zuverlässigen Einsatz in Vorlesung, Vor- und Nachbereitung, zur Schaffung von Zitierfähigkeit
• Archivierung und Sicherung, Zugriffs- und Manipulationsschutz • Zusatzdienste werden ermöglicht, z. B. Suche im Volltext, nach Bildern (QBIC), ZIP-Generierung, ...
MILESS als Digitale Bibliothek
07.11.2001 Präsentation Humboldt-Universität Berlin 10
IBM Content Manager
Library Server: Metadaten
(Titel, Autor, ...)
VideoChargerServer:
Streaming von Audio/Video Daten
(MPEG, ...)
Text Search Server: Volltext-Suche(Textindizes)
TSM Server: Langzeit-Archivierung
Object Server:Dateien
(PS, PDF, ...),zentral / dezentral
Web-Server
Java Servlets:MILESS
Server-Komponenten
Web-Browser
Java-Applet:MILESS
Autoren-GUI
IBM3494Tape
LibrarySystem
OPAC-System
HTTP
IBM DB2 Datenbank
HTML
XML
Systemkomponenten MILESS / CM
07.11.2001 Präsentation Humboldt-Universität Berlin 11
• Content Manager: Server-Komponenten mit DB2, TSM-Anbindung...• Enterprise Information Portal: Client-Komponenten u. Text Search
• Speicherung von Metadaten und Content• Parametrische Suche, vergleichbar mit Suche in relationaler DB• Volltextsuche mit linguistischen Features• Über EIP verteilte Suche mit Anbindung an andere Backends• Programmier-Schnittstellen (API‘s) für Java, C++, C, ActiveX• Funktionen für Benutzer- und Rechtemanagement• Workflow-Funktionen• Einfache Beispiel-Applikationen (flaches Karteikarten-Datenmodell)• Administrations-Clients• ... (diese Liste ist nicht vollständig)
Content Manager: Wesentliche Funktionen
07.11.2001 Präsentation Humboldt-Universität Berlin 12
• Integrierte Verwaltung von Metadaten und Content• Hohe Skalierbarkeit: Millionen von Items, verteilte Komponenten• Automatisierte Anbindung an TSM-Server:
Automatische Auslagerung von Objekten auf Bandanhand zu definierender Regeln wie z. B. Plattenplatz,Häufigkeit der Zugriffe
• Integration des IBM VideoCharger Server:Streaming von Audio-/Videodateien
• Content Manager ist ein IBM Produkt:Es ist wahrscheinlich, dass es diese Firma auch in einigenJahren noch gibt...
Content Manager: Stärken (subjektiv)
07.11.2001 Präsentation Humboldt-Universität Berlin 13
• CM/EIP ist ein Werkzeugkasten zur Erstellung von eigenen Applikationen, keine fertige nur zu konfigurierende Applikation• Probleme bei Performance und Stabilität, Administrationsaufwand• Möglichkeiten der Datenmodellierung sind unzureichend für komplexe Datenmodelle wie MILESS: flaches Karteikartenmodell• Da die mitgelieferten Clients auf flaches CM-Datenmodell ausgelegt sind, sind sie für eigene komplexe Anwendungen so gut wie nicht benutzbar• Nicht alle Funktionen werden mit Java-Schnittstellen unterstützt• Möglichkeiten parametrischer Suche im Vergleich zu SQL stark eingeschränkt• Kombination von parametrischer Suche und Volltextsuche unzulänglich gelöst und problematisch
Content Manager: Schwächen (subjektiv)
07.11.2001 Präsentation Humboldt-Universität Berlin 14
• IBM Content Manager Version 8 verspricht gravierende und wesentliche Verbesserungen
Content Manager: Zukunft (subjektiv)
07.11.2001 Präsentation Humboldt-Universität Berlin 15
MILESS Persistenz-Layer (Java-Klassenbibliothek):MILESS Daten-Objekte erzeugen, lesen, ändern, löschen, suchen
IBM Enterprise Information Portal / Content Manager API (C, C++, Java, ...)
MILESSDatenmodell-Klassen
(Java-Klassenbibliothek):Dokumente, Personen,
Derivate, ... Java Servlets: Inhaltesuchen, anzeigen, verwalten
Java Applets: Inhalte einbringen und bearbeiten HTML-Seiten:
Suchmasken, Navigation,
Inhalte anzeigen
CM
WEB-SRV
BROWSER
MILESS Software-Komponenten
07.11.2001 Präsentation Humboldt-Universität Berlin 16Stand 17.8.1998 NA
RS/6000 SP
Uni EssenCampusNetzwerk
(FDDI, ATM,Gigabit-Ethernet)
Scalable POWERParallel Switch
30 GB
RAID
30 GB
RAID
Harddisks (ca 0,5 TB)
IBM 3494 Tape Library(ca. 8 TB)
3494-C2A 3494-L10 3494-D12
Frame 3 Frame 2 Frame 1
34903490
3590 3590
3590 3590
Ca. 800Band-lager-fächer
Internet via GWIN:Gigabit Wissenschaftsnetz
36 GB
SSA
58 GB
SSA
58 GB
SSA
172 GB
SSA- Raid
172 GB
SSA- Raid
MILESS
IBM DB2 ContentManagerObjectserverLibraryserverVideoserver
TSM
DB and WWWServices
login email services students
login email services staff
parallel batch
Serial batch
SCSI SSA
GWIN 155 Mbit/s
MILESS Hardware-Basis in Essen
07.11.2001 Präsentation Humboldt-Universität Berlin 17
• Dokumentenmodell ist Umsetzung des Dublin Core Element Set:Creator, Publisher, Contributor, Title, Subject, Description, Source, Coverage, Rights, Type, Format, Date, Language
• Ergänzt um Modell für Personen / Körperschaftsdaten:Personen, Namensformen, Kontaktinformationen, ...
• Ergänzt um Modell für Dokumenten-Derivate und DateienEin Dokument in verschiedenen Formaten (HTML, PS, PDF, ...)
• Metadatensatz ist abgestimmt auf / mit
Deutsche Bibliothek:Dissertationen Online
Datenmodell
07.11.2001 Präsentation Humboldt-Universität Berlin 18
• Bis zu neun alternative Titel je Dokument, Sprache, Typ des Titels (main / alternative, translated), Länge beliebig, Volltextsuche im Titel• Angabe der Sprache(n) des Dokumentes anhand ISO 639-2 Liste• Datum der Erzeugung, der letzten Änderung, Gültigkeitszeitraum von / bis, Datum der Antragstellung zur Promotion, Datum der Prüfung (Dissertationen)
Datenmodell und Funktionalität
07.11.2001 Präsentation Humboldt-Universität Berlin 19
• Personen- / Körperschaftsdaten• Unterstützung mehrerer Namensformen je Person, z. B. für verschiedene Schreibweisen, Nachname nach u. vor Heirat...• L/M/R-trunkierte Suche• Mehrere Kontakte (dienstl., privat)• Mehrere E-Mail- und Web- Adressen, Telefon, Telefax, Anschriften je Kontakt
Bis zu 30 Autoren, Herausgeber, Beitragende
(Übersetzer, ...) je Dokument
Datenmodell und Funktionalität
07.11.2001 Präsentation Humboldt-Universität Berlin 20
• Freie Stichwörter / Schlagwörter• Unterstützung beliebiger hierarchischer Fachklassifikationen• Mehrfachzuordnung, parallele Verwendung mehrer Klassifikationen
• Exakte Suche nach bestimmten Kategorien• Volltextsuche (Wörter, Phrasen) nach Kategorien und Stichwörtern
Datenmodell und Funktionalität
07.11.2001 Präsentation Humboldt-Universität Berlin 21
• Klassifikations- bäume können in MILESS integriert geladen werden• Navigation durch die Hierarchie, Suche in der Hierarchie
• Volltextsuche im Klassifikationssystem zum Auffinden von Kategorien ( z. B. PACS: ca. 2900 Kategorien )
Datenmodell und Funktionalität
07.11.2001 Präsentation Humboldt-Universität Berlin 22Stand 17.8.1998 NA
Navigation durch Klassifikationsbäume
07.11.2001 Präsentation Humboldt-Universität Berlin 23
• Description: Beschreibung oder Zusammenfassung (Abstract)• Source: Hinweis auf Herkunft (Freitext, ISBN-Angabe etc.)• Coverage: Räumlicher / zeitlicher Bezug des Dokumentes• Rights: Rechtliche Vermerke, Lizenzbedingungen etc.
• Je bis zu 10 Angaben je Dokument, Länge beliebig• Freitext, URL (z. B. Verweis auf externe Zusammenfassung) oder andere Schemata, Sprache zu diesen Elementen erfaßbar• Volltextsuche in diesen Elementen
Datenmodell und Funktionalität
07.11.2001 Präsentation Humboldt-Universität Berlin 24
• Ein Dokument kann in mehreren Formaten (Derivate) vorliegen• Medientyp: Grobeinordnung, Formate: Genauere Angabe• Derivat kann in MILESS archiviert oder auch nur URL sein• Unterstützung beliebiger Dateiformate (erweiterbare Liste) • Beibehaltung der Verzeichnishierarchie des Derivates• Integrierter Verweis auf Plug-In‘s, Anzeige Umfang• Generierung von zip-Archiven on the fly
Datenmodell und Funktionalität
07.11.2001 Präsentation Humboldt-Universität Berlin 25Stand 17.8.1998 NA
Allgemeine u. fachspezifische Suchmasken
07.11.2001 Präsentation Humboldt-Universität Berlin 26Stand 17.8.1998 NA
Ergebnisliste
07.11.2001 Präsentation Humboldt-Universität Berlin 27Stand 17.8.1998 NA
Dokumentendaten
07.11.2001 Präsentation Humboldt-Universität Berlin 28Stand 17.8.1998 NA
Import / Ändern / Export von Daten
• Import-/Export-Format für Metadaten ist XML• Metadaten und Dateien werden in der Regel über GUI bearbeitet: Autoren arbeitet selbständig mit Java-Applet• Kommandozeilen-Interface auf dem Server für Batch- Import/Export und für administrative Zwecke• Flexibel durch Unterstützung beliebiger Dateitypen
• Drei-Schichten-Architektur von MILESS:- Graphische Oberflächen (HTML, Servlets, Applets)- Datenmodell und Logik- Persistenz (IBM Content Manager, DB2)
• Dadurch flexible Möglichkeit, Schichten auszutauschen / anzupassen, aber auch wesentlich aufwendigere Implementierung
07.11.2001 Präsentation Humboldt-Universität Berlin 29Stand 17.8.1998 NA
Applet für Autoren: Einstellen / Ändern
07.11.2001 Präsentation Humboldt-Universität Berlin 30
• IBM Shared University Research Grant im Dezember 1999: Hard-/Software und Service im Wert von ca. 400.000 DM
• DFG-Projekt ”Verteilte Digitale Video/Audio-Bibliothek" Uni Essen (HRZ, UB, MZ) and FSU Jena (URZ, THULB):
- Projekt seit Mitte dieses Jahres, Laufzeit ca. 2 Jahre- Transparente, gemeinsame Nutzung von digitalem Videomaterial- Erschliessung der Struktur von Videos:
Szenen-Erkennung, Storyboard-Generierung- Transcoding für verschiedene Bandbreiten- Erweiterung der Recherchemöglichkeiten z. B. durch
Volltextindizierung der Audio-Spur nach Spracherkennung
MILESS Weiterentwicklung:Online Digital Video Archive
07.11.2001 Präsentation Humboldt-Universität Berlin 31
• Problem: Langfristige Weiterentwicklung/Pflege von ca. 45.000 Codezeilen problematisch• Erste Idee: IBM übernimmt MILESS als Beispiel-Anwendung als Teil der Content Manager Distribution ? -> Rechtliche Probleme, gescheitert• Erfahrungen mit ersten Nachnutzern: GWDG, FSU Jena (UrMEL), Uni Leipzig (Bach Digital)• Neues Konzept: MILESS Code als Open Source unter GNU GPL Lizenz für jedermann nachnutzbar• Unterstützt durch die "CampusSource Initiative NRW"• Ziele: Erfahrungsaustausch, Bildung einer Gemeinschaft zur Weiterentwicklung und Pflege• Daraus Entstehung des MyCoRe-Projekts
MILESS und CampusSource / MyCoRe
07.11.2001 Präsentation Humboldt-Universität Berlin 32
• Essener Lösung „MILESS“ ist spezialisiert auf die Essener Anforderungen (z. B. in Datenmodell, Graphische Oberflächen)
• „MILESS Community“ der Nachnutzer brachte zusätzliche Anforderungen, Flexibilisierungswünsche, neue Anwendungsgebiete ein
• Daher, ausgehend von MILESS, gemeinsame Entwicklung eines flexiblen, anpassbaren Software-Kerns („My core“) zur Erstellung von digitalen Bibliothekssystemen / Archivlösungen (allgemein „Content Repositories“ -> CoRe), für verschiedene Backend-Datenbanken, unter anderem IBM Content Manager
• Entwicklung als Open Source auf Java-Basis unter GNU GPL
• Kern, ergänzt um Anpassungen und Erweiterungen, bildet jeweils eine lokale Lösung, z. B. für Münzsammlung, Papyri-Archiv, ...
MyCoRe: Entstehung und Ziele
07.11.2001 Präsentation Humboldt-Universität Berlin 33
• Universität Essen: Zentrale Einrichtungen
• Universität Jena: Rechenzentrum, Bibliothek
• Universität Leipzig: Rechenzentrum
• Universität Münster: Rechenzentrum, Bibliothek
• Universität Halle: Rechenzentrum, Bibliothek
• Universität Freiburg: Rechenzentrum
• Universität Rostock: Bibliothek, Informatik-Lehrstuhl Prof. Heuer
• GWDG Göttingen mit Bayerischer Staatsbibliothek München
• Universität Uppsala mit Louisiana Tech University
• IBM Deutschland: Content Manager Gruppe, Forschung & Lehr
• Weitere Interessenten / Potentielle Nutzer / KontakteUniversitäten Greifswald, Düsseldorf, BASF Ludwigshafen, ...
MyCoRe Projektbeteiligte
07.11.2001 Präsentation Humboldt-Universität Berlin 34
• Einzelne Mitglieder übernehmen Weiterentwicklung bestimmter Funktionsbereiche: Analyse, Design, Implementierung usw.
• Gemeinsame Arbeitsumgebung für die Software-Entwickler(Entwicklungsrechner in Essen, CVS-Repository zur Code-Verwaltung, Dokumentenaustausch via BSCW, Mailing-Liste):Teilkomponenten werden hier entwickelt und zusammengeführt
• Architecture Board (5 Pers.) koordiniert gemeinsame Entwicklung, legt Standards, Richtlinien, Schnittstellen fest, sammelt Anforderungen aller Mitglieder, stellt Integrationsfähigkeit der Teile sicher etc.
• IBM-Support: gemeinsam, über einen Koordinator kanalisiert
• Je ein Key Decider auf technischer Ebene / auf Management Ebene für MyCoRe-Mitglieder und für die IBM, als Ansprechpartner
MyCoRe: Organisation
07.11.2001 Präsentation Humboldt-Universität Berlin 35
• Essen:Unterstützung hierarchischer Fachklassifikationen, Systeminterne Dateiverwaltung, Videofunktionen
• Münster und Rostock:Verteilte Suche, Schnittstelle für Open Archives Initiative
• Jena und Leipzig:Flexibilisierung des Metadatenmodells (Dokumente, Personen)
• Freiburg:Benutzer- und Rechteverwaltung
• Göttingen:Workflow-Funktionen
• IBM:HowTo-Support, Link zum Entwicklungslabor, spezielle Konditionen zur Nutzung von IBM Content Manager
MyCoRe: Arbeitsteilige Implementierung
07.11.2001 Präsentation Humboldt-Universität Berlin 36
• Essen, Jena: Verteilte Digitale Audio-/Video-Bibliothek• Freiburg: Sammlung Salvator Rosa, Handschriften Raimundus
Lullus, Videosammlung der Bibliothek, Altrömische Münzen• GWDG Göttingen, Bayer. Staatsbibliothek München:
Publikations- und Redaktionssystem Geschichte (Frühe Neuzeit)• Jena, Leipzig: Digitalisierung historisches Universitätsarchiv• Jena, Leipzig, Halle: Papyri-Sammlung• Uppsala, Louisiana: Repository mit Material zur
Architekturgeschichte, Anbindung an Online-Lernumgebung
Projekt-Homepage und erste Quellcode-Ergebnisse unterhttp://www.mycore.de/
MyCoRe: Einsatzgebiete