Ontologiebasierte Dokumentindizierung und -suche Oktober 2000 Jonny Newald.
-
Upload
leberecht-gehling -
Category
Documents
-
view
109 -
download
0
Transcript of Ontologiebasierte Dokumentindizierung und -suche Oktober 2000 Jonny Newald.
Ontologiebasierte Ontologiebasierte Dokumentindizierung und -sucheDokumentindizierung und -suche
Oktober 2000
Jonny Newald
Quelle: Forschungsgruppe Wissensmanagement Kaiserslautern Okt-2000 Seite 2
Einführendes Beispiel: Information RetrievalEinführendes Beispiel: Information Retrieval
Stellen Sie sich vor, Sie suchen im Internet Informationen über ein bestimmtes Thema.
Suchmaschinen bieten Volltextsuche, Metadatensuche und eine hierarchische Kategorisierung.
Dokumente über ein sehr spezielles Thema, wie z.B. „Fernsehen“, sind nur sehr schwer exakt auszumachen. Der Begriff „Fernsehen“ hat auch mehrere Bedeutungen und steht in einem gewissen Kontext. Meine ich „Fernsehgeräte“, das „Fernsehprogramm“ oder das Medium „Fernsehen“?
Die Volltextsuche liefert zu viel, die Metadatensuche ist ungenau und nicht verläßlich, die Kategorisierung ist oft zu oberflächlich und semantisch nicht eindeutig.
Die größte Dokumentenansammlang der Welt ist das Internet.Die größte Dokumentenansammlang der Welt ist das Internet.Die größte Dokumentenansammlang der Welt ist das Internet.Die größte Dokumentenansammlang der Welt ist das Internet.
Nicht nur im Internet stellt sich diese Problematik, auch in Unternehmen.Nicht nur im Internet stellt sich diese Problematik, auch in Unternehmen.Nicht nur im Internet stellt sich diese Problematik, auch in Unternehmen.Nicht nur im Internet stellt sich diese Problematik, auch in Unternehmen.
Quelle: Forschungsgruppe Wissensmanagement Kaiserslautern Okt-2000 Seite 3
AusgangsbasisAusgangsbasis
Lotus Notes ist
ein umfangreiches Dokumentenhaltungs- und Groupwaresystem
unternehmensweit einsetzbar
in das vorhandene Intranet integrierbar
über WEB-Browser benutzbar.
Die Grundlage jeglicher Dokumentation ist zum Beispiel Lotus Notes.Die Grundlage jeglicher Dokumentation ist zum Beispiel Lotus Notes.Die Grundlage jeglicher Dokumentation ist zum Beispiel Lotus Notes.Die Grundlage jeglicher Dokumentation ist zum Beispiel Lotus Notes.
Lotus Notes hält die gesamte Information in strukturierten Dokumenten, die sich in Dokumentendatenbanken befinden.Lotus Notes hält die gesamte Information in strukturierten Dokumenten, die sich in Dokumentendatenbanken befinden.
Hohes Datenaufkommen bedingt das Problem der Wiederauffindbarkeit.Hohes Datenaufkommen bedingt das Problem der Wiederauffindbarkeit.Hohes Datenaufkommen bedingt das Problem der Wiederauffindbarkeit.Hohes Datenaufkommen bedingt das Problem der Wiederauffindbarkeit.
Quelle: Forschungsgruppe Wissensmanagement Kaiserslautern Okt-2000 Seite 4
Ausgangsbasis Ausgangsbasis (Fortsetzung)(Fortsetzung)
Das Produkt Knowledger ist
eine spezialisierte Lotus Notes - Anwendung der Firma Knowledge Associates
eine Reihe spezieller Datenbankschablonen, die der Haltung verschiedenster Arten von Wissensdokumenten dienen
optimiert für die Benutzung über WEB-Browser.
KnowledgerKnowledger bietet weitergehende Hilfsmittel. bietet weitergehende Hilfsmittel.KnowledgerKnowledger bietet weitergehende Hilfsmittel. bietet weitergehende Hilfsmittel.
KnowledgerKnowledger´s Ansätze sind konventionell und einfach.´s Ansätze sind konventionell und einfach.KnowledgerKnowledger´s Ansätze sind konventionell und einfach.´s Ansätze sind konventionell und einfach.
Knowledger bietet Unterstützung bei der Bestimmung der Dokument-Metadaten und der Kategorie-Informationen.
Quelle: Forschungsgruppe Wissensmanagement Kaiserslautern Okt-2000 Seite 5
Wissensmanagement unter Lotus Notes / Wissensmanagement unter Lotus Notes / KnowledgerKnowledger
KnowledgerKnowledger ist ein einfaches Wissensmanagement-System. ist ein einfaches Wissensmanagement-System.KnowledgerKnowledger ist ein einfaches Wissensmanagement-System. ist ein einfaches Wissensmanagement-System.
Eine effiziente inhaltsbezogene Suche bedarf ausgeklügelteren Ansätzen.Eine effiziente inhaltsbezogene Suche bedarf ausgeklügelteren Ansätzen.Eine effiziente inhaltsbezogene Suche bedarf ausgeklügelteren Ansätzen.Eine effiziente inhaltsbezogene Suche bedarf ausgeklügelteren Ansätzen.
Knowledger bietet
verschiedene, thematisch getrennte Datenbanken
Anwendergruppenorientierte Navigatoren (getrennt für Administratoren, Manager und normale Mitarbeiter)
im Dokument abgelegte, frei editierbare Zusatzfelder zur inhaltlichen Kurzbeschreibung
Lotus Notes bietet
eine automatische Pflege der Standard-Metadaten
gründsätzliche Möglichkeiten zur Definition spezifischer Ansichten auf Dokumentlisten (Views)
eine Suchmöglichkeit über Volltextsuche(auch in File-Attachments)
Quelle: Forschungsgruppe Wissensmanagement Kaiserslautern Okt-2000 Seite 6
Grundbefürfnisse effizienterer LösungenGrundbefürfnisse effizienterer Lösungen
Die Beschränkung auf ein kontrolliertes Vokabular beim Kategorisieren und Suchen vermeidet Inkonsistenzen und erhöht die Trefferquote.
Eine Projektion des Dokumentinhalts in das Wissensmodell des Unternehmens läßt sich formalisieren und durch Computerverarbeitung unterstützen.
Ansprechendere Benutzerschnittstellen fördern die Motivation der Mitarbeiter.
Eine effiziente Recherche bedingt die Schaffung gewisser Voraussetzungen.Eine effiziente Recherche bedingt die Schaffung gewisser Voraussetzungen.Eine effiziente Recherche bedingt die Schaffung gewisser Voraussetzungen.Eine effiziente Recherche bedingt die Schaffung gewisser Voraussetzungen.
Ein Lösungsansatz ist die Verwendung graphischer Wissensmodelle.Ein Lösungsansatz ist die Verwendung graphischer Wissensmodelle.Ein Lösungsansatz ist die Verwendung graphischer Wissensmodelle.Ein Lösungsansatz ist die Verwendung graphischer Wissensmodelle.
Quelle: Forschungsgruppe Wissensmanagement Kaiserslautern Okt-2000 Seite 7
Einfache ontologische ModelleEinfache ontologische Modelle
Eine abgegrenzte Wissensdomäne läßt sich formal und abstrakt durch eine Ontologie modellieren.
Hierzu überlegt man sich relevante Konzepte und Begriffe, die eindeutig sind, und die man miteinander in Beziehung setzt.
Die einfachsten Strukturen sind Hierarchien. In vielen Fällen genügt eine solche Struktur.
Dokumente werden durch eine bestimmte Auswahl aus der Begriffsmenge indiziert und sind somit in das Wissensmodell des Unternehmens projiziert.
Hierarchische Begriffsmodelle werden jedoch sehr schnell unübersichtlich.Hierarchische Begriffsmodelle werden jedoch sehr schnell unübersichtlich.Hierarchische Begriffsmodelle werden jedoch sehr schnell unübersichtlich.Hierarchische Begriffsmodelle werden jedoch sehr schnell unübersichtlich.
Streng hierarchische Begriffsmodelle bilden einfache graphische Ontologien.Streng hierarchische Begriffsmodelle bilden einfache graphische Ontologien.Streng hierarchische Begriffsmodelle bilden einfache graphische Ontologien.Streng hierarchische Begriffsmodelle bilden einfache graphische Ontologien.
Quelle: Forschungsgruppe Wissensmanagement Kaiserslautern Okt-2000 Seite 8
Komplexe BegriffsmodelleKomplexe Begriffsmodelle
Komplexe Modelle sind unter Umständen notwendig, ihre Unübersichtlichkeit kann jedoch gebrochen werden.
Abhilfe bieten hypertextmäßig verschachtelte Teilmodelle.
Ein solches Teilmodell wird dann nicht zusammen mit dem übergeordneten Modell dargestellt.
Die Umsetzung des geschachtelten Modellansatzes erfordert neue Software.Die Umsetzung des geschachtelten Modellansatzes erfordert neue Software.Die Umsetzung des geschachtelten Modellansatzes erfordert neue Software.Die Umsetzung des geschachtelten Modellansatzes erfordert neue Software.
Zu komplexe Begriffshierarchien sollten in Teilmodelle unterteilt werden.Zu komplexe Begriffshierarchien sollten in Teilmodelle unterteilt werden.Zu komplexe Begriffshierarchien sollten in Teilmodelle unterteilt werden.Zu komplexe Begriffshierarchien sollten in Teilmodelle unterteilt werden.
Beispiel einer komplexen Ontologie ohne SchachtelungBeispiel einer komplexen Ontologie ohne Schachtelung
Quelle: Forschungsgruppe Wissensmanagement Kaiserslautern Okt-2000 Seite 9
Erforderliche SoftwarekomponentenErforderliche Softwarekomponenten
Eine Benutzerschnittstelle zur ontologiebasierten Indizierung und Suche bietet guten Bedienkomfort:
das Index-Retrieval-Interface (IRI)
Ein graphischer Editor für den komfortablen Entwurf der Ontologien:
der Ontology Editor
Beiden Komponenten arbeiten mit der selben zentral gehaltenen Ontologie.Beiden Komponenten arbeiten mit der selben zentral gehaltenen Ontologie.Beiden Komponenten arbeiten mit der selben zentral gehaltenen Ontologie.Beiden Komponenten arbeiten mit der selben zentral gehaltenen Ontologie.
Zwei neue Softwarekomponenten unterstützen diese Verfahrensweise.Zwei neue Softwarekomponenten unterstützen diese Verfahrensweise.Zwei neue Softwarekomponenten unterstützen diese Verfahrensweise.Zwei neue Softwarekomponenten unterstützen diese Verfahrensweise.
Quelle: Forschungsgruppe Wissensmanagement Kaiserslautern Okt-2000 Seite 10
Das Index-Retrieval-Interface: IndizierenDas Index-Retrieval-Interface: Indizieren
1. Ein Lotus Notes - Dokument wird ganz normal im WEB-Browser präsentiert.
2. Nach Betätigung eines Buttons erfolgt die Indizierung über die graphische Selektion aus der durch einen JAVA-Frame dargestellten Ontologie.
3. Die Kategorisierungsinfor-mationen werden direkt in ein spezielles Feld übertragen.
Das selbe Interface dient der Suche über die graphischen Modelle.Das selbe Interface dient der Suche über die graphischen Modelle.Das selbe Interface dient der Suche über die graphischen Modelle.Das selbe Interface dient der Suche über die graphischen Modelle.
Das IRI-Fenster, ein JAVA-Frame, kommuniziert im Indiziermodus mit dem Browser.Das IRI-Fenster, ein JAVA-Frame, kommuniziert im Indiziermodus mit dem Browser.Das IRI-Fenster, ein JAVA-Frame, kommuniziert im Indiziermodus mit dem Browser.Das IRI-Fenster, ein JAVA-Frame, kommuniziert im Indiziermodus mit dem Browser.
1111
22223333
Quelle: Forschungsgruppe Wissensmanagement Kaiserslautern Okt-2000 Seite 11
Das Index-Retrieval-Interface: SuchenDas Index-Retrieval-Interface: Suchen
1. Nach Selektion des Vater-konzepts für die graphischen Modelle im Suchapplet befindet sich das IRI im Suchmodus.
2. Jede einzelne Knoten-Selektion führt zu einer neuen Abfrage.
3. Das Abfrageergebnis wird sofort als Liste präsentiert, aus der einzelne Dokumente geöffnet werden können.
Zu jeder Zeit existiert höchstens eine IRI-Instanz bzw. dessen JAVA-Frame.Zu jeder Zeit existiert höchstens eine IRI-Instanz bzw. dessen JAVA-Frame.Zu jeder Zeit existiert höchstens eine IRI-Instanz bzw. dessen JAVA-Frame.Zu jeder Zeit existiert höchstens eine IRI-Instanz bzw. dessen JAVA-Frame.
Im Suchmodus findet eine Kommunikation mit dem früheren Suchapplet statt.Im Suchmodus findet eine Kommunikation mit dem früheren Suchapplet statt.Im Suchmodus findet eine Kommunikation mit dem früheren Suchapplet statt.Im Suchmodus findet eine Kommunikation mit dem früheren Suchapplet statt.
1111
22223333
Quelle: Forschungsgruppe Wissensmanagement Kaiserslautern Okt-2000 Seite 12
Merkmale des Index-Retrieval-Interface im Merkmale des Index-Retrieval-Interface im ÜberblickÜberblick
reine Java-Komponente (in Knowledger eingebettet)
komfortable Oberfläche durch Ver-wendung der JAVA-Klassenbibliothek SWING
nahtloser Übergang zwischen Such- und Einstell-Anwendung: automatischer Moduswechsel
einfache Navigation durch komplexe Ontologien mittels einer synchronisierten Baum- und Graph-Darstellung (1, 2)
1111
2222
Quelle: Forschungsgruppe Wissensmanagement Kaiserslautern Okt-2000 Seite 13
Der Ontology EditorDer Ontology Editor
Der Editor erzeugt graphisch verschachtelte Teilmodelle, die über Linkbutton mitein-ander verbunden sind.
Die Darstellung und Inter-aktion ist der des IRI iden-tisch.
Er bietet die Möglichkeit der Definition beliebiger Quer-beziehungen und erklären-den Knotenkommentaren.
Die Editor-Anwendung läßt sich auf jedem JAVA-fähigen Rechner starten.Die Editor-Anwendung läßt sich auf jedem JAVA-fähigen Rechner starten.Die Editor-Anwendung läßt sich auf jedem JAVA-fähigen Rechner starten.Die Editor-Anwendung läßt sich auf jedem JAVA-fähigen Rechner starten.
Der Entwurf der Modelle geschieht mittels des neuen Ontology Editors.Der Entwurf der Modelle geschieht mittels des neuen Ontology Editors.Der Entwurf der Modelle geschieht mittels des neuen Ontology Editors.Der Entwurf der Modelle geschieht mittels des neuen Ontology Editors.
Quelle: Forschungsgruppe Wissensmanagement Kaiserslautern Okt-2000 Seite 14
Der OntologieflußDer Ontologiefluß
Eine im Editor erstellte Ontologie wird dem Knowledge Server übergeben, so daß er das Index-Retrieval-Interface mit den Modell-daten beliefern kann.
Das Konzept der Knowledge Servers stammt aus dem Das Konzept der Knowledge Servers stammt aus dem KnowNet-Projekt..Das Konzept der Knowledge Servers stammt aus dem Das Konzept der Knowledge Servers stammt aus dem KnowNet-Projekt..
Der Der Knowledge ServerKnowledge Server ist der zentrale Verwalter der Ontologiedaten. ist der zentrale Verwalter der Ontologiedaten.Der Der Knowledge ServerKnowledge Server ist der zentrale Verwalter der Ontologiedaten. ist der zentrale Verwalter der Ontologiedaten.
Quelle: Forschungsgruppe Wissensmanagement Kaiserslautern Okt-2000 Seite 15
Ausblick: OntologiemodifikationenAusblick: Ontologiemodifikationen
Im Editor umgesetzt ist bereits die Protokollierung der getätigten Änderungen.Nach der Speicherung einer geänderten Ontologie wird eine Änderungs-protokoll-Datei angelegt.
Die Datei liefert einen Ansatzpunkt zur weiteren Verarbeitung, wie– automatische Unterrichtung der Autoren über die
Ontologieänderungen– „intelligente“ Anpassung der Kategorisierungsinformationen der
betroffenen Dokumente an die neue Situation
Solche automatischen Reaktionen bedürfen weiterer konzeptioneller Überlegungen.Solche automatischen Reaktionen bedürfen weiterer konzeptioneller Überlegungen.Solche automatischen Reaktionen bedürfen weiterer konzeptioneller Überlegungen.Solche automatischen Reaktionen bedürfen weiterer konzeptioneller Überlegungen.
Was passiert nach der Veränderung einer im Einsatz befindlichen Ontologie?Was passiert nach der Veränderung einer im Einsatz befindlichen Ontologie?Was passiert nach der Veränderung einer im Einsatz befindlichen Ontologie?Was passiert nach der Veränderung einer im Einsatz befindlichen Ontologie?
Quelle: Forschungsgruppe Wissensmanagement Kaiserslautern Okt-2000 Seite 16
Ausblick: BeziehungssemantikenAusblick: Beziehungssemantiken
Beispiel:
In einer IT-Beraterfirma existiert ein Teilmodell, das eine Beziehungsstruktur verschiedener Softwareprodukte bestimmt. Man könnte sich eine Beziehungsart „isIncompatible“ vorstellen, die beispielsweise zwischen dem Datenbankprodukt „Informix“ und der Betriebssystemgruppe „MS Windows“ definiert ist.
Solche beliebige Beziehungen können im Editor zwar formal definiert werden, es fehlt jedoch noch eine entsprechende Verarbeitung einer zu definierenden Semantik der Beziehungen.
So könnte eine Dokument-Abfrage, die aus der Selektion beider Produkte besteht, im Vorfeld abgewehrt werden mit dem Kommentar der Inkompatibilität.
Die Einführung der Beziehungssemantiken ist für eine intelligente Suche unabdingbar.Die Einführung der Beziehungssemantiken ist für eine intelligente Suche unabdingbar.Die Einführung der Beziehungssemantiken ist für eine intelligente Suche unabdingbar.Die Einführung der Beziehungssemantiken ist für eine intelligente Suche unabdingbar.
Beziehungen zwischen Begriffen haben natürlicherweise eine Bedeutung.Beziehungen zwischen Begriffen haben natürlicherweise eine Bedeutung.Beziehungen zwischen Begriffen haben natürlicherweise eine Bedeutung.Beziehungen zwischen Begriffen haben natürlicherweise eine Bedeutung.
Quelle: Forschungsgruppe Wissensmanagement Kaiserslautern Okt-2000 Seite 17
EssenzEssenz
Umsetzung des Prinzips der hypertextmäßig verschachtelten Teilmodelle
Vereinheitlichte Oberfläche in allen drei Anwendungen (Indizieren, Suchen, Editieren)
generell vereinfachte Bedienung
Einbettung der neuen Komponenten in das vorhandene Programmsystem von KnowNet
Die wesentlichen Aspekte dieser Arbeit zusammengefaßt...Die wesentlichen Aspekte dieser Arbeit zusammengefaßt...Die wesentlichen Aspekte dieser Arbeit zusammengefaßt...Die wesentlichen Aspekte dieser Arbeit zusammengefaßt...