Information Retrieval Systeme - HAW Hamburgubicomp/projekte/master06-07... · Information Retrieval...
Transcript of Information Retrieval Systeme - HAW Hamburgubicomp/projekte/master06-07... · Information Retrieval...
Gliederung Einführung Heutiger Stand Bewertung Zusammenfassung
Information Retrieval Systeme
Raoul Pascal Pein
Department Informatik HAW Hamburg
21. Dezember 2006
Raoul Pascal Pein Hochschule für Angewandte Wissenschaften HamburgInformation Retrieval Systeme
Gliederung Einführung Heutiger Stand Bewertung Zusammenfassung
EinführungMotivationFragestellung
Heutiger StandKommerzielle/Open Source SystemeForschungsprojekte
Bewertung
Raoul Pascal Pein Hochschule für Angewandte Wissenschaften HamburgInformation Retrieval Systeme
Gliederung Einführung Heutiger Stand Bewertung ZusammenfassungMotivation
Motivation I
Raoul Pascal Pein Hochschule für Angewandte Wissenschaften HamburgInformation Retrieval Systeme
Gliederung Einführung Heutiger Stand Bewertung ZusammenfassungMotivation
Motivation II
Raoul Pascal Pein Hochschule für Angewandte Wissenschaften HamburgInformation Retrieval Systeme
Gliederung Einführung Heutiger Stand Bewertung ZusammenfassungFragestellung
Fragestellung
I Geschwindigkeit: Ist �üssiges Arbeiten möglich?I Flexibilität: Kann die Anfrage formuliert werden?I Genauigkeit: Entspricht das Ergebnis der Anfrage?I Qualität: Wird Unnötiges herausge�ltert?I Verlässlichkeit: Fällt etwas unter den Tisch?I Komfort: Gibt es zusätzliche/unnötige Belastungen?
Raoul Pascal Pein Hochschule für Angewandte Wissenschaften HamburgInformation Retrieval Systeme
Gliederung Einführung Heutiger Stand Bewertung ZusammenfassungKommerzielle/Open Source Systeme
Google und vergleichbare Webdienste
I InternetI TextI BilderI KategorienI KartenI VideosI NachrichtenI Händler/PreiseI Wissenschaftliche Artikel
I Desktop Search (Windows)I TextdokumenteI BilderI MultimediaI E-Mails
Raoul Pascal Pein Hochschule für Angewandte Wissenschaften HamburgInformation Retrieval Systeme
Gliederung Einführung Heutiger Stand Bewertung ZusammenfassungKommerzielle/Open Source Systeme
Spotlight (Mac OS)Desktopsuche
I TextdokumenteI E-MailsI KontakteI BilderI KalenderI ProgrammeI Metadaten
�intelligente Ordner�Raoul Pascal Pein Hochschule für Angewandte Wissenschaften HamburgInformation Retrieval Systeme
Gliederung Einführung Heutiger Stand Bewertung ZusammenfassungKommerzielle/Open Source Systeme
Beagle (Linux)
Desktopsuche
I TextdokumenteI E-MailsI Web HistoryI IM/IRC chatlogsI QuellcodeI BilderI MultimediaI MetadatenBeagleFS: Teilprojekt auf Dateisystemebene
Raoul Pascal Pein Hochschule für Angewandte Wissenschaften HamburgInformation Retrieval Systeme
Gliederung Einführung Heutiger Stand Bewertung ZusammenfassungKommerzielle/Open Source Systeme
Weitere Suchprogramme
Bildersuche im WebI YotophotoI Picsearch
FotoalbenI Flickr (Web)I iPhoto (Mac OS)I F-Spot (Linux)I Picasa (Windows/Web)I Yahoo! Photos (Web)
Raoul Pascal Pein Hochschule für Angewandte Wissenschaften HamburgInformation Retrieval Systeme
Gliederung Einführung Heutiger Stand Bewertung ZusammenfassungForschungsprojekte
Überblick Deutscher Hochschulen I
I Universität BremenPictureFinder
I TU ClausthalCairo (Cluster Architecture for Image Retrieval andOrganisation)
I Universität FreiburgSIMBA (Search IMages By Appearance)
I International University BremenKnowledge and Information Management Systems,Hierarchical Data Representation
I Universität MannheimComputer Vision, Graphics and Pattern Recognition
Raoul Pascal Pein Hochschule für Angewandte Wissenschaften HamburgInformation Retrieval Systeme
Gliederung Einführung Heutiger Stand Bewertung ZusammenfassungForschungsprojekte
Überblick Deutscher Hochschulen III Universität Rostock
Integration von Multimedia-Klassen in eine o�ene, verteilteOODB Architektur
I Universität UlmSemantic Integrity Constraints in Multimedia DatabaseSystems
I RWTH AachenIRMA (Image Retrieval in Medical Applications)
I FU, HU, TU BerlinCombinatorics, Geometry and ComputationMatheon
I TU HarburgBildverarbeitungssysteme
Raoul Pascal Pein Hochschule für Angewandte Wissenschaften HamburgInformation Retrieval Systeme
Gliederung Einführung Heutiger Stand Bewertung ZusammenfassungForschungsprojekte
Überblick Deutscher Hochschulen III
I Universität AugsburgForsip: Bayerischer Forschungsverbund für Situierung,Individualisierung und Personalisierung in derMensch-Maschine-Interaktion
I TU IlmenauInnovative Kommunikations- und Mediensysteme
I Universität OldenburgMultimedia und Internet-Informationsdienste
Raoul Pascal Pein Hochschule für Angewandte Wissenschaften HamburgInformation Retrieval Systeme
Gliederung Einführung Heutiger Stand Bewertung ZusammenfassungForschungsprojekte
PictureFinder (Universität Bremen) I
I Online-Demoverfügbar
I Visuelle Suche ingroÿen Bildbeständen
I Auf Basis von Farb-und Texturregionen
I Anhand einfacherSkizzen oderBeispielbild
I Kombinierbar mitSchlüsselwort-Suche
Abbildung: PictureFinder-Demo
Raoul Pascal Pein Hochschule für Angewandte Wissenschaften HamburgInformation Retrieval Systeme
Gliederung Einführung Heutiger Stand Bewertung ZusammenfassungForschungsprojekte
PictureFinder (Universität Bremen) II
Parameter einer Region:I FarbeI TexturI Gewichte
I gesamte RegionI FarbtonI SättigungI HelligkeitI TexturI Dichte
Abbildung: PictureFinder-Gewichtung
Raoul Pascal Pein Hochschule für Angewandte Wissenschaften HamburgInformation Retrieval Systeme
Gliederung Einführung Heutiger Stand Bewertung ZusammenfassungForschungsprojekte
CAIRO (TU Clausthal)
�Cluster-Architecture for Image-Retrieval and Organisation�I Arbeitet auf Bildausschnitten
I z.B. Kopf einer PersonI Finden des Ausschnittes in einer anderen Umgebung
I Basiert auf WaveletsI Webdemo verlinkt aber derzeit nicht erreichbarI Rechnercluster mit ca. 30 000 Bildern
Raoul Pascal Pein Hochschule für Angewandte Wissenschaften HamburgInformation Retrieval Systeme
Gliederung Einführung Heutiger Stand Bewertung ZusammenfassungForschungsprojekte
SIMBA (Albert-Ludwigs-Universität Freiburg)
�Search IMages By Appearance�
I Reines CBIRI Suche über Beispielbild
(URL oder Datenbank)I Zwei Web-Demos verfügbar
I Nur FarbeI Kombiniert Farbe und
TexturI integriert in das I-Search
ProjektAbbildung: SIMBA-Demo
Raoul Pascal Pein Hochschule für Angewandte Wissenschaften HamburgInformation Retrieval Systeme
Gliederung Einführung Heutiger Stand Bewertung ZusammenfassungForschungsprojekte
I-Search (Fraunhofer ITWM) I
�Entwicklung einer inhaltsbasierten Bildsuchmaschine auf verteiltenSystemen�
I Fraunhofer ITWM:Rechner-Cluster
I Mobotix AG: Web-Kameras+ Stereobildanalyse
I Universität Freiburg:Bilddatenbank SIMBA +Bildähnlichkeitssuche
I Tecmath AG: MedienarchivI Universität Basel:
Gesichts�ndungRaoul Pascal Pein Hochschule für Angewandte Wissenschaften HamburgInformation Retrieval Systeme
Gliederung Einführung Heutiger Stand Bewertung ZusammenfassungForschungsprojekte
I-Search (Fraunhofer ITWM) II
Systemkern: �THING�-Cluster
I Laufzeitplattform für komponentenbasierte AnwendungenI aktiv replizierte ServergruppeI interne Fehlertoleranz- und LastverteilungsmechanismenI betriebssystemunabhängigI clusterinterne Kommunikation: CORBA und TCP/IPI hierarchische Baumstruktur als logische Netztopologie
Raoul Pascal Pein Hochschule für Angewandte Wissenschaften HamburgInformation Retrieval Systeme
Gliederung Einführung Heutiger Stand Bewertung ZusammenfassungForschungsprojekte
I-Search (Fraunhofer ITWM) III
Erreichte ZieleI Gesichts�ndung in KamerabildernI Stereobildanalyse mit Hilfe modi�zierter Web-KamerasI BildähnlichkeitssucheI Suche auf Bildmetadaten
Raoul Pascal Pein Hochschule für Angewandte Wissenschaften HamburgInformation Retrieval Systeme
Gliederung Einführung Heutiger Stand Bewertung ZusammenfassungForschungsprojekte
iFinder (Fraunhofer IMK)
basierend auf AGMA: �Automatische Generierungaudiovisueller Metadaten im Kontext von MPEG-7�
I Medienarchivierung im Broadcasting-BereichI Media-Asset-ManagementI automatische Transkription von groÿen Audio-/Video-ArchivenI automatische Untertitelung von Fernseh- und
KinoproduktionenI Metadaten-Erzeugung für Inhalts-basiertes
Content-Management mit MPEG-7
Raoul Pascal Pein Hochschule für Angewandte Wissenschaften HamburgInformation Retrieval Systeme
Gliederung Einführung Heutiger Stand Bewertung ZusammenfassungForschungsprojekte
MARVEL I
�MPEG-7 Multimedia Search Engine�I Schwerpunkt: Bilder und VideosI Halbautomatische Indexierung
I ca. 1-5% von Hand erstellte TrainingssdatenI 95-99% automatisch erstellt
I Mehrere Arten der AnfrageI feature-based - Über BeispielbilderI text-based - Annotieung oder zugeordnete TexteI semantics-based - Schlagworte, ggf. aus der MPEG-7
Klassi�kationI model-based - Schlagworte, anders gewichtet als bei
semantischer Suche
Raoul Pascal Pein Hochschule für Angewandte Wissenschaften HamburgInformation Retrieval Systeme
Gliederung Einführung Heutiger Stand Bewertung ZusammenfassungForschungsprojekte
MARVEL II
Abbildung: Annotierungsaufwand/Qualität
Raoul Pascal Pein Hochschule für Angewandte Wissenschaften HamburgInformation Retrieval Systeme
Gliederung Einführung Heutiger Stand Bewertung Zusammenfassung
Schwerpunkte
Kommerzielle/Open Source Systeme
I Vereinzelt CBIR AnsätzeI Meist reine Textsuche und/oder KategorienI Verfeinerte Indexerstellung durch Nutzer (Kategorien)
Forschungsprojekte
I Echtes CBIRI Zum Teil angereichert mit Text/KategorienI Automatische Indexerstellung mittels ausgefeilter Algorithmen
Raoul Pascal Pein Hochschule für Angewandte Wissenschaften HamburgInformation Retrieval Systeme
Gliederung Einführung Heutiger Stand Bewertung Zusammenfassung
Vorläu�ge Antworten
I Geschwindigkeit: Ist �üssiges Arbeiten möglich?Ja, bei Nutzung geeigneter Indexstrukturen.
I Flexibilität: Kann die Anfrage formuliert werden?Ja, wenn das Programm entsprechende Schnittstellen bietet.
I Genauigkeit: Entspricht das Ergebnis der Anfrage?Dies ist hauptsächlich abhängig von der Indexierungstechnik.
I Qualität: Wird Unnötiges herausge�ltert?Dies ist hauptsächlich abhängig von der Indexierungstechnik.
I Verlässlichkeit: Fällt etwas unter den Tisch?Bei unscharfer Suche wie CBIR ist es praktisch unvermeidlich.
I Komfort: Gibt es zusätzliche/unnötige Belastungen?Bildindexierung erfordert zwangsläu�g viele Ressourcen.
Raoul Pascal Pein Hochschule für Angewandte Wissenschaften HamburgInformation Retrieval Systeme
Gliederung Einführung Heutiger Stand Bewertung Zusammenfassung
Zusammenfassung
I Textdaten sind gröÿtenteils beherrschbarI Multimediadaten erfordern neue KonzepteI Es gibt viele verschiedene AnsätzeI Es existieren hochwertige Algorithmen für diverse
BetrachtungswinkelI Die Grenzen der Automatisierung liegen hauptsächlich in der
BilderkennungI Für optimale Ergebnisse ist Handarbeit immer noch
unumgänglichI Je gröÿer der Datenbestand ist, desto wichtiger wird die
Suchqualität
Raoul Pascal Pein Hochschule für Angewandte Wissenschaften HamburgInformation Retrieval Systeme
AnhangWeiterführende Literatur
Weiterführende Literatur I
John R. SmithMARVEL: Multimedia Analysis and Retrieval SystemIBM T. J. Watson Research Center, 2004
I Googlehttp://www.google.com
I Spotlighthttp://pdf.euro.apple.com/pdf/pn=SpotlightTiger/MacOSX_Spotlight_TB.pdf
I Beagle Desktop Searchhttp://beagle-project.org/Main_Page
Raoul Pascal Pein Hochschule für Angewandte Wissenschaften HamburgInformation Retrieval Systeme
AnhangWeiterführende Literatur
Weiterführende Literatur II
I Yotophotohttp://yotophoto.com/
I Picsearchhttp://www.picsearch.de/
I Flickrhttp://www.�ickr.com/
I iPhotohttp://www.apple.com/de/iphoto/
I F-Spothttp://f-spot.org/
Raoul Pascal Pein Hochschule für Angewandte Wissenschaften HamburgInformation Retrieval Systeme
AnhangWeiterführende Literatur
Weiterführende Literatur III
I Picasahttp://picasa.google.de/
I Yahoo! Photoshttp://photos.yahoo.com/
I Andrea Miene, Thorsten HermesPictureFinderhttp://www.tzi.de/bv/projects/picture�nder
I Gerhard Joubert, Odej KaoBilddatenbank CAIROhttp://www.at-web.de/bildsuche/cairo.htm
Raoul Pascal Pein Hochschule für Angewandte Wissenschaften HamburgInformation Retrieval Systeme
AnhangWeiterführende Literatur
Weiterführende Literatur IV
I Sven SiggelkowSearch IMages By Appearancehttp://simba.informatik.uni-freiburg.de/
I Markus RauhutI-Searchhttp://www.itwm.fhg.de/mab/projects/I-SEARCH/
I Jobst Lö�er, Joachim KöhleriFinder - Das Media-Asset-Managementsystemhttp://www.imk.fhg.de/de/i�nder
Raoul Pascal Pein Hochschule für Angewandte Wissenschaften HamburgInformation Retrieval Systeme