Wie Suchmaschinen (immer noch) die Bibliotheken herausfordern
Prof. Dr. Dirk Lewandowski [email protected]
Einführung: Wo stehen Suchmaschinen heute?
Spezialangebote der Suchmaschinen
Bündelung von Inhalten
Ranking
Fazit
Gliederung
Einführung: Wo stehen Suchmaschinen heute?
Spezialangebote der Suchmaschinen
Bündelung von Inhalten
Ranking
Fazit
Gliederung
3 |
Web search: „Always different, always the same“
http://web.archive.org/web/19961023234631/http://altavista.digital.com/
AltaVista 1996
4 |
Wo stehen Suchmaschinen heute?
• Große Web-Datenbanken sind vorhanden • Google, Yahoo, MSN/Live.com, Ask, Cuil • Betrieb dieser Datenbanken technisch möglich.
• Navigationsanfragen können zuverlässig beantwortet werden.
• Informationsorientierte Anfragen können meist zufriedenstellend beantwortet werden. • Großer Unterschied zwischen den Anfragen. • Keine Suchmaschine kann alle Anfragen am besten beantworten.
• Integration zusätzlicher Quellen • Spezialisierte Web-Datenbanken: News, Blogs, Video, Bücher, wissenschaftliche
Inhalte, usw. • Shortcuts: Wetter, Reise, Patente, usw. • Zukunft: Faktenextraktion
• Einbindung kostenpflichtiger Dokumente
Universal Search
• x
Universal Search
• x
News results
ads
organic results
organic results (contd.)
image results
video results
Additional databases
Herausforderungen für Bibliotheken
• Nutzer verwenden Suchmaschinen zur Suche nach „Bibliotheksinhalten“
• Suchmaschinen „erziehen“ Nutzer zu „schlechtem“ Rechercheverhalten.
• Suchmaschinen zielen auf Kernbereiche der Bibliotheken – Buchsuche – Wissenschaftliche Inhalte
„Die meisten Nutzer sind nicht willens, bei der Formulierung ihres Suchziels allzu viel kognitive und zeitliche Energie aufzuwenden.“
• Suchanfragen – Durchschnittliche Länge: 1,7 Wörter – Ca. 50% Einwort-Anfragen – kaum Verwendung von Operatoren und erweiterter Suche
• Ergebnisseiten – 80% der Nutzer gehen nicht über die erste Ergebnisseite hinaus. – Nutzer betrachten bevorzugt die ersten Ergebnisse (“über dem Knick”). – Pro Session werden bis etwa fünf Dokumente angesehen. – Sessions dauern i.d.R. weniger als 15 Minuten.
• Nutzer sind meist mit ihren Suchergebnissen zufrieden.
• Nutzer erwarten, dass alle Systeme so leicht zu bedienen sind wie Google.
(Machill et al. 2003)
9 |
Selektionsverhalten (Top11 Treffer)
(Granka et al. 2004)
10 |
„Most people are looking for quick wins.“
• Beispiele aus der wissenschaftlichen Suche • Nutzer kommen über Suchmaschinen, schauen herum und nehmen das mit, was
sie brauchen können. • Es wird eine Vielzahl von Quellen benutzt. • Die Hälfte der Nutzer betrachtet nur 1-3 Seiten. • 40% der Nutzer kommen innerhalb von sechs Monaten nicht mehr auf die Website
zurück. • Nutzer sehen sich Artikel online nur ein paar Minuten lang an, vor allem kurze
Artikel werden gelesen. • Nutzer sammeln zwar Artikel (als Ausdrucke oder Downloads), lesen sie dann aber
nicht.
Was wäre, wenn Ihre Nutzer auch so suchen?
(Nicholas 2008)
(Nicholas 2008)
Einführung: Wo stehen Suchmaschinen heute?
Spezialangebote der Suchmaschinen
Bündelung von Inhalten
Ranking
Fazit
Gliederung
Bücher
• Microsoft hat sein Engagement in der Buchsuche eingestellt.
• Google Book Search könnte durch die Einigung mit (US-)Verlegern/Autoren zum wichtigsten Anbieter von E-Books werden.
• Direkter Verkauf und Lizenzierung (z.B. an Bibliotheken).
• Die Buchsuche wird in die regulären Trefferlisten eingebunden.
Bücher
Wissenschaftliche Inhalte
• Recherche kostenlos - Inhalte kostenlos – Forschungsportal – Alle Open-Access-Suchmaschinen
• Recherche kostenlos - Inhalte kostenlos/kostenpflichtig – Google Scholar – Scirus
• Zugang zur Recherche kostenpflichtig – Thomson Scientific Web Plus
Google ist in der Lage, wissenschaftliche Inhalte in die reguläre Websuche einzubinden.
Microsoft hat seine Wissenschaftssuchmaschine eingestellt.
Google Scholar: Inhalte
Inhalte von Google Scholar
• Wissenschaftliche Literatur aus dem Web – Zeitschriftenaufsätze (peer review), Konferenzbeiträge – Bücher – Preprints, Postprints – Reports – Seminararbeiten – ...
• Quellen – freies Web – Verlage und Fachgesellschaften (Crawling; keine Feeds!) – Open-Access-Archive und -Zeitschriften – Kein Quellenverzeichnis; Umfang der Quellen unklar
Einführung: Wo stehen Suchmaschinen heute?
Spezialangebote der Suchmaschinen
Bündelung von Inhalten
Ranking
Fazit
Gliederung
17 |
Rankingfaktoren
• Textspezifische Faktoren – „Wie gut passen Anfrage und Dokument zusammen?“ – Worthäufigkeiten, Position der Suchbegriffe im Dokument, ...
• Popularität – „Wie wahrscheinlich ist es, dass der Nutzer bei seiner Web-Navigation auf dieses
Dokument treffen würde?“ – Linkpopularität, Klickpopularität.
• Aktualität – „Sollen für diese Anfrage aktuelle Dokumente ausgegeben werden?“ – Datumsangaben, Linkstruktur, ...
• Lokalität – „Welche Dokumente passen zur ‚Umgebung‘ des Nutzers?“ – Länderinterfaces
Im Detail: Lewandowski 2005, Kap. 6
18 | Dirk Lewandowski
Qualität der Inhalte im Web vs. der Treffer in Suchmaschinen
• Suchmaschinen bewerten mehr als nur den Dokumententext
• Ergebnisse werden an die Anfrage angepasst – Allgemeine Anfragen werden mit allgemeinen Dokumenten beantwortet,
spezifische Anfragen mit spezifischen. – Durchmischung der Trefferliste. – Für viele Anfragen gibt es Seiten, die in den Ergebnissen auftauchen “müssen”.
• Qualitätsbestimmung nur aufgrund formaler Merkmale – Ungeklärte Frage der Verlässlichkeit der Dokumente. – Keine Quellenkontrolle. – Relevanzuntersuchungen messen nur die empfundene Qualität der Ergebnisse.
Universal Search
• x
News results
ads
organic results
organic results (contd.)
image results
video results
Additional databases
Probleme der OPACs
• Unvollständiger Datenbestand – Aufsätze, Literaturdatenbanken fehlen (weitgehend)
• “Elektronischer Zettelkatalog”?
• Das Nutzerverhalten hat sich geändert – Kurze Suchanfragen, schnelle Ergebnisse, ein Ergebnisset – Nutzererwartungen werden stark von den Web-Suchmaschinen beeinflusst.
• Known-Item-Suche vs. thematische Suche – OPACs müssen mit beidem klarkommen.
Wie der OPAC verbessert werden soll (“Katalog 2.0”)
• Nutzerpartizipation – Rezensionen – Bewertungen
• Anreicherung der bibliographischen Daten – Rezensionen – Inhaltsverzeichnisse
• Verbesserung der Navigation – Auswahlmenüs auf den Trefferseiten (Kombination von Suche und Browsing)
• Erweiterung der Datenbasis – Federated search
Kern aller Suchanwendungen: Relevanzranking
• Web 2.0 Anwendungen verbessern den Katalog, berühren aber den Kern (die Suche) nur am Rand.
• “Search must work”
• Nutzererwartungen – Schneller Weg zu den Ergebnissen. – Kein allzu großes Nachdenken über die Formulierung der Suchanfrage. – Keine Suche nach der passenden Datenbank vor der Suche. – Nachdem ein paar Ergebnisse auf der ersten Trefferseite angesehen wurden,
wird entschieden, wie/ob die Recherche fortgeführt wird.
Ranking: Mißverständnisse
• Ein klares Sortierkriterium ist besser als ein Ranking nach Relevanz. – Ranking verändert nicht die Anzahl der Ergebnisse, sondern nur die Reihenfolge. – Andere Sortieroptionen können angeboten werden.
• Bibliothekskataloge arbeiten ohne Ranking – Konventionelle OPACs sortieren nach dem Erscheinungsjahr.
• Ranking ist nutzlos: Es funktioniert einfach nicht. – Es ist schwer, “Relevanz” zu bestimmen. Relevanz ist sowohl vom Kontext
abhängig als auch vom individuellen Nutzer. Trotzdem kann Ranking wenigstens eine befriedigende Trefferliste ergeben.
• Ranking ist gar nicht so kompliziert. Man muss doch nur ein paar Standardmaße (TF/IDF) anwenden.
– Text matching reicht für ein gutes Ranking bei weitem nicht aus!
Gemischte Trefferlisten
• Ranking-Algorithmen bevorzugen „das immer gleiche“. Nutzer verlangen aber nach einer gewissen Vielfalt in der Trefferliste.
• Beispiel: Allgemeine Anfrage – Nachschlagewerk – Lehrbuch – Einschlägige Datenbank – Aktuelle Literatur – Einschlägige Zeitschriften
Universal Search
• x
News results
ads
organic results
organic results (contd.)
image results
video results
Additional databases
Einführung: Wo stehen Suchmaschinen heute?
Spezialangebote der Suchmaschinen
Bündelung von Inhalten
Ranking
Fazit
Gliederung
27 |
#1
Suchmaschinen entwickeln sich beständig weiter. Sie verbessern das Ranking und erweitern ihre Datenbestände.
28 |
#2
Suchmaschinen konkurrieren mit Bibliotheken auch hinsichtlich der angebotenen Inhalte.
29 |
#3
Suche ist ein Kern der Bibliotheksangebote und sollte entsprechend behandelt werden. Der OPAC muss der zentrale Zugang zu allen Bibliotheksangeboten sein.
30 |
#4
Ranking ist essentiell. Bibliotheken müssen eine echte Suchmaschine für ihre Inhalte anbieten.
Vielen Dank für Ihre Aufmerksamkeit.
www.bui.haw-hamburg.de/lewandowski.html
Aktuelles Buch: Handbuch Internet-Suchmaschinen (Akademische Verlagsgesellschaft Aka, 2009)
E-Mail: [email protected]
Top Related