Collaborative Filtering.. für automatische Empfehlungen

3Definition

● Collaborative Filtering schneidet Informationen automatisch auf den Betrachter zu

● Zeit der Informationsbeschaffung wächst im Alltag durch Menge verfügbarer Informationen

● Aussagen basieren auf Wissen über Ähnlichkeit zwischen Benutzern oder zwischen Items

● Genutzt zur Minimierung ungewollter oder zur Empfehlung neuer Items

4Informationsfilter

5Aggregation

6Funktionsweise

7Aggregation

● Aggregieren Daten sammeln≈

● Explizit durch Abgabe einer Bewertung

– zum Beispiel durch Sterneleiste– Mehraufwand für Anwender

● Implizit durch Kauf oder Weblog

– Komfortabel für Benutzer– Vertrauen in System? Transparenz?

AggregationKorrelationEmpfehlung

8Korrelation

● Korrelation ≈ Beziehung zwischen Präferenzen● Amazon Paradigma: „Ähnliche Produkte“


9Korrelation


10Korrelation


11Korrelation


12Empfehlungen


13Empfehlungen


14Empfehlungen


15Modellierung

● Grundsätzliche Unterscheidung:● Memory Based: Alle Bewertungen live● Model Based: Verschiedene Abstraktionen

● Clusterverfahren● Singulärwertzerlegung (SVD)

● Vergleich verschiedener Ansätze durch Prognosefehler

16Model Based CF

● Clusterverfahren● KMeans = „partitionierendes Verfahren“

1) Clusterzentren werden zufällig platziert2) Bei jeder Iteration werden sie verschoben

17Model Based CF

● Singulärwertzerlegung

1) Zerlegung in 3 spezielle Matrizen

2) Ränge eliminieren

„S“ Matrix als Gewichtung absteigend sortiert

18Model Based CF

● Singulärwertzerlegung

20Normierung

● Mehrzahl der Bewertungen orientieren sich am Durchschnitt

● Normierung = Näherung an Durchschnittswerte

– Benutzerdurchschnitt (+6.6% Optimierung)– Itemdurchschnitt (+6.8 % Optimierung)– usw...

21Nachbarschaft

● weniger Nachbarn = weniger Verschwimmen● Auswahl nach Mindestähnlichkeit oder Grenze

Quelle: HERL02, 235

22Nachbarschaft

● Bestes Resultat: Sortierte Liste mit Limit=60

23Varianz

Item Varianz (0.4%)● hohe Kontroverse =

hohe Aussage

Benutzer Varianz (+0.7%)● hohe Varianz einer

Bewertung = ...

a) hohe Aussage?

b) Manipulation?

24Cross Domain

● Korrelation einer Domain (z.B. „News“) nutzen, um in anderer Domain (z.B. „Sport“) Empfehlungen zu geben

● Zentrale Plattform im Hintergrund● Domains besitzen getrennte Items● Überschneidungen nur bei Benutzern● Konfiguration je Domain möglich (z.B. Zeitlimit)

25Cross Domain

26Schlussbetrachtung

● plista!

BASIS

Test am MovieLens Datensatz [ML]

Normierung auf Schnittmenge

Limit auf 60 Nachbarn Vektoren

Distanz

Normierung an Skala

Nischenproduktezur Usersim

Anzahl gemeinsamerBewertungen als Faktor

● Normierung auf Schnittmenge● Limit auf 60 Nachbarn● Anzahl gemeinsamer Bewertungen als Auswahl

27Quellen

● [HERL02] Jonathan L. Herlocker, Joseph A. Konstan, Al Borchers, John Riedl, 1999, http://portal.acm.org/citation.cfm?id=312624.312682

● [ML] MovieLensProjekt, Universität Minnesota (USA), Datensatz mit 1 Mio Bewertungen, http://www.movielens.org (Stand 12.09.2008)

● [BELL2] Robert M. Bell and Yehuda Koren, 2007, http://www.cs.uic. edu/liub/KDDcup2007/proceedings/NeighborKoren.pdf

● [RESNICK] P. Resnick, N. Iacovou, M. Suchak, P. Bergstrom, J. Riedl An Open Architecture for Collaborative Filtering of Netnews, 1994

● [BREESE] John S. Breese, David Heckerman, Carl Kadie, 1998, http://research.microsoft.com/research/pubs/view.aspx?tr_id=166 (Stand: 29.09.2008)

http://portal.acm.org/citation.cfm?id=312624.312682

http://www.movielens.org/

http://research.microsoft.com/research/pubs/view.aspx?tr_id=166

Collaborative Filtering.. für automatische Empfehlungen

Technology

Transcript of Collaborative Filtering.. für automatische Empfehlungen