Collaborative Filtering.. für automatische Empfehlungen
-
Upload
torben-brodt -
Category
Technology
-
view
2.548 -
download
0
description
Transcript of Collaborative Filtering.. für automatische Empfehlungen
1
2
3Definition
● Collaborative Filtering schneidet Informationen automatisch auf den Betrachter zu
● Zeit der Informationsbeschaffung wächst im Alltag durch Menge verfügbarer Informationen
● Aussagen basieren auf Wissen über Ähnlichkeit zwischen Benutzern oder zwischen Items
● Genutzt zur Minimierung ungewollter oder zur Empfehlung neuer Items
4Informationsfilter
5Aggregation
6Funktionsweise
7Aggregation
● Aggregieren Daten sammeln≈
● Explizit durch Abgabe einer Bewertung
– zum Beispiel durch Sterneleiste– Mehraufwand für Anwender
● Implizit durch Kauf oder Weblog
– Komfortabel für Benutzer– Vertrauen in System? Transparenz?
AggregationKorrelationEmpfehlung
8Korrelation
● Korrelation ≈ Beziehung zwischen Präferenzen● Amazon Paradigma: „Ähnliche Produkte“
AggregationKorrelationEmpfehlung
9Korrelation
AggregationKorrelationEmpfehlung
10Korrelation
AggregationKorrelationEmpfehlung
11Korrelation
AggregationKorrelationEmpfehlung
12Empfehlungen
AggregationKorrelationEmpfehlung
13Empfehlungen
AggregationKorrelationEmpfehlung
14Empfehlungen
AggregationKorrelationEmpfehlung
15Modellierung
● Grundsätzliche Unterscheidung:● Memory Based: Alle Bewertungen live● Model Based: Verschiedene Abstraktionen
● Clusterverfahren● Singulärwertzerlegung (SVD)
● Vergleich verschiedener Ansätze durch Prognosefehler
16Model Based CF
● Clusterverfahren● KMeans = „partitionierendes Verfahren“
1) Clusterzentren werden zufällig platziert2) Bei jeder Iteration werden sie verschoben
17Model Based CF
● Singulärwertzerlegung
1) Zerlegung in 3 spezielle Matrizen
2) Ränge eliminieren
„S“ Matrix als Gewichtung absteigend sortiert
18Model Based CF
● Singulärwertzerlegung
19
20Normierung
● Mehrzahl der Bewertungen orientieren sich am Durchschnitt
● Normierung = Näherung an Durchschnittswerte
– Benutzerdurchschnitt (+6.6% Optimierung)– Itemdurchschnitt (+6.8 % Optimierung)– usw...
21Nachbarschaft
● weniger Nachbarn = weniger Verschwimmen● Auswahl nach Mindestähnlichkeit oder Grenze
Quelle: HERL02, 235
22Nachbarschaft
● Bestes Resultat: Sortierte Liste mit Limit=60
23Varianz
Item Varianz (0.4%)● hohe Kontroverse =
hohe Aussage
Benutzer Varianz (+0.7%)● hohe Varianz einer
Bewertung = ...
a) hohe Aussage?
b) Manipulation?
24Cross Domain
● Korrelation einer Domain (z.B. „News“) nutzen, um in anderer Domain (z.B. „Sport“) Empfehlungen zu geben
● Zentrale Plattform im Hintergrund● Domains besitzen getrennte Items● Überschneidungen nur bei Benutzern● Konfiguration je Domain möglich (z.B. Zeitlimit)
25Cross Domain
26Schlussbetrachtung
● plista!
BASIS
Test am MovieLens Datensatz [ML]
Normierung auf Schnittmenge
Limit auf 60 Nachbarn Vektoren
Distanz
Normierung an Skala
Nischenproduktezur Usersim
Anzahl gemeinsamerBewertungen als Faktor
● Normierung auf Schnittmenge● Limit auf 60 Nachbarn● Anzahl gemeinsamer Bewertungen als Auswahl
27Quellen
● [HERL02] Jonathan L. Herlocker, Joseph A. Konstan, Al Borchers, John Riedl, 1999, http://portal.acm.org/citation.cfm?id=312624.312682
● [ML] MovieLensProjekt, Universität Minnesota (USA), Datensatz mit 1 Mio Bewertungen, http://www.movielens.org (Stand 12.09.2008)
● [BELL2] Robert M. Bell and Yehuda Koren, 2007, http://www.cs.uic. edu/liub/KDDcup2007/proceedings/NeighborKoren.pdf
● [RESNICK] P. Resnick, N. Iacovou, M. Suchak, P. Bergstrom, J. Riedl An Open Architecture for Collaborative Filtering of Netnews, 1994
● [BREESE] John S. Breese, David Heckerman, Carl Kadie, 1998, http://research.microsoft.com/research/pubs/view.aspx?tr_id=166 (Stand: 29.09.2008)