Collaborative Filtering.. für automatische Empfehlungen

Post on 27-Jun-2015

2.548 views 0 download

description

Collaborative Filtering (kurz CF) beschreibt die Technologie um aus Präferenzen Vieler auf das Interesse des Einzelnen zu schließen. Dazu werden die gesammelten Informationen korreliert um Ähnlichkeiten zwischen Benutzern (\"User Based CF\") oder Items (\"Item Based CF\") zu ermitteln. Aus diesen Ähnlichkeiten werden Vorhersagen zur potentiellen \"Likeliness\" getroffen. Das ist die Bewertung, die ein Benutzer dem Item vermutlich geben würde.

Transcript of Collaborative Filtering.. für automatische Empfehlungen

   

1

   

2

   

3Definition

● Collaborative Filtering schneidet Informationen automatisch auf den Betrachter zu

● Zeit der Informationsbeschaffung wächst im Alltag durch Menge verfügbarer Informationen

● Aussagen basieren auf Wissen über Ähnlichkeit zwischen Benutzern oder zwischen Items

● Genutzt zur Minimierung ungewollter oder zur Empfehlung neuer Items

   

4Informationsfilter

   

5Aggregation

   

6Funktionsweise

   

7Aggregation

● Aggregieren   Daten sammeln≈

● Explizit durch Abgabe einer Bewertung

– zum Beispiel durch Sterneleiste– Mehraufwand für Anwender

● Implizit durch Kauf oder Weblog

– Komfortabel für Benutzer– Vertrauen in System? Transparenz?

AggregationKorrelationEmpfehlung

   

8Korrelation

● Korrelation   ≈ Beziehung zwischen Präferenzen● Amazon Paradigma: „Ähnliche Produkte“

AggregationKorrelationEmpfehlung

   

9Korrelation

AggregationKorrelationEmpfehlung

   

10Korrelation

AggregationKorrelationEmpfehlung

   

11Korrelation

AggregationKorrelationEmpfehlung

   

12Empfehlungen

AggregationKorrelationEmpfehlung

   

13Empfehlungen

AggregationKorrelationEmpfehlung

   

14Empfehlungen

AggregationKorrelationEmpfehlung

   

15Modellierung

● Grundsätzliche Unterscheidung:●  Memory Based: Alle Bewertungen live●  Model Based: Verschiedene Abstraktionen

●  Clusterverfahren●  Singulärwertzerlegung (SVD)

● Vergleich verschiedener Ansätze durch   Prognosefehler

   

16Model Based CF

● Clusterverfahren● K­Means = „partitionierendes Verfahren“

1) Clusterzentren werden zufällig platziert2) Bei jeder Iteration werden sie verschoben

   

17Model Based CF

● Singulärwertzerlegung

1) Zerlegung in 3 spezielle Matrizen

2) Ränge eliminieren

„S“ Matrix als Gewichtung absteigend sortiert

   

18Model Based CF

● Singulärwertzerlegung

   

19

   

20Normierung

● Mehrzahl der Bewertungen orientieren sich am Durchschnitt

● Normierung = Näherung an Durchschnittswerte

– Benutzerdurchschnitt (+6.6% Optimierung)– Itemdurchschnitt (+6.8 % Optimierung)– usw...

   

21Nachbarschaft

● weniger Nachbarn = weniger Verschwimmen● Auswahl nach Mindestähnlichkeit oder Grenze

Quelle: HERL02, 235

   

22Nachbarschaft

● Bestes Resultat: Sortierte Liste mit Limit=60

   

23Varianz

Item Varianz (­0.4%)● hohe Kontroverse = 

hohe Aussage

Benutzer Varianz (+0.7%)● hohe Varianz einer 

Bewertung = ...

a) hohe Aussage?

b) Manipulation?

   

24Cross Domain

● Korrelation einer Domain (z.B. „News“) nutzen, um in anderer Domain (z.B. „Sport“) Empfehlungen zu geben

● Zentrale Plattform im Hintergrund● Domains besitzen getrennte Items● Überschneidungen nur bei Benutzern● Konfiguration je Domain möglich (z.B. Zeitlimit)

   

25Cross Domain

   

26Schlussbetrachtung

● plista!

BASIS

Test am MovieLens Datensatz [ML]

Normierung auf Schnittmenge

Limit auf 60 Nachbarn Vektoren

Distanz

Normierung an Skala

Nischenproduktezur Usersim

Anzahl gemeinsamerBewertungen als Faktor

● Normierung auf Schnittmenge● Limit auf 60 Nachbarn● Anzahl gemeinsamer Bewertungen als Auswahl

   

27Quellen

● [HERL02] Jonathan L. Herlocker, Joseph A. Konstan, Al Borchers, John Riedl, 1999, http://portal.acm.org/citation.cfm?id=312624.312682

● [ML] MovieLens­Projekt, Universität Minnesota (USA), Datensatz mit 1 Mio Bewertungen, http://www.movielens.org (Stand 12.09.2008)

● [BELL2] Robert M. Bell and Yehuda Koren, 2007, http://www.cs.uic. edu/liub/KDD­cup2007/proceedings/Neighbor­Koren.pdf

● [RESNICK] P. Resnick, N. Iacovou, M. Suchak, P. Bergstrom, J. Riedl An Open Architecture for Collaborative Filtering of Netnews, 1994

● [BREESE] John S. Breese, David Heckerman, Carl Kadie, 1998, http://research.microsoft.com/research/pubs/view.aspx?tr_id=166  (Stand: 29.09.2008)