Themenvorschlag Bachelor Thesis

Collaborative Filtering für automatische Empfehlungen

FH Wiesbaden, Sommersemester 2008
Berlin, den 19.05.2008
Torben Brodt, Matrikelnummer 451314

Betreuung
Die 5mm GmbH mit Sitz in Berlin baut auf der Website Plista.com eine Empfehlungsplattform auf. Hier bietet sich mir unter Betreuung von Herrn Andreas Richter die Möglichkeit selbstständig an der Entwicklung mitzuwirken. Der Empfehlungsservice berechnet die Empfehlungen mit Hilfe von "Collaborative Filtering"-Algorithmen auf Basis gesammelter Benutzerpräferenzen.

Definition
Collaborative Filtering (kurz CF) beschreibt die Technologie um aus Präferenzen Vieler auf das Interesse des Einzelnen zu schließen. Dazu werden die gesammelten Informationen korreliert um Ähnlichkeiten zwischen Benutzern ("User Based CF") oder Items ("Item Based CF") zu ermitteln. Aus diesen Ähnlichkeiten werden Vorhersagen zur potentiellen "Likeliness" getroffen. Das ist die Bewertung, die ein Benutzer dem Item vermutlich geben würde.

Aggregation
Präferenzen können über viele Wege gesammelt werden. Sei es explizit durch eine Bewertung oder implizit durch den Clickstream. Basierend auf der Quelle müssen die Präferenzen unterschiedlich bewertet werden. Die unterschiedlichen Möglichkeiten zur Aggregation mittels verschiedener Data Mining Techniken werde ich knapp behandeln.

Benutzeridentifikation
Auch Möglichkeiten den Benutzer über Cookies hinweg zu identifizieren können einen Teil ausmachen, werden aber nicht den Schwerpunkt bilden.

Analyse
In meiner Arbeit werde ich die bekannten und verbreiteten mathematischen Lösungen zur Berechnung der Korrelation zwischen den einzelnen Benutzern und Items aufarbeiten. Dabei werde ich die Vor- und Nachteile einzelner Ansätze erörtern und sowohl auf die jeweiligen als auch auf generelle Probleme eines reinen Collaborative Filtering Ansatzes eingehen. Beispiele dazu sind die Coldstart, Sparsity und Dichte Probleme.

Optimierung
Viele Ansätze und die bestehende Implementierung in MySQL basieren auf der Arbeit von Resnick(1). Ich werde neue Ansätze von Breese(2) und Herlocker(3) analysieren die Algorithmen liefern um Bewertungen unterschiedlich stark zu gewichten und so eine womöglich höhere Bewertungs-Qualität erreichen. Breese beschreibt ein Verfahren um exotische Produkte stärker zu bewerten. Herlocker eines um die Aussagekraft bei kontroversen Produkten zu erhöhen. Inspiriert von den Veröffentlichtungen der Teilnehmer am Netflix Wettbewerb, bei dem sich mehrere tausend Teams weltweit bemühen die besten Filmbewertungen für den Datensatz der Firma Netflix zu liefern, werde ich außerdem auf das Blending(4) von verschiedenen CF-Verfahren eingehen.

Eigenleistung
Da es "den" Algorithmus nicht gibt, werde ich versuchen zu ermitteln in welchen Situation welcher Algorithmus seine Stärken hat. So sollen dem Benutzer durchgehend gute Empfehlungen präsentiert werden. Selbst implementieren werde ich einen individuellen zeitlichen Verfall der Gewichtung eines Ratings pro Benutzer. Außerdem Algorithmen für das höhere Gewichten von Nischenprodukten oder das explizite Anfordern solcher. Sicherlich in vielen kommerziellen und proprietären Produkten eingesetzt gibt es hierzu noch kaum Artikel. Plista.com unterscheidet sich vom Netflix Wettbewerb dahingehend, dass die Empfehlungen live gemacht werden müssen. Möglichst viel wird vorberechnet werden müssen. Hier gilt es den Kompromiss zwischen Qualität gegen Performance zu finden und dabei Möglichkeiten zu Skalierbarkeit und Parallelisierung auszunutzen. Außerdem bietet Plista.com seine Dienstleitung voneinander unabhängigen Domains an. Hier werden wir gemeinsam erforschen wie es möglich ist Ähnlichkeiten zwischen Domains zu finden um so Cross-Domain-Empfehlungen abgeben zu können.

Literatur

  1. Resnick, Grouplens: An Open Architecture for Collaborative Filtering
  2. Breese, Empirical Analysis of Predictive Algorithms for Collaborative Filtering
  3. Herlocker, Understanding and Improving Automated Collaborative Filtering Systems
  4. Robert M. Bell, Yehuda Koren, Chris Volinsky, The Bellkor Solution to the Netflix Prize
  5. Jan H. Dörner, Personalisierung im Internet, ISBN 383000950X

Kontakt
Torben Brodt
Vorderstr. 33
61130 Nidderau

0176 21139955
t.brodt@…