8 min read

Empfehlungen: von Vanille bis Personalisierung - Teil II.

Published on
June 26, 2020
Author
Pierre Lupi Chen
Pierre Lupi Chen
AI & Data
Subscribe to our newsletter
Subscribe
Empfehlungen: von Vanille bis Personalisierung - Teil II.

Hier ist Teil II meiner Serie über Machine Learning und Personalisierung - lesen Sie den ersten Artikel hier.

Empfehlungen sind nicht so simpel, wie Sie vielleicht denken

Bei der Entwicklung einer Empfehlungsmaschine ist die allererste Frage, die es zu beantworten gilt, das Was: Was soll empfohlen werden? Welche Produkte würden dem Geschmack oder den Bedürfnissen unserer Kunden entsprechen?

Zur Beantwortung der Was-Frage wurden viele verschiedene Modelle des maschinellen Lernens entwickelt.

Einerseits gibt uns die Vielzahl der Modelle einen gewissen Handlungsspielraum. Andererseits ist die Auswahl der richtigen Ansätze aus dieser Vielzahl für unerfahrene Praktiker nicht immer einfach.

Kollaborative Filterung für die Erstellung von Empfehlungen

Der einfallsreichste Bereich ist nach wie vor die kollaborative Filterung: von einfachen Matrixfaktorisierungen (z. B. die sehr einfache Scikit Learn SVD) bis hin zu anspruchsvolleren Ansätzen (z. B. Tensorflow Neural Collaborative Filtering).

Diese einfach zu verwendenden Modelle haben seit der Einführung von Netflix einen gewissen Aufschwung erlebt. Sie wurden von der akademischen Gemeinschaft umfassend weiterentwickelt und werden nach wie vor von großen Unternehmen für gestreamte Inhalte (Netflix, Spotify usw.) genutzt.

Der Hauptvorteil besteht darin, dass nur eine einzige Datenquelle benötigt wird: das frühere Verhalten der Kunden (Käufe, Konsum usw.). Mit anderen Worten, es werden keine Nutzerprofildaten oder Produktbeschreibungen/Inhaltsdaten benötigt.

Dieser Vorteil kann jedoch auch ein Nachteil sein, insbesondere für Unternehmen, die ganz neue Produktsegmente einführen und mit dem Problem des Kaltstarts konfrontiert sind, da kollaborative Filtertechniken bei zu wenigen Kundendaten nicht eingesetzt werden können.

Der andere Nachteil ist die Interpretierbarkeit des Modells: Einbettungen in einen niedrigdimensionalen latenten Raum von Faktoren, sowohl für das Kundenverhalten als auch für Produktinteraktionen, können nicht im Hinblick auf qualitative (geschäftliche oder umsetzbare) Erkenntnisse interpretiert werden.

Inhaltsbasierte Filterung

Je nach Art des zu empfehlenden Produkts können inhaltsbasierte Filtertechniken eingesetzt werden.

Dies gilt insbesondere für Medieninhalte wie Artikel, bei denen eine einfache Latent-Dirichlet-Allokation den Artikelinhalt auf einen latenten Themenraum abbildet. Die Präferenzen der Nutzer können dann auch durch einen durchschnittlichen Themenmix von Artikeln beschrieben werden, die jeder Nutzer in der Vergangenheit gelesen hat.

Inhaltsbasierte Filteransätze werden in der Regel Hand in Hand mit kollaborativen Filteransätzen verwendet.

Ein großer Vorteil des inhaltsbasierten Filterns ist das Fehlen eines Kaltstartproblems bei neuen Inhalten: Neue Inhalte können bestehenden Kunden problemlos empfohlen werden. Das Kaltstart-Problem in Bezug auf Kunden besteht jedoch weiterhin: Ein neuer Kunde kann nicht ohne eine Vorgeschichte berücksichtigt werden.

Auch die Interpretation ist einfacher. Inhaltsbasierte Modelle wie die Latent Dirichlet Allocation können als ein weiches Clustering für Inhalte angesehen werden, die mehreren Gruppen angehören. Dies steht im Gegensatz zu K-Means, bei dem jeder Inhalt nur zu einer Gruppe gehört hätte.

Darüber hinaus können die Vektoren der Kundenpräferenzen in einen harten Clustering-Ansatz (z. B. K-Means, spektrales Clustering, mit Kosinusähnlichkeit) eingespeist werden, um Kunden mit ähnlichen Präferenzen zu finden.

Qualitative Erkenntnisse können entweder aus dem weichen Clustering von Inhalten oder aus dem harten Clustering von Nutzerpräferenzen gewonnen werden.

Propensity-to-buy-Modellierung

Die gute alte Klassifizierung kann auch dazu dienen, Empfehlungen auszusprechen.

Zu diesem Zweck können wir Klassifikatoren trainieren, die vorhersagen, wie wahrscheinlich es ist, dass ein Kunde ein Produkt oder eine Dienstleistung kaufen oder in Anspruch nehmen möchte.

Auch wenn eine mehrstufige Klassifizierung möglich ist, beschränken wir uns im Allgemeinen auf ein Modell pro Produkt, um eine breitere Klasse verfügbarer Modelle zu nutzen.

Diese Beobachtung ist jedoch auch der größte Nachteil der Modellierung der Kaufbereitschaft. Im Allgemeinen müssen so viele Modelle trainiert werden, wie Produkte zu empfehlen sind, was die Aufgabe sehr mühsam macht, wenn wir Tausende von Produkten empfehlen können.

Eine mögliche Lösung besteht darin, die Aufgabe zu überarbeiten, indem zunächst vorhergesagt wird, wie wahrscheinlich es ist, dass ein Kunde beabsichtigt, eine Kategorie von Produkten oder Dienstleistungen zu kaufen oder zu konsumieren, anstatt ein bestimmtes Produkt oder eine Dienstleistung.

Der größte Vorteil der Modellierung der Kaufneigung liegt in der einfachen Interpretation. Da es sich bei dieser Modellierung lediglich um eine Klassifizierung handelt, steht uns eine Vielzahl von Techniken zur Erklärung des Modells zur Verfügung.

Ranglistenlernen vs. Ranglisten

Das Paradigma Learning to Rank (LTR) stammt aus dem Bereich des Information Retrieval.

Es wird seit 2010 intensiv weiterentwickelt, insbesondere zur Verbesserung von Suchanfragen.

Wie der Name schon sagt, soll dieses Paradigma eine Reihenfolge von Produkten vorhersagen, die deren Relevanz widerspiegelt.

Dazu benötigt es auch historische Relevanzreihenfolgen zum Trainieren, was für Praktiker schwierig zu erstellen sein kann. Dies ist der erste Nachteil der LTRk-Ansätze.

In der Regel sind sehr gute Kenntnisse über die Produkte und das Kundenverhalten erforderlich, um eine relevante Reihenfolge der Produkte zu erstellen.

Es gibt jedoch einen noch größeren Nachteil des LTR-Paradigmas: Es funktioniert nur unter sehr spezifischen Bedingungen.

Unerfahrene Praktiker und Evangelisten des maschinellen Lernens lassen sich in der Regel von seinem Namen in die Irre führen und dehnen seinen Anwendungsbereich fälschlicherweise aus.

Im Grunde genommen nutzen LTR-Ansätze die Ähnlichkeit zwischen den Bedürfnissen/Intentionen eines Kunden und den zu empfehlenden Produkten. Sie mögen sich fragen: Wie misst man eine solche Ähnlichkeit? Nun, das ist die Essenz von LTR, aber auch sein größter Fallstrick.

Lassen Sie mich diese Aussage anhand eines Beispiels illustrieren.

Wie bereits erwähnt, wird LTR heute für die Abfragesuche verwendet und soll eines Tages das sehr standardmäßige Elasticsearch vollständig ersetzen.

Bei der Abfragesuche wird der Bedarf des Kunden durch die von ihm eingegebene Abfrage zusammengefasst, während die zu empfehlenden Produkte Dokumente wie Webseiten sind. Sowohl die Abfrage als auch das Dokument sind Textdaten. Diese können in traditionelle oder komplexere Textdarstellungen eingebettet werden: von TF-IDF bis zu BERT-Einbettungen.

Darüber hinaus ist die Ähnlichkeit des Paares aus Anfrage und Dokument mehrdimensional und enthält in der Regel mindestens 50 Metriken (z. B. PageRank, BM25). Diese Metriken werden selbst als Funktionen bezeichnet und der Ähnlichkeitsvektor wird als Merkmalsvektor bezeichnet.

Wir benötigen so viele Merkmalsvektoren wie die Anzahl der Kunden mal die Anzahl der zu empfehlenden Produkte.

Die Merkmalsvektoren sind im Grunde die Instanzen/Punkte, die in angepasste statistische Lernmodelle eingespeist werden, von Support Vector Machines bis hin zu Ensembles von Entscheidungsbäumen, was zu dem bekannten LambdaMART führt.

Die wichtigste Erkenntnis ist, dass das LTR-Paradigma als Instanzen nicht eine Darstellung der Bedürfnisse/Intentionen des Kunden oder eine Darstellung des zu empfehlenden Produkts benötigt, sondern eine einzige Darstellung von beiden Bedürfnissen/Intentionen des Kunden und dem Produkt in Kombination.

Kurz gesagt: Wenn die Einbettung der Absicht des Kunden und des Produkts in einen gemeinsamen Repräsentationsraum NICHT einfach ist, dann ist die Anwendung von LTR-Techniken weit hergeholt und wird wahrscheinlich nicht erfolgreich sein.

Ein gutes Beispiel für einen nicht anwendbaren Bereich ist die Empfehlung von Zusatzprodukten (z.B. eine Prioritäts-Bordkarte) für Fluglinienkunden.

Selbst wenn LTR-Ansätze nicht anwendbar sind, bedeutet das nicht, dass das Ranking ein No-Go ist. Natürlich ist es bis zu einem gewissen Grad machbar, Produkte in eine Relevanzreihenfolge zu bringen.

Dazu stehen uns mehr oder weniger ausgefeilte Methoden zur Verfügung, angefangen bei der Nutzung kalibrierter Wahrscheinlichkeiten, die durch einfache Kaufneigungsmodelle ermittelt werden.

Sowohl LTR-Techniken als auch einfache Ranking-Ansätze verwenden dieselben Metriken, von Normalized Discounted Cumulative Gain bis Mean Average Precision oder Kendall's Tau.

Diese Ranking-Metriken sind in der Regel für den unerfahrenen Praktiker schwerer zu verstehen als die üblichen Klassifizierungsmetriken (wie Präzision oder Recall at Rank).

Anomalie-Erkennung

Alle genannten Ansätze sind solange gültig, bis wir genügend historische Daten haben.

Stellen Sie sich nun ein Szenario vor, in dem die Zahl der historischen Käufe für ein bestimmtes Produkt sehr gering ist, wir es aber dennoch empfehlen müssen.

Es wird allgemein zugegeben, dass unterhalb eines Verhältnisses von 200:1 jede Klassifizierungsaufgabe so mühsam wird, dass man sich auf das Gebiet der Anomalieerkennung begibt.

Dann können herkömmliche Techniken zur Erkennung von Anomalien eingesetzt werden: vom Resampling des Datensatzes (Undersampling der Mehrheitsklasse, Oversampling der Minderheitsklasse, synthetisches Sampling mittels SMOTE oder Autoencodern) bis hin zur einfachen Berücksichtigung der Unausgewogenheit der Labels während der Optimierung, wenn wir immer noch überwachte Modelle trainieren wollen, oder sogar einige unüberwachte Ansätze wie Ein-Klassen-SVMs oder Isolationswälder.

Warum Empfehlungen durch automatisiertes maschinelles Lernen nicht richtig behandelt werden können

Die Landschaft der Techniken zur Lösung der Empfehlungsaufgabe ist sehr breit. Ich habe einige dieser Techniken beschrieben, aber die Liste ist keineswegs erschöpfend. Automatisiertes maschinelles Lernen hat sich in den letzten Jahren immer mehr an die Lösung des Problems herangetastet.

Die Aufgabe ist jedoch ebenso komplex, da sich die derzeit angebotenen Standardlösungen (z. B. Google Recommendations AI) noch in der Entwicklung befinden; ihre Betaversion steht noch aus, während das Fehlen jeglicher SLA sie für die Produktion in der Industrie unbrauchbar macht.

Außerdem werden Empfehlungen in der Regel mit einer Mischung aus mehreren Techniken gelöst.

Diese Mischung kann nur durch die Überarbeitung des Problems und die Entwicklung verschiedener Funktionen von Anfang an erfolgen, was Fachwissen und eine gewisse Erfahrung voraussetzt.

Leider ist automatisiertes maschinelles Lernen auf lange Sicht nicht in der Lage, ein solches Domänenwissen und spezifisches Feature-Engineering zu erfassen, selbst wenn es intensiv weiterentwickelt wird.

Bleiben Sie dran für Teil III., oder abonnieren Sie unseren Newsletter, um ihn nicht zu verpassen!

Author
Pierre Lupi Chen
AI & Data
Subscribe to our newsletter
Subscribe