Heim >Technologie-Peripheriegeräte >KI >Anwendung von Algorithmen beim Aufbau einer 58-Porträt-Plattform
Lassen Sie mich zunächst den Hintergrund des Baus der 58-Porträt-Plattform mit Ihnen teilen.
Der Aufbau einer Benutzer-Profiling-Plattform reicht nicht mehr aus, indem er auf Data-Warehouse-Modellierungsfunktionen, die Integration mehrzeiliger Daten und die Erstellung genauer Benutzerporträts setzt Außerdem ist es erforderlich, das Benutzerverhalten, die Interessen und Bedürfnisse zu verstehen und algorithmische Funktionen bereitzustellen. Schließlich muss es auch über Datenplattformfunktionen verfügen, um Benutzerporträtdaten effizient zu speichern, abzufragen und zu teilen sowie Porträtdienste bereitzustellen. Der Hauptunterschied zwischen einer selbst erstellten Business-Profiling-Plattform und einer Middle-Office-Profiling-Plattform besteht darin, dass die selbst erstellte Profiling-Plattform einen einzelnen Geschäftsbereich bedient und bei Bedarf angepasst werden kann. Die Mid-Office-Plattform bedient mehrere Geschäftsbereiche und ist komplex Modellierung und bietet allgemeinere Funktionen.
58 Der Aufbau der Benutzerporträtplattform ist hauptsächlich auf die folgenden Geschäftsanforderungen zurückzuführen:
Das Vientiane-Tag-System umfasst mehrere Kategorien wie soziale Attribute, geografische Lage, Verhaltensgewohnheiten, Präferenzattribute, Benutzerschichtung usw. mit insgesamt mehr als 1.500 Tags. Wir unterteilen sie entsprechend der Produktionsmethode in zwei Typen:
Fakten-Tags: Shucang-Schüler verwenden Statistiken oder Regeln, um mithilfe von SQL usw. zu entwickeln und zu produzieren. Algorithmus-Tags: Das Algorithmus-Team verarbeitet und produziert durch Data Mining und andere Mittel.
2. Beispiele für Algorithmus-Tags
3. Nehmen Sie das Inhaltspräferenz-Tag als Beispiel, um den Kennzeichnungsprozess zu erklären
Nehmen Sie das Inhaltspräferenz-Tag als Beispiel. Um dieses Tag zu erstellen, muss ein Offline-Empfehlungsprozess eingerichtet werden. Angesichts von Millionen oder mehr Beiträgen führen wir zunächst eine vorläufige Überprüfung in der Rückrufphase durch und verwenden dabei beliebte, regelbasierte, kollaborative Filterung und andere Methoden, wie das Convolutional Neural Network (LightGCN) und das Twin Towers (DSSM)-Modell in der Abbildung. Basierend auf den zurückgerufenen Beiträgen wird dann der Pointwise-Ansatz verwendet, um das CTR-Modell zu sortieren. Die endgültige Ausgabe sind die Top-N-Beiträge, an denen Benutzer am meisten interessiert sind. In praktischen Anwendungen können am Beispiel des Push-Szenarios Schlüsselattribute aus den Top-1-Beiträgen extrahiert werden, um personalisierte Texte zu generieren. Gleichzeitig kann die Landingpage die Detailseite des Top-1-Beitrags oder die Listenseite der Top-N-Beiträge sein.
Bei der Erstellung von Inhaltspräferenz-Tags unter Berücksichtigung der geografischen und Kategoriemerkmale des lokalen Unternehmens von 58 sind Benutzer in der Regel nur an Beiträgen aus bestimmten Regionen oder Kategorien in Empfehlungen interessiert. Daher kann es bei der Vektorisierung des Rückrufs (z. B. mithilfe des EGES-Modells) zu einer großen Anzahl von Posts außerhalb der Website oder außerhalb der Kategorie kommen. Um dieses Problem zu lösen, stellen wir die Stadtinformationen hexadezimal dar, ersetzen 0 durch -1 und fügen diese Codierung dann direkt in den zuvor generierten Vektor ein. Dadurch kann sichergestellt werden, dass Beiträge in derselben Stadt oder für denselben Zweck in die Ähnlichkeit einbezogen werden Die Berechnungen weisen die größte Ähnlichkeit auf und verbessern so die Genauigkeit des Rückrufs und der Empfehlung.
In der Sortierphase werden multimodale Informationen, einschließlich Textinhalte, verwendet, um die Genauigkeit von Empfehlungen zu verbessern. Beispielsweise kann der Beitragstitel als Textmerkmal durch Einbettung mithilfe vorab trainierter Modelle wie BERT und M3E dargestellt werden. Aufgrund der großen Anzahl an Beiträgen stellt dies jedoch eine Herausforderung für die Rechenressourcen dar. Um dieses Problem zu lösen, verwenden wir Spark NLP, eine Bibliothek zur Verarbeitung natürlicher Sprache, die auf Apache Spark Machine Learning basiert. Obwohl es in der nativen Bibliothek kein chinesisches BERT-Modell gibt, haben wir es durch einige Transformationen erfolgreich auf groß angelegte Offline-Inferenzen angewendet.
Algorithmen spielen auch eine zentrale Rolle beim funktionalen Aufbau der 58-Städte-Benutzerporträtplattform. Am Beispiel intelligenter Betriebsfunktionen verwenden wir Verkehrskarten, um Korrelationen zwischen verschiedenen Unternehmen zu identifizieren und Betriebsvorschläge oder Schlussfolgerungen für Geschäftsparteien bereitzustellen. Basierend auf diesen Vorschlägen kann die Geschäftsseite über die intelligente Kreisfunktion direkt ein Operator-Crowd-Paket generieren und es mit den entsprechenden Kanälen zur Auslieferung verbinden. Der Liefereffekt kann über die Plattform überwacht und auf Basis der Effektdaten iterativ optimiert werden, um die betrieblichen Effekte kontinuierlich zu verbessern.
Wie funktioniert der Algorithmus? Als nächstes werden wir es in mehreren Teilen vorstellen. Die erste ist die Verkehrskarte. Wir nutzen die OLAP-Data-Mining- und Datenvisualisierungstechnologie, um eine detaillierte Analyse des Surfverhaltens von 58APP-Benutzern zwischen verschiedenen Unternehmen durchzuführen. Durch die Analyse und Verarbeitung dieser Daten können die Flusspfade der Benutzer zwischen verschiedenen Unternehmen angezeigt werden, wodurch das Betriebsteam einen intuitiven Überblick über das Benutzerverhalten erhält. Dabei können uns Algorithmen nicht nur dabei helfen, Benutzerverhaltensmuster zu erkennen, sondern auch Korrelationen zwischen verschiedenen Unternehmen durch Korrelationsanalysen und andere Technologien zu ermitteln. Diese Zusammenhänge liefern uns wertvolle operative Anregungen und unterstützen das Operations-Team bei übergreifenden Einsätzen.
Nach Erhalt der Operationsvorschläge kann das Operationsteam mithilfe der intelligenten Kreisfunktion die Zielgruppe auswählen. Um dieses Ziel zu erreichen, muss das Betriebsteam zunächst personalisierte Betriebsziele konfigurieren und klären, ob das Ziel darin besteht, neue Kunden zu gewinnen, Aktivitäten zu fördern oder Conversions zu fördern usw. Als nächstes müssen Sie den gewünschten Effekt festlegen, einschließlich der Größe des Crowd-Pakets und des erwarteten Liefereffekts. Darüber hinaus muss das Betriebsteam auch geeignete Bereitstellungskanäle auswählen, um sicherzustellen, dass die Zielgruppe relevante Informationen zu den betrieblichen Aktivitäten erhalten kann.
Der Prozess der Generierung von Crowd-Paketen ist eine Blackbox für das Betriebsteam. Um dieses Problem anzugehen, stellen wir weitere Erklärungen und Beschreibungen der Algorithmusprinzipien und -schritte bereit, damit Betriebsteams die Technologie besser verstehen und anwenden können. Gleichzeitig stellen wir mehr visuelle Tools und Schnittstellen bereit, die dem Betriebsteam helfen, die Eigenschaften und Auswirkungen von Crowd-Paketen intuitiv zu erkennen und zu analysieren.
Bei der Generierung von Crowd-Paketen verwenden wir hauptsächlich die Look-alike-Technologie. Wir haben in der Entwicklung dieser Technologie mehrere Phasen durchlaufen. In der Anfangsphase haben wir von der Lösung von Yahoo gelernt und die Ausgabe des Crowd-Pakets in Rückruf- und Sortiermodule unterteilt. Das Rückrufmodul erstellt zunächst die Merkmalsvektoren aller Benutzer, verwendet dann MinHash und die lokal sensible Hashing-Technologie, um die Merkmalsvektoren zu komprimieren, und erreicht durch eine dem Clustering und Bucketing ähnliche Methode einen k-NN-ähnlichen Abruf und berechnet schnell die Beziehung zwischen den Startwerten Benutzer und Basierend auf der paarweisen Ähnlichkeit zwischen den Kandidatengruppen wird topN als Rückrufgruppe für jeden Seed-Benutzer ausgewählt. In der Sortierphase wird der Informationswert zunächst zum Filtern von Merkmalen verwendet, dann werden die Bewertungen basierend auf den gefilterten Merkmalen berechnet und schließlich werden die Bewertungen sortiert, um schließlich ein Crowd-Paket zu erstellen. Während des gesamten Prozesses spielte der Algorithmus eine Schlüsselrolle bei der Sicherstellung der Genauigkeit und Wirksamkeit des Crowd-Pakets.
Neben ähnlichkeitsbasierten Lösungen erzielen auch auf maschinellem Lernen basierende Methoden gute Ergebnisse. In praktischen Anwendungen können Benutzer Anfragen über Personen aus Szenenkreisen oder durch Hochladen von Seed-Crowds initiieren. Der Unterschied besteht darin, ob die Seed-Crowd von Benutzern hochgeladen oder automatisch von uns abgebaut wird. Nachdem wir die Samenpopulation, also die positiven Proben, erhalten haben, müssen wir negative Proben auswählen. Wir können eine gewalttätige globale zufällige negative Stichprobe verwenden oder Algorithmen wie PU-Lernen oder TSA verwenden, um die Auswahl negativer Proben abzuschließen. Als nächstes folgt die Feature-Auswahlphase, die in zwei Optionen unterteilt ist: Nach dem Engineering mit festen Features können Modelle wie DeepFM zum Abschließen des Trainings und der CTR-Schätzung verwendet werden, und TopN wird ausgewählt Das auf CTR basierende Crowd-Paket besteht darin, alle Tags als Features zu verwenden, Features automatisch über IV-Werte und Korrelationen auszuwählen und zu eliminieren, dann das AutoML-Framework zu verwenden, um das Feature-Engineering und das Modelltraining abzuschließen und schließlich eine Inferenz auf der 58App durchzuführen Crowd-Pool und Ausgabe basierend auf dem TopN-Crowd-Paket, stellen Sie eine Verbindung zum Kanal her, um Kontakt aufzunehmen, und sammeln Sie schließlich die Liefereffektdaten, um die Iteration der Stichprobenauswahl abzuschließen.
Im obigen Schema gibt es einige Punkte, die Aufmerksamkeit verdienen. Der erste ist die Iteration von Proben. Bei der Wiederherstellung von Effektdaten müssen nicht nur die Belichtungsdaten überprüft werden, sondern auch die unbelichteten Daten debias verarbeitet werden. Gleichzeitig muss der Effekt nach der Iteration offline bewertet und überprüft werden, um den Effekt der Iteration sicherzustellen. Darüber hinaus muss das Durchquerungsproblem auch im Hinblick auf Features berücksichtigt werden, insbesondere in der neuen Szene, wo der Zeitfaktor der Feature-Auswahl berücksichtigt werden muss.
Da in Betriebsszenarien immer mehr Daten anfallen, beginnen wir zu versuchen, diese Daten für die Durchführung von Offline-Experimenten zur Optimierung unseres Iterationsplans zu verwenden. Eine davon ist die auf Tencent WeChat basierende Look-alike-Methode, die eine Meta-Lernmethode anwendet. Konkret erstellt diese Methode ein verallgemeinertes Modell, schließt die Modellkonstruktion in der Offline-Phase ab und verwendet dann eine kleine Menge an Datensätzen, um das angepasste Modell zu trainieren und Inferenzarbeiten in der Online-Phase durchzuführen. Diese Methode kann das Problem der Überanpassung des Modells lösen, wenn die Stichprobengröße relativ klein ist. Multi-Szenario- und Multi-Target-Crowd-Diffusion ist ebenfalls eine unserer nächsten Iterationsrichtungen. 3. Anwendungsfälle für die 58-Portrait-Plattform Alle nutzen die entsprechenden Funktionen der 58-Benutzer-Porträtplattform. Beispielsweise nutzt die Preisoperation die Etikettenauswahlfunktion der Porträtplattform, um Crowd-Pakete zu generieren und spezifische Inhalte für sie zu pushen, wodurch die Verfeinerung von Tausenden von Personen abgeschlossen wird.
2. Personalisierter Push Unsere Porträtplattform ist auch vollständig mit der Push-Plattform von 58 verbunden. Studenten können über die Vientiane-Kreisauswahl oder Lookalike Gruppen erstellen, personalisiertes Copywriting konfigurieren und sie über Push-Benutzer erreichen, um betriebliche Zwecke zu erreichen .
Die aktuelle Porträtplattform von 58 verfügt bereits über branchenübliche Porträtplattformfunktionen und hat durch den Segen des Algorithmus eine intelligente Bedienung und andere Fähigkeiten erreicht. Es verbessert nicht nur die betrieblichen Auswirkungen auf der Geschäftsseite, sondern bietet den Benutzern auch personalisierte Dienste und sorgt gleichzeitig für ein besseres Benutzererlebnis. Als nächstes werden wir intensiv mit den Geschäftsparteien zusammenarbeiten, um weitere Anwendungsszenarien zu erkunden, den Kooperationsprozess zusammenzufassen und zu verfeinern, zu optimieren und zu innovieren sowie die Technologie zu aktualisieren, um verschiedenen Anforderungen und Herausforderungen gerecht zu werden. Wir freuen uns darauf, bessere Lösungen für Benutzer und Unternehmen zu schaffen. Tolles Preis-Leistungs-Verhältnis.
Das obige ist der detaillierte Inhalt vonAnwendung von Algorithmen beim Aufbau einer 58-Porträt-Plattform. Für weitere Informationen folgen Sie bitte anderen verwandten Artikeln auf der PHP chinesischen Website!