Heim >Technologie-Peripheriegeräte >KI >Üben und denken Sie über die domänenübergreifende Schätzung und Fusion von Baidu-Videoempfehlungen mit mehreren Zielen nach
1. Einführung in den Baidu-Videohintergrund interaktives Formular; Andererseits haben wir basierend auf dem einheitlichen großen Modell von Baidu die Daten- und Empfehlungserfahrung in allen Szenarien integriert. Die Vereinheitlichung von Interaktion und Daten kann eine bessere ökologische Win-Win-Situation erzielen und die langfristige Entwicklung von Baidu Video fördern.
Es ist erwähnenswert, dass Baidu als Suchmaschine begann und die Suchnutzungsrate extrem hoch ist In Empfehlungsszenarien werden Daten verwendet, um Benutzeranforderungen durch die beiden Engines „Suche + Push“ zu erfüllen. Bei der Suche geht es hauptsächlich um „Personen, die nach Inhalten suchen“, Benutzer geben ihre Bedürfnisse klar ein, während es sich bei Empfehlungen um „Inhalte, die nach Personen suchen“ handelt. Auch die domänenübergreifende Integration von Suchsignalen und Empfehlungssignalen zur besseren Integration von Empfehlung und Suche ist einer der Vorteile von Baidu. 2. Überblick über das Empfehlungssystem Empfehlung Technologie ist es notwendig, kurz die Probleme vorzustellen, die durch die empfohlene Technologie gelöst werden sollen. Die empfohlene Plattform hat drei Player:
Benutzer: Entdecken Sie hier die Welt und entdecken Sie neue Wahrnehmungen.
Werbetreibende: Unterstützen Sie das Überleben der Plattform finanziell. Die meisten Plattformen leben von der Werbung.
Die Empfehlungsplattform hofft, einen positiven Kreislauf aus Produktion, Konsum und Einkommen zu erreichen. Als Kernkomponente der Plattform löst das Empfehlungssystem hauptsächlich zwei Probleme:
Überlegen Sie bitte zunächst, wie das Ziel des Empfehlungssystems im immersiven Videoszenario gestaltet werden soll.
In herkömmlichen Empfehlungssystemen konsumieren Nutzer Ressourcen, indem sie auf Inhalte oder Videos klicken und so ihre Präferenz für die Ressource deutlich zum Ausdruck bringen. Daher ist das Klickverhalten in herkömmlichen Empfehlungsszenarien ein sehr wichtiges Signal und eine klare und einfache Feedbackmethode. In immersiven Szenarien werden Benutzerpräferenzen aufgrund des Mangels an klarem Feedback jedoch häufig durch „versteckte“ Verhaltensweisen ausgedrückt. Zu diesem Zeitpunkt wird die Betrachtungszeit zu einem äußerst wichtigen Signal in immersiven Empfehlungsszenarien Das Obige Zusätzlich zur Verbrauchszeit muss auch das Verhalten der Benutzer berücksichtigt werden, die das System aktiv verlassen, z. B. Folgen, Kommentieren, Teilen und Liken. Im Vergleich zu Wiedergabedaten sind diese Verhaltensdaten jedoch sehr spärlich, vielleicht nur ein Tausendstel der Größenordnung. Zusätzlich zu diesen interaktiven Signalen gibt es auch einen sehr wichtigen Teil der Daten in den Baidu APP-Empfehlungen, nämlich 70 %. der Benutzer auf Baidu konsumieren sowohl empfohlene Informationsströme als auch Suchanfragen. Daher muss das Empfehlungssystem auch das Zufriedenheitssignal der Suchdomäne des Benutzers abbilden.
Ersteller auf der B-Seite benötigen einen Wettbewerbsmechanismus, um neben Konsumsignalen, mit denen Benutzer auf der C-Seite zufrieden sind, minderwertige Ersteller auszusortieren, das kreative Potenzial hochwertiger Ersteller zu stimulieren und dadurch einen positiven Produktions- und Produktionszyklus zu erreichen Verbrauch
2. Im Zieldesign berücksichtigte Dimensionen
3. Umfassende Zufriedenheitsmodellierung
Zusätzlich zu den oben genannten Grundzielen werden wir auch einige übergeordnete Ziele entwerfen und nicht mehr nur das Feedback der Benutzer verwenden. Wie auf der rechten Seite der Abbildung oben gezeigt, haben wir beispielsweise ein Modell eingeführt, das auf dem Feedback der Benutzerzufriedenheit basiert. In der ersten Phase werden durch dichte Signale wie Sendeabschluss und -dauer einfache Regeln oder Modelle verwendet, um das Feedback zur Benutzerzufriedenheit anzupassen und ein relativ dichtes Benutzerzufriedenheitsetikett zu erhalten. In der zweiten Phase wird ein Zufriedenheitsmodell basierend auf dieser Bezeichnung erstellt. Dabei werden die Einbettung verwendet, die durch das groß angelegte Push-Suchmodell generiert wird, die zugrunde liegende Einbettung von Wenxin sowie die Modellierung von Benutzerporträts und Verhaltenssequenzmerkmalen, um den Zufriedenheitsgewinn des empfohlenen Domänenrelativs zu bewerten zur Suchdomäne. Wenn ein Benutzer einen bestimmten Point of Interest in der Suche konsumiert hat, kann das Empfehlungssystem basierend auf dem Zufriedenheitsmodell qualitativ hochwertigere Inhalte empfehlen, was die Integration von Suche und Push reibungsloser gestalten und Suchinteressen besser in den Feed migrieren kann.
Im vorherigen Artikel haben wir vorgestellt, wie man die Spielzeit und Interaktion des aktuellen Inhalts abschätzt. Wir können das historische Konsumverhalten der Benutzer als Beispiele oder Merkmale verwenden, um vorherzusagen, ob der kommende Inhalt positives oder negatives Feedback erhalten wird und ob es zu zufriedenstellender Interaktion und Konsum kommen wird
Wir können weiter darüber nachdenken, ob es einen Zusammenhang zwischen dem zukünftigen Konsuminhalt des Benutzers und dem aktuellen Konsuminhalt gibt? Wenn Benutzer beispielsweise jetzt die Videos von Guo Degang ansehen und am nächsten Tag weiterhin die Videos von Yu Qian konsumieren, sind diese Videos von Yu Qian dann von den Videos von Guo Degang „inspiriert“? Kann der Konsum zukünftiger Points of Interest als „Fortsetzung“ aktueller Points of Interest betrachtet werden? Die Antwort ist ja. Daher haben wir das LTV-System in das System eingeführt, um den zukünftigen langfristigen Wertinhalt der Empfehlung des aktuellen Videos zuzuordnen , V
2,... Vn
ist das Video, das der Benutzer in Zukunft konsumieren wird. Unter der Annahme, dass V2 und Vn ein zufriedenstellender Konsum und eine Fortsetzung von V0 sind, sind sie kann auf V0 zurückgeführt werden. Es gibt viele Attributionsmethoden. Gemäß dem Geschäftsszenario von Baidu Feed umfasst die Attribution die folgenden drei Teile: Funktionale Attribution: Wenn Sie die bereitgestellten Ressourcen anhand verwandter Empfehlungen anzeigen, ist dieser Teil der Das Ressourcenverbrauchssignal kann V
0
zugeschrieben werden.Basierend auf der Abstraktion und Kombination der aktuellen Geschäftssituation gehen wir von den folgenden drei Richtungen aus, um bei der Gestaltung der Ziele des Empfehlungssystems eine einfache Zusammenfassung zu erstellen
Multi-Ziel, erster Transport Als nächstes folgt die Modellierung einiger übergeordneter Ziele, um die Zufriedenheit der gesamten Szene zu beschreiben. Gleichzeitig ist es auch notwendig, die Ökologie zu regulieren.
Zukunftswert schaffen.
Die Entwicklung und Weiterentwicklung der Baidu-Produkte hat zu einer allmählichen Änderung der Ranking-Ziele geführt. Ursprünglich hatte es nur das Hauptziel eines einzelnen Feldes und entwickelte sich dann zu mehreren Feldern und mehreren Zielen. Jetzt wurde eine umfassende Modellierung des gesamten Feldes erreicht, wobei Stichproben aus mehreren Feldern integriert wurden, um einen vollständigen Informationsaustausch zu erreichen. Im Folgenden werden die spezifischen Inhalte der umfassenden Modellierung in allen Bereichen vorgestellt
Lassen Sie uns zunächst einen Blick darauf werfen, was die Branche getan hat. Ob MMoE, PLE oder das STAR-Netzwerk, PEPNet und andere Strukturen, an denen Alibaba arbeitet, sowie Unternehmen wie Google und Tencent, sie scheuen keine Mühen, um verschiedene Netzwerkstrukturen basierend auf ihren eigenen Unternehmen zu entwerfen, in der Hoffnung, dies zu tun Teilen Sie sie in heterogenen Szenarien. Diese Arbeiten lösen hauptsächlich zwei Probleme:
In ähnlicher Weise ist auch das Baidu-Empfehlungssystem mit diesen beiden Problemen konfrontiert.
In Baidus Szenario gibt es viele verschiedene Subdomain-Ziele, und die Korrelation zwischen diesen Zielen ist gering, was zu einer negativen Migration zwischen mehreren Zielen führen kann. Um dieses Problem zu lösen, müssen die PNRs zwischen verschiedenen Zielen analysiert und die Korrelationsunterschiede zwischen ihnen ermittelt werden. Mit anderen Worten, die Beschreibung von Benutzerinformationen in heterogenen Szenarien und die Implementierung der Migration heterogener Informationen sind Probleme, die durch die Modellstruktur gelöst werden müssen
Entsprechend den Geschäftsanforderungen von Baidu haben wir eine domänenübergreifende Schichtung entworfen Die Netzwerkstruktur mit mehreren Zielen übernimmt die Gating-Struktur. Diese Struktur ist hauptsächlich in drei Schichten unterteilt: Die erste Schicht ist das personalisierte Sharing-Netzwerk als unterste Schicht; die zweite Schicht ist das GCG-Netzwerk zur domänenübergreifenden Informationsextraktion und die letzte Schicht ist das multiobjektive Netzwerk von Unterdomänen; Durch dieses Design können wir eine Multi-Ziel-Schätzung für jede Domäne durchführen und gleichzeitig Informationen austauschen.
Diese Lösung weist eine erhebliche Verbesserung im Vergleich zur Einzel-Domänen-Mehrziel-Schätzung auf. Die AUC des ersten Starts ist etwa 3.000 bis 9.000 Mal höher . Punkt. Wie in der unteren rechten Ecke der obigen Abbildung gezeigt, ist der Unterschied zwischen den beiden anderen Szenarien immer noch relativ, nachdem die Einbettung von Benutzermerkmalen in mehrere Domänen und die Reduzierung der TSNE-Dimensionalität erreicht wurden, mit der Ausnahme, dass Suche C und zweiter Hop relativ nahe beieinander liegen Offensichtlich, was darauf hinweist, dass das Modell die Unterschiede zwischen Szenen lernen kann. Es ist vernünftig, dass es keinen großen Unterschied zwischen dem Such-C-Szenario und dem Second-Hop-Szenario gibt. Bei beiden handelt es sich um Videoszenarien, und die Interaktion und das Interesse des Benutzers sind nicht sehr unterschiedlich.
Das Baidu-Geschäftsszenario verfügt über mehr als 40 physische Ziele, 4 große Subdomänen und 6 Formen, einschließlich Video, Grafik, Dynamik, kleine Programme usw. Wir hoffen, dass das Modell in vielen komplexen Unternehmen gute Ergebnisse erzielen kann. Lassen Sie uns kurz die Modellstruktur vorstellen. Die erste Schicht ist das gemeinsame Netzwerk, das als Basis für die Domänenaufteilung dient, um zufriedenstellende Stichproben mehrerer Ziele in jeder Szene zu überprüfen und eine personalisierte Einbettungszuordnung über das Gate-Netzwerk zu realisieren. Die zweite Ebene ist die Extraktion domänenübergreifender Informationen, die über das CGC-Netzwerk einzigartige Funktionen und personalisierte gemeinsame Funktionen innerhalb der Domäne implementiert. Die beiden konstruieren gemeinsam eine domänenübergreifende Informationsextraktion. Der Vorteil besteht darin, dass nicht nur der Informationsreichtum innerhalb der Domäne erhalten bleibt, sondern auch die gemeinsamen Informationen heterogener Szenen extrahiert werden. Die dritte Ebene ist die multiobjektive Modellierung von Subdomänen. Zu diesem Thema veröffentlichen wir auch einen entsprechenden Artikel. Freunde, die sich für die Details interessieren, können den Artikel lesen.
Der Entwicklungsprozess der Multiobjektive-Fusion von Baidu ähnelt dem der Branche. Die erste ist die Zusammenführung von Vorwissen, die zwar einfach und unkompliziert ist, aber viel Personal erfordert. Dann haben wir auf LTR umgestellt, und der Effekt war bemerkenswert. Der Nachteil bestand jedoch darin, dass häufige Anpassungen erforderlich waren, wenn sich das Geschäft änderte. Gleichzeitig änderte sich auch die Teilauftragsbeziehung mit Änderungen in der Geschäfts- und Benutzerschichtung. Anschließend haben wir ein Multi-Objective-Fusion-Value-Modell unter Verwendung eines sequentiellen optimalen Ansatzes eingeführt. Nach einer kurzen Nutzungsdauer haben wir ein Upgrade auf die Methode durchgeführt, die wir jetzt verwenden – ES (Evolution Strategy) evolutionäres Lernen
Um ES zu verwenden, müssen Sie zunächst eine Belohnung definieren, nämlich den Nordstern Indikator. Baidus Belohnungen sind Sitzungstiefe (Dauer + Schrittlänge) und Interaktion. Die Geschäftsindikatoren, die Dauer und Schrittlänge entsprechen, sind Dauer und Videowiedergabevolumen. Diese beiden Indikatoren spiegeln die Benutzerbindung wider. Darüber hinaus gibt es interaktive Informationen, die die Ansammlung von Vermögenswerten des Benutzers in der APP darstellen, z. B. die Aufmerksamkeit auf das Verhalten des Autors. Tatsächlich hofft er, den Autor nach der Aktualisierung finden zu können. Unabhängig davon, ob die Anzahl des Konsums oder der Interaktionen erhöht wird, hoffen wir, dass Benutzer diese APP über einen längeren Zeitraum nutzen können
Unsere erste Version ist ein einfaches heuristisches Modell, während das aktuelle Online-ES fortgeschrittenere Berechnungen durchführt, wie zum Beispiel die Einführung von Informationen über verschiedene Szenarien und Personengruppen
Das obige ist der detaillierte Inhalt vonÜben und denken Sie über die domänenübergreifende Schätzung und Fusion von Baidu-Videoempfehlungen mit mehreren Zielen nach. Für weitere Informationen folgen Sie bitte anderen verwandten Artikeln auf der PHP chinesischen Website!