Heim >Technologie-Peripheriegeräte >KI >Interpretation der KDD2024 Best Student Paper, University of Science and Technology of China, Huawei Noah: New Paradigm of Sequence Recommendation DR4SR

Interpretation der KDD2024 Best Student Paper, University of Science and Technology of China, Huawei Noah: New Paradigm of Sequence Recommendation DR4SR

王林
王林Original
2024-09-02 15:07:09714Durchsuche
Interpretation der KDD2024 Best Student Paper, University of Science and Technology of China, Huawei Noah: New Paradigm of Sequence Recommendation DR4SR

Die AIxiv-Kolumne ist eine Kolumne zur Veröffentlichung akademischer und technischer Inhalte auf dieser Website. In den letzten Jahren sind in der AIxiv-Kolumne dieser Website mehr als 2.000 Berichte eingegangen, die Spitzenlabore großer Universitäten und Unternehmen auf der ganzen Welt abdecken und so den akademischen Austausch und die Verbreitung wirksam fördern. Wenn Sie hervorragende Arbeiten haben, die Sie teilen möchten, können Sie gerne einen Beitrag leisten oder uns für die Berichterstattung kontaktieren. Einreichungs-E-Mail: liyazhou@jiqizhixin.com; zhaoyunfeng@jiqizhixin.com


Diese Arbeit wurde vom IEEE Fellow des National Key Laboratory gesponsert of Cognitive Intelligence Abgeschlossen vom Team von Chen Enhong und dem Noah's Ark Laboratory von Huawei. Das Team von Professor Chen Enhong beschäftigt sich intensiv mit den Bereichen Data Mining und maschinelles Lernen und hat zahlreiche Artikel in führenden Fachzeitschriften und Konferenzen veröffentlicht, die mehr als 20.000 Mal zitiert wurden. Das Noah's Ark Laboratory ist das Huawei-Labor, das sich mit Grundlagenforschung zu künstlicher Intelligenz beschäftigt. Es verfolgt das Konzept, theoretische Forschung und Anwendungsinnovation gleichermaßen in den Vordergrund zu stellen, und setzt sich für die Förderung technologischer Innovationen und Entwicklungen im Bereich der künstlichen Intelligenz ein.

Auf der 30. ACM-Konferenz zu Knowledge Discovery und Data Mining (KDD2024), die vom 25. bis 29. August in Barcelona, ​​​​Spanien, stattfand, hielt Professor Chen Enhong vom National Key Laboratory of Cognitive Intelligence der Universität of Science and Technology of China, IEEE Fellow, gewann das gemeinsam mit Huawei Noah veröffentlichte Papier „Dataset Regeneration for Sequential Recommendation“ den einzigen Preis für die beste studentische Arbeit im Research Track der Konferenz 2024. Die ersten Autoren des Papiers sind Professor Chen Enhong und Professor Lian Defu vom National Key Laboratory of Cognitive Intelligence, USTC, sowie der Doktorand Yin Mingjia, der von Wang Haote als assoziierter Forscher Noah Liu Yong und dem Forscher Guo gemeinsam betreut wird Wei war auch an der entsprechenden Arbeit der Arbeit beteiligt. Dies ist das zweite Mal, dass Studenten aus dem Team von Professor Chen Enhong diesen Preis gewonnen haben, seit KDD ihn im Jahr 2004 ins Leben gerufen hat.

Interpretation der KDD2024 Best Student Paper, University of Science and Technology of China, Huawei Noah: New Paradigm of Sequence Recommendation DR4SR

  • Papier-Link: https://arxiv.org/abs/2405.17795
  • Code-Link: https://github.com/USTC -StarTeam/DR4SR

Forschungsmotivation

Sequenzempfehlung System (Sequential Recommender, SR) ist ein wichtiger Bestandteil moderner Empfehlungssysteme, da es darauf abzielt, sich ändernde Präferenzen der Benutzer zu erfassen. In den letzten Jahren haben Forscher große Anstrengungen unternommen, um die Fähigkeiten von Sequenzempfehlungssystemen zu verbessern. Diese Methoden folgen in der Regel einem modellzentrierten Paradigma, das darin besteht, effektive Modelle auf der Grundlage fester Datensätze zu entwickeln. Bei diesem Ansatz werden jedoch häufig potenzielle Qualitätsprobleme und Fehler in den Daten übersehen. Um diese Probleme zu lösen, haben akademische Kreise ein datenzentriertes Paradigma vorgeschlagen, das sich auf die Verwendung fester Modelle zur Generierung hochwertiger Datensätze konzentriert. Wir bezeichnen dies als das Problem der „Datensatzrekonstruktion“.

Um die besten Trainingsdaten zu erhalten, besteht die Schlüsselidee des Forschungsteams darin, einen neuen Datensatz zu erlernen, der explizit Artikelübertragungsmuster enthält. Konkret unterteilten sie den Modellierungsprozess des Empfehlungssystems in zwei Phasen: Extrahieren von Übertragungsmustern 〈🎜〉 aus dem ursprünglichen Datensatz und Lernen von Benutzerpräferenzen 〈🎜〉 basierend auf 〈🎜〉. Dieser Prozess ist eine Herausforderung, da das Erlernen einer Zuordnung von Interpretation der KDD2024 Best Student Paper, University of Science and Technology of China, Huawei Noah: New Paradigm of Sequence Recommendation DR4SR zwei implizite Zuordnungen umfasst: Interpretation der KDD2024 Best Student Paper, University of Science and Technology of China, Huawei Noah: New Paradigm of Sequence Recommendation DR4SR . Zu diesem Zweck untersuchte das Forschungsteam die Möglichkeit, einen Datensatz zu entwickeln, der die Item-Transfermuster in Interpretation der KDD2024 Best Student Paper, University of Science and Technology of China, Huawei Noah: New Paradigm of Sequence Recommendation DR4SR explizit darstellt, was es uns ermöglicht, den Lernprozess explizit in zwei Phasen zu unterteilen, in denen Interpretation der KDD2024 Best Student Paper, University of Science and Technology of China, Huawei Noah: New Paradigm of Sequence Recommendation DR4SR relativ einfacher zu erlernen ist. Daher liegt ihr Hauptaugenmerk darauf, eine effiziente Zuordnungsfunktion für Interpretation der KDD2024 Best Student Paper, University of Science and Technology of China, Huawei Noah: New Paradigm of Sequence Recommendation DR4SR zu erlernen, bei der es sich um eine Eins-zu-viele-Zuordnung handelt. Das Forschungsteam definiert diesen Lernprozess als das Datensatz-Regenerationsparadigma, wie in Abbildung 1 dargestellt, wobei „Regeneration“ bedeutet, dass keine zusätzlichen Informationen eingeführt werden und sich nur auf den Originaldatensatz verlässt. Interpretation der KDD2024 Best Student Paper, University of Science and Technology of China, Huawei Noah: New Paradigm of Sequence Recommendation DR4SRInterpretation der KDD2024 Best Student Paper, University of Science and Technology of China, Huawei Noah: New Paradigm of Sequence Recommendation DR4SRInterpretation der KDD2024 Best Student Paper, University of Science and Technology of China, Huawei Noah: New Paradigm of Sequence Recommendation DR4SR
                                                                                                                                                                                                             Abbildung. 1 Das zentrale Paradigma, Dataset Regeneration for Sequence Recommendation (DR4SR) , zielt darauf ab, den ursprünglichen Datensatz in einen informativen und verallgemeinerbaren Datensatz zu rekonstruieren. Konkret erstellte das Forschungsteam zunächst eine Vortrainingsaufgabe, um die Neugenerierung des Datensatzes zu ermöglichen. Als nächstes schlugen sie einen durch Diversität verbesserten Regenerator vor, um Eins-zu-viele-Beziehungen zwischen Sequenzen und Mustern während des Regenerationsprozesses zu modellieren. Schließlich schlagen sie eine hybride Inferenzstrategie vor, um ein Gleichgewicht zwischen Exploration und Nutzung zu finden und so neue Datensätze zu generieren.

Der Prozess der Datensatzrekonstruktion ist allgemein, eignet sich jedoch möglicherweise nicht vollständig für ein bestimmtes Zielmodell. Um dieses Problem zu lösen, schlug das Forschungsteam DR4SR+ vor, einen modellbewussten Regenerationsprozess, der den Datensatz entsprechend den Eigenschaften des Zielmodells anpasst. DR4SR+ personalisiert die Bewertung und optimiert die Muster im rekonstruierten Datensatz durch ein zweischichtiges Optimierungsproblem und implizite Differenzierungstechniken, um den Datensatzeffekt zu verbessern.

Forschungsmethoden

In dieser Studie schlug das Forschungsteam eine A-Daten- Das zentrale Framework namens „Data Regeneration for Sequence Recommendation“ (DR4SR) zielt darauf ab, den ursprünglichen Datensatz in einen informativen und verallgemeinerbaren Datensatz zu rekonstruieren, wie in Abbildung 2 dargestellt. Da der Datenregenerierungsprozess unabhängig vom Zielmodell ist, erfüllt der regenerierte Datensatz möglicherweise nicht unbedingt die Anforderungen des Zielmodells. Daher erweiterte das Forschungsteam DR4SR zu einer modellbewussten Version, nämlich DR4SR+, um den regenerierten Datensatz an das spezifische Zielmodell anzupassen.

Modellagnostische Datensatzrekonstruktion

                                                                                                                                                                                                              Abbildung 2. Regenerator um die automatische Neugenerierung von Datensätzen zu erleichtern. Allerdings fehlen im Originaldatensatz Überwachungsinformationen zum Erlernen des Datensatzregenerators. Daher müssen sie dies durch selbstüberwachtes Lernen erreichen. Zu diesem Zweck führen sie eine Vortrainingsaufgabe ein, um das Erlernen des durch Diversität verbesserten Regenerators zu steuern. Nach Abschluss des Vortrainings nutzte das Forschungsteam außerdem eine hybride Inferenzstrategie, um einen neuen Datensatz zu regenerieren.

Interpretation der KDD2024 Best Student Paper, University of Science and Technology of China, Huawei Noah: New Paradigm of Sequence Recommendation DR4SR

Aufgabe zur Datenrekonstruktion vor dem Training:‍
                                                                                                                                                                                                                                                            Abbildung 3 Dann ist der Regenerator erforderlich, um in das entsprechende Muster
regenerieren zu können. Das Forschungsteam bezeichnet den gesamten Datensatz vor dem Training als

Interpretation der KDD2024 Best Student Paper, University of Science and Technology of China, Huawei Noah: New Paradigm of Sequence Recommendation DR4SRInterpretation der KDD2024 Best Student Paper, University of Science and Technology of China, Huawei Noah: New Paradigm of Sequence Recommendation DR4SR Regenerator, der Vielfalt fördert: Interpretation der KDD2024 Best Student Paper, University of Science and Technology of China, Huawei Noah: New Paradigm of Sequence Recommendation DR4SRInterpretation der KDD2024 Best Student Paper, University of Science and Technology of China, Huawei Noah: New Paradigm of Sequence Recommendation DR4SR

Mit Mithilfe von Vorschulungsaufgaben können Forschungsteams jetzt einen Datensatz-Regenerator vorab trainieren. In diesem Artikel übernehmen sie das Transformer-Modell als Hauptarchitektur des Regenerators, und seine Erzeugungsfähigkeit wurde umfassend überprüft. Der Datensatz-Regenerator besteht aus drei Modulen: einem Encoder zum Erhalten von Sequenzdarstellungen im Originaldatensatz, einem Decoder zum Regenerieren von Mustern und einem Diversity-Enhancement-Modul zum Erfassen von Eins-zu-vielen-Zuordnungsbeziehungen. Als nächstes wird das Forschungsteam diese Module separat vorstellen.

Der Encoder besteht aus mehreren gestapelten Multi-Head-Selbstaufmerksamkeitsschichten (MHSA) und Feed-Forward-Netzwerkschichten (FFN). Der Decoder reproduziert die Muster im Datensatz X' als Eingabe. Das Ziel des Decoders besteht darin, das Muster

anhand der vom Encoder erzeugten Sequenzdarstellung zu rekonstruieren. Aus einer Sequenz können jedoch mehrere Muster extrahiert werden . Modus, der während des Trainings zu Herausforderungen führen kann. Um dieses Eins-zu-Viele-Zuordnungsproblem zu lösen, schlug das Forschungsteam außerdem ein Modul zur Diversitätsverbesserung vor.

Interpretation der KDD2024 Best Student Paper, University of Science and Technology of China, Huawei Noah: New Paradigm of Sequence Recommendation DR4SR

Konkret moduliert das Forschungsteam den Einfluss der Originalsequenz adaptiv, indem es Informationen aus dem Zielmuster in die Dekodierungsphase integriert. Zunächst projizieren sie den vom Encoder generierten Speicher
in
K
verschiedene Vektorräume, also
. Im Idealfall sollten unterschiedliche Zielmuster zu unterschiedlichen Erinnerungen passen. Zu diesem Zweck führten sie auch einen Transformer-Encoder ein, um das Zielmuster zu kodieren und
zu erhalten. Sie komprimierten
in einen Wahrscheinlichkeitsvektor:
Interpretation der KDD2024 Best Student Paper, University of Science and Technology of China, Huawei Noah: New Paradigm of Sequence Recommendation DR4SRInterpretation der KDD2024 Best Student Paper, University of Science and Technology of China, Huawei Noah: New Paradigm of Sequence Recommendation DR4SRInterpretation der KDD2024 Best Student Paper, University of Science and Technology of China, Huawei Noah: New Paradigm of Sequence Recommendation DR4SRInterpretation der KDD2024 Best Student Paper, University of Science and Technology of China, Huawei Noah: New Paradigm of Sequence Recommendation DR4SR wobei
,
die Wahrscheinlichkeiten der Auswahl des k-ten Speichers sind. Um sicherzustellen, dass jeder Speicherbereich vollständig trainiert ist, führen wir keine harte Auswahl durch, sondern ermitteln den endgültigen Speicher durch eine gewichtete Summe:

Interpretation der KDD2024 Best Student Paper, University of Science and Technology of China, Huawei Noah: New Paradigm of Sequence Recommendation DR4SR

Letztendlich kann das erworbene Gedächtnis genutzt werden, um den Dekodierungsprozess zu erleichtern und komplexe Eins-zu-viele-Beziehungen zwischen Sequenzen und Mustern effektiv zu erfassen.

Modellbewusste Datensatzregeneration

Aufgrund des vorherigen Regenerationsprozesses und des Zielmodells agnostisch, daher ist der rekonstruierte Datensatz möglicherweise nicht optimal für ein bestimmtes Zielmodell. Daher erweitern sie den modellunabhängigen Datensatzrekonstruktionsprozess zu einem modellbewussten Rekonstruktionsprozess. Zu diesem Zweck führen sie basierend auf dem Datensatzregenerator einen Datensatzpersonalisierer ein, der die Bewertung jeder Datenstichprobe im neu generierten Datensatz auswertet. Anschließend optimierte das Forschungsteam den Datensatzpersonalisierer durch implizite Differenzierung weiter effizient.

Datensatz-Personalisierung:

Ziel des Forschungsteams ist es, einen Parameter basierend auf dem implementierten Datensatz-Personalisierungstool zu trainieren von MLP, um die Bewertung jeder Datenprobe Interpretation der KDD2024 Best Student Paper, University of Science and Technology of China, Huawei Noah: New Paradigm of Sequence Recommendation DR4SRWInterpretation der KDD2024 Best Student Paper, University of Science and Technology of China, Huawei Noah: New Paradigm of Sequence Recommendation DR4SR für das Zielmodell auszuwerten. Um die Allgemeingültigkeit des Frameworks sicherzustellen, nutzte das Forschungsteam die berechneten Ergebnisse, um die Gewichte der Trainingsverluste anzupassen, was keine zusätzlichen Änderungen am Zielmodell erforderte. Sie beginnen mit der Definition des ursprünglichen Vorhersageverlusts für das nächste Element:

Interpretation der KDD2024 Best Student Paper, University of Science and Technology of China, Huawei Noah: New Paradigm of Sequence Recommendation DR4SR

Anschließend kann die Trainingsverlustfunktion für den personalisierten Datensatz wie folgt definiert werden:

Interpretation der KDD2024 Best Student Paper, University of Science and Technology of China, Huawei Noah: New Paradigm of Sequence Recommendation DR4SR

Experimenteller Abschluss

Hauptexperiment

Das Forschungsteam verglich die Leistung jedes Zielmodells mit den Varianten „DR4SR“ und „DR4SR+“, um die Wirksamkeit des vorgeschlagenen Frameworks zu überprüfen. Abbildung 4

Interpretation der KDD2024 Best Student Paper, University of Science and Technology of China, Huawei Noah: New Paradigm of Sequence Recommendation DR4SR

Aus dem in Abbildung 4 dargestellten Gesamtbild lassen sich folgende Schlussfolgerungen ziehen:

DR4SR ist in der Lage, einen informativen und allgemeingültigen Datensatz zu rekonstruieren
Unterschiedliche Zielmodelle bevorzugen unterschiedliche Datensätze
  • Rauschunterdrückung ist nur ein Teilbereich des Datenrekonstruktionsproblems

Das obige ist der detaillierte Inhalt vonInterpretation der KDD2024 Best Student Paper, University of Science and Technology of China, Huawei Noah: New Paradigm of Sequence Recommendation DR4SR. Für weitere Informationen folgen Sie bitte anderen verwandten Artikeln auf der PHP chinesischen Website!

Stellungnahme:
Der Inhalt dieses Artikels wird freiwillig von Internetnutzern beigesteuert und das Urheberrecht liegt beim ursprünglichen Autor. Diese Website übernimmt keine entsprechende rechtliche Verantwortung. Wenn Sie Inhalte finden, bei denen der Verdacht eines Plagiats oder einer Rechtsverletzung besteht, wenden Sie sich bitte an admin@php.cn