Maison  >  Article  >  Périphériques technologiques  >  Pour utiliser efficacement les intentions des utilisateurs à plusieurs niveaux, l'Université des sciences et technologies de Hong Kong, l'Université de Pékin, etc. ont proposé un nouveau modèle de recommandation de session Atten-Mixer

Pour utiliser efficacement les intentions des utilisateurs à plusieurs niveaux, l'Université des sciences et technologies de Hong Kong, l'Université de Pékin, etc. ont proposé un nouveau modèle de recommandation de session Atten-Mixer

王林
王林avant
2023-04-15 08:28:05810parcourir

En tant que technologie intelligente de filtrage des informations, le système de recommandation a été largement utilisé dans des scénarios réels. Cependant, le succès des systèmes de recommandation repose souvent sur une grande quantité de données sur les utilisateurs, qui peuvent impliquer des informations privées et sensibles sur les utilisateurs. Dans les scénarios où les informations sur les utilisateurs sont limitées par la protection de la vie privée ou ne peuvent pas être obtenues, les systèmes de recommandation traditionnels ne fonctionnent souvent pas correctement. Par conséquent, comment construire un système de recommandation fiable tout en garantissant la confidentialité et la sécurité est un problème urgent à résoudre.


Ces dernières années, alors que les utilisateurs accordent de plus en plus d'attention à leur propre vie privée, de plus en plus d'utilisateurs ont tendance à utiliser les plateformes en ligne sans se connecter, ce qui fait également des recommandations anonymes basées sur des sessions une direction de recherche importante. Récemment, des chercheurs de l'Université des sciences et technologies de Hong Kong, de l'Université de Pékin, de Microsoft Asia Research et d'autres institutions ont proposé un nouveau modèle Atten-Mixer qui utilise efficacement les intentions des utilisateurs à plusieurs niveaux. Le document de recherche a reçu une mention honorable pour le meilleur article au WSDM2023.


Pour utiliser efficacement les intentions des utilisateurs à plusieurs niveaux, lUniversité des sciences et technologies de Hong Kong, lUniversité de Pékin, etc. ont proposé un nouveau modèle de recommandation de session Atten-Mixer


Lien papier : https://dl.acm.org/doi/abs/10.1145/3539597.3570445


Contexte de recherche


La recommandation basée sur la session (SBR) est une méthode de recommandation basée sur la session courte et dynamique de l'utilisateur (c'est-à-dire la séquence de comportement de l'utilisateur).


Par rapport aux systèmes traditionnels de recommandation basés sur des utilisateurs ou des éléments, SBR se concentre davantage sur la capture des besoins immédiats de l'utilisateur dans la session en cours et peut s'adapter plus efficacement aux défis de l'évolution rapide des intérêts des utilisateurs et des besoins à long terme. effets.


Dans l'évolution du modèle SBR, des modèles basés sur le réseau neuronal récurrent (RNN) aux modèles basés sur le réseau neuronal convolutif (CNN), puis aux récents modèles basés sur le réseau neuronal graphique (GNN) sont largement utilisés dans la recherche SBR pour mieux exploiter les relations de transfert complexes entre les éléments.


Pour utiliser efficacement les intentions des utilisateurs à plusieurs niveaux, lUniversité des sciences et technologies de Hong Kong, lUniversité de Pékin, etc. ont proposé un nouveau modèle de recommandation de session Atten-Mixer


Cependant, l'amélioration des performances de ces modèles sur des ensembles de données de référence est très limitée par rapport à l'augmentation exponentielle de la complexité de leurs modèles. Face à ce phénomène, cet article soulève les questions suivantes : ces modèles basés sur GNN sont-ils trop simples ou trop complexes pour le SBR ?


Analyse préliminaire


Pour répondre à cette question, l'auteur a tenté de déconstruire les modèles SBR basés sur GNN existants et d'analyser leur rôle sur les tâches SBR.


De manière générale, un modèle SBR typique basé sur GNN peut être décomposé en deux parties :


(1) Module GNN. Les paramètres peuvent être divisés en poids de propagation pour la convolution graphique et en poids GRU pour fusionner l'intégration d'origine et la sortie de convolution graphique.

(2) Module de lecture. Les paramètres comprennent des poids de regroupement d'attention pour générer des représentations à long terme et des poids de transformation pour générer des représentations de session à des fins de prédiction.




Ensuite, l'auteur utilise Sparse Variational Dropout (SparseVD), une technologie de sparsification de réseau neuronal couramment utilisée, sur ces deux parties respectivement, et calcule les paramètres lors de l'entraînement du rapport de densité. .


Le rapport de densité d'un paramètre fait référence au rapport du nombre d'éléments supérieur à un certain seuil au nombre total d'éléments dans le poids du paramètre. Sa valeur peut être utilisée pour mesurer l'importance du paramètre.


Pour utiliser efficacement les intentions des utilisateurs à plusieurs niveaux, lUniversité des sciences et technologies de Hong Kong, lUniversité de Pékin, etc. ont proposé un nouveau modèle de recommandation de session Atten-Mixer


Module GNN.


Étant donné que GNN a de nombreux paramètres, avec une initialisation aléatoire, il y aura beaucoup de connaissances à mettre à jour au début. Par conséquent, nous pouvons voir que le rapport de densité du poids de propagation de convolution du graphique fluctuera dans les premiers lots de données. Au fur et à mesure que l'entraînement se stabilise, le rapport de densité tendra vers 0.


Pour utiliser efficacement les intentions des utilisateurs à plusieurs niveaux, lUniversité des sciences et technologies de Hong Kong, lUniversité de Pékin, etc. ont proposé un nouveau modèle de recommandation de session Atten-Mixer

Module de lecture.


Nous pouvons constater qu'au fur et à mesure que l'entraînement progresse, le rapport de densité des poids de attention regroupés peut être maintenu à un niveau élevé. Nous pouvons également observer la même tendance sur d'autres ensembles de données et d'autres modèles SBR basés sur GNN.


Par conséquent, les auteurs ont constaté que de nombreux paramètres du module GNN sont redondants pendant le processus de formation. Sur cette base, l'auteur propose les lignes directrices suivantes pour la conception de modèles plus simples et plus efficaces pour SBR :


(1) Sans trop poursuivre la conception de GNN complexe, l'auteur a tendance à supprimer la partie propagation du GNN et à ne conserver que la couche d'intégration initiale  ;

(2) Les concepteurs de modèles devraient accorder plus d'attention au module de lecture basé sur l'attention .


Étant donné que les paramètres de poids de mise en commun de l'attention maintiennent un rapport de densité élevé, l'auteur suppose qu'il sera plus bénéfique de mener une conception architecturale plus avancée sur la méthode de lecture basée sur l'attention.


Étant donné que cet article abandonne la dépendance à l'égard de la partie propagation de GNN, le module Readout devrait assumer davantage de responsabilité dans le raisonnement du modèle.


Considérant que le module de lecture existant basé sur la vue d'instance a des capacités de raisonnement limitées, cet article doit concevoir un module de lecture avec des capacités de raisonnement plus fortes.


Comment concevoir un module de lecture avec des capacités de raisonnement plus fortes


Selon les recherches en psychopathologie, le raisonnement humain est essentiellement un processus de traitement de l'information à plusieurs niveaux.


Par exemple, en considérant de manière globale les produits sous-jacents avec lesquels Alice interagit, les humains peuvent obtenir des concepts de niveau supérieur, par exemple si Alice envisage de planifier un mariage ou de décorer une nouvelle maison. Après avoir déterminé qu'Alice planifie probablement un mariage, l'humain considère alors les objets de mariage liés au bouquet, tels que les ballons de mariage, plutôt que les objets décoratifs liés au bouquet, comme une fresque murale.


L'adoption de cette stratégie de raisonnement à plusieurs niveaux dans un système de recommandation peut aider à élaguer une grande quantité d'espace de recherche, à éviter les solutions optimales locales et à converger vers une solution plus satisfaisante en considérant la tendance globale du comportement des utilisateurs.


Par conséquent, cet article espère introduire ce mécanisme de raisonnement multicouche dans la conception du module de lecture.

Pour utiliser efficacement les intentions des utilisateurs à plusieurs niveaux, lUniversité des sciences et technologies de Hong Kong, lUniversité de Pékin, etc. ont proposé un nouveau modèle de recommandation de session Atten-Mixer

Cependant, obtenir ces concepts de haut niveau n'est pas une tâche facile, car le simple fait d'énumérer ces concepts de haut niveau n'est pas réaliste et est susceptible d'introduire des concepts non pertinents et d'interférer avec les performances du modèle.

Afin de relever ce défi, cet article adopte deux biais inductifs liés au SBR : l'invariance locale et la priorité inhérente à la réduction de l'espace de recherche .

  • La priorité inhérente signifie que les derniers éléments de la session peuvent mieux refléter les intérêts actuels de l'utilisateur ;
  • L'invariance locale signifie que l'ordre relatif des derniers éléments de la session n'affecte pas l'intérêt de l'utilisateur ; ainsi, en pratique, les groupes peuvent être formés par un nombre différent d'éléments de queue, et des concepts de haut niveau associés peuvent être construits à travers ces groupes.

Ici, l'élément de queue correspond à la priorité inhérente, le groupe correspond à l'invariance locale et les différents nombres représentent les concepts multicouches de haut niveau que cet article considère.

Pour utiliser efficacement les intentions des utilisateurs à plusieurs niveaux, lUniversité des sciences et technologies de Hong Kong, lUniversité de Pékin, etc. ont proposé un nouveau modèle de recommandation de session Atten-Mixer

Modèle proposé

Par conséquent, cet article propose un modèle appelé Atten-Mixer. Le modèle peut être intégré à différents encodeurs. Pour la session d'entrée, le modèle obtient l'intégration de chaque élément à partir de la couche d'intégration. Le modèle applique ensuite une transformation linéaire à la représentation de groupe résultante pour générer des requêtes d'intention utilisateur à plusieurs niveaux.

Pour utiliser efficacement les intentions des utilisateurs à plusieurs niveaux, lUniversité des sciences et technologies de Hong Kong, lUniversité de Pékin, etc. ont proposé un nouveau modèle de recommandation de session Atten-Mixer

où Q1 est la requête d'attention de vue d'instance, tandis que les autres sont des requêtes d'attention de niveau supérieur avec différents champs de réception et informations invariantes locales. Ensuite, le modèle utilise les requêtes d'attention générées pour s'occuper de l'état caché de chaque élément de la session et obtenir la représentation finale de la session.

Pour utiliser efficacement les intentions des utilisateurs à plusieurs niveaux, lUniversité des sciences et technologies de Hong Kong, lUniversité de Pékin, etc. ont proposé un nouveau modèle de recommandation de session Atten-Mixer

Expériences et résultats

Dans l'expérience hors ligne, cet article utilise des ensembles de données de trois domaines différents : Digitalica est un ensemble de données pour les transactions de commerce électronique, Gowalla est un ensemble de données pour les réseaux sociaux et Last.fm Il s'agit d'un ensemble de données pour la recommandation musicale.

Pour utiliser efficacement les intentions des utilisateurs à plusieurs niveaux, lUniversité des sciences et technologies de Hong Kong, lUniversité de Pékin, etc. ont proposé un nouveau modèle de recommandation de session Atten-Mixer

Résultats expérimentaux hors ligne

(1) Comparaison globale

L'auteur a comparé Atten-Mixer avec quatre méthodes de base basées sur CNN, basées sur RNN, basées sur GNN et basées sur la lecture .

Les résultats expérimentaux montrent qu'Atten-Mixer surpasse les méthodes de base en termes de précision et d'efficacité sur trois ensembles de données.

Pour utiliser efficacement les intentions des utilisateurs à plusieurs niveaux, lUniversité des sciences et technologies de Hong Kong, lUniversité de Pékin, etc. ont proposé un nouveau modèle de recommandation de session Atten-Mixer

(2) Analyse de l'amélioration des performances

De plus, l'auteur a également intégré le module Atten-Mixer dans SR-GNN et SGNN-HN pour vérifier l'effet d'amélioration des performances de cette méthode sur le modèle original .

Les résultats expérimentaux hors ligne montrent qu'Atten-Mixer améliore considérablement les performances du modèle sur tous les ensembles de données, en particulier lorsque la valeur K dans l'indice d'évaluation est faible, indiquant qu'Atten-Mixer peut aider le modèle d'origine à être plus précis et plus utilisateur. recommandation amicale.

Pour utiliser efficacement les intentions des utilisateurs à plusieurs niveaux, lUniversité des sciences et technologies de Hong Kong, lUniversité de Pékin, etc. ont proposé un nouveau modèle de recommandation de session Atten-Mixer

Résultats des expériences en ligne

L'auteur a également déployé Atten-Mixer dans des services de commerce électronique en ligne à grande échelle en avril 2021. Les expériences en ligne montrent que le réseau de mélange d'attention à plusieurs niveaux (Atten-Mixer) a obtenu des résultats significatifs dans divers indicateurs commerciaux en ligne pour s'améliorer. .

Pour utiliser efficacement les intentions des utilisateurs à plusieurs niveaux, lUniversité des sciences et technologies de Hong Kong, lUniversité de Pékin, etc. ont proposé un nouveau modèle de recommandation de session Atten-Mixer

Conclusion expérimentale

Pour résumer, Atten-Mixer possède des capacités de raisonnement à plusieurs niveaux et démontre d'excellentes performances en ligne et hors ligne en termes de précision et d'efficacité. Voici quelques-unes des principales contributions :

  • Une architecture de modèle complexe n'est pas une condition nécessaire pour le SBR, et la conception architecturale innovante de la méthode de lecture basée sur l'attention est une solution efficace.
  • La corrélation de concepts à plusieurs niveaux aide à capter les intérêts des utilisateurs, et l'utilisation du biais inductif est un moyen efficace de découvrir des concepts d'ordre élevé riches en informations.

Processus de recherche

Enfin, il convient de mentionner que cet article a une expérience de développement tortueuse derrière sa nomination honoraire pour le meilleur article du WSDM2023, comme l'a présenté Haohan Wang de l'UIUC, l'un des auteurs de l'article In Dans ce cas, cet article a en fait été rejeté à plusieurs reprises au cours du processus de soumission parce qu'il était trop simple. Heureusement, l'auteur de l'article n'a pas répondu aux goûts des évaluateurs dans le but de mettre l'article de côté, mais a insisté. sa propre simplicité, et a finalement conduit à l'honneur de cet article.

Pour utiliser efficacement les intentions des utilisateurs à plusieurs niveaux, lUniversité des sciences et technologies de Hong Kong, lUniversité de Pékin, etc. ont proposé un nouveau modèle de recommandation de session Atten-Mixer

Ce qui précède est le contenu détaillé de. pour plus d'informations, suivez d'autres articles connexes sur le site Web de PHP en chinois!

Déclaration:
Cet article est reproduit dans:. en cas de violation, veuillez contacter admin@php.cn Supprimer