Maison  >  Article  >  Périphériques technologiques  >  Algorithme de recommandation Twitter open source de Musk, GitHub a atteint 10 000 étoiles en quelques secondes et a promis d'évoluer toutes les 24 à 48 heures

Algorithme de recommandation Twitter open source de Musk, GitHub a atteint 10 000 étoiles en quelques secondes et a promis d'évoluer toutes les 24 à 48 heures

王林
王林avant
2023-04-11 12:34:031790parcourir

​L’engagement open source de Musk s’est enfin réalisé.

Tout à l'heure, Musk a officiellement annoncé :

La plupart des algorithmes de recommandation (de Twitter) seront aujourd'hui open source, et les autres suivront.

Algorithme de recommandation Twitter open source de Musk, GitHub a atteint 10 000 étoiles en quelques secondes et a promis dévoluer toutes les 24 à 48 heures

Et Musk a immédiatement montré l'adresse du code source de l'algorithme de recommandation Twitter sur GitHub.

En quelques heures seulement, des dizaines de milliers d'étoiles ont été obtenues :

Algorithme de recommandation Twitter open source de Musk, GitHub a atteint 10 000 étoiles en quelques secondes et a promis dévoluer toutes les 24 à 48 heures

De plus, Musk a également déclaré :

Twitter mettra à jour l'algorithme de recommandation en fonction des suggestions des utilisateurs toutes les 24 à 48 heures.

Algorithme de recommandation Twitter open source de Musk, GitHub a atteint 10 000 étoiles en quelques secondes et a promis dévoluer toutes les 24 à 48 heures

À ce stade, le vrai visage de ce grand algorithme qui prétend faire des recommandations à partir de 500 millions de tweets chaque jour a enfin été révélé.

À quoi ressemble l’algorithme de recommandation de Twitter ?

Selon les rapports, le système de recommandation de Twitter est basé sur un ensemble de modèles et de fonctions de base qui peuvent extraire des informations potentielles à partir des tweets, des utilisateurs et des données d'interaction.

Le rôle de ces modèles est de répondre à des questions importantes sur le réseau Twitter, telles que « Quelle est la probabilité que vous interagiez avec un autre utilisateur dans le futur » ou « Quelles communautés existe-t-il sur Twitter et quelles sont leurs communautés ? » tendances des tweets ?"

Si vous pouvez répondre à ces questions avec précision, vous pouvez laisser Twitter fournir des recommandations plus pertinentes.

Le système de recommandation de Twitter se compose de trois parties :

  • Obtenez les meilleurs tweets de différentes sources de recommandation, ce processus est appelé sources candidates.
  • Utilisez des modèles d'apprentissage automatique pour classer chaque tweet.
  • Appliquez des heuristiques et des filtres, tels que le filtrage des tweets des utilisateurs bloqués, du contenu NSFW et des tweets vus.

Le service responsable de la construction et de la livraison de la timeline "For You" s'appelle "Home Mixer".

"Home Mixer" est construit sur "Product Mixer", un framework Scala personnalisé qui permet de créer des flux dynamiques de contenu.

Ce service sert d'épine dorsale au logiciel, connectant différentes sources de candidats, fonctions de notation, heuristiques et filtres.

Algorithme de recommandation Twitter open source de Musk, GitHub a atteint 10 000 étoiles en quelques secondes et a promis dévoluer toutes les 24 à 48 heures

Sources de candidats

Twitter utilise plusieurs sources de candidats pour récupérer des tweets récents et pertinents pour les utilisateurs.

Pour chaque demande, Twitter essaie d'extraire les 1 500 meilleurs tweets d'un pool de centaines de millions de tweets via ces sources.

Trouvez des candidats parmi les personnes que vous suivez (réseau interne) et celles que vous ne suivez pas (réseau externe).

Aujourd'hui, la timeline « Recommandé pour vous » est composée en moyenne de 50 % de tweets du réseau interne et de 50 % de tweets du réseau externe (même si cela peut varier d'un utilisateur à l'autre).

In-Network Source

In-Network Source est la plus grande source de candidats et vise à fournir les tweets les plus pertinents et les plus récents aux utilisateurs que vous suivez.

Il utilise un modèle de régression logistique pour classer efficacement les tweets des personnes que vous suivez, en fonction de leur pertinence. Les tweets les mieux classés sont ensuite envoyés à l'étape suivante.

L'élément le plus important du classement des tweets du réseau interne est le Real Graph.

Real Graph est un modèle utilisé pour prédire la probabilité d'interaction entre deux utilisateurs. Plus le score Real Graph entre l’utilisateur et l’auteur du tweet est élevé, plus leurs tweets seront inclus.

Les sources Web internes ont récemment fait l’objet de recherches sur Twitter. Twitter a récemment cessé d'utiliser le service Fanout, un service vieux de 12 ans qu'il utilisait pour diffuser les tweets de son réseau interne à partir du cache de tweets de chaque utilisateur.

Sources hors réseau

Trouver des tweets pertinents en dehors du réseau d'un utilisateur est un problème délicat.

Car si vous ne suivez pas l’auteur, comment savoir si un tweet vous concerne ?

À cette fin, Twitter a adopté deux approches pour résoudre ce problème.

L’un est le graphique social.

Cette méthode consiste à estimer ce que vous trouverez pertinent en analysant les activités des personnes que vous suivez ou qui ont des intérêts similaires.

Parcourez principalement le graphique des participants et suivez les étapes ci-dessous pour répondre aux questions suivantes :

  • Qu'ont récemment publié les personnes que je suis sur Twitter ?
  • Qui aime les tweets similaires comme moi et qu’ont-ils aimé d’autre récemment ?

L'équipe génère des tweets de candidats en fonction des réponses à ces questions et utilise un modèle logit pour classer les tweets résultants.

Ce type de parcours de graphiques est essentiel pour les recommandations de réseaux externes ; l'équipe a développé GraphJet, un moteur de traitement de graphiques qui maintient un graphique d'interaction en temps réel entre les utilisateurs et les tweets, pour effectuer ces parcours.

Bien que cette heuristique pour rechercher l'engagement sur Twitter et suivre les réseaux se soit avérée utile, l'approche spatiale intégrée est devenue une plus grande source de tweets provenant de réseaux externes.

Le deuxième est Embedding Spaces.

L'approche spatiale intégrée vise à répondre à une question plus générale sur la similarité du contenu : quels tweets et quels utilisateurs partagent mes intérêts ?

Les intégrations fonctionnent en générant une représentation numérique des intérêts des utilisateurs et du contenu des tweets. La similarité entre deux utilisateurs, tweets ou paires utilisateur-tweet dans cet espace d'intégration peut ensuite être calculée.

Cette similarité peut être utilisée comme substitut à la corrélation tant qu'une intégration précise est générée.

L'un des espaces d'intégration les plus utiles de Twitter est SimClusters.

SimClusters utilise un algorithme de factorisation matricielle personnalisé pour découvrir des communautés ancrées par un groupe d'utilisateurs influents (145 000 communautés, mises à jour toutes les trois semaines).

Les utilisateurs et les tweets sont représentés dans les espaces communautaires et peuvent appartenir à plusieurs communautés. La taille de la communauté varie de quelques milliers d'utilisateurs dans des groupes d'amis personnels à des centaines de millions d'utilisateurs dans l'actualité ou la culture pop :

Algorithme de recommandation Twitter open source de Musk, GitHub a atteint 10 000 étoiles en quelques secondes et a promis dévoluer toutes les 24 à 48 heures

...

Pour plus de détails, veuillez cliquer sur le lien à la fin de l'article~

One More Thing

L'algorithme de Twitter est open source, et les internautes rapides... ont commencé à résumer comment devenir un grand V basé sur l'algorithme :

Le rapport entre le nombre de personnes que vous suivez et le nombre de personnes qui vous suivent est très important, et l'abonnement à TwitterBlue joue un certain rôle... …

Algorithme de recommandation Twitter open source de Musk, GitHub a atteint 10 000 étoiles en quelques secondes et a promis dévoluer toutes les 24 à 48 heures

Lien de référence :
[1]​​​https://www.php.cn/link /ce2b9a26bddc32cba5af69372ee14c00​​​
[2]​​​https://www.php .cn/link/e55bc0255c752d1cb05da10c0f1f5026​​​
[3]​​​https://www.php.cn/link /10fe8dc69a0964edc16fed1a1bd55716​​​
[4]​​​https:// www.php .cn/link/51f4efbfb3e18f4ea053c4d3d282c4e2​

Ce qui précède est le contenu détaillé de. pour plus d'informations, suivez d'autres articles connexes sur le site Web de PHP en chinois!

Déclaration:
Cet article est reproduit dans:. en cas de violation, veuillez contacter admin@php.cn Supprimer