Comprendre les métriques du taux de réussite, de MRR et de ROR-IA-php.cn

Maison

Périphériques technologiques

Comprendre les métriques du taux de réussite, de MRR et de ROR

尊渡假赌尊渡假赌尊渡假赌

Apr 21, 2025 am 09:44 AM

Introduction

Imaginez parcourir une librairie pour la lecture parfaite. Vous avez envie de recommandations spécifiques au genre, mais désirez la variété de découvrir de nouveaux auteurs. Les systèmes de génération (RAG) de la récupération (RAG) fonctionnent de manière similaire, mélangeant la récupération des informations avec la génération de réponse créative. L'évaluation de leurs performances nécessite des mesures comme le taux de réussite (mesurer des recommandations réussies) et le rang réciproque moyen (MRR, considérant l'ordre de recommandation). La pertinence marginale maximale (MMR) assure à la fois la pertinence et la diversité dans les suggestions. Ces mesures garantissent des recommandations précises, variées et engageantes.

Aperçu

Ce guide explore le taux de tubes, le MMR et leurs rôles dans l'évaluation des systèmes de chiffon. Vous apprendrez à appliquer le ROR pour équilibrer la pertinence et la diversité dans les résultats récupérés, calculer le taux de réussite et le MRR pour évaluer l'efficacité de la récupération et analyser / améliorer les systèmes de chiffon en utilisant ces mesures de performance.

Table des matières

Qu'est-ce que le taux de succès?
Calculer le taux de réussite
Limitations de taux de touche
Rang réciproque moyen (MRR)
Calcul de MRR
Pertinence marginale maximale (MMR)
Calcul de MMR
Exemple MMR
Questions fréquemment posées

Qu'est-ce que le taux de succès?

Le taux de succès évalue les performances du système de recommandation en mesurant la fréquence à laquelle l'élément souhaité apparaît dans les recommandations Top-N. En chiffon, il signifie la fréquence d'incorporation avec succès des données pertinentes dans la sortie générée.

Calculer le taux de réussite?

Le taux de succès est calculé en divisant le nombre de requêtes où l'élément pertinent apparaît dans les recommandations Top-N par le nombre total de requêtes. Mathématiquement:

Comprendre les métriques du taux de réussite, de MRR et de ROR

Exemple: trois requêtes (Q1, Q2, Q3) avec des nœuds cibles correspondants (N1, N2, N3). Les nœuds récupérés sont:

Comprendre les métriques du taux de réussite, de MRR et de ROR

Le taux de succès est de 1 pour les Q1 et Q2, 0 pour le Q3. Donc:

Comprendre les métriques du taux de réussite, de MRR et de ROR

Limitations de taux de touche

La limitation principale de Hit Rate est son mépris pour la position du nœud récupéré. Considérez deux retrievers:

Comprendre les métriques du taux de réussite, de MRR et de ROR

Les deux ont le même taux de réussite (66,66%), mais Retriever 2 classe systématiquement les nœuds corrects plus élevés (position 1 par rapport à la position 3 pour le premier trimestre). Cela met en évidence la nécessité d'une métrique qui considère le classement.

Rang réciproque moyen (MRR)

Le rang réciproque (MRR) évalue les systèmes de récupération d'informations en considérant le rang du premier élément pertinent dans une liste de classement. En RAG, il évalue les performances de la composante de récupération pour trouver des documents pertinents pour une génération de réponse précise.

Calcul de MRR?

Comprendre les métriques du taux de réussite, de MRR et de ROR

Où n est le nombre de requêtes, et Ranki est le rang du premier document pertinent pour la requête i.

Exemple:

Comprendre les métriques du taux de réussite, de MRR et de ROR

MRR pour Q1 est 1/3. Donc:

Comprendre les métriques du taux de réussite, de MRR et de ROR

Notez que malgré un taux de réussite de 66,66%, le MRR est de 44,4%, récompensant les récupérateurs qui placent des éléments pertinents plus élevés.

Pertinence marginale maximale (MMR)

La pertinence marginale maximale (MMR) remonte les résultats pour optimiser à la fois la pertinence et la diversité. Il équilibre la nouveauté et la pertinence pour s'assurer que les éléments récupérés abordent de manière globale les aspects de la requête.

Calcul du MMR?

Comprendre les métriques du taux de réussite, de MRR et de ROR

λ (MMR_Threshold) contrôle le compromis pertinence / diversité. λ près de 1 priorise la pertinence; λ près de 0 priorise la diversité.

Exemple MMR

En utilisant le même exemple que le taux de réussite, avec des scores de pertinence et de similitude supposés, et λ = 0,5:

Comprendre les métriques du taux de réussite, de MRR et de ROR

Le calcul MMR détaillé et la relance pour les Q1, Q2 et Q3 sont fournis dans le document d'origine. Les nœuds finaux reclassés illustrent l'équilibre que MMR obtient entre la pertinence et la diversité.

Conclusion

Le taux de succès, le MRR et le MMR sont cruciaux pour évaluer et améliorer les systèmes de chiffon. Le taux de réussite et le MRR se concentrent sur la fréquence et le classement de la récupération des informations pertinentes, tandis que le MMR équilibre la pertinence et la diversité. L'optimisation de ces mesures améliore la qualité de la réponse du système de chiffon et l'expérience utilisateur.

Questions fréquemment posées

Q1. Qu'est-ce que le taux de succès? R. C'est le rapport des requêtes avec des éléments pertinents dans les recommandations top-n au nombre total de requêtes.

Q2. Qu'est-ce que MMR? A. La pertinence marginale maximale est une technique de reconstitution équilibrant la pertinence et la diversité dans les résultats récupérés.

Q3. Pourquoi le taux de réussite est-il important pour le chiffon? A. Un taux de succès plus élevé indique une meilleure récupération des informations pertinentes, conduisant à des réponses plus précises.

Q4. Pourquoi le MMR est-il important pour le chiffon? A. MMR assure des résultats divers et pertinents, fournissant des réponses complètes aux questions.

Ce qui précède est le contenu détaillé de. pour plus d'informations, suivez d'autres articles connexes sur le site Web de PHP en chinois!

Déclaration

Le contenu de cet article est volontairement contribué par les internautes et les droits d'auteur appartiennent à l'auteur original. Ce site n'assume aucune responsabilité légale correspondante. Si vous trouvez un contenu suspecté de plagiat ou de contrefaçon, veuillez contacter admin@php.cn

Article connexe

Une invite peut contourner toutes les garanties de LLM majeuresApr 25, 2025 am 11:16 AM

Les recherches révolutionnaires de Hiddenlayer expose une vulnérabilité critique dans les principaux modèles de grande langue (LLM). Leurs résultats révèlent une technique de contournement universelle, surnommée "Policy Puppetry", capable de contourner presque tous les principaux LLM

5 erreurs que la plupart des entreprises feront cette année avec la durabilitéApr 25, 2025 am 11:15 AM

La pression pour la responsabilité environnementale et la réduction des déchets modifie fondamentalement le fonctionnement des entreprises. Cette transformation affecte le développement de produits, les processus de fabrication, les relations clients, la sélection des partenaires et l'adoption de nouveaux

H20 Chip Ban Jolts China Ai Cirmères, mais ils ont longtemps contrecarré pour l'impactApr 25, 2025 am 11:12 AM

Les récentes restrictions sur le matériel avancé d'IA mettent en évidence l'escalade de la concurrence géopolitique pour la domination de l'IA, exposant la dépendance de la Chine à l'égard de la technologie des semi-conducteurs étrangers. En 2024, la Chine a importé un énorme semi-conducteur de 385 milliards de dollars

Si Openai achète Chrome, AI peut gouverner les guerres du navigateurApr 25, 2025 am 11:11 AM

La cession potentielle forcée de Chrome de Google a déclenché un débat intense au sein de l'industrie technologique. La perspective d'Openai acquérir le principal navigateur, offrant une part de marché mondiale de 65%, soulève des questions importantes sur l'avenir du th

Comment l'IA peut résoudre les douleurs croissantes des médias de vente au détailApr 25, 2025 am 11:10 AM

La croissance des médias de la vente au détail ralentit, malgré le dépassement global de la croissance publicitaire. Cette phase de maturation présente des défis, notamment la fragmentation des écosystèmes, la hausse des coûts, les problèmes de mesure et les complexités d'intégration. Cependant, l'intelle artificielle

'L'IA est nous, et c'est plus que nous'Apr 25, 2025 am 11:09 AM

Une vieille radio crépite avec statique au milieu d'une collection d'écrans vacillants et inertes. Ce tas précaire d'électronique, facilement déstabilisé, constitue le cœur de "The E-Waste Land", l'une des six installations de l'exposition immersive, et

Google Cloud devient plus sérieux au sujet de l'infrastructure au prochain 2025Apr 25, 2025 am 11:08 AM

Google Cloud's Next 2025: Un accent sur l'infrastructure, la connectivité et l'IA La prochaine conférence de Google Cloud en 2025 a présenté de nombreuses progrès, trop pour détaillants ici. Pour des analyses approfondies des annonces spécifiques, reportez-vous aux articles de mon

Talking Baby Ai Meme, le pipeline de films AI de 5,5 millions de dollars d'Arcana, a révélé des bailleurs de fonds secrètes d'IrApr 25, 2025 am 11:07 AM

Cette semaine dans AI et XR: une vague de créativité alimentée par l'IA balaie les médias et le divertissement, de la génération de musique à la production de films. Plongeons dans les gros titres. Impact croissant du contenu généré par l'AI: Shelly Palme, consultante en technologie, Shelly Palme

See all articles

Outils d'IA chauds

Undresser.AI Undress

Application basée sur l'IA pour créer des photos de nu réalistes

AI Clothes Remover

Outil d'IA en ligne pour supprimer les vêtements des photos.

Undress AI Tool

Images de déshabillage gratuites

Clothoff.io

Dissolvant de vêtements AI

Video Face Swap

Échangez les visages dans n'importe quelle vidéo sans effort grâce à notre outil d'échange de visage AI entièrement gratuit !

Afficher plus

Article chaud

Assassin's Creed Shadows: Solution d'énigmes de coquille

4 Il y a quelques semainesByDDD

Quoi de neuf dans Windows 11 KB5054979 et comment résoudre les problèmes de mise à jour

3 Il y a quelques semainesByDDD

Où trouver la courte de la grue à atomide atomique

4 Il y a quelques semainesByDDD

<🎜>: Dead Rails - Comment relever chaque défi

1 Il y a quelques moisByDDD

Guide de l'atomfall: emplacements des articles, guides de quête et conseils

1 Il y a quelques moisByDDD

Afficher plus

Outils chauds

Adaptateur de serveur SAP NetWeaver pour Eclipse

Intégrez Eclipse au serveur d'applications SAP NetWeaver.

DVWA

Damn Vulnerable Web App (DVWA) est une application Web PHP/MySQL très vulnérable. Ses principaux objectifs sont d'aider les professionnels de la sécurité à tester leurs compétences et leurs outils dans un environnement juridique, d'aider les développeurs Web à mieux comprendre le processus de sécurisation des applications Web et d'aider les enseignants/étudiants à enseigner/apprendre dans un environnement de classe. Application Web sécurité. L'objectif de DVWA est de mettre en pratique certaines des vulnérabilités Web les plus courantes via une interface simple et directe, avec différents degrés de difficulté. Veuillez noter que ce logiciel