Maison >Périphériques technologiques >IA >Effectuez un « examen physique » complet du système RAG avec l'outil de diagnostic open source RAGChecker d'Amazon.

Effectuez un « examen physique » complet du système RAG avec l'outil de diagnostic open source RAGChecker d'Amazon.

WBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBoriginal: 2024-08-19 04:29:321063parcourir

Effectuez un « examen physique » complet du système RAG avec loutil de diagnostic open source RAGChecker dAmazon.

La rubrique AIxiv est une rubrique où ce site publie du contenu académique et technique. Au cours des dernières années, la rubrique AIxiv de ce site a reçu plus de 2 000 rapports, couvrant les meilleurs laboratoires des principales universités et entreprises du monde entier, favorisant efficacement les échanges et la diffusion académiques. Si vous souhaitez partager un excellent travail, n'hésitez pas à contribuer ou à nous contacter pour un rapport. Courriel de soumission : liyazhou@jiqizhixin.com ; zhaoyunfeng@jiqizhixin.com

L'Institut de recherche sur l'intelligence artificielle d'Amazon Shanghai a été créé en 2018 et est devenu l'une des principales institutions dans le domaine de la recherche sur l'apprentissage profond, avec un total d'environ 90 publications. Les domaines de recherche comprennent les théories de base de l'apprentissage profond, du traitement du langage naturel, de la vision par ordinateur, de l'apprentissage automatique des graphes, du calcul haute performance, des systèmes de recommandation intelligents, de la détection de la fraude et du contrôle des risques, de la construction de graphes de connaissances et des systèmes de prise de décision intelligents. L'institut a pris la tête de la recherche et du développement de la principale bibliothèque d'apprentissage profond des graphes au monde, Deep Graph Library (DGL), qui combine les avantages de l'apprentissage profond et de la représentation de la structure graphique et touche de nombreux domaines d'application importants.

La technologie de génération augmentée de récupération (RAG) révolutionne le domaine des applications d'IA grâce à l'intégration transparente de la base de connaissances externe et des connaissances internes du LLM, elle améliore considérablement la précision et la fiabilité des systèmes d'IA. Cependant, comme les systèmes RAG sont largement déployés dans diverses industries, leur évaluation et leur optimisation sont confrontées à des défis importants. Les méthodes d'évaluation existantes, qu'il s'agisse de métriques traditionnelles de bout en bout ou d'évaluation d'un seul module, sont difficiles à refléter pleinement la complexité et les performances réelles des systèmes RAG. En particulier, ils ne peuvent fournir qu'un rapport de note final qui reflète uniquement les performances du système RAG.

Les gens doivent se rendre à l'hôpital pour un examen lorsqu'ils sont malades. Alors si le système RAG est malade, comment le diagnostiquer ?

Récemment, l'Institut de recherche sur l'intelligence artificielle d'Amazon Shanghai a lancé un outil de diagnostic appelé RAGChecker pour fournir des rapports de diagnostic précis, complets et fiables pour le système RAG, et pour améliorer encore les performances, fournir des directions de opération . Cet article présente en détail ce « microscope » RAG pour voir comment il peut aider les développeurs à créer des systèmes RAG plus intelligents et plus fiables.

Effectuez un « examen physique » complet du système RAG avec loutil de diagnostic open source RAGChecker dAmazon.

Article : https://arxiv.org/pdf/2408.08067
Adresse du projet : https://github.com/amazon-science/RAGChecker

RAGCheck euh : OUTILS DE DIAGNOSTIC COMPLETS POUR LE SYSTÈME RAG

Imaginez ce que ce serait si nous pouvions procéder à un « examen physique » complet du système RAG ? RAGChecker est fait pour cela. Il évalue non seulement les performances globales du système, mais fournit également une analyse approfondie des performances des deux modules principaux de récupération et de génération.

Effectuez un « examen physique » complet du système RAG avec loutil de diagnostic open source RAGChecker dAmazon.

Les principales fonctionnalités de RAGChecker incluent :

Évaluation fine : RAGChecker utilise la vérification des implications au niveau de la revendication au lieu d'une simple évaluation au niveau de la réponse. Cette approche permet une analyse plus détaillée et nuancée des performances du système, fournissant ainsi des informations approfondies.
Système d'indicateurs complet : ce cadre fournit un ensemble d'indicateurs couvrant tous les aspects des performances du système RAG, y compris la fidélité, l'utilisation du contexte, la sensibilité au bruit et les hallucinations.
Validité prouvée : les tests de fiabilité montrent que les résultats de l'évaluation de RAGChecker sont fortement corrélés au jugement humain, surpassant les autres mesures d'évaluation existantes. Cela garantit la crédibilité et le caractère pratique des résultats de l’évaluation.
Informations exploitables : les mesures de diagnostic fournies par RAGChecker fournissent des indications claires pour améliorer votre système RAG. Ces informations peuvent aider les chercheurs et les praticiens à développer des applications d’IA plus efficaces et plus fiables.

Les indicateurs de base de RAGChecker

Le système d'indicateurs de RAGChecker peut être compris intuitivement à l'aide de la figure suivante :

Effectuez un « examen physique » complet du système RAG avec loutil de diagnostic open source RAGChecker dAmazon.

Ces indicateurs sont répartis en trois grandes catégories :

1. Indicateurs globaux :

Précision : la proportion d'énoncés corrects dans les réponses du modèle
Rappel : Proportion d'énoncés dans les réponses standards inclus dans les réponses du modèle
Score F1 (score F1) : la moyenne harmonique de précision et de rappel, fournissant une mesure de performance équilibrée

2. : La proportion de blocs qui contiennent au moins une déclaration de réponse standard parmi tous les blocs récupérés

Rappel de réclamation : Les réponses standard couvertes par les blocs récupérés Proportion de déclarations

Utilisation du contexte : évalue l'efficacité avec laquelle le module de génération utilise les informations pertinentes obtenues à partir du bloc de récupération pour produire des instructions correctes. Cette métrique reflète l'efficacité avec laquelle le système utilise les informations récupérées.

Sensibilité au bruit : mesure de la tendance du module de génération à inclure des informations erronées du bloc de récupération dans ses réponses. Cette métrique permet d'identifier la sensibilité d'un système aux informations non pertinentes ou erronées.

Hallucination : mesure la fréquence à laquelle le modèle génère des informations qui ne figurent ni dans le bloc de récupération ni dans la réponse standard. Cela revient à capturer la situation dans laquelle le modèle « invente » des informations à partir de rien et constitue un indicateur important pour évaluer la fiabilité du modèle.
Connaissance de soi : évalue la fréquence à laquelle le modèle répond correctement aux questions sans obtenir d'informations du bloc de récupération. Cela reflète la capacité du modèle à exploiter ses propres connaissances intégrées en cas de besoin.
Fidélité : Mesure la cohérence de la réponse du module de génération avec les informations fournies par le bloc de récupération. Cette métrique reflète la conformité du système avec les informations fournies.

Commencez à utiliser RAGChecker

Pour les développeurs qui souhaitent essayer RAGChecker, le processus de démarrage est très simple. Voici les étapes pour démarrer rapidement :

1. Configuration de l'environnement : Tout d'abord, installez RAGChecker et ses dépendances :

pip install ragcheckerpython -m spacy download en_core_web_sm

2. Préparez les données : Préparez la sortie du système RAG dans un. format JSON spécifique, inclut le contexte pour les requêtes, les réponses standard, les réponses modèles et la récupération. Le format des données devrait ressembler à ceci :

{ "results": [ { "query_id": "< 查询 ID>", "query": "< 输入查询 >", "gt_answer": "< 标准答案 >", "response": "<RAG 系统生成的回答 >", "retrieved_context": [ { "doc_id": "< 文档 ID>", "text": "< 检索块的内容 >" }, ... ] }, ... ]   }

3. Exécutez l'évaluation :

Utilisez la ligne de commande :

ragchecker-cli \--input_path=examples/checking_inputs.json \--output_path=examples/checking_outputs.json

from ragchecker import RAGResults, RAGCheckerfrom ragchecker.metrics import all_metrics# 从 JSON 初始化 RAGResultswith open ("examples/checking_inputs.json") as fp:rag_results = RAGResults.from_json (fp.read ())# 设置评估器evaluator = RAGChecker ()# 评估结果evaluator.evaluate (rag_results, all_metrics)print (rag_results)

4. Résultats de l'analyse : RAGChecker produira des fichiers au format json pour afficher des indicateurs d'évaluation afin de vous aider à comprendre les performances de tous les aspects du système RAG.

Le format du résultat de sortie est le suivant :

En analysant ces indicateurs, les développeurs peuvent optimiser de manière ciblée différents aspects du système RAG. Par exemple :

Un rappel de réclamation inférieur peut indiquer la nécessité d'améliorer les stratégies de récupération. Cela signifie que le système n'a peut-être pas récupéré suffisamment d'informations pertinentes et doit optimiser l'algorithme de récupération ou élargir la base de connaissances.
La sensibilité élevée au bruit indique que le module de génération doit améliorer ses capacités de raisonnement pour mieux distinguer les informations pertinentes des détails non pertinents ou erronés du contexte récupéré. Cela peut nécessiter d’améliorer les méthodes de formation du modèle ou d’améliorer sa capacité à comprendre le contexte.
Des scores d'hallucination élevés peuvent indiquer la nécessité de mieux intégrer le module de génération avec le contexte récupéré. Cela pourrait impliquer d'améliorer la manière dont le modèle exploite les informations récupérées ou d'augmenter sa fidélité aux faits.
L'équilibre entre l'utilisation du contexte et la connaissance de soi peut vous aider à optimiser le compromis entre l'utilisation des informations de récupération et les connaissances inhérentes au modèle. Cela peut impliquer d'ajuster dans quelle mesure le modèle s'appuie sur les informations de récupération ou d'améliorer sa capacité à combiner plusieurs sources d'informations.

De cette manière, RAGChecker fournit non seulement une évaluation détaillée des performances, mais fournit également des conseils clairs sur la direction d'optimisation spécifique du système RAG.

Utilisation de RAGChecker dans LlamaIndex

RAGChecker est désormais intégré à LlamaIndex, fournissant un outil d'évaluation puissant pour les applications RAG construites avec LlamaIndex. Si vous souhaitez savoir comment utiliser RAGChecker dans le projet LlamaIndex, vous pouvez vous référer à la section sur l'intégration de RAGChecker dans la documentation de LlamaIndex.

Conclusion

RAGChecker fournit un nouvel outil pour l'évaluation et l'optimisation des systèmes RAG. Il fournit aux développeurs un « microscope » pour les aider à acquérir une compréhension approfondie et à optimiser avec précision le système RAG. Que vous soyez un universitaire étudiant la technologie RAG ou un ingénieur travaillant au développement d'applications d'IA plus intelligentes, RAGChecker sera votre assistant droit indispensable. Les lecteurs peuvent visiter https://github.com/amazon-science/RAGChecker pour plus d'informations ou pour participer au développement du projet.

Ce qui précède est le contenu détaillé de. pour plus d'informations, suivez d'autres articles connexes sur le site Web de PHP en chinois!

Python json github 算法人工智能 https

Déclaration：

Le contenu de cet article est volontairement contribué par les internautes et les droits d'auteur appartiennent à l'auteur original. Ce site n'assume aucune responsabilité légale correspondante. Si vous trouvez un contenu suspecté de plagiat ou de contrefaçon, veuillez contacter admin@php.cn

Article précédent：Grand modèle mathématique open source DeepSeek, nouveau SOTA pour la preuve de théorèmes au lycée et au collègeArticle suivant：Grand modèle mathématique open source DeepSeek, nouveau SOTA pour la preuve de théorèmes au lycée et au collège

Articles Liés

Voir plus