Maison >Périphériques technologiques >IA >Pourquoi la génération auprès de la récupération est toujours pertinente à l'ère des modèles de langage à long contexte
Explorons l'évolution de la génération (RAG) (RAG) de la récupération dans le contexte de modèles de grand langage de plus en plus puissants (LLM). Nous examinerons comment les progrès des LLM affectent la nécessité du chiffon.
Rag n'est pas un nouveau concept. L'idée de fournir un contexte à des LLM pour l'accès aux données actuelles a des racines dans un papier Facebook AI / Meta Facebook, "Génération de la récupération pour les tâches NLP à forte intensité de connaissances" - prédateur des débuts en novembre 2022 de Chatgpt. Cet article a mis en évidence deux types de mémoire pour les LLM:
Le document d'origine a utilisé des incorporations de texte pour la recherche sémantique pour récupérer des documents pertinents, bien que ce ne soit pas la seule méthode de récupération de documents en chiffon. Leurs recherches ont démontré que RAG a donné des réponses plus précises et factuelles par rapport à l'utilisation du LLM seul.
Le lancement de Chatgpt en novembre 2022 a révélé le potentiel des LLM pour la réponse aux requêtes, mais également mis en évidence les limitations:
LLMS s'appuient uniquement sur les données de formation et l'entrée rapide. Les requêtes en dehors de cette portée conduisent souvent à des réponses fabriquées.
tandis que RAG prédaté Chatgpt, son adoption généralisée a considérablement augmenté en 2023. Le concept de base est simple: au lieu d'interroger directement le LLM, fournit un contexte pertinent dans l'invite et de demander à la LLM de répondre basé uniquement sur ce contexte.
L'invite sert de point de départ du LLM pour la génération de réponses.
<code>Use the following context to answer the user's question. If you don't know the answer, say "I don't know," and do not fabricate information. ---------------- {context}</code>
Cette approche a considérablement réduit les hallucinations, permis l'accès à des données à jour et facilité l'utilisation de données spécifiques à l'entreprise.
défis initiaux centrés sur la taille limitée de la fenêtre de contexte. La limite de jeton 4K de ChatGPT-3.5 (environ 3000 mots anglais) a limité la quantité de contexte et de longueur de réponse. Un équilibre était nécessaire pour éviter des contextes excessivement longs (limiter la durée de réponse) ou un contexte insuffisant (risquant l'omission d'informations cruciales).
La fenêtre de contexte agit comme un tableau noir limité; Plus d'espace pour les instructions laisse moins pour la réponse.
Des changements importants se sont produits depuis lors, principalement concernant la taille de la fenêtre de contexte. Des modèles comme GPT-4O (publié en mai 2024) possèdent une fenêtre de contexte de jeton de 128K, tandis que Gemini 1.5 de Google (disponible depuis février 2024) offre une fenêtre de jeton massive de 1 million de jetons.
Cette augmentation de la taille des fenêtres de contexte a déclenché un débat. Certains soutiennent qu'avec la capacité d'inclure des livres entiers dans l'invite, le besoin d'un contexte soigneusement sélectionné est diminué. Une étude (juillet 2024) a même suggéré que les invites de contexte à long terme pourraient surpasser le chiffon dans certains scénarios.
GÉNÉRATION AUGMÉDÉE DE RECOURATION OU LLMS DE CONTAT-CONTEXT? Une étude complète et une approche hybride
Cependant, une étude plus récente (septembre 2024) a contré cela, soulignant l'importance du chiffon et suggérant que les limitations précédentes découlent de l'ordre des éléments de contexte dans l'invite.
Pour défendre le chiffon à l'ère des modèles de langage à long contexte
Une autre étude pertinente (juillet 2023) a mis en évidence l'impact positionnel des informations dans de longues invites.
perdu au milieu: comment les modèles de langue utilisent des contextes longs
Les informations au début de l'invite sont plus facilement utilisées par le LLM que les informations au milieu.
Malgré les progrès de la taille des fenêtres de contexte, le chiffon reste crucial, principalement en raison de considérations de coûts. Des invites plus longues exigent plus de puissance de traitement. Le chiffon, en limitant la taille rapide des informations essentielles, réduit considérablement les coûts de calcul. L'avenir du RAG peut impliquer le filtrage d'informations non pertinentes à partir de grands ensembles de données pour optimiser la qualité des coûts et des réponses. L'utilisation de modèles plus petits et spécialisés adaptés à des tâches spécifiques jouera également un rôle important.
Ce qui précède est le contenu détaillé de. pour plus d'informations, suivez d'autres articles connexes sur le site Web de PHP en chinois!