Maison >Périphériques technologiques >IA >Réflexion Llama-3.1 70b: test et résumé de ce que nous savons

Réflexion Llama-3.1 70b: test et résumé de ce que nous savons

Jennifer Anistonoriginal: 2025-03-04 10:00:19145parcourir

Réflexion Llama 3.1: un LLM auto-corrégé publié le 6 septembre 2024

Réflexion Llama 3.1, une version raffinée du modèle d'instruct de Llama 3.1 70b, a fait ses débuts le 6 septembre 2024. Sa "réglage de réflexion" innovante permet la détection et la correction de l'auto-erreur, visant une précision accrue. Cet article explore le modèle, ses fonctionnalités et comment l'accès et le tester.

Réflexion Llama 3.1: Développement et chronologie

Le lancement du modèle a généré un buzz significatif, offrant initialement des performances supérieures aux modèles de source fermée comme GPT-4O et Claude 3.5 Sonnet sur les tests de référence. Cependant, les tests ultérieurs par analyse artificielle ont révélé des incohérences. Un téléchargement initial sur le visage étreint contenait une erreur de pondération. Une version corrigée, déployée sur OpenRouter, a découvert une auto-identification inattendue en tant que Claude Sonnet 3.5, soulevant des questions sur sa véritable fondation. Alors que les tests API privés ont montré des performances améliorées, la vérification indépendante est restée impossible. La dernière itération des étreintes, bien que accessible via ce lien [lien omis selon le texte d'origine], a démontré des performances inférieures à la version privée de l'API. Les problèmes de reproductibilité persistent, laissant les capacités réelles du modèle incertaines.

Comprendre la réflexion Llama 3.1

Réflexion LLAMA 3.1 exploite le modèle d'instruction LLAMA 3.1 70b et intègre le réglage de la réflexion. Ce processus implique:

Tags de réflexion (<thinking></thinking>): Le modèle détaille son processus de raisonnement.
Tags de réflexion (<reflection></reflection>): Le modèle identifie et corrige les erreurs dans son raisonnement.
Tags de sortie (<output></output>): Le modèle présente sa réponse finale.

Cette approche structurée améliore la transparence et la précision. Le modèle a été formé à l'aide de données synthétiques de Glaive AI, soulignant l'importance des ensembles de données de haute qualité. En dépit de la phase de recherche, il surpasse les principaux modèles de source fermée sur des références comme MMLU, les mathématiques et GSM8K. Ses créateurs prévoient que la prochaine réflexion LLAMA 405B pour dépasser considérablement ces modèles.

Configuration de la réflexion LLAMA 3.1 sur Google Colab

Accéder à Reflection Llama 3.1 est simple avec les bons outils. Il est disponible sur les laboratoires des étreintes, Olllama et Hyperbolic. Google Colab Pro, avec son GPU A100 (nécessitant des unités de calcul achetées), est recommandé pour le modèle 70b.

Étape 1: Accès GPU

Connectez-vous à un GPU A100 via l'exécution → Changer le type d'exécution.

Étape 2: Installation et téléchargement du modèle Olllama

Utilisez le terminal dans Colab (en utilisant !pip install colab-xterm et %xterm) pour installer Olllama (curl -fsSL <https:> | sh</https:>) et l'exécutez (ollama serve). Dans un deuxième terminal, téléchargez le modèle de réflexion (ollama run reflection).

Reflection Llama-3.1 70B: Testing & Summary of What We Know

Étape 3: Intégration de Langchain

Installez Langchain (!pip install langchain langchain_community langchain-openai langchain-ollama) et définissez le modèle d'invite (en utilisant PromptTemplate de langchain.prompts et ChatOllama à partir de langchain_ollama). Initialisez le modèle à l'aide de ChatOllama(model="reflection", temperature=0) et invoquez-le avec votre entrée. Exemple:

reflection_model.invoke({'input': "Hi, how are you?"})

Réflexion Llama 3.1 en action

Le modèle a été testé avec diverses invites:

Raisonnement numérique: calculé avec succès et comparé les rendements, bien que la section de réflexion ait montré des incohérences.
Comparaisons simples: a initialement commis une erreur en comparant 9.9 et 9.11, mais ajoutant une précision "réfléchir soigneusement".
Occurrences de comptage: compté avec précision le "r" S dans "Strawberry" "
Résolution d'ambiguïté: Résolution correctement de l'énigme du docteur, démontrant la reconnaissance des biais.
Fausse Correction de l'information: a initialement accepté une fausse déclaration sur l'emplacement de la tour Eiffel mais auto-corrigé.
Raisonnement de bon sens: A raisonné avec succès à travers un scénario de cause à effet, reconnaissant plusieurs possibilités.
Génération de code: Code fonctionnel généré pour un jeu de serpent simple.

Réflexion Llama 3.1: Applications et limitations

Reflection Llama 3.1 L'auto-correction le rend adapté aux mathématiques, à la logique, à la génération de code, au débogage et à la vérification des faits. Cependant, son auto-correction ajoute de la complexité, un impact potentiellement impactant la vitesse et le coût. Des inexactitudes peuvent encore se produire. La prochaine réflexion Llama 405b promet des améliorations significatives.

Conclusion

Reflection Llama 3.1 Le réglage de la réflexion est un développement prometteur, mais les problèmes de reproductibilité mettent en évidence les défis continus du développement du modèle d'IA. Bien que l'auto-correction soit précieuse, les tests et la validation rigoureux restent cruciaux.

[Section FAQs omise car il s'agit d'une copie directe de la FAQ du texte d'origine]

Ce qui précède est le contenu détaillé de. pour plus d'informations, suivez d'autres articles connexes sur le site Web de PHP en chinois!

pip define for while cURL Error math using private Reflection copy this location input gpt llama langchain prompt Access Foundation Game Prompt

Déclaration：

Le contenu de cet article est volontairement contribué par les internautes et les droits d'auteur appartiennent à l'auteur original. Ce site n'assume aucune responsabilité légale correspondante. Si vous trouvez un contenu suspecté de plagiat ou de contrefaçon, veuillez contacter admin@php.cn

Article précédent：Elon Musk & # 039; s Grok 3: Performance, Comment accéder, et plusArticle suivant：Elon Musk & # 039; s Grok 3: Performance, Comment accéder, et plus

Articles Liés

Voir plus