Maison >Périphériques technologiques >IA >Le modèle le plus puissant Llama 3.1 405B est officiellement lancé, Zuckerberg : l'Open source mène une nouvelle ère

Le modèle le plus puissant Llama 3.1 405B est officiellement lancé, Zuckerberg : l'Open source mène une nouvelle ère

PHPzoriginal: 2024-07-24 20:23:06803parcourir

Tout à l'heure, le très attendu Llama 3.1 est officiellement sorti !

Meta a officiellement publié la voix de "L'Open source mène une nouvelle ère".

Dans le blog officiel, Meta a déclaré : « Jusqu'à aujourd'hui, les grands modèles de langage open source étaient pour la plupart à la traîne des modèles fermés en termes de fonctionnalités et de performances. Nous inaugurons désormais une nouvelle ère dirigée par l'open source. publions Meta Llama 3.1 405B, nous pensons qu'il s'agit du modèle de base open source le plus grand et le plus puissant au monde, avec plus de 300 millions de téléchargements de toutes les versions de Llama à ce jour, et nous ne faisons que commencer. "

Fondateur de Meta, le PDG Zuckerberg a également personnellement écrit un long article « L'IA Open Source est la voie à suivre », expliquant pourquoi l'Open Source est une bonne chose pour tous les développeurs, Meta et le monde.

Les points forts de cette version incluent :

La dernière série de modèles étend la longueur du contexte à 128 Ko, ajoute la prise en charge de huit langues et inclut le meilleur modèle open source Llama 3.1 405B
; Llama 3.1 405B est dans une catégorie à part, et Meta déclare officiellement qu'il est comparable aux meilleurs modèles fermés.
Cette version fournit également plus de composants (y compris des systèmes de référence) à utiliser avec le modèle pour faire de Llama un Un système ;
Les utilisateurs peuvent découvrir Llama 3.1 405B via WhatsApp et meta.ai.

Adresse : https://llama.meta.com/

Vous pouvez le télécharger et l'essayer.

Llama 3.1 Introduction

Llama 3.1 405B est le premier modèle accessible au public comparable aux meilleurs modèles d'IA en termes de bon sens, de manipulabilité, de mathématiques, d'utilisation des outils et de traduction multilingue.

Meta affirme que la dernière génération de Llama inspirera de nouvelles applications et de nouveaux paradigmes de modélisation, notamment en tirant parti de la génération de données synthétiques pour dynamiser et entraîner des modèles plus petits, ainsi que de la distillation de modèles - une approche jamais vue auparavant dans l'espace open source. atteindre.

Dans le même temps, Meta a également lancé des versions améliorées des modèles 8B et 70B, prenant en charge plusieurs langues, avec une longueur de contexte de 128 Ko et des capacités de raisonnement plus fortes. Les derniers modèles prennent en charge des cas d'utilisation avancés tels que le résumé de texte long, les agents conversationnels multilingues et les assistants de codage.

Par exemple, Llama 3.1 peut traduire des histoires en espagnol :

最强模型Llama 3.1 405B正式发布，扎克伯格：开源引领新时代

Lorsque l'utilisateur demande "Il y a 3 chemises, 5 shorts et 1 robe, supposons que vous souhaitiez voyager pendant 10 jours. Préparez le vêtements Est-ce suffisant ? « Le modèle peut effectuer des inférences rapidement.

最强模型Llama 3.1 405B正式发布，扎克伯格：开源引领新时代

Contexte long : Pour les documents téléchargés, Llama 3.1 est capable d'analyser et de résumer des documents volumineux jusqu'à 8 000 jetons.

最强模型Llama 3.1 405B正式发布，扎克伯格：开源引领新时代

Coding Assistant, pour les besoins de l'utilisateur, vous pouvez écrire rapidement du code :

最强模型Llama 3.1 405B正式发布，扎克伯格：开源引领新时代

De plus, le développeur de Llama 3.1 405B a également tweeté "spoiler", déclarant que le développement d'un modèle intégrant des capacités vocales et visuelles comme GPT-4o est toujours en cours de développement.

Meta a également apporté des modifications à la licence open source pour permettre aux développeurs d'utiliser la sortie des modèles Llama (dont 405B) pour améliorer d'autres modèles. De plus, conformément à son engagement open source, Meta met à partir d'aujourd'hui ces modèles à la disposition de la communauté pour téléchargement sur llama.meta.com et Hugging Face.

Adresse de téléchargement :

https://huggingface.co/meta-llama
https://llama.meta.com/

Évaluation du modèle

Meta est évalué sur plus de 150 ensembles de données de référence. En outre, ils effectuent également une évaluation humaine approfondie.

Les résultats expérimentaux montrent que le modèle phare Llama 3.1 405B est compétitif par rapport aux principaux modèles de base, notamment GPT-4, GPT-4o et Claude 3.5 Sonnet, dans une gamme de tâches. De plus, les petits modèles 8B et 70B sont compétitifs par rapport aux modèles open source et fermés avec un nombre de paramètres similaire. En tant que plus grand modèle de Meta à ce jour, entraîner Llama 3.1 405B en utilisant plus de 15 000 milliards de jetons est un défi majeur. Pour permettre l'entraînement à cette échelle, Meta a optimisé l'ensemble de la pile d'entraînement et s'est entraîné sur plus de 16 000 GPU H100, faisant de ce modèle le premier modèle Llama à être entraîné à cette échelle.

Pour résoudre ce problème, Meta a fait les choix de conception suivants, en se concentrant sur le maintien de l'évolutivité et de la simplicité du processus de développement du modèle. 最强模型Llama 3.1 405B正式发布，扎克伯格：开源引领新时代

Une architecture de modèle de transformateur de décodeur standard avec seulement des ajustements mineurs a été choisie au lieu d'un modèle expert hybride pour maximiser la stabilité de l'entraînement.

Adopte une procédure post-formation itérative, utilisant un réglage fin supervisé et une optimisation directe des préférences à chaque tour. Cela permet à Meta de créer des données synthétiques de la plus haute qualité pour chaque tour et d'améliorer les performances de chaque fonctionnalité.

Par rapport aux versions précédentes de Llama, Meta a amélioré la quantité et la qualité des données utilisées pour la pré-formation et la post-formation, par exemple en développant des pipelines de pré-traitement et de gestion plus soignés pour les données de pré-formation et données post-formation. Développer des méthodes d’assurance qualité et de filtration plus strictes.

Afin de prendre en charge la sortie d'inférence à grande échelle des modèles 405B, Meta a quantifié le modèle de 16 bits (BF16) à 8 bits (FP8), réduisant ainsi efficacement les exigences informatiques requises et permettant au modèle de fonctionner sur un nœud de serveur unique.

Ajustements de commande et de chat

Llama 3.1 405B s'efforce d'améliorer l'utilité, la qualité et le suivi détaillé des instructions des modèles en répondant aux instructions de l'utilisateur, tout en garantissant un haut niveau de sécurité.

Dans la phase post-formation, l'équipe de recherche a construit le modèle de chat final en effectuant plusieurs tours d'alignement sur la base du modèle pré-entraîné. Chaque cycle implique un réglage fin supervisé (SFT), un échantillonnage de rejet (RS) et une optimisation des préférences directes (DPO).

L'équipe de recherche utilise la génération de données synthétiques pour produire la grande majorité des exemples SFT, et itère plusieurs fois pour générer des données synthétiques de qualité de plus en plus élevée pour toutes les fonctionnalités. De plus, l’équipe de recherche a utilisé plusieurs techniques de traitement de données pour filtrer ces données synthétiques afin d’obtenir la plus haute qualité et affiner le volume de données grâce à l’évolutivité fonctionnelle.

Llama System

Les modèles de lama ont toujours existé dans le cadre d'un système d'IA et peuvent coordonner plusieurs composants, y compris l'appel d'outils externes. Meta est conçu pour aller au-delà du modèle de base et donner aux développeurs la flexibilité nécessaire pour concevoir et créer des produits personnalisés qui correspondent à leur vision.

Pour développer l'IA de manière responsable au-delà de la couche modèle, Meta a publié un système de référence complet qui comprend plusieurs exemples d'applications ainsi que de nouveaux composants tels que Llama Guard 3, un modèle de sécurité multilingue et Prompt Guard (un filtre d'injection rapide) . Ces exemples d'applications sont open source et peuvent être créés par la communauté open source.

Afin de collaborer plus largement avec l'industrie, les startups et la communauté open source pour aider à mieux définir les interfaces des composants, Meta a publié une demande de commentaire pour "Llama Stack" sur GitHub. Llama Stack est un ensemble d'interfaces standardisées pour la création de composants canoniques de chaîne d'outils (réglage précis, génération de données synthétiques) et d'applications d'agent. Cela permet d’atteindre plus facilement l’interopérabilité.

Contrairement aux modèles fermés, les poids des modèles Lama sont disponibles en téléchargement. Les développeurs peuvent entièrement personnaliser le modèle en fonction de leurs besoins et de leurs applications, s'entraîner sur de nouveaux ensembles de données et effectuer des réglages supplémentaires.

Développé avec Llama 3.1 405B

Pour les développeurs ordinaires, déployer un modèle à aussi grande échelle que le 405B est sans aucun doute un défi, et cela nécessite beaucoup de ressources informatiques et de compétences professionnelles. En communiquant avec la communauté des développeurs, Meta s'est rendu compte que le développement de l'IA générative ne se limite pas à donner des invites de saisie au modèle. Ils attendent de tous les développeurs qu'ils exploitent tout le potentiel de Llama 3.1 405B dans les domaines suivants :

Inférence en temps réel et par lots
Mise au point supervisée
Test et évaluation des performances du modèle dans des domaines spécifiques applications
Pré-formation continue
Récupération de génération augmentée (RAG)
Appel de fonction
Génération de données synthétiques

Sortie de maintenant, Llama 3.1 40 Toutes les fonctionnalités avancées du modèle 5B seront ouverts et les développeurs pourront commencer immédiatement. Les développeurs peuvent également explorer des flux de travail d'ordre supérieur, tels que la génération de données synthétiques basées sur la distillation de modèles. Dans cette mise à niveau, Meta intègre également de manière transparente les solutions fournies par les partenaires AWS, NVIDIA et Databricks pour obtenir une génération d'augmentation de récupération (RAG) plus efficace. De plus, Groq a été optimisé pour l'inférence à faible latence pour le déploiement de modèles dans le cloud, et des améliorations de performances similaires ont été apportées aux systèmes locaux.

Meta a également intégré cette fois un « package cadeau d'outils » pour Llama 3.1 405B, comprenant des projets clés tels que vLLM, TensorRT et PyTorch, du développement de modèles au déploiement « prêt à l'emploi », le tout en un. étape.

^{Lien de référence : https://ai.meta.com/blog/meta-llama-3-1/}

Ce qui précède est le contenu détaillé de. pour plus d'informations, suivez d'autres articles connexes sur le site Web de PHP en chinois!

架构 Token 接口栈堆 github 人工智能 pytorch transformer https 开源协议 gpt llama prompt

Déclaration：

Le contenu de cet article est volontairement contribué par les internautes et les droits d'auteur appartiennent à l'auteur original. Ce site n'assume aucune responsabilité légale correspondante. Si vous trouvez un contenu suspecté de plagiat ou de contrefaçon, veuillez contacter admin@php.cn

Article précédent：Du bare metal au grand modèle avec 70 milliards de paramètres, voici un tutoriel et des scripts prêts à l'emploiArticle suivant：Du bare metal au grand modèle avec 70 milliards de paramètres, voici un tutoriel et des scripts prêts à l'emploi

Articles Liés

Voir plus