Maison  >  Article  >  Qu'est-ce que le modèle de langage open source TII Falcon 180B ?

Qu'est-ce que le modèle de langage open source TII Falcon 180B ?

PHPz
PHPzavant
2023-09-12 19:41:09956parcourir

Le

Technology Innovation Institute (TII) a apporté une contribution significative à la communauté open source avec l'introduction d'un nouveau Large Language Model (LLM) appelé Falcon. Avec un nombre impressionnant de 18 milliards de paramètres, le modèle est un LLM génératif disponible en différentes versions, notamment les modèles d'IA à paramètres Falcon 180B, 40B, 7.5B et 1.3B.

Lorsque le Falcon 40B a été lancé, il a rapidement été reconnu comme le meilleur modèle d'IA open source au monde. Cette version de Falcon, avec 4 milliards de paramètres, a été formée sur un nombre impressionnant de billions de jetons. Au cours des deux mois qui ont suivi son lancement, le Falcon 40B est arrivé en tête du classement des grands modèles de langage open source (LLM) de Hugging Face. Ce qui distingue le Falcon 40B, c'est qu'il est totalement libre de droits et constitue une démarche révolutionnaire visant à démocratiser l'IA et à en faire une technologie plus inclusive.

Falcon 40B LLM est multilingue et fonctionne dans plusieurs langues, dont l'anglais, l'allemand, l'espagnol, le français, l'italien, le portugais, le polonais, le néerlandais, le roumain, le tchèque et le suédois. Ce LLM de base sert de modèle de base général qui peut être affiné pour répondre à des exigences ou à des objectifs spécifiques.

Falcon 180B Open Source LLM

Falcon 180B est un modèle de langage ultra-puissant avec 18 milliards de paramètres, formés sur 3,5 billions de jetons. Il est actuellement en tête du classement hugging face des modèles linguistiques ouverts et pré-entraînés à grande échelle, disponibles pour la recherche et l'utilisation commerciale. Le modèle a bien fonctionné sur une variété de tâches, notamment les tests de raisonnement, de codage, de compétence et de connaissances, surpassant même des concurrents comme le LLaMA 2 de Meta.

Parmi les modèles à source fermée, Falcon 180B est juste derrière le GPT 4 d'OpenAI et fonctionne à égalité avec le PaLM 2 de Google, qui alimente Bard, bien qu'il soit deux fois plus petit que le modèle. Cela démontre la qualité du modèle, car les LLM sont particulièrement sensibles aux données sur lesquelles ils sont formés. L'équipe TII a construit un pipeline de données personnalisé en utilisant un filtrage et une déduplication étendus pour extraire des données de pré-formation de haute qualité, mises en œuvre à la fois au niveau de l'échantillon et au niveau de la chaîne.

Pour encourager les utilisations innovantes du modèle, Falcon 40B a lancé un « Appel à propositions » auprès de scientifiques, chercheurs et innovateurs. Les cas d'utilisation les plus spécifiques bénéficieront d'un investissement dans la formation de la puissance de calcul pour étudier des modèles puissants afin de façonner des solutions transformatrices. Notamment, le modèle n'utilise que 3 % du calcul d'entraînement GPT-75, 40 % de Totoro AI et 62 % de PaLM-80B.

L'un des facteurs notables du développement de Falcon est la qualité des données d'entraînement. Les données de pré-formation collectées pour le Falcon 40B représentent près de 80 000 milliards de jetons, collectés à partir de diverses sources, notamment des robots d'exploration Web publics (~%), des documents de recherche, des textes juridiques, du journalisme, de la littérature et des conversations sur les réseaux sociaux.

Formé sur 3,5 billions de jetons

Le processus de formation du modèle Falcon implique l'utilisation de 4 096 GPU simultanément, soit un total d'environ 70 000 GPU par heure. L'ensemble de données de formation de Falcon se compose de données Web, complétées par une collection de contenus organisés, notamment des conversations, des documents techniques, Wikipédia et une petite collection de code. Le modèle a été affiné pour une variété d'ensembles de données conversationnelles et pédagogiques, à l'exclusion de l'utilisation hébergée.

Malgré ses performances impressionnantes, le modèle Falcon ne dispose d'aucune information mise à jour sur les événements récents. Cependant, la sortie du modèle Falcon est considérée comme une avancée majeure dans le domaine de l'open source, surpassant d'autres modèles tels que Llama 2, Stable LM, Red Pyjama, NPT, etc. sur divers benchmarks. Le modèle est 5,2 fois plus grand que Llama 2 et surpasse Llama 2, le modèle GPT 3.5 d'OpenAI et le Palm de Google sur divers benchmarks. Cela en fait un outil puissant pour la recherche et l’utilisation commerciale, ainsi qu’une contribution significative à la communauté open source.

Ce qui précède est le contenu détaillé de. pour plus d'informations, suivez d'autres articles connexes sur le site Web de PHP en chinois!

Déclaration:
Cet article est reproduit dans:. en cas de violation, veuillez contacter admin@php.cn Supprimer