Maison >Périphériques technologiques >IA >Meta lance le modèle de langage IA LLaMA, un modèle de langage à grande échelle avec 65 milliards de paramètres

Meta lance le modèle de langage IA LLaMA, un modèle de langage à grande échelle avec 65 milliards de paramètres

PHPzavant: 2023-04-14 18:58:011871parcourir

25 février, Meta a annoncé vendredi, heure locale, qu'elle lancerait un nouveau modèle de langage à grande échelle basé sur l'intelligence artificielle (IA) pour la communauté des chercheurs, rejoignant Microsoft, Google et d'autres entreprises stimulées par ChatGPT. rejoindre ensemble la course à l’intelligence artificielle.

LLaMA de Meta est l'abréviation de « Large Language Model Meta AI » (Large Language Model Meta AI), qui est disponible sous une licence non commerciale pour les chercheurs et les entités du gouvernement, de la communauté et du monde universitaire.

La société fournira le code sous-jacent aux utilisateurs, afin qu'ils puissent modifier eux-mêmes le modèle et l'utiliser pour des cas d'utilisation liés à la recherche. Meta a déclaré que les besoins en puissance de calcul du modèle sont « beaucoup plus faibles ».

Selon les rapports, la société développe LLaMA avec plusieurs paramètres (7B, 13B, 33B et 65B). Parmi eux, LLaMA 65B et LLaMA 33B ont été formés sur 1 400 milliards de jetons, et le plus petit modèle LLaMA 7B a également été formé sur 1 000 milliards de jetons.

Comme d'autres grands modèles de langage, LLaMA fonctionne en prenant une séquence de mots comme « entrée » et en prédisant le mot suivant pour générer du texte de manière récursive. Pour cet ensemble de modèles, Meta a sélectionné du texte parmi les 20 langues les plus parlées pour la formation, en se concentrant sur le latin et le cyrillique.

Bien sûr, comme d'autres modèles, LLaMA est également confrontée aux défis des préjugés, des commentaires toxiques et des hallucinations, et Meta doit faire davantage de recherches pour combler les lacunes de ce type de modèle de langage.

Meta indique que LLaMA, en tant que modèle de base, est conçu pour être polyvalent et peut être appliqué à de nombreux cas d'utilisation différents, plutôt qu'un modèle affiné conçu pour une tâche spécifique. En open source le code de LLaMA, d'autres chercheurs peuvent plus facilement trouver de nouvelles façons de limiter ou d'éliminer ces problèmes. Meta fournit également dans cet article un ensemble de critères d'évaluation de référence pour évaluer le biais et la toxicité du modèle afin de montrer les limites du modèle et de soutenir les chercheurs dans leurs recherches ultérieures dans ce domaine critique.

Il convient de mentionner que Meta a également lancé le grand modèle linguistique OPT-175B en mai de l'année dernière. Le projet s’adresse également aux chercheurs, ce qui constitue la base d’une nouvelle itération de son chatbot blenderbot.

Plus tard, la société a également lancé un modèle appelé Galactica, qui, selon elle, pouvait écrire des articles scientifiques et résoudre des problèmes mathématiques, mais sa version de démonstration a ensuite été supprimée car elle générait à plusieurs reprises du contenu « cela semble faire autorité ».

IT Home avec lien officiel :

Ce qui précède est le contenu détaillé de. pour plus d'informations, suivez d'autres articles connexes sur le site Web de PHP en chinois!

Déclaration：

Cet article est reproduit dans:. en cas de violation, veuillez contacter admin@php.cn Supprimer

Article précédent：Une extension ChatGPT GNOME en cours de développementArticle suivant：Une extension ChatGPT GNOME en cours de développement

Articles Liés

Voir plus