Maison >Périphériques technologiques >IA >Les 6 meilleurs grands modèles de langage en 2023
C'est la saison de l'IA, et les entreprises technologiques produisent de grands modèles de langage comme le pain d'une boulangerie. De nouveaux modèles sortent rapidement et il devient trop difficile de les suivre.
Mais au milieu de la vague de nouvelles versions, seuls quelques modèles ont atteint le sommet et se sont révélés être de véritables prétendants dans le grand espace des modèles de langage. À l’approche de la fin 2023, nous avons rassemblé les six grands modèles linguistiques les plus impressionnants que vous devriez essayer.
GPT-4 est le grand modèle de langage accessible au public le plus avancé à ce jour. Développé par OpenAI et publié en mars 2023, GPT-4 est la dernière itération de la série Generative Pre-trained Transformer qui a débuté en 2018. Avec ses immenses capacités, GPT-4 est devenu l'un des grands langages les plus utilisés et les plus populaires. modèles dans le monde.
Bien que cela ne soit pas officiellement confirmé, des sources estiment que GPT-4 pourrait contenir un nombre stupéfiant de 1,76 billion de paramètres, environ dix fois plus que son prédécesseur, GPT-3.5, et cinq fois plus grand que le produit phare de Google, PaLM 2. Cette échelle massive permet à GPT-4 capacités multimodales, lui permettant de traiter à la fois du texte et des images en entrée. En conséquence, GPT-4 peut interpréter et décrire des informations visuelles telles que des diagrammes et des captures d'écran en plus du texte. Sa nature multimodale permet une compréhension plus humaine des données du monde réel.
Dans les benchmarks scientifiques, GPT-4 surpasse considérablement les autres modèles contemporains dans divers tests. Bien que les benchmarks à eux seuls ne démontrent pas pleinement les atouts d'un modèle, des cas d'utilisation réels ont montré que GPT-4 est exceptionnellement apte à résoudre intuitivement des problèmes pratiques. GPT-4 est actuellement facturé 20 $ par mois et accessible via le forfait Plus de ChatGPT.
Bien qu'il ne soit pas aussi populaire que GPT-4, Claude 2, développé par Anthropic AI, peut égaler les références techniques et les performances réelles de GPT -4 dans plusieurs domaines. Dans certains tests standardisés, y compris certains examens, Claude 2 surpasse GPT-4. Le modèle de langage IA dispose également d'une fenêtre contextuelle largement supérieure à environ 100 000 jetons, par rapport aux modèles de jetons 8 000 et 32 000 de GPT -4. Bien qu'une plus grande longueur de contexte ne se traduise pas toujours par de meilleures performances, la capacité étendue de Claude 2 offre des avantages évidents, comme la digestion de livres entiers de 75 000 mots à des fins d'analyse.
En termes de performances globales, GPT-4 reste supérieur, mais nos tests internes montrent que Claude 2 le dépasse dans plusieurs tâches d'écriture créative. Claude 2 est également à la traîne du GPT-4 en termes de compétences en programmation et en mathématiques, d'après nos évaluations, mais excelle dans la fourniture de réponses créatives et humaines. Lorsque nous avons invité tous les modèles de cette liste à écrire ou réécrire une pièce créative, six fois sur dix, nous avons choisi le résultat de Claude 2 pour ses résultats naturels et humains. Actuellement, Claude 2 est disponible gratuitement via le chatbot Claude AI. Il existe également un forfait payant de 20 $ pour accéder à des fonctionnalités supplémentaires.
Bien qu'il dispose d'un soutien financier inférieur à celui de géants comme OpenAI et Microsoft, le modèle d'IA Claude 2 d'Anthropic résiste aux modèles GPT populaires et à la série PaLM de Google. Pour une IA avec moins de ressources, Claude 2 est incroyablement compétitif. S’il faut parier sur quel modèle existant a le plus de chances de rivaliser avec le GPT dans un avenir proche, Claude 2 semble le pari le plus sûr. Bien que sous-financé, les capacités avancées de Claude 2 suggèrent qu'il peut rivaliser avec des géants même bien financés (même s'il convient de noter que Google a apporté plusieurs contributions importantes à Anthropic). Le modèle dépasse sa catégorie de poids et se montre prometteur en tant que challenger émergent.
Bien qu'éclipsés par la sortie de GPT-4, GPT-3.5 et ses 175 milliards de paramètres ne doivent pas être sous-estimés. Grâce à des réglages itératifs et à des mises à niveau axés sur les performances, la précision et la sécurité, le GPT-3.5 a parcouru un long chemin par rapport au modèle GPT-3 d'origine. Bien qu'il ne dispose pas des capacités multimodales de GPT -4 et soit à la traîne en termes de longueur de contexte et de nombre de paramètres, GPT-3.5 reste très performant, GPT-4 étant le seul modèle capable de surpasser ses performances globales de manière décisive.
Bien qu'il s'agisse d'un modèle de deuxième rang dans la famille GPT, GPT-3.5 peut tenir le coup et même surpasser les modèles phares de Google et Meta sur plusieurs benchmarks. Dans les tests côte à côte de compétences en mathématiques et en programmation par rapport au PaLM 2 de Google, les différences n'étaient pas marquées, GPT-3.5 ayant même un léger avantage dans certains cas. Des tâches plus créatives comme l'humour et l'écriture narrative ont permis à GPT-3.5 de progresser de manière décisive.
Ainsi, alors que GPT-4 marque une nouvelle étape dans l'IA, GPT-3.5 reste un modèle incroyablement puissant, capable de rivaliser et parfois de surpasser même les alternatives les plus avancées. Son raffinement continu garantit qu’il reste pertinent même aux côtés de modèles de nouvelle génération plus flashy.
Lors de l'évaluation des capacités d'un modèle d'IA, la formule éprouvée consiste à lire le rapport technique et à vérifier les scores de référence, mais à prendre tout ce que vous avez appris avec des pincettes et à tester le modèle vous-même. Aussi contre-intuitif que cela puisse paraître, les résultats des tests de référence ne correspondent pas toujours aux performances réelles de certains modèles d'IA. Sur le papier, le PaLM 2 de Google était censé être le tueur du GPT-4, les résultats des tests officiels suggérant qu'il correspond au GPT-4 selon certains critères. Cependant, dans l’utilisation quotidienne, une image différente se dessine.
En raisonnement logique, en mathématiques et en créativité, PaLM 2 est en deçà de GPT-4. Il est également en retard par rapport à Claude d'Anthropic dans une série de tâches d'écriture créative. Cependant, même s'il ne parvient pas à être à la hauteur de sa réputation de tueur de GPT-4, le PaLM 2 de Google reste un modèle de langage puissant à part entière, doté d'immenses capacités. Une grande partie du sentiment négatif qui l’entoure provient de comparaisons avec des modèles comme GPT-4 plutôt que de performances carrément médiocres.
Avec 340 milliards de paramètres, PaLM 2 figure parmi les plus grands modèles au monde. Il excelle particulièrement dans les tâches multilingues et possède de solides capacités en mathématiques et en programmation. Bien qu'il ne soit pas le meilleur dans ce domaine, PaLM 2 est également très efficace pour les tâches créatives comme l'écriture. Ainsi, même si les benchmarks ont brossé un tableau optimiste qui ne s'est pas pleinement matérialisé, PaLM 2 démontre toujours des compétences impressionnantes en matière d'IA, même s'il ne surpasse pas tous ses concurrents dans tous les domaines.
À moins que vous n'ayez suivi le rythme rapide des versions de modèles de langage d'IA, vous n'avez probablement jamais rencontré le Falcon-180B. Développé par l'Institut d'innovation technologique des Émirats arabes unis, le Falcon-180, doté de 180 milliards de paramètres, est l'un des modèles de langage open source les plus puissants du marché, même s'il lui manque la reconnaissance du nom des modèles GPT ou l'utilisation généralisée de Meta's Llama 2. Mais ne faites rien. erreur - Le Falcon-180B peut rivaliser avec les meilleurs de sa catégorie.
Les résultats du benchmark révèlent que le Falcon-180B surpasse la plupart des modèles open source et rivalise avec les poids lourds commerciaux comme PaLM 2 et GPT-3.5. Lors des tests de tâches de mathématiques, de codage, de raisonnement et d'écriture créative, il a même parfois devancé GPT-3.5 et PaLM 2. Si nous classons GPT-4, GPT-3.5 et Falcon-180B, nous placerions Falcon-180B carrément entre GPT-4 et GPT-3.5 pour ses atouts dans plusieurs cas d'utilisation.
Bien que nous ne puissions pas dire avec certitude qu'il est meilleur que GPT-3.5 en termes de performances globales, il fait valoir ses arguments. Bien qu’obscur, ce modèle mérite l’attention car il correspond ou dépasse les capacités d’alternatives plus connues. Vous pouvez essayer le modèle Falcon-180B sur Hugging Face (une plateforme LLM open source).
Llama 2, le grand modèle de langage à 70 milliards de paramètres de Meta AI, s'appuie sur son prédécesseur, Llama 1. Bien que plus petit que les principaux modèles, Llama 2 surpasse considérablement la plupart des LLM open source accessibles au public dans les benchmarks et utilisation dans le monde réel. Une exception serait le Falcon-180B.
Nous avons testé Llama 2 contre GPT-4, GPT-3.5, Claude 2 et PaLM 2 pour évaluer ses capacités. Sans surprise, GPT-4 a surclassé Llama 2 dans presque tous les paramètres. Cependant, Llama 2 a résisté à GPT-3.5 et PaLM 2 dans plusieurs évaluations. Bien qu'il serait inexact de prétendre que Llama 2 est supérieur à PaLM 2, Llama 2 a résolu de nombreux problèmes qui paralysaient PaLM 2, y compris les tâches de codage. Claude 2 et GPT-3.5 ont devancé Llama 2 dans certains domaines, mais n'étaient nettement meilleurs que dans un nombre limité de tâches.
Ainsi, sans dépasser les capacités des plus grands modèles propriétaires, le Llama 2 open source dépasse sa catégorie de poids. Pour un modèle librement disponible, il démontre des performances impressionnantes, rivalisant avec les géants de l'IA comme PaLM 2 dans certaines évaluations. Llama 2 donne un aperçu du potentiel futur des modèles de langage open source.
Bien que le paysage de l'IA évolue à un rythme fulgurant, le GPT-4 d'OpenAI reste le leader du peloton. Cependant, même si le GPT-4 reste inégalé en termes d'échelle et de performances, des modèles comme Claude 2 montrent qu'avec suffisamment de compétences, des modèles plus petits peuvent rivaliser dans certains domaines. Le PaLM 2 de Google, même s'il ne répond pas à certaines attentes élevées, présente toujours de profondes capacités. Et le Falcon-180B prouve que les initiatives open source peuvent rivaliser avec les titans de l’industrie à condition de disposer de ressources suffisantes.
Ce qui précède est le contenu détaillé de. pour plus d'informations, suivez d'autres articles connexes sur le site Web de PHP en chinois!