Maison  >  Article  >  Périphériques technologiques  >  L'Université Tsinghua et Zhipu AI open source GLM-4 : lancent une nouvelle révolution dans le traitement du langage naturel

L'Université Tsinghua et Zhipu AI open source GLM-4 : lancent une nouvelle révolution dans le traitement du langage naturel

WBOY
WBOYoriginal
2024-06-12 20:38:02794parcourir

Depuis le lancement du ChatGLM-6B le 14 mars 2023, les modèles de la série GLM ont reçu une large attention et une grande reconnaissance. Surtout après que ChatGLM3-6B soit open source, les développeurs sont pleins d'attentes pour le modèle de quatrième génération lancé par Zhipu AI. Cette attente a finalement été pleinement satisfaite avec la sortie du GLM-4-9B.

La naissance du GLM-4-9B

Afin de donner aux petits modèles (10B et moins) des capacités plus puissantes, l'équipe technique GLM a lancé ce nouveau modèle open source de la série GLM de quatrième génération après près de six mois d'exploration :GLM-4-9B. Ce modèle compresse considérablement la taille du modèle tout en garantissant la précision, et offre une vitesse d'inférence plus rapide et une efficacité plus élevée. L'exploration de l'équipe technique de GLM n'a pas de fin, et nous continuerons à travailler dur pour lancer un open source plus compétitif

technologie de pré-formation innovante

Au cours du processus de pré-formation, nous avons introduit un grand modèle de langage pour le filtrage des données, et a finalement obtenu 10T de données multilingues de haute qualité. Cette quantité de données est plus de trois fois supérieure à celle du modèle ChatGLM3-6B. De plus, nous utilisons la technologie FP8 pour un pré-entraînement efficace, qui améliore l'efficacité de l'entraînement de 3,5 fois par rapport au modèle de troisième génération. Compte tenu des besoins de stockage de l'utilisateur, la taille des paramètres du GLM-4-9B a été augmentée de 6B à 9B. En fin de compte, nous avons multiplié par 5 le calcul de pré-entraînement pour maximiser les capacités de performances dans des conditions de stockage limitées.

Excellente démonstration de performances

GLM-4-9B est un outil de mise à niveau technologique complet avec des performances de raisonnement plus puissantes, de meilleures capacités de traitement du contexte, une prise en charge multilingue, un traitement multimodal et un ensemble complet d'outils Tous les appels d'outils et d'autres avantages. Ces mises à niveau offrent aux utilisateurs un support technique plus stable, plus fiable et plus précis, et améliorent l'efficacité et la qualité du travail des utilisateurs.

La série GLM-4-9B comprend plusieurs versions :

  • Version de base : GLM-4-9B (8K)
  • Version conversation : GLM-4-9B-Chat (128K)
  • Version contextuelle extra longue : GLM-4-9B-Chat-1M (1M)
  • Version multimodale : GLM-4V-9B-Chat (8K)

Les puissantes capacités du GLM-4-9B

Capacités de base

Basé Grâce à une solide pré-formation, la maîtrise complète du chinois et de l'anglais du GLM-4-9B s'est améliorée de 40 % par rapport à ChatGLM3-6B. En particulier, des améliorations significatives ont été réalisées dans la capacité d'alignement chinoise AlignBench, la capacité de conformité des instructions IFeval et la capacité de traitement du code d'ingénierie Natural Code Bench. Même en comparant le modèle Llama 3 8B avec plus de volume d'entraînement, le GLM-4-9B n'est pas du tout inférieur et est en tête en termes de performances en anglais. Dans le domaine des matières chinoises, le GLM-4-9B s'est amélioré jusqu'à 50 % [Performance". Grille d'évaluation].

Capacité de traitement de texte long

清华大学与智谱AI重磅开源 GLM-4:掀起自然语言处理新革命Images

La longueur du contexte du modèle GLM-4-9B+ a été étendue de 128 000 à 1 million de jetons, ce qui signifie qu'il peut gérer la saisie jusqu'à 2 millions de mots à la fois. en même temps, ce qui équivaut à deux livres de « Dream of Red Mansions » » ou à la longueur de 125 articles académiques. Le modèle GLM-4-9B-Chat-1M a démontré avec succès son excellente capacité à traiter de manière non destructive la saisie de texte long dans l'expérience « une aiguille dans la botte de foin » [illustration d'une expérience de texte long].

Voici deux cas vidéo de démonstration montrant les capacités de traitement de texte long :

  1. Modèle GLM-4-9B-Chat : Saisissez 5 fichiers PDF d'une longueur totale d'environ 128 Ko et rédigez un article sur Inviter pour un rapport de recherche détaillé sur le développement des grands modèles en Chine. Le modèle peut générer rapidement des rapports de recherche de haute qualité (la vidéo n'est pas accélérée).
  2. Modèle GLM-4-9B-Chat-1M : Saisissez environ 900 000 mots dans la collection complète de « Le problème à trois corps » et demandez au modèle d'écrire un plan de suite pour le roman. Le modèle est raisonnablement planifié et un cadre de suite est donné (la vidéo est accélérée 10 fois).

Support multilingue

GLM-4-9B+ prend en charge jusqu'à 26 langues, dont le chinois, l'anglais, le russe, etc. Nous avons étendu la taille du vocabulaire du tokenizer de 65 Ko à 150 Ko, améliorant ainsi l'efficacité du codage de 30 %. Dans les tâches de compréhension et de génération multilingues, GLM-4-9B-Chat surpasse Llama-3-8B-Instruct [Tableau de comparaison des performances multilingues].

Capacité d'appel de fonction

La capacité d'appel de fonction du GLM-4-9B a augmenté de 40 % par rapport à la génération précédente. Sur le classement des appels de fonction de Berkeley, sa capacité d'appel de fonction est comparable à celle du GPT-4 [Performance des appels de fonction". Tableau de comparaison].

Appel d'outils complets pour tous les outils

La fonctionnalité "Tous les outils" signifie que le modèle peut comprendre et utiliser divers outils externes (tels que l'exécution de code, la navigation sur le réseau, le dessin, etc.) pour l'aider à accomplir les tâches. Lors du Zhipu DevDay du 16 janvier, le modèle GLM-4 a été entièrement mis à niveau avec les fonctionnalités All Tools, qui peuvent appeler intelligemment les navigateurs Web, les interpréteurs de code, CogView et d'autres outils pour répondre à des requêtes complexes [icône de tâche Tous les outils].

Traitement multimodal

GLM-4V-9B, un modèle multimodal open source basé sur le GLM-4, est capable de traiter des entrées haute résolution, mélangeant directement des données visuelles et textuelles pour la formation, démontrant remarquable L'effet de traitement multimodal est équivalent aux performances du GPT-4V. Il fonctionne très bien dans l'identification et le traitement de tâches multimodales complexes [Diagramme d'exemple d'application multimodale].

清华大学与智谱AI重磅开源 GLM-4:掀起自然语言处理新革命Pictures

Future Outlook

GLM-4-9B a démontré ses puissantes performances dans une variété de tâches et constitue une percée dans le domaine du traitement du langage naturel. Qu'il s'agisse de recherche universitaire ou d'applications industrielles, le GLM-4-9B sera votre meilleur choix.

Nous vous invitons sincèrement à rejoindre les rangs des utilisateurs de GLM-4 et à explorer les possibilités offertes par cet excellent modèle :

  • Référentiel GitHub
  • Page du modèle Hugging Face
  • Magic Community

Ce qui précède est le contenu détaillé de. pour plus d'informations, suivez d'autres articles connexes sur le site Web de PHP en chinois!

Déclaration:
Le contenu de cet article est volontairement contribué par les internautes et les droits d'auteur appartiennent à l'auteur original. Ce site n'assume aucune responsabilité légale correspondante. Si vous trouvez un contenu suspecté de plagiat ou de contrefaçon, veuillez contacter admin@php.cn