Maison > Article > Périphériques technologiques > Le plus grand modèle open source en Chine est disponible pour une utilisation commerciale gratuite et inconditionnelle ! 65 milliards de paramètres, formation basée sur 2,6 billions de jetons
Le plus grand modèle open source en Chine est ici :
65 milliards de paramètres, formés sur la base de 2,6 à 3,2 billions de jetons. Classé deuxième derrière "Falcon" et "Alpaca", ses performances sont comparables à GPT3.5, et il peut désormais être utilisé pourun usage commercial gratuit et inconditionnel.
C'est XVERSE de la société Shenzhen Yuanxiang. Nous pouvons librement le modifier ou le distiller en fonction de différentes puissances de calcul, contraintes de ressources et exigences spécifiques des tâches. En plus de sa grande échelle, il dispose également d'un contexte 16k, prend en charge plus de 40 langues et est disponible en versions 7B et 13B. Quelle est l'origine spécifique ? Le plus grand modèle disponible dans le commerce en Chine est iciLa recherche montre que plus le nombre de paramètres est élevé et plus les données d'entraînement sont de haute qualité, plus les performances du grand modèle peuvent être continuellement améliorées. Le consensus général dans l'industrie est que ce n'est que lorsque le seuil de paramètres de 50 à 60 milliards est atteint que les grands modèles peuvent « émerger intelligemment » et démontrer de puissantes performances multitâches. Cependant, la formation d'un modèle de cette ampleur coûte cher et nécessite des compétences techniques élevées. Actuellement, elle est principalement proposée sous forme de modèle payant fermé. Dans l'écosystème open source étranger, les modèles de référence tels que Llama2-70B et Falcon-180B sont "conditionnellement" open source, avec des limites commerciales supérieures sur les utilisateurs actifs mensuels ou les revenus, et présentent des lacunes évidentes dans les capacités en langue chinoise en raison du manque de données de formation. Ici, afin de promouvoir le développement de l'écologie et des applications industrielles open source nationales à grand modèle, la société Yuanxiang XVERSE a annoncé le grand modèle général open source XVERSE-65B haute performance de 65 milliards de paramètres pour une utilisation commerciale gratuite et inconditionnelle. Le modèle 13B a été entièrement mis à niveau pour augmenter la limite supérieure des capacités du « petit » modèle. Yao Xing, fondateur du modèle Yuanxiang '65B. "Le modèle de base XVERSE-65B est formé à partir de zéro sur des données de haute qualité de 2,6 billions de jetons, la fenêtre contextuelle est étendue à 16K et prend en charge plus de 40 langues tels que le chinois, l'anglais, le russe et le français. Trois capacitésconsidérablement améliorées : 1. Capacités de base telles que la compréhension, la génération, le raisonnement et la mémoire, jusqu'à la diversité, la créativité et la précision du modèle, d'excellent à puissant ;
2. , l'explication du code, la réflexion et la correction ainsi que d'autres capacités posent une base technique pour la création d'agents intelligents(AI Agent)
et améliorent le caractère pratique du modèle ;Troisièmement, atténuer considérablement les problèmes d'hallucinations courants et potentiellement graves dans 7B et 13B, et réduisez les « conneries » des grands modèles pour une précision et un professionnalisme améliorés.
Les grandes séries de modèles Yuanxiang sont toutes auto-développées, couvrant un certain nombre de technologies clés et d'innovations R&D :1. Conception de systèmes distribués complexes :
Apprenez de l'équipe pour développer Tencent Go AI "Peer Art" et King of Glory AI " Forts d'une riche expérience dans les grands systèmes tels que "Juewu", nous avons auto-développé des technologies clés telles que des opérateurs efficaces, l'optimisation de la mémoire, les stratégies de planification parallèle, le chevauchement données-informatique-communication et la collaboration entre plates-formes et cadres pour créer un système de formation efficace et stable. La valeur maximale du cluster de kilocalories. Le taux d'utilisation de la puissance de calcul atteint 58,5 %, se classant parmi les meilleurs de l'industrie.
2. Amélioration complète des performances :
FlashAttention2 est utilisé pour accélérer les calculs dans la formation 65B, et la technologie de pipeline virtuel(pipeline virtuel)
est utilisée sur la base du parallélisme 3D pour réduire le taux de bulles excessif généré par les longs pipelines. et améliorer l'efficacité du raisonnement informatique ; l'appel d'outils, l'explication du code et les capacités de réflexion et de correction, lui permettant de mieux développer l'intelligence Body(AI Agent). 3. Améliorer considérablement la stabilité de l'entraînement :
En raison de l'énorme quantité de calculs, la congestion des communications, la surchauffe de la puce ou la défaillance du nœud informatique sont devenues la norme pour l'entraînement 65B. Au début, il y avait jusqu'à huit échecs par an. semaine.
Grâce à l'optimisation continue du fonctionnement de l'infrastructure du cluster, de la planification des ressources, du cadre de formation et de la collaboration entre les plateformes de planification, Yuanxiang a créé un système de formation avec une stabilité élevée, une faible interruption et une forte tolérance aux pannes, augmentant le taux de formation effectif hebdomadaire à 98,6 %. De plus, au milieu de la formation du modèle avec près de 1,6 billion de jetons, la fonction de perte a produit des valeurs NaN, ce qui peut entraîner l'interruption de la formation. Normalement, l'industrie supprime généralement les intervalles de données pertinents après analyse. L'équipe a déterminé, sur la base de son expérience, qu'il s'agissait de l'évolution naturelle du modèle. Elle a choisi de ne pas supprimer les données et a directement ignoré les mises à jour des paramètres pertinents. Enfin, le problème de la valeur NaN a été résolu. Une analyse plus approfondie des états intermédiaires tels que les valeurs des paramètres, les valeurs d'activation et les valeurs de gradient a montré plus tard que ce problème peut être lié au changement de la valeur maximale de la valeur d'activation du bloc transformateur dans la dernière couche du modèle , et sera résolu de lui-même à mesure que la valeur maximale diminue progressivement.Afin de garantir que l'industrie puisse avoir une compréhension complète, objective et à long terme des performances du grand modèle Yuanxiang, les chercheurs se sont référés à une série d'évaluations universitaires faisant autorité et ont développé un système couvrant les questions et réponses, la compréhension, les connaissances, le raisonnement, les mathématiques, les 11 normes d'évaluation faisant autorité dans six dimensions, y compris le code, continueront d'être utilisées et itérées.
XVERSE-65B n'a pas de modèle du même niveau en Chine qui puisse être comparé. Dans l'évaluation comparative avec les références étrangères, certains indicateurs ont dépassé et la performance globale était comparable à GPT3.5, elle a largement dépassé les références open source ; Llama2-70B et Falcon-180B ; et GPT4 a encore un écart.
Le XVERSE-13B-2 entièrement mis à niveau ajoute une grande quantité de données de haute qualité par rapport aux modèles de même taille, avec des données d'entraînement jusqu'à 3,2 billions, ce qui améliore considérablement la limite supérieure des capacités des « petits " modèles.
Il étudie à la fois les arts et les sciences, conservant ses avantages dans les arts libéraux, les questions et réponses se sont améliorées de 18 %, la science a fait de grands progrès, le codage s'est amélioré de 149 % et les mathématiques se sont améliorées de 198 %. a complètement dépassé les références open source nationales et étrangères telles que Llama2 et Baichuan2.
Maintenant, le grand modèle Yuanxiang peut être téléchargé en recherchant "XVERSE" sur Github, Hugging Face, ModelScope et d'autres plateformes Après une simple inscription, il peut être utilisé pour un usage commercial gratuit et inconditionnel, ce qui. peut satisfaire les petites et moyennes entreprises et les instituts de recherche scientifique ainsi que la plupart des besoins d'application et d'itération des développeurs individuels.
Yuanxiang fournit également une gamme complète de services techniques tels que la formation de modèles, l'inférence, le déploiement et le réglage fin, permettant à diverses industries telles que le divertissement, la finance et les soins médicaux, et aidant à créer des services de pointe dans de multiples scénarios tels que comme un service client intelligent, une rédaction créative et des recommandations précises.
En octobre 2023, Tencent Music a pris l'initiative d'annoncer une coopération stratégique avec Yuanxiang Model, a lancé conjointement le modèle accéléré lyraXVERSE, a complètement mis à niveau son assistant musical « AI Xiaoqin » et continuera d'explorer les technologies de pointe en matière d'IA et de 3D. l'avenir.
Ce qui précède est le contenu détaillé de. pour plus d'informations, suivez d'autres articles connexes sur le site Web de PHP en chinois!