Maison >Périphériques technologiques >IA >Révélé : la matrice multimodale de grands modèles Step Star trillion MoE+ dévoilée

Révélé : la matrice multimodale de grands modèles Step Star trillion MoE+ dévoilée

WBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBoriginal: 2024-07-12 05:52:581160parcourir

Lors de la Conférence mondiale sur l'intelligence artificielle 2024, de nombreuses personnes ont fait la queue devant un stand juste pour laisser le grand modèle d'IA « organiser » une course pour eux au paradis.

Processus :

Fournir des photos personnelles
Générer des photos d'images féeriques (faisant référence au style de "Havoc in Heaven")
Sélection d'intrigues interactives et séance de conversation
Évaluer le type de personnalité MBTI en fonction des choix et des réponses
"Organisez" les courses célestes selon le type de personnalité

Méthode d'expérience :

File d'attente sur place
Expérience en ligne (scannez le code QR ci-dessous)
La grande startup modèle Stepping Stars annonce un grand déménagement

L'expérience interactive d'IA "AI + Havoc in Heaven" en coopération avec Shanghai Film Studio n'est qu'un apéritif pour Stepping Stars pour mettre en valeur le charme des grands modèles. Au cours du WAIC, ils ont lancé en grande pompe le grand mouvement suivant :

Grand modèle MoE avec des milliards de paramètres : Version officielle de l'étape 2
Grand modèle multimodal avec des centaines de milliards de paramètres : Étape- 1,5 V
Génération d'image grand modèle : Step-1X

Step-2 trillions de paramètres grand modèle

Après ses débuts avec Step Stars en mars, Step-2 a évolué pour être totalement proche du GPT Niveau -4, avec d'excellentes performances en logique mathématique, programmation, connaissance du chinois, connaissance de l'anglais et suivi des instructions.

Grand modèle multimodal Step-1.5V

Basé sur le modèle Step-2, Step Star a développé le grand modèle multimodal Step-1.5V, qui possède non seulement de puissantes capacités de perception et de compréhension vidéo, mais également peut imager du contenu pour un raisonnement avancé (comme résoudre des problèmes mathématiques, écrire du code, composer de la poésie).

Modèle de génération d'images larges Step-1X

La génération d'images dans "AI + Upheaval in Heaven" est complétée par le modèle Step-1X, qui est profondément optimisé pour les éléments chinois et possède une excellente capacité d'alignement sémantique et de suivi des instructions.

Step Star a établi une matrice complète de grands modèles couvrant les grands modèles MoE comportant des milliards de paramètres et les grands modèles multimodaux, devenant ainsi le premier échelon des startups de grands modèles. Cela est dû à leur persistance dans la mise à l’échelle de la loi et à l’adéquation de la technologie et de la force des ressources.

Grand modèle de paramètres de l'étape 2 000 milliards

entraîné à partir de zéro améliorera considérablement les capacités de raisonnement du modèle dans des domaines tels que les mathématiques et la programmation. L'étape 2 peut résoudre des problèmes de logique mathématique et de programmation plus complexes que le modèle au niveau de 100 milliards, et a été confirmée quantitativement par des évaluations de référence.

Révélé : la matrice multimodale de grands modèles Step Star trillion MoE+ dévoilée De plus, ses capacités en chinois et en anglais ainsi que sa capacité de suivi de commandement ont également été considérablement améliorées.
La raison pour laquelle l'étape 2 fonctionne si bien est, d'une part, son grand nombre de paramètres et, d'autre part, sa méthode d'entraînement.
Nous savons qu'il existe deux manières principales de former des modèles MoE. L'un d'entre eux est le cycle ascendant, qui consiste à améliorer encore les performances du modèle de manière plus efficace et plus économique en réutilisant les résultats intermédiaires du processus de formation ou le modèle déjà formé. Cette méthode de formation nécessite une faible puissance de calcul et présente une efficacité de formation élevée, mais le modèle entraîné a souvent une limite supérieure inférieure. Par exemple, lors de la formation d'un modèle MoE, si plusieurs modèles experts sont obtenus en copiant et en affinant le même modèle de base, il peut y avoir un degré élevé de similitude entre ces modèles experts. Cette homogénéité limitera l'amélioration des performances du modèle MoE. . espace.
Compte tenu de ces limites, Step Stars a choisi une autre approche : une recherche et un développement totalement indépendants et une formation à partir de zéro. Bien que cette méthode soit difficile à entraîner et consomme beaucoup de puissance de calcul, elle peut atteindre une limite supérieure de modèle plus élevée.
Plus précisément, ils ont d'abord apporté quelques innovations dans la conception de l'architecture MoE, notamment le partage de paramètres par certains experts, la conception d'experts hétérogènes, etc. La première garantit que certaines capacités communes sont partagées entre plusieurs experts, mais en même temps, chaque expert conserve son caractère unique. Ce dernier augmente la diversité et les performances globales du modèle en concevant différents types de modèles experts afin que chaque expert dispose d'avantages uniques sur des tâches spécifiques.
Basé sur ces innovations, Step-2 a non seulement un nombre total de paramètres atteignant le niveau du billion, mais aussi le nombre de paramètres activés pour chaque formation ou inférence dépasse les modèles les plus denses du marché.
De plus, former un modèle comportant des milliards de paramètres à partir de zéro est également un test important pour l'équipe système. Heureusement, l'équipe Step Star System possède une riche expérience pratique dans la construction et la gestion de systèmes, ce qui leur a permis de percer avec succès des technologies clés telles que le parallélisme 6D, la gestion extrême de la mémoire vidéo et le fonctionnement et la maintenance entièrement automatisés pendant le processus de formation, et de terminer avec succès Étape 2. Entraînez-vous. Le grand modèle multimodal Step-1.5V posé sur les épaules du Step-2
Il y a trois mois, Step Star a lancé le grand modèle multimodal Step-1V. Récemment, avec la sortie de la version officielle de Step-2, ce grand modèle multimodal a également été mis à niveau vers la version 1.5.
Step-1.5V se concentre principalement sur les capacités de compréhension multimodale. Par rapport aux versions précédentes, ses capacités de perception ont été considérablement améliorées. Il peut comprendre des graphiques et des organigrammes complexes, percevoir avec précision des positions géométriques complexes dans l'espace physique et peut également traiter des images haute résolution et aux proportions extrêmes.

Révélé : la matrice multimodale de grands modèles Step Star trillion MoE+ dévoilée

De plus, il peut également comprendre les vidéos, y compris les objets, les personnages, les environnements, ainsi que l'atmosphère générale et les émotions des personnages dans les vidéos.

Comme mentionné précédemment, le Step-2 a joué un rôle indispensable dans la naissance du Step-1.5V. Cela signifie que pendant le processus de formation RLHF (apprentissage par renforcement basé sur la rétroaction humaine) de l'étape 1.5V, l'étape 2 est utilisée comme modèle supervisé, ce qui équivaut à l'étape 1.5V ayant un billion de paramètres. Les modèles deviennent des enseignants. Sous la direction de cet enseignant, la capacité de raisonnement de Step-1.5V a été considérablement améliorée et il peut effectuer diverses tâches de raisonnement avancées basées sur le contenu de l'image, telles que la résolution de problèmes mathématiques, l'écriture de code, la composition de poésie, etc. C'est également l'une des capacités récemment démontrées par OpenAI GPT-4o. Cette capacité a rendu le monde extérieur plein d'attentes quant à ses perspectives d'application.

La capacité de génération multimodale se reflète principalement dans le nouveau modèle Step-1X. Par rapport à certains modèles similaires, il offre un meilleur alignement sémantique et de meilleures capacités de suivi des commandes. En même temps, il a été profondément optimisé pour les éléments chinois et est plus adapté au style esthétique du peuple chinois.

L'expérience interactive d'IA de "Havoc in Heaven" créée sur la base de ce modèle intègre la compréhension de l'image, le transfert de style, la génération d'images, la création d'intrigues et d'autres capacités, montrant de manière riche et tridimensionnelle la multimodalité de pointe de l'industrie. Niveau Étape Étoiles. Par exemple, lors de la génération du caractère initial, le système déterminera d'abord si la photo téléchargée par l'utilisateur répond aux exigences de « pincement du visage », puis donnera des commentaires de manière flexible dans un style linguistique très « Havoc in Heaven ». Cela reflète la capacité de compréhension d'image du modèle et la capacité de modèle de langage étendu. Grâce à la technologie des grands modèles, ce jeu permet aux joueurs d'obtenir une expérience interactive complètement différente des jeux H5 en ligne traditionnels. Étant donné que toutes les questions interactives, les images des utilisateurs et les résultats d'analyse sont générés par le modèle après avoir appris les fonctionnalités en temps réel, la possibilité d'avoir des milliers de personnes et de visages et des tracés illimités est véritablement réalisée.

Révélé : la matrice multimodale de grands modèles Step Star trillion MoE+ dévoilée Ces excellentes performances sont indissociables de l'architecture de modèle DiT développée par Stepstar Full Link (Sora d'OpenAI est également une architecture DiT). Afin de permettre à davantage de personnes d'utiliser ce modèle, Step Star a conçu trois quantités de paramètres différentes pour Step-1X : 600M, 2B et 8B pour répondre aux besoins de différents scénarios de puissance de calcul.

Lors du premier événement en mars, Jiang Daxin, le fondateur de Step Star, a clairement déclaré qu'il pensait que l'évolution des grands modèles passerait par trois étapes :

Dans la première étape, chaque modalité telle que le langage, la vision et le son se développe indépendamment, et le modèle de chaque modalité se concentre sur l'apprentissage et la caractérisation des caractéristiques de sa modalité spécifique.
Dans la deuxième étape, différents modes commencent à fusionner. Cependant, cette intégration n’est pas complète et les tâches de compréhension et de génération sont toujours séparées. Il en résulte un modèle avec une forte capacité de compréhension mais une faible capacité de génération, ou vice versa.
Dans la troisième étape, la génération et la compréhension sont unifiées dans un modèle, puis entièrement intégrées au robot pour former une intelligence incarnée. Ensuite, l’intelligence incarnée explore activement le monde physique, puis évolue progressivement vers un modèle mondial, réalisant ainsi l’AGI.

C'est aussi la voie à laquelle Jiang Daxin et d'autres adhèrent depuis le début de leur entreprise. Sur cette route, « Des milliards de paramètres » et la « fusion multimode » sont indispensables Les étapes 2, 1,5 V et 1 X sont tous des nœuds qu'ils ont atteint sur cette route.

De plus, ces nœuds sont connectés un par un. Prenons l'exemple d'OpenAI. Le modèle de génération vidéo que Sora a publié au début de l'année utilisait l'outil interne d'OpenAI (très probablement GPT-4V) pour l'annotation et GPT-4V était formé sur la base des technologies liées à GPT-4. Du point de vue actuel, les puissantes capacités des modèles monomodaux jetteront les bases de la multimodalité ; la compréhension de la multimodalité jettera les bases de la génération. En s'appuyant sur une telle matrice de modèle, OpenAI réalise que le pied gauche marche sur le pied droit. Et Step Star confirme cette route en Chine.

Nous attendons avec impatience que cette entreprise apporte plus de surprises dans le domaine national des grands modèles.

Ce qui précède est le contenu détaillé de. pour plus d'informations, suivez d'autres articles connexes sur le site Web de PHP en chinois!

架构人工智能自动化 gpt agi

Déclaration：

Le contenu de cet article est volontairement contribué par les internautes et les droits d'auteur appartiennent à l'auteur original. Ce site n'assume aucune responsabilité légale correspondante. Si vous trouvez un contenu suspecté de plagiat ou de contrefaçon, veuillez contacter admin@php.cn

Article précédent：ACL 2024 | Recherche universitaire de premier plan sur l'audiovisuel, l'Université Jiao Tong de Shanghai, l'Université Tsinghua, l'Université de Cambridge et Shanghai AILAB ont publié conjointement l'ensemble de données audiovisuelles académiques M3AVArticle suivant：ACL 2024 | Recherche universitaire de premier plan sur l'audiovisuel, l'Université Jiao Tong de Shanghai, l'Université Tsinghua, l'Université de Cambridge et Shanghai AILAB ont publié conjointement l'ensemble de données audiovisuelles académiques M3AV

Articles Liés

Voir plus