Maison  >  Article  >  Périphériques technologiques  >  Meta lance « Chameleon » pour défier GPT-4o, les paramètres 34B mènent la révolution multimodale ! La formation de 10 000 milliards de jetons actualise SOTA

Meta lance « Chameleon » pour défier GPT-4o, les paramètres 34B mènent la révolution multimodale ! La formation de 10 000 milliards de jetons actualise SOTA

WBOY
WBOYoriginal
2024-06-12 13:18:58793parcourir

L'émergence de GPT-4o a une fois de plus créé un nouveau paradigme pour le développement de modèles multimodaux !

Pourquoi tu dis ça ?

OpenAI l'appelle le « premier modèle multimodal « natif » », ce qui signifie que GPT-4o est différent de tous les modèles précédents.

Meta lance « Chameleon » pour défier GPT-4o, les paramètres 34B mènent la révolution multimodale ! La formation de 10 000 milliards de jetons actualise SOTA

Les modèles de base multimodaux traditionnels utilisent généralement un "encodeur" ou un "décodeur" spécifique pour chaque modalité afin de séparer les différentes modalités.

Cependant, cette approche limite la capacité du modèle à fusionner efficacement les informations intermodales.

GPT-4o est le premier modèle de formation de bout en bout pouvant couvrir les modes texte, visuel et audio. Toutes les entrées et sorties sont traitées par un seul réseau neuronal.

Et maintenant, le premier modèle de l’industrie qui ose défier GPT-4o est apparu !

Récemment, des chercheurs de l'équipe Meta ont publié le "Mixed Modal Base Model" - Chameleon.

Meta lance « Chameleon » pour défier GPT-4o, les paramètres 34B mènent la révolution multimodale ! La formation de 10 000 milliards de jetons actualise SOTA

Adresse papier : https://arxiv.org/pdf/2405.09818

Comme GPT-4o, Chameleon adopte une architecture Transformer unifiée et utilise des modalités mixtes de texte, d'image et de code pour compléter la formation.

D'une manière similaire à la génération de texte, l'image est discrètement « tokenisée » (tokénisation), et génère et déduit enfin des séquences de texte et d'images entrelacées.

Meta lance « Chameleon » pour défier GPT-4o, les paramètres 34B mènent la révolution multimodale ! La formation de 10 000 milliards de jetons actualise SOTA

Avec cette approche de « fusion précoce », tous les pipelines sont mappés dès le début sur un espace de représentation commun, afin que le modèle puisse traiter de manière transparente le texte et les images.

Meta lance « Chameleon » pour défier GPT-4o, les paramètres 34B mènent la révolution multimodale ! La formation de 10 000 milliards de jetons actualise SOTA

Contenu multimodal généré par Chameleon

En même temps, une telle conception pose des défis techniques importants à la formation des modèles.

À cet égard, l'équipe de recherche Meta a introduit une série d'innovations architecturales et de technologies de formation.

Les résultats montrent que dans les tâches en texte brut, les performances de Chameleon à 34 milliards de paramètres (entraîné avec 10 000 milliards de jetons multimodaux) sont équivalentes à celles de Gemini-Pro.

Rafraîchissant SOTA sur les benchmarks de réponse visuelle aux questions et d'annotation d'images, les performances sont proches de GPT-4V.

Cependant, GPT-4o et Chameleon sont les premières explorations d'une nouvelle génération de modèles de base multimodaux de bout en bout « natifs ».

Lors de la conférence GTC 2024, Lao Huang a décrit une étape importante vers la vision ultime de l'AGI : l'interopérabilité des différents modes.

Meta lance « Chameleon » pour défier GPT-4o, les paramètres 34B mènent la révolution multimodale ! La formation de 10 000 milliards de jetons actualise SOTA

Le prochain GPT-4o open source arrive-t-il ?

La sortie de Chameleon est tout simplement la réponse la plus rapide au GPT-4o.

Meta lance « Chameleon » pour défier GPT-4o, les paramètres 34B mènent la révolution multimodale ! La formation de 10 000 milliards de jetons actualise SOTA

Meta lance « Chameleon » pour défier GPT-4o, les paramètres 34B mènent la révolution multimodale ! La formation de 10 000 milliards de jetons actualise SOTA

Certains internautes ont dit que le jeton entre et le jeton sort, ce qui est tout simplement impossible à expliquer.

Meta lance « Chameleon » pour défier GPT-4o, les paramètres 34B mènent la révolution multimodale ! La formation de 10 000 milliards de jetons actualise SOTA

Certaines personnes prétendent même que OOS rattrapera les recherches très solides publiées après la naissance du GPT-4o.

Meta lance « Chameleon » pour défier GPT-4o, les paramètres 34B mènent la révolution multimodale ! La formation de 10 000 milliards de jetons actualise SOTA

Cependant, actuellement, le modèle Chameleon prend en charge les modalités générées, principalement le texte image. Les capacités vocales de GPT-4o sont manquantes.

Les internautes ont dit, alors ajoutez simplement une autre modalité (audio), élargissez l'ensemble de données d'entraînement, « cuisinez » pendant un moment, et nous obtiendrons GPT-4o... ?

Meta lance « Chameleon » pour défier GPT-4o, les paramètres 34B mènent la révolution multimodale ! La formation de 10 000 milliards de jetons actualise SOTA

Meta "I Je suis très fier de soutenir cette équipe. Faisons un pas en avant pour rapprocher GPT-4o de la communauté open source", a déclaré le directeur de la gestion produit de GPT-4o.

Meta lance « Chameleon » pour défier GPT-4o, les paramètres 34B mènent la révolution multimodale ! La formation de 10 000 milliards de jetons actualise SOTA

Peut-être qu'il ne faudra pas longtemps avant que nous obtenions une version open source de GPT-4o.

Ensuite, jetons un œil aux détails techniques du modèle Chameleon.

Architecture technique

Meta a déclaré pour la première fois dans l'article de Chameleon : De nombreux modèles récemment publiés n'implémentent toujours pas la « multimodalité » jusqu'au bout.

Bien que ces modèles adoptent une méthode de formation de bout en bout, ils modélisent toujours différentes modalités séparément, en utilisant des encodeurs ou des décodeurs distincts.

Comme mentionné au début, cette approche limite la capacité du modèle à capturer des informations multimodales et rend difficile la génération de documents véritablement multimodaux contenant toute forme d'information.

Afin d'améliorer cette lacune, Meta a proposé une série de modèles de base "mixtes-modaux" Chameleon - capables de générer du contenu dans lequel le texte et le contenu des images sont arbitrairement entrelacés.

Meta lance « Chameleon » pour défier GPT-4o, les paramètres 34B mènent la révolution multimodale ! La formation de 10 000 milliards de jetons actualise SOTA

Les résultats, le texte et les images générés par Chameleon apparaissent entrelacés

Le modèle de base dit "modal mixte" signifie que Chameleon utilise non seulement une approche de bout en bout pour s'entraîner à partir de zéro, mais aussi combine tous les modèles pendant la formation. Les informations d'état sont entrelacées, mélangées et traitées à l'aide d'une architecture unifiée.

Comment mélanger les informations de toutes les modalités et les représenter dans la même architecture de modèle ?

La réponse est toujours « symbolique ».

Tant que tout est exprimé sous forme de jetons, toutes les informations de toutes les modalités peuvent être mappées dans le même espace vectoriel, permettant à Transformer de les traiter de manière transparente.

Cependant, cette approche entraînera des défis techniques en termes de stabilité d'optimisation et d'évolutivité du modèle.

Afin de résoudre ces problèmes, l'article innove en conséquence dans l'architecture du modèle et utilise certaines techniques de formation, notamment la normalisation QK et Zloss.

Dans le même temps, l'article propose également une méthode pour affiner le LLM en texte brut dans un modèle multimodal.

Image "Tokenizer"

Pour représenter toutes les modalités sous forme de jetons, vous avez d'abord besoin d'un tokenizer puissant.

À cette fin, l'équipe de Chameleon a développé un nouveau segmenteur d'images basé sur un article précédent dans Meta. Basé sur un livre de codes de taille 8192, l'image avec une spécification de 512×512 est codée en 1024 jetons discrets.

Meta lance « Chameleon » pour défier GPT-4o, les paramètres 34B mènent la révolution multimodale ! La formation de 10 000 milliards de jetons actualise SOTA

Le tokeniseur de texte est basé sur la bibliothèque open source de phrases développée par Google, et un tokeniseur BPE contenant 65 536 jetons de texte et 8 192 jetons d'image est formé.

Meta lance « Chameleon » pour défier GPT-4o, les paramètres 34B mènent la révolution multimodale ! La formation de 10 000 milliards de jetons actualise SOTA

Meta lance « Chameleon » pour défier GPT-4o, les paramètres 34B mènent la révolution multimodale ! La formation de 10 000 milliards de jetons actualise SOTA

Pré-entraînement

Afin de stimuler pleinement le potentiel des "modalités mixtes", les données d'entraînement sont également divisées et mélangées avec différentes modalités et présentées au modèle, y compris du texte pur, du texte-image paires et texte, documents multimodaux avec images entrelacées.

Meta lance « Chameleon » pour défier GPT-4o, les paramètres 34B mènent la révolution multimodale ! La formation de 10 000 milliards de jetons actualise SOTA

Les données en texte brut incluent toutes les données de pré-entraînement utilisées par Llama 2 et CodeLlama, totalisant 2,9 billions de jetons.

Les paires texte-image contiennent des données publiques, totalisant 1,4 milliard de paires et 1,5 billion de jetons.

Pour les données entrelacées de texte et d'images, le document souligne spécifiquement qu'il n'inclut pas les données des produits Meta, utilisant entièrement des sources de données publiques et triant un total de 400 milliards de jetons.

La pré-formation de Chameleon se déroule en deux étapes distinctes, représentant respectivement 80 % et 20 % du ratio total de formation.

La première étape de l'entraînement consiste à laisser le modèle apprendre les données ci-dessus de manière non supervisée. Au début de la deuxième étape, réduire de 50 % le poids obtenu dans la première étape et mélanger des données de meilleure qualité pour permettre l'apprentissage. modèle pour continuer à apprendre.

Lorsque le modèle s'étend à plus de 8B de paramètres et 1T de jetons, des problèmes d'instabilité évidents se produiront dans les dernières étapes de la formation.

Étant donné que toutes les modalités partagent des poids de modèle, chaque modalité semble avoir tendance à augmenter la norme et à « rivaliser » avec les autres modalités.

Cela ne posera pas beaucoup de problèmes au début de l'entraînement, mais à mesure que l'entraînement progresse et que les données dépassent la plage d'expression de bf16, la perte divergera.

Meta lance « Chameleon » pour défier GPT-4o, les paramètres 34B mènent la révolution multimodale ! La formation de 10 000 milliards de jetons actualise SOTA

Les chercheurs attribuent cela à l'invariance de traduction de la fonction softmax. Ce phénomène est également appelé « dérive logit » dans les modèles monomodaux.

Par conséquent, l'article propose quelques ajustements architecturaux et méthodes d'optimisation pour assurer la stabilité :

-normalisation QK (normalisation des clés de requête) : appliquer la norme de couche à la requête et aux vecteurs clés dans le module d'attention, contrôlant ainsi directement la croissance normale de l'entrée de la couche softmax.

-Introduction du décrochage après la couche d'attention et la couche feedforward

-Utilisation de la régularisation Zloss dans la fonction de perte

Meta lance « Chameleon » pour défier GPT-4o, les paramètres 34B mènent la révolution multimodale ! La formation de 10 000 milliards de jetons actualise SOTA

En plus de la source de données et de l'architecture, le document a également généreusement divulgué le pré- méthodes de formation L'échelle de la puissance de calcul.

Le modèle matériel est NVIDIA A100 avec 80 Go de mémoire. La version 7B a utilisé 1 024 GPU en parallèle pour s'entraîner pendant environ 860 000 heures GPU. Le nombre de GPU utilisés par le modèle 34B a été multiplié par trois et le nombre d'heures GPU. dépassé 4,28 millions.

Meta lance « Chameleon » pour défier GPT-4o, les paramètres 34B mènent la révolution multimodale ! La formation de 10 000 milliards de jetons actualise SOTA

En tant qu'entreprise qui a autrefois open source Llama 2, l'équipe de recherche de Meta est vraiment généreuse Par rapport à GPT-4o, qui n'a même pas de rapport technique, ce document avec des données et des informations utiles peut être. décrit comme « le plus généreux ».

Surpassant largement Llama 2

Dans l'évaluation expérimentale spécifique, les chercheurs l'ont divisée en évaluation manuelle, tests de sécurité et évaluation de base.

Évaluation de référence

Après avoir utilisé quatre fois plus de jetons que Llama 2 pour l'entraînement, Chameleon-34B a obtenu des résultats étonnants dans divers tests de référence monomodaux.

Dans la génération de tâches en texte uniquement, les chercheurs ont comparé les fonctionnalités en texte uniquement du modèle pré-entraîné (non SFT) avec d'autres principaux LLM en texte uniquement.

Le contenu de l'évaluation comprend le raisonnement de bon sens, la compréhension écrite, les problèmes mathématiques et les domaines de connaissance du monde. Les résultats de l'évaluation sont présentés dans le tableau ci-dessous.

- Raisonnement de bon sens et compréhension en lecture

On peut observer que par rapport à Llama 2, Chameleon-7B et Chameleon-34B sont plus compétitifs. En fait, 34B a même dépassé Llama-2 70B sur 5/8 tâches, et ses performances étaient équivalentes à celles de Mixtral-8x7B.

- Mathématiques et connaissance du monde

Bien qu'ils aient été formés sur d'autres modalités, les deux modèles Caméléon ont montré de fortes capacités mathématiques.

Sur GSM8k, Chameleon-7B fonctionne mieux que le modèle Llama 2 d'échelle de paramètres correspondante, et ses performances sont équivalentes à celles de Mistral-7B.

De plus, Chameleon-34B est plus performant que Llama 2-70B à maj@1 (61,4 contre 56,8) et Mixtral-8x7B à maj@32 (77,0 contre 75,1).

De même, dans les opérations mathématiques, Chameleon-7B surpasse Llama 2 et est à égalité avec Mistral-7B sur maj@4, tandis que Chameleon-34B surpasse Llama 2-70B et est proche de Mixtral-8x7B sur maj@4 Performance. sur maj@4 (24,7 contre 28,4).

Dans l'ensemble, les performances de Chameleon dépassent Llama 2 dans tous les aspects et sont proches de Mistral-7B/8x7B sur certaines tâches.

Meta lance « Chameleon » pour défier GPT-4o, les paramètres 34B mènent la révolution multimodale ! La formation de 10 000 milliards de jetons actualise SOTA

Dans la tâche de conversion texte-image, les chercheurs ont spécifiquement évalué deux tâches spécifiques : la réponse visuelle aux questions et l'annotation d'images.

Chameleon a vaincu des modèles tels que Flamingo et Llava-1.5 dans les tâches de réponse visuelle aux questions et d'annotation d'images pour devenir SOTA Dans les tâches de texte brut, il a également fonctionné tout aussi bien avec des modèles de premier niveau tels que Mixtral 8x7B et Gemini Pro.

Meta lance « Chameleon » pour défier GPT-4o, les paramètres 34B mènent la révolution multimodale ! La formation de 10 000 milliards de jetons actualise SOTA

Évaluation humaine et tests de sécurité

Dans le même temps, afin d'évaluer davantage la qualité du contenu multimodal généré par le modèle, le document a également introduit des expériences d'évaluation humaine en plus du test de référence et a constaté que le Chameleon-34B fonctionnait bien mieux que Gemini Pro et GPT-4V.

Par rapport à GPT-4V et Gemini Pro, les juges humains ont obtenu respectivement 51,6 % et 60,4 taux de préférence.

La figure ci-dessous montre la comparaison des performances des modèles Chameleon et de base dans la compréhension et la génération de contenu pour un ensemble diversifié d'invites provenant d'annotateurs humains.

Meta lance « Chameleon » pour défier GPT-4o, les paramètres 34B mènent la révolution multimodale ! La formation de 10 000 milliards de jetons actualise SOTA

Trois annotateurs humains différents répondent à chaque question, le vote majoritaire étant la réponse finale.

Pour comprendre la qualité des annotateurs humains et si les questions étaient conçues de manière appropriée, les chercheurs ont également examiné le degré d'accord entre les différents annotateurs.

Meta lance « Chameleon » pour défier GPT-4o, les paramètres 34B mènent la révolution multimodale ! La formation de 10 000 milliards de jetons actualise SOTA

Meta lance « Chameleon » pour défier GPT-4o, les paramètres 34B mènent la révolution multimodale ! La formation de 10 000 milliards de jetons actualise SOTA

Le tableau 5 est un test de sécurité effectué sur 20 000 invites participatives et 445 interactions d'équipe rouge, amenant le modèle à produire du contenu dangereux.

Meta lance « Chameleon » pour défier GPT-4o, les paramètres 34B mènent la révolution multimodale ! La formation de 10 000 milliards de jetons actualise SOTA

Comparé à Gemini et GPT-4V, Chameleon est très compétitif lorsqu'il s'agit de signaux qui nécessitent des réponses modales mixtes et entrelacées.

Comme vous pouvez le voir dans l'exemple, lors de l'exécution de la tâche de questions et réponses, Chameleon peut non seulement comprendre le texte + l'image d'entrée, mais également ajouter des « images » appropriées au contenu de sortie du modèle.

Meta lance « Chameleon » pour défier GPT-4o, les paramètres 34B mènent la révolution multimodale ! La formation de 10 000 milliards de jetons actualise SOTA

Meta lance « Chameleon » pour défier GPT-4o, les paramètres 34B mènent la révolution multimodale ! La formation de 10 000 milliards de jetons actualise SOTA

De plus, les images générées par Chameleon sont généralement contextuelles, ce qui rend la sortie de ce contenu entrelacé très attractive pour les utilisateurs.

Meta lance « Chameleon » pour défier GPT-4o, les paramètres 34B mènent la révolution multimodale ! La formation de 10 000 milliards de jetons actualise SOTA

Équipe contributrice

À la fin de l'article, les contributeurs qui ont participé à cette recherche sont également répertoriés.

Comprend la pré-formation, l'alignement et la sécurité, le raisonnement et l'évaluation, les participants pour tous les projets.

Parmi eux, * représente un co-auteur, † représente un contributeur clé, ‡ représente le leader du workflow, et ♯ représente le chef de projet.

Meta lance « Chameleon » pour défier GPT-4o, les paramètres 34B mènent la révolution multimodale ! La formation de 10 000 milliards de jetons actualise SOTA


Ce qui précède est le contenu détaillé de. pour plus d'informations, suivez d'autres articles connexes sur le site Web de PHP en chinois!

Déclaration:
Le contenu de cet article est volontairement contribué par les internautes et les droits d'auteur appartiennent à l'auteur original. Ce site n'assume aucune responsabilité légale correspondante. Si vous trouvez un contenu suspecté de plagiat ou de contrefaçon, veuillez contacter admin@php.cn