Maison >Périphériques technologiques >IA >Des milliards de jetons ! La naissance du plus grand ensemble de données multimodales de l'histoire

Des milliards de jetons ! La naissance du plus grand ensemble de données multimodales de l'histoire

WBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBoriginal: 2024-07-28 09:38:23937parcourir

Les grands modèles multimodaux open source pourraient commencer à décoller.

Des milliards de jetons ! La naissance du plus grand ensemble de données multimodales de lhistoire

Alors que Llama 3.1 fait la une des journaux, une autre version très importante est soudainement apparue : un ensemble de données multimodales open source d'une ampleur sans précédent.

Pour les grands modèles, l'importance des ensembles de données va sans dire. On peut même dire qu'il est impossible d'avoir de grands modèles sans de grands ensembles de données. Le développement de grands modèles multimodaux (LMM) est actuellement en plein essor. Des ensembles de données multimodales open source et de haute qualité à une échelle suffisamment grande sont devenus un « besoin rigide » dans ce domaine.

Cependant, par rapport aux ensembles de données texte open source, les ensembles de données multimodales open source existants sont plus petits et moins diversifiés, et leurs sources sont essentiellement des documents HTML, ce qui limite l'étendue et la diversité des données. Cela limite sans aucun doute le développement du LMM open source et rend très grande la différence entre LMM open source et LMM fermé.

Récemment, une équipe conjointe de l'Université de Washington, de Salesforce Research et de l'Université de Stanford a comblé cette lacune et construit un ensemble de données open source multimodales entrelacées au niveau d'un billion de jetons MINT-1T (Multimodal INTerleaved). Il s’agit sans aucun doute du plus grand ensemble de données multimodales open source actuellement disponible.

Des milliards de jetons ! La naissance du plus grand ensemble de données multimodales de lhistoire

Adresse de l'ensemble de données : https://github.com/mlfoundations/MINT-1T
Adresse du papier : https://arxiv.org/abs/2406.11271
Titre du papier : MINT - 1T : multiplier par 10 les données multimodales open source : un ensemble de données multimodales avec un billion de jetons

MINT-1T contient un total d'un billion de jetons de texte et trois milliards d'images, et il contient HTML/PDF/ArXiv et bien d'autres sources. Avant l'avènement de MINT-1T, le plus grand ensemble de données open source dans ce domaine était OBELICS, qui contenait 115 milliards de jetons de texte et 353 millions d'images, et la source était uniquement HTML. La figure 1 compare ces ensembles de données.

Construction de l'ensemble de données

Tout d'abord, l'équipe a collecté une grande quantité de données multimodales provenant de diverses sources (notamment HTML, PDF, ArXiv). La figure 2 montre les données multimodales de ces différentes sources.

Ensuite, pour améliorer la qualité et la sécurité des données, ils ont effectué un filtrage de la qualité du texte, un filtrage des images, un filtrage de sécurité (y compris la suppression des images NSFW et des informations personnelles identifiables) et une déduplication. La figure 3 illustre brièvement ces processus de filtrage des données.

En fin de compte, l'ensemble de données MINT-1T qu'ils ont obtenu contenait 922 milliards de jetons HTML, 106 milliards de jetons PDF et 9 milliards de jetons ArXiv. Il convient de noter que l’ensemble du processus de traitement des données a consommé environ 4,2 millions d’heures CPU. Le tableau 1 compare certains ensembles de données multimodales open source ou fermées.

Expérience de modèle

L'équipe a également expérimenté l'effet de l'utilisation de cet ensemble de données pour former un modèle multimodal et l'a comparé à d'autres ensembles de données.

L'architecture de modèle qu'ils ont utilisée est XGen-MM de Salesforce, et ce qu'ils évaluent, ce sont les capacités d'apprentissage contextuel et de raisonnement multi-images du modèle après avoir appris sur l'ensemble de données. Les critères d'évaluation comprennent : des critères de description visuelle (COCO et TextCaps), des critères de réponse visuelle aux questions (VQAv2, OK-VQA, TextVQA et VizWiz) et des critères de raisonnement multi-images (MMMU et Mantis-Eval).

Résultats expérimentaux

Formation sur les documents HTML

L'équipe a d'abord comparé la partie HTML de MINT-1T avec OBELICS car OBELICS est l'ancien ensemble de données multimodal leader et est également basé ; sur des documents HTML, ils ont formé deux modèles avec 10 milliards de jetons multimodaux basés sur ces deux ensembles de données et ont évalué leurs performances d'apprentissage contextuel.

Le tableau 2 donne les performances à 4 et 8 coups sur des benchmarks courants.

On peut voir que pour la tâche VQA (réponse visuelle aux questions), le modèle formé sur les documents HTML MINT-1T est plus performant que le modèle formé sur OBELICS, mais le premier est moins performant sur la tâche de description visuelle. En moyenne, OBELICS est légèrement meilleur que MINT-1T (HTML).

Ajouter des documents PDF et ArXiv

Après cela, l'équipe a testé sur l'ensemble de données complet MINT-1T, qui contient à la fois des documents HTML, PDF et ArXiv. Ils échantillonnent généralement 10 milliards de jetons multimodaux, 50 % à partir de HTML, 45 % à partir de PDF et 5 % à partir d'ArXiv.

Les résultats sont également présentés dans le tableau 2. On peut voir que le modèle formé sur les données mixtes MINT-1T surpasse le modèle formé sur OBELICS et MINT-1T (HTML) sur la plupart des benchmarks.

Sur des tâches de raisonnement multimodal plus complexes, comme le montre le tableau 3, le modèle formé avec MINT-1T est meilleur que le modèle formé avec OBELICS sur MMMU, mais pas aussi bon que le benchmark Mantis-Eval. dernier.

Pour des tests plus précis et l'impact de l'architecture du modèle, veuillez vous référer à l'article original.

Cet ensemble de données multimodales open source à très grande échelle peut-il devenir le point de départ d'une série de légendes, créant finalement une grande série de modèles multimodaux comme la série de modèles Llama ? Attendons voir.

Ce qui précède est le contenu détaillé de. pour plus d'informations, suivez d'autres articles connexes sur le site Web de PHP en chinois!

架构 html Token github https llama

Déclaration：

Le contenu de cet article est volontairement contribué par les internautes et les droits d'auteur appartiennent à l'auteur original. Ce site n'assume aucune responsabilité légale correspondante. Si vous trouvez un contenu suspecté de plagiat ou de contrefaçon, veuillez contacter admin@php.cn

Article précédent：Zhijia Technology a obtenu le premier permis d'essai sur route ouverte sans conducteur de camion lourd du paysArticle suivant：Zhijia Technology a obtenu le premier permis d'essai sur route ouverte sans conducteur de camion lourd du pays

Articles Liés

Voir plus