


Dans le domaine de la PNL, les grands modèles de langage (LLM) ont servi avec succès d'interface commune dans diverses tâches en langage naturel. Tant que nous pouvons convertir l'entrée et la sortie en texte, nous pouvons adapter l'interface basée sur LLM à une tâche. Par exemple, la tâche récapitulative récupère des documents et génère des informations récapitulatives. Ainsi, nous pouvons introduire les documents d'entrée dans un modèle de langage récapitulatif et générer un résumé.
Malgré l'application réussie du LLM dans les tâches de PNL, les chercheurs ont encore du mal à l'utiliser de manière native pour les données multimodales telles que les images et l'audio. En tant que composante fondamentale de l’intelligence, la perception multimodale est une condition nécessaire pour parvenir à une intelligence artificielle générale, tant pour l’acquisition de connaissances que pour la gestion du monde réel. Plus important encore, débloquer la saisie multimodale peut considérablement étendre l’application des modèles linguistiques dans des domaines à plus forte valeur ajoutée, tels que la robotique multimodale, l’intelligence documentaire et la robotique.
Par conséquent, l'équipe Microsoft a introduit un Multimodal Large Language Model (MLLM) - KOSMOS-1 dans l'article "Le langage n'est pas tout ce dont vous avez besoin : aligner la perception avec les modèles de langage", qui peut percevoir la modalité générale, en suivant instructions (c'est-à-dire apprentissage sans tir) et apprentissage en contexte (c'est-à-dire apprentissage en quelques coups) . L'objectif de la recherche est d'aligner la perception avec le LLM afin que le modèle puisse voir et parler. Les chercheurs ont formé KOSMOS-1 à partir de zéro selon la méthode de METALM (voir l'article « Les modèles de langage sont des interfaces à usage général »).
- Adresse papier : https://arxiv.org/pdf/2302.14045.pdf
- Adresse du projet : https://github.com/microsoft/unilm
Comme le montre la figure 1 ci-dessous, le chercheur utilise un modèle de langage basé sur Transformer comme interface générale et le connecte au module de perception. Ils ont formé le modèle sur un corpus multimodal à l’échelle du Web, qui comprend des données textuelles, des images et du texte arbitrairement entrelacés, ainsi que des paires image-légende. De plus, les chercheurs ont calibré l’enseignement intermodal en fonction des capacités en transmettant des données linguistiques pures.
Enfin, le modèle KOSMOS-1 prend en charge nativement le langage, le langage perceptuel et les tâches visuelles dans des paramètres d'apprentissage à zéro et à quelques coups, comme le montre le tableau 1 ci-dessous.
Les chercheurs montrent quelques exemples générés dans les figures 2 et 3 ci-dessous. En plus de diverses tâches en langage naturel, le modèle KOSMOS-1 est capable de gérer nativement un large éventail de tâches à forte intensité de perception, telles que le dialogue visuel, l'explication visuelle, la réponse visuelle aux questions, les sous-titres d'images, les équations mathématiques simples, l'OCR et images sans prise de vue avec descriptions Classification. Ils ont également établi un test de référence de QI basé sur les matrices progressives de Raven (RPM) pour évaluer la capacité de raisonnement non verbal de MLLM.
Ces exemples démontrent que la prise en charge native de la perception multimodale ouvre de nouvelles opportunités pour appliquer le LLM à de nouvelles tâches. De plus, par rapport au LLM, le MLLM atteint de meilleures performances de raisonnement de bon sens, ce qui indique que le transfert intermodal facilite l'acquisition de connaissances.
Le nombre de paramètres du modèle KOSMOS-1 étant de 1,6 milliard, certains internautes ont exprimé l'espoir de faire fonctionner ce grand modèle multimodal sur leurs ordinateurs.
KOSMOS-1 : un modèle de langage multimodal à grande échelle
Comme le montre la figure 1, KOSMOS-1 est un modèle de langage multimodal qui peut percevoir des modalités générales, suivre des instructions, apprendre en contexte et générer des résultats. Plus précisément, l'épine dorsale de KOSMOS-1 est un modèle de langage causal basé sur Transformer. En plus du texte, d'autres modalités peuvent également être intégrées et entrées dans le modèle. Comme le montre la figure ci-dessous, en plus du langage, il existe également des intégrations de vision, de parole, etc. Les décodeurs de transformateur servent d'interface générale pour les entrées multimodales. Une fois le modèle entraîné, KOSMOS-1 peut également être évalué sur des tâches linguistiques et des tâches multimodales dans des contextes de tir nul et de tir réduit.
Le décodeur de transformateur perçoit la modalité de manière unifiée et les informations d'entrée seront aplaties en une séquence avec des jetons spéciaux. Par exemple, signifie le début de la séquence et signifie la fin de la séquence. Les jetons spéciaux
Le module d'intégration code les jetons de texte et d'autres modalités de saisie dans des représentations vectorielles pour les jetons d'entrée, l'étude utilise une table de recherche pour les mapper dans des intégrations. Pour les modalités de signal continu (par exemple, images et audio), l'entrée peut également être représentée sous forme de codes discrets.
Après cela, l'intégration de la séquence d'entrée obtenue est transmise au décodeur basé sur Transformer. Le modèle causal traite ensuite la séquence de manière autorégressive, aboutissant au jeton suivant. En résumé, le framework MLLM peut gérer de manière flexible différents types de données tant que les entrées sont représentées sous forme de vecteurs.
Formation du modèle
Le premier est l'ensemble de données de formation. Les ensembles de données comprennent des corpus de texte, des paires image-sous-titres et des ensembles de données croisées image et texte. Plus précisément, le corpus de texte comprend The Pile et Common Crawl (CC) ; les paires image-sous-titres incluent les anglais LAION-2B, LAION-400M, COYO-700M et Conceptual Captions ; l'ensemble de données multimodales d'image et de texte provient de Common Crawl ; instantané.
Maintenant que nous avons l'ensemble de données, nous avons les paramètres d'entraînement. Le composant MLLM contient 24 couches, des dimensions cachées de 2 048, 8 192 FFN, 32 têtes d'attention et une taille de paramètre de 1,3 B. Pour permettre une meilleure convergence du modèle, la représentation de l'image est obtenue à partir du modèle CLIP ViT-L/14 pré-entraîné avec 1024 dimensions de caractéristiques. Les images sont prétraitées à une résolution de 224 × 224 pendant la formation. De plus, tous les paramètres du modèle CLIP, à l'exception de la dernière couche, sont gelés pendant la formation. Le nombre total de paramètres pour KOSMOS-1 est d’environ 1,6 milliard.
Résultats expérimentaux
Cette étude a mené une série d'expériences riches pour évaluer KOSMOS-1 : tâches linguistiques (compréhension du langage, génération de langage, classification de texte sans OCR) ; Raisonnement de bon sens ; Raisonnement non verbal (test de QI) ; Tâches perceptuelles et linguistiques (sous-titres d'images, questions et réponses visuelles, questions et réponses de pages Web (classification d'images sans plan, classification d'images sans plan avec description) ; ).
Légendes des images. Le tableau suivant montre les performances sans échantillon de différents modèles sur COCO et Flickr30k. Comparé à d'autres modèles, le KOSMOS-1 a obtenu des résultats significatifs et ses performances sont également bonnes, même si le nombre de paramètres est beaucoup plus petit que celui du Flamingo.
Le tableau suivant montre la comparaison des performances de quelques échantillons :
Questions et réponses visuelles. KOSMOS-1 a une précision et une robustesse supérieures à celles des modèles Flamingo-3B et Flamingo-9B :
Le tableau suivant montre une comparaison des performances de quelques exemples :
Test de QI. Le test de raisonnement de Raven est l'un des tests les plus couramment utilisés pour évaluer le raisonnement non verbal. La figure 4 montre un exemple.
Le tableau 6 montre les résultats de l'évaluation sur l'ensemble de données du test de QI. KOSMOS-1 est capable de percevoir des modèles conceptuels abstraits dans un environnement non verbal, puis de raisonner les éléments suivants parmi de multiples choix. À notre connaissance, c’est la première fois qu’un modèle est capable d’effectuer un tel test Raven IQ sur échantillon zéro.
Questions et réponses Web. Web Q&A vise à trouver des réponses aux questions des pages Web. Cela nécessite que le modèle comprenne à la fois la sémantique et la structure du texte. Les résultats sont les suivants :
Invites à la chaîne de pensée multimodale. Inspiré par les invites de la chaîne de réflexion, cet article a mené une expérience à cet égard. Comme le montre la figure 5, cet article décompose la tâche de perception du langage en deux étapes. Étant donné une image dans la première étape, des indices sont utilisés pour guider le modèle afin de générer une sortie qui répond aux exigences pour produire le résultat final.
Comme le montre le tableau 9, le score de l'invite de chaîne de pensée multimodale est de 72,9 points, soit 5,8 points de plus que l'invite standard :
En savoir plus à propos de l'expérience, veuillez vous référer à l'article original.
Ce qui précède est le contenu détaillé de. pour plus d'informations, suivez d'autres articles connexes sur le site Web de PHP en chinois!

Dans le livre de 1971 de John Rawls, The Theory of Justice, il a proposé une expérience de pensée que nous devrions prendre en tant que noyau de la conception de l'IA d'aujourd'hui et utilise la prise de décision: le voile de l'ignorance. Cette philosophie fournit un outil simple pour comprendre l'équité et fournit également un plan pour les dirigeants afin d'utiliser cette compréhension pour concevoir et mettre en œuvre l'IA de manière équitable. Imaginez que vous établissez des règles pour une nouvelle société. Mais il y a une prémisse: vous ne savez pas à l'avance quel rôle vous allez jouer dans cette société. Vous pouvez finir par être riche ou pauvre, sain ou handicapé, appartenant à une minorité majoritaire ou marginale. Opérant dans le cadre de ce «voile d'ignorance» empêche les décideurs de prendre des décisions qui bénéficient elles-mêmes. Au contraire, les gens seront plus motivés pour formuler le public

De nombreuses entreprises se spécialisent dans l'automatisation des processus robotiques (RPA), offrant des robots pour automatiser les tâches répétitives - UIPATH, l'automatisation n'importe où, le prisme bleu et autres. Pendant ce temps, l'exploitation de processus, l'orchestration et le traitement des documents intelligents spécialis

L'avenir de l'IA va au-delà de la simple prédiction des mots et de la simulation conversationnelle; Les agents de l'IA émergent, capables d'action indépendante et d'achèvement des tâches. Ce changement est déjà évident dans des outils comme le claude d'Anthropic. Agents de l'IA: recherche un

Les progrès technologiques rapides nécessitent une perspective prospective sur l'avenir du travail. Que se passe-t-il lorsque l'IA transcende une simple amélioration de la productivité et commence à façonner nos structures sociétales? Le prochain livre de Topher McDougal, Gaia Wakes:

La classification des produits, impliquant souvent des codes complexes comme "HS 8471.30" à partir de systèmes tels que le système harmonisé (HS), est crucial pour le commerce international et les ventes intérieures. Ces codes garantissent une application fiscale correcte, impactant chaque inv

L'avenir de la consommation d'énergie dans les centres de données et l'investissement en technologie climatique Cet article explore la forte augmentation de la consommation d'énergie dans les centres de données motivés par l'IA et son impact sur le changement climatique, et analyse des solutions innovantes et des recommandations politiques pour relever ce défi. Défis de la demande d'énergie: les centres de données à grande échelle importants et ultra-larges consomment une puissance énorme, comparable à la somme de centaines de milliers de familles nord-américaines ordinaires, et des centres émergents d'IA à l'échelle ultra-large consomment des dizaines de fois plus de puissance que cela. Au cours des huit premiers mois de 2024, Microsoft, Meta, Google et Amazon ont investi environ 125 milliards de dollars en construction et en fonctionnement des centres de données d'IA (JP Morgan, 2024) (tableau 1). La demande d'énergie croissante est à la fois un défi et une opportunité. Selon Canary Media, l'électricité imminente

L'IA générative révolutionne la production cinématographique et télévisée. Le modèle Ray 2 de Luma, ainsi que la Gen-4 de Runway, Sora d'Openai, Veo et d'autres modèles de Google, améliorent la qualité des vidéos générées à une vitesse sans précédent. Ces modèles peuvent facilement créer des effets spéciaux complexes et des scènes réalistes, même de courts clips vidéo et des effets de mouvement perçus par la caméra ont été réalisés. Bien que la manipulation et la cohérence de ces outils doivent encore être améliorées, la vitesse de progrès est incroyable. La vidéo générative devient un support indépendant. Certains modèles sont bons dans la production d'animation, tandis que d'autres sont bons dans les images en direct. Il convient de noter que Adobe's Firefly et Moonvalley's MA

L'expérience utilisateur de ChatGPT diminue: est-ce une dégradation du modèle ou des attentes de l'utilisateur? Récemment, un grand nombre d'utilisateurs payés par Chatgpt se sont plaints de leur dégradation des performances, ce qui a attiré une attention généralisée. Les utilisateurs ont signalé des réponses plus lentes aux modèles, des réponses plus courtes, un manque d'aide et encore plus d'hallucinations. Certains utilisateurs ont exprimé leur insatisfaction aux réseaux sociaux, soulignant que Chatgpt est devenu «trop flatteur» et a tendance à vérifier les vues des utilisateurs plutôt que de fournir des commentaires critiques. Cela affecte non seulement l'expérience utilisateur, mais apporte également des pertes réelles aux clients des entreprises, tels que la réduction de la productivité et le gaspillage des ressources informatiques. Preuve de dégradation des performances De nombreux utilisateurs ont signalé une dégradation significative des performances de Chatgpt, en particulier dans des modèles plus anciens tels que le GPT-4 (qui sera bientôt interrompu du service à la fin de ce mois). ce


Outils d'IA chauds

Undresser.AI Undress
Application basée sur l'IA pour créer des photos de nu réalistes

AI Clothes Remover
Outil d'IA en ligne pour supprimer les vêtements des photos.

Undress AI Tool
Images de déshabillage gratuites

Clothoff.io
Dissolvant de vêtements AI

Video Face Swap
Échangez les visages dans n'importe quelle vidéo sans effort grâce à notre outil d'échange de visage AI entièrement gratuit !

Article chaud

Outils chauds

Bloc-notes++7.3.1
Éditeur de code facile à utiliser et gratuit

SublimeText3 Linux nouvelle version
Dernière version de SublimeText3 Linux

Version Mac de WebStorm
Outils de développement JavaScript utiles

MinGW - GNU minimaliste pour Windows
Ce projet est en cours de migration vers osdn.net/projects/mingw, vous pouvez continuer à nous suivre là-bas. MinGW : un port Windows natif de GNU Compiler Collection (GCC), des bibliothèques d'importation et des fichiers d'en-tête librement distribuables pour la création d'applications Windows natives ; inclut des extensions du runtime MSVC pour prendre en charge la fonctionnalité C99. Tous les logiciels MinGW peuvent fonctionner sur les plates-formes Windows 64 bits.

PhpStorm version Mac
Le dernier (2018.2.1) outil de développement intégré PHP professionnel
