La version multimodale Llama2 est en ligne, Meta lance AnyMAL
Actualisation des meilleures performances zéro tir de l'industrie dans plusieurs tests de référence.
Un modèle unifié qui peut comprendre différents contenus d'entrée modale (texte, image, vidéo, audio, données du capteur de mouvement IMU) et générer des réponses textuelles. La technologie est basée sur Llama 2 et vient de Meta.
Hier, la recherche sur le grand modèle multimodal AnyMAL a attiré l'attention de la communauté des chercheurs en IA.
Les grands modèles linguistiques (LLM) sont connus pour leur taille et leur complexité énormes, qui améliorent considérablement la capacité des machines à comprendre et à exprimer le langage humain. Les progrès des LLM ont permis des avancées significatives dans le domaine du langage visuel, comblant le fossé entre les encodeurs d'images et les LLM, en combinant leurs capacités d'inférence. Les précédentes recherches LLM multimodales se sont concentrées sur des modèles combinant du texte avec une autre modalité, tels que des modèles de texte et d'image, ou sur des modèles de langage propriétaires qui ne sont pas open source.
S'il existe une meilleure façon d'obtenir une fonctionnalité multimodale et d'intégrer diverses modalités dans LLM, cela nous apportera-t-il une expérience différente ?
Adresse papier : https://huggingface. co/papers/2309.16058
Selon la description, les principales contributions de cette recherche sont les suivantes :
- Le meilleur modèle de cet article a obtenu de bons résultats dans les évaluations automatiques et humaines sur diverses tâches et modalités. Par rapport aux modèles de la littérature existante, la précision relative de VQAv2 est augmentée de 7,0 %, le CIDEr des sous-titres d'images COCO sans erreur est augmenté de 8,4 % et le CIDEr d'AudioCaps est augmenté de 14,5 %. Méthode SOTA
Présentation de la méthode
Le contenu de l'alignement modal pré-entraîné doit être réécrit en utilisant des données multimodales appariées, y compris un signal modal spécifique et un récit textuel), cette étude LLM pré-entraîné pour atteindre des capacités de compréhension multimodale, comme le montre la figure 2. Plus précisément, nous formons un adaptateur léger pour chaque modalité qui projette le signal d'entrée dans l'espace d'intégration de jeton de texte d'un LLM spécifique. De cette façon, l'espace d'intégration de jetons de texte de LLM devient un espace d'intégration de jetons commun, où les jetons peuvent représenter du texte ou d'autres modalités
Pour les grands ensembles de données, la mise à l'échelle du pré-entraînement vers un modèle de paramètres de 70 B nécessite beaucoup de ressources, nécessitant souvent l'utilisation de wrappers FSDP sur plusieurs GPU. est fragmenté. Pour faire évoluer efficacement la formation, nous mettons en œuvre une stratégie de quantification (4 bits et 8 bits) dans un cadre multimodal, où la partie LLM du modèle est figée et seul le tokenizer modal peut être entraîné. Cette approche réduit les besoins en mémoire d'un ordre de grandeur. Par conséquent, 70B AnyMAL peut effectuer une formation sur un seul GPU VRAM de 80 Go avec une taille de lot de 4. Par rapport à FSDP, la méthode de quantification proposée dans cet article n'utilise que la moitié des ressources GPU, mais atteint le même débit
Utiliser des ensembles de données d'instructions multimodales pour un réglage fin signifie utiliser des ensembles de données d'instructions multimodales pour un réglage fin
Afin d'améliorer encore la capacité du modèle à suivre des instructions pour différentes modalités de saisie, nous étudions le utilisation d'ensembles de données d'instructions multimodales Des ajustements supplémentaires ont été effectués sur l'ensemble de données de réglage d'instructions (MM-IT) de pointe. Plus précisément, nous concaténons l'entrée sous la forme [] afin que la cible de réponse soit basée à la fois sur l'instruction textuelle et sur l'entrée modale. La recherche est menée sur les deux situations suivantes : (1) entraîner la couche de projection sans modifier les paramètres LLM ou (2) utiliser une adaptation de bas niveau (Low-Rank Adaptation) pour ajuster davantage le comportement du LM ; L’étude utilise à la fois des ensembles de données collectées manuellement et des données synthétiques.
Expériences et résultats
La génération de légendes d'images est une technologie d'intelligence artificielle utilisée pour générer automatiquement les légendes correspondantes pour les images. Cette technologie combine des méthodes de vision par ordinateur et de traitement du langage naturel pour générer des légendes descriptives liées à l'image en analysant le contenu et les caractéristiques de l'image, ainsi qu'en comprenant la sémantique et la syntaxe. La génération de légendes d'images a de nombreuses applications dans de nombreux domaines, notamment la recherche d'images, l'annotation d'images, la récupération d'images, etc. En générant automatiquement des titres, la compréhensibilité des images et la précision des moteurs de recherche peuvent être améliorées, offrant aux utilisateurs une meilleure expérience de récupération d'images et de navigation
Le tableau 2 montre les résultats dans COCO et les tâches marquées d'une « Description détaillée » (MM- Performances de génération de légendes d'images Zero-shot sur un sous-ensemble de l'ensemble de données MM-IT d'IT-Cap). Comme on peut le constater, la variante AnyMAL fonctionne nettement mieux que la ligne de base sur les deux ensembles de données. Notamment, il n'y a pas d'écart significatif en termes de performances entre les variantes AnyMAL-13B et AnyMAL-70B. Ce résultat démontre que la capacité sous-jacente du LLM pour la génération de légendes d’images est une technique d’intelligence artificielle utilisée pour générer automatiquement les légendes correspondantes des images. Cette technologie combine des méthodes de vision par ordinateur et de traitement du langage naturel pour générer des légendes descriptives liées à l'image en analysant le contenu et les caractéristiques de l'image, ainsi qu'en comprenant la sémantique et la syntaxe. La génération de légendes d'images a de nombreuses applications dans de nombreux domaines, notamment la recherche d'images, l'annotation d'images, la récupération d'images, etc. En automatisant la génération de sous-titres, la compréhensibilité des images et la précision des moteurs de recherche peuvent être améliorées, offrant ainsi aux utilisateurs une meilleure expérience de récupération et de navigation des images. La tâche a moins d'impact, mais dépend fortement de la taille des données et de la méthode d'enregistrement.
La réécriture requise est : Évaluation humaine sur la tâche d'inférence multimodale
La figure 3 montre qu'AnyMAL se compare à la ligne de base (LLaVA : 34,4 % de taux de victoire et MiniGPT4 : 27,0 % de taux de victoire) La performance est fort et l’écart avec les échantillons réels annotés par des humains est faible (taux de victoire de 41,1 %). Notamment, les modèles affinés avec le jeu d’instructions complet ont montré le taux de victoire prioritaire le plus élevé, démontrant des capacités de compréhension visuelle et de raisonnement comparables aux réponses annotées par l’homme. Il convient également de noter que BLIP-2 et InstructBLIP fonctionnent mal sur ces requêtes ouvertes (taux de victoire prioritaire de 4,1 % et 16,7 %, respectivement), bien qu'ils fonctionnent bien sur le benchmark public VQA (voir tableau 4).
Benchmarks VQA
Dans le tableau 4, nous montrons les performances zéro-shot sur l'ensemble de données Hateful Meme, VQAv2, TextVQA, ScienceQA, VizWiz et OKVQA par rapport aux benchmarks respectifs rapportés dans la littérature. les résultats des échantillons ont été comparés. Notre recherche se concentre sur l'évaluation zéro-shot pour estimer le plus précisément possible les performances du modèle sur les requêtes ouvertes au moment de l'inférence. benchmarks d’assurance qualité vidéo.
Régénération des sous-titres audio
Le tableau 5 montre les résultats de la régénération des sous-titres audio sur l'ensemble de données de référence AudioCaps. AnyMAL surpasse considérablement les autres modèles de sous-titres audio de pointe dans la littérature (par exemple, CIDEr +10,9pp, SPICE +5,8pp), indiquant que la méthode proposée est non seulement applicable à la vision mais également à diverses modalités. Le modèle text 70B présente des avantages évidents par rapport aux variantes 7B et 13B.
Fait intéressant, sur la base de la méthode, du type et du calendrier de soumission de l'article AnyMAL, Meta semble prévoir de collecter des données multimodales via son nouveau casque de réalité mixte/métaverse. Ces résultats de recherche pourraient être intégrés à la gamme de produits Metaverse de Meta, ou bientôt appliqués à des applications grand public
Veuillez lire l'article original pour plus de détails.
Ce qui précède est le contenu détaillé de. pour plus d'informations, suivez d'autres articles connexes sur le site Web de PHP en chinois!

Le terme «main-d'œuvre prêt pour l'IA» est fréquemment utilisé, mais qu'est-ce que cela signifie vraiment dans l'industrie de la chaîne d'approvisionnement? Selon Abe Eshkenazi, PDG de l'Association for Supply Chain Management (ASCM), il signifie des professionnels capables de critique

La révolution de l'IA décentralisée prend tranquillement de l'ampleur. Ce vendredi à Austin, au Texas, le Sommet de fin de partie Bittensor marque un moment pivot, en transition de l'IA décentralisée (DEAI) de la théorie à l'application pratique. Contrairement à la publicité fastueuse

L'IA de l'entreprise fait face à des défis d'intégration des données L'application de l'IA de l'entreprise est confrontée à un défi majeur: la construction de systèmes qui peuvent maintenir la précision et la pratique en apprenant continuellement les données commerciales. Les microservices NEMO résolvent ce problème en créant ce que NVIDIA décrit comme "Data Flywheel", permettant aux systèmes d'IA de rester pertinents par une exposition continue aux informations de l'entreprise et à l'interaction des utilisateurs. Cette boîte à outils nouvellement lancée contient cinq microservices clés: NEMO Customizer gère le réglage fin des modèles de grands langues avec un débit de formation plus élevé. L'évaluateur NEMO fournit une évaluation simplifiée des modèles d'IA pour les repères personnalisés. NEMO Guar-Rails met en œuvre des contrôles de sécurité pour maintenir la conformité et la pertinence

AI: L'avenir de l'art et du design L'intelligence artificielle (IA) modifie le domaine de l'art et de la conception de manière sans précédent, et son impact ne se limite plus aux amateurs, mais affectant plus profondément les professionnels. Les schémas d'œuvres d'art et de conception générés par l'IA remplacent rapidement les images et les concepteurs de matériaux traditionnels dans de nombreuses activités de conception transactionnelles telles que la publicité, la génération d'images des médias sociaux et la conception Web. Cependant, les artistes et designers professionnels trouvent également la valeur pratique de l'IA. Ils utilisent l'IA comme outil auxiliaire pour explorer de nouvelles possibilités esthétiques, mélanger différents styles et créer de nouveaux effets visuels. L'IA aide les artistes et les concepteurs à automatiser les tâches répétitives, à proposer différents éléments de conception et à fournir une contribution créative. L'IA prend en charge le transfert de style, qui doit appliquer un style d'image

Zoom, initialement connu pour sa plate-forme de vidéoconférence, dirige une révolution en milieu de travail avec son utilisation innovante de l'IA agentique. Une conversation récente avec le CTO de Zoom, XD Huang, a révélé la vision ambitieuse de l'entreprise. Définition de l'IA agentique Huang D

L'IA va-t-elle révolutionner l'éducation? Cette question provoque une réflexion sérieuse entre les éducateurs et les parties prenantes. L'intégration de l'IA dans l'éducation présente à la fois des opportunités et des défis. Comme le note Matthew Lynch de The Tech Edvocate, Universit

Le développement de la recherche scientifique et de la technologie aux États-Unis peut faire face à des défis, peut-être en raison de coupes budgétaires. Selon la nature, le nombre de scientifiques américains postulant pour des emplois à l'étranger a augmenté de 32% de janvier à mars 2025 par rapport à la même période en 2024. Un sondage précédent a montré que 75% des chercheurs interrogés envisageaient de rechercher des emplois en Europe et au Canada. Des centaines de subventions NIH et NSF ont été licenciées au cours des derniers mois, avec les nouvelles subventions du NIH d'environ 2,3 milliards de dollars cette année, une baisse de près d'un tiers. Le projet de budget divulgué montre que l'administration Trump envisage de réduire fortement les budgets pour les institutions scientifiques, avec une réduction possible allant jusqu'à 50%. La tourmente dans le domaine de la recherche fondamentale a également affecté l'un des principaux avantages des États-Unis: attirer des talents à l'étranger. 35

OpenAI dévoile la puissante série GPT-4.1: une famille de trois modèles de langage avancé conçus pour des applications réelles. Ce saut significatif en avant offre des temps de réponse plus rapides, une compréhension améliorée et des coûts considérablement réduits par rapport à T


Outils d'IA chauds

Undresser.AI Undress
Application basée sur l'IA pour créer des photos de nu réalistes

AI Clothes Remover
Outil d'IA en ligne pour supprimer les vêtements des photos.

Undress AI Tool
Images de déshabillage gratuites

Clothoff.io
Dissolvant de vêtements AI

Video Face Swap
Échangez les visages dans n'importe quelle vidéo sans effort grâce à notre outil d'échange de visage AI entièrement gratuit !

Article chaud

Outils chauds

Navigateur d'examen sécurisé
Safe Exam Browser est un environnement de navigation sécurisé permettant de passer des examens en ligne en toute sécurité. Ce logiciel transforme n'importe quel ordinateur en poste de travail sécurisé. Il contrôle l'accès à n'importe quel utilitaire et empêche les étudiants d'utiliser des ressources non autorisées.

DVWA
Damn Vulnerable Web App (DVWA) est une application Web PHP/MySQL très vulnérable. Ses principaux objectifs sont d'aider les professionnels de la sécurité à tester leurs compétences et leurs outils dans un environnement juridique, d'aider les développeurs Web à mieux comprendre le processus de sécurisation des applications Web et d'aider les enseignants/étudiants à enseigner/apprendre dans un environnement de classe. Application Web sécurité. L'objectif de DVWA est de mettre en pratique certaines des vulnérabilités Web les plus courantes via une interface simple et directe, avec différents degrés de difficulté. Veuillez noter que ce logiciel

Envoyer Studio 13.0.1
Puissant environnement de développement intégré PHP

SublimeText3 version chinoise
Version chinoise, très simple à utiliser

Dreamweaver Mac
Outils de développement Web visuel
