recherche
MaisonPériphériques technologiquesIAAmélioration visuelle Fineur Fine! La technologie Deepseek R1 a été migrée avec succès vers un champ multimodal et est entièrement ouvert à la source

Grande recommandation: Visual-RFT - Une amélioration visuelle et un projet open source ajusté pour autonomiser les modèles de langage visuel!

Amélioration visuelle Fineur Fine! La technologie Deepseek R1 a été migrée avec succès vers un champ multimodal et est entièrement ouvert à la source

La colonne AIXIV continue de se concentrer sur la recherche sur l'IA dans le monde et a publié plus de 2 000 articles académiques et techniques. Bienvenue à contribuer à partager vos réalisations en cours! Courriel de soumission: liyazhou@jiqizhixin.com; zhaoyunfeng@jiqizhixin.com

Le projet Visual-RFT (visual de renforcement final) applique avec succès le paradigme d'apprentissage et de renforcement du renforcement (RFT) basé sur les récompenses de règles aux grands modèles du langage visuel (LVLM), percant les limites des méthodes précédentes limitées au texte, aux mathématiques et autres domaines. En concevant des récompenses de règles spécifiques pour des tâches telles que la sous-catégorisation visuelle et la détection d'objets, Visual-RFT fournit une nouvelle idée pour la formation LVLM!

La figure 1 montre la puissante capacité de généralisation de Visual-RFT: le modèle ne nécessite qu'une petite quantité de données pour identifier avec précision un Pokémon spécifique dans l'Amélioration visuelle Fineur Fine! La technologie Deepseek R1 a été migrée avec succès vers un champ multimodal et est entièrement ouvert à la source et localiser ses coordonnées.

Amélioration visuelle Fineur Fine! La technologie Deepseek R1 a été migrée avec succès vers un champ multimodal et est entièrement ouvert à la source

Figure 1. Visual-RFT étend un réglage fin amélioré au multimodal, avec seulement 10-1000 de données pour améliorer considérablement les performances du modèle.

De RFT à Visual-RFT: percées dans l'apprentissage du renforcement dans le champ multimodal

La technologie de réglage fin améliorée d'OpenAI permet de réaliser la migration des capacités du modèle par un petit nombre d'échantillons. Deepseek-R1 révèle que ses puissantes capacités de raisonnement découlent des stratégies d'apprentissage du renforcement basées sur des récompenses vérifiables. Cependant, cette stratégie était auparavant principalement utilisée dans des domaines tels que le texte et les mathématiques. Visual-RFT a réussi à élargir cette stratégie au champ visuel.

L'instruction visuelle traditionnelle du réglage fin (SFT) nécessite une grande quantité de données, et la capacité d'apprentissage du petit échantillon de Visual-RFT le rend plus avantageux dans les scénarios rares de données.

Afin de vérifier la capacité de généralisation du Visual-RFT, l'équipe de recherche a effectué des tests sur plusieurs tâches visuelles telles que la détection d'objets, la classification et la mise à la terre. Les résultats montrent que Visual-RFT peut réaliser des améliorations de performances significatives sous un vocabulaire ouvert, un petit échantillon d'apprentissage et d'autres paramètres, et est meilleur que la méthode SFT. En particulier dans les tâches de positionnement de l'inférence, Visual-RFT montre d'excellentes capacités de raisonnement visuel. (Voir le journal pour plus de détails)

Amélioration visuelle Fineur Fine! La technologie Deepseek R1 a été migrée avec succès vers un champ multimodal et est entièrement ouvert à la source

Figure 2. Visual-RFT dépasse considérablement la SFT sur plusieurs tâches visuelles.

Amélioration visuelle Fineur Fine! La technologie Deepseek R1 a été migrée avec succès vers un champ multimodal et est entièrement ouvert à la source

Figure 3. Diagramme du cadre Visual-RFT, mise à jour des paramètres du modèle à l'aide des récompenses IOU et CLS et des stratégies d'apprentissage de renforcement.

L'équipe de recherche a utilisé des récompenses vérifiables basées sur l'IOU pour les tâches de détection et de mise à la terre, et des récompenses CLS basées sur l'exactitude de la classification pour les tâches de classification. (comme le montre la figure 3)

Amélioration visuelle Fineur Fine! La technologie Deepseek R1 a été migrée avec succès vers un champ multimodal et est entièrement ouvert à la source

Figure 4. Les résultats de positionnement inférentiels montrent que Visual-RFT dépasse la SFT pour localiser plus précisément les objets.

Amélioration visuelle Fineur Fine! La technologie Deepseek R1 a été migrée avec succès vers un champ multimodal et est entièrement ouvert à la source

Figure 5. Les résultats de classification à grains fins inférentis montrent que Visual-RFT dépasse la SFT pour localiser les objets plus précisément.

Les figures 4 et 5 montrent les résultats de sortie du modèle.

Résultats expérimentaux Visual-RFT

Sur la base du modèle QWEN2-VL 2B / 7B, Visual-RFT dépasse complètement la SFT dans la détection d'objets ouverts, la détection de petits échantillons, la classification à grains fins et les tâches de positionnement d'inférence. Les données expérimentales couvrent des scènes communes telles que CoCo et LVIS et des scènes ouvertes telles que les personnages de dessins animés Internet. Avec juste une petite quantité de données, Visual-RFT peut atteindre la migration des capacités, montrant d'excellentes performances et une robustesse.

Amélioration visuelle Fineur Fine! La technologie Deepseek R1 a été migrée avec succès vers un champ multimodal et est entièrement ouvert à la source

Amélioration visuelle Fineur Fine! La technologie Deepseek R1 a été migrée avec succès vers un champ multimodal et est entièrement ouvert à la source

Figure 5. Certains résultats expérimentaux montrent que Visual-RFT dépasse considérablement la SFT.

Visual-RFT est open source!

Le projet Visual-RFT est open source et contient une formation, un code d'évaluation et des données. Bienvenue à participer!

Adresse du projet: https://www.php.cn/link/ec56522bc9c2e15be17d11962eeec453

Ce qui précède est le contenu détaillé de. pour plus d'informations, suivez d'autres articles connexes sur le site Web de PHP en chinois!

Déclaration
Le contenu de cet article est volontairement contribué par les internautes et les droits d'auteur appartiennent à l'auteur original. Ce site n'assume aucune responsabilité légale correspondante. Si vous trouvez un contenu suspecté de plagiat ou de contrefaçon, veuillez contacter admin@php.cn
Dançon: mouvement structuré pour affiner nos filets neuronaux humainsDançon: mouvement structuré pour affiner nos filets neuronaux humainsApr 27, 2025 am 11:09 AM

Les scientifiques ont largement étudié les réseaux de neurones humains et plus simples (comme ceux de C. elegans) pour comprendre leur fonctionnalité. Cependant, une question cruciale se pose: comment adapter nos propres réseaux de neurones pour travailler efficacement aux côtés de nouvelles IA

La nouvelle fuite de Google révèle des modifications d'abonnement pour Gemini AILa nouvelle fuite de Google révèle des modifications d'abonnement pour Gemini AIApr 27, 2025 am 11:08 AM

Gémeaux de Google Avancé: nouveaux niveaux d'abonnement à l'horizon Actuellement, l'accès à Gemini Advanced nécessite un plan premium de 19,99 $ / mois / mois. Cependant, un rapport Android Authority fait allusion aux changements à venir. Code dans le dernier Google P

Comment l'accélération de l'analyse des données résout le goulot d'étranglement caché de l'IAComment l'accélération de l'analyse des données résout le goulot d'étranglement caché de l'IAApr 27, 2025 am 11:07 AM

Malgré le battage médiatique entourant les capacités avancées de l'IA, un défi important se cache dans les déploiements d'IA d'entreprise: les goulots d'étranglement du traitement des données. Alors que les PDG célèbrent les progrès de l'IA, les ingénieurs se débattent avec des temps de requête lents, des pipelines surchargés, un

Markitdown MCP peut convertir n'importe quel document en Markdowns!Markitdown MCP peut convertir n'importe quel document en Markdowns!Apr 27, 2025 am 09:47 AM

La gestion des documents ne consiste plus à ouvrir des fichiers dans vos projets d'IA, il s'agit de transformer le chaos en clarté. Des documents tels que les PDF, les PowerPoints et les mots inondent nos workflows sous toutes les formes et taille. Récupération structurée

Comment utiliser Google ADK pour la construction d'agents? - Analytique VidhyaComment utiliser Google ADK pour la construction d'agents? - Analytique VidhyaApr 27, 2025 am 09:42 AM

Exploitez la puissance du kit de développement d'agent de Google (ADK) pour créer des agents intelligents avec des capacités du monde réel! Ce tutoriel vous guide à travers la construction d'agents conversationnels en utilisant ADK, soutenant divers modèles de langue comme Gemini et GPT. W

Utilisation de SLM sur LLM pour une résolution de problèmes efficace - Analytics VidhyaUtilisation de SLM sur LLM pour une résolution de problèmes efficace - Analytics VidhyaApr 27, 2025 am 09:27 AM

résumé: Le modèle de petit langage (SLM) est conçu pour l'efficacité. Ils sont meilleurs que le modèle de grande langue (LLM) dans des environnements déficientes en ressources, en temps réel et sensibles à la confidentialité. Le meilleur pour les tâches basées sur la mise au point, en particulier lorsque la spécificité du domaine, la contrôlabilité et l'interprétabilité sont plus importantes que les connaissances générales ou la créativité. Les SLM ne remplacent pas les LLM, mais ils sont idéaux lorsque la précision, la vitesse et la rentabilité sont essentielles. La technologie nous aide à réaliser plus avec moins de ressources. Il a toujours été un promoteur, pas un chauffeur. De l'ère de la machine à vapeur à l'ère des bulles Internet, la puissance de la technologie se situe dans la mesure où elle nous aide à résoudre des problèmes. L'intelligence artificielle (IA) et plus récemment l'IA génératrice ne font pas exception

Comment utiliser les modèles Google Gemini pour les tâches de vision par ordinateur? - Analytique VidhyaComment utiliser les modèles Google Gemini pour les tâches de vision par ordinateur? - Analytique VidhyaApr 27, 2025 am 09:26 AM

Exploiter la puissance de Google Gemini pour la vision par ordinateur: un guide complet Google Gemini, un chatbot d'IA de premier plan, étend ses capacités au-delà de la conversation pour englober de puissantes fonctionnalités de vision informatique. Ce guide détaille comment utiliser

Gemini 2.0 Flash vs O4-Mini: Google peut-il faire mieux qu'Openai?Gemini 2.0 Flash vs O4-Mini: Google peut-il faire mieux qu'Openai?Apr 27, 2025 am 09:20 AM

Le paysage de l'IA de 2025 est électrisant avec l'arrivée de Gemini 2.0 Flash de Google et O4-Mini d'OpenAI. Ces modèles de pointe, lancés à quelques semaines, offrent des fonctionnalités avancées comparables et des scores de référence impressionnants. Cette comparaison approfondie

See all articles

Outils d'IA chauds

Undresser.AI Undress

Undresser.AI Undress

Application basée sur l'IA pour créer des photos de nu réalistes

AI Clothes Remover

AI Clothes Remover

Outil d'IA en ligne pour supprimer les vêtements des photos.

Undress AI Tool

Undress AI Tool

Images de déshabillage gratuites

Clothoff.io

Clothoff.io

Dissolvant de vêtements AI

Video Face Swap

Video Face Swap

Échangez les visages dans n'importe quelle vidéo sans effort grâce à notre outil d'échange de visage AI entièrement gratuit !

Outils chauds

Bloc-notes++7.3.1

Bloc-notes++7.3.1

Éditeur de code facile à utiliser et gratuit

Navigateur d'examen sécurisé

Navigateur d'examen sécurisé

Safe Exam Browser est un environnement de navigation sécurisé permettant de passer des examens en ligne en toute sécurité. Ce logiciel transforme n'importe quel ordinateur en poste de travail sécurisé. Il contrôle l'accès à n'importe quel utilitaire et empêche les étudiants d'utiliser des ressources non autorisées.

VSCode Windows 64 bits Télécharger

VSCode Windows 64 bits Télécharger

Un éditeur IDE gratuit et puissant lancé par Microsoft

Version Mac de WebStorm

Version Mac de WebStorm

Outils de développement JavaScript utiles

PhpStorm version Mac

PhpStorm version Mac

Le dernier (2018.2.1) outil de développement intégré PHP professionnel