


Amélioration visuelle Fineur Fine! La technologie Deepseek R1 a été migrée avec succès vers un champ multimodal et est entièrement ouvert à la source
Grande recommandation: Visual-RFT - Une amélioration visuelle et un projet open source ajusté pour autonomiser les modèles de langage visuel!
La colonne AIXIV continue de se concentrer sur la recherche sur l'IA dans le monde et a publié plus de 2 000 articles académiques et techniques. Bienvenue à contribuer à partager vos réalisations en cours! Courriel de soumission: liyazhou@jiqizhixin.com; zhaoyunfeng@jiqizhixin.com
Le projet Visual-RFT (visual de renforcement final) applique avec succès le paradigme d'apprentissage et de renforcement du renforcement (RFT) basé sur les récompenses de règles aux grands modèles du langage visuel (LVLM), percant les limites des méthodes précédentes limitées au texte, aux mathématiques et autres domaines. En concevant des récompenses de règles spécifiques pour des tâches telles que la sous-catégorisation visuelle et la détection d'objets, Visual-RFT fournit une nouvelle idée pour la formation LVLM!
La figure 1 montre la puissante capacité de généralisation de Visual-RFT: le modèle ne nécessite qu'une petite quantité de données pour identifier avec précision un Pokémon spécifique dans l'Amélioration visuelle Fineur Fine! La technologie Deepseek R1 a été migrée avec succès vers un champ multimodal et est entièrement ouvert à la source et localiser ses coordonnées.
Figure 1. Visual-RFT étend un réglage fin amélioré au multimodal, avec seulement 10-1000 de données pour améliorer considérablement les performances du modèle.
De RFT à Visual-RFT: percées dans l'apprentissage du renforcement dans le champ multimodal
La technologie de réglage fin améliorée d'OpenAI permet de réaliser la migration des capacités du modèle par un petit nombre d'échantillons. Deepseek-R1 révèle que ses puissantes capacités de raisonnement découlent des stratégies d'apprentissage du renforcement basées sur des récompenses vérifiables. Cependant, cette stratégie était auparavant principalement utilisée dans des domaines tels que le texte et les mathématiques. Visual-RFT a réussi à élargir cette stratégie au champ visuel.
L'instruction visuelle traditionnelle du réglage fin (SFT) nécessite une grande quantité de données, et la capacité d'apprentissage du petit échantillon de Visual-RFT le rend plus avantageux dans les scénarios rares de données.
Afin de vérifier la capacité de généralisation du Visual-RFT, l'équipe de recherche a effectué des tests sur plusieurs tâches visuelles telles que la détection d'objets, la classification et la mise à la terre. Les résultats montrent que Visual-RFT peut réaliser des améliorations de performances significatives sous un vocabulaire ouvert, un petit échantillon d'apprentissage et d'autres paramètres, et est meilleur que la méthode SFT. En particulier dans les tâches de positionnement de l'inférence, Visual-RFT montre d'excellentes capacités de raisonnement visuel. (Voir le journal pour plus de détails)
Figure 2. Visual-RFT dépasse considérablement la SFT sur plusieurs tâches visuelles.
Figure 3. Diagramme du cadre Visual-RFT, mise à jour des paramètres du modèle à l'aide des récompenses IOU et CLS et des stratégies d'apprentissage de renforcement.
L'équipe de recherche a utilisé des récompenses vérifiables basées sur l'IOU pour les tâches de détection et de mise à la terre, et des récompenses CLS basées sur l'exactitude de la classification pour les tâches de classification. (comme le montre la figure 3)
Figure 4. Les résultats de positionnement inférentiels montrent que Visual-RFT dépasse la SFT pour localiser plus précisément les objets.
Figure 5. Les résultats de classification à grains fins inférentis montrent que Visual-RFT dépasse la SFT pour localiser les objets plus précisément.
Les figures 4 et 5 montrent les résultats de sortie du modèle.
Résultats expérimentaux Visual-RFT
Sur la base du modèle QWEN2-VL 2B / 7B, Visual-RFT dépasse complètement la SFT dans la détection d'objets ouverts, la détection de petits échantillons, la classification à grains fins et les tâches de positionnement d'inférence. Les données expérimentales couvrent des scènes communes telles que CoCo et LVIS et des scènes ouvertes telles que les personnages de dessins animés Internet. Avec juste une petite quantité de données, Visual-RFT peut atteindre la migration des capacités, montrant d'excellentes performances et une robustesse.
Figure 5. Certains résultats expérimentaux montrent que Visual-RFT dépasse considérablement la SFT.
Visual-RFT est open source!
Le projet Visual-RFT est open source et contient une formation, un code d'évaluation et des données. Bienvenue à participer!
Adresse du projet: https://www.php.cn/link/ec56522bc9c2e15be17d11962eeec453
Ce qui précède est le contenu détaillé de. pour plus d'informations, suivez d'autres articles connexes sur le site Web de PHP en chinois!

Les scientifiques ont largement étudié les réseaux de neurones humains et plus simples (comme ceux de C. elegans) pour comprendre leur fonctionnalité. Cependant, une question cruciale se pose: comment adapter nos propres réseaux de neurones pour travailler efficacement aux côtés de nouvelles IA

Gémeaux de Google Avancé: nouveaux niveaux d'abonnement à l'horizon Actuellement, l'accès à Gemini Advanced nécessite un plan premium de 19,99 $ / mois / mois. Cependant, un rapport Android Authority fait allusion aux changements à venir. Code dans le dernier Google P

Malgré le battage médiatique entourant les capacités avancées de l'IA, un défi important se cache dans les déploiements d'IA d'entreprise: les goulots d'étranglement du traitement des données. Alors que les PDG célèbrent les progrès de l'IA, les ingénieurs se débattent avec des temps de requête lents, des pipelines surchargés, un

La gestion des documents ne consiste plus à ouvrir des fichiers dans vos projets d'IA, il s'agit de transformer le chaos en clarté. Des documents tels que les PDF, les PowerPoints et les mots inondent nos workflows sous toutes les formes et taille. Récupération structurée

Exploitez la puissance du kit de développement d'agent de Google (ADK) pour créer des agents intelligents avec des capacités du monde réel! Ce tutoriel vous guide à travers la construction d'agents conversationnels en utilisant ADK, soutenant divers modèles de langue comme Gemini et GPT. W

résumé: Le modèle de petit langage (SLM) est conçu pour l'efficacité. Ils sont meilleurs que le modèle de grande langue (LLM) dans des environnements déficientes en ressources, en temps réel et sensibles à la confidentialité. Le meilleur pour les tâches basées sur la mise au point, en particulier lorsque la spécificité du domaine, la contrôlabilité et l'interprétabilité sont plus importantes que les connaissances générales ou la créativité. Les SLM ne remplacent pas les LLM, mais ils sont idéaux lorsque la précision, la vitesse et la rentabilité sont essentielles. La technologie nous aide à réaliser plus avec moins de ressources. Il a toujours été un promoteur, pas un chauffeur. De l'ère de la machine à vapeur à l'ère des bulles Internet, la puissance de la technologie se situe dans la mesure où elle nous aide à résoudre des problèmes. L'intelligence artificielle (IA) et plus récemment l'IA génératrice ne font pas exception

Exploiter la puissance de Google Gemini pour la vision par ordinateur: un guide complet Google Gemini, un chatbot d'IA de premier plan, étend ses capacités au-delà de la conversation pour englober de puissantes fonctionnalités de vision informatique. Ce guide détaille comment utiliser

Le paysage de l'IA de 2025 est électrisant avec l'arrivée de Gemini 2.0 Flash de Google et O4-Mini d'OpenAI. Ces modèles de pointe, lancés à quelques semaines, offrent des fonctionnalités avancées comparables et des scores de référence impressionnants. Cette comparaison approfondie


Outils d'IA chauds

Undresser.AI Undress
Application basée sur l'IA pour créer des photos de nu réalistes

AI Clothes Remover
Outil d'IA en ligne pour supprimer les vêtements des photos.

Undress AI Tool
Images de déshabillage gratuites

Clothoff.io
Dissolvant de vêtements AI

Video Face Swap
Échangez les visages dans n'importe quelle vidéo sans effort grâce à notre outil d'échange de visage AI entièrement gratuit !

Article chaud

Outils chauds

Bloc-notes++7.3.1
Éditeur de code facile à utiliser et gratuit

Navigateur d'examen sécurisé
Safe Exam Browser est un environnement de navigation sécurisé permettant de passer des examens en ligne en toute sécurité. Ce logiciel transforme n'importe quel ordinateur en poste de travail sécurisé. Il contrôle l'accès à n'importe quel utilitaire et empêche les étudiants d'utiliser des ressources non autorisées.

VSCode Windows 64 bits Télécharger
Un éditeur IDE gratuit et puissant lancé par Microsoft

Version Mac de WebStorm
Outils de développement JavaScript utiles

PhpStorm version Mac
Le dernier (2018.2.1) outil de développement intégré PHP professionnel
