Dépassant considérablement la SFT, le secret derrière O1 / Deepseek-R1 peut également être utilisé dans les grands modèles multimodaux-Examen du matériel-php.cn

Dépassant considérablement la SFT, le secret derrière O1 / Deepseek-R1 peut également être utilisé dans les grands modèles multimodaux

Barbara Streisand

Mar 12, 2025 pm 01:03 PM

gitai模型背后modalDeepSeeko1sft显著

Des chercheurs de l'Université de Shanghai Jiaotong, de Shanghai AI Lab et de l'Université chinoise de Hong Kong ont lancé le projet open source visual-RFT (visual d'amélioration), qui ne nécessite qu'une petite quantité de données pour améliorer considérablement les performances des mockups du langage visuel (LVLM). Visual-RFT combine intelligemment l'approche d'apprentissage en renforcement basée sur les règles de Deepseek-R1 avec le paradigme de relâchement de renforcement d'OpenAI (RFT), prolongeant avec succès cette approche du champ de texte au champ visuel.

Dépassant considérablement la SFT, le secret derrière O1 / Deepseek-R1 peut également être utilisé dans les grands modèles multimodaux

En concevant les récompenses de règles correspondantes pour des tâches telles que la sous-catégorisation visuelle et la détection d'objets, Visual-RFT surmonte les limites de la méthode Deepseek-R1 limitée au texte, au raisonnement mathématique et à d'autres domaines, fournissant une nouvelle façon de formation LVLM.

Dépassant considérablement la SFT, le secret derrière O1 / Deepseek-R1 peut également être utilisé dans les grands modèles multimodaux

Avantages de Visual-RFT:

Par rapport aux méthodes de réglage de réglage des instructions visuelles traditionnelles (SFT), Visual-RFT présente les avantages significatifs suivants:

Moins d'échantillons d'apprentissage: seulement 10 à 1000 données peuvent être utilisées pour atteindre un réglage fin efficace.
Généralisation plus forte: dans les scénarios avec des données limitées, les performances sont meilleures que SFT.

Les chercheurs ont vérifié la RFT visuelle sur plusieurs tâches de perception visuelle (détection, classification, emplacement, etc.), et les résultats ont montré que le RFT visuel a réalisé des améliorations de performances significatives et facilement un transfert de capacités, même dans les milieux du vocabulaire ouvert et de l'apprentissage de petits échantillons.

Dépassant considérablement la SFT, le secret derrière O1 / Deepseek-R1 peut également être utilisé dans les grands modèles multimodaux

Les chercheurs ont conçu des récompenses vérifiables correspondantes pour différentes tâches: des récompenses basées sur l'IOU sont utilisées pour les tâches de détection et de positionnement, et les récompenses basées sur l'exactitude de la classification sont utilisées pour les tâches de classification.

Dépassant considérablement la SFT, le secret derrière O1 / Deepseek-R1 peut également être utilisé dans les grands modèles multimodaux

Dans la tâche de positionnement d'inférence, Visual-RFT montre de fortes capacités de raisonnement visuel, comme l'identification avec précision de lunettes imperméables que les athlètes doivent porter en images.

Dépassant considérablement la SFT, le secret derrière O1 / Deepseek-R1 peut également être utilisé dans les grands modèles multimodaux

Résultats expérimentaux:

Des expériences basées sur le modèle QWEN2-VL 2B / 7B montrent que Visual-RFT est supérieur à SFT dans la détection d'objets ouverts, la détection de petits échantillons, la classification à grains fins et les tâches de positionnement d'inférence. Même si vous détectez un caractère d'anime spécifique (comme Slime), Visual-RFT peut être réalisé avec juste une petite quantité de données.

Dépassant considérablement la SFT, le secret derrière O1 / Deepseek-R1 peut également être utilisé dans les grands modèles multimodaux

Informations open source:

Le projet Visual-RFT est open source et contient une formation, un code d'évaluation et des données.

Adresse du projet: https://www.php.cn/link/ec56522bc9c2e15be17d11962eeec453

Dépassant considérablement la SFT, le secret derrière O1 / Deepseek-R1 peut également être utilisé dans les grands modèles multimodaux

Ce qui précède est le contenu détaillé de. pour plus d'informations, suivez d'autres articles connexes sur le site Web de PHP en chinois!

Déclaration

Le contenu de cet article est volontairement contribué par les internautes et les droits d'auteur appartiennent à l'auteur original. Ce site n'assume aucune responsabilité légale correspondante. Si vous trouvez un contenu suspecté de plagiat ou de contrefaçon, veuillez contacter admin@php.cn

Outils d'IA chauds

Undresser.AI Undress

Application basée sur l'IA pour créer des photos de nu réalistes

AI Clothes Remover

Outil d'IA en ligne pour supprimer les vêtements des photos.

Undress AI Tool

Images de déshabillage gratuites

Clothoff.io

Dissolvant de vêtements AI

Video Face Swap

Échangez les visages dans n'importe quelle vidéo sans effort grâce à notre outil d'échange de visage AI entièrement gratuit !

Afficher plus

Article chaud

Comment réparer KB5055523 ne parvient pas à s'installer dans Windows 11?

3 Il y a quelques semainesByDDD

Comment réparer KB5055518 ne parvient pas à s'installer dans Windows 10?

3 Il y a quelques semainesByDDD

<🎜>: Dead Rails - Comment apprivoiser les loups

4 Il y a quelques semainesByDDD

Niveaux de force pour chaque ennemi et monstre de R.E.P.O.

4 Il y a quelques semainesBy尊渡假赌尊渡假赌尊渡假赌

<🎜>: Grow A Garden - Guide de mutation complet

2 Il y a quelques semainesByDDD

Afficher plus

Outils chauds

Télécharger la version Mac de l'éditeur Atom

L'éditeur open source le plus populaire

Bloc-notes++7.3.1

Éditeur de code facile à utiliser et gratuit

Listes Sec

SecLists est le compagnon ultime du testeur de sécurité. Il s'agit d'une collection de différents types de listes fréquemment utilisées lors des évaluations de sécurité, le tout en un seul endroit. SecLists contribue à rendre les tests de sécurité plus efficaces et productifs en fournissant facilement toutes les listes dont un testeur de sécurité pourrait avoir besoin. Les types de listes incluent les noms d'utilisateur, les mots de passe, les URL, les charges utiles floues, les modèles de données sensibles, les shells Web, etc. Le testeur peut simplement extraire ce référentiel sur une nouvelle machine de test et il aura accès à tous les types de listes dont il a besoin.

SublimeText3 version chinoise

Version chinoise, très simple à utiliser

mPDF

mPDF est une bibliothèque PHP qui peut générer des fichiers PDF à partir de HTML encodé en UTF-8. L'auteur original, Ian Back, a écrit mPDF pour générer des fichiers PDF « à la volée » depuis son site Web et gérer différentes langues. Il est plus lent et produit des fichiers plus volumineux lors de l'utilisation de polices Unicode que les scripts originaux comme HTML2FPDF, mais prend en charge les styles CSS, etc. et présente de nombreuses améliorations. Prend en charge presque toutes les langues, y compris RTL (arabe et hébreu) et CJK (chinois, japonais et coréen). Prend en charge les éléments imbriqués au niveau du bloc (tels que P, DIV),

Afficher plus

Sujets chauds

1655

1414

1307

1255

1228