Maison >Tutoriel matériel >Examen du matériel >Dépassant considérablement la SFT, le secret derrière O1 / Deepseek-R1 peut également être utilisé dans les grands modèles multimodaux
Des chercheurs de l'Université de Shanghai Jiaotong, de Shanghai AI Lab et de l'Université chinoise de Hong Kong ont lancé le projet open source visual-RFT (visual d'amélioration), qui ne nécessite qu'une petite quantité de données pour améliorer considérablement les performances des mockups du langage visuel (LVLM). Visual-RFT combine intelligemment l'approche d'apprentissage en renforcement basée sur les règles de Deepseek-R1 avec le paradigme de relâchement de renforcement d'OpenAI (RFT), prolongeant avec succès cette approche du champ de texte au champ visuel.
En concevant les récompenses de règles correspondantes pour des tâches telles que la sous-catégorisation visuelle et la détection d'objets, Visual-RFT surmonte les limites de la méthode Deepseek-R1 limitée au texte, au raisonnement mathématique et à d'autres domaines, fournissant une nouvelle façon de formation LVLM.
Avantages de Visual-RFT:
Par rapport aux méthodes de réglage de réglage des instructions visuelles traditionnelles (SFT), Visual-RFT présente les avantages significatifs suivants:
Les chercheurs ont vérifié la RFT visuelle sur plusieurs tâches de perception visuelle (détection, classification, emplacement, etc.), et les résultats ont montré que le RFT visuel a réalisé des améliorations de performances significatives et facilement un transfert de capacités, même dans les milieux du vocabulaire ouvert et de l'apprentissage de petits échantillons.
Les chercheurs ont conçu des récompenses vérifiables correspondantes pour différentes tâches: des récompenses basées sur l'IOU sont utilisées pour les tâches de détection et de positionnement, et les récompenses basées sur l'exactitude de la classification sont utilisées pour les tâches de classification.
Dans la tâche de positionnement d'inférence, Visual-RFT montre de fortes capacités de raisonnement visuel, comme l'identification avec précision de lunettes imperméables que les athlètes doivent porter en images.
Résultats expérimentaux:
Des expériences basées sur le modèle QWEN2-VL 2B / 7B montrent que Visual-RFT est supérieur à SFT dans la détection d'objets ouverts, la détection de petits échantillons, la classification à grains fins et les tâches de positionnement d'inférence. Même si vous détectez un caractère d'anime spécifique (comme Slime), Visual-RFT peut être réalisé avec juste une petite quantité de données.
Informations open source:
Le projet Visual-RFT est open source et contient une formation, un code d'évaluation et des données.
Adresse du projet: https://www.php.cn/link/ec56522bc9c2e15be17d11962eeec453
Ce qui précède est le contenu détaillé de. pour plus d'informations, suivez d'autres articles connexes sur le site Web de PHP en chinois!