重磅推荐:Visual-RFT——视觉强化微调开源项目,赋能视觉语言模型!
AIxiv专栏持续关注全球顶尖AI研究,已发布2000余篇学术技术文章。欢迎投稿分享您的优秀成果!投稿邮箱:liyazhou@jiqizhixin.com;zhaoyunfeng@jiqizhixin.com
Visual-RFT (Visual Reinforcement Fine-Tuning) 项目,将基于规则奖励的强化学习与强化微调(RFT)范式成功应用于视觉语言大模型(LVLM),突破了以往方法仅限于文本、数学等领域的局限。通过为视觉细分类、目标检测等任务设计特定规则奖励,Visual-RFT 为LVLM训练提供了全新思路!
图1展示了Visual-RFT的强大泛化能力:模型仅需少量数据,便能准确识别视觉强化微调!DeepSeek R1技术成功迁移到多模态领域,全面开源中特定宝可梦并定位其坐标。
图1. Visual-RFT 将强化微调扩展到多模态,只需10-1000条数据即可显着提升模型性能。
从RFT到Visual-RFT:强化学习在多模态领域的突破
OpenAI的强化微调技术,只需少量样本即可实现模型能力迁移。 DeepSeek-R1揭示了其强大的推理能力源于基于可验证奖励的强化学习策略。然而,该策略此前主要应用于文本、数学等领域。 Visual-RFT将此策略成功拓展至视觉领域,通过构建可验证规则奖励,解决了传统方法在视觉领域的局限性,实现高效、高泛化性的视觉理解与推理。
传统的视觉指令微调(SFT)需要大量数据,而Visual-RFT的少样本学习能力使其在数据稀缺场景下更具优势。
为了验证Visual-RFT的泛化能力,研究团队在目标检测、分类、 grounding等多个视觉任务上进行了测试。结果显示,Visual-RFT在开放词汇、少样本学习等设定下,仅需少量数据即可实现显着性能提升,并优于SFT方法。尤其在推理定位任务中,Visual-RFT展现出卓越的视觉推理能力。 (详见论文)
图2. Visual-RFT在多个视觉任务上显着超越SFT。
图3. Visual-RFT框架图,利用IoU和cls奖励以及强化学习策略更新模型参数。
研究团队使用基于IoU的可验证奖励用于检测和grounding任务,使用基于分类正确性的cls奖励用于分类任务。 (如图3所示)
图4. 推理定位结果展示,Visual-RFT超越SFT,更精准地定位物体。
图5. 推理细粒度分类结果展示,Visual-RFT超越SFT,更精准地定位物体。
图4和图5展示了模型输出结果,Visual-RFT通过强化学习策略,进行深入的推理分析,取得了优于SFT的性能。
Visual-RFT实验结果
基于QWen2-VL 2B/7B模型,Visual-RFT在开放目标检测、少样本检测、细粒度分类和推理定位任务上全面超越SFT。实验数据涵盖COCO、LVIS等通用场景和互联网卡通人物等开放场景。仅需少量数据,Visual-RFT即可实现能力迁移,展现出卓越的性能和鲁棒性。
图5. 部分实验结果展示,Visual-RFT显着超越SFT。
Visual-RFT已开源!
Visual-RFT项目已开源,包含训练、评估代码和数据。欢迎参与!
项目地址: https://www.php.cn/link/ec56522bc9c2e15be17d11962eeec453
以上是视觉强化微调!DeepSeek R1技术成功迁移到多模态领域,全面开源的详细内容。更多信息请关注PHP中文网其他相关文章!

自2008年以来,我一直倡导这辆共享乘车面包车,即后来被称为“ Robotjitney”,后来是“ Vansit”,这是城市运输的未来。 我预见这些车辆是21世纪的下一代过境解决方案Surpas

革新结帐体验 Sam's Club的创新性“ Just Go”系统建立在其现有的AI驱动“扫描和GO”技术的基础上,使会员可以在购物旅行期间通过Sam's Club应用程序进行扫描。

NVIDIA在GTC 2025上的增强可预测性和新产品阵容 NVIDIA是AI基础架构的关键参与者,正在专注于提高其客户的可预测性。 这涉及一致的产品交付,达到绩效期望以及

Google的Gemma 2:强大,高效的语言模型 Google的Gemma语言模型家族以效率和性能而庆祝,随着Gemma 2的到来而扩展。此最新版本包括两种模型:270亿个参数VER

这一领先的数据剧集以数据科学家,天体物理学家和TEDX演讲者Kirk Borne博士为特色。 Borne博士是大数据,AI和机器学习的著名专家,为当前状态和未来的Traje提供了宝贵的见解

这次演讲中出现了一些非常有见地的观点——关于工程学的背景信息,这些信息向我们展示了为什么人工智能如此擅长支持人们的体育锻炼。 我将从每位贡献者的观点中概括出一个核心思想,以展示三个设计方面,这些方面是我们探索人工智能在体育运动中应用的重要组成部分。 边缘设备和原始个人数据 关于人工智能的这个想法实际上包含两个组成部分——一个与我们放置大型语言模型的位置有关,另一个与我们人类语言和我们的生命体征在实时测量时“表达”的语言之间的差异有关。 Alexander Amini 对跑步和网球都很了解,但他还

卡特彼勒(Caterpillar)的首席信息官兼高级副总裁杰米·恩格斯特(Jamie Engstrom)领导了一支由28个国家 /地区的2200多名IT专业人员组成的全球团队。 在卡特彼勒(Caterpillar)工作了26年,其中包括她目前的四年半,Engst

Google Photos的新Ultra HDR工具:快速指南 使用Google Photos的新型Ultra HDR工具增强照片,将标准图像转换为充满活力的高动态范围杰作。对于社交媒体而言,此工具可提高任何照片的影响,


热AI工具

Undresser.AI Undress
人工智能驱动的应用程序,用于创建逼真的裸体照片

AI Clothes Remover
用于从照片中去除衣服的在线人工智能工具。

Undress AI Tool
免费脱衣服图片

Clothoff.io
AI脱衣机

Video Face Swap
使用我们完全免费的人工智能换脸工具轻松在任何视频中换脸!

热门文章

热工具

Atom编辑器mac版下载
最流行的的开源编辑器

Dreamweaver Mac版
视觉化网页开发工具

PhpStorm Mac 版本
最新(2018.2.1 )专业的PHP集成开发工具

mPDF
mPDF是一个PHP库,可以从UTF-8编码的HTML生成PDF文件。原作者Ian Back编写mPDF以从他的网站上“即时”输出PDF文件,并处理不同的语言。与原始脚本如HTML2FPDF相比,它的速度较慢,并且在使用Unicode字体时生成的文件较大,但支持CSS样式等,并进行了大量增强。支持几乎所有语言,包括RTL(阿拉伯语和希伯来语)和CJK(中日韩)。支持嵌套的块级元素(如P、DIV),

EditPlus 中文破解版
体积小,语法高亮,不支持代码提示功能