上海交大、上海AI Lab和港中文大学的研究人员推出Visual-RFT(视觉强化微调)开源项目,该项目仅需少量数据即可显著提升视觉语言大模型(LVLM)性能。Visual-RFT巧妙地将DeepSeek-R1的基于规则奖励的强化学习方法与OpenAI的强化微调(RFT)范式相结合,成功地将这一方法从文本领域扩展到视觉领域。
通过为视觉细分类、目标检测等任务设计相应的规则奖励,Visual-RFT克服了DeepSeek-R1方法仅限于文本、数学推理等领域的局限性,为LVLM训练提供了新的途径。
Visual-RFT的优势:
与传统的视觉指令微调(SFT)方法相比,Visual-RFT具有以下显著优势:
- 少样本学习能力: 仅需10到1000条数据即可实现有效微调。
- 更强的泛化性: 在数据有限的场景下,性能优于SFT。
研究人员在多个视觉感知任务(检测、分类、定位等)上对Visual-RFT进行了验证,结果表明,即使在开放词汇和少样本学习的设定下,Visual-RFT也能取得显著的性能提升,轻松实现能力迁移。
研究人员针对不同的任务设计了相应的可验证奖励:基于IoU的奖励用于检测和定位任务,基于分类正确性的奖励用于分类任务。
在推理定位任务中,Visual-RFT展现出强大的视觉推理能力,例如,准确识别图片中运动员需要佩戴的防水眼镜。
实验结果:
基于QWen2-VL 2B/7B模型进行的实验表明,Visual-RFT在开放目标检测、少样本检测、细粒度分类和推理定位任务上均优于SFT。 即使是检测特定动漫角色(例如史莱姆),Visual-RFT也只需少量数据即可实现。
开源信息:
Visual-RFT项目已开源,包含训练、评测代码和数据。
项目地址:https://www.php.cn/link/ec56522bc9c2e15be17d11962eeec453
以上是显著超越 SFT,o1/DeepSeek-R1 背后秘诀也能用于多模态大模型了的詳細內容。更多資訊請關注PHP中文網其他相關文章!

熱AI工具

Undresser.AI Undress
人工智慧驅動的應用程序,用於創建逼真的裸體照片

AI Clothes Remover
用於從照片中去除衣服的線上人工智慧工具。

Undress AI Tool
免費脫衣圖片

Clothoff.io
AI脫衣器

Video Face Swap
使用我們完全免費的人工智慧換臉工具,輕鬆在任何影片中換臉!

熱門文章

熱工具

記事本++7.3.1
好用且免費的程式碼編輯器

Atom編輯器mac版下載
最受歡迎的的開源編輯器

VSCode Windows 64位元 下載
微軟推出的免費、功能強大的一款IDE編輯器

WebStorm Mac版
好用的JavaScript開發工具

Dreamweaver CS6
視覺化網頁開發工具