SFT를 상당히 능가하는 O1/DeepSeek-R1의 비밀은 멀티 모달 대형 모델에서도 사용할 수 있습니다.
상하이 Jiaotong University, Shanghai AI Lab 및 Chinese University of Hong Kong의 연구원들은 Visual-RFT (Visual Enhancement Fine Tuning) 오픈 소스 프로젝트를 시작했으며, 이는 LVLM (Visual Language Mockups)의 성능을 크게 향상시키기 위해 소량의 데이터 만 필요합니다. Visual-Rft는 영리하게 DeepSeek-R1의 규칙 기반 강화 학습 접근 방식을 OpenAI의 RFT (Rencement Fine Tuning) 패러다임과 결합 하여이 접근법을 텍스트 필드에서 시야로 성공적으로 확장합니다.
Visual-RFT는 시각적 하위 분류 및 객체 감지와 같은 작업에 대한 해당 규칙 보상을 설계함으로써 텍스트, 수학적 추론 및 기타 필드로 제한되는 DeepSeek-R1 메소드의 한계를 극복하여 LVLM 교육을위한 새로운 방법을 제공합니다.
Visual-Rft의 장점 :
전통적인 시각적 지시 미세 조정 (SFT) 방법과 비교할 때 Visual-Rft는 다음과 같은 중요한 이점이 있습니다.
- 샘플 학습 능력이 적습니다 : 10 ~ 1000 개의 데이터 만 사용하여 효과적인 미세 조정을 달성 할 수 있습니다.
- 더 강력한 일반화 : 데이터가 제한된 시나리오에서 성능은 SFT보다 낫습니다.
연구원들은 여러 시각적 인식 작업 (탐지, 분류, 위치 등)에 대해 Visual-RFT를 검증했으며, 결과는 개방형 어휘 및 작은 샘플 학습의 설정에서도 시각적 RFT가 상당한 성능 개선을 달성하고 쉽게 능력 전달을 달성 한 것으로 나타났습니다.
연구자들은 다양한 작업에 대한 해당 검증 가능한 보상을 설계했습니다. IOU 기반 보상은 탐지 및 위치 작업에 사용되며 분류 정확성 기반 보상은 분류 작업에 사용됩니다.
추론 포지셔닝 작업에서 Visual-Rft는 운동 선수가 그림에서 착용 해야하는 방수 안경을 정확하게 식별하는 것과 같은 강력한 시각적 추론 기능을 보여줍니다.
실험 결과 :
QWEN2-VL 2B/7B 모델을 기반으로 한 실험은 개방형 물체 감지, 작은 샘플 감지, 세밀한 분류 및 추론 포지셔닝 작업에서 SFT보다 시각적 RFT가 SFT보다 우수함을 보여줍니다. 특정 애니메이션 캐릭터 (예 : 점액)를 감지하더라도 소량의 데이터만으로 Visual-RFT를 달성 할 수 있습니다.
오픈 소스 정보 :
Visual-RFT 프로젝트는 오픈 소스이며 교육, 평가 코드 및 데이터를 포함합니다.
프로젝트 주소 : https://www.php.cn/link/ec5652bc9c2e15be17d11962eeec453
위 내용은 SFT를 상당히 능가하는 O1/DeepSeek-R1의 비밀은 멀티 모달 대형 모델에서도 사용할 수 있습니다.의 상세 내용입니다. 자세한 내용은 PHP 중국어 웹사이트의 기타 관련 기사를 참조하세요!

핫 AI 도구

Undresser.AI Undress
사실적인 누드 사진을 만들기 위한 AI 기반 앱

AI Clothes Remover
사진에서 옷을 제거하는 온라인 AI 도구입니다.

Undress AI Tool
무료로 이미지를 벗다

Clothoff.io
AI 옷 제거제

Video Face Swap
완전히 무료인 AI 얼굴 교환 도구를 사용하여 모든 비디오의 얼굴을 쉽게 바꾸세요!

인기 기사

뜨거운 도구

Dreamweaver Mac版
시각적 웹 개발 도구

PhpStorm 맥 버전
최신(2018.2.1) 전문 PHP 통합 개발 도구

드림위버 CS6
시각적 웹 개발 도구

Atom Editor Mac 버전 다운로드
가장 인기 있는 오픈 소스 편집기

안전한 시험 브라우저
안전한 시험 브라우저는 온라인 시험을 안전하게 치르기 위한 보안 브라우저 환경입니다. 이 소프트웨어는 모든 컴퓨터를 안전한 워크스테이션으로 바꿔줍니다. 이는 모든 유틸리티에 대한 액세스를 제어하고 학생들이 승인되지 않은 리소스를 사용하는 것을 방지합니다.