SFT를 상당히 능가하는 O1/DeepSeek-R1의 비밀은 멀티 모달 대형 모델에서도 사용할 수 있습니다.
상하이 Jiaotong University, Shanghai AI Lab 및 Chinese University of Hong Kong의 연구원들은 Visual-RFT (Visual Enhancement Fine Tuning) 오픈 소스 프로젝트를 시작했으며, 이는 LVLM (Visual Language Mockups)의 성능을 크게 향상시키기 위해 소량의 데이터 만 필요합니다. Visual-Rft는 영리하게 DeepSeek-R1의 규칙 기반 강화 학습 접근 방식을 OpenAI의 RFT (Rencement Fine Tuning) 패러다임과 결합 하여이 접근법을 텍스트 필드에서 시야로 성공적으로 확장합니다.
Visual-RFT는 시각적 하위 분류 및 객체 감지와 같은 작업에 대한 해당 규칙 보상을 설계함으로써 텍스트, 수학적 추론 및 기타 필드로 제한되는 DeepSeek-R1 메소드의 한계를 극복하여 LVLM 교육을위한 새로운 방법을 제공합니다.
Visual-Rft의 장점 :
전통적인 시각적 지시 미세 조정 (SFT) 방법과 비교할 때 Visual-Rft는 다음과 같은 중요한 이점이 있습니다.
- 샘플 학습 능력이 적습니다 : 10 ~ 1000 개의 데이터 만 사용하여 효과적인 미세 조정을 달성 할 수 있습니다.
- 더 강력한 일반화 : 데이터가 제한된 시나리오에서 성능은 SFT보다 낫습니다.
연구원들은 여러 시각적 인식 작업 (탐지, 분류, 위치 등)에 대해 Visual-RFT를 검증했으며, 결과는 개방형 어휘 및 작은 샘플 학습의 설정에서도 시각적 RFT가 상당한 성능 개선을 달성하고 쉽게 능력 전달을 달성 한 것으로 나타났습니다.
연구자들은 다양한 작업에 대한 해당 검증 가능한 보상을 설계했습니다. IOU 기반 보상은 탐지 및 위치 작업에 사용되며 분류 정확성 기반 보상은 분류 작업에 사용됩니다.
추론 포지셔닝 작업에서 Visual-Rft는 운동 선수가 그림에서 착용 해야하는 방수 안경을 정확하게 식별하는 것과 같은 강력한 시각적 추론 기능을 보여줍니다.
실험 결과 :
QWEN2-VL 2B/7B 모델을 기반으로 한 실험은 개방형 물체 감지, 작은 샘플 감지, 세밀한 분류 및 추론 포지셔닝 작업에서 SFT보다 시각적 RFT가 SFT보다 우수함을 보여줍니다. 특정 애니메이션 캐릭터 (예 : 점액)를 감지하더라도 소량의 데이터만으로 Visual-RFT를 달성 할 수 있습니다.
오픈 소스 정보 :
Visual-RFT 프로젝트는 오픈 소스이며 교육, 평가 코드 및 데이터를 포함합니다.
프로젝트 주소 : https://www.php.cn/link/ec5652bc9c2e15be17d11962eeec453
위 내용은 SFT를 상당히 능가하는 O1/DeepSeek-R1의 비밀은 멀티 모달 대형 모델에서도 사용할 수 있습니다.의 상세 내용입니다. 자세한 내용은 PHP 중국어 웹사이트의 기타 관련 기사를 참조하세요!

핫 AI 도구

Undresser.AI Undress
사실적인 누드 사진을 만들기 위한 AI 기반 앱

AI Clothes Remover
사진에서 옷을 제거하는 온라인 AI 도구입니다.

Undress AI Tool
무료로 이미지를 벗다

Clothoff.io
AI 옷 제거제

AI Hentai Generator
AI Hentai를 무료로 생성하십시오.

인기 기사

뜨거운 도구

MinGW - Windows용 미니멀리스트 GNU
이 프로젝트는 osdn.net/projects/mingw로 마이그레이션되는 중입니다. 계속해서 그곳에서 우리를 팔로우할 수 있습니다. MinGW: GCC(GNU Compiler Collection)의 기본 Windows 포트로, 기본 Windows 애플리케이션을 구축하기 위한 무료 배포 가능 가져오기 라이브러리 및 헤더 파일로 C99 기능을 지원하는 MSVC 런타임에 대한 확장이 포함되어 있습니다. 모든 MinGW 소프트웨어는 64비트 Windows 플랫폼에서 실행될 수 있습니다.

DVWA
DVWA(Damn Vulnerable Web App)는 매우 취약한 PHP/MySQL 웹 애플리케이션입니다. 주요 목표는 보안 전문가가 법적 환경에서 자신의 기술과 도구를 테스트하고, 웹 개발자가 웹 응용 프로그램 보안 프로세스를 더 잘 이해할 수 있도록 돕고, 교사/학생이 교실 환경 웹 응용 프로그램에서 가르치고 배울 수 있도록 돕는 것입니다. 보안. DVWA의 목표는 다양한 난이도의 간단하고 간단한 인터페이스를 통해 가장 일반적인 웹 취약점 중 일부를 연습하는 것입니다. 이 소프트웨어는

에디트플러스 중국어 크랙 버전
작은 크기, 구문 강조, 코드 프롬프트 기능을 지원하지 않음

SublimeText3 Linux 새 버전
SublimeText3 Linux 최신 버전

SublimeText3 중국어 버전
중국어 버전, 사용하기 매우 쉽습니다.
