suchen
HeimHardware-TutorialHardware-RezensionDas Geheimnis hinter O1/Deepseek-R1 kann auch in multimodalen großen Modellen verwendet werden

Forscher der Shanghai Jiaotong University, des Shanghai AI Lab und der chinesischen Universität von Hongkong haben das Open-Source-Projekt zur visuellen RFT (visuelle Verbesserung der Feinabstimmung) gestartet, für das nur eine geringe Datenmenge erforderlich ist, um die Leistung von Visual Language Mockups (LVLM) signifikant zu verbessern. Visual-RFT kombiniert geschickt die regelbasierte Verstärkungslernansatz von Deepseek-R1 mit dem RFT-Paradigma (Verstärkung der Verstärkung der Verstärkung) und erweitert diesen Ansatz erfolgreich vom Textfeld auf das Gesichtsfeld.

Das Geheimnis hinter O1/Deepseek-R1 kann auch in multimodalen großen Modellen verwendet werden

Durch die Gestaltung der entsprechenden Regelprämien für Aufgaben wie die visuelle Unterkategorisierung und Objekterkennung überwindet die visuelle RFT die Einschränkungen der Deepseek-R1-Methode, die auf Text, mathematisches Denken und andere Bereiche beschränkt ist und eine neue Möglichkeit für das LVLM-Training bietet.

Das Geheimnis hinter O1/Deepseek-R1 kann auch in multimodalen großen Modellen verwendet werden

Vorteile von Visual-RFT:

Im Vergleich zu herkömmlichen Methoden zur Feinabstimmung der visuellen Unterricht (SFT) hat Visual-RFT die folgenden erheblichen Vorteile:

  • Weniger Probenlernfähigkeit: Nur 10 bis 1000 Datenstücke können verwendet werden, um eine effektive Feinabstimmung zu erreichen.
  • Stärkere Verallgemeinerung: In Szenarien mit begrenzten Daten ist die Leistung besser als SFT.

Die Forscher verifizierten die visuelle RFT bei mehreren visuellen Wahrnehmungsaufgaben (Erkennung, Klassifizierung, Standort usw.), und die Ergebnisse zeigten, dass die visuelle RFT signifikante Leistungsverbesserungen erzielte und auch unter den Einstellungen des offenen Vokabulars und des kleinen Probenlernens leicht erreichbar war.

Das Geheimnis hinter O1/Deepseek-R1 kann auch in multimodalen großen Modellen verwendet werden

Die Forscher entwickelten entsprechende überprüfbare Belohnungen für verschiedene Aufgaben: IOU-basierte Belohnungen werden zur Erkennungs- und Positionierungsaufgaben verwendet, und für Klassifizierungsaufgaben werden Belohnungen der Klassifizierungskorrektheit verwendet.

Das Geheimnis hinter O1/Deepseek-R1 kann auch in multimodalen großen Modellen verwendet werden

Bei der Inferenzpositionierungsaufgabe zeigt Visual-RFT starke Funktionen für visuelle Argumentation, z.

Das Geheimnis hinter O1/Deepseek-R1 kann auch in multimodalen großen Modellen verwendet werden

Das Geheimnis hinter O1/Deepseek-R1 kann auch in multimodalen großen Modellen verwendet werden

Experimentelle Ergebnisse:

Experimente, die auf dem QWEN2-VL 2B/7B-Modell basieren, zeigen, dass die Visual-RFT SFT bei offener Objekterkennung, kleiner Probenerkennung, feinkörniger Klassifizierung und Inferenzpositionierungsaufgaben überlegen ist. Selbst wenn Sie einen bestimmten Anime-Charakter (z. B. Schleim) erkennen, kann Visual-RFT mit nur geringer Datenmenge erreicht werden.

Das Geheimnis hinter O1/Deepseek-R1 kann auch in multimodalen großen Modellen verwendet werden

Open Source -Informationen:

Das Visual-RFT-Projekt ist Open Source und enthält Schulungen, Bewertungscode und Daten.

Projektadresse: https://www.php.cn/link/ec56522bc9c2e15be17d11962eec453

Das Geheimnis hinter O1/Deepseek-R1 kann auch in multimodalen großen Modellen verwendet werden

Das obige ist der detaillierte Inhalt vonDas Geheimnis hinter O1/Deepseek-R1 kann auch in multimodalen großen Modellen verwendet werden. Für weitere Informationen folgen Sie bitte anderen verwandten Artikeln auf der PHP chinesischen Website!

Stellungnahme
Der Inhalt dieses Artikels wird freiwillig von Internetnutzern beigesteuert und das Urheberrecht liegt beim ursprünglichen Autor. Diese Website übernimmt keine entsprechende rechtliche Verantwortung. Wenn Sie Inhalte finden, bei denen der Verdacht eines Plagiats oder einer Rechtsverletzung besteht, wenden Sie sich bitte an admin@php.cn

Heiße KI -Werkzeuge

Undresser.AI Undress

Undresser.AI Undress

KI-gestützte App zum Erstellen realistischer Aktfotos

AI Clothes Remover

AI Clothes Remover

Online-KI-Tool zum Entfernen von Kleidung aus Fotos.

Undress AI Tool

Undress AI Tool

Ausziehbilder kostenlos

Clothoff.io

Clothoff.io

KI-Kleiderentferner

AI Hentai Generator

AI Hentai Generator

Erstellen Sie kostenlos Ai Hentai.

Heißer Artikel

R.E.P.O. Energiekristalle erklärten und was sie tun (gelber Kristall)
3 Wochen vorBy尊渡假赌尊渡假赌尊渡假赌
R.E.P.O. Beste grafische Einstellungen
3 Wochen vorBy尊渡假赌尊渡假赌尊渡假赌
R.E.P.O. So reparieren Sie Audio, wenn Sie niemanden hören können
3 Wochen vorBy尊渡假赌尊渡假赌尊渡假赌
WWE 2K25: Wie man alles in Myrise freischaltet
4 Wochen vorBy尊渡假赌尊渡假赌尊渡假赌

Heiße Werkzeuge

DVWA

DVWA

Damn Vulnerable Web App (DVWA) ist eine PHP/MySQL-Webanwendung, die sehr anfällig ist. Seine Hauptziele bestehen darin, Sicherheitsexperten dabei zu helfen, ihre Fähigkeiten und Tools in einem rechtlichen Umfeld zu testen, Webentwicklern dabei zu helfen, den Prozess der Sicherung von Webanwendungen besser zu verstehen, und Lehrern/Schülern dabei zu helfen, in einer Unterrichtsumgebung Webanwendungen zu lehren/lernen Sicherheit. Das Ziel von DVWA besteht darin, einige der häufigsten Web-Schwachstellen über eine einfache und unkomplizierte Benutzeroberfläche mit unterschiedlichen Schwierigkeitsgraden zu üben. Bitte beachten Sie, dass diese Software

VSCode Windows 64-Bit-Download

VSCode Windows 64-Bit-Download

Ein kostenloser und leistungsstarker IDE-Editor von Microsoft

MinGW – Minimalistisches GNU für Windows

MinGW – Minimalistisches GNU für Windows

Dieses Projekt wird derzeit auf osdn.net/projects/mingw migriert. Sie können uns dort weiterhin folgen. MinGW: Eine native Windows-Portierung der GNU Compiler Collection (GCC), frei verteilbare Importbibliotheken und Header-Dateien zum Erstellen nativer Windows-Anwendungen, einschließlich Erweiterungen der MSVC-Laufzeit zur Unterstützung der C99-Funktionalität. Die gesamte MinGW-Software kann auf 64-Bit-Windows-Plattformen ausgeführt werden.

ZendStudio 13.5.1 Mac

ZendStudio 13.5.1 Mac

Leistungsstarke integrierte PHP-Entwicklungsumgebung

WebStorm-Mac-Version

WebStorm-Mac-Version

Nützliche JavaScript-Entwicklungstools