


Das Geheimnis hinter O1/Deepseek-R1 kann auch in multimodalen großen Modellen verwendet werden
Forscher der Shanghai Jiaotong University, des Shanghai AI Lab und der chinesischen Universität von Hongkong haben das Open-Source-Projekt zur visuellen RFT (visuelle Verbesserung der Feinabstimmung) gestartet, für das nur eine geringe Datenmenge erforderlich ist, um die Leistung von Visual Language Mockups (LVLM) signifikant zu verbessern. Visual-RFT kombiniert geschickt die regelbasierte Verstärkungslernansatz von Deepseek-R1 mit dem RFT-Paradigma (Verstärkung der Verstärkung der Verstärkung) und erweitert diesen Ansatz erfolgreich vom Textfeld auf das Gesichtsfeld.
Durch die Gestaltung der entsprechenden Regelprämien für Aufgaben wie die visuelle Unterkategorisierung und Objekterkennung überwindet die visuelle RFT die Einschränkungen der Deepseek-R1-Methode, die auf Text, mathematisches Denken und andere Bereiche beschränkt ist und eine neue Möglichkeit für das LVLM-Training bietet.
Vorteile von Visual-RFT:
Im Vergleich zu herkömmlichen Methoden zur Feinabstimmung der visuellen Unterricht (SFT) hat Visual-RFT die folgenden erheblichen Vorteile:
- Weniger Probenlernfähigkeit: Nur 10 bis 1000 Datenstücke können verwendet werden, um eine effektive Feinabstimmung zu erreichen.
- Stärkere Verallgemeinerung: In Szenarien mit begrenzten Daten ist die Leistung besser als SFT.
Die Forscher verifizierten die visuelle RFT bei mehreren visuellen Wahrnehmungsaufgaben (Erkennung, Klassifizierung, Standort usw.), und die Ergebnisse zeigten, dass die visuelle RFT signifikante Leistungsverbesserungen erzielte und auch unter den Einstellungen des offenen Vokabulars und des kleinen Probenlernens leicht erreichbar war.
Die Forscher entwickelten entsprechende überprüfbare Belohnungen für verschiedene Aufgaben: IOU-basierte Belohnungen werden zur Erkennungs- und Positionierungsaufgaben verwendet, und für Klassifizierungsaufgaben werden Belohnungen der Klassifizierungskorrektheit verwendet.
Bei der Inferenzpositionierungsaufgabe zeigt Visual-RFT starke Funktionen für visuelle Argumentation, z.
Experimentelle Ergebnisse:
Experimente, die auf dem QWEN2-VL 2B/7B-Modell basieren, zeigen, dass die Visual-RFT SFT bei offener Objekterkennung, kleiner Probenerkennung, feinkörniger Klassifizierung und Inferenzpositionierungsaufgaben überlegen ist. Selbst wenn Sie einen bestimmten Anime-Charakter (z. B. Schleim) erkennen, kann Visual-RFT mit nur geringer Datenmenge erreicht werden.
Open Source -Informationen:
Das Visual-RFT-Projekt ist Open Source und enthält Schulungen, Bewertungscode und Daten.
Projektadresse: https://www.php.cn/link/ec56522bc9c2e15be17d11962eec453
Das obige ist der detaillierte Inhalt vonDas Geheimnis hinter O1/Deepseek-R1 kann auch in multimodalen großen Modellen verwendet werden. Für weitere Informationen folgen Sie bitte anderen verwandten Artikeln auf der PHP chinesischen Website!

Heiße KI -Werkzeuge

Undresser.AI Undress
KI-gestützte App zum Erstellen realistischer Aktfotos

AI Clothes Remover
Online-KI-Tool zum Entfernen von Kleidung aus Fotos.

Undress AI Tool
Ausziehbilder kostenlos

Clothoff.io
KI-Kleiderentferner

Video Face Swap
Tauschen Sie Gesichter in jedem Video mühelos mit unserem völlig kostenlosen KI-Gesichtstausch-Tool aus!

Heißer Artikel

Heiße Werkzeuge

SublimeText3 Englische Version
Empfohlen: Win-Version, unterstützt Code-Eingabeaufforderungen!

Senden Sie Studio 13.0.1
Leistungsstarke integrierte PHP-Entwicklungsumgebung

Sicherer Prüfungsbrowser
Safe Exam Browser ist eine sichere Browserumgebung für die sichere Teilnahme an Online-Prüfungen. Diese Software verwandelt jeden Computer in einen sicheren Arbeitsplatz. Es kontrolliert den Zugriff auf alle Dienstprogramme und verhindert, dass Schüler nicht autorisierte Ressourcen nutzen.

VSCode Windows 64-Bit-Download
Ein kostenloser und leistungsstarker IDE-Editor von Microsoft

MantisBT
Mantis ist ein einfach zu implementierendes webbasiertes Tool zur Fehlerverfolgung, das die Fehlerverfolgung von Produkten unterstützen soll. Es erfordert PHP, MySQL und einen Webserver. Schauen Sie sich unsere Demo- und Hosting-Services an.
