suchen
HeimHardware-TutorialHardware-RezensionDas Geheimnis hinter O1/Deepseek-R1 kann auch in multimodalen großen Modellen verwendet werden

Forscher der Shanghai Jiaotong University, des Shanghai AI Lab und der chinesischen Universität von Hongkong haben das Open-Source-Projekt zur visuellen RFT (visuelle Verbesserung der Feinabstimmung) gestartet, für das nur eine geringe Datenmenge erforderlich ist, um die Leistung von Visual Language Mockups (LVLM) signifikant zu verbessern. Visual-RFT kombiniert geschickt die regelbasierte Verstärkungslernansatz von Deepseek-R1 mit dem RFT-Paradigma (Verstärkung der Verstärkung der Verstärkung) und erweitert diesen Ansatz erfolgreich vom Textfeld auf das Gesichtsfeld.

Das Geheimnis hinter O1/Deepseek-R1 kann auch in multimodalen großen Modellen verwendet werden

Durch die Gestaltung der entsprechenden Regelprämien für Aufgaben wie die visuelle Unterkategorisierung und Objekterkennung überwindet die visuelle RFT die Einschränkungen der Deepseek-R1-Methode, die auf Text, mathematisches Denken und andere Bereiche beschränkt ist und eine neue Möglichkeit für das LVLM-Training bietet.

Das Geheimnis hinter O1/Deepseek-R1 kann auch in multimodalen großen Modellen verwendet werden

Vorteile von Visual-RFT:

Im Vergleich zu herkömmlichen Methoden zur Feinabstimmung der visuellen Unterricht (SFT) hat Visual-RFT die folgenden erheblichen Vorteile:

  • Weniger Probenlernfähigkeit: Nur 10 bis 1000 Datenstücke können verwendet werden, um eine effektive Feinabstimmung zu erreichen.
  • Stärkere Verallgemeinerung: In Szenarien mit begrenzten Daten ist die Leistung besser als SFT.

Die Forscher verifizierten die visuelle RFT bei mehreren visuellen Wahrnehmungsaufgaben (Erkennung, Klassifizierung, Standort usw.), und die Ergebnisse zeigten, dass die visuelle RFT signifikante Leistungsverbesserungen erzielte und auch unter den Einstellungen des offenen Vokabulars und des kleinen Probenlernens leicht erreichbar war.

Das Geheimnis hinter O1/Deepseek-R1 kann auch in multimodalen großen Modellen verwendet werden

Die Forscher entwickelten entsprechende überprüfbare Belohnungen für verschiedene Aufgaben: IOU-basierte Belohnungen werden zur Erkennungs- und Positionierungsaufgaben verwendet, und für Klassifizierungsaufgaben werden Belohnungen der Klassifizierungskorrektheit verwendet.

Das Geheimnis hinter O1/Deepseek-R1 kann auch in multimodalen großen Modellen verwendet werden

Bei der Inferenzpositionierungsaufgabe zeigt Visual-RFT starke Funktionen für visuelle Argumentation, z.

Das Geheimnis hinter O1/Deepseek-R1 kann auch in multimodalen großen Modellen verwendet werden

Das Geheimnis hinter O1/Deepseek-R1 kann auch in multimodalen großen Modellen verwendet werden

Experimentelle Ergebnisse:

Experimente, die auf dem QWEN2-VL 2B/7B-Modell basieren, zeigen, dass die Visual-RFT SFT bei offener Objekterkennung, kleiner Probenerkennung, feinkörniger Klassifizierung und Inferenzpositionierungsaufgaben überlegen ist. Selbst wenn Sie einen bestimmten Anime-Charakter (z. B. Schleim) erkennen, kann Visual-RFT mit nur geringer Datenmenge erreicht werden.

Das Geheimnis hinter O1/Deepseek-R1 kann auch in multimodalen großen Modellen verwendet werden

Open Source -Informationen:

Das Visual-RFT-Projekt ist Open Source und enthält Schulungen, Bewertungscode und Daten.

Projektadresse: https://www.php.cn/link/ec56522bc9c2e15be17d11962eec453

Das Geheimnis hinter O1/Deepseek-R1 kann auch in multimodalen großen Modellen verwendet werden

Das obige ist der detaillierte Inhalt vonDas Geheimnis hinter O1/Deepseek-R1 kann auch in multimodalen großen Modellen verwendet werden. Für weitere Informationen folgen Sie bitte anderen verwandten Artikeln auf der PHP chinesischen Website!

Stellungnahme
Der Inhalt dieses Artikels wird freiwillig von Internetnutzern beigesteuert und das Urheberrecht liegt beim ursprünglichen Autor. Diese Website übernimmt keine entsprechende rechtliche Verantwortung. Wenn Sie Inhalte finden, bei denen der Verdacht eines Plagiats oder einer Rechtsverletzung besteht, wenden Sie sich bitte an admin@php.cn

Heiße KI -Werkzeuge

Undresser.AI Undress

Undresser.AI Undress

KI-gestützte App zum Erstellen realistischer Aktfotos

AI Clothes Remover

AI Clothes Remover

Online-KI-Tool zum Entfernen von Kleidung aus Fotos.

Undress AI Tool

Undress AI Tool

Ausziehbilder kostenlos

Clothoff.io

Clothoff.io

KI-Kleiderentferner

Video Face Swap

Video Face Swap

Tauschen Sie Gesichter in jedem Video mühelos mit unserem völlig kostenlosen KI-Gesichtstausch-Tool aus!

Heiße Werkzeuge

SublimeText3 Englische Version

SublimeText3 Englische Version

Empfohlen: Win-Version, unterstützt Code-Eingabeaufforderungen!

Senden Sie Studio 13.0.1

Senden Sie Studio 13.0.1

Leistungsstarke integrierte PHP-Entwicklungsumgebung

Sicherer Prüfungsbrowser

Sicherer Prüfungsbrowser

Safe Exam Browser ist eine sichere Browserumgebung für die sichere Teilnahme an Online-Prüfungen. Diese Software verwandelt jeden Computer in einen sicheren Arbeitsplatz. Es kontrolliert den Zugriff auf alle Dienstprogramme und verhindert, dass Schüler nicht autorisierte Ressourcen nutzen.

VSCode Windows 64-Bit-Download

VSCode Windows 64-Bit-Download

Ein kostenloser und leistungsstarker IDE-Editor von Microsoft

MantisBT

MantisBT

Mantis ist ein einfach zu implementierendes webbasiertes Tool zur Fehlerverfolgung, das die Fehlerverfolgung von Produkten unterstützen soll. Es erfordert PHP, MySQL und einen Webserver. Schauen Sie sich unsere Demo- und Hosting-Services an.