Heim >Hardware-Tutorial >Hardware-Rezension >Das Geheimnis hinter O1/Deepseek-R1 kann auch in multimodalen großen Modellen verwendet werden

Das Geheimnis hinter O1/Deepseek-R1 kann auch in multimodalen großen Modellen verwendet werden

Barbara Streisand
Barbara StreisandOriginal
2025-03-12 13:03:01747Durchsuche

Forscher der Shanghai Jiaotong University, des Shanghai AI Lab und der chinesischen Universität von Hongkong haben das Open-Source-Projekt zur visuellen RFT (visuelle Verbesserung der Feinabstimmung) gestartet, für das nur eine geringe Datenmenge erforderlich ist, um die Leistung von Visual Language Mockups (LVLM) signifikant zu verbessern. Visual-RFT kombiniert geschickt die regelbasierte Verstärkungslernansatz von Deepseek-R1 mit dem RFT-Paradigma (Verstärkung der Verstärkung der Verstärkung) und erweitert diesen Ansatz erfolgreich vom Textfeld auf das Gesichtsfeld.

Das Geheimnis hinter O1/Deepseek-R1 kann auch in multimodalen großen Modellen verwendet werden

Durch die Gestaltung der entsprechenden Regelprämien für Aufgaben wie die visuelle Unterkategorisierung und Objekterkennung überwindet die visuelle RFT die Einschränkungen der Deepseek-R1-Methode, die auf Text, mathematisches Denken und andere Bereiche beschränkt ist und eine neue Möglichkeit für das LVLM-Training bietet.

Das Geheimnis hinter O1/Deepseek-R1 kann auch in multimodalen großen Modellen verwendet werden

Vorteile von Visual-RFT:

Im Vergleich zu herkömmlichen Methoden zur Feinabstimmung der visuellen Unterricht (SFT) hat Visual-RFT die folgenden erheblichen Vorteile:

  • Weniger Probenlernfähigkeit: Nur 10 bis 1000 Datenstücke können verwendet werden, um eine effektive Feinabstimmung zu erreichen.
  • Stärkere Verallgemeinerung: In Szenarien mit begrenzten Daten ist die Leistung besser als SFT.

Die Forscher verifizierten die visuelle RFT bei mehreren visuellen Wahrnehmungsaufgaben (Erkennung, Klassifizierung, Standort usw.), und die Ergebnisse zeigten, dass die visuelle RFT signifikante Leistungsverbesserungen erzielte und auch unter den Einstellungen des offenen Vokabulars und des kleinen Probenlernens leicht erreichbar war.

Das Geheimnis hinter O1/Deepseek-R1 kann auch in multimodalen großen Modellen verwendet werden

Die Forscher entwickelten entsprechende überprüfbare Belohnungen für verschiedene Aufgaben: IOU-basierte Belohnungen werden zur Erkennungs- und Positionierungsaufgaben verwendet, und für Klassifizierungsaufgaben werden Belohnungen der Klassifizierungskorrektheit verwendet.

Das Geheimnis hinter O1/Deepseek-R1 kann auch in multimodalen großen Modellen verwendet werden

Bei der Inferenzpositionierungsaufgabe zeigt Visual-RFT starke Funktionen für visuelle Argumentation, z.

Das Geheimnis hinter O1/Deepseek-R1 kann auch in multimodalen großen Modellen verwendet werden

Das Geheimnis hinter O1/Deepseek-R1 kann auch in multimodalen großen Modellen verwendet werden

Experimentelle Ergebnisse:

Experimente, die auf dem QWEN2-VL 2B/7B-Modell basieren, zeigen, dass die Visual-RFT SFT bei offener Objekterkennung, kleiner Probenerkennung, feinkörniger Klassifizierung und Inferenzpositionierungsaufgaben überlegen ist. Selbst wenn Sie einen bestimmten Anime-Charakter (z. B. Schleim) erkennen, kann Visual-RFT mit nur geringer Datenmenge erreicht werden.

Das Geheimnis hinter O1/Deepseek-R1 kann auch in multimodalen großen Modellen verwendet werden

Open Source -Informationen:

Das Visual-RFT-Projekt ist Open Source und enthält Schulungen, Bewertungscode und Daten.

Projektadresse: https://www.php.cn/link/ec56522bc9c2e15be17d11962eec453

Das Geheimnis hinter O1/Deepseek-R1 kann auch in multimodalen großen Modellen verwendet werden

Das obige ist der detaillierte Inhalt vonDas Geheimnis hinter O1/Deepseek-R1 kann auch in multimodalen großen Modellen verwendet werden. Für weitere Informationen folgen Sie bitte anderen verwandten Artikeln auf der PHP chinesischen Website!

Stellungnahme:
Der Inhalt dieses Artikels wird freiwillig von Internetnutzern beigesteuert und das Urheberrecht liegt beim ursprünglichen Autor. Diese Website übernimmt keine entsprechende rechtliche Verantwortung. Wenn Sie Inhalte finden, bei denen der Verdacht eines Plagiats oder einer Rechtsverletzung besteht, wenden Sie sich bitte an admin@php.cn