Heim  >  Artikel  >  Technologie-Peripheriegeräte  >  Das große Yi-VL-Modell ist Open Source und steht bei MMMU und CMMMU an erster Stelle

Das große Yi-VL-Modell ist Open Source und steht bei MMMU und CMMMU an erster Stelle

WBOY
WBOYnach vorne
2024-01-22 21:30:21373Durchsuche
Am 22. Januar begrüßte die Modellfamilie der Yi-Serie ein neues Mitglied: Das multimodale Sprachgroßmodell Yi Vision Language (Yi-VL) ist offiziell als Open Source für die Welt zugänglich. Es wird berichtet, dass das Yi-VL-Modell auf der Grundlage des Yi-Sprachmodells entwickelt wurde, einschließlich zweier Versionen: Yi-VL-34B und Yi-VL-6B.

Yi-VL-Modell Open-Source-Adresse:
  • https://huggingface.co/01-ai
  • https://www.modelscope.cn/organization/01ai

Mit seinem hervorragenden Bild- und Textverständnis und seinen Fähigkeiten zur Dialoggenerierung hat das Yi-VL-Modell führende Ergebnisse beim englischen Datensatz MMMU und beim chinesischen Datensatz CMMMU erzielt und damit seine starke Stärke bei komplexen interdisziplinären Aufgaben unter Beweis gestellt. Der Datensatz

MMMU (vollständiger Name Massive Multi-discipline Multi-modal Understanding & Reasoning) enthält 11.500 Daten aus sechs Kerndisziplinen (Kunst und Design, Wirtschaft, Wissenschaft, Gesundheit und Medizin, Geistes- und Sozialwissenschaften sowie Technologie und (Technik) Probleme mit sehr heterogenen Bildtypen und miteinander verflochtenen Text-Bild-Informationen stellen extrem hohe Anforderungen an die fortgeschrittenen Wahrnehmungs- und Argumentationsfähigkeiten des Modells. Bei diesem Testsatz übertraf Yi-VL-34B eine Reihe multimodaler großer Modelle mit einer Genauigkeit von 41,6 % und übertraf damit nur GPT-4V (55,7 %) und demonstrierte ein starkes interdisziplinäres Wissensverständnis und Anwendungsfähigkeit.

Das große Yi-VL-Modell ist Open Source und steht bei MMMU und CMMMU an erster Stelle

Das große Yi-VL-Modell ist Open Source und steht bei MMMU und CMMMU an erster Stelle

Quelle: https://mmmu-benchmark.github.io

Auf dem für die chinesische Szene erstellten CMMMU-Datensatz zeigt das Yi-VL-Modell „ein besseres Verständnis“. „Die einzigartigen Vorteile des chinesischen Volkes. CMMMU enthält etwa 12.000 chinesische multimodale Fragen, die aus Universitätsprüfungen, Tests und Lehrbüchern stammen. Unter ihnen hat GPT-4V in diesem Testsatz eine Genauigkeit von 43,7 %, dicht gefolgt von Yi-VL-34B mit einer Genauigkeit von 36,5 % und übernimmt damit die Führung unter den bestehenden multimodalen Open-Source-Modellen.

Das große Yi-VL-Modell ist Open Source und steht bei MMMU und CMMMU an erster Stelle

Das große Yi-VL-Modell ist Open Source und steht bei MMMU und CMMMU an erster Stelle

Quelle: https://cmmmu-benchmark.github.io/

Wie funktioniert also das Yi-VL-Modell in verschiedenen Szenarien wie Grafik- und Textdialogen? ?

Schauen wir uns zunächst zwei Beispiele an:

Das große Yi-VL-Modell ist Open Source und steht bei MMMU und CMMMU an erster Stelle

Das große Yi-VL-Modell ist Open Source und steht bei MMMU und CMMMU an erster Stelle

Sie können sehen, dass Sie basierend auf den leistungsstarken Textverständnisfunktionen des Yi-Sprachmodells durch einfaches Ausrichten der Bilder eine gute multimodale Sicht erhalten können . Sprachmodell – Dies ist auch eines der Kernhighlights des Yi-VL-Modells.

Das große Yi-VL-Modell ist Open Source und steht bei MMMU und CMMMU an erster Stelle

Yi-VL-Modellarchitekturdesign und Trainingsmethodenprozessübersicht.

Beim Architekturdesign basiert das Yi-VL-Modell auf der Open-Source-LLaVA-Architektur und enthält drei Hauptmodule:

  • Vision Transformer (kurz ViT) kommt zum Einsatz Für die Bildkodierung initialisiert das Open-Source-Modell OpenClip ViT-H/14 trainierbare Parameter und lernt, Merkmale aus großen „Bild-Text“-Paaren zu extrahieren, wodurch das Modell in die Lage versetzt wird, Bilder zu verarbeiten und zu verstehen. Das
  • Projektionsmodul bietet die Möglichkeit, Bildmerkmale räumlich an Textmerkmalen im Modell auszurichten. Dieses Modul besteht aus einem Multilayer Perceptron (MLP), das Schichtnormalisierungen enthält. Dieses Design ermöglicht es dem Modell, visuelle und Textinformationen effektiver zu verschmelzen und zu verarbeiten, wodurch die Genauigkeit des multimodalen Verständnisses und der multimodalen Generierung verbessert wird.
  • Die Einführung der großen Sprachmodelle Yi-34B-Chat und Yi-6B-Chat bietet Yi-VL leistungsstarke Sprachverständnis- und Generierungsfunktionen. Dieser Teil des Modells nutzt fortschrittliche Technologie zur Verarbeitung natürlicher Sprache, um Yi-VL dabei zu helfen, komplexe Sprachstrukturen tiefgreifend zu verstehen und kohärente und relevante Textausgaben zu generieren.

Bei der Trainingsmethode ist der Trainingsprozess des Yi-VL-Modells in drei sorgfältig konzipierte Phasen unterteilt, die darauf abzielen, die visuellen und sprachlichen Verarbeitungsfähigkeiten des Modells umfassend zu verbessern.

  • Die erste Stufe: Zero One Wanwu verwendet 100 Millionen gepaarte „Bild-Text“-Datensätze, um ViT- und Projektionsmodule zu trainieren. Zu diesem Zeitpunkt ist die Bildauflösung auf 224 x 224 eingestellt, um die Wissenserfassungsfähigkeiten von ViT in bestimmten Architekturen zu verbessern und gleichzeitig eine effiziente Ausrichtung auf große Sprachmodelle zu ermöglichen.
  • Die zweite Stufe: Zero One Thing erhöht die Bildauflösung von ViT auf 448 x 448. Durch diese Verbesserung kann das Modell komplexe visuelle Details besser erkennen. In dieser Phase werden etwa 25 Millionen Bild-Text-Paare verwendet.
  • Die dritte Stufe: Zero One Wish öffnet die Parameter des gesamten Modells für das Training, mit dem Ziel, die Leistung des Modells in der multimodalen Chat-Interaktion zu verbessern. Die Trainingsdaten decken eine Vielzahl von Datenquellen mit insgesamt etwa 1 Million „Bild-Text“-Paaren ab, wodurch die Breite und Ausgewogenheit der Daten gewährleistet ist.

Das technische Team von Zero One Everything hat außerdem bestätigt, dass es auf den leistungsstarken Sprachverständnis- und Generierungsfunktionen des Yi-Sprachmodells basieren und andere multimodale Trainingsmethoden wie BLIP, Flamingo, EVA verwenden kann. usw., um schnell Modelle zu trainieren, die ein effizientes multimodales Grafik-Text-Modell für das Bildverständnis und einen reibungslosen Grafik-Text-Dialog ausführen können. Die Modelle der Yi-Serie können als Basissprachenmodelle für multimodale Modelle verwendet werden und bieten so eine neue Option für die Open-Source-Community.

Derzeit ist das Yi-VL-Modell auf Plattformen wie Hugging Face und ModelScope für die Öffentlichkeit zugänglich. Über die folgenden Links können Benutzer die hervorragende Leistung dieses Modells in verschiedenen Szenarien wie Grafik- und Textdialogen erleben. Willkommen, um die leistungsstarken Funktionen des multimodalen Sprachmodells Yi-VL zu erkunden und modernste Errungenschaften der KI-Technologie zu erleben.

Das obige ist der detaillierte Inhalt vonDas große Yi-VL-Modell ist Open Source und steht bei MMMU und CMMMU an erster Stelle. Für weitere Informationen folgen Sie bitte anderen verwandten Artikeln auf der PHP chinesischen Website!

Stellungnahme:
Dieser Artikel ist reproduziert unter:jiqizhixin.com. Bei Verstößen wenden Sie sich bitte an admin@php.cn löschen