Heim  >  Artikel  >  Technologie-Peripheriegeräte  >  Die Fudan-Universität und andere haben AnyGPT veröffentlicht: alle modalen Eingaben und Ausgaben, einschließlich Bilder, Musik, Text und Sprache.

Die Fudan-Universität und andere haben AnyGPT veröffentlicht: alle modalen Eingaben und Ausgaben, einschließlich Bilder, Musik, Text und Sprache.

WBOY
WBOYnach vorne
2024-03-05 09:19:17899Durchsuche

Vor kurzem ist das Videogenerierungsmodell Sora von OpenAI populär geworden, und die multimodalen Fähigkeiten generativer KI-Modelle haben erneut große Aufmerksamkeit erregt.

Die reale Welt ist von Natur aus multimodal, wobei Organismen Informationen über verschiedene Kanäle wahrnehmen und austauschen, darunter Sehen, Sprache, Ton und Berührung. Eine vielversprechende Richtung für die Entwicklung multimodaler Systeme besteht darin, die multimodalen Wahrnehmungsfähigkeiten von LLM zu verbessern, was hauptsächlich die Integration multimodaler Encoder mit Sprachmodellen beinhaltet, wodurch sie in die Lage versetzt werden, Informationen über verschiedene Modalitäten hinweg zu verarbeiten und die Textverarbeitungsfähigkeiten von LLM zu nutzen, um eine kohärente Antwort zu erzeugen.

Diese Strategie gilt jedoch nur für die Textgenerierung und deckt nicht die multimodale Ausgabe ab. Einige bahnbrechende Forschungen haben erhebliche Fortschritte bei der Erzielung eines multimodalen Verständnisses und der Generierung von Sprachmodellen erzielt, diese Modelle sind jedoch auf eine einzige Nicht-Text-Modalität wie Bild oder Audio beschränkt.

Um die oben genannten Probleme zu lösen, schlug das Qiu Xipeng-Team der Fudan-Universität zusammen mit Forschern von Multimodal Art Projection (MAP) und dem Shanghai Artificial Intelligence Laboratory ein multimodales Sprachmodell namens AnyGPT vor, das in jedem verwendet werden kann Modalkombinationen werden verwendet, um den Inhalt verschiedener Modalitäten zu verstehen und zu begründen. Insbesondere kann AnyGPT Anweisungen verstehen, die mit mehreren Modalitäten wie Text, Sprache, Bildern und Musik verflochten sind, und kann geschickt geeignete multimodale Kombinationen auswählen, um darauf zu reagieren.

Beispielsweise kann AnyGPT bei einer Sprachaufforderung eine umfassende Antwort in Form von Sprache, Bild und Musik generieren:

Die Fudan-Universität und andere haben AnyGPT veröffentlicht: alle modalen Eingaben und Ausgaben, einschließlich Bilder, Musik, Text und Sprache.

Bei einer Aufforderung in Form von Text + Bild kann AnyGPT generieren Musik entsprechend den Prompt-Anforderungen:

Die Fudan-Universität und andere haben AnyGPT veröffentlicht: alle modalen Eingaben und Ausgaben, einschließlich Bilder, Musik, Text und Sprache.

Die Fudan-Universität und andere haben AnyGPT veröffentlicht: alle modalen Eingaben und Ausgaben, einschließlich Bilder, Musik, Text und Sprache.


  • Papieradresse: https://arxiv.org/pdf/2402.12226.pdf
  • Projekthomepage: https ://junzhan2000 .github.io/ AnyGPT.github.io/

Einführung in die Methode

AnyGPT nutzt diskrete Darstellungen, um verschiedene Modalitäten, einschließlich Sprache, Text, Bilder und Musik, einheitlich zu verarbeiten.

Um die Generierungsaufgabe von jeder Modalität zu jeder Modalität zu erfüllen, schlägt diese Forschung einen umfassenden Rahmen vor, der einheitlich trainiert werden kann. Wie in Abbildung 1 unten dargestellt, besteht das Framework aus drei Hauptkomponenten, darunter:

  • Multimodaler Tokenizer
  • Multimodales Sprachmodell als Backbone-Netzwerk
  • Multimodaler De-Tokenizer

Die Fudan-Universität und andere haben AnyGPT veröffentlicht: alle modalen Eingaben und Ausgaben, einschließlich Bilder, Musik, Text und Sprache.

Unter anderem wandelt der Tokenizer kontinuierliche Nicht-Text-Modalitäten in diskrete Token um und ordnet sie anschließend in einer multimodalen verschachtelten Sequenz an. Das Sprachmodell wird dann mithilfe des nächsten Trainingsziels für die Token-Vorhersage trainiert. Während der Inferenz werden multimodale Token durch zugehörige De-Tokenizer wieder in ihre ursprüngliche Darstellung dekodiert. Um die Qualität der Generierung zu verbessern, können multimodale Verbesserungsmodule eingesetzt werden, um die generierten Ergebnisse nachzubearbeiten, einschließlich Anwendungen wie Sprachklonen oder Bild-Superauflösung.

AnyGPT kann stabil trainiert werden, ohne dass Änderungen an der aktuellen Architektur oder dem Trainingsparadigma des Large Language Model (LLM) erforderlich sind. Stattdessen basiert es vollständig auf der Vorverarbeitung auf Datenebene, sodass neue Modalitäten nahtlos in LLM integriert werden können, ähnlich wie beim Hinzufügen einer neuen Sprache.

Eine zentrale Herausforderung dieser Forschung ist das Fehlen multimodaler verschachtelter Befehlsverfolgungsdaten. Um das Vortraining für die multimodale Ausrichtung abzuschließen, verwendete das Forschungsteam ein generatives Modell, um den ersten groß angelegten multimodalen „Any-to-Any“-Befehlsdatensatz zu synthetisieren – AnyInstruct-108k. Es besteht aus 108.000 Multi-Turn-Dialogbeispielen, die eng mit verschiedenen Modalitäten verknüpft sind, sodass das Modell jede Kombination multimodaler Eingaben und Ausgaben verarbeiten kann.

Die Fudan-Universität und andere haben AnyGPT veröffentlicht: alle modalen Eingaben und Ausgaben, einschließlich Bilder, Musik, Text und Sprache.

Die Fudan-Universität und andere haben AnyGPT veröffentlicht: alle modalen Eingaben und Ausgaben, einschließlich Bilder, Musik, Text und Sprache.

Diese Daten erfordern normalerweise eine große Anzahl von Bits zur genauen Darstellung, was zu langen Sequenzen führt, die für Sprachmodelle besondere Anforderungen stellen, da die Rechenkomplexität exponentiell mit der Sequenzlänge zunimmt. Um dieses Problem zu lösen, verwendet diese Studie ein zweistufiges High-Fidelity-Generierungsframework, einschließlich semantischer Informationsmodellierung und wahrnehmungsbezogener Informationsmodellierung. Zunächst hat das Sprachmodell die Aufgabe, Inhalte zu generieren, die auf semantischer Ebene zusammengeführt und ausgerichtet werden. Anschließend wandelt das nicht-autoregressive Modell multimodale semantische Token auf der Wahrnehmungsebene in multimodale Inhalte mit hoher Wiedergabetreue um und stellt so ein Gleichgewicht zwischen Leistung und Effizienz her.

Die Fudan-Universität und andere haben AnyGPT veröffentlicht: alle modalen Eingaben und Ausgaben, einschließlich Bilder, Musik, Text und Sprache.

Die Fudan-Universität und andere haben AnyGPT veröffentlicht: alle modalen Eingaben und Ausgaben, einschließlich Bilder, Musik, Text und Sprache.

Experiment

Experimentelle Ergebnisse zeigen, dass AnyGPT in der Lage ist, Dialogaufgaben in jedem Modus zu erledigen und dabei in allen Modi eine mit dedizierten Modellen vergleichbare Leistung zu erzielen, was Diskret beweist Darstellungen können mehrere Modalitäten in Sprachmodellen effektiv und bequem vereinheitlichen.

Diese Studie bewertet die grundlegenden Fähigkeiten der vorab trainierten AnyGPT-Basis und deckt multimodale Verständnis- und Generierungsaufgaben über alle Modalitäten hinweg ab. Die Bewertung zielt darauf ab, die Konsistenz zwischen verschiedenen Modalitäten während des Vortrainingsprozesses zu testen. Insbesondere werden die Text-zu-X- und X-zu-Text-Aufgaben jeder Modalität getestet, wobei X Bilder, Musik und Stimme sind.

Um reale Szenarien zu simulieren, werden alle Auswertungen im Nullstichprobenmodus durchgeführt. Dies bedeutet, dass AnyGPT während des Evaluierungsprozesses keine Feinabstimmung oder Vorabschulung nachgelagerter Trainingsbeispiele durchführt. Diese anspruchsvolle Bewertungseinstellung erfordert, dass das Modell auf eine unbekannte Testverteilung verallgemeinert wird.

Die Evaluierungsergebnisse zeigen, dass AnyGPT als allgemeines multimodales Sprachmodell bei verschiedenen multimodalen Verständnis- und Generierungsaufgaben eine lobenswerte Leistung erzielt.

Image

In dieser Studie wurde die Bildverständnisfähigkeit von AnyGPT bei Bildbeschreibungsaufgaben bewertet. Die Ergebnisse sind in Tabelle 2 aufgeführt.

Die Fudan-Universität und andere haben AnyGPT veröffentlicht: alle modalen Eingaben und Ausgaben, einschließlich Bilder, Musik, Text und Sprache.

Die Ergebnisse der Aufgabe zur Text-zu-Bild-Generierung sind in Tabelle 3 aufgeführt.

Die Fudan-Universität und andere haben AnyGPT veröffentlicht: alle modalen Eingaben und Ausgaben, einschließlich Bilder, Musik, Text und Sprache.Speech

Diese Studie bewertet die Leistung von AnyGPT bei Aufgaben der automatischen Spracherkennung (ASR), indem die Wortfehlerrate (WER) für die Testteilmenge des LibriSpeech-Datensatzes unter Verwendung von Wav2vec 2.0 und Whisper berechnet wird Große V2 als Basislinien, und die Bewertungsergebnisse sind in Tabelle 5 dargestellt.

Die Fudan-Universität und andere haben AnyGPT veröffentlicht: alle modalen Eingaben und Ausgaben, einschließlich Bilder, Musik, Text und Sprache.

Die Fudan-Universität und andere haben AnyGPT veröffentlicht: alle modalen Eingaben und Ausgaben, einschließlich Bilder, Musik, Text und Sprache.

Musik

Die Studie bewertete die Leistung von AnyGPT beim Musikverständnis und bei Musikgenerierungsaufgaben auf dem MusicCaps-Benchmark, wobei der CLAP_score-Score als objektive Metrik zur Messung der generierten Musik verwendet wurde und Die Ähnlichkeit zwischen Textbeschreibungen, die Bewertungsergebnisse sind in Tabelle 6 dargestellt.

Die Fudan-Universität und andere haben AnyGPT veröffentlicht: alle modalen Eingaben und Ausgaben, einschließlich Bilder, Musik, Text und Sprache.

Interessierte Leser können den Originaltext des Artikels lesen, um mehr über den Forschungsinhalt zu erfahren.

Das obige ist der detaillierte Inhalt vonDie Fudan-Universität und andere haben AnyGPT veröffentlicht: alle modalen Eingaben und Ausgaben, einschließlich Bilder, Musik, Text und Sprache.. Für weitere Informationen folgen Sie bitte anderen verwandten Artikeln auf der PHP chinesischen Website!

Stellungnahme:
Dieser Artikel ist reproduziert unter:51cto.com. Bei Verstößen wenden Sie sich bitte an admin@php.cn löschen