


Vor kurzem ist das Videogenerierungsmodell Sora von OpenAI populär geworden, und die multimodalen Fähigkeiten generativer KI-Modelle haben erneut große Aufmerksamkeit erregt.
Die reale Welt ist von Natur aus multimodal, wobei Organismen Informationen über verschiedene Kanäle wahrnehmen und austauschen, darunter Sehen, Sprache, Ton und Berührung. Eine vielversprechende Richtung für die Entwicklung multimodaler Systeme besteht darin, die multimodalen Wahrnehmungsfähigkeiten von LLM zu verbessern, was hauptsächlich die Integration multimodaler Encoder mit Sprachmodellen beinhaltet, wodurch sie in die Lage versetzt werden, Informationen über verschiedene Modalitäten hinweg zu verarbeiten und die Textverarbeitungsfähigkeiten von LLM zu nutzen, um eine kohärente Antwort zu erzeugen.
Diese Strategie gilt jedoch nur für die Textgenerierung und deckt nicht die multimodale Ausgabe ab. Einige bahnbrechende Forschungen haben erhebliche Fortschritte bei der Erzielung eines multimodalen Verständnisses und der Generierung von Sprachmodellen erzielt, diese Modelle sind jedoch auf eine einzige Nicht-Text-Modalität wie Bild oder Audio beschränkt.
Um die oben genannten Probleme zu lösen, schlug das Qiu Xipeng-Team der Fudan-Universität zusammen mit Forschern von Multimodal Art Projection (MAP) und dem Shanghai Artificial Intelligence Laboratory ein multimodales Sprachmodell namens AnyGPT vor, das in jedem verwendet werden kann Modalkombinationen werden verwendet, um den Inhalt verschiedener Modalitäten zu verstehen und zu begründen. Insbesondere kann AnyGPT Anweisungen verstehen, die mit mehreren Modalitäten wie Text, Sprache, Bildern und Musik verflochten sind, und kann geschickt geeignete multimodale Kombinationen auswählen, um darauf zu reagieren.
Beispielsweise kann AnyGPT bei einer Sprachaufforderung eine umfassende Antwort in Form von Sprache, Bild und Musik generieren:
Bei einer Aufforderung in Form von Text + Bild kann AnyGPT generieren Musik entsprechend den Prompt-Anforderungen:
- Papieradresse: https://arxiv.org/pdf/2402.12226.pdf
- Projekthomepage: https ://junzhan2000 .github.io/ AnyGPT.github.io/
Einführung in die Methode
AnyGPT nutzt diskrete Darstellungen, um verschiedene Modalitäten, einschließlich Sprache, Text, Bilder und Musik, einheitlich zu verarbeiten.
Um die Generierungsaufgabe von jeder Modalität zu jeder Modalität zu erfüllen, schlägt diese Forschung einen umfassenden Rahmen vor, der einheitlich trainiert werden kann. Wie in Abbildung 1 unten dargestellt, besteht das Framework aus drei Hauptkomponenten, darunter:
- Multimodaler Tokenizer
- Multimodales Sprachmodell als Backbone-Netzwerk
- Multimodaler De-Tokenizer
Unter anderem wandelt der Tokenizer kontinuierliche Nicht-Text-Modalitäten in diskrete Token um und ordnet sie anschließend in einer multimodalen verschachtelten Sequenz an. Das Sprachmodell wird dann mithilfe des nächsten Trainingsziels für die Token-Vorhersage trainiert. Während der Inferenz werden multimodale Token durch zugehörige De-Tokenizer wieder in ihre ursprüngliche Darstellung dekodiert. Um die Qualität der Generierung zu verbessern, können multimodale Verbesserungsmodule eingesetzt werden, um die generierten Ergebnisse nachzubearbeiten, einschließlich Anwendungen wie Sprachklonen oder Bild-Superauflösung.
AnyGPT kann stabil trainiert werden, ohne dass Änderungen an der aktuellen Architektur oder dem Trainingsparadigma des Large Language Model (LLM) erforderlich sind. Stattdessen basiert es vollständig auf der Vorverarbeitung auf Datenebene, sodass neue Modalitäten nahtlos in LLM integriert werden können, ähnlich wie beim Hinzufügen einer neuen Sprache.
Eine zentrale Herausforderung dieser Forschung ist das Fehlen multimodaler verschachtelter Befehlsverfolgungsdaten. Um das Vortraining für die multimodale Ausrichtung abzuschließen, verwendete das Forschungsteam ein generatives Modell, um den ersten groß angelegten multimodalen „Any-to-Any“-Befehlsdatensatz zu synthetisieren – AnyInstruct-108k. Es besteht aus 108.000 Multi-Turn-Dialogbeispielen, die eng mit verschiedenen Modalitäten verknüpft sind, sodass das Modell jede Kombination multimodaler Eingaben und Ausgaben verarbeiten kann.
Diese Daten erfordern normalerweise eine große Anzahl von Bits zur genauen Darstellung, was zu langen Sequenzen führt, die für Sprachmodelle besondere Anforderungen stellen, da die Rechenkomplexität exponentiell mit der Sequenzlänge zunimmt. Um dieses Problem zu lösen, verwendet diese Studie ein zweistufiges High-Fidelity-Generierungsframework, einschließlich semantischer Informationsmodellierung und wahrnehmungsbezogener Informationsmodellierung. Zunächst hat das Sprachmodell die Aufgabe, Inhalte zu generieren, die auf semantischer Ebene zusammengeführt und ausgerichtet werden. Anschließend wandelt das nicht-autoregressive Modell multimodale semantische Token auf der Wahrnehmungsebene in multimodale Inhalte mit hoher Wiedergabetreue um und stellt so ein Gleichgewicht zwischen Leistung und Effizienz her.
Experiment
Experimentelle Ergebnisse zeigen, dass AnyGPT in der Lage ist, Dialogaufgaben in jedem Modus zu erledigen und dabei in allen Modi eine mit dedizierten Modellen vergleichbare Leistung zu erzielen, was Diskret beweist Darstellungen können mehrere Modalitäten in Sprachmodellen effektiv und bequem vereinheitlichen.
Diese Studie bewertet die grundlegenden Fähigkeiten der vorab trainierten AnyGPT-Basis und deckt multimodale Verständnis- und Generierungsaufgaben über alle Modalitäten hinweg ab. Die Bewertung zielt darauf ab, die Konsistenz zwischen verschiedenen Modalitäten während des Vortrainingsprozesses zu testen. Insbesondere werden die Text-zu-X- und X-zu-Text-Aufgaben jeder Modalität getestet, wobei X Bilder, Musik und Stimme sind.
Um reale Szenarien zu simulieren, werden alle Auswertungen im Nullstichprobenmodus durchgeführt. Dies bedeutet, dass AnyGPT während des Evaluierungsprozesses keine Feinabstimmung oder Vorabschulung nachgelagerter Trainingsbeispiele durchführt. Diese anspruchsvolle Bewertungseinstellung erfordert, dass das Modell auf eine unbekannte Testverteilung verallgemeinert wird.
Die Evaluierungsergebnisse zeigen, dass AnyGPT als allgemeines multimodales Sprachmodell bei verschiedenen multimodalen Verständnis- und Generierungsaufgaben eine lobenswerte Leistung erzielt.
Image
In dieser Studie wurde die Bildverständnisfähigkeit von AnyGPT bei Bildbeschreibungsaufgaben bewertet. Die Ergebnisse sind in Tabelle 2 aufgeführt.
Die Ergebnisse der Aufgabe zur Text-zu-Bild-Generierung sind in Tabelle 3 aufgeführt.
Speech
Diese Studie bewertet die Leistung von AnyGPT bei Aufgaben der automatischen Spracherkennung (ASR), indem die Wortfehlerrate (WER) für die Testteilmenge des LibriSpeech-Datensatzes unter Verwendung von Wav2vec 2.0 und Whisper berechnet wird Große V2 als Basislinien, und die Bewertungsergebnisse sind in Tabelle 5 dargestellt.
Musik
Die Studie bewertete die Leistung von AnyGPT beim Musikverständnis und bei Musikgenerierungsaufgaben auf dem MusicCaps-Benchmark, wobei der CLAP_score-Score als objektive Metrik zur Messung der generierten Musik verwendet wurde und Die Ähnlichkeit zwischen Textbeschreibungen, die Bewertungsergebnisse sind in Tabelle 6 dargestellt.
Interessierte Leser können den Originaltext des Artikels lesen, um mehr über den Forschungsinhalt zu erfahren.
Das obige ist der detaillierte Inhalt vonDie Fudan-Universität und andere haben AnyGPT veröffentlicht: alle modalen Eingaben und Ausgaben, einschließlich Bilder, Musik, Text und Sprache.. Für weitere Informationen folgen Sie bitte anderen verwandten Artikeln auf der PHP chinesischen Website!

Große Sprachmodelle (LLMs) sind immer beliebter, wobei die Tool-Calling-Funktion ihre Fähigkeiten über die einfache Textgenerierung hinaus erweitert hat. Jetzt können LLMs komplexe Automatisierungsaufgaben wie dynamische UI -Erstellung und autonomes A erledigen

Kann ein Videospiel Angst erleichtern, Fokus aufbauen oder ein Kind mit ADHS unterstützen? Da die Herausforderungen im Gesundheitswesen weltweit steigen - insbesondere bei Jugendlichen - wenden sich Innovatoren einem unwahrscheinlichen Tool zu: Videospiele. Jetzt einer der größten Unterhaltungsindus der Welt

„Die Geschichte hat gezeigt, dass der technologische Fortschritt das Wirtschaftswachstum zwar nicht selbstverträglich macht, aber nicht eine gerechte Einkommensverteilung sicherstellt oder integrative menschliche Entwicklung fördert“, schreibt Rebeca Grynspan, Generalsekretärin von UNCTAD, in der Präambel.

Easy-Peasy, verwenden Sie generative KI als Ihren Verhandlungslehrer und Sparringspartner. Reden wir darüber. Diese Analyse eines innovativen KI -Durchbruch

Die TED2025 -Konferenz, die in Vancouver stattfand, beendete gestern, dem 11. April, ihre 36. Ausgabe. Es enthielt 80 Redner aus mehr als 60 Ländern, darunter Sam Altman, Eric Schmidt und Palmer Luckey. Teds Thema "Humanity Ranagined" wurde maßgeschneidert gemacht

Joseph Stiglitz ist der renommierte Ökonom und Empfänger des Nobelpreises in Wirtschaftswissenschaften im Jahr 2001. Stiglitz setzt, dass KI bestehende Ungleichheiten und konsolidierte Macht in den Händen einiger dominanter Unternehmen verschlimmern kann, was letztendlich die Wirtschaft untergräbt

Grafikdatenbanken: Datenmanagement durch Beziehungen revolutionieren Wenn sich die Daten erweitern und sich ihre Eigenschaften über verschiedene Bereiche hinweg entwickeln, entstehen Diagrammdatenbanken als transformative Lösungen für die Verwaltung miteinander verbundener Daten. Im Gegensatz zu traditioneller

LLM -Routing von großer Sprachmodell (LLM): Optimierung der Leistung durch intelligente Aufgabenverteilung Die sich schnell entwickelnde Landschaft von LLMs zeigt eine Vielzahl von Modellen mit jeweils einzigartigen Stärken und Schwächen. Einige zeichnen sich über kreative Inhalte aus


Heiße KI -Werkzeuge

Undresser.AI Undress
KI-gestützte App zum Erstellen realistischer Aktfotos

AI Clothes Remover
Online-KI-Tool zum Entfernen von Kleidung aus Fotos.

Undress AI Tool
Ausziehbilder kostenlos

Clothoff.io
KI-Kleiderentferner

AI Hentai Generator
Erstellen Sie kostenlos Ai Hentai.

Heißer Artikel

Heiße Werkzeuge

ZendStudio 13.5.1 Mac
Leistungsstarke integrierte PHP-Entwicklungsumgebung

SublimeText3 Linux neue Version
SublimeText3 Linux neueste Version

VSCode Windows 64-Bit-Download
Ein kostenloser und leistungsstarker IDE-Editor von Microsoft

SublimeText3 Mac-Version
Codebearbeitungssoftware auf Gottesniveau (SublimeText3)

Dreamweaver CS6
Visuelle Webentwicklungstools