Kommt das multimodale ChatGPT von Microsoft? 1,6 Milliarden Parameter zur Bewältigung von Aufgaben wie dem Betrachten von Bildern und Beantworten von Fragen, IQ-Tests usw.-KI-php.cn

Kommt das multimodale ChatGPT von Microsoft? 1,6 Milliarden Parameter zur Bewältigung von Aufgaben wie dem Betrachten von Bildern und Beantworten von Fragen, IQ-Tests usw.

PHPz

Apr 14, 2023 pm 06:28 PM

ai模型

Im Bereich NLP haben große Sprachmodelle (LLM) erfolgreich als gemeinsame Schnittstellen bei verschiedenen Aufgaben in natürlicher Sprache gedient. Solange wir die Eingabe und Ausgabe in Text umwandeln können, können wir die LLM-basierte Schnittstelle an eine Aufgabe anpassen. Beispielsweise nimmt die Sammelaufgabe Dokumente auf und gibt zusammenfassende Informationen aus. So können wir das Eingabedokument in ein zusammenfassendes Sprachmodell einspeisen und eine Zusammenfassung generieren.

Trotz der erfolgreichen Anwendung von LLM in NLP-Aufgaben haben Forscher immer noch Schwierigkeiten, es nativ für multimodale Daten wie Bilder und Audio zu verwenden. Als grundlegender Bestandteil der Intelligenz ist die multimodale Wahrnehmung eine notwendige Voraussetzung für die Erlangung allgemeiner künstlicher Intelligenz, sowohl für den Wissenserwerb als auch für den Umgang mit der realen Welt. Noch wichtiger ist, dass die Erschließung multimodaler Eingaben die Anwendung von Sprachmodellen in höherwertigen Bereichen wie multimodaler Robotik, Dokumentenintelligenz und Robotik erheblich erweitern kann.

Daher hat das Microsoft-Team im Artikel „Sprache ist nicht alles, was Sie brauchen: Wahrnehmung an Sprachmodellen ausrichten“ ein #🎜 eingeführt. 🎜#Multimodal Large Language Model (MLLM) – KOSMOS-1, das allgemeine Modalitäten wahrnehmen, Anweisungen befolgen (d. h. Zero-Shot-Lernen) und im Kontext lernen kann (d. h. Few-Shot-Lernen) #🎜🎜 ## 🎜🎜#. Das Forschungsziel besteht darin, die Wahrnehmung mit LLM in Einklang zu bringen, sodass das Modell sehen und sprechen kann. Die Forscher trainierten KOSMOS-1 von Grund auf nach der Methode von METALM (siehe den Artikel „Sprachmodelle sind Allzweckschnittstellen“).

Kommt das multimodale ChatGPT von Microsoft? 1,6 Milliarden Parameter zur Bewältigung von Aufgaben wie dem Betrachten von Bildern und Beantworten von Fragen, IQ-Tests usw.

# 🎜 🎜#Papieradresse: https://arxiv.org/pdf/2302.14045.pdf

Projektadresse: https://github .com/microsoft/unilm
Wie in Abbildung 1 unten dargestellt, verwendet der Forscher ein Transformer-basiertes Sprachmodell als allgemeine Schnittstelle , und verbinden Sie es mit dem Wahrnehmungsmodul. Sie trainierten das Modell auf einem multimodalen Korpus im Webmaßstab, der Textdaten, willkürlich verschachtelte Bilder und Texte sowie Bild-Untertitel-Paare umfasst. Darüber hinaus kalibrierten die Forscher die modalübergreifende Fähigkeit, Anweisungen zu befolgen, indem sie reine Sprachdaten übermittelten.

Schließlich unterstützt das KOSMOS-1-Modell nativ Sprache, Wahrnehmungssprache und visuelle Aufgaben in Zero-Shot- und Fence-Shot-Lerneinstellungen, wie in Tabelle 1 unten gezeigt.

Kommt das multimodale ChatGPT von Microsoft? 1,6 Milliarden Parameter zur Bewältigung von Aufgaben wie dem Betrachten von Bildern und Beantworten von Fragen, IQ-Tests usw.

Der Forscher ist in der Abbildung dargestellt 2 unten und einige generierte Beispiele sind in Abbildung 3 dargestellt.

Zusätzlich zu verschiedenen Aufgaben in natürlicher Sprache kann das KOSMOS-1-Modell nativ eine Vielzahl wahrnehmungsintensiver Aufgaben bewältigen, wie z. B. visueller Dialog, visuelle Erklärung, visuelle Frage und Antwort, Bild Untertitel, einfache mathematische Gleichungen, OCR und Zero-Shot-Bildklassifizierung mit Beschreibung. Sie haben außerdem einen IQ-Test-Benchmark basierend auf Raven's Progressive Matrices (RPM) erstellt, um die Fähigkeit zum nonverbalen Denken von MLLM zu bewerten.

Kommt das multimodale ChatGPT von Microsoft? 1,6 Milliarden Parameter zur Bewältigung von Aufgaben wie dem Betrachten von Bildern und Beantworten von Fragen, IQ-Tests usw. Diese Beispiele zeigen, dass die native Unterstützung der multimodalen Wahrnehmung darin besteht, LLM-Anwendungen zu integrieren auf neue Aufgaben bietet neue Chancen. Darüber hinaus erzielt MLLM im Vergleich zu LLM eine bessere Leistung beim gesunden Menschenverstand, was darauf hindeutet, dass der modalübergreifende Transfer den Wissenserwerb erleichtert.

Da die Anzahl der Parameter des KOSMOS-1-Modells 1,6 Milliarden beträgt, äußerten einige Internetnutzer die Hoffnung, dieses große multimodale Modell auf ihren Computern ausführen zu können.

Kommt das multimodale ChatGPT von Microsoft? 1,6 Milliarden Parameter zur Bewältigung von Aufgaben wie dem Betrachten von Bildern und Beantworten von Fragen, IQ-Tests usw.

KOSMOS-1: Ein multimodales Sprachmodell im großen Maßstab

Wie in Abbildung 1 dargestellt, ist KOSMOS-1 ein multimodales Sprachmodell, das allgemeine Modalitäten wahrnehmen, Anweisungen befolgen und im Kontext lernen und Ausgaben generieren kann. Konkret ist das Rückgrat von KOSMOS-1 ein auf Transformer basierendes kausales Sprachmodell. Neben Text können auch andere Modalitäten eingebettet und in das Modell eingegeben werden. Wie in der Abbildung unten gezeigt, gibt es neben Sprache auch Einbettungen von Vision, Sprache usw. Transformatordecoder dienen als allgemeine Schnittstelle für multimodale Eingaben. Sobald das Modell trainiert ist, kann KOSMOS-1 auch für Sprachaufgaben und multimodale Aufgaben in Zero-Shot- und Few-Shot-Einstellungen evaluiert werden.

Kommt das multimodale ChatGPT von Microsoft? 1,6 Milliarden Parameter zur Bewältigung von Aufgaben wie dem Betrachten von Bildern und Beantworten von Fragen, IQ-Tests usw.

Der Transformatordecoder nimmt die Modalität auf einheitliche Weise wahr und die Eingabeinformationen werden mit speziellen Token zu einer Sequenz zusammengefasst. Beispielsweise bedeutet den Anfang der Sequenz und das Ende der Sequenz. Die speziellen Token und repräsentieren den Beginn und das Ende der codierten Bildeinbettung. Das Einbettungsmodul kodiert Text-Tokens und andere Eingabemodalitäten in Vektordarstellungen. Für Eingabe-Tokens verwendet die Studie eine Nachschlagetabelle, um sie in Einbettungen abzubilden. Für kontinuierliche Signalmodalitäten (z. B. Bilder und Audio) kann die Eingabe auch als diskrete Codes dargestellt werden.

Danach wird die erhaltene Einbettung der Eingabesequenz dem Transformer-basierten Decoder zugeführt. Das kausale Modell verarbeitet die Sequenz dann autoregressiv, was zum nächsten Token führt. Zusammenfassend lässt sich sagen, dass das MLLM-Framework verschiedene Datentypen flexibel verarbeiten kann, solange die Eingaben als Vektoren dargestellt werden.

Kommt das multimodale ChatGPT von Microsoft? 1,6 Milliarden Parameter zur Bewältigung von Aufgaben wie dem Betrachten von Bildern und Beantworten von Fragen, IQ-Tests usw.

Modelltraining

Der erste ist der Trainingsdatensatz. Zu den Datensätzen gehören Textkorpora, Bild-Untertitel-Paare sowie bild- und textübergreifende Datensätze. Konkret umfasst das Textkorpus The Pile und Common Crawl (CC); die Bild-Untertitel-Paare umfassen Englisch LAION-2B, LAION-400M, COYO-700M und Conceptual Captions; der übergreifende Bild- und Text-Datensatz stammt von Common Crawl Schnappschuss.

Da wir nun den Datensatz haben, haben wir die Trainingseinstellungen. Die MLLM-Komponente enthält 24 Schichten, versteckte Dimensionen von 2048, 8192 FFNs, 32 Aufmerksamkeitsköpfe und eine Parametergröße von 1,3B. Um eine bessere Modellkonvergenz zu ermöglichen, werden Bilddarstellungen aus dem vorab trainierten CLIP ViT-L/14-Modell mit 1024 Merkmalsdimensionen erhalten. Bilder werden während des Trainings auf eine Auflösung von 224 × 224 vorverarbeitet. Darüber hinaus werden alle CLIP-Modellparameter mit Ausnahme der letzten Ebene während des Trainings eingefroren. Die Gesamtzahl der Parameter für KOSMOS-1 beträgt etwa 1,6 Milliarden.

Experimentelle Ergebnisse

Diese Studie führte eine Reihe umfangreicher Experimente durch, um KOSMOS-1 zu bewerten: Sprachaufgaben (Sprachverständnis, Sprachgenerierung, OCR-freie Textklassifizierung); Gesunder Menschenverstand); Nonverbales Denken (IQ-Test); Wahrnehmungs- und Sprachaufgaben (Bilduntertitel, visuelle Frage und Antwort, Webseitenfrage und -antwort); ).

Kommt das multimodale ChatGPT von Microsoft? 1,6 Milliarden Parameter zur Bewältigung von Aufgaben wie dem Betrachten von Bildern und Beantworten von Fragen, IQ-Tests usw.

Bildunterschriften.

Die folgende Tabelle zeigt die Zero-Sample-Leistung verschiedener Modelle auf COCO und Flickr30k. Im Vergleich zu anderen Modellen hat KOSMOS-1 beachtliche Ergebnisse erzielt und seine Leistung ist auch dann gut, wenn man bedenkt, dass die Anzahl der Parameter viel geringer ist als bei Flamingo.

Die folgende Tabelle zeigt den Leistungsvergleich einiger Proben:

Kommt das multimodale ChatGPT von Microsoft? 1,6 Milliarden Parameter zur Bewältigung von Aufgaben wie dem Betrachten von Bildern und Beantworten von Fragen, IQ-Tests usw.

Visuelle Fragen und Antworten. KOSMOS-1 hat eine höhere Genauigkeit und Robustheit als die Modelle Flamingo-3B und Flamingo-9B:

Kommt das multimodale ChatGPT von Microsoft? 1,6 Milliarden Parameter zur Bewältigung von Aufgaben wie dem Betrachten von Bildern und Beantworten von Fragen, IQ-Tests usw.

Die folgende Tabelle zeigt einen Leistungsvergleich einiger Beispiele:

Kommt das multimodale ChatGPT von Microsoft? 1,6 Milliarden Parameter zur Bewältigung von Aufgaben wie dem Betrachten von Bildern und Beantworten von Fragen, IQ-Tests usw.

IQ-Test. Der Raven's Reasoning Test ist einer der am häufigsten verwendeten Tests zur Beurteilung des nonverbalen Denkens. Abbildung 4 zeigt ein Beispiel.

Kommt das multimodale ChatGPT von Microsoft? 1,6 Milliarden Parameter zur Bewältigung von Aufgaben wie dem Betrachten von Bildern und Beantworten von Fragen, IQ-Tests usw.

Tabelle 6 zeigt die Auswertungsergebnisse des IQ-Testdatensatzes. KOSMOS-1 ist in der Lage, abstrakte konzeptionelle Muster in einer nonverbalen Umgebung wahrzunehmen und dann nachfolgende Elemente aus mehreren Auswahlmöglichkeiten zu begründen. Unseres Wissens ist dies das erste Mal, dass ein Modell einen solchen Raven-IQ-Test ohne Stichprobe durchführen konnte.

Kommt das multimodale ChatGPT von Microsoft? 1,6 Milliarden Parameter zur Bewältigung von Aufgaben wie dem Betrachten von Bildern und Beantworten von Fragen, IQ-Tests usw.

Web-Fragen und Antworten. Web Q&A zielt darauf ab, Antworten auf Fragen von Webseiten zu finden. Es erfordert, dass das Modell sowohl die Semantik als auch die Struktur des Textes versteht. Die Ergebnisse sind wie folgt:

Kommt das multimodale ChatGPT von Microsoft? 1,6 Milliarden Parameter zur Bewältigung von Aufgaben wie dem Betrachten von Bildern und Beantworten von Fragen, IQ-Tests usw.

Multimodale Denkkettenanregungen. Inspiriert durch die Anregungen der Denkkette führte dieser Artikel ein diesbezügliches Experiment durch. Wie in Abbildung 5 dargestellt, zerlegt dieser Artikel die Sprachwahrnehmungsaufgabe in zwei Schritte. Wenn in der ersten Phase ein Bild vorliegt, werden Hinweise verwendet, um das Modell bei der Generierung einer Ausgabe anzuleiten, die den Anforderungen zum Erzielen des Endergebnisses entspricht.

Kommt das multimodale ChatGPT von Microsoft? 1,6 Milliarden Parameter zur Bewältigung von Aufgaben wie dem Betrachten von Bildern und Beantworten von Fragen, IQ-Tests usw.

Wie aus Tabelle 9 ersichtlich ist, beträgt die Punktzahl der multimodalen Denkkettenaufforderung 72,9 Punkte, 5,8 Punkte mehr als die Standardaufforderung:

Kommt das multimodale ChatGPT von Microsoft? 1,6 Milliarden Parameter zur Bewältigung von Aufgaben wie dem Betrachten von Bildern und Beantworten von Fragen, IQ-Tests usw.

Erfahren Sie mehr Informationen zum Experiment finden Sie im Originalpapier.

Das obige ist der detaillierte Inhalt vonKommt das multimodale ChatGPT von Microsoft? 1,6 Milliarden Parameter zur Bewältigung von Aufgaben wie dem Betrachten von Bildern und Beantworten von Fragen, IQ-Tests usw.. Für weitere Informationen folgen Sie bitte anderen verwandten Artikeln auf der PHP chinesischen Website!

Stellungnahme

Dieser Artikel ist reproduziert unter:51CTO.COM. Bei Verstößen wenden Sie sich bitte an admin@php.cn löschen

Verwandter Artikel

Lesen des AI-Index 2025: Ist AI Ihr Freund, Feind oder Co-Pilot?Apr 11, 2025 pm 12:13 PM

Der Bericht des Stanford University Institute for Human-orientierte künstliche Intelligenz bietet einen guten Überblick über die laufende Revolution der künstlichen Intelligenz. Interpretieren wir es in vier einfachen Konzepten: Erkenntnis (verstehen, was geschieht), Wertschätzung (Sehenswürdigkeiten), Akzeptanz (Gesichtsherausforderungen) und Verantwortung (finden Sie unsere Verantwortlichkeiten). Kognition: Künstliche Intelligenz ist überall und entwickelt sich schnell Wir müssen uns sehr bewusst sein, wie schnell künstliche Intelligenz entwickelt und ausbreitet. Künstliche Intelligenzsysteme verbessern sich ständig und erzielen hervorragende Ergebnisse bei mathematischen und komplexen Denktests, und erst vor einem Jahr haben sie in diesen Tests kläglich gescheitert. Stellen Sie sich vor, KI zu lösen komplexe Codierungsprobleme oder wissenschaftliche Probleme auf Graduiertenebene-seit 2023-

Erste Schritte mit Meta Lama 3.2 - Analytics VidhyaApr 11, 2025 pm 12:04 PM

Metas Lama 3.2: Ein Sprung nach vorne in der multimodalen und mobilen KI Meta hat kürzlich Lama 3.2 vorgestellt, ein bedeutender Fortschritt in der KI mit leistungsstarken Sichtfunktionen und leichten Textmodellen, die für mobile Geräte optimiert sind. Aufbau auf dem Erfolg o

AV -Bytes: META ' S Lama 3.2, Googles Gemini 1.5 und mehrApr 11, 2025 pm 12:01 PM

Die KI -Landschaft dieser Woche: Ein Wirbelsturm von Fortschritten, ethischen Überlegungen und regulatorischen Debatten. Hauptakteure wie OpenAI, Google, Meta und Microsoft haben einen Strom von Updates veröffentlicht, von bahnbrechenden neuen Modellen bis hin zu entscheidenden Verschiebungen in LE

Die menschlichen Kosten für das Gespräch mit Maschinen: Kann sich ein Chatbot wirklich darum kümmern?Apr 11, 2025 pm 12:00 PM

Die beruhigende Illusion der Verbindung: Blühen wir in unseren Beziehungen zur KI wirklich auf? Diese Frage stellte den optimistischen Ton des "Fortschritts -Menschen mit AI) des MIT Media Lab in Frage. Während die Veranstaltung moderne EDG präsentierte

Verständnis der Scipy Library in PythonApr 11, 2025 am 11:57 AM

Einführung Stellen Sie sich vor, Sie sind ein Wissenschaftler oder Ingenieur, der sich mit komplexen Problemen befasst - Differentialgleichungen, Optimierungsherausforderungen oder Fourier -Analysen. Pythons Benutzerfreundlichkeit und Grafikfunktionen sind ansprechend, aber diese Aufgaben erfordern leistungsstarke Tools

3 Methoden zum Ausführen von LLAMA 3.2 - Analytics VidhyaApr 11, 2025 am 11:56 AM

METAs Lama 3.2: Ein multimodales KI -Kraftpaket Das neueste multimodale Modell von META, Lama 3.2, stellt einen erheblichen Fortschritt in der KI dar, das ein verbessertes Sprachverständnis, eine verbesserte Genauigkeit und die überlegenen Funktionen der Textgenerierung bietet. Seine Fähigkeit t

Automatisierung von Datenqualitätsprüfungen mit DagsterApr 11, 2025 am 11:44 AM

Datenqualitätssicherung: Automatisieren von Schecks mit Dagster und großen Erwartungen Die Aufrechterhaltung einer hohen Datenqualität ist für datengesteuerte Unternehmen von entscheidender Bedeutung. Wenn Datenvolumina und Quellen zunehmen, wird die manuelle Qualitätskontrolle ineffizient und anfällig für Fehler.

Haben Mainframes eine Rolle in der KI -Ära?Apr 11, 2025 am 11:42 AM

Mainframes: Die unbesungenen Helden der KI -Revolution Während die Server bei allgemeinen Anwendungen und mehreren Kunden übernommen werden, werden Mainframes für hochvolumige, missionskritische Aufgaben erstellt. Diese leistungsstarken Systeme sind häufig in Heavil gefunden

See all articles