Heim >Technologie-Peripheriegeräte >KI >HKU Byte schlägt ein neues Paradigma multimodaler großer Modelle vor, die zuerst die menschliche Wahrnehmung und dann die Wahrnehmung simulieren, um Objekte im Bild genau zu lokalisieren

HKU Byte schlägt ein neues Paradigma multimodaler großer Modelle vor, die zuerst die menschliche Wahrnehmung und dann die Wahrnehmung simulieren, um Objekte im Bild genau zu lokalisieren

PHPz
PHPzOriginal
2024-06-12 22:18:00737Durchsuche

Derzeit hat das Multimodal Large Model(MLLM)starke kognitive Verständnisfähigkeiten bei mehreren visuellen Aufgaben gezeigt.

Allerdings sind die meisten multimodalen großen Modelle auf das einseitige Bildverständnis beschränkt, was es schwierig macht, den verstandenen Inhalt wieder dem Bild zuzuordnen.

Zum Beispiel kann das Modell leicht erkennen, welche Objekte sich auf dem Bild befinden, es kann die Objekte auf dem Bild jedoch nicht genau identifizieren.

Der Mangel an Positionierungsmöglichkeiten schränkt die Anwendung multimodaler Großmodelle in nachgelagerten Bereichen wie Bildbearbeitung, autonomes Fahren und Robotersteuerung direkt ein.

Als Reaktion auf dieses Problem schlugen Forscher der Universität Hongkong und das Kommerzialisierungsteam von ByteDance ein neues Paradigma Groma vor –

verbessert die Wahrnehmungspositionierungsfähigkeiten multimodaler großer Modelle durch regionale Bildkodierung.

Nach der Integration der Positionierung kann Groma Textinhalte und Bildbereiche direkt verbinden und so die Interaktivität und Direktionalität von Gesprächen deutlich verbessern. Diese Methode verändert die ursprüngliche Bedeutung nicht, sondern passt den Ausdruck nur geringfügig an.

HKU Byte schlägt ein neues Paradigma multimodaler großer Modelle vor, die zuerst die menschliche Wahrnehmung und dann die Wahrnehmung simulieren, um Objekte im Bild genau zu lokalisieren
HKU Byte schlägt ein neues Paradigma multimodaler großer Modelle vor, die zuerst die menschliche Wahrnehmung und dann die Wahrnehmung simulieren, um Objekte im Bild genau zu lokalisieren

Kernidee

Wie man multimodalen großen Modellen die Fähigkeit verleiht, Objekte zu lokalisieren, also Textinhalte mit Bildbereichen zu verknüpfen, um „bedeutungsvolle Wörter“ zu erhalten, ist derzeit ein wichtiger Forschungsschwerpunkt. Das Ziel des multimodalen Großmodells besteht darin, bei gegebenem Bild und entsprechender Textbeschreibung den der Beschreibung entsprechenden Bereich im Bild finden zu können. Diese Aufgabe wird als Bild-Text-Ausrichtungsproblem bezeichnet. Um dieses Problem zu lösen, besteht ein gängiger Ansatz darin, das große Sprachmodell so zu optimieren, dass Objektkoordinaten direkt ausgegeben werden. Diese Methode weist jedoch viele Einschränkungen auf:

1.

Das auf Text selbst vorab trainierte große Sprachmodell ist nicht in der Lage, den Raum zu verstehen, und es ist schwierig, Objekte anhand einer nur kleinen Feinabstimmung genau zu lokalisieren Datenmenge.

2.

Positionierungsaufgaben stellen hohe Anforderungen an die Auflösung der Eingabebilder, aber eine Erhöhung der Auflösung wird den Berechnungsaufwand großer multimodaler Modelle erheblich erhöhen.

3.

Die Ausgabeform großer Sprachmodelle ist nicht für die Verarbeitung feiner Positionierungsaufgaben wie Segmentierung geeignet. Auf der Grundlage dieser Überlegungen schlug Groma vor, die Positionierung auf den Vision-Tokenizer des multimodalen großen Modells zu übertragen. Der Vision-Tokenizer wird potenzielle Objekte entdecken und lokalisieren und sie dann zur Erkennung an das große Sprachmodell übergeben.

HKU Byte schlägt ein neues Paradigma multimodaler großer Modelle vor, die zuerst die menschliche Wahrnehmung und dann die Wahrnehmung simulieren, um Objekte im Bild genau zu lokalisierenGleichzeitig nutzt dieses Design auch die räumliche Verständnisfähigkeit des Vision-Tokenizers selbst voll aus, ohne dass externe Expertenmodelle

(wie SAM)

zur Unterstützung der Positionierung erforderlich sind, wodurch die Redundanz von vermieden wird externe Modelle. Konkret führt Groma die Regionskodierung ein, um die Positionierungsfunktion basierend auf der globalen Bildkodierung zu realisieren. Wie in der folgenden Abbildung gezeigt, verwendet Groma zunächst den Region Proposer, um potenzielle Objekte zu lokalisieren, und verwendet dann den Region Encoder, um die lokalisierten Bereiche nacheinander zu lokalisieren. In Regionstoken kodiert.

Das große Sprachmodell kann die entsprechende Region basierend auf der semantischen Bedeutung des Regionstokens bestimmen und durch Einfügen des Regionstokens in die Ausgabe einen Hyperlink-ähnlichen Effekt erzielen, um eine visuell fundierte Konversation zu erreichen.

In ähnlicher Weise kann der vom Benutzer angegebene Bereich auch über den Region Encoder in das entsprechende Regions-Token codiert und in den Benutzerbefehl eingefügt werden, sodass sich das multimodale Modell auf den angegebenen Bereich konzentrieren und Richtungsantworten generieren kann.

HKU Byte schlägt ein neues Paradigma multimodaler großer Modelle vor, die zuerst die menschliche Wahrnehmung und dann die Wahrnehmung simulieren, um Objekte im Bild genau zu lokalisierenUm die Robustheit und Genauigkeit der Positionierung zu verbessern, verwendet Groma mehr als 8 Millionen Daten

(einschließlich SA1B)

, um den Region Proposer vorab zu trainieren. Daher umfassen die von ihm generierten Vorschläge nicht nur allgemeine Objekte, sondern auch Elemente wie die Komponenten der Objekte und den breiteren Hintergrund. Dank des getrennten Designs kann Groma außerdem hochauflösende Feature-Maps für Region Proposer/Encoder-Eingaben und niedrig aufgelöste Feature-Maps für große Modelleingaben verwenden, wodurch der Berechnungsaufwand reduziert wird, ohne dass die Positionierungsleistung beeinträchtigt wird.

Experimentelle Ergebnisse

Groma hat eine Leistung gezeigt, die MiniGPT-v2 und Qwen-VL bei herkömmlichen Erdungsbenchmarks übertrifft.

HKU Byte schlägt ein neues Paradigma multimodaler großer Modelle vor, die zuerst die menschliche Wahrnehmung und dann die Wahrnehmung simulieren, um Objekte im Bild genau zu lokalisierenGleichzeitig hat Groma seine Dialog- und Argumentationsfähigkeiten anhand des VQA-Benchmarks (LLaVA-COCO) überprüft, der für multimodale große Modelle üblich ist.

HKU Byte schlägt ein neues Paradigma multimodaler großer Modelle vor, die zuerst die menschliche Wahrnehmung und dann die Wahrnehmung simulieren, um Objekte im Bild genau zu lokalisieren

Im visuellen Vergleich zeigte Groma außerdem eine höhere Erinnerung und weniger Halluzinationen.

HKU Byte schlägt ein neues Paradigma multimodaler großer Modelle vor, die zuerst die menschliche Wahrnehmung und dann die Wahrnehmung simulieren, um Objekte im Bild genau zu lokalisieren

Darüber hinaus unterstützt Groma auch Empfehlungsdialoge und fundierte Chats, die Dialogfunktionen und Positionierungsfunktionen integrieren.

HKU Byte schlägt ein neues Paradigma multimodaler großer Modelle vor, die zuerst die menschliche Wahrnehmung und dann die Wahrnehmung simulieren, um Objekte im Bild genau zu lokalisieren

HKU Byte schlägt ein neues Paradigma multimodaler großer Modelle vor, die zuerst die menschliche Wahrnehmung und dann die Wahrnehmung simulieren, um Objekte im Bild genau zu lokalisieren

Dank der leistungsstarken kognitiven Denkfähigkeiten großer Sprachmodelle leisten multimodale große Modelle hervorragende Leistungen bei visuellen Verständnisaufgaben.

Einige herkömmliche Sehaufgaben wie Erkennungssegmentierung, Tiefenschätzung usw. basieren jedoch mehr auf visuellen Wahrnehmungsfähigkeiten, und genau das fehlt großen Sprachmodellen.

Groma bietet eine neue Lösung für dieses Problem, die darin besteht, „Wahrnehmung und Kognition“ zu entkoppeln, wobei der Vision-Tokenizer für die Wahrnehmung und das große Sprachmodell für die Kognition verantwortlich sind. Diese Form der Wahrnehmung zuerst und dann der Erkenntnis entspricht nicht nur besser den visuellen Prozessen des Menschen, sondern vermeidet auch den Rechenaufwand für das Umschulen großer Sprachmodelle.

Am 15. Mai kündigte ByteDance gerade das selbst entwickelte Doubao-Großmodell an, das multimodale Funktionen bietet, über 50 Unternehmen wie Doubao APP, Kouzi und Jimeng im Downstream unterstützt und über die Volcano-Engine für Unternehmenskunden offen ist Helfen Sie Unternehmen, ihre Effizienz zu verbessern und intelligente Innovationen zu beschleunigen. Derzeit ist Doubao APP die AIGC-Anwendung mit der größten Benutzerzahl auf dem chinesischen Markt. ByteDance erhöht weiterhin seine Investitionen in Top-Talente und Spitzentechnologien und beteiligt sich an den größten technischen Herausforderungen und Schwierigkeiten der Branche.

Projektwebsite:


https://www.php.cn/link/07a81d45ff030b63fe2a0f375b779f09Papierlink:

https://www.php.cn/link/ b82b80956cfbe75101bd223fe6319decOffener Quellcode:

https://www.php.cn/link/b984bddf9e7c8fb09854e208c0284764

Das obige ist der detaillierte Inhalt vonHKU Byte schlägt ein neues Paradigma multimodaler großer Modelle vor, die zuerst die menschliche Wahrnehmung und dann die Wahrnehmung simulieren, um Objekte im Bild genau zu lokalisieren. Für weitere Informationen folgen Sie bitte anderen verwandten Artikeln auf der PHP chinesischen Website!

Stellungnahme:
Der Inhalt dieses Artikels wird freiwillig von Internetnutzern beigesteuert und das Urheberrecht liegt beim ursprünglichen Autor. Diese Website übernimmt keine entsprechende rechtliche Verantwortung. Wenn Sie Inhalte finden, bei denen der Verdacht eines Plagiats oder einer Rechtsverletzung besteht, wenden Sie sich bitte an admin@php.cn