PixelLM, ein multimodales Byte-Großmodell, das das Denken auf Pixelebene ohne SA-Abhängigkeit effizient implementiert-KI-php.cn

Heim

Technologie-Peripheriegeräte

PixelLM, ein multimodales Byte-Großmodell, das das Denken auf Pixelebene ohne SA-Abhängigkeit effizient implementiert

WBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWB

Jan 10, 2024 pm 09:46 PM

性能模型pixellm

Multimodale große Modelle explodieren. Sind Sie bereit für praktische Anwendungen in feinkörnigen Aufgaben wie Bildbearbeitung, autonomes Fahren und Robotik?

Derzeit beschränken sich die Fähigkeiten der meisten Modelle noch auf die Generierung von Textbeschreibungen des Gesamtbildes oder bestimmter Bereiche, und ihre Fähigkeiten zum Verständnis auf Pixelebene (z. B. Objektsegmentierung) sind relativ begrenzt.

Als Reaktion auf dieses Problem haben einige Arbeiten begonnen, um die Verwendung multimodaler großer Modelle zur Verarbeitung von Benutzersegmentierungsanweisungen zu untersuchen (z. B. „Bitte segmentieren Sie die an Vitamin C reichen Früchte im Bild“).

Allerdings haben die Methoden auf dem Markt zwei Hauptnachteile:

1) Unfähigkeit, Aufgaben mit mehreren Zielobjekten zu bewältigen, was in realen Szenarien unverzichtbar ist;

2) Sich auf Tools wie SAM verlassen Dank des trainierten Bildsegmentierungsmodells reicht der für eine Vorwärtsausbreitung von SAM erforderliche Rechenaufwand aus, damit Llama-7B mehr als 500 Token generieren kann.

Um dieses Problem zu lösen, hat sich das intelligente Kreationsteam von ByteDance mit Forschern der Beijing Jiaotong University und der University of Science and Technology Beijing zusammengetan, um PixelLM vorzuschlagen, das erste groß angelegte effiziente Inferenzmodell auf Pixelebene, das nicht auf SAM angewiesen ist.

Bevor wir es im Detail vorstellen, lassen Sie uns die tatsächlichen Segmentierungseffekte mehrerer Gruppen von PixelLM erleben:

Im Vergleich zu früheren Arbeiten sind die Vorteile von PixelLM:

Es kann eine beliebige Anzahl offener Domänenziele und verschiedene komplexe Überlegungen gekonnt verarbeiten Aufgaben aufteilen.
Vermeidung zusätzlicher und kostspieliger Segmentierungsmodelle, Verbesserung der Effizienz und Migrationsmöglichkeiten zu verschiedenen Anwendungen.

Um das Modelltraining und die Bewertung in diesem Forschungsbereich zu unterstützen, hat das Forschungsteam außerdem einen MUSE-Datensatz für Segmentierungsszenarien mit mehreren Zielen erstellt, der auf dem LVIS-Datensatz und GPT-4V basiert. Er enthält 200.000 Frage-Antwort-Paare, die mehr als 900.000 Instanzsegmentierungsmasken umfassen.

PixelLM, ein multimodales Byte-Großmodell, das das Denken auf Pixelebene ohne SA-Abhängigkeit effizient implementiert

Wie wurde diese Forschung durchgeführt, um die oben genannten Effekte zu erzielen?

Das Prinzip hinter

PixelLM, ein multimodales Byte-Großmodell, das das Denken auf Pixelebene ohne SA-Abhängigkeit effizient implementiert Pictures

Wie im Rahmendiagramm im Artikel gezeigt, ist die PixelLM-Architektur sehr einfach und besteht aus vier Hauptteilen:

Pre- trainierter CLIP-ViT-Vision-Encoder
Großes Sprachmodell
Leichter Pixeldecoder
Segmentcodetabelle Seg-Codebuch

Seg-Codebuch enthält lernbare Token, die zum Codieren von Zielinformationen in verschiedenen Maßstäben von CLIP-ViT verwendet werden. Anschließend generiert der Pixeldecoder Objektsegmentierungsergebnisse basierend auf diesen Token und den Bildfunktionen von CLIP-ViT. Dank dieses Designs kann PixelLM qualitativ hochwertige Segmentierungsergebnisse ohne ein externes Segmentierungsmodell generieren, was die Modelleffizienz erheblich verbessert.

Laut der Beschreibung des Forschers können die Token im Seg-Codebuch in L Gruppen unterteilt werden, jede Gruppe enthält N Token und jede Gruppe entspricht einer Skala aus den visuellen Funktionen von CLIP-ViT.

Für das Eingabebild extrahiert PixelLM Merkmale im L-Maßstab aus den vom visuellen CLIP-ViT-Encoder erzeugten Bildmerkmalen. Die letzte Ebene deckt die globalen Bildinformationen ab und wird von LLM verwendet, um den Bildinhalt zu verstehen.

Die Token des Seg-Codebuchs werden zusammen mit den Textanweisungen und der letzten Ebene der Bildfunktionen in das LLM eingegeben, um eine Ausgabe in Form einer Autoregression zu erzeugen. Die Ausgabe umfasst auch die von LLM verarbeiteten Seg-Codebuch-Token, die zusammen mit den CLIP-ViT-Funktionen im L-Maßstab in den Pixeldecoder eingegeben werden, um das endgültige Segmentierungsergebnis zu erzeugen.

PixelLM, ein multimodales Byte-Großmodell, das das Denken auf Pixelebene ohne SA-Abhängigkeit effizient implementiert Bilder

Warum müssen wir also jede Gruppe so einstellen, dass sie N Token enthält? Die Forscher erklärten in Verbindung mit der folgenden Abbildung:

In Szenarien mit mehreren Zielen oder wenn die in den Zielen enthaltene Semantik sehr komplex ist, kann LLM zwar eine detaillierte Textantwort bereitstellen, die Verwendung nur eines einzigen Tokens kann jedoch möglicherweise nicht die gesamte Zielsemantik vollständig erfassen Inhalt.

Um die Fähigkeit des Modells in komplexen Argumentationsszenarien zu verbessern, führten die Forscher mehrere Token innerhalb jeder Skalengruppe ein und führten eine lineare Fusionsoperation eines Tokens durch. Bevor der Token an den Decoder übergeben wird, wird eine lineare Projektionsschicht verwendet, um die Token innerhalb jeder Gruppe zusammenzuführen.

Das Bild unten zeigt den Effekt, wenn in jeder Gruppe mehrere Token vorhanden sind. Die Aufmerksamkeitskarte zeigt, wie jedes Token aussieht, nachdem es vom Decoder verarbeitet wurde. Diese Visualisierung zeigt, dass mehrere Token einzigartige und komplementäre Informationen liefern, was zu einer effektiveren Segmentierungsausgabe führt.

PixelLM, ein multimodales Byte-Großmodell, das das Denken auf Pixelebene ohne SA-Abhängigkeit effizient implementiert Bilder

Um die Fähigkeit des Modells zur Unterscheidung mehrerer Ziele zu verbessern, hat PixelLM außerdem einen zusätzlichen Zielverfeinerungsverlust entwickelt.

MUSE-Datensatz

Obwohl die oben genannten Lösungen vorgeschlagen wurden, benötigt das Modell dennoch geeignete Trainingsdaten, um die Fähigkeiten des Modells vollständig auszunutzen. Bei der Durchsicht derzeit verfügbarer öffentlicher Datensätze stellen wir fest, dass die vorhandenen Daten die folgenden wesentlichen Einschränkungen aufweisen:

1) Unzureichende Beschreibung von Objektdetails
2) Fehlen von Frage-Antwort-Paaren mit komplexer Begründung und unterschiedlichen Zielzahlen.

Um diese Probleme zu lösen, nutzte das Forschungsteam GPT-4V zum Aufbau einer automatisierten Datenannotationspipeline und generierte so den MUSE-Datensatz. Die folgende Abbildung zeigt ein Beispiel der Eingabeaufforderungen, die beim Generieren von MUSE verwendet werden, und der generierten Daten.

PixelLM, ein multimodales Byte-Großmodell, das das Denken auf Pixelebene ohne SA-Abhängigkeit effizient implementiert Bilder

In MUSE stammen alle Instanzmasken aus dem LVIS-Datensatz und zusätzlich werden detaillierte Textbeschreibungen hinzugefügt, die auf Basis des Bildinhalts generiert werden. MUSE enthält 246.000 Frage-Antwort-Paare, und jedes Frage-Antwort-Paar umfasst durchschnittlich 3,7 Zielobjekte. Darüber hinaus führte das Forschungsteam eine umfassende statistische Analyse des Datensatzes durch:

Kategoriestatistik: Es gibt mehr als 1000 Kategorien in MUSE aus dem ursprünglichen LVIS-Datensatz, und 900.000 Instanzen mit eindeutigen Beschreibungen basierend auf Frage-Antwort-Paaren variieren je nach Kontext. Abbildung (a) zeigt die Anzahl der Instanzen jeder Kategorie über alle Frage-Antwort-Paare hinweg.

Statistik der Token-Anzahl: Abbildung (b) zeigt die Verteilung der Anzahl der in den Beispielen beschriebenen Token, von denen einige mehr als 100 Token enthalten. Diese Beschreibungen beschränken sich nicht auf einfache Kategorienamen, sondern werden durch einen GPT-4V-basierten Datengenerierungsprozess mit detaillierten Informationen zu jeder Instanz angereichert, einschließlich Aussehen, Eigenschaften und Beziehungen zu anderen Objekten. Die Tiefe und Vielfalt der Informationen im Datensatz verbessert die Generalisierungsfähigkeit des trainierten Modells und ermöglicht es ihm, offene Domänenprobleme effektiv zu lösen.

Zielanzahlstatistik: Abbildung (c) zeigt die Statistik der Anzahl der Ziele für jedes Frage-Antwort-Paar. Die durchschnittliche Anzahl der Ziele beträgt 3,7 und die maximale Anzahl der Ziele kann 34 erreichen. Diese Zahl kann die meisten Zielinferenzszenarien für ein einzelnes Bild abdecken.

Algorithmusbewertung

Das Forschungsteam bewertete die Leistung von PixelLM anhand von drei Benchmarks, darunter dem MUSE-Benchmark, dem Referenzsegmentierungs-Benchmark und dem Multi-Referring-Segmentierungs-Benchmark. Im Multi-Referring-Segmentierungs-Benchmark verlangt das Forschungsteam, dass das Modell vorhanden ist Ein Problem: Segmentieren Sie kontinuierlich mehrere in jedem Bild enthaltene Objekte im Referenzsegmentierungs-Benchmark.

Da PixelLM das erste Modell ist, das komplexe Pixel-Argumentation-Aufgaben mit mehreren Zielen bewältigen kann, hat das Forschungsteam gleichzeitig vier Basislinien zur Durchführung einer vergleichenden Analyse der Modelle festgelegt.

Drei der Basislinien basieren auf LISA, der relevantesten Arbeit auf PixelLM, darunter:

1) Original-LISA;

2) LISA_rec: Geben Sie zuerst die Frage in LLAVA-13B ein, um die Textantwort des Ziels zu erhalten, und dann Verwenden Sie LISA, um den Text zu segmentieren ;

3) LISA_aug: Fügen Sie MUSE direkt zu den Trainingsdaten von LISA hinzu.

4) Das andere ist SEEM, ein allgemeines Segmentierungsmodell, das kein LLM verwendet.

PixelLM, ein multimodales Byte-Großmodell, das das Denken auf Pixelebene ohne SA-Abhängigkeit effizient implementiert Bilder

Bei den meisten Indikatoren der drei Benchmarks ist die Leistung von PixelLM besser als bei anderen Methoden, und da PixelLM nicht auf SAM angewiesen ist, sind seine TFLOPs weitaus niedriger als bei Modellen gleicher Größe.

Interessierte Freunde können zuerst aufpassen und warten, bis der Code Open Source ist~

Referenzlink:
[1]https://www.php.cn/link/9271858951e6fe9504d1f05ae8576001
[2]https:/ /www.php.cn/link/f1686b4badcf28d33ed632036c7ab0b8

Das obige ist der detaillierte Inhalt vonPixelLM, ein multimodales Byte-Großmodell, das das Denken auf Pixelebene ohne SA-Abhängigkeit effizient implementiert. Für weitere Informationen folgen Sie bitte anderen verwandten Artikeln auf der PHP chinesischen Website!

Stellungnahme

Dieser Artikel ist reproduziert unter:51CTO.COM. Bei Verstößen wenden Sie sich bitte an admin@php.cn löschen

Verwandter Artikel

Gemma Scope: Das Mikroskop von Google, um in den Denkprozess von AI zu blickenApr 17, 2025 am 11:55 AM

Erforschen der inneren Funktionsweise von Sprachmodellen mit Gemma -Umfang Das Verständnis der Komplexität von KI -Sprachmodellen ist eine bedeutende Herausforderung. Die Veröffentlichung von Gemma Scope durch Google, ein umfassendes Toolkit, bietet Forschern eine leistungsstarke Möglichkeit, sich einzuschütteln

Wer ist ein Business Intelligence Analyst und wie kann man einer werden?Apr 17, 2025 am 11:44 AM

Erschließung des Geschäftserfolgs: Ein Leitfaden zum Analyst für Business Intelligence -Analyst Stellen Sie sich vor, Rohdaten verwandeln in umsetzbare Erkenntnisse, die das organisatorische Wachstum vorantreiben. Dies ist die Macht eines Business Intelligence -Analysts (BI) - eine entscheidende Rolle in Gu

Wie füge ich eine Spalte in SQL hinzu? - Analytics VidhyaApr 17, 2025 am 11:43 AM

SQL -Änderungstabellanweisung: Dynamisches Hinzufügen von Spalten zu Ihrer Datenbank Im Datenmanagement ist die Anpassungsfähigkeit von SQL von entscheidender Bedeutung. Müssen Sie Ihre Datenbankstruktur im laufenden Flug anpassen? Die Änderungstabelleerklärung ist Ihre Lösung. Diese Anleitung Details Hinzufügen von Colu

Business Analyst vs. Data AnalystApr 17, 2025 am 11:38 AM

Einführung Stellen Sie sich ein lebhaftes Büro vor, in dem zwei Fachleute an einem kritischen Projekt zusammenarbeiten. Der Business Analyst konzentriert sich auf die Ziele des Unternehmens, die Ermittlung von Verbesserungsbereichen und die strategische Übereinstimmung mit Markttrends. Simu

Was sind Count und Counta in Excel? - Analytics VidhyaApr 17, 2025 am 11:34 AM

Excel -Datenzählung und -analyse: Detaillierte Erläuterung von Count- und Counta -Funktionen Eine genaue Datenzählung und -analyse sind in Excel kritisch, insbesondere bei der Arbeit mit großen Datensätzen. Excel bietet eine Vielzahl von Funktionen, um dies zu erreichen. Die Funktionen von Count- und Counta sind wichtige Instrumente zum Zählen der Anzahl der Zellen unter verschiedenen Bedingungen. Obwohl beide Funktionen zum Zählen von Zellen verwendet werden, sind ihre Designziele auf verschiedene Datentypen ausgerichtet. Lassen Sie uns mit den spezifischen Details der Count- und Counta -Funktionen ausgrenzen, ihre einzigartigen Merkmale und Unterschiede hervorheben und lernen, wie Sie sie in der Datenanalyse anwenden. Überblick über die wichtigsten Punkte Graf und Cou verstehen

Chrome ist hier mit KI: Tag zu erleben, täglich etwas Neues !!Apr 17, 2025 am 11:29 AM

Die KI -Revolution von Google Chrome: Eine personalisierte und effiziente Browsing -Erfahrung Künstliche Intelligenz (KI) verändert schnell unser tägliches Leben, und Google Chrome leitet die Anklage in der Web -Browsing -Arena. Dieser Artikel untersucht die Exciti

Die menschliche Seite von Ai: Wohlbefinden und VierfacheApr 17, 2025 am 11:28 AM

Impacting Impact: Das vierfache Endergebnis Zu lange wurde das Gespräch von einer engen Sicht auf die Auswirkungen der KI dominiert, die sich hauptsächlich auf das Gewinn des Gewinns konzentrierte. Ein ganzheitlicherer Ansatz erkennt jedoch die Vernetzung von BU an

5 verwendende Anwendungsfälle für Quantum Computing, über die Sie wissen solltenApr 17, 2025 am 11:24 AM

Die Dinge bewegen sich stetig zu diesem Punkt. Die Investition, die in Quantendienstleister und Startups einfließt, zeigt, dass die Industrie ihre Bedeutung versteht. Und eine wachsende Anzahl realer Anwendungsfälle entsteht, um seinen Wert zu demonstrieren

See all articles