Um ein hochpräzises multimodales Verständnis auf regionaler Ebene zu erreichen, schlägt dieser Artikel ein dynamisches Auflösungsschema zur Simulation des menschlichen visuellen kognitiven Systems vor.
Der Autor dieses Artikels stammt vom LAMP-Labor der Universität der Chinesischen Akademie der Wissenschaften. Der Erstautor Zhao Yuzhong ist Doktorand der Universität der Chinesischen Akademie der Wissenschaften im Jahr 2023 und der Co-Autor Liu Feng ist im Jahr 2020 direkter Doktorand der Universität der Chinesischen Akademie der Wissenschaften. Ihre Hauptforschungsrichtungen sind visuelle Sprachmodelle und visuelle Objektwahrnehmung.
DynRefer verbessert die multimodalen Erkennungsfähigkeiten auf regionaler Ebene erheblich, indem es den visuellen kognitiven Prozess des Menschen simuliert. Durch die Einführung des dynamischen Auflösungsmechanismus des menschlichen Auges kann DynRefer gleichzeitig die Aufgaben der Regionserkennung, der Erkennung von Regionsattributen und der Beschriftung auf Regionsebene mit einem einzigen Modell erledigen und bei allen oben genannten Aufgaben SOTA-Leistung erzielen. Unter ihnen wurden 115,7 CIDEr bei der Untertitelungsaufgabe auf Regionsebene des RefCOCOg-Datensatzes erreicht, was deutlich höher ist als bei den CVPR 2024-Methoden wie RegionGPT, GlaMM, Osprey, Alpha-CLIP usw.
- Papiertitel: DynRefer: Delving into Region-level Multi-modality Tasks via Dynamic Resolution
- Papierlink: https://arxiv.org/abs/2405.16071
- Papiercode: https ://github.com/callsys/DynRefer
Die multimodale Aufgabe auf Regionsebene dient der Konvertierung bestimmter Bildregionen in Sprachbeschreibungen, die den menschlichen Vorlieben entsprechen. Der Mensch verfügt über eine auflösungsadaptive Fähigkeit, wenn er multimodale Aufgaben auf regionaler Ebene erledigt, d. h. der Interessenbereich hat eine hohe Auflösung und der Nichtaufmerksamkeitsbereich eine niedrige Auflösung. Aktuelle multimodale große Sprachmodelle auf regionaler Ebene verwenden jedoch häufig ein Codierungsschema mit fester Auflösung, dh das gesamte Bild wird codiert und anschließend werden regionale Merkmale mithilfe von RoI Align extrahiert. Diesem Ansatz fehlt die Fähigkeit zur Auflösungsanpassung im visuellen kognitiven System des Menschen und er weist eine geringe Kodierungseffizienz und Fähigkeit für Bereiche von Interesse auf. Um ein hochpräzises multimodales Verständnis auf regionaler Ebene zu erreichen, schlagen wir ein dynamisches Auflösungsschema zur Simulation des menschlichen visuellen kognitiven Systems vor, wie in der folgenden Abbildung dargestellt. 区 Abbildung 1: Vergleich traditioneller regionaler multimodaler Methoden (links) und der Dynrefer-Methode (rechts).
1. Bild mit dynamischer Auflösung simulieren (Aufbau mit mehreren Ansichten). Da das gängige vorab trainierte visuelle Sprachmodell (CLIP) nur Eingaben mit einheitlicher Auflösung empfangen kann, simulieren wir ein Bild mit dynamischer Auflösung, indem wir mehrere Ansichten mit einheitlicher Auflösung erstellen. Das Bild hat im Referenzbereich eine hohe Auflösung und im Nicht-Referenzbereich eine niedrige Auflösung. Der spezifische Prozess ist in Abbildung 2 dargestellt. Das Originalbild x wird zugeschnitten und in mehreren Kandidatenansichten skaliert. Der Zuschneidebereich wird als
berechnet, wobei . Hier repräsentiert den Begrenzungsrahmen des Referenzbereichs, repräsentiert die Größe des gesamten Bildes und t repräsentiert den Interpolationskoeffizienten. Während des Trainings wählen wir zufällig n Ansichten aus Kandidatenansichten aus, um Bilder zu simulieren, die durch Blicke und schnelle Augenbewegungen erzeugt werden. Diese n Ansichten entsprechen dem Interpolationskoeffizienten t, der ist. Wir behalten die Ansicht fest bei, die nur den Referenzbereich enthält (d. h. ). Es wurde experimentell nachgewiesen, dass diese Ansicht dazu beiträgt, regionale Details zu bewahren, was für alle regionalen multimodalen Aufgaben von entscheidender Bedeutung ist. oben) und Inferenz (unten). 2. Stochastische Multi-View-Einbettung. Der spezifische Prozess ist in Abbildung 3 dargestellt. Die abgetasteten n Ansichten werden über eingefrorenes CLIP in räumliche Merkmale codiert und dann vom RoI-Align-Modul verarbeitet, um Regionseinbettungen zu erhalten, d. h. . Dies ist auf der linken Seite von Abbildung 3 dargestellt. Diese Regionseinbettungen sind aufgrund von räumlichen Fehlern, die durch Zuschneiden, Größenänderung und RoI-Ausrichtung entstehen, nicht räumlich ausgerichtet. Inspiriert durch die verformbare Faltungsoperation schlagen wir ein Ausrichtungsmodul vor, um die Verzerrung zu reduzieren, indem an ausgerichtet wird, wobei die Regionseinbettung der Ansichtskodierung ist, die nur die Referenzregion enthält. Für jede Region, die einbettet, wird sie zunächst mit verkettet und dann wird eine 2D-Offset-Karte über eine Faltungsschicht berechnet. Die räumlichen Merkmale von werden dann basierend auf dem 2D-Offset erneut abgetastet. Schließlich werden die ausgerichteten Regionseinbettungen entlang der Kanaldimension verkettet und durch lineare Schichten verschmolzen. Die Ausgabe wird durch ein visuelles Resampling-Modul, d. h. Q-Former, weiter komprimiert, wodurch eine regionale Darstellung des Referenzbereichs des Originalbilds x ( in Abbildung 3) extrahiert wird.
Abbildung 3: DynRefer-Netzwerkstruktur 3. Vision-Sprache-Ausrichtung. Die vom stochastischen Multi-View-Einbettungsmodul berechnete Regionsdarstellung wird von drei Decodern dekodiert, wie in Abbildung 3 (rechts) dargestellt, und jeweils von drei multimodalen Aufgaben überwacht: i ) Bildregionsbezeichnung Generation. Wir verwenden einen einfachen, abfragebasierten Erkennungsdecoder für die Generierung von Regionsbezeichnungen. Der Decoder ist in Abbildung 3 (rechts) dargestellt. Der Tagging-Prozess wird abgeschlossen, indem die Konfidenz eines vordefinierten Tags berechnet wird, wobei das Tag als Abfrage, als Schlüssel und Wert verwendet wird. Wir analysieren Etiketten aus Ground-Truth-Untertiteln, um den Erkennungsdecoder zu überwachen. ii) Kontrastives Lernen von Region und Text. Ähnlich wie der Region-Tag-Decoder ist der Decoder als abfragebasierter Erkennungsdecoder definiert. Der Decoder berechnet Ähnlichkeitswerte zwischen Untertiteln und Regionsmerkmalen und überwacht dabei den SigLIP-Verlust. iii) Sprachmodellierung. Wir verwenden ein vorab trainiertes großes Sprachmodell , um die regionale Darstellung in eine Sprachbeschreibung umzuwandeln.
Abbildung 4: Leistung des Dual-View-DynRefer-Modells (n=2) bei multimodalen Aufgaben auf Regionsebene. Unter verschiedenen Interpolationskoeffizienten t, . Ansicht eins ist festgelegt (), Ansicht zwei ist zufällig ausgewählt oder festgelegt. 4. Während des Inferenzprozesses führt das trainierte DynRefer-Modell multimodale Aufgaben an Bildern mit dynamischer Auflösung aus. Durch Anpassen der Interpolationskoeffizienten der abgetasteten n Ansichten können wir eine regionale Darstellung mit dynamischen Auflösungseigenschaften erhalten. Um die Eigenschaften bei unterschiedlichen dynamischen Auflösungen zu bewerten, haben wir ein Dual-View-DynRefer-Modell (n=2) trainiert und es anhand von vier multimodalen Aufgaben ausgewertet. Wie aus der Kurve in Abbildung 4 ersichtlich ist, erzielt die Attributerkennung bessere Ergebnisse für Ansichten ohne Kontextinformationen (). Dies lässt sich dadurch erklären, dass für solche Aufgaben häufig detaillierte regionale Informationen erforderlich sind. Für Untertitelungsaufgaben auf Regionsebene und dichte Untertitel ist eine kontextreiche Ansicht () erforderlich, um die Referenzregion vollständig zu verstehen. Es ist wichtig zu beachten, dass Ansichten mit zu viel Kontext () die Leistung bei allen Aufgaben beeinträchtigen, weil sie zu viele Informationen einbringen, die für die Region nicht relevant sind. Wenn der Aufgabentyp bekannt ist, können wir anhand der Aufgabenmerkmale geeignete Ansichten testen. Wenn der Aufgabentyp unbekannt ist, erstellen wir zunächst eine Reihe von Kandidatenansichten unter verschiedenen Interpolationskoeffizienten t, . Aus der Kandidatenmenge werden n Ansichten über einen Greedy-Suchalgorithmus abgetastet. Die Zielfunktion der Suche ist definiert als: wobei den Interpolationskoeffizienten der i-ten Ansicht darstellt, die i-te Ansicht darstellt, pHASH (・) die Wahrnehmungsbild-Hash-Funktion darstellt und das XOR darstellt Betrieb. Um die Informationen von Ansichten aus einer globalen Perspektive zu vergleichen, verwenden wir die Funktion „pHASH (・)“, um die Ansichten aus dem räumlichen Bereich in den Frequenzbereich umzuwandeln und sie anschließend in Hash-Codes zu kodieren. Für diesen Artikel reduzieren wir die Gewichtung kontextreicher Ansichten, um zu vermeiden, dass zu viele redundante Informationen eingefügt werden.
Untertitel auf Regionsebene
Bei der Aufgabe der regionalen Untertitelgenerierung verwendet DynRefer ein kleineres Modell (4.2B vs. 7B) sowohl für RefCOCOg- als auch für VG-Datensätze Mit den METEOR- und CIDEr-Indikatoren übertrifft es viele Methoden in CVPR 2024 deutlich, wie RegionGPT, GlaMM, Alpha-CLIP und Osprey usw., was den enormen Leistungsvorteil von DynRefer demonstriert.
Bei der Aufgabe der dichten Untertitelgenerierung am VG1.2-Datensatz verbesserte DynRefer den mAP im Vergleich zur vorherigen SOTA-Methode GRiT um 7,1 %. Offene Vokabelattributerkennung
In der regionalen Attributerkennungsaufgabe erreichte DynRefer auch SOTA-Leistung. Regionserkennung im offenen Wortschatz
In der Regionserkennungsaufgabe verbessert DynRefer 15 % mAP und 8,8 % Genauigkeit im Vergleich zu RegionGPT von CVPR 24 und ist 15,7 % mAP höher als ASM von ICLR 24.
- Zeile 1-6: Zufällige dynamische Mehrfachansicht ist besser als feste Ansicht.
- Zeile 6-10: Die Auswahl von Ansichten durch Maximierung der Informationen ist besser als die zufällige Auswahl von Ansichten.
- Zeile 10-13: Durch Multitasking-Training können bessere regionale Darstellungen erlernt werden.
Die folgenden Bilder zeigen die Inferenzergebnisse von DynRefer. DynRefer kann ein Modell verwenden, um gleichzeitig regionale Untertitel, Tags, Attribute und Kategorien auszugeben.
Das obige ist der detaillierte Inhalt vonDynRefer übertrifft die CVPR 2024-Methode und erreicht mehrere SOTAs bei multimodalen Erkennungsaufgaben auf regionaler Ebene. Für weitere Informationen folgen Sie bitte anderen verwandten Artikeln auf der PHP chinesischen Website!
Stellungnahme:Der Inhalt dieses Artikels wird freiwillig von Internetnutzern beigesteuert und das Urheberrecht liegt beim ursprünglichen Autor. Diese Website übernimmt keine entsprechende rechtliche Verantwortung. Wenn Sie Inhalte finden, bei denen der Verdacht eines Plagiats oder einer Rechtsverletzung besteht, wenden Sie sich bitte an admin@php.cn