Heim >Hardware-Tutorial >Hardware-Rezension >4K-HD-Bilder ganz einfach verstehen! Dieses große multimodale Modell analysiert automatisch den Inhalt von Webplakaten und ist damit für Mitarbeiter sehr praktisch.
Ein großes Modell, das den Inhalt von PDFs, Webseiten, Postern und Excel-Diagrammen automatisch analysieren kann, ist für Teilzeitkräfte nicht besonders praktisch.
Das vom Shanghai AI Lab, der Chinese University of Hong Kong und anderen Forschungseinrichtungen vorgeschlagene Modell InternLM-XComposer2-4KHD (abgekürzt IXC2-4KHD) macht dies Wirklichkeit.
Im Vergleich zu anderen multimodalen Großmodellen mit einer Auflösungsgrenze von nicht mehr als 1500 x 1500 erhöht diese Arbeit das maximale Eingabebild des multimodalen Großmodells auf eine Auflösung von mehr als 4K (3840 x 1600) und unterstützt alle Längen- und Breitenverhältnis und 336 Pixel ~ 4K dynamische Auflösungsänderungen.
Drei Tage nach seiner Veröffentlichung stand das Modell an der Spitze der Beliebtheitsliste der visuellen Frage-und-Antwort-Modelle „Hugging Face“.
Einfaches Verständnis von 4K-Bildern
Werfen wir zunächst einen Blick auf den Effekt ~
Der Forscher hat einen Screenshot der Homepage des Artikels eingegeben (ShareGPT4V: Improving Large Multi-Modal Models with Better Captions) (Auflösung 2550 x 3300). ) und fragte, welches Papier Das Modell hat die höchste Leistung auf MMBench.
Es ist zu beachten, dass diese Informationen nicht im Textteil des Eingabe-Screenshots erwähnt werden, sondern nur in einem recht komplizierten Radardiagramm erscheinen. Angesichts einer solch kniffligen Frage hat IXC2-4KHD die Informationen in der Radarkarte erfolgreich verstanden und die Frage richtig beantwortet.
Angesichts einer Bildeingabe mit extremerer Auflösung (816 x 5133) erkennt IXC2-4KHD leicht, dass das Bild aus 7 Teilen besteht, und erklärt den in jedem Teil enthaltenen Textinformationsinhalt genau.
Anschließend testeten die Forscher die Fähigkeiten von IXC2-4KHD auch umfassend an 16 multimodalen Bewertungsindikatoren für große Modelle, von denen sich 5 Bewertungen (DocVQA, ChartQA, InfographicVQA, TextVQA, OCRBench) auf die hohe Auflösung von konzentrierten die Bildverständnisfähigkeit des Modells.
Mit nur 7B-Parametern erzielte IXC2-4KHD in 10 der Bewertungen Ergebnisse, die mit GPT4V und Gemini Pro vergleichbar sind oder diese sogar übertreffen, was zeigt, dass es sich nicht auf das Verständnis hochauflösender Bilder beschränkt, sondern vielseitig für verschiedene Aufgaben und Szenarien geeignet ist .
△Die Leistung von IXC2-4KHD ist mit nur 7B-Parametern vergleichbar mit GPT-4V und Gemini-Pro. Wie erreicht man eine dynamische 4K-Auflösung?
Um das Ziel einer dynamischen 4K-Auflösung zu erreichen, umfasst IXC2-4KHD drei Hauptdesigns:
(1) Dynamisches Auflösungstraining:
△Bildverarbeitungsstrategie mit 4K-Auflösung
In IXC2-4KHD Im Framework , wird das Eingabebild zufällig auf eine Zwischengröße zwischen dem Eingabebereich und dem maximalen Bereich (nicht mehr als 55 x 336 x 336, entspricht einer Auflösung von 3840 x 1617) vergrößert, während das Seitenverhältnis beibehalten wird.
Anschließend wird das Bild automatisch in mehrere 336x336-Bereiche geschnitten, um jeweils visuelle Merkmale zu extrahieren. Diese Trainingsstrategie mit dynamischer Auflösung ermöglicht es dem Modell, sich an visuelle Eingaben jeder Auflösung anzupassen und gleichzeitig das Problem unzureichender hochauflösender Trainingsdaten auszugleichen.
Experimente zeigen, dass das Modell mit zunehmender Obergrenze der dynamischen Auflösung eine stabile Leistungsverbesserung bei hochauflösenden Bildverständnisaufgaben (InfographicVQA, DocVQA, TextVQA) erreicht und bei 4K-Auflösung immer noch nicht die Obergrenze erreicht, was Potenzial für weitere Verbesserungen zeigt Erweiterung bei höheren Auflösungen.
(2) Informationen zum Kachellayout hinzufügen:
Damit sich das Modell an sich ändernde dynamische Auflösungen anpassen kann, stellten Forscher fest, dass es notwendig ist, Informationen zum Kachellayout als zusätzliche Eingabe hinzuzufügen. Um dies zu erreichen, verfolgten die Forscher eine einfache Strategie: Nach jeder Kachelreihe wird ein spezielles „Newline“-Token („n“) eingefügt, um das Modell über die Anordnung der Kacheln zu informieren. Experimente zeigen, dass das Hinzufügen von Kachellayoutinformationen bei relativ kleinen Änderungen kaum Auswirkungen auf das dynamische Auflösungstraining hat (HD9 bedeutet, dass die Anzahl der Kachelbereiche 9 nicht überschreitet), aber erhebliche Leistungsverbesserungen beim dynamischen 4K-Auflösungstraining bringen kann.
(3) Erweiterung der Auflösung während der Inferenzphase
Die Forscher fanden außerdem heraus, dass mithilfe eines dynamischen Auflösungsmodells die Auflösung während der Inferenzphase direkt erweitert werden kann, indem die maximale Kachelobergrenze erhöht wird, was zu zusätzlichen Leistungssteigerungen führt . Wenn beispielsweise ein trainiertes Modell auf HD9 (bis zu 9 Blöcke) direkt mit HD16 getestet wird, kann auf InfographicVQA eine Leistungsverbesserung von bis zu 8 % beobachtet werden.
IXC2-4KHD erhöht die von multimodalen großen Modellen unterstützte Auflösung auf das 4K-Niveau. Forscher sagten, dass die aktuelle Strategie der Unterstützung größerer Bildeingaben durch Erhöhung der Anzahl von Kacheln auf Einschränkungen bei den Rechenkosten und dem Videospeicher stößt. Daher planen sie, effizientere Strategien vorzuschlagen, um in Zukunft eine höhere Auflösungsunterstützung zu erreichen.
Papierlink:
https://arxiv.org/pdf/2404.06512.pdf
Projektlink:
https://github.com/InternLM/InternLM-XComposer
– Ende –
Bitte einsenden Ihre Einsendungen per E-Mail an:
ai@qbitai.com
Geben Sie den Titel an und sagen Sie uns:
Wer sind Sie, woher kommen Sie, den Inhalt Ihrer Einreichung
Fügen Sie den Link zur Arbeit/Projekthomepage und die Kontaktinformationen hinzu
Wir werden mein Bestes geben, um Ihnen rechtzeitig zu antworten über den neuesten Fortschritt von Wissenschaft und Technologie~
Das obige ist der detaillierte Inhalt von4K-HD-Bilder ganz einfach verstehen! Dieses große multimodale Modell analysiert automatisch den Inhalt von Webplakaten und ist damit für Mitarbeiter sehr praktisch.. Für weitere Informationen folgen Sie bitte anderen verwandten Artikeln auf der PHP chinesischen Website!