Heim > Artikel > Technologie-Peripheriegeräte > ECCV 2024｜Haben Sie es wirklich gesehen oder dachten Sie, Sie hätten es gesehen? Die übermäßige Abhängigkeit großer multimodaler Modelle vom Textwissen vor dem Training sollte behoben werden

ECCV 2024｜Haben Sie es wirklich gesehen oder dachten Sie, Sie hätten es gesehen? Die übermäßige Abhängigkeit großer multimodaler Modelle vom Textwissen vor dem Training sollte behoben werden

WBOYOriginal: 2024-07-28 07:49:53745Durchsuche

ECCV 2024｜是真看到了，还是以为自己看到了？多模态大模型对文本预训练知识的过度依赖该解决了

La rubrique AIxiv est une rubrique où ce site publie du contenu académique et technique. Au cours des dernières années, la rubrique AIxiv de ce site a reçu plus de 2 000 rapports, couvrant les meilleurs laboratoires des principales universités et entreprises du monde entier, favorisant efficacement les échanges et la diffusion académiques. Si vous souhaitez partager un excellent travail, n'hésitez pas à contribuer ou à nous contacter pour un rapport. Courriel de soumission : liyazhou@jiqizhixin.com ; zhaoyunfeng@jiqizhixin.com

Pi Renjie, le premier auteur de cet article, est un doctorant de troisième année à l'Université des sciences et technologies de Hong Kong, étudiant sous Professeur Zhang Tong et professeur Zhou Xiaofang. Auparavant, il a obtenu un baccalauréat en génie informatique de l'Université de Hong Kong. Ses intérêts de recherche incluent les grands modèles de langage multimodaux, l’intelligence artificielle centrée sur les données et l’apprentissage automatique automatisé.

Avec l'avancement des grands modèles de langage (LLM), les grands modèles de langage multimodaux (MLLM) se développent rapidement. Ils utilisent des encodeurs visuels pré-entraînés pour traiter les images et entrent des images dans les LLM sous forme d'intégrations de jetons avec des informations textuelles, étendant ainsi les capacités conversationnelles du modèle pour le traitement des entrées d'images. Cette amélioration des capacités ouvre des possibilités dans divers domaines d’application potentiels tels que la conduite autonome et les assistants médicaux.

Bien que les MLLM aient d'excellentes capacités de compréhension d'images et de textes, ils souffrent toujours d'erreurs ou d'hallucinations, générant des réponses qui ne correspondent pas à l'image d'entrée, comme répondre à des objets inexistants ou identifier des attributs de manière erronée. Nous pensons que le déséquilibre entre le volume de données et le temps de formation dans les différentes étapes de formation des grands modèles multimodaux est l'une des principales raisons de ce type de biais. Les modules linguistiques des grands modèles multimodaux utilisent souvent des données textuelles massives pour la pré-formation, tandis que l'étape d'alignement modal utilise des données de plus petite taille et un temps de formation plus court.

Afin de résoudre les problèmes ci-dessus, nous proposons une méthode d'alignement des préférences - Bootstrapped Preference Optimization (BPO), qui peut atténuer le phénomène d'hallucination des grands modèles multimodaux tout en améliorant la capacité de compréhension visuelle du modèle.

ECCV 2024｜是真看到了，还是以为自己看到了？多模态大模型对文本预训练知识的过度依赖该解决了

Titre de l'article : Renforcement du modèle multimodal de grand langage avec l'optimisation des préférences bootstrapées
Lien de l'article : https://arxiv.org/pdf/2403.08730
Lien du code : https://github. com/pipilurj/bootstrapped-preference-optimization-BPO-

ECCV 2024｜是真看到了，还是以为自己看到了？多模态大模型对文本预训练知识的过度依赖该解决了

Konkret haben wir zwei Methoden entwickelt, um automatisch negative Stichproben für das Präferenzlernen zu erstellen und so die übermäßige Abhängigkeit multimodaler Modelle vom Training aufzudecken. Anschließend verwenden wir die Originaldatenanmerkungen als positive Stichproben, um die Präferenzen des multimodalen Modells zu verfeinern. Insgesamt sind unsere Hauptbeiträge:

1 Wir schlagen eine neue Perspektive vor, die das Problem der multimodalen Ausrichtung in eine Präferenzlernaufgabe umwandelt, bei der Voreingenommenheit und visuelle Verständnisfähigkeit als alte und neue Präferenzen behandelt werden

2. Wir stellen eine Methode zur Automatisierung der Erstellung umfangreicher Präferenzdatensätze vor. Durch diese Methode kann eine große Anzahl negativer Stichproben mit Vor-Training-Bias-Informationen erstellt werden.

3 Eine große Anzahl von Experimenten hat gezeigt, dass unsere Methode die kognitiven Fähigkeiten multimodaler großer Modelle effektiv verbessern kann Bilder, Training Das letztgenannte Modell hat in mehreren Benchmarks eine verbesserte Leistung erzielt.

Skalierbare Präferenzdatensatzkonstruktion

Als positive Beispiele für Präferenzdatensätze gibt es bereits viele vorgefertigte Datensätze, die für die überwachte Feinabstimmung konzipiert sind, wie z. B. hochwertige kommentierte Fragenbeantwortungen, die von LlaVA und MiniGPT4 generiert wurden Data,ShareGPTV nutzt das leistungsstarke GPT4-V als Tool zur Generierung hochwertiger Bildunterschriften. Wir verwenden diese annotierten öffentlichen Datensätze als positive Antworten im Präferenzdatensatz, um teure manuelle Annotationen zu vermeiden und gleichzeitig qualitativ hochwertige Datenpaare sicherzustellen.

Um negative Antwortdaten zu sammeln, die die Verzerrung vor dem Training widerspiegeln, schlagen wir zwei Methoden vor.

a. Bildaufforderungen schwächen: Wir fügen den Bilddaten im Präferenzdatensatz Rauschen hinzu, um die Bildmerkmale zu zerstören und das multimodale große Modell bei der Beantwortung stärker zur ursprünglichen vorab trainierten Verteilung zu neigen Fehlerantworten enthalten die inhärente Voreingenommenheit des LLM-Moduls. Wie aus der Abbildung ersichtlich ist, ist durch das Hinzufügen unterschiedlicher Rauschpegel zum Bild die Wahrscheinlichkeit, dass die richtige Antwort erscheint, geringer und die Wahrscheinlichkeit, dass die Antwort mit einem Vor-Training-Bias erscheint, größer.

ECCV 2024｜是真看到了，还是以为自己看到了？多模态大模型对文本预训练知识的过度依赖该解决了

b Fehlerinjektion: Wir benötigen das große Sprachmodell, das dem multimodalen großen Modell entspricht, um die Antwort direkt neu zu schreiben, und verlangen, dass das Modell eine falsche Antwort generiert, die der Antwort ähnelt, aber nicht genau mit ihr übereinstimmt .

Als nächstes verwenden wir die direkte Präferenzoptimierung (DPO), um das multimodale Modell zu optimieren:

ECCV 2024｜是真看到了，还是以为自己看到了？多模态大模型对文本预训练知识的过度依赖该解决了

Experimentelle Bewertung

Wir verwenden das LLaVA-Modell (LLaVA-7B), das von optimiert wurde BPO -BPO und LLaVA-13B-BPO) getestet auf MM-Vet, LLaVA-Wild und Object HalBench. MM-Vet und LlaVA-Bench sind Listen, die speziell zur Messung der umfassenden Fähigkeiten von Modellen verwendet werden, während Object HalBench zur Bewertung der visuellen Glaubwürdigkeit multimodaler großer Modelle verwendet wird.

Experimentelle Ergebnisse zeigen, dass das von BPO verfeinerte Modell bei allen Aufgaben der drei Benchmark-Listen die Nase vorn hat. Bei den meisten Aufgaben übertrifft LLaVA-7B-BPO sogar das ungetunte Modell LLaVa1.5-13B.

ECCV 2024｜是真看到了，还是以为自己看到了？多模态大模型对文本预训练知识的过度依赖该解决了

Wir vergleichen BPO auch mit überwachtem Fine-Tuning-Training (SFT). Wir optimieren das Modell, indem wir positive Stichproben aus dem Datensatz direkt als überwachte Daten verwenden. Experimente zeigen, dass multimodale große Modelle, die durch BPO feinabgestimmt wurden, bei verschiedenen Kategorien von Unteraufgaben eine bessere Leistung erbringen als die SFT-Feinabstimmung.

ECCV 2024｜是真看到了，还是以为自己看到了？多模态大模型对文本预训练知识的过度依赖该解决了

In Bezug auf qualitative Ergebnisse haben wir die Leistung multimodaler großer Modelle vor und nach der BPO-Feinabstimmung verglichen. Wir fanden heraus, dass das BPO-feinabgestimmte Modell Antworten lieferte, die der Bildeingabe besser entsprachen und weniger fehlerhafte Informationen enthielten.

ECCV 2024｜是真看到了，还是以为自己看到了？多模态大模型对文本预训练知识的过度依赖该解决了

Weitere Forschungsdetails finden Sie im Originalpapier.

Das obige ist der detaillierte Inhalt vonECCV 2024｜Haben Sie es wirklich gesehen oder dachten Sie, Sie hätten es gesehen? Die übermäßige Abhängigkeit großer multimodaler Modelle vom Textwissen vor dem Training sollte behoben werden. Für weitere Informationen folgen Sie bitte anderen verwandten Artikeln auf der PHP chinesischen Website!

Object Token 对象 github 人工智能 https 自动化

Stellungnahme：

Der Inhalt dieses Artikels wird freiwillig von Internetnutzern beigesteuert und das Urheberrecht liegt beim ursprünglichen Autor. Diese Website übernimmt keine entsprechende rechtliche Verantwortung. Wenn Sie Inhalte finden, bei denen der Verdacht eines Plagiats oder einer Rechtsverletzung besteht, wenden Sie sich bitte an admin@php.cn

Vorheriger Artikel：Trumps Attentatsfoto kostet 2.100 Yuan? ! Artikeltitel, begleitende Bilder, AI stellt Ihnen ein Dutzend kostenlos zur VerfügungNächster Artikel：Trumps Attentatsfoto kostet 2.100 Yuan? ! Artikeltitel, begleitende Bilder, AI stellt Ihnen ein Dutzend kostenlos zur Verfügung

In Verbindung stehende Artikel

Mehr sehen