首頁 >科技週邊 >人工智慧 >ECCV 2024|是真看到了,還是以為自己看到了?多模態大模型對文本預訓練知識的過度依賴該解決了

ECCV 2024|是真看到了,還是以為自己看到了?多模態大模型對文本預訓練知識的過度依賴該解決了

WBOY
WBOY原創
2024-07-28 07:49:53843瀏覽
ECCV 2024|是真看到了,还是以为自己看到了?多模态大模型对文本预训练知识的过度依赖该解决了
AIxiv專欄是本站發布學術、技術內容的欄位。過去數年,本站AIxiv專欄接收通報了2,000多篇內容,涵蓋全球各大專院校與企業的頂尖實驗室,有效促進了學術交流與傳播。如果您有優秀的工作想要分享,歡迎投稿或聯絡報道。投稿信箱:liyazhou@jiqizhixin.com;zhaoyunfeng@jiqizhixin.com

本文第一作者皮仁傑是香港科技大學三年級博士生,師從四年級博士生,師從週潼方教授。此前獲得香港大學計算機工程學士學位。研究興趣為多模態大語言模型,以資料為中心的人工智慧,以及自動化機器學習。

隨著大型語言模型(LLMs)的進步,多模態大型語言模型(MLLMs)迅速發展。它們使用預先訓練的視覺編碼器處理圖像,並將圖像與文字訊息一起作為 Token 嵌入輸入至 LLMs,從而擴展了模型處理圖像輸入的對話能力。這種能力的提升為自動駕駛和醫療助理等多種潛在應用領域帶來了可能性。

儘管 MLLMs 具有出色的圖文理解能力,但它們仍然會出現錯誤或幻覺,產生與輸入圖像不符的相應,例如回答不存在的對像或錯誤識別屬性等。我們認為多模態大模型在不同訓練階段的資料量和訓練時間的不平衡是產生這類偏誤的主要原因之一。多模態大模型的語言模組往往使用了海量的文字資料進行預訓練,而模態對齊階段則使用較小的資料規模和更短的訓練時間。

為了解決上述問題,我們提出了一種偏好對齊方法 --Bootstrapped Preference Optimization(BPO),能在緩解多模態大模型的幻覺現象的同時提升模型的視覺理解能力。

ECCV 2024|是真看到了,还是以为自己看到了?多模态大模型对文本预训练知识的过度依赖该解决了

  • 論文標題:Strengthening Multimodal Large Language Model with Bootstrapped Preference Optimization
  • 論文連結:https://arxiv.org/pdf/2403.08873035/pdf com/pipilurj/bootstrapped-preference-optimization-BPO-
  • Plus précisément, nous avons conçu deux méthodes pour construire automatiquement des échantillons négatifs pour l'apprentissage des préférences, révélant ainsi la dépendance excessive des modèles multimodaux à l'égard de la formation. Ensuite, nous utilisons les annotations des données originales comme échantillons positifs pour affiner les préférences du modèle multimodal. Dans l'ensemble, nos principales contributions sont :
    1. Nous proposons une nouvelle perspective qui transforme le problème d'alignement multimodal en une tâche d'apprentissage des préférences, où les biais pré-entraînement et la capacité de compréhension visuelle sont traités comme des préférences anciennes et nouvelles
     ;

    2. Nous introduisons une méthode pour automatiser la construction d'ensembles de données de préférences à grande échelle. Grâce à cette méthode, un grand nombre d'échantillons négatifs contenant des informations sur les biais pré-entraînement peuvent être construits

    3. Un grand nombre d'expériences ont prouvé que notre méthode peut améliorer efficacement la capacité cognitive des grands modèles multimodaux ; images, formation Ce dernier modèle a amélioré les performances dans plusieurs benchmarks.
    Construction d'ensembles de données de préférences évolutives

    Pour des exemples positifs d'ensembles de données de préférences, il existe déjà de nombreux ensembles de données prêts à l'emploi conçus pour un réglage fin supervisé, tels que les réponses aux questions annotées de haute qualité générées par LlaVA et MiniGPT4. Data, ShareGPTV exploite le puissant GPT4-V comme outil pour générer des légendes de haute qualité pour les images. Nous utilisons ces ensembles de données publiques annotées comme réponses positives dans l'ensemble de données de préférence afin d'éviter des annotations manuelles coûteuses tout en garantissant des paires de données de haute qualité.

    Afin de collecter des données de réponses négatives qui reflètent des biais pré-formation, nous proposons deux méthodes.

    a. Affaiblir les invites d'image : nous ajoutons du bruit aux données d'image dans l'ensemble de données de préférences pour détruire les caractéristiques de l'image et rendre le grand modèle multimodal plus incliné vers la distribution pré-entraînée d'origine lors de la réponse. Les réponses d'erreur contiendront le biais inhérent au module LLM. Comme le montre la figure, en ajoutant différents niveaux de bruit à l'image, la probabilité que la réponse correcte apparaisse est plus petite et la probabilité que la réponse avec un biais de pré-entraînement apparaisse est plus grande.

    ECCV 2024|是真看到了,还是以为自己看到了?多模态大模型对文本预训练知识的过度依赖该解决了

    b. Injection d'erreur : nous exigeons que le grand modèle de langage correspondant au grand modèle multimodal réécrive directement la réponse, et exigeons que le modèle génère une réponse incorrecte qui est similaire mais pas exactement la même que la réponse. .
    Ensuite, nous utilisons l'optimisation des préférences directes (DPO) pour optimiser le modèle multimodal :

    ECCV 2024|是真看到了,还是以为自己看到了?多模态大模型对文本预训练知识的过度依赖该解决了

    Évaluation expérimentale

    Nous utilisons le modèle LLaVA (LLaVA-7B) affiné par BPO-BPO et LLaVA-13B-BPO) testés sur MM-Vet, LLaVA-Wild et Object HalBench. MM-Vet et LlaVA-Bench sont des listes spécifiquement utilisées pour mesurer les capacités globales des modèles, tandis qu'Object HalBench est utilisé pour évaluer la crédibilité visuelle des grands modèles multimodaux.

    Les résultats expérimentaux montrent que le modèle affiné par BPO prend la tête dans toutes les tâches sur les trois listes de référence. Dans la plupart des tâches, le LLaVA-7B-BPO surpasse même le modèle LLaVa1.5-13B non réglé.

    ECCV 2024|是真看到了,还是以为自己看到了?多模态大模型对文本预训练知识的过度依赖该解决了

    Nous comparons également le BPO avec la formation de mise au point supervisée (SFT). Nous affinons le modèle en utilisant directement des échantillons positifs de l'ensemble de données comme données supervisées. Les expériences montrent que les grands modèles multimodaux affinés par BPO fonctionnent mieux que le réglage fin SFT sur différentes catégories de sous-tâches.

    ECCV 2024|是真看到了,还是以为自己看到了?多模态大模型对文本预训练知识的过度依赖该解决了

    En termes de résultats qualitatifs, nous avons comparé les performances de grands modèles multimodaux avant et après réglage fin du BPO. Nous avons constaté que le modèle affiné par BPO produisait des réponses plus fidèles à l'image saisie et contenait moins d'informations erronées.

    ECCV 2024|是真看到了,还是以为自己看到了?多模态大模型对文本预训练知识的过度依赖该解决了

    Pour plus de détails sur la recherche, veuillez vous référer à l'article original.

以上是ECCV 2024|是真看到了,還是以為自己看到了?多模態大模型對文本預訓練知識的過度依賴該解決了的詳細內容。更多資訊請關注PHP中文網其他相關文章!

陳述:
本文內容由網友自願投稿,版權歸原作者所有。本站不承擔相應的法律責任。如發現涉嫌抄襲或侵權的內容,請聯絡admin@php.cn