ホームページ  >  記事  >  テクノロジー周辺機器  >  ECCV 2024|本当に見たのか、それとも見たと思ったのか?大規模なマルチモーダル モデルがテキストの事前トレーニング知識に過度に依存していることは解決されるべきです

ECCV 2024|本当に見たのか、それとも見たと思ったのか?大規模なマルチモーダル モデルがテキストの事前トレーニング知識に過度に依存していることは解決されるべきです

WBOY
WBOYオリジナル
2024-07-28 07:49:53794ブラウズ
ECCV 2024|是真看到了,还是以为自己看到了?多模态大模型对文本预训练知识的过度依赖该解决了
Die AIxiv-Kolumne ist eine Kolumne, in der diese Website akademische und technische Inhalte veröffentlicht. In den letzten Jahren sind in der AIxiv-Kolumne dieser Website mehr als 2.000 Berichte eingegangen, die Spitzenlabore großer Universitäten und Unternehmen auf der ganzen Welt abdecken und so den akademischen Austausch und die Verbreitung wirksam fördern. Wenn Sie hervorragende Arbeiten haben, die Sie teilen möchten, können Sie gerne einen Beitrag leisten oder uns für die Berichterstattung kontaktieren. E-Mail zur Einreichung: liyazhou@jiqizhixin.com; zhaoyunfeng@jiqizhixin.com

Pi Renjie, der erste Autor dieses Artikels, ist Doktorand im dritten Jahr an der Hong Kong University of Science and Technology und studiert unter Professor Zhang Tong und Professor Zhou Xiaofang. Zuvor erwarb er einen Bachelor-Abschluss in Computertechnik von der University of Hong Kong. Zu seinen Forschungsinteressen gehören multimodale große Sprachmodelle, datenzentrierte künstliche Intelligenz und automatisiertes maschinelles Lernen.

Mit der Weiterentwicklung großer Sprachmodelle (LLMs) entwickeln sich multimodale große Sprachmodelle (MLLMs) rasant. Sie verwenden vorab trainierte visuelle Encoder, um Bilder zu verarbeiten und die Bilder zusammen mit Textinformationen als Token-Einbettungen in LLMs einzugeben, wodurch die Konversationsfähigkeiten des Modells für die Verarbeitung von Bildeingaben erweitert werden. Diese Verbesserung der Fähigkeiten eröffnet Möglichkeiten für eine Vielzahl potenzieller Anwendungsbereiche wie autonomes Fahren und medizinische Assistenten.

Obwohl MLLMs über hervorragende Bild- und Textverständnisfähigkeiten verfügen, leiden sie immer noch unter Fehlern oder Halluzinationen und erzeugen Antworten, die nicht mit dem Eingabebild übereinstimmen, wie z. B. die Antwort auf nicht vorhandene Objekte oder die falsche Identifizierung von Attributen. Wir glauben, dass das Ungleichgewicht zwischen Datenvolumen und Trainingszeit in verschiedenen Trainingsphasen multimodaler großer Modelle einer der Hauptgründe für diese Art von Verzerrung ist. Die Sprachmodule großer multimodaler Modelle verwenden häufig umfangreiche Textdaten für das Vortraining, während die Modal-Alignment-Phase eine kleinere Datengröße und eine kürzere Trainingszeit verwendet.

Um die oben genannten Probleme zu lösen, schlagen wir eine Präferenzausrichtungsmethode vor – Bootstrapped Preference Optimization (BPO), die das Halluzinationsphänomen multimodaler großer Modelle lindern und gleichzeitig das visuelle Verständnis des Modells verbessern kann.

ECCV 2024|是真看到了,还是以为自己看到了?多模态大模型对文本预训练知识的过度依赖该解决了

  • Papiertitel: Stärkung des multimodalen großen Sprachmodells mit Bootstrapped Preference Optimization
  • Papierlink: https://arxiv.org/pdf/2403.08730
  • Code-Link: https://github. com/pipilurj/bootstrapped-preference-optimization-BPO-

ECCV 2024|是真看到了,还是以为自己看到了?多模态大模型对文本预训练知识的过度依赖该解决了

具体的には、選好学習用のネガティブ サンプルを自動的に構築する 2 つの方法を設計し、マルチモーダル モデルのトレーニングへの過度の依存を明らかにしました。その後、元のデータのアノテーションを肯定的なサンプルとして使用して、マルチモーダル モデルの設定を微調整します。全体として、私たちの主な貢献は次のとおりです。
1. マルチモーダル アライメント問題を、トレーニング前のバイアスと視覚的理解能力を古い好みと新しい好みとして扱う、好みの学習タスクに変換する新しい視点を提案します。

2. 大規模な嗜好データセットの構築を自動化する方法を紹介します。この方法により、トレーニング前のバイアス情報を含む多数のネガティブ サンプルを構築できます。

3。画像、トレーニング 後者のモデルでは、複数のベンチマークでパフォーマンスが向上しています。
スケーラブルな嗜好データセットの構築

嗜好データセットの肯定的な例として、LlaVA や MiniGPT4 によって生成された高品質の注釈付き質問応答など、教師あり微調整用に設計された既製のデータセットがすでに多数あります。 Data,ShareGPTV は、画像の高品質キャプションを生成するツールとして強力な GPT4-V を活用します。これらのアノテーション付き公開データ セットを優先データ セット内の肯定的な応答として使用して、高品質のデータ ペアを確保しながら高価な手動アノテーションを回避します。

トレーニング前のバイアスを反映する否定的な応答データを収集するために、2 つの方法を提案します。

a. 画像プロンプトを弱める: 設定データセット内の画像データにノイズを追加して、画像の特徴を破壊し、応答時にマルチモーダル大規模モデルを元の事前トレーニングされた分布に近づけます。エラー応答には、LLM モジュール固有のバイアスが含まれます。図からわかるように、画像にさまざまなレベルのノイズを追加すると、正解が表示される確率が低くなり、学習前バイアスが発生した解答が表示される確率が高くなります。

ECCV 2024|是真看到了,还是以为自己看到了?多模态大模型对文本预训练知识的过度依赖该解决了

b. エラー挿入: マルチモーダル大規模モデルに対応する大規模言語モデルが応答を直接書き換える必要があり、そのモデルが答えと似ているが完全に同じではない誤った答えを生成する必要があります。 。
次に、直接優先最適化 (DPO) を使用してマルチモーダル モデルを最適化します。

ECCV 2024|是真看到了,还是以为自己看到了?多模态大模型对文本预训练知识的过度依赖该解决了

実験評価

によって微調整された LLaVA モデル (LLaVA-7B) を使用します。 BPO -BPO および LLaVA-13B-BPO) は、MM-Vet、LLaVA-Wild、および Object HalBench でテストされました。 MM-Vet と LlaVA-Bench はモデルの包括的な機能を測定するために特に使用されるリストですが、Object HalBench はマルチモーダルな大規模モデルの視覚的信頼性を評価します。

実験結果は、BPO によって微調整されたモデルが 3 つのベンチマーク リストのすべてのタスクで主導権を握っていることを示しています。ほとんどのタスクでは、LLaVA-7B-BPO は調整されていない LLaVa1.5-13B モデルよりも優れたパフォーマンスを発揮します。

ECCV 2024|是真看到了,还是以为自己看到了?多模态大模型对文本预训练知识的过度依赖该解决了

BPO と教師あり微調整トレーニング (SFT) も比較します。データセットからの正のサンプルを教師ありデータとして直接使用して、モデルを微調整します。実験によれば、BPO によって微調整されたマルチモーダル大規模モデルは、さまざまなカテゴリのサブタスクで SFT 微調整よりも優れたパフォーマンスを発揮します。

ECCV 2024|是真看到了,还是以为自己看到了?多模态大模型对文本预训练知识的过度依赖该解决了

定性的な結果の観点から、BPO 微調整の前後でマルチモーダル大規模モデルのパフォーマンスを比較しました。 BPO で微調整されたモデルは、画像入力により忠実で、誤った情報がより少ない回答を生成することがわかりました。

ECCV 2024|是真看到了,还是以为自己看到了?多模态大模型对文本预训练知识的过度依赖该解决了

研究の詳細については、元の論文を参照してください。

以上がECCV 2024|本当に見たのか、それとも見たと思ったのか?大規模なマルチモーダル モデルがテキストの事前トレーニング知識に過度に依存していることは解決されるべきですの詳細内容です。詳細については、PHP 中国語 Web サイトの他の関連記事を参照してください。

声明:
この記事の内容はネチズンが自主的に寄稿したものであり、著作権は原著者に帰属します。このサイトは、それに相当する法的責任を負いません。盗作または侵害の疑いのあるコンテンツを見つけた場合は、admin@php.cn までご連絡ください。