トレーニング費用は 1,000 元未満で、90% 削減されます。 NUS と清華大学が VPGTrans をリリース: GPT-4 のようなマルチモーダル大規模モデルを簡単にカスタマイズ

トレーニング費用は 1,000 元未満で、90% 削減されます。 NUS と清華大学が VPGTrans をリリース: GPT-4 のようなマルチモーダル大規模モデルを簡単にカスタマイズ

王林

May 21, 2023 am 08:22 AM

chatgptモデル

今年はAI技術が爆発的に発展した年で、ChatGPTに代表される大規模言語モデル(LLM)が普及しました。

自然言語の分野で大きな可能性を示すことに加えて、言語モデルは他のモダリティにも徐々に広がり始めています。たとえば、ヴィンセントグラフモデルの安定拡散にも言語が必要です。モデル。

ビジュアル言語モデル (VL-LLM) を最初からトレーニングするには、多くの場合、大量のリソースが必要となるため、既存のソリューションでは、言語モデルとビジュアルキュー生成モデル (ビジュアルプロンプトジェネレーター、VPG) を組み合わせています。 )、しかしそれでも、VPG の調整を続けるには、依然として数千の GPU 時間と数百万のトレーニングデータが必要です。

最近、シンガポール国立大学と清華大学の研究者は、既存の VPG を既存の VL-LLM モデルに移行するためのソリューション VPGTrans を提案しました。低コストの方法。

論文リンク: https://arxiv.org/abs/2305.01278

コードリンク: https://github.com/VPGTrans/VPGTrans

マルチモーダル対話モデルのデモ :https: //vpgtrans.github.io/

著者: Zhang Ao、Fei Hao、Yao Yuan、Ji Wei、Li Li、Liu Zhiyuan、Chua Tat-Seng

単位: シンガポール国立大学、清華大学

この記事の主な革新点は次のとおりです。

1. 非常に低いトレーニングコスト:

私たちが提案した VPGTrans メソッドを通じて、迅速に (トレーニング時間の 10% 未満) 既存のマルチモーダル対話モデルのビジュアルモジュールを新しい言語モデルに移行し、同様またはより良い結果を達成できます。

たとえば、ビジョンモジュールを最初からトレーニングする場合と比較して、BLIP-2 FlanT5-XXL のトレーニングオーバーヘッドを 19,000 RMB から 1,000 RMB 未満に削減できます:

図 1: VPGTrans メソッドに基づく BLIP-2 トレーニングのオーバーヘッド削減の比較

#2. マルチモーダルな大規模モデルのカスタマイズ:

を通じて実行できます。 VPGTrans フレームワークニーズに応じて、さまざまな新しい大規模言語モデルのビジュアルモジュールを柔軟に追加します。例えば、LLaMA-7BとVicuna-7BをベースにしてVL-LLaMAとVL-Vicunaを作製しました。

#3. オープンソースのマルチモーダル対話モデル:

高品質のマルチモーダル対話を実現できる GPT-4 のようなマルチモーダル対話モデルである VL-Vicuna をオープンソース化しました:

図 2: VL とビクーニャの相互作用の例

1. モチベーションの概要

1.1 背景

LLM は、従来の事前トレーニング済み視覚言語モデル (VLM) から大規模言語モデルに基づく視覚言語モデル (VL-LLM) まで、マルチモーダル理解の分野で革命を引き起こしました。）。

ビジュアルモジュールをLLMに接続することで、VL-LLMは既存のLLMの知識、ゼロサンプル汎化能力、推論能力、計画能力などを継承することができます。関連機種としては、BLIP-2[1]、Flamingo[2]、PALM-Eなどがあります。

#図 3: 一般的に使用される VL-LLM アーキテクチャ

既存の一般的に使用されている VL-LLM は、基本的に図 3 に示すアーキテクチャを採用しています。ビジュアルソフトプロンプト生成モジュール (Visual Prompt Generator、VPG) は、ベース LLM と次元変換用の線形モデルに基づいてトレーニングされます。レイヤー（プロジェクター）。

パラメータのスケールに関しては、通常、LLM が主要な部分 (11B など) を占めます。 、VPG はマイナーな部分 (1.2B など) を占めます。プロジェクターは最小（4M）です。

トレーニングプロセス中、通常、LLM パラメータは更新されないか、 または非常に少数のパラメータのみが更新されます。トレーニング可能なパラメータは主に VPG とプロジェクターから取得されます。

1.2 動機

実際には、たとえベース LLM のパラメータが凍結されてトレーニングされなかったとしても、パラメータの量が大きいため、 LLM、VL のトレーニング - LLM の重要なオーバーヘッドは依然としてベース LLM のロードです。

したがって、VL-LLM をトレーニングしても、依然として膨大な計算コストが避けられません。たとえば、BLIP-2 (ベース LLM は FlanT5-XXL) を取得するには、600 時間以上の A100 トレーニング時間が必要です。 AmazonのA100-40G機をレンタルすると2万元近くかかります。

VPG を最初からトレーニングするのは非常に費用がかかるため、コストを節約するために既存の VPG を新しい LLM に移行できないかどうかを検討し始めました。

図 4: VPG の移行: LLM サイズ間の移行と LLM タイプ間の移行

図 4 に示すように、主に 2 種類の VPG の移行を調査しました。

(1) LLM サイズ間の移行 (TaS) ) : たとえば、OPT-2.7B から OPT-6.7B へ。

(2) LLM 間タイプ移行 (TaT): OPT から FlanT5 など。

TaS の重要性は次のとおりです。LLM 関連の科学研究では、通常、小さな LLM でパラメータを調整してから、大きな LLM に拡張する必要があります。 TaS を使用すると、小さい LLM でトレーニングされた VPG をパラメーターを調整した後、大きい LLM に直接移行できます。

TaTの意義は、今日はLLaMA、明日はアルパカとビクーニャというように、異なる機能を持ったLLMが無限に現れることにあります。 TaT を使用すると、既存の VPG を使用して、新しい言語モデルに視覚認識機能を迅速に追加できます。

#1.3 貢献

(1) 効率的な手法の提案:

私たちはまず、一連の探索的実験を通じて、VPG の移行効率に影響を与える主要な要因を調査しました。探索的な実験結果に基づいて、2 段階の効率的な移行フレームワーク

VPGTrans を提案します。このフレームワークにより、計算オーバーヘッドと VL-LLM のトレーニングに必要なトレーニングデータを大幅に削減できます。

たとえば、最初からトレーニングする場合と比較して、BLIP-2 OPT-2.7B を 6.7B VPG に移行することで使用できるデータと計算時間は

約 10% のみです。各データセットで同様またはより良い結果を達成します (図 1) 。 トレーニング費用の範囲は 17,901 RMB ～ 1,673 RMB です。

(2) 興味深い発見を得る:

TaS シナリオと TaT シナリオの両方でいくつかの興味深い結果を提供します。説明してみてください:

a) TaS シナリオでは、VPGTrans を使用して小規模から大規模に移行しても、最終的なモデルの効果には影響しません。

b) TaS シナリオでは、言語モデルでトレーニングされた VPG が小さいほど、大規模モデルへの移行時の効率が高くなり、最終的な効果が向上します。

c) TaT シナリオでは、モデルが小さいほど、移行ギャップは大きくなります。私たちの検証実験では、VPGTrans を使用した OPT350M と FlanT5 ベース間の相互移行は、最初からトレーニングするのとほぼ同じくらい遅くなります。

(3) オープンソース:

VPGTrans VL を使用して 2 つの新しいソースを入手しました-LLM: VL-LLaMA および VL-Vicuna は、コミュニティでオープンソース化されています。その中でも、VL-Vicuna は GPT4 と同様の高品質なマルチモーダル対話を実装しています。

2. 高効率の VPG 移行ソリューション: VPGTrans

まず、VPG の移行効率を最大化する方法を分析するために、一連の探索および検証実験を実施します。次に、これらの重要な観察に基づいてソリューションを提案します。

2.1 探索実験

基本モデルとして BLIP-2 アーキテクチャを選択し、事前トレーニングコーパスは COCO と SBU を使用します。合計 140 万の画像とテキストのペア。

ダウンストリームタスクは、COCO Caption、NoCaps、VQAv2、GQA、および OK-VQA のゼロショット設定を使用して評価されます (キャプションタスクは厳密にはゼロショットではありません)。以下は私たちの主な発見です:

(1) トレーニングされた VPG を直接継承すると収束を加速できますが、その効果は限定的です:

LLM でトレーニングされた VPG を大規模な LLM に直接移行すると、モデルの収束を加速できることがわかりましたが、その加速効果は限られており、収束後のモデルの効果はと比較されます。 VPG を最初からトレーニングすると、ポイントが低下します (図 5 の VQAv2 と GQA の青い線の最高点は両方ともオレンジ色の線よりも低くなります) 。

この低下は、ランダムに初期化されたプロジェクターがトレーニングの開始時に VPG の既存の視覚認識能力にダメージを与えるという事実によるものと推測されます。

#実装された VPG を直接継承した結果を次の図に示します (青い曲線)。 VPG の再トレーニング (オレンジ色の線): VPG を最初から再トレーニングします。実施されるトレーニングはリニアプロジェクターに関するものだけであり、VPG に関するトレーニングは行われません。

(2) 最初にプロジェクターのウォームアップトレーニングを行うと、ポイントの低下を防ぎ、収束をさらに加速できます:

そこで、VPG と LLM を修正し、最初にプロジェクターを 3 エポックの間ウォームアップトレーニングし、次にトレーニングの次のステップのために VPG を解凍しました。

これにより、ポイントのドロップが回避されるだけでなく、VPG の収束がさらに加速されることがわかりました (図 6)。

しかし、トレーニングの主なコストは LLM (巨大なパラメータ) であるため、プロジェクターのトレーニングのみのコストであることを強調する価値があります。 VPG とプロジェクターを同時にトレーニングするよりもはるかに安価ではありません。そこで、私たちはプロジェクターのウォームアップを加速するための主要なテクノロジーの探索を開始しました。

#図 6: 最初にプロジェクターをウォームアップトレーニングすると、ポイントの低下を防ぎ、収束を加速できます

(3) ワードベクトルコンバーターの初期化により、プロジェクターのウォームアップが高速化されます:

まず、VPG は画像を LLM が理解できるソフトプロンプトに変換することでエフェクトを生成します。 ソフトプロンプト の使用法は実際には と非常によく似ており、すべて言語モデルを直接入力します。モデルに対応するコンテンツを生成するように促します。 #そこで、ソフトプロンプトのプロキシとして単語ベクトルを使用し、 を

# にトレーニングしました。

トレーニング費用は 1,000 元未満で、90% 削減されます。 NUS と清華大学が VPGTrans をリリース: GPT-4 のようなマルチモーダル大規模モデルを簡単にカスタマイズ ## のワードベクトルコンバーター (線形層)。

次に、ワードベクトルコンバーターとプロジェクターを

の初期化として融合します。プロジェクター。

この初期化により、プロジェクターのウォームアップトレーニングを 3 エポックから 2 エポック

に減らすことができます。トレーニング費用は 1,000 元未満で、90% 削減されます。 NUS と清華大学が VPGTrans をリリース: GPT-4 のようなマルチモーダル大規模モデルを簡単にカスタマイズ

(4) プロジェクターは、非常に大きな学習率で迅速に収束できます。

さらに実験を行った結果、次のことがわかりました。パラメーターの数が少ないため、クラッシュすることなく通常の学習率の 5 倍を使用してトレーニングできます。

学習率 5 倍のトレーニングにより、プロジェクターのウォームアップをさらに 1 エポック

に短縮できます。

(5) 追加の発見:

プロジェクターのウォームアップは重要ですが、プロジェクターのトレーニングだけでは十分ではありません。特にキャプションタスクでは、プロジェクターのみをトレーニングした場合の効果は、VPG を同時にトレーニングした場合の効果よりも悪くなります (図 5 の緑の線は、COCO Caption と NoCaps の両方の青の線よりもはるかに低くなります)。

これは、プロジェクターをトレーニングするだけではアンダーフィッティングにつながる

、つまり、

をトレーニングデータと完全に一致させることができないことを意味します。

#2.2 提案手法

# #図 7: VPGTrans フレームワーク: (1) フェーズ 1: プロジェクターのウォームアップ (2) フェーズ 2: 全体的な微調整

トレーニング費用は 1,000 元未満で、90% 削減されます。 NUS と清華大学が VPGTrans をリリース: GPT-4 のようなマルチモーダル大規模モデルを簡単にカスタマイズ図 7 に示すように、私たちの方法

(1) 第 1 段階: 最初にワードベクトルコンバーターを使用して、新しいプロジェクターの初期化として元のプロジェクターと融合し、次に、新しいプロジェクターは、1 エポックで 5 倍の学習率でトレーニングされます。

(2) 第 2 段階: VPG とプロジェクターを通常どおり直接トレーニングします。

3. 実験結果

3.1 高速化率

表 1: さまざまなデータセットで最初からトレーニングした場合と比較した VPGTrans の高速化率

トレーニング費用は 1,000 元未満で、90% 削減されます。 NUS と清華大学が VPGTrans をリリース: GPT-4 のようなマルチモーダル大規模モデルを簡単にカスタマイズ表 1 に示すように、さまざまな移行タイプをテストしました。さまざまなデータセットでの VPGTrans の速度向上率。

指定されたデータセット A に対する VPGTrans の加速率は、A に対する最良の効果 a を達成するためのゼロからのトレーニングのラウンド数を、A に対する VPGTrans の効果が超える最小トレーニングラウンド数で割ることによって得られます。ａ．

たとえば、OPT-2.7B で VPG を最初からトレーニングするには、COCO キャプションで最高の効果を得るには 10 エポックが必要ですが、VPG を OPT-125M から OPT-2.7B に移行する場合は、わずか 10 エポックしかかかりませんこの最適な効果を達成するには 1 エポックかかります。加速比は10/1=10倍となります。

TaS シナリオでも TaT シナリオでも、当社の VPGTrans は安定した加速を達成できることがわかります。

3.2 興味深い調査結果

説明するために、より興味深い調査結果の 1 つを選択しました。さらに興味深い調査結果については、論文を参照してください。

#TaS シナリオでは、言語モデルでトレーニングされた VPG が小さいほど、移行効率が高くなり、最終的なモデル効果が向上します。表 1 を参照すると、OPT-1.3B から OPT-2.7B への加速比は、OPT-125M および OPT-350M から OPT-2.7b への加速比よりもはるかに小さいことがわかります。

説明を提供しようとしました: 一般に、言語モデルが大きくなるほど、テキスト空間の次元が高くなるため、 の可能性が高くなります。 VPG (VPG は通常、CLIP に似た事前トレーニング済みモデル) 独自の視覚認識能力を損傷します。線形プローブと同様の方法で検証しました。

## 図 8: リニアプロジェクター層のみをトレーニングします。 -LLM サイズ移行 (線形プローブのシミュレーション)

図 8 に示すように、OPT-125M、350M、1.3B、および 2.7B の間でクロス LLM サイズ移行を実行しました。サイズ移行。

実験では、

さまざまなモデルサイズでトレーニングされた VPG の視覚認識能力を公平に比較するために、VPG のパラメーターを固定し、リニアプロジェクター層のみをトレーニングしました。視覚認識能力の尺度として、COCO Caption の SPICE 指標を選択しました。

与えられたそれぞれの

について、トレーニング費用は 1,000 元未満で、90% 削減されます。 NUS と清華大学が VPGTrans をリリース: GPT-4 のようなマルチモーダル大規模モデルを簡単にカスタマイズが小さいほど、ほぼ一致していることを見つけるのは難しくありません。最終的な SPICE A 高現象が小さいほど。トレーニング費用は 1,000 元未満で、90% 削減されます。 NUS と清華大学が VPGTrans をリリース: GPT-4 のようなマルチモーダル大規模モデルを簡単にカスタマイズ 3.3 大規模実験

これまでの実験は主に小規模シナリオでの推測を検証することを目的としています。私たちの方法の有効性を証明するために、BLIP-2 の事前トレーニングプロセスをシミュレートし、大規模な実験を実施しました。

##表 2: 実際のシナリオにおける大規模な実験結果

表 2 に示すように、VPGTrans は大規模なシナリオでも依然として有効です。。 OPT-2.7B から OPT-6.7B に移行することにより、同等以上の結果を達成するために使用したデータは 10.8% のみ、トレーニング時間は 10% 未満でした。

特に、我々の手法は、FlanT5-XXL に基づく BLIP-2 VL-LLM において

4.7% のトレーニングコスト制御を達成しています。 4. VL-LLM をカスタマイズする

当社の VPGTrans は、視覚認識モジュールを新しい LLM にすばやく追加し、それによってまったく新しい高品質 VL-LLM を取得できます。この作業では、VL-LLaMA と VL-Vicuna を追加でトレーニングします。 VL-LLaMA の効果は次のとおりです。

#表 3: VL-LLaMA の効果表示

At the同時に、当社の VL-Vicuna は GPT-4 のようなマルチモーダルな会話を行うことができます。 MiniGPT-4 と簡単に比較しました:

# 5.概要

この作業では、LLM 間の VPG の移植性の問題について包括的な調査を実施しました。まず、移行効率を最大化する重要な要素を検討します。

主要な観察に基づいて、私たちは新しい 2 段階の移行フレームワーク、つまり VPGTrans を提案します。トレーニングコストを大幅に削減しながら、同等以上のパフォーマンスを達成できます。

VPGTrans を通じて、BLIP-2 OPT 2.7B から BLIP-2 OPT 6.7B への VPG の移行を実現しました。 VPG を最初から OPT 6.7B に接続する場合と比較して、VPGTrans に必要なトレーニングデータは 10.7% のみで、トレーニング時間は 10% 未満です。

さらに、一連の興味深い調査結果とその背後にある考えられる理由を紹介し、議論します。最後に、VL-LLaMA と LL-Vicuna をトレーニングすることにより、新しい VL-LLM をカスタマイズする際の VPGTrans の実用的な価値を示します。

以上がトレーニング費用は 1,000 元未満で、90% 削減されます。 NUS と清華大学が VPGTrans をリリース: GPT-4 のようなマルチモーダル大規模モデルを簡単にカスタマイズの詳細内容です。詳細については、PHP 中国語 Web サイトの他の関連記事を参照してください。

声明

この記事は51CTO.COMで複製されています。侵害がある場合は、admin@php.cn までご連絡ください。

Gemma Scope：AI＆＃039;の思考プロセスを覗くためのGoogle＆＃039;の顕微鏡Apr 17, 2025 am 11:55 AM

ジェマの範囲で言語モデルの内部の仕組みを探る AI言語モデルの複雑さを理解することは、重要な課題です。包括的なツールキットであるGemma ScopeのGoogleのリリースは、研究者に掘り下げる強力な方法を提供します

ビジネスインテリジェンスアナリストは誰で、どのようになるか？Apr 17, 2025 am 11:44 AM

ビジネスの成功のロック解除：ビジネスインテリジェンスアナリストになるためのガイド生データを組織の成長を促進する実用的な洞察に変換することを想像してください。これはビジネスインテリジェンス（BI）アナリストの力です - GUにおける重要な役割

SQLに列を追加する方法は？ - 分析VidhyaApr 17, 2025 am 11:43 AM

SQLの変更テーブルステートメント：データベースに列を動的に追加するデータ管理では、SQLの適応性が重要です。その場でデータベース構造を調整する必要がありますか？ Alter Tableステートメントはあなたの解決策です。このガイドの詳細は、コルを追加します

ビジネスアナリストとデータアナリストApr 17, 2025 am 11:38 AM

導入 2人の専門家が重要なプロジェクトで協力している賑やかなオフィスを想像してください。ビジネスアナリストは、会社の目標に焦点を当て、改善の分野を特定し、市場動向との戦略的整合を確保しています。シム

ExcelのCountとCountaとは何ですか？ - 分析VidhyaApr 17, 2025 am 11:34 AM

Excelデータカウントと分析：カウントとカウントの機能の詳細な説明特に大規模なデータセットを使用する場合、Excelでは、正確なデータカウントと分析が重要です。 Excelは、これを達成するためにさまざまな機能を提供し、CountおよびCounta関数は、さまざまな条件下でセルの数をカウントするための重要なツールです。両方の機能はセルをカウントするために使用されますが、設計ターゲットは異なるデータ型をターゲットにしています。 CountおよびCounta機能の特定の詳細を掘り下げ、独自の機能と違いを強調し、データ分析に適用する方法を学びましょう。キーポイントの概要カウントとcouを理解します