Meituan、浙江大学などが協力して、リアルタイムで実行でき、Snapdragon 888 プロセッサを使用するフルプロセスのモバイルマルチモーダル大型モデル MobileVLM を開発しました。

Meituan、浙江大学などが協力して、リアルタイムで実行でき、Snapdragon 888 プロセッサを使用するフルプロセスのモバイルマルチモーダル大型モデル MobileVLM を開発しました。

Jan 08, 2024 pm 02:46 PM

業界

モバイル端末に大型モデルがやってくる波はますます強くなり、ついに誰かがマルチモーダルな大型モデルをモバイル端末に移しました。最近、美団、浙江大学などが、LLMベーストレーニング、SFT、VLMのプロセス全体を含む、モバイル端末上に展開できるマルチモーダル大規模モデルを発表しました。おそらく近い将来、誰もが自分の大型モデルを便利に、早く、低コストで所有できるようになるでしょう。

MobileVLM は、モバイルデバイス向けに設計された、高速かつ強力でオープンなビジュアル言語アシスタントです。これは、ゼロからトレーニングされた 1.4B および 2.7B パラメーター言語モデル、CLIP 方式で事前トレーニングされたマルチモーダルビジョンモデル、プロジェクションによる効率的なクロスモーダルインタラクションなど、モバイルデバイス向けのアーキテクチャ設計とテクノロジーを組み合わせたものです。 MobileVLM のパフォーマンスは、さまざまなビジュアル言語ベンチマークにおける大規模モデルと同等です。さらに、Qualcomm Snapdragon 888 CPU と NVIDIA Jeston Orin GPU での最速の推論速度を実証します。

##論文アドレス: https://arxiv.org/pdf/2312.16886.pdf

はじめに

大規模マルチモダリティモデル(LMM)、特に視覚言語モデル (VLM) ファミリーは、知覚と推論の能力が大幅に強化されているため、ユニバーサルアシスタントを構築するための有望な研究方向となっています。ただし、事前トレーニングされた大規模言語モデル (LLM) とビジュアルモデルの表現をどのように接続し、クロスモーダル特徴を抽出し、視覚的な質問応答、画像字幕、視覚的な知識推論、対話などのタスクを完了する方法は常に問題でした。。

このタスクにおける GPT-4V と Gemini の優れたパフォーマンスは、何度も証明されています。ただし、これらの独自モデルの技術的な実装の詳細はまだ十分に理解されていません。同時に、研究コミュニティは一連の言語調整方法も提案しています。たとえば、Flamingo はビジュアルトークンを活用して、ゲートされたクロスアテンションレイヤーを通じて凍結された言語モデルを条件付けします。 BLIP-2 は、この対話は不十分であると考え、フリーズされたビジュアルエンコーダから最も有用な機能を抽出し、フリーズされた LLM に直接フィードする軽量のクエリトランスフォーマ (Q-Former と呼ばれる) を導入します。 MiniGPT-4 は、BLIP-2 のフリーズされたビジュアルエンコーダーと、プロジェクションレイヤーを介してフリーズされた言語モデル Vicuna を組み合わせます。さらに、LLaVA は、単純なトレーニング可能なマッピングネットワークを適用して、視覚的特徴を、言語モデルによって処理される単語埋め込みと同じ次元の埋め込みトークンに変換します。

大規模なマルチモーダルデータの多様性に適応するために、トレーニング戦略が徐々に変化していることは注目に値します。 LLaVA は、LLM の命令調整パラダイムをマルチモーダルシナリオに再現する最初の試みとなる可能性があります。マルチモーダル命令トレースデータを生成するために、LLaVA は画像の説明文や画像のバウンディングボックス座標などのテキスト情報を純粋言語モデル GPT-4 に入力します。 MiniGPT-4 は、まず画像説明文の包括的なデータセットでトレーニングされ、次に [画像とテキスト] のペアのキャリブレーションデータセットで微調整されます。 InstructBLIP は、事前トレーニングされた BLIP-2 モデルに基づいてビジュアル言語コマンドチューニングを実行し、Q-Former はコマンドチューニング形式で編成されたさまざまなデータセットでトレーニングされます。 mPLUG-Owl は 2 段階のトレーニング戦略を導入しています。まず視覚部分を事前トレーニングし、次に LoRA を使用して、さまざまなソースからの命令データに基づいて大規模言語モデル LLaMA を微調整します。

#VLM における上記の進歩にもかかわらず、コンピューティングリソースが限られている場合には、依然としてクロスモーダル機能を使用する必要があります。 Gemini は、さまざまなマルチモーダルベンチマークで sota を上回り、低メモリデバイス向けに 1.8B および 3.25B パラメータを備えたモバイルグレードの VLM を導入しています。また、Gemini は蒸留や量子化などの一般的な圧縮技術も使用します。このペーパーの目標は、公開データセットと視覚認識と推論のための利用可能なテクノロジーを使用してトレーニングされ、リソースに制約のあるプラットフォーム向けに調整された、初のオープンなモバイルグレード VLM を構築することです。この記事の貢献は次のとおりです。

MobileVLM

全体的なアーキテクチャ設計

研究者らは、リソースが限られたエッジデバイスで効率的な視覚認識と推論を達成するという主な目標を考慮して、図 1 に示すように MobileVLM の全体的なアーキテクチャを設計しました。モデルは 3 つのコンポーネントで構成されます: 1) ビジュアルエンコーダ、2) カスタマイズされた LLM エッジデバイス (MobileLLaMA)、3) アライメント用の効率的なマッピングネットワーク (論文では「Lightweight Downsampling Mapping」、LDP と呼ばれます)空間。

画像

Meituan、浙江大学などが協力して、リアルタイムで実行でき、Snapdragon 888 プロセッサを使用するフルプロセスのモバイルマルチモーダル大型モデル MobileVLM を開発しました。

を入力として受け取ると、ビジュアルエンコーダ F_enc は画像認識のための視覚的埋め込み Meituan、浙江大学などが協力して、リアルタイムで実行でき、Snapdragon 888 プロセッサを使用するフルプロセスのモバイルマルチモーダル大型モデル MobileVLM を開発しました。

を抽出します。ここで、N_v = HW/P^2 は画像ブロックの数を表し、D_v は画像ブロックの隠れ層サイズを表します。視覚的な埋め込み。画像トークン処理の効率の問題を軽減するために、研究者らは、視覚特徴圧縮と視覚テキストモーダル整列のための軽量マッピングネットワーク P を設計しました。次のように、 f を単語埋め込み空間に変換し、後続の言語モデルに適切な入力次元を提供します:

このようにして、イメージ# のトークンが取得されます # #そしてテキストトークン Meituan、浙江大学などが協力して、リアルタイムで実行でき、Snapdragon 888 プロセッサを使用するフルプロセスのモバイルマルチモーダル大型モデル MobileVLM を開発しました。

。N_t はテキストトークンの数を表し、D_t は単語埋め込みスペースのサイズを表します。現在の MLLM 設計パラダイムでは、LLM の計算量とメモリ消費量が最も大きくなります。これを考慮して、この記事では、速度の点でかなりの利点があり、自己回帰手法を実行できる、推論に適した一連の LLM をモバイルアプリケーション向けに調整します。マルチモーダル入力 Meituan、浙江大学などが協力して、リアルタイムで実行でき、Snapdragon 888 プロセッサを使用するフルプロセスのモバイルマルチモーダル大型モデル MobileVLM を開発しました。

、L は出力トークンの長さを表します。このプロセスは Meituan、浙江大学などが協力して、リアルタイムで実行でき、Snapdragon 888 プロセッサを使用するフルプロセスのモバイルマルチモーダル大型モデル MobileVLM を開発しました。

で表すことができます。 Meituan、浙江大学などが協力して、リアルタイムで実行でき、Snapdragon 888 プロセッサを使用するフルプロセスのモバイルマルチモーダル大型モデル MobileVLM を開発しました。

Visual Encoder

本書のセクション 5.1 によると、原文へ実証分析のために、研究者らは、ビジュアルエンコーダF_encとして解像度336×336の事前トレーニング済みCLIP ViT-L/14を使用しました。 Visual Transformer (ViT) は、画像を均一なサイズの画像ブロックに分割し、各画像ブロックに対して線形埋め込みを実行します。その後、位置エンコーディングと統合した後、結果のベクトルシーケンスが通常の変換エンコーダに供給されます。通常、分類に使用されるトークンは、後続の分類タスクのシーケンスに追加されます。

MobileLLaMA

言語モデルについては、この記事では LLaMA のサイズを次のように縮小します。つまり、この論文で提案されているモデルは、ほとんどすべての一般的な推論フレームワークをシームレスにサポートできます。さらに、研究者らは、適切なモデルアーキテクチャを選択するために、エッジデバイス上のモデルの遅延も評価しました。 Neural Architecture Search (NAS) は良い選択ですが、現在、研究者はそれを現在のモデルにすぐには適用していません。表 2 に、この論文のアーキテクチャの詳細な設定を示します。

具体的には、この記事では、語彙サイズ 32000 の LLaMA2 のセンテンスピーストークナイザーを使用し、埋め込み層を最初からトレーニングします。これにより、その後の蒸留が容易になります。リソースが限られているため、事前トレーニング段階ですべてのモデルで使用されるコンテキストの長さは 2k です。ただし、「位置補間による大規模言語モデルのコンテキストウィンドウの拡張」で説明されているように、推論中のコンテキストウィンドウはさらに 8k まで拡張できます。その他のコンポーネントの詳細設定は以下の通りです。

RoPE を適用して位置情報を挿入します。
事前正規化を適用してトレーニングを安定させます。具体的には、この論文ではレイヤー正規化の代わりに RMSNorm を使用し、MLP 拡張率には 4 ではなく 8/3 を使用します。
GELU の代わりに SwiGLU アクティベーション関数を使用します。

効率的なマッピングネットワーク

ビジュアルエンコーダーと言語モデルの間のマッピングネットワークは、マルチモーダル機能を調整するために重要です。既存のモードには、Q-Former と MLP プロジェクションの 2 つがあります。 Q-Former は、各クエリに含まれるビジュアルトークンの数を明示的に制御して、最も関連性の高いビジュアル情報を強制的に抽出します。しかし、この方法ではトークンの空間的位置情報の喪失が避けられず、収束速度も遅い。さらに、エッジデバイスでの推論には効率的ではありません。対照的に、MLP は空間情報を保存しますが、多くの場合、背景などの役に立たないトークンが含まれます。パッチサイズが P の画像の場合、N_v = HW/P^2 のビジュアルトークンを LLM に注入する必要があるため、全体の推論速度が大幅に低下します。 ViT の条件付き位置コーディングアルゴリズム CPVT からインスピレーションを得た研究者は、畳み込みを使用して位置情報を強化し、ビジュアルエンコーダーのローカルインタラクションを促進します。具体的には、効率的であり、さまざまなエッジデバイスで十分にサポートされているディープコンボリューション (PEG の最も単純な形式) に基づくモバイルフレンドリーな操作を調査しました。

空間情報を保持し、計算コストを最小限に抑えるために、この記事ではストライド 2 の畳み込みを使用し、それによってビジュアルトークンの数を 75% 削減します。この設計により、全体的な推論速度が大幅に向上します。ただし、実験結果によると、トークンサンプルの数を減らすと、OCR などの下流タスクのパフォーマンスが大幅に低下します。この影響を軽減するために、研究者らは単一の PEG を置き換えるより強力なネットワークを設計しました。 Lightweight Downsampling Mapping (LDP) と呼ばれる効率的なマッピングネットワークの詳細なアーキテクチャを図 2 に示します。特に、このマッピングネットワークに含まれるパラメータの数は 2,000 万未満で、ビジュアルエンコーダよりも約 81 倍高速に実行されます。

この記事では、トレーニングがバッチサイズの影響を受けないように、「バッチ正規化」の代わりに「レイヤー正規化」を使用します。形式的には、LDP (P と表記) はビジュアル埋め込み Meituan、浙江大学などが協力して、リアルタイムで実行でき、Snapdragon 888 プロセッサを使用するフルプロセスのモバイルマルチモーダル大型モデル MobileVLM を開発しました。

を入力として受け取り、効率的に抽出され位置合わせされたビジュアルトークン Meituan、浙江大学などが協力して、リアルタイムで実行でき、Snapdragon 888 プロセッサを使用するフルプロセスのモバイルマルチモーダル大型モデル MobileVLM を開発しました。

を出力します。

#式は次のとおりです。

実験結果

#MobileLLaMA の評価結果

表 3 では、研究者はこの記事で提案された結果を 2 つの基準で評価しました。自然言語ベンチマーク: モデルは、それぞれ言語理解と常識推論を対象とした 2 つのベンチマークで広範囲に評価されました。前者の評価では、この記事では言語モデル評価ハーネスを使用します。実験結果は、MobileLLaMA 1.4B が TinyLLaMA 1.1B、Gaoptica 1.3B、OPT 1.3B、Pythia 1.4B などの最新のオープンソースモデルと同等であることを示しています。 MobileLLaMA 1.4B は、2T レベルのトークンでトレーニングされ、MobileLLaMA 1.4B の 2 倍高速である TinyLLaMA 1.1B よりも優れたパフォーマンスを示していることは注目に値します。表 5 に示すように、3B レベルでは、MobileLLaMA 2.7B は INCITE 3B (V1) および OpenLLaMA 3B (V1) と同等のパフォーマンスを示します。Snapdragon 888 CPU では、MobileLLaMA 2.7B は OpenLLaMA 3B より約 40% 高速です。

#SOTA VLM との比較

これはこの論文では、GQA、ScienceQA、TextVQA、POPE、および MME における LLaVA のマルチモーダルパフォーマンスを評価しています。また、本稿ではMMBenchを用いた総合比較も行っています。表 4 に示すように、MobileVLM は、パラメーターが削減され、トレーニングデータが限られているにもかかわらず、競争力のあるパフォーマンスを達成します。場合によっては、そのメトリックは、以前の最先端のマルチモーダル視覚言語モデルよりも優れたパフォーマンスを発揮することさえあります。

MobileVLM with LoRA

##低ランク適応 (LoRA) は、より少ないトレーニング可能なパラメーターで使用できます。完全に微調整された LLM よりもさらに優れたパフォーマンス。この論文では、この実践の実証的研究を実施して、そのマルチモーダルなパフォーマンスを検証します。具体的には、VLM 視覚命令の調整フェーズ中に、この論文は LoRA マトリックスを除くすべての LLM パラメータを凍結します。 MobileLLaMA 1.4B と MobileLLaMA 2.7B では、更新されたパラメーターはそれぞれ完全な LLM の 8.87% と 7.41% にすぎません。 LoRA の場合、この記事では lora_r を 128 に、lora_α を 256 に設定します。結果を表 4 に示します。LoRA を使用した MobileVLM は、6 つのベンチマークで完全な微調整に匹敵するパフォーマンスを達成しており、これは LoRA の結果と一致していることがわかります。

モバイルデバイスでの遅延テスト

研究著者Realme GT 携帯電話と NVIDIA Jetson AGX Orin プラットフォームでの MobileLLaMA と MobileVLM の推論遅延を評価しました。この携帯電話は、Snapdragon 888 SoC と 8 GB の RAM を搭載しており、26 TOPS のコンピューティング能力を提供します。 Orin は 32 GB のメモリを搭載し、275 TOPS という驚異的なコンピューティング能力を提供します。 CUDA バージョン 11.4 を使用し、最新の並列コンピューティングテクノロジをサポートしてパフォーマンスを向上させます。

#アブレーション実験

##ビジュアルバックボーンネットワーク

表 7 では、研究者は、さまざまなスケールとさまざまな数のビジュアルトークンでマルチモーダルパフォーマンスを比較しました。すべての実験では、ビジュアルエンコーダとして CLIP ViT を使用しました。

#VL マッピングネットワーク Meituan、浙江大学などが協力して、リアルタイムで実行でき、Snapdragon 888 プロセッサを使用するフルプロセスのモバイルマルチモーダル大型モデル MobileVLM を開発しました。

機能の相互作用とトークンどちらの相互作用も有益であり、研究者らは前者には深さ畳み込みを、後者にはポイント畳み込みを使用しました。表 9 は、さまざまな VL マップされたネットワークのパフォーマンスを示しています。表 9 の行 1 は LLaVA で使用されるモジュールで、2 つの線形層を通じて特徴空間を変換するだけです。行 2 は、トークン相互作用のために各 PW (ポイント単位) の前に DW (深さ方向) 畳み込みを追加します。これは、ストライド 2 で 2x ダウンサンプリングを使用します。 2 つのフロントエンド PW レイヤーを追加すると、より多くの機能レベルの対話が可能になり、トークンの削減によって生じるパフォーマンスの損失が補われます。行 4 と行 5 は、パラメータを追加しても望ましい効果が得られないことを示しています。行 4 と行 6 は、マッピングネットワークの最後でトークンをダウンサンプリングするとプラスの効果があることを示しています。

ビジュアル解像度とトークン数 Meituan、浙江大学などが協力して、リアルタイムで実行でき、Snapdragon 888 プロセッサを使用するフルプロセスのモバイルマルチモーダル大型モデル MobileVLM を開発しました。

ビジュアルトークンの数は直接影響するため、このペーパーでは、モーダルモデルの推論速度について、入力解像度 (RIR) を下げることと軽量ダウンサンプリングプロジェクター (LDP) を使用するという 2 つの設計オプションを比較します。

#SFT の定量分析

LLaMA で微調整された Vicuna は、大規模なマルチモーダルモデルに広く使用されています。表 10 は、2 つの一般的な SFT パラダイム、アルパカとビクーニャを比較しています。研究者らは、SQA、VQA、MME、MMBench のスコアがすべて大幅に改善されたことを発見しました。これは、Vicuna 会話モードで ShareGPT のデータを使用して大規模な言語モデルを微調整すると、最終的に最高のパフォーマンスが得られることを示しています。 SFT のプロンプト形式と下流タスクのトレーニングをより適切に統合するために、この論文では MobileVLM の会話モードを削除し、vicunav1 が最高のパフォーマンスを発揮することを発見しました。

結論

要するに、MobileVLM はモバイルおよびモバイル向けに設計されたツールスイートです。 IoT デバイス向けにカスタマイズされた効率的かつ強力なモバイルビジュアル言語モデル。この文書では、言語モデルと視覚的マッピングネットワークをリセットします。研究者らは、適切なビジュアルバックボーンネットワークの選択、効率的なマッピングネットワークの設計、言語モデル SFT (事前トレーニングと指示調整を含む 2 段階のトレーニング戦略) や LoRA ファインなどのトレーニングソリューションを通じてモデルの機能を強化するために広範な実験を実施しました。チューニングです。研究者は、主流の VLM ベンチマークで MobileVLM のパフォーマンスを厳密に評価しました。 MobileVLM は、一般的なモバイルデバイスや IoT デバイスでも前例のない速度を示します。研究者らは、MobileVLM がモバイルデバイスや自動運転車に導入されるマルチモーダルアシスタントや、より広範な人工知能ロボットなどの幅広いアプリケーションに新たな可能性を開くと考えています。

以上がMeituan、浙江大学などが協力して、リアルタイムで実行でき、Snapdragon 888 プロセッサを使用するフルプロセスのモバイルマルチモーダル大型モデル MobileVLM を開発しました。の詳細内容です。詳細については、PHP 中国語 Web サイトの他の関連記事を参照してください。

声明

この記事は机器之心で複製されています。侵害がある場合は、admin@php.cn までご連絡ください。