マルチモーダル大型モデルが疎らで、3B モデル MoE-LLaVA は LLaVA-1.5-7B に匹敵します-AI-php.cn

ホームページ

テクノロジー周辺機器

マルチモーダル大型モデルが疎らで、3B モデル MoE-LLaVA は LLaVA-1.5-7B に匹敵します

WBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWB

Feb 01, 2024 pm 05:15 PM

業界スパースモデル大規模な視覚言語モデル

大規模ビジュアル言語モデル (LVLM) は、モデルをスケーリングすることでパフォーマンスを向上させることができます。ただし、パラメーターサイズを増やすと、各トークンの計算によってすべてのモデルパラメーターがアクティブ化されるため、トレーニングと推論のコストが増加します。

北京大学、中山大学、その他の機関の研究者らは共同で、マルチモーダル学習とモデルのスパース性に関連するパフォーマンス低下の問題を解決するために、MoE-Tuning と呼ばれる新しいトレーニング戦略を提案しました。 MoE-Tuning は、驚くほど多くのパラメーターを持ちながら一定の計算コストを備えたスパースモデルを構築できます。さらに、研究者らは、MoE-LLaVA フレームワークと呼ばれる、MoE に基づく新しいスパース LVLM アーキテクチャも提案しました。このフレームワークでは、上位 k 個のエキスパートのみがルーティングアルゴリズムを通じてアクティブ化され、残りのエキスパートは非アクティブなままになります。このようにして、MoE-LLaVA フレームワークは、展開プロセス中にエキスパートネットワークのリソースをより効率的に利用できます。これらの研究結果は、LVLM モデルのマルチモーダル学習とモデルのスパース性の課題を解決するための新しいソリューションを提供します。

マルチモーダル大型モデルが疎らで、3B モデル MoE-LLaVA は LLaVA-1.5-7B に匹敵します

論文アドレス: https://arxiv.org/abs/2401.15947
プロジェクトアドレス: https://github.com/PKU-YuanGroup/MoE-LLaVA
デモアドレス: https://huggingface.co/spaces/LanguageBind/MoE-LLaVA
論文タイトル: MoE-LLaVA: 大規模ビジョン言語モデルの専門家の混合

MoE-LLaVA には 3B のスパースアクティベーションパラメータしかありませんが、パフォーマンスは同様ですLLaVA-1.5-7B は、さまざまな視覚理解データセットで同等であり、物体錯覚ベンチマークでは LLaVA-1.5-13B を上回っています。 MoE-LLaVA を通じて、この研究はスパース LVLM のベンチマークを確立し、より効率的かつ効果的なマルチモーダル学習システムを開発するための将来の研究に貴重な洞察を提供することを目的としています。 MoE-LLaVA チームは、すべてのデータ、コード、モデルをオープンにしました。

マルチモーダル大型モデルが疎らで、3B モデル MoE-LLaVA は LLaVA-1.5-7B に匹敵します

^{図 1 MoE-LLaVA の幻覚性能と他の LVLM の比較}

メソッドの紹介

MoE-LLaVA では 3 段階のトレーニング戦略を採用しています。

マルチモーダル大型モデルが疎らで、3B モデル MoE-LLaVA は LLaVA-1.5-7B に匹敵します

^{図 2 MoE チューニングのフローチャート}

として図 2 に示すように、ビジョンエンコーダは入力画像を処理してビジュアルトークンシーケンスを取得します。投影レイヤーは、ビジュアルトークンを LLM が許容できる次元にマッピングするために使用されます。同様に、画像とペアになったテキストは単語埋め込みレイヤーを通じて投影され、シーケンステキストトークンが取得されます。

フェーズ 1: 図 2 に示すように、フェーズ 1 の目標は、ビジュアルトークンを LLM に適応させ、LLM が画像内のエンティティを理解できるようにすることです。 MoE-LLaVA は、MLP を使用して画像トークンを LLM の入力ドメインに投影します。これは、小さな画像パッチが LLM によって疑似テキストトークンとして扱われることを意味します。この段階で、LLM は画像を記述し、より高レベルの画像のセマンティクスを理解するようにトレーニングされます。この段階では、MoE レイヤーは LVLM に適用されません。

マルチモーダル大型モデルが疎らで、3B モデル MoE-LLaVA は LLaVA-1.5-7B に匹敵します

^{図 3 より具体的なトレーニングフレームワークとトレーニング戦略}

フェーズ 2: マルチモーダル指示データの使用チューニングは、大型モデルの能力と制御性を向上させるための重要なテクノロジーであり、この段階では、LLM はマルチモーダル理解機能を備えた LVLM に調整されています。この段階では、研究では、画像論理的推論やテキスト認識などの高度なタスクを含む、より複雑な命令が追加されます。これには、モデルがより強力なマルチモーダル理解能力を必要とします。一般に、この時点で密モデルの LVLM がトレーニングされますが、研究チームは、LLM を LVLM に変換し、同時にモデルをスパース化することが困難であることを発見しました。したがって、MoE-LLaVA は、スパースモデルの学習の困難さを軽減するために、第 2 段階の重みを第 3 段階の初期化として使用します。

フェーズ 3: MoE-LLaVA は、エキスパートセットの初期化重みとして FFN の複数のコピーをコピーします。ビジュアルトークンとテキストトークンが MoE レイヤーに入力されると、ルーターは各トークンとエキスパートの一致する重みを計算し、各トークンは最も一致する上位 k 個のエキスパートに送信されて処理され、最終的にはルーターの重み重み付けされた合計が出力に集約されます。トップ k のエキスパートがアクティブ化されると、残りのエキスパートは非アクティブなままとなり、このモデルは無限の可能性のある疎な経路を持つ MoE-LLaVA を構成します。

#実験

##図 4 に示すように、 MoE-LLaVA はソフトルーターを備えた LVLM ベースの最初のスパースモデルであるため、この研究では以前のモデルをデンスモデルとして要約します。研究チームは、5つの画像質問と回答ベンチマークでMoE-LLaVAのパフォーマンスを検証し、アクティブ化されたパラメータの量と画像解像度を報告しました。 SOTA 方式 LLaVA-1.5 と比較して、MoE-LLaVA-2.7B×4 は強力な画像理解能力を示し、5 つのベンチマークにおけるパフォーマンスは LLaVA-1.5 に非常に近いです。このうち、MoE-LLaVA は 3.6B スパース活性化パラメータを使用し、SQAI で LLaVA-1.5-7B を 1.9% 上回っています。 MoE-LLaVA の疎な構造により、IDEFICS-80B を完全に超えるには 2.6B のアクティベーションパラメータのみが必要であることは注目に値します。

マルチモーダル大型モデルが疎らで、3B モデル MoE-LLaVA は LLaVA-1.5-7B に匹敵します

#図 4 9 つのベンチマークにおける MoE-LLaVA のパフォーマンス

さらに、研究チームは、同等のアクティベーション下で GQA と VisWiz でそれぞれ TinyGPT-V を 27.5% および 10% 上回った最近の小型視覚言語モデル TinyGPT-V、MoE-LLaVA-1.8B×4 にも注目しました。これは、MoE-LLaVA の自然視覚における強力な理解能力を示しています。

MoE-LLaVA のマルチモーダル理解機能をより包括的に検証するために、この研究では 4 つのベンチマークツールキットでモデルのパフォーマンスを評価しました。ベンチマークツールキットは、モデルが自然言語で質問に回答できるかどうかを検証するためのツールキットです。通常、回答はオープンであり、固定のテンプレートはありません。図 4 に示すように、MoE-LLaVA-1.8B×4 は、より大きな画像解像度を使用する Qwen-VL よりも優れたパフォーマンスを示します。これらの結果は、疎モデルである MoE-LLaVA が、より少ない活性化パラメーターで密モデルと同等またはそれを超えるパフォーマンスを達成できることを示しています。

マルチモーダル大型モデルが疎らで、3B モデル MoE-LLaVA は LLaVA-1.5-7B に匹敵します #図 5 幻覚物体検出における MoE-LLaVA の性能評価

この研究では、POPE 評価パイプラインを使用して MoE-LLaVA の物体の錯視を検証します。結果は図 5 に示されています。MoE-LLaVA は最高のパフォーマンスを示しています。これは、MoE-LLaVA が一貫した画像を生成する傾向があることを意味します指定された画像のオブジェクト。具体的には、MoE-LLaVA-1.8B×4 は活性化パラメーター 2.2B で LLaVA を上回りました。さらに、研究チームは、MoE-LLaVAのyes比率が比較的バランスの取れた状態にあることを観察し、これはスパースモデルMoE-LLaVAが問題に応じて正しいフィードバックを行うことができることを示しています。

#図 6 エキスパートによる負荷の視覚化マルチモーダル大型モデルが疎らで、3B モデル MoE-LLaVA は LLaVA-1.5-7B に匹敵します

図 6 表示ScienceQA で MoE-LLaVA-2.7B×4-Top2 のエキスパートロードを受けました。全体として、トレーニングの初期化中、すべての MoE レイヤーのエキスパートの負荷は比較的バランスが取れています。しかし、モデルが徐々に疎になると、レイヤー 17 から 27 の専門家の負荷が突然増加し、ほぼすべてのトークンをカバーすることさえあります。浅い層 5 ～ 11 では、主にエキスパート 2、3、4 が協力して作業します。 Expert 1 はレイヤー 1 ～ 3 でほぼ独占的に機能し、モデルが深くなるにつれて徐々に作業から外れることは注目に値します。したがって、MoE-LLaVA の専門家は、特定のルールに従って専門家の分業を可能にする特定のパターンを学習しました。

^{#図 7 モーダル分布の視覚化}

##図 7 は、さまざまな専門家のモーダル分布を示しています。この研究では、テキストと画像のルーティング分布が非常に似ていることがわかり、たとえば、エキスパート 3 がレイヤー 17 ～ 27 で熱心に作業した場合、それによって処理されるテキストと画像の割合は類似しています。これは、MoE-LLaVA がモダリティを明確に優先していないことを示しています。

この研究では、トークンレベルで専門家の行動を観察し、ダウンストリームタスクにおけるスパースネットワーク内のすべてのトークンの軌跡も追跡しました。図 8 に示すように、この研究では、テキストと画像のすべての活性化された経路について、PCA を使用して次元を削減し、主要な 10 の経路を取得しました。研究チームは、目に見えないテキストトークンまたは画像トークンの場合、MoE-LLaVA はモデルの深さに対処するために常に専門家 2 と 3 を派遣することを好むことを発見しました。エキスパート 1 と 4 は、初期化されたトークンを扱う傾向があります。これらの結果は、マルチモーダル学習における疎モデルの動作をより深く理解し、未知の可能性を探るのに役立ちます。

マルチモーダル大型モデルが疎らで、3B モデル MoE-LLaVA は LLaVA-1.5-7B に匹敵します