検索
ホームページテクノロジー周辺機器AIマルチモーダル大型モデルが疎らで、3B モデル MoE-LLaVA は LLaVA-1.5-7B に匹敵します

大規模ビジュアル言語モデル (LVLM) は、モデルをスケーリングすることでパフォーマンスを向上させることができます。ただし、パラメーター サイズを増やすと、各トークンの計算によってすべてのモデル パラメーターがアクティブ化されるため、トレーニングと推論のコストが増加します。

北京大学、中山大学、その他の機関の研究者らは共同で、マルチモーダル学習とモデルのスパース性に関連するパフォーマンス低下の問題を解決するために、MoE-Tuning と呼ばれる新しいトレーニング戦略を提案しました。 MoE-Tuning は、驚くほど多くのパラメーターを持ちながら一定の計算コストを備えたスパース モデルを構築できます。さらに、研究者らは、MoE-LLaVA フレームワークと呼ばれる、MoE に基づく新しいスパース LVLM アーキテクチャも提案しました。このフレームワークでは、上位 k 個のエキスパートのみがルーティング アルゴリズムを通じてアクティブ化され、残りのエキスパートは非アクティブなままになります。このようにして、MoE-LLaVA フレームワークは、展開プロセス中にエキスパート ネットワークのリソースをより効率的に利用できます。これらの研究結果は、LVLM モデルのマルチモーダル学習とモデルのスパース性の課題を解決するための新しいソリューションを提供します。

マルチモーダル大型モデルが疎らで、3B モデル MoE-LLaVA は LLaVA-1.5-7B に匹敵します

  • 論文アドレス: https://arxiv.org/abs/2401.15947

  • プロジェクト アドレス: https://github.com/PKU-YuanGroup/MoE-LLaVA

  • デモ アドレス: https://huggingface.co/spaces/LanguageBind/MoE-LLaVA

  • 論文タイトル: MoE-LLaVA: 大規模ビジョン言語モデルの専門家の混合

MoE-LLaVA には 3B のスパース アクティベーション パラメータしかありませんが、パフォーマンスは同様ですLLaVA-1.5-7B は、さまざまな視覚理解データセットで同等であり、物体錯覚ベンチマークでは LLaVA-1.5-13B を上回っています。 MoE-LLaVA を通じて、この研究はスパース LVLM のベンチマークを確立し、より効率的かつ効果的なマルチモーダル学習システムを開発するための将来の研究に貴重な洞察を提供することを目的としています。 MoE-LLaVA チームは、すべてのデータ、コード、モデルをオープンにしました。

マルチモーダル大型モデルが疎らで、3B モデル MoE-LLaVA は LLaVA-1.5-7B に匹敵します

図 1 MoE-LLaVA の幻覚性能と他の LVLM の比較

メソッドの紹介

MoE-LLaVA では 3 段階のトレーニング戦略を採用しています。

マルチモーダル大型モデルが疎らで、3B モデル MoE-LLaVA は LLaVA-1.5-7B に匹敵します

図 2 MoE チューニングのフローチャート

として図 2 に示すように、ビジョン エンコーダは入力画像を処理してビジュアル トークン シーケンスを取得します。投影レイヤーは、ビジュアル トークンを LLM が許容できる次元にマッピングするために使用されます。同様に、画像とペアになったテキストは単語埋め込みレイヤーを通じて投影され、シーケンス テキスト トークンが取得されます。

フェーズ 1: 図 2 に示すように、フェーズ 1 の目標は、ビジュアル トークンを LLM に適応させ、LLM が画像内のエンティティを理解できるようにすることです。 MoE-LLaVA は、MLP を使用して画像トークンを LLM の入力ドメインに投影します。これは、小さな画像パッチが LLM によって疑似テキスト トークンとして扱われることを意味します。この段階で、LLM は画像を記述し、より高レベルの画像のセマンティクスを理解するようにトレーニングされます。この段階では、MoE レイヤーは LVLM に適用されません。

マルチモーダル大型モデルが疎らで、3B モデル MoE-LLaVA は LLaVA-1.5-7B に匹敵します

図 3 より具体的なトレーニング フレームワークとトレーニング戦略

フェーズ 2: マルチモーダル指示データの使用チューニングは、大型モデルの能力と制御性を向上させるための重要なテクノロジーであり、この段階では、LLM はマルチモーダル理解機能を備えた LVLM に調整されています。この段階では、研究では、画像論理的推論やテキスト認識などの高度なタスクを含む、より複雑な命令が追加されます。これには、モデルがより強力なマルチモーダル理解能力を必要とします。一般に、この時点で密モデルの LVLM がトレーニングされますが、研究チームは、LLM を LVLM に変換し、同時にモデルをスパース化することが困難であることを発見しました。したがって、MoE-LLaVA は、スパース モデルの学習の困難さを軽減するために、第 2 段階の重みを第 3 段階の初期化として使用します。

フェーズ 3: MoE-LLaVA は、エキスパート セットの初期化重みとして FFN の複数のコピーをコピーします。ビジュアル トークンとテキスト トークンが MoE レイヤーに入力されると、ルーターは各トークンとエキスパートの一致する重みを計算し、各トークンは最も一致する上位 k 個のエキスパートに送信されて処理され、最終的にはルーターの重み 重み付けされた合計が出力に集約されます。トップ k のエキスパートがアクティブ化されると、残りのエキスパートは非アクティブなままとなり、このモデルは無限の可能性のある疎な経路を持つ MoE-LLaVA を構成します。

#実験

##図 4 に示すように、 MoE-LLaVA はソフトルーターを備えた LVLM ベースの最初のスパースモデルであるため、この研究では以前のモデルをデンスモデルとして要約します。研究チームは、5つの画像質問と回答ベンチマークでMoE-LLaVAのパフォーマンスを検証し、アクティブ化されたパラメータの量と画像解像度を報告しました。 SOTA 方式 LLaVA-1.5 と比較して、MoE-LLaVA-2.7B×4 は強力な画像理解能力を示し、5 つのベンチマークにおけるパフォーマンスは LLaVA-1.5 に非常に近いです。このうち、MoE-LLaVA は 3.6B スパース活性化パラメータを使用し、SQAI で LLaVA-1.5-7B を 1.9% 上回っています。 MoE-LLaVA の疎な構造により、IDEFICS-80B を完全に超えるには 2.6B のアクティベーション パラメータのみが必要であることは注目に値します。

マルチモーダル大型モデルが疎らで、3B モデル MoE-LLaVA は LLaVA-1.5-7B に匹敵します

#図 4 9 つのベンチマークにおける MoE-LLaVA のパフォーマンス
さらに、研究チームは、同等のアクティベーション下で GQA と VisWiz でそれぞれ TinyGPT-V を 27.5% および 10% 上回った最近の小型視覚言語モデル TinyGPT-V、MoE-LLaVA-1.8B×4 にも注目しました。これは、MoE-LLaVA の自然視覚における強力な理解能力を示しています。
MoE-LLaVA のマルチモーダル理解機能をより包括的に検証するために、この研究では 4 つのベンチマーク ツールキットでモデルのパフォーマンスを評価しました。ベンチマーク ツールキットは、モデルが自然言語で質問に回答できるかどうかを検証するためのツールキットです。通常、回答はオープンであり、固定のテンプレートはありません。図 4 に示すように、MoE-LLaVA-1.8B×4 は、より大きな画像解像度を使用する Qwen-VL よりも優れたパフォーマンスを示します。これらの結果は、疎モデルである MoE-LLaVA が、より少ない活性化パラメーターで密モデルと同等またはそれを超えるパフォーマンスを達成できることを示しています。

マルチモーダル大型モデルが疎らで、3B モデル MoE-LLaVA は LLaVA-1.5-7B に匹敵します#図 5 幻覚物体検出における MoE-LLaVA の性能評価

この研究では、POPE 評価パイプラインを使用して MoE-LLaVA の物体の錯視を検証します。結果は図 5 に示されています。MoE-LLaVA は最高のパフォーマンスを示しています。これは、MoE-LLaVA が一貫した画像を生成する傾向があることを意味します指定された画像のオブジェクト。具体的には、MoE-LLaVA-1.8B×4 は活性化パラメーター 2.2B で LLaVA を上回りました。さらに、研究チームは、MoE-LLaVAのyes比率が比較的バランスの取れた状態にあることを観察し、これはスパースモデルMoE-LLaVAが問題に応じて正しいフィードバックを行うことができることを示しています。

#図 6 エキスパートによる負荷の視覚化マルチモーダル大型モデルが疎らで、3B モデル MoE-LLaVA は LLaVA-1.5-7B に匹敵します

図 6 表示ScienceQA で MoE-LLaVA-2.7B×4-Top2 のエキスパート ロードを受けました。全体として、トレーニングの初期化中、すべての MoE レイヤーのエキスパートの負荷は比較的バランスが取れています。しかし、モデルが徐々に疎になると、レイヤー 17 から 27 の専門家の負荷が突然増加し、ほぼすべてのトークンをカバーすることさえあります。浅い層 5 ~ 11 では、主にエキスパート 2、3、4 が協力して作業します。 Expert 1 はレイヤー 1 ~ 3 でほぼ独占的に機能し、モデルが深くなるにつれて徐々に作業から外れることは注目に値します。したがって、MoE-LLaVA の専門家は、特定のルールに従って専門家の分業を可能にする特定のパターンを学習しました。

#図 7 モーダル分布の視覚化

##図 7 は、さまざまな専門家のモーダル分布を示しています。この研究では、テキストと画像のルーティング分布が非常に似ていることがわかり、たとえば、エキスパート 3 がレイヤー 17 ~ 27 で熱心に作業した場合、それによって処理されるテキストと画像の割合は類似しています。これは、MoE-LLaVA がモダリティを明確に優先していないことを示しています。

この研究では、トークン レベルで専門家の行動を観察し、ダウンストリーム タスクにおけるスパース ネットワーク内のすべてのトークンの軌跡も追跡しました。図 8 に示すように、この研究では、テキストと画像のすべての活性化された経路について、PCA を使用して次元を削減し、主要な 10 の経路を取得しました。研究チームは、目に見えないテキストトークンまたは画像トークンの場合、MoE-LLaVA はモデルの深さに対処するために常に専門家 2 と 3 を派遣することを好むことを発見しました。エキスパート 1 と 4 は、初期化されたトークンを扱う傾向があります。これらの結果は、マルチモーダル学習における疎モデルの動作をより深く理解し、未知の可能性を探るのに役立ちます。

マルチモーダル大型モデルが疎らで、3B モデル MoE-LLaVA は LLaVA-1.5-7B に匹敵します

図 8 活性化された経路の視覚化

以上がマルチモーダル大型モデルが疎らで、3B モデル MoE-LLaVA は LLaVA-1.5-7B に匹敵しますの詳細内容です。詳細については、PHP 中国語 Web サイトの他の関連記事を参照してください。

声明
この記事は机器之心で複製されています。侵害がある場合は、admin@php.cn までご連絡ください。
迅速なエンジニアリングにおける思考のグラフは何ですか迅速なエンジニアリングにおける思考のグラフは何ですかApr 13, 2025 am 11:53 AM

導入 迅速なエンジニアリングでは、「思考のグラフ」とは、グラフ理論を使用してAIの推論プロセスを構造化および導く新しいアプローチを指します。しばしば線形sを含む従来の方法とは異なります

Genaiエージェントとの電子メールマーケティングを組織に最適化しますGenaiエージェントとの電子メールマーケティングを組織に最適化しますApr 13, 2025 am 11:44 AM

導入 おめでとう!あなたは成功したビジネスを運営しています。ウェブページ、ソーシャルメディアキャンペーン、ウェビナー、会議、無料リソース、その他のソースを通じて、毎日5000の電子メールIDを収集します。次の明白なステップはです

Apache Pinotによるリアルタイムアプリのパフォーマンス監視Apache Pinotによるリアルタイムアプリのパフォーマンス監視Apr 13, 2025 am 11:40 AM

導入 今日のペースの速いソフトウェア開発環境では、最適なアプリケーションパフォーマンスが重要です。応答時間、エラーレート、リソース利用などのリアルタイムメトリックを監視することで、メインに役立ちます

ChatGptは10億人のユーザーにヒットしますか? 「わずか数週間で2倍になりました」とOpenai CEOは言いますChatGptは10億人のユーザーにヒットしますか? 「わずか数週間で2倍になりました」とOpenai CEOは言いますApr 13, 2025 am 11:23 AM

「ユーザーは何人いますか?」彼は突き出した。 「私たちが最後に言ったのは毎週5億人のアクティブであり、非常に急速に成長していると思います」とアルトマンは答えました。 「わずか数週間で2倍になったと言った」とアンダーソンは続けた。 「私はそのprivと言いました

PIXTRAL -12B:Mistral AI'の最初のマルチモーダルモデル-Analytics VidhyaPIXTRAL -12B:Mistral AI'の最初のマルチモーダルモデル-Analytics VidhyaApr 13, 2025 am 11:20 AM

導入 Mistralは、最初のマルチモーダルモデル、つまりPixtral-12B-2409をリリースしました。このモデルは、Mistralの120億個のパラメーターであるNemo 12bに基づいて構築されています。このモデルを際立たせるものは何ですか?これで、画像とTexの両方を採用できます

生成AIアプリケーションのエージェントフレームワーク - 分析Vidhya生成AIアプリケーションのエージェントフレームワーク - 分析VidhyaApr 13, 2025 am 11:13 AM

クエリに応答するだけでなく、情報を自律的に収集し、タスクを実行し、テキスト、画像、コードなどの複数のタイプのデータを処理するAIを搭載したアシスタントがいることを想像してください。未来的に聞こえますか?これでa

金融セクターにおける生成AIの応用金融セクターにおける生成AIの応用Apr 13, 2025 am 11:12 AM

導入 金融業界は、効率的な取引と信用の可用性を促進することにより経済成長を促進するため、あらゆる国の発展の基礎となっています。取引の容易さとクレジット

オンライン学習とパッシブアグレッシブアルゴリズムのガイドオンライン学習とパッシブアグレッシブアルゴリズムのガイドApr 13, 2025 am 11:09 AM

導入 データは、ソーシャルメディア、金融取引、eコマースプラットフォームなどのソースから前例のないレートで生成されています。この連続的な情報ストリームを処理することは課題ですが、

See all articles

ホットAIツール

Undresser.AI Undress

Undresser.AI Undress

リアルなヌード写真を作成する AI 搭載アプリ

AI Clothes Remover

AI Clothes Remover

写真から衣服を削除するオンライン AI ツール。

Undress AI Tool

Undress AI Tool

脱衣画像を無料で

Clothoff.io

Clothoff.io

AI衣類リムーバー

AI Hentai Generator

AI Hentai Generator

AIヘンタイを無料で生成します。

ホットツール

SublimeText3 Linux 新バージョン

SublimeText3 Linux 新バージョン

SublimeText3 Linux 最新バージョン

SublimeText3 Mac版

SublimeText3 Mac版

神レベルのコード編集ソフト(SublimeText3)

ZendStudio 13.5.1 Mac

ZendStudio 13.5.1 Mac

強力な PHP 統合開発環境

SAP NetWeaver Server Adapter for Eclipse

SAP NetWeaver Server Adapter for Eclipse

Eclipse を SAP NetWeaver アプリケーション サーバーと統合します。

EditPlus 中国語クラック版

EditPlus 中国語クラック版

サイズが小さく、構文の強調表示、コード プロンプト機能はサポートされていません