ホームページ >テクノロジー周辺機器 >AI >Appleの大型モデルMM1が市場参入:パラメータ数300億、マルチモーダル、MoEアーキテクチャ、作者の半数以上が中国人

Appleの大型モデルMM1が市場参入:パラメータ数300億、マルチモーダル、MoEアーキテクチャ、作者の半数以上が中国人

王林
王林転載
2024-03-15 14:43:21651ブラウズ

今年以来、Apple は明らかに生成人工知能 (GenAI) への重点と投資を増やしています。最近の Apple 株主総会で、Apple CEO のティム・クック氏は、同社は今年 GenAI の分野で大きな進歩を遂げる計画であると述べた。さらに、Apple は 10 年間にわたる自動車製造プロジェクトを放棄すると発表したため、もともと自動車製造に従事していたチームメンバーの一部が GenAI 分野に目を向け始めました。

これらの取り組みを通じて、Apple は GenAI を強化する決意を社外に示しました。現在、GenAIのマルチモーダル分野の技術と製品、特にOpenAIのSoraが注目を集めています。 Appleは当然、この分野で躍進を遂げたいと考えている。

共著の研究論文「MM1: マルチモーダル LLM 事前トレーニングからの方法、分析、洞察」の中で、Apple はマルチモーダル事前トレーニングに基づいた研究を明らかにしました。最大30Bパラメータを収録したマルチモーダルLLMシリーズモデルを発売。

Appleの大型モデルMM1が市場参入:パラメータ数300億、マルチモーダル、MoEアーキテクチャ、作者の半数以上が中国人

論文アドレス: https://arxiv.org/pdf/2403.09611.pdf

調査中、チームはさまざまなアーキテクチャ コンポーネントの重要性とデータ選択について徹底的な議論を行いました。画像エンコーダ、ビジュアル言語コネクタ、さまざまな事前トレーニング データを慎重に選択することで、重要な設計ガイドラインをいくつかまとめました。具体的には、この研究の主な貢献には次の側面が含まれます。

まず、研究者らはモデル アーキテクチャの決定と事前トレーニング データの選択に関して小規模なアブレーション実験を実施し、いくつかの興味深い傾向を発見しました。 モデリング設計の側面の重要性は、画像解像度、ビジュアル エンコーダの損失と容量、ビジュアル エンコーダの事前トレーニング データの順に重要です。

第 2 に、研究者らは、画像キャプション、インターリーブ画像テキスト、プレーン テキスト データという 3 つの異なるタイプの事前トレーニング データを使用しました。 彼らは、ショット数が少なくテキストのみのパフォーマンスに関しては、インターリーブされたテキストのみのトレーニング データが重要であるのに対し、ショット数がゼロのパフォーマンスに関しては、字幕データが最も重要であることを発見しました。 これらの傾向は教師あり微調整 (SFT) 後も持続し、事前トレーニング中に提示されたパフォーマンスとモデリングの決定が微調整後も保持されていることを示しています。

最後に、研究者らは、最大 300 億 (他は 30 億と 70 億) のパラメータを持つマルチモーダル モデル シリーズであり、高密度モデルで構成される MM1 を構築しました。混合エキスパート (MoE) バリアントで構成されており、事前トレーニングされた指標で SOTA を達成するだけでなく、一連の既存のマルチモーダル ベンチマークで監視付き微調整を行った後も競争力のあるパフォーマンスを維持します。

事前トレーニング済みモデル MM1 は、数ショットのシナリオでの字幕や質問と回答のタスクで優れたパフォーマンスを発揮し、Emu2、Flamingo、IDEFICS を上回ります。監視付き微調整後の MM1 は、12 のマルチモーダル ベンチマークでも強力な競争力を示しています。

大規模なマルチモーダル事前トレーニングのおかげで、MM1 はコンテキスト予測、マルチイメージ、思考連鎖推論において優れたパフォーマンスを発揮します。同様に、MM1 は、命令チューニング後に強力な数ショット学習機能を示します。

Appleの大型モデルMM1が市場参入:パラメータ数300億、マルチモーダル、MoEアーキテクチャ、作者の半数以上が中国人

Appleの大型モデルMM1が市場参入:パラメータ数300億、マルチモーダル、MoEアーキテクチャ、作者の半数以上が中国人#

メソッドの概要: MM1 構築の秘密

高性能 MLLM (マルチモーダル大規模言語モデル、マルチモーダル大規模言語モデル) の構築は、非常に実践的な作業です。高レベルのアーキテクチャ設計とトレーニング プロセスは明確ですが、具体的な実装方法は必ずしも明らかではありません。この研究では、研究者らは高性能モデルを構築するために実行されるアブレーションについて詳細に説明しています。彼らは、次の 3 つの主な設計決定の方向性を検討しました。

  • アーキテクチャ: 研究者らは、さまざまな事前トレーニング済み画像エンコーダを検討し、LLM とこれらのエンコーダの接続を検討しました。 立ち上がるためのさまざまな方法。
  • データ: 研究者は、さまざまな種類のデータとそれらの相対的な混合の重みを検討しました。
  • トレーニング手順: 研究者らは、ハイパーパラメーターやモデルのどの部分をいつトレーニングするかなど、MLLM をトレーニングする方法を検討しました。

アブレーション設定

大規模な MLLM をトレーニングすると大量のエネルギーが消費されるため、リソース、研究者らは簡素化されたアブレーション設定を使用しました。アブレーションの基本構成は次のとおりです:

  • 画像エンコーダー: DFN-5B および VeCap-300M で CLIP 損失でトレーニングされた ViT-L/14 モデル、画像サイズは 336 ×336。
  • ビジュアル言語コネクタ: C-Abstractor、144 個の画像トークンが含まれています。
  • 事前トレーニング データ: 混合字幕画像 (45%)、インターリーブ画像テキスト ドキュメント (45%)、およびプレーン テキスト (10%) データ。
  • 言語モデル: 1.2B トランスフォーマー デコーダー言語モデル。

さまざまな設計上の決定を評価するために、研究者らはさまざまな VQA および画像記述タスクでゼロショットと少数ショット (4 サンプルと 8 サンプル) のパフォーマンスを使用しました。: COCO キャプション、 NoCaps、TextCaps、VQAv2、TextVQA、VizWiz、GQA、および OK-VQA。

モデル アーキテクチャ アブレーション実験

研究者らは、LLM による視覚データの処理を可能にするコンポーネントを分析しました。具体的には、(1) ビジュアル エンコーダを最適に事前トレーニングする方法、および (2) ビジュアル特徴を LLM の空間に接続する方法を研究しました (図 3 左を参照)。

Appleの大型モデルMM1が市場参入:パラメータ数300億、マルチモーダル、MoEアーキテクチャ、作者の半数以上が中国人

  • #画像エンコーダの事前トレーニング。このプロセスにおいて、研究者は主に、画像解像度と画像エンコーダの事前トレーニング目標の重要性を排除しました。他のアブレーション実験とは異なり、研究者らは一部のより大きな画像エンコーダを使用するのに十分な容量を確保するために、(1.2B ではなく) 2.9B LLM を使用したことに注意してください。
  • エンコーダ エクスペリエンス: 画像解像度が最も大きな影響を及ぼし、次にモデル サイズとトレーニング データ構成が続きます。表 1 に示すように、画像解像度を 224 から 336 に増やすと、すべてのアーキテクチャのすべてのメトリックが約 3% 向上します。モデル サイズを ViT-L から ViT-H に増やすとパラメーターは 2 倍になりますが、パフォーマンスの向上は控えめで、通常は 1% 未満です。最後に、合成キャプション データセットである VeCap-300M を追加すると、ショット数が少ないシナリオでパフォーマンスが 1% 以上向上します。

Appleの大型モデルMM1が市場参入:パラメータ数300億、マルチモーダル、MoEアーキテクチャ、作者の半数以上が中国人

  • ビジュアル言語コネクタと画像解像度。このコンポーネントの目標は、視覚表現を LLM 空間に変換することです。画像エンコーダは ViT であるため、その出力は単一のエンベディング、または入力画像セグメントに対応するグリッド配置されたエンベディングのセットのいずれかになります。したがって、画像トークンの空間的配置を LLM の順序的配置に変換する必要があります。同時に、実際の画像トークン表現も単語埋め込み空間にマッピングする必要があります。
  • VL コネクタのエクスペリエンス: ビジュアル トークンの数と画像解像度が最も重要ですが、VL コネクタの種類はほとんど影響しません。図 4 に示すように、ビジュアル トークンの数または画像解像度が増加するにつれて、ゼロ サンプルおよび少数のサンプルの認識率が増加します。

Appleの大型モデルMM1が市場参入:パラメータ数300億、マルチモーダル、MoEアーキテクチャ、作者の半数以上が中国人

#トレーニング前のデータアブレーション実験

一般的には、モデル トレーニングは、事前トレーニングと指導チューニングの 2 つの段階に分かれています。前者の段階ではネットワーク規模のデータが使用され、後者の段階ではミッション固有のキュレーションされたデータが使用されます。以下では、この記事の事前トレーニング段階に焦点を当て、研究者によるデータ選択について詳しく説明します (図 3 右)。

MLLM のトレーニングに一般的に使用されるデータには、画像とテキストのペアの説明で構成されるキャプション データと、Web から取得した画像とテキストが交互に挿入されたドキュメントの 2 種類があります。表 2 は、データ セットの完全なリストです。

Appleの大型モデルMM1が市場参入:パラメータ数300億、マルチモーダル、MoEアーキテクチャ、作者の半数以上が中国人


    ##データ レッスン 1: インターリーブされたデータは次のことに役立ちます。少数サンプルおよびプレーン テキストのパフォーマンスを向上させるために使用されますが、字幕データはゼロサンプルのパフォーマンスを向上させることができます。図 5a は、インターリーブ データと字幕付きデータのさまざまな組み合わせの結果を示しています。
  • データ エクスペリエンス 2: プレーン テキスト データは、少数サンプルおよびプレーン テキストのパフォーマンスの向上に役立ちます。図5bに示すように、プレーンテキストデータと字幕データを組み合わせることで、少数ショットのパフォーマンスが向上します。
  • データ レッスン 3: 画像データとテキスト データを慎重にブレンドすると、強力なテキスト パフォーマンスを維持しながら、最適なマルチモーダル パフォーマンスが得られます。図 5c は、画像 (タイトルとインターレース) とプレーン テキスト データの間のいくつかの混合比率を試しています。
  • データ エクスペリエンス 4: 合成データは、数回の学習に役立ちます。図 5d に示すように、合成データは少数ショット学習のパフォーマンスを大幅に向上させており、絶対値はそれぞれ 2.4% と 4% です。

Appleの大型モデルMM1が市場参入:パラメータ数300億、マルチモーダル、MoEアーキテクチャ、作者の半数以上が中国人

最終モデルとトレーニング方法

研究者は以前のアブレーション結果を収集し、 MM1 マルチモーダル事前トレーニングの最終レシピ:

  • 画像エンコーダー: 画像解像度の重要性を考慮して、研究者は解像度 378x378px の ViT-H モデルを使用し、DFN-5B の CLIP ターゲットを使用して事前トレーニングしました。
  • ビジュアル言語コネクタ: ビジュアル トークンの数が最も重要であるため、研究者は 144 個のトークンを持つ VL コネクタを使用しました。実際のアーキテクチャは重要ではないようで、研究者は C-Abstract を選択しました;
  • データ: サンプルがゼロおよび少数のサンプルのパフォーマンスを維持するために、研究者は次を使用しました。慎重に結合されたデータ: 45% が画像とテキストが交互に挿入されたドキュメント、45% が画像とテキストのドキュメント、10% がテキストのみのドキュメント。

モデルのパフォーマンスを向上させるために、研究者らは LLM のサイズを 3B、7B、および 30B パラメーターに拡張しました。すべてのモデルは完全にフリーズ解除され、バッチ サイズ 512 シーケンス、シーケンス長 4096、シーケンスあたり最大 16 枚の画像、解像度 378 × 378 で事前トレーニングされました。すべてのモデルは AXLearn フレームワークを使用してトレーニングされました。

彼らは、対数空間での線形回帰を使用して、小規模なモデルからより大きなモデルへの変更を外挿し、900 万、8500 万、30200 万、1.2B の小規模な学習率でグリッド検索を実行しました。 (図 6 を参照)、結果は、(非埋め込み) パラメーターの数 N を考慮して、最適なピーク学習率 η を予測します。

Appleの大型モデルMM1が市場参入:パラメータ数300億、マルチモーダル、MoEアーキテクチャ、作者の半数以上が中国人

#専門家の混合(MoE)により拡張。実験では、研究者らは言語モデルの FFN 層にさらに多くの専門家を追加することで、高密度モデルを拡張する方法をさらに検討しました。

稠密モデルを MoE に変換するには、稠密言語デコーダを MoE 言語デコーダに置き換えるだけです。 MoE をトレーニングするために、研究者らは、トレーニング データとトレーニング トークンを含む、Dense Backbone 4 と同じトレーニング ハイパーパラメーターと同じトレーニング設定を使用しました。

マルチモーダル事前トレーニングの結果に関して、研究者は、適切なプロンプトを使用して、上限および VQA タスクで事前トレーニングされたモデルを評価しました。表 3 は、ゼロサンプルと少数のサンプルを評価します。

Appleの大型モデルMM1が市場参入:パラメータ数300億、マルチモーダル、MoEアーキテクチャ、作者の半数以上が中国人

監視された微調整結果

最後に、研究者らは、事前トレーニングされたモデルに基づいてトレーニングされた教師あり微調整 (SFT) 実験を導入しました。

彼らは、LLaVA-1.5 と LLaVA-NeXT に従い、さまざまなデータセットから約 100 万の SFT サンプルを収集しました。直感的に画像解像度が高いほどパフォーマンスが向上することを考慮して、研究者らは高解像度に拡張された SFT 手法も採用しました。

教師あり微調整の結果は次のとおりです。

表 4 は SOTA との比較を示しています。「-Chat」は MM1 を示します。モデル監修後の微調整を行っております。

まず、平均して、MM1-3B-Chat と MM1-7B-Chat は、リストされている同じサイズのすべてのモデルよりも優れたパフォーマンスを発揮します。 MM1-3B-Chat および MM1-7B-Chat は、VQAv2、TextVQA、ScienceQA、MMBench、および最近のベンチマーク (MMMU および MathVista) で特に優れたパフォーマンスを発揮します。

第二に、研究者らは、3B-MoE (64 人の専門家) と 6B-MoE (32 人の専門家) という 2 つの MoE モデルを調査しました。 Apple の MoE モデルは、ほぼすべてのベンチマークで高密度モデルよりも優れたパフォーマンスを達成しました。これは、MoE がさらに拡大する大きな可能性を示しています。

3 番目に、30B サイズ モデルの場合、MM1-30B-Chat は TextVQA、SEED、MMMU 上で Emu2-Chat37B および CogVLM-30B よりも優れたパフォーマンスを発揮します。 MM1 は、LLaVA-NeXT と比較して、総合的なパフォーマンスも優れています。

ただし、LLaVA-NeXT は複数の画像推論をサポートしておらず、少数サンプルのプロンプトもサポートしていません。これは、各画像が LLM に送信される 2880 個のトークンとして表され、その合計数がMM1 のトークンは 720 個しかありません。これにより、複数の画像を含む特定のアプリケーションが制限されます。

Appleの大型モデルMM1が市場参入:パラメータ数300億、マルチモーダル、MoEアーキテクチャ、作者の半数以上が中国人

図 7b は、SFT 評価指標の平均パフォーマンスに対する入力画像解像度の影響を示しています。図 7c は、それを事前トレーニング データとして示しています。が増加し、モデルのパフォーマンスは向上し続けます。

画像解像度の影響。図 7b は、SFT 評価基準の平均パフォーマンスに対する入力画像解像度の影響を示しています。

事前トレーニングの影響: 図 7c は、事前トレーニング データが増加するにつれて、モデルのパフォーマンスが向上し続けていることを示しています。

Appleの大型モデルMM1が市場参入:パラメータ数300億、マルチモーダル、MoEアーキテクチャ、作者の半数以上が中国人

研究の詳細については、元の論文を参照してください。

以上がAppleの大型モデルMM1が市場参入:パラメータ数300億、マルチモーダル、MoEアーキテクチャ、作者の半数以上が中国人の詳細内容です。詳細については、PHP 中国語 Web サイトの他の関連記事を参照してください。

声明:
この記事は51cto.comで複製されています。侵害がある場合は、admin@php.cn までご連絡ください。