ホームページ >テクノロジー周辺機器 >AI >Appleの大型モデルMM1が市場参入:パラメータ数300億、マルチモーダル、MoEアーキテクチャ、作者の半数以上が中国人
今年以来、Apple は明らかに生成人工知能 (GenAI) への重点と投資を増やしています。最近の Apple 株主総会で、Apple CEO のティム・クック氏は、同社は今年 GenAI の分野で大きな進歩を遂げる計画であると述べた。さらに、Apple は 10 年間にわたる自動車製造プロジェクトを放棄すると発表したため、もともと自動車製造に従事していたチームメンバーの一部が GenAI 分野に目を向け始めました。
これらの取り組みを通じて、Apple は GenAI を強化する決意を社外に示しました。現在、GenAIのマルチモーダル分野の技術と製品、特にOpenAIのSoraが注目を集めています。 Appleは当然、この分野で躍進を遂げたいと考えている。
共著の研究論文「MM1: マルチモーダル LLM 事前トレーニングからの方法、分析、洞察」の中で、Apple はマルチモーダル事前トレーニングに基づいた研究を明らかにしました。最大30Bパラメータを収録したマルチモーダルLLMシリーズモデルを発売。
論文アドレス: https://arxiv.org/pdf/2403.09611.pdf
調査中、チームはさまざまなアーキテクチャ コンポーネントの重要性とデータ選択について徹底的な議論を行いました。画像エンコーダ、ビジュアル言語コネクタ、さまざまな事前トレーニング データを慎重に選択することで、重要な設計ガイドラインをいくつかまとめました。具体的には、この研究の主な貢献には次の側面が含まれます。
まず、研究者らはモデル アーキテクチャの決定と事前トレーニング データの選択に関して小規模なアブレーション実験を実施し、いくつかの興味深い傾向を発見しました。 モデリング設計の側面の重要性は、画像解像度、ビジュアル エンコーダの損失と容量、ビジュアル エンコーダの事前トレーニング データの順に重要です。
第 2 に、研究者らは、画像キャプション、インターリーブ画像テキスト、プレーン テキスト データという 3 つの異なるタイプの事前トレーニング データを使用しました。 彼らは、ショット数が少なくテキストのみのパフォーマンスに関しては、インターリーブされたテキストのみのトレーニング データが重要であるのに対し、ショット数がゼロのパフォーマンスに関しては、字幕データが最も重要であることを発見しました。 これらの傾向は教師あり微調整 (SFT) 後も持続し、事前トレーニング中に提示されたパフォーマンスとモデリングの決定が微調整後も保持されていることを示しています。
最後に、研究者らは、最大 300 億 (他は 30 億と 70 億) のパラメータを持つマルチモーダル モデル シリーズであり、高密度モデルで構成される MM1 を構築しました。混合エキスパート (MoE) バリアントで構成されており、事前トレーニングされた指標で SOTA を達成するだけでなく、一連の既存のマルチモーダル ベンチマークで監視付き微調整を行った後も競争力のあるパフォーマンスを維持します。
事前トレーニング済みモデル MM1 は、数ショットのシナリオでの字幕や質問と回答のタスクで優れたパフォーマンスを発揮し、Emu2、Flamingo、IDEFICS を上回ります。監視付き微調整後の MM1 は、12 のマルチモーダル ベンチマークでも強力な競争力を示しています。
大規模なマルチモーダル事前トレーニングのおかげで、MM1 はコンテキスト予測、マルチイメージ、思考連鎖推論において優れたパフォーマンスを発揮します。同様に、MM1 は、命令チューニング後に強力な数ショット学習機能を示します。
#
高性能 MLLM (マルチモーダル大規模言語モデル、マルチモーダル大規模言語モデル) の構築は、非常に実践的な作業です。高レベルのアーキテクチャ設計とトレーニング プロセスは明確ですが、具体的な実装方法は必ずしも明らかではありません。この研究では、研究者らは高性能モデルを構築するために実行されるアブレーションについて詳細に説明しています。彼らは、次の 3 つの主な設計決定の方向性を検討しました。
アブレーション設定
大規模な MLLM をトレーニングすると大量のエネルギーが消費されるため、リソース、研究者らは簡素化されたアブレーション設定を使用しました。アブレーションの基本構成は次のとおりです:
さまざまな設計上の決定を評価するために、研究者らはさまざまな VQA および画像記述タスクでゼロショットと少数ショット (4 サンプルと 8 サンプル) のパフォーマンスを使用しました。: COCO キャプション、 NoCaps、TextCaps、VQAv2、TextVQA、VizWiz、GQA、および OK-VQA。
モデル アーキテクチャ アブレーション実験
研究者らは、LLM による視覚データの処理を可能にするコンポーネントを分析しました。具体的には、(1) ビジュアル エンコーダを最適に事前トレーニングする方法、および (2) ビジュアル特徴を LLM の空間に接続する方法を研究しました (図 3 左を参照)。
#トレーニング前のデータアブレーション実験
一般的には、モデル トレーニングは、事前トレーニングと指導チューニングの 2 つの段階に分かれています。前者の段階ではネットワーク規模のデータが使用され、後者の段階ではミッション固有のキュレーションされたデータが使用されます。以下では、この記事の事前トレーニング段階に焦点を当て、研究者によるデータ選択について詳しく説明します (図 3 右)。
MLLM のトレーニングに一般的に使用されるデータには、画像とテキストのペアの説明で構成されるキャプション データと、Web から取得した画像とテキストが交互に挿入されたドキュメントの 2 種類があります。表 2 は、データ セットの完全なリストです。
モデルのパフォーマンスを向上させるために、研究者らは LLM のサイズを 3B、7B、および 30B パラメーターに拡張しました。すべてのモデルは完全にフリーズ解除され、バッチ サイズ 512 シーケンス、シーケンス長 4096、シーケンスあたり最大 16 枚の画像、解像度 378 × 378 で事前トレーニングされました。すべてのモデルは AXLearn フレームワークを使用してトレーニングされました。 彼らは、対数空間での線形回帰を使用して、小規模なモデルからより大きなモデルへの変更を外挿し、900 万、8500 万、30200 万、1.2B の小規模な学習率でグリッド検索を実行しました。 (図 6 を参照)、結果は、(非埋め込み) パラメーターの数 N を考慮して、最適なピーク学習率 η を予測します。 #専門家の混合(MoE)により拡張。実験では、研究者らは言語モデルの FFN 層にさらに多くの専門家を追加することで、高密度モデルを拡張する方法をさらに検討しました。 稠密モデルを MoE に変換するには、稠密言語デコーダを MoE 言語デコーダに置き換えるだけです。 MoE をトレーニングするために、研究者らは、トレーニング データとトレーニング トークンを含む、Dense Backbone 4 と同じトレーニング ハイパーパラメーターと同じトレーニング設定を使用しました。 マルチモーダル事前トレーニングの結果に関して、研究者は、適切なプロンプトを使用して、上限および VQA タスクで事前トレーニングされたモデルを評価しました。表 3 は、ゼロサンプルと少数のサンプルを評価します。 最後に、研究者らは、事前トレーニングされたモデルに基づいてトレーニングされた教師あり微調整 (SFT) 実験を導入しました。 彼らは、LLaVA-1.5 と LLaVA-NeXT に従い、さまざまなデータセットから約 100 万の SFT サンプルを収集しました。直感的に画像解像度が高いほどパフォーマンスが向上することを考慮して、研究者らは高解像度に拡張された SFT 手法も採用しました。 教師あり微調整の結果は次のとおりです。 表 4 は SOTA との比較を示しています。「-Chat」は MM1 を示します。モデル監修後の微調整を行っております。 まず、平均して、MM1-3B-Chat と MM1-7B-Chat は、リストされている同じサイズのすべてのモデルよりも優れたパフォーマンスを発揮します。 MM1-3B-Chat および MM1-7B-Chat は、VQAv2、TextVQA、ScienceQA、MMBench、および最近のベンチマーク (MMMU および MathVista) で特に優れたパフォーマンスを発揮します。 第二に、研究者らは、3B-MoE (64 人の専門家) と 6B-MoE (32 人の専門家) という 2 つの MoE モデルを調査しました。 Apple の MoE モデルは、ほぼすべてのベンチマークで高密度モデルよりも優れたパフォーマンスを達成しました。これは、MoE がさらに拡大する大きな可能性を示しています。 3 番目に、30B サイズ モデルの場合、MM1-30B-Chat は TextVQA、SEED、MMMU 上で Emu2-Chat37B および CogVLM-30B よりも優れたパフォーマンスを発揮します。 MM1 は、LLaVA-NeXT と比較して、総合的なパフォーマンスも優れています。 ただし、LLaVA-NeXT は複数の画像推論をサポートしておらず、少数サンプルのプロンプトもサポートしていません。これは、各画像が LLM に送信される 2880 個のトークンとして表され、その合計数がMM1 のトークンは 720 個しかありません。これにより、複数の画像を含む特定のアプリケーションが制限されます。 図 7b は、SFT 評価指標の平均パフォーマンスに対する入力画像解像度の影響を示しています。図 7c は、それを事前トレーニング データとして示しています。が増加し、モデルのパフォーマンスは向上し続けます。 画像解像度の影響。図 7b は、SFT 評価基準の平均パフォーマンスに対する入力画像解像度の影響を示しています。 事前トレーニングの影響: 図 7c は、事前トレーニング データが増加するにつれて、モデルのパフォーマンスが向上し続けていることを示しています。 研究の詳細については、元の論文を参照してください。
監視された微調整結果
以上がAppleの大型モデルMM1が市場参入:パラメータ数300億、マルチモーダル、MoEアーキテクチャ、作者の半数以上が中国人の詳細内容です。詳細については、PHP 中国語 Web サイトの他の関連記事を参照してください。