ホームページ > 記事 > テクノロジー周辺機器 > メタ無制限の長文大規模モデルが登場: パラメータは 7B のみ、オープンソース
Google に続いて、Meta も無限に長いコンテキストをロールするようになりました。
トランスフォーマーの二次複雑さと弱い長さの外挿により、長いシーケンスにスケールする能力が制限されます。ただし、二次解などの線形注意力や状態空間モデルはありますが、過去の経験から、トレーニング前の効率と下流のタスクの精度の点でパフォーマンスが低くなります。
最近、Google が提案した Infini-Transformer は、ストレージやコンピューティング要件を増加させることなく、Transformer ベースの大規模言語モデル (LLM) を無限に長い入力に拡張する効果的な方法を導入し、注目を集めています。
ほぼ同時に、Meta は無限長テキスト技術も提案しました。
論文のアドレス: https://arxiv.org/pdf/2404.08801.pdf
論文タイトル: MEGALODON: 無制限のコンテキスト長による効率的な LLM の事前トレーニングと推論
コード: https://github.com/XuezheMax/megalodon
4 月 12 日に提出された論文では、メタ、南カリフォルニア大学、CMU、UCSD などの機関が、無制限のコンテキスト長で効率的なシーケンス モデリングのためのニューラル アーキテクチャである MEGALODON を紹介しました。
MEGALODON は、MEGA (ゲート付き注意付き指数移動平均) の構造をさらに開発し、その機能と安定性を向上させるために、複雑な指数移動平均 (CEMA)、タイムステップ正規化レイヤー、正規化された注意メカニズムと、2 つの特徴を持つ事前正規化された残留接続。
LLAMA2 と直接比較すると、70 億のパラメーターと 2 兆のトレーニング トークンの規模で、MEGALODON は Transformer よりも優れた効率を達成しています。 MEGALODON のトレーニング損失は 1.70 に達します。これは、LLAMA2-7B (1.75) と 13B (1.67) の間です。 Transformers に対する MEGALODON の改良により、さまざまなタスクやモダリティにわたるさまざまなベンチマークにわたって強力なパフォーマンスが示されています。
MEGALODON は本質的に改良された MEGA アーキテクチャ (Ma et al., 2023) であり、ゲート アテンション メカニズムと古典的な指数移動平均 (EMA) 法を利用しています。大規模で長いコンテキストの事前トレーニングにおける MEGALODON の機能と効率をさらに向上させるために、著者らはさまざまな技術コンポーネントを提案しました。まず、MEGALODON は、MEGA の多次元減衰 EMA を複素領域に拡張する複素指数移動平均 (CEMA) コンポーネントを導入します。第 2 に、MEGALODON はタイムステップ正規化層を提案します。これは、グループ正規化層を自己回帰シーケンス モデリング タスクに一般化して、逐次次元に沿った正規化を可能にします。
大規模な事前トレーニングの安定性を向上させるために、MEGALODON はさらに、広く採用されている事前正規化方法と事後正規化方法を変更することにより、正規化されたアテンションと 2 ホップの残差構成を提案します。 -正規化。 MEGA チャンクで行われるように、入力シーケンスを固定チャンクに分割するだけで、MEGALODON はモデルのトレーニングと推論において線形の計算とメモリの複雑さを実現します。
LLAMA2 と直接比較すると、データと計算を制御しながら、MEGALODON-7B は、トレーニングの複雑さの点で、LLAMA2-7B のトレーニングに使用された最先端の Transformer バリアントよりも大幅に優れています。最大 2M までのさまざまなコンテキスト長での混乱やスクロールでの長いコンテキストの QA タスクを含む、長いコンテキストのモデリングに関する評価は、無限長のシーケンスをモデル化する MEGALODON の能力を実証します。 LRA、ImageNet、音声コマンド、WikiText-103、PG19 などの中小規模のベンチマークに関する追加の実験結果は、ボリュームとマルチモダリティにおける MEGALODON の機能を実証しています。
方法の紹介
まず、この記事では、MEGA (Moving Average Equipment Gated tention) アーキテクチャの主要コンポーネントを簡単にレビューし、MEGA に存在する問題について説明します。
MEGA は、EMA (指数移動平均) コンポーネントをアテンション マトリックスの計算に埋め込んで、タイム ステップ次元全体にわたる誘導バイアスを組み込みます。具体的には、多次元減衰EMAは、まず行列を拡張することによって入力シーケンスXの各次元を個別にh次元に拡張し、次に減衰EMAをh次元の隠れ空間に適用します。形式は次のとおりです。
#フル アテンション メカニズムの 2 次の複雑さを軽減するために、MEGA はクエリ、キー、および値のシーケンスを (14-16) に単純に分割します。 ) は長さ c のブロックです。 (17) の注意は各ブロックに個別に適用され、線形複雑度 O (kc^2 ) = O (nc) が得られます。
技術的に言えば、MEGA の EMA サブレイヤーは、各トークン付近のローカル コンテキスト情報をキャプチャするのに役立ち、それによってブロック境界を越えてコンテキスト内の情報が失われる問題を軽減します。 MEGA は目覚ましい結果を達成しましたが、次の問題に直面しています:
i) MEGA の EMA サブレイヤーの表現力が限られているため、ブロックレベルの注意を伴う MEGA のパフォーマンスは、完全な MEGA のパフォーマンスに依然として及ばない-注目のメガ。
ii) タスクやデータ型が異なると、正規化層、正規化モード、アテンション関数 f (・) など、最終的な MEGA アーキテクチャにアーキテクチャ上の違いが生じる可能性があります。
iii) MEGA が大規模な事前トレーニングに対応するという経験的証拠はありません。
#CEMA: 多次元減衰 EMA を複雑な領域に拡張
解決するにはMEGA が直面する問題 この研究で提起された問題は MEGALODON でした。 具体的には、彼らは CEMA (複素指数移動平均) を創造的に提案し、上記の式 (1) を次の形式に書き換えました。そして θ_j をパラメータ化します。 (2) として: #タイムステップ正規化
Transformer と組み合わせたレイヤー正規化のパフォーマンスは印象的ですが、明らかです。その層の正規化は、空間次元 (タイム ステップまたはシーケンス次元とも呼ばれます) に沿った内部共変量シフトを直接減らすことはできません。
MEGALODON では、この研究では、累積平均と分散を計算することにより、グループ正規化を自己回帰ケースに拡張しました。
図 2 は、層の正規化とタイム ステップの正規化を示しています。
MEGALODON における注意の正規化さらに、この研究では、安定性を向上させるために、MEGA 注意メカニズムに特化してカスタマイズされた正規化も提案しています。形式は次のとおりです。
次に、上記の式 (17) のアテンション演算は次のように変更されます。
2 ホップ残差による事前正規化#調査を通じて、モデル サイズを拡大すると正規化前の不安定性が生じることが判明しました。 Transformer ブロックに基づく事前正規化は、次のように表現できます (図 3 (b) を参照): 元の文では
MEGA アーキテクチャでは、この問題を軽減するために、ゲートされた残留接続 (21) で φ (19) が使用されます。ただし、更新ゲート φ によってさらに多くのモデル パラメーターが導入されるため、モデル サイズが 70 億に拡張された場合でも不安定性の問題が依然として存在します。 MEGALODON は、図 3(c) に示すように、各ブロック内の残差接続を単純に再配置する、2 ホップ残差を備えたプレノルムと呼ばれる新しい構成を導入しています。
##実験ロング コンテキスト シーケンス モデリングにおける MEGALODON のスケーラビリティと効率を評価するために、この記事では MEGALODON を 70 億スケールにスケールします。 LLM 事前トレーニングデータ効率を向上させるために、研究者らは、MEGALODON-7B、LLAMA2-7B、および LLAMA2-13B の負の対数類似性をトレーニング中に示しました。ただし、図 1 に示すように、トレーニング プロセス (NLL)。
同じ数のトレーニング トークンの下で、MEGALODON-7B は LLAMA2-7B よりも大幅に優れた (低い) NLL を取得し、より優れたデータ効率を示しました。
図 4 は、それぞれ 4K と 32K のコンテキスト長を使用した LLAMA2-7B と MEGALODON-7B のデバイスあたりの平均 WPS (1 秒あたりのワード/トークン) を示しています。 LLAMA2 モデルの場合、この研究では Flash-Attendance V2 を使用して完全な注意の計算を高速化しています。 4K コンテキスト長では、CEMA とタイム ステップ正規化の導入により、MEGALODON-7B は LLAMA2-7B よりわずかに遅くなります (約 6%)。コンテキスト長を 32K に拡張すると、MEGALODON-7B は LLAMA2-7B よりも大幅に高速になり (約 32%)、これは長いコンテキストの事前トレーニングに対する MEGALODON の計算効率を示しています。
短いコンテキスト評価
表 1 は、学術ベンチマークおよび他のオープンソース ベースにおける MEGALODON と LLAMA2 の結果をまとめたものです。モデル、MPT、RWKV、Mamba、Mistral、Gemma の比較結果が含まれます。同じ 2T トークンで事前トレーニングした後、MEGALODON-7B はすべてのベンチマークで LLAMA2-7B を上回りました。一部のタスクでは、MEGALODON-7B のパフォーマンスは LLAMA2-13B と同等かそれ以上です。
#長いコンテキストの評価
図 5 は、4K から 2M までのさまざまなコンテキスト長 (PPL) の下での検証データ セットの複雑さを示しています。 )。 PPL がコンテキストの長さとともに単調に減少することが観察でき、非常に長いシーケンスのモデリングにおける MEGALODON の有効性と堅牢性が検証されます。 #命令の微調整表 3 は、MT-Bench での 7B モデルのパフォーマンスをまとめたものです。 MEGALODON は、Vicuna と比較して MT-Bench で優れたパフォーマンスを示し、RLHF を利用してアライメントをさらに微調整する LLAMA2-Chat に匹敵します。
中規模ベンチマーク評価画像分類タスクにおける MEGALODON のパフォーマンスを評価するために、この調査は Imagenet で実行されました。 -1K データセットで実験が行われました。表 4 は、検証セットのトップ 1 精度を報告します。 MEGALODON の精度は DeiT-B より 1.3%、MEGA より 0.8% 高くなります。
表 5 は、PG-19 上の MEGALODON のワードレベルの複雑さ (PPL) と、Compressive Transformer を含む以前の最先端のモデルとの比較を示しています。 、パーシーバー AR、AR のパーシーバー比較、ブロック ループ Transformer と MEGABYTE など。 MEGALODONのパフォーマンスは明らかに上を行っています。
詳細については、論文の原文を参照してください。
以上がメタ無制限の長文大規模モデルが登場: パラメータは 7B のみ、オープンソースの詳細内容です。詳細については、PHP 中国語 Web サイトの他の関連記事を参照してください。