アテンションフリーの大型モデル Eagle7B: RWKV に基づいて、推論コストが 10 ～ 100 分の 1 に削減-AI-php.cn

ホームページ

テクノロジー周辺機器

アテンションフリーの大型モデル Eagle7B: RWKV に基づいて、推論コストが 10 ～ 100 分の 1 に削減

WBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWB

Feb 01, 2024 pm 02:39 PM

データモデル

アテンションフリーな大型モデル Eagle7B: RWKV をベースに推論コストを 10 ～ 100 分の 1 に削減

AI トラックでは、最近小型モデルが大きな注目を集めています。数千億のパラメータを持つモデルと比較すると、Model.たとえば、フランスの AI スタートアップ企業がリリースした Mistral-7B モデルは、すべてのベンチマークで Llama 2 を 13B 上回り、コード、数学、推論では Llama 1 を 34B 上回りました。

大規模モデルと比較して、小規模モデルには、低いコンピューティング能力要件やデバイス側で実行できる機能など、多くの利点があります。

#最近、オープンソースの非営利団体 RWKV から、7.52B パラメーター Eagle 7B という新しい言語モデルが登場しました。これには次の特徴があります。

无注意力大模型Eagle7B：基于RWKV，推理成本降低10-100 倍

推論コストが低い RWKV-v5 アーキテクチャに基づいて構築されています (RWKV は線形変換器であり、推論が削減されます)コストは 10 ～ 100 倍）;
は 100 を超える言語と 1 兆 1,000 億のトークンでトレーニングされています;
は複数の言語でトレーニングされています-言語ベンチマークテストでは、すべての 7B クラスモデルより優れています;
英語評価では、Eagle 7B のパフォーマンスは Falcon (1.5T)、LLaMA2 (2T) に近い)、ミストラル;
英語レビューでMPT-7B (1T)と比較;
注意なしのトランス。

无注意力大模型Eagle7B：基于RWKV，推理成本降低10-100 倍

Eagle 7B は、RWKV-v5 アーキテクチャに基づいて構築されています。 RWKV (Receptance Weighted Key Value) は、RNN と Transformer の利点を組み合わせ、それらの欠点を回避する新しいアーキテクチャです。これは非常にうまく設計されており、Transformer のメモリと拡張のボトルネックを軽減し、より効果的な線形拡張を実現できます。同時に、RWKV は、Transformer をこの分野で優位に立たせた特性のいくつかも保持しています。

現在、RWKV は第 6 世代 RWKV-6 まで反復されており、Transformer と同様のパフォーマンスとサイズを備えています。将来の研究者は、このアーキテクチャを使用して、より効率的なモデルを作成できます。

RWKV の詳細については、「Transformer 時代の RNN の再構築、RWKV は非 Transformer アーキテクチャを数百億のパラメータに拡張する」を参照してください。

RWKV-v5 Eagle 7B は、制限なく個人用または商用目的で使用できることは言及する価値があります。

23 言語でのテスト結果

複数言語でのさまざまなモデルのパフォーマンスは次のとおりです。ベンチマークには、xLAMBDA、xStoryCloze、xWinograd、xCopa が含まれます。

无注意力大模型Eagle7B：基于RWKV，推理成本降低10-100 倍

无注意力大模型Eagle7B：基于RWKV，推理成本降低10-100 倍合計 23 言語

これらのベンチマークには、ほとんど常識的な推論が組み込まれており、v4 から v5 への RWKV アーキテクチャの多言語パフォーマンスの大幅な飛躍が示されています。ただし、多言語ベンチマークがないため、この研究では一般的に使用される 23 言語での能力しかテストできず、残りの 75 以上の言語での能力はまだ不明です。

英語でのパフォーマンス

英語でのさまざまなモデルのパフォーマンスは、常識的な推論を含む 12 のベンチマークを通じて判断されます。そして世界の知識。

无注意力大模型Eagle7B：基于RWKV，推理成本降低10-100 倍結果から、RWKV の v4 アーキテクチャから v5 アーキテクチャへの大きな飛躍が再びわかります。 v4 は以前は 1T トークン MPT-7b に負けていましたが、v5 はベンチマークテストで追いつき始めており、場合によっては (LAMBADA、StoryCloze16、WinoGrande、HeadQA_en、Sciq の一部のベンチマークテストでも) Falcon や llama2 を超えることもあります。

さらに、v5 のパフォーマンスは、おおよそのトークントレーニング統計を考慮すると、予想される Transformer のパフォーマンスレベルと一致し始めます。

以前、ミストラル 7B は 7B スケールモデルでのリードを維持するために 2 ～ 7 兆トークンのトレーニング方法を使用していました。この研究では、このギャップを埋めて、RWKV-v5 Eagle 7B が llama2 のパフォーマンスを上回り、ミストラルのレベルに達することを期待しています。

次の図は、3,000 億トークンポイント付近の RWKV-v5 Eagle 7B のチェックポイントが pythia-6.9b と同様のパフォーマンスを示していることを示しています。

##これは、RWKV-v4 アーキテクチャに関する以前の実験 (パイルベース) と一致しており、RWKV のような線形トランスフォーマーはパフォーマンスレベルがトランスフォーマーと同様であり、同じ数のトークンを持っています。

无注意力大模型Eagle7B：基于RWKV，推理成本降低10-100 倍

# 予想どおり、このモデルの登場は、（評価ベンチマークの観点から）これまでで最も強力なリニアトランスの登場を示しています。

无注意力大模型Eagle7B：基于RWKV，推理成本降低10-100 倍

以上がアテンションフリーの大型モデル Eagle7B: RWKV に基づいて、推論コストが 10 ～ 100 分の 1 に削減の詳細内容です。詳細については、PHP 中国語 Web サイトの他の関連記事を参照してください。

声明

この記事は51CTO.COMで複製されています。侵害がある場合は、admin@php.cn までご連絡ください。

AIインデックス2025を読む：AIはあなたの友人、敵、または副操縦士ですか？Apr 11, 2025 pm 12:13 PM

スタンフォード大学ヒト指向の人工知能研究所によってリリースされた2025年の人工知能インデックスレポートは、進行中の人工知能革命の良い概要を提供します。 4つの単純な概念で解釈しましょう：認知（何が起こっているのかを理解する）、感謝（利益を見る）、受け入れ（顔の課題）、責任（責任を見つける）。認知：人工知能はどこにでもあり、急速に発展しています私たちは、人工知能がどれほど速く発展し、広がっているかを強く認識する必要があります。人工知能システムは絶えず改善されており、数学と複雑な思考テストで優れた結果を達成しており、わずか1年前にこれらのテストで惨めに失敗しました。 2023年以来、複雑なコーディングの問題や大学院レベルの科学的問題を解決することを想像してみてください