MoE と Mamba は協力して状態空間モデルを数十億のパラメータに拡張します-AI-php.cn

ホームページ

テクノロジー周辺機器

MoE と Mamba は協力して状態空間モデルを数十億のパラメータに拡張します

王林

Jan 23, 2024 pm 06:00 PM

データモデル

State Space Model (SSM) は大きな注目を集めているテクノロジーであり、Transformer の代替として考えられています。 Transformer と比較して、SSM は長いコンテキストタスクを処理するときに線形時間推論を実現でき、並列トレーニングと優れたパフォーマンスを備えています。特に、選択的 SSM とハードウェアを意識した設計に基づく Mamba は、優れたパフォーマンスを示しており、アテンションベースの Transformer アーキテクチャの強力な代替手段の 1 つとなっています。

最近、研究者は、SSM と Mamba を他の方法と組み合わせて、より強力なアーキテクチャを作成することも検討しています。たとえば、Machine Heart はかつて「Mamba は Transformer の代わりに使用できますが、組み合わせて使用することもできます」と報告しました。

最近、ポーランドの研究チームは、SSM をハイブリッドエキスパートシステム (MoE/専門家の混合) と組み合わせると、SSM の大規模な拡張が期待できることを発見しました。 MoE は、Transformer を拡張するために一般的に使用されるテクノロジです。たとえば、最近の Mixtral モデルではこのテクノロジが使用されています。Heart of the Machine の記事を参照してください。

このポーランドの研究チームによる研究結果は、Mamba とハイブリッドエキスパートレイヤーを組み合わせたモデルである MoE-Mamba です。

MoE と Mamba は協力して状態空間モデルを数十億のパラメータに拡張します

文書アドレス: https://arxiv.org/pdf/2401.04081.pdf

MoE -Mamba は SSM と MoE の効率を同時に向上させることができます。またチームは、専門家の数が異なる場合でも MoE-Mamba が予測どおりに動作することも発見しました。

チームは実験的なデモンストレーションを実施し、その結果、Mamba と比較して、MoE-Mamba は同じパフォーマンス要件でも必要なトレーニングステップが 2.2 分の 1 であり、新しい方法が同等であることが示されました。 Transformer および Transformer-MoE に比べて優れた利点があります。これらの予備的な結果は、有望な研究の方向性も示しています。SSM は数百億のパラメータに拡張可能である可能性があります。

MoE と Mamba は協力して状態空間モデルを数十億のパラメータに拡張します

#関連研究

##状態空間モデル

State Space Model (SSM) は、シーケンスモデリングに使用されるアーキテクチャの一種です。これらのモデルのアイデアはサイバネティクスの分野に由来しており、RNN と CNN の組み合わせとして見ることができます。これらにはかなりの利点がありますが、言語モデリングタスクの主要なアーキテクチャになることを妨げるいくつかの問題もあります。しかし、最近の研究の進歩により、ディープ SSM は計算効率と強力なパフォーマンスを維持しながら、数十億のパラメータに拡張できるようになりました。

Mamba

Mamba は SSM に基づいて構築されたモデルであり、線形時間推論速度を達成できます (コンテキストのため)また、ハードウェアを意識した設計により効率的なトレーニングプロセスも実現します。 Mamba は、ループの逐次性の影響を軽減する作業効率の高い並列スキャンアプローチを使用し、融合 GPU 操作により拡張状態を実装する必要がなくなります。バックプロパゲーションに必要な中間状態は保存されませんが、バックワードパス中に再計算されるため、メモリ要件が軽減されます。 Mamba のアテンションメカニズムに対する利点は、計算の複雑さが軽減されるだけでなく、メモリ使用量がコンテキストの長さに依存しないため、推論段階で特に重要です。

Mamba は、シーケンスモデルの効率と有効性の間の基本的なトレードオフを解決します。これにより、状態圧縮の重要性が強調されます。効率的なモデルには小さな状態が必要であり、効果的なモデルにはコンテキストの重要な情報がすべて含まれた状態が必要です。時間的不変性と入力不変性を必要とする他の SSM とは異なり、Mamba では、シーケンス次元に沿って情報がどのように伝播されるかを制御する選択メカニズムが導入されています。この設計の選択は、選択的複製や誘導などのファーストクラスの合成タスクの直感的な理解に触発されており、モデルが無関係な情報をフィルターで除外しながら重要な情報を識別して保持できるようになります。

研究によると、Mamba にはより長いコンテキスト (最大 100 万のトークン) を効率的に利用する能力があり、コンテキストの長さが増加するにつれて、トレーニング前の混乱も改善されます。 Mamba モデルは、Mamba ブロックを積み重ねて構成されており、NLP、ゲノミクス、オーディオなどのさまざまな分野で非常に優れた成果を上げています。そのパフォーマンスは、既存の Transformer モデルに匹敵し、それを超えています。したがって、Mamba は一般的なシーケンスモデリングバックボーンモデルの有力な候補モデルとなっています。詳しくは、「5 倍のスループット、パフォーマンスが Transformer を完全に取り囲む: 新アーキテクチャ Mamba が AI の輪を爆発させる##」を参照してください。 #》。

ハイブリッドエキスパート

混合エキスパート (MoE) テクノロジは、モデルのパラメーターの数を大幅に増やすことができます。同時に、モデルの推論とトレーニングに必要な FLOP には影響しません。 MoE は 1991 年に Jacobs らによって初めて提案され、2017 年に Shazeer らによって NLP タスクに使用され始めました。

MoE には利点があります。アクティベーションが非常にまばらであり、処理される各トークンについて、モデルのパラメーターのごく一部のみが使用されます。 Transformer の前方層は、その計算要件により、いくつかの MoE 技術の標準ターゲットとなっています。

研究コミュニティは、MoE の中核問題、つまりルーティングプロセスとも呼ばれる、専門家にトークンを割り当てるプロセスを解決するためのさまざまな方法を提案してきました。現在、Token Choice と Expert Choice の 2 つの基本的なルーティングアルゴリズムがあります。前者は各トークンを特定の数 (K) のエキスパートにルーティングするものであり、後者は各トークンを固定数のエキスパートにルーティングするものです。

Fedus らは、2022 年の論文「スイッチトランスフォーマー: シンプルで効率的なスパース性を備えた兆パラメータモデルへの拡張」でスイッチを提案しました。これは、各トークンがルーティングされることを組み合わせたトークン選択アーキテクチャです。 1 人の専門家 (K=1) に報告し、彼らはこの方法を使用して、Transformer パラメータのサイズを 1.6 兆まで拡張することに成功しました。ポーランドのこのチームも、実験でこの MoE 設計を使用しました。

最近、MoE は OpenMoE などのオープンソースコミュニティにも参入し始めています。

プロジェクトアドレス: https://github.com/XueFuzhao/OpenMoE

特に言及する価値があるのは、Mistral のオープンソース Mixtral 8× 7B です。そのパフォーマンスは LLaMa 2 70B に匹敵しますが、必要な推論コンピューティングの予算は LLaMa 2 70B の約 6 分の 1 にすぎません。

モデルアーキテクチャ

Mamba の主な基礎となるメカニズムは、Transformer で使用されるアテンションメカニズムとはまったく異なりますが、Mamba は Transformer モデルを高度に維持しています。 -レベル、モジュールベースの構造。このパラダイムを使用すると、同一モジュールの 1 つ以上の層が互いに積み重ねられ、各層の出力が残差ストリームに追加されます (図 2 を参照)。この残差ストリームの最終値は、言語モデリングタスクの次のトークンを予測するために使用されます。

MoE-Mamba は、両方のアーキテクチャの互換性を利用します。図 2 に示すように、MoE-Mamba では、すべての間隔の Mamba 層がスイッチベースの MoE フィードフォワード層に置き換えられます。

MoE と Mamba は協力して状態空間モデルを数十億のパラメータに拡張します

ただし、チームは、この設計が「Mamba: 選択的状態空間を使用した線形時間シーケンスモデリング」の設計にやや似ていることにも気づきました。 ; 後このモデルは Mamba 層とフィードフォワード層を交互に積み重ねますが、結果として得られるモデルは純粋な Mamba よりもわずかに劣ります。この設計は、図 1 では Mamba-MLP として示されています。

MoE-Mamba は、Mamba 層によって実行される各トークンの無条件処理と MoE 層によって実行される条件付き処理を分離します。無条件処理は、シーケンスのコンテキスト全体を効率的に統合できます。内部表現では、条件付き処理では各トークンに最も関連性の高い専門家を使用できます。条件付き処理と無条件処理を交互に行うというこのアイデアは、一部の MoE ベースのモデルに適用されていますが、通常は基本層と MoE フィードフォワード層を交互に使用します。

主な結果

トレーニング設定

チームは 5 つを比較しましたさまざまな設定: Basic Transformer、Mamba、Mamba-MLP、MoE、MoE-Mamba。

ほとんどの Transformers では、フィードフォワードレイヤーには 8dm² のパラメーターが含まれていますが、Mamba ペーパーでは Mamba が小さく (約 6dm²) されるため、2 つの Mamba レイヤーのパラメーターの数は 1 つのフィードフォワードレイヤーと 1 つのフィードフォワードレイヤーのパラメーターの数と同じになります。注目層の合計はほぼ同じになります。 Mamba と新しいモデルでトークンあたりのアクティブなパラメーターの数をほぼ同じにするために、チームは各エキスパートフォワードレイヤーのサイズを 6dm² に縮小しました。埋め込み層と非埋め込み層を除いて、すべてのモデルはトークンごとに約 2,600 万のパラメーターを使用します。トレーニングプロセスでは 65 億トークンが使用され、トレーニングステップ数は 100k です。

トレーニングに使用されるデータセットは英語の C4 データセットで、タスクは次のトークンを予測することです。テキストは GPT2 トークナイザーを使用してトークン化されます。表 3 に、ハイパーパラメータの完全なリストを示します。

MoE と Mamba は協力して状態空間モデルを数十億のパラメータに拡張します

#結果

表 1 にトレーニング結果を示します。 MoE-Mamba は、通常の Mamba モデルよりも大幅にパフォーマンスが向上します。

MoE と Mamba は協力して状態空間モデルを数十億のパラメータに拡張します

注目すべきことに、MoE-Mamba はトレーニングステップのわずか 46% で通常の Mamba と同じレベルの結果を達成しました。通常の Mamba では学習率が調整されているため、学習プロセスが MoE-Mamba に最適化されれば、MoE-Mamba のパフォーマンスが向上することが期待できます。

アブレーション研究

#Mamba が専門家の数の増加に応じて適切に拡張できるかどうかを評価するために、研究者はさまざまな数の専門家モデルを使用して比較しました。

図 3 は、さまざまな数のエキスパートを使用した場合のトレーニングの実行手順を示しています。

MoE と Mamba は協力して状態空間モデルを数十億のパラメータに拡張します

#表 2 は、100k ステップ後の結果を示しています。

MoE と Mamba は協力して状態空間モデルを数十億のパラメータに拡張します

#これらの結果は、新しく提案された方法が専門家の数に応じてうまく拡張できることを示しています。エキスパートの数が 8 名以上の場合、新モデルの最終的なパフォーマンスは通常の Mamba よりも優れています。 Mamba-MLP は通常の Mamba よりも悪いため、少数の専門家を使用する MoE-Mamba のパフォーマンスは Mamba よりも悪くなることが予想されます。新しい方法では、専門家の数が 32 人の場合に最良の結果が得られました。

以上がMoE と Mamba は協力して状態空間モデルを数十億のパラメータに拡張しますの詳細内容です。詳細については、PHP 中国語 Web サイトの他の関連記事を参照してください。

声明

この記事は51CTO.COMで複製されています。侵害がある場合は、admin@php.cn までご連絡ください。

迅速なエンジニアリングにおける思考のグラフは何ですかApr 13, 2025 am 11:53 AM

導入迅速なエンジニアリングでは、「思考のグラフ」とは、グラフ理論を使用してAIの推論プロセスを構造化および導く新しいアプローチを指します。しばしば線形sを含む従来の方法とは異なります

Genaiエージェントとの電子メールマーケティングを組織に最適化しますApr 13, 2025 am 11:44 AM

導入おめでとう！あなたは成功したビジネスを運営しています。ウェブページ、ソーシャルメディアキャンペーン、ウェビナー、会議、無料リソース、その他のソースを通じて、毎日5000の電子メールIDを収集します。次の明白なステップはです

Apache Pinotによるリアルタイムアプリのパフォーマンス監視Apr 13, 2025 am 11:40 AM

導入今日のペースの速いソフトウェア開発環境では、最適なアプリケーションパフォーマンスが重要です。応答時間、エラーレート、リソース利用などのリアルタイムメトリックを監視することで、メインに役立ちます

ChatGptは10億人のユーザーにヒットしますか？「わずか数週間で2倍になりました」とOpenai CEOは言いますApr 13, 2025 am 11:23 AM

「ユーザーは何人いますか？」彼は突き出した。「私たちが最後に言ったのは毎週5億人のアクティブであり、非常に急速に成長していると思います」とアルトマンは答えました。「わずか数週間で2倍になったと言った」とアンダーソンは続けた。「私はそのprivと言いました

PIXTRAL -12B：Mistral AI＆＃039;の最初のマルチモーダルモデル-Analytics VidhyaApr 13, 2025 am 11:20 AM

導入 Mistralは、最初のマルチモーダルモデル、つまりPixtral-12B-2409をリリースしました。このモデルは、Mistralの120億個のパラメーターであるNemo 12bに基づいて構築されています。このモデルを際立たせるものは何ですか？これで、画像とTexの両方を採用できます

生成AIアプリケーションのエージェントフレームワーク - 分析VidhyaApr 13, 2025 am 11:13 AM

クエリに応答するだけでなく、情報を自律的に収集し、タスクを実行し、テキスト、画像、コードなどの複数のタイプのデータを処理するAIを搭載したアシスタントがいることを想像してください。未来的に聞こえますか？これでa

金融セクターにおける生成AIの応用Apr 13, 2025 am 11:12 AM

導入金融業界は、効率的な取引と信用の可用性を促進することにより経済成長を促進するため、あらゆる国の発展の基礎となっています。取引の容易さとクレジット

オンライン学習とパッシブアグレッシブアルゴリズムのガイドApr 13, 2025 am 11:09 AM

導入データは、ソーシャルメディア、金融取引、eコマースプラットフォームなどのソースから前例のないレートで生成されています。この連続的な情報ストリームを処理することは課題ですが、

See all articles

ホットAIツール

Undresser.AI Undress

リアルなヌード写真を作成する AI 搭載アプリ

AI Clothes Remover

写真から衣服を削除するオンライン AI ツール。

Undress AI Tool

脱衣画像を無料で

Clothoff.io

AI衣類リムーバー

AI Hentai Generator

AIヘンタイを無料で生成します。

ホットツール

mPDF

mPDF は、UTF-8 でエンコードされた HTML から PDF ファイルを生成できる PHP ライブラリです。オリジナルの作者である Ian Back は、Web サイトから「オンザフライ」で PDF ファイルを出力し、さまざまな言語を処理するために mPDF を作成しました。 HTML2FPDF などのオリジナルのスクリプトよりも遅く、Unicode フォントを使用すると生成されるファイルが大きくなりますが、CSS スタイルなどをサポートし、多くの機能強化が施されています。 RTL (アラビア語とヘブライ語) や CJK (中国語、日本語、韓国語) を含むほぼすべての言語をサポートします。ネストされたブロックレベル要素 (P、DIV など) をサポートします。