検索
ホームページテクノロジー周辺機器AI国内の大規模オープンソースMoEモデルを導入、Llama 2-7Bと同等の性能を持ちながら計算量を60%削減

オープンソースの MoE モデルに、ついに初の国内プレーヤーが登場しました!

性能はdense Llama 2-7Bモデルに劣りませんが、計算量は40%しかありません。

このモデルは、特に数学とコーディング能力の点で、ラマを圧倒する 19 面の戦士と呼ぶことができます。

首个国产开源MoE大模型来了!性能媲美Llama 2-7B,计算量降低60%

これは、Deep Search チームの最新のオープンソース 160 億パラメータ エキスパート モデル DeepSeek MoE です。

DeepSeek MoE は、優れたパフォーマンスに加えて、コンピューティング能力を節約することを主な焦点としています。

このパフォーマンス アクティベーション パラメータ図では、これが「選択」され、左上隅の大きな空白領域を占めています。

首个国产开源MoE大模型来了!性能媲美Llama 2-7B,计算量降低60%

リリースからわずか 1 日後、X に関する DeepSeek チームのツイートは大量のリツイートと注目を集めました。

首个国产开源MoE大模型来了!性能媲美Llama 2-7B,计算量降低60%

JP モルガンの機械学習エンジニア、マキシム・ラボンヌ氏もテスト後に、DeepSeek MoE のチャット版は Microsoft の「小規模モデル」Phi-2 よりも若干パフォーマンスが優れていると述べました。

首个国产开源MoE大模型来了!性能媲美Llama 2-7B,计算量降低60%

同時に、DeepSeek MoE も GitHub で 300 個のスターを獲得し、Hugging Face テキスト生成モデル ランキングのホームページに掲載されました。

首个国产开源MoE大模型来了!性能媲美Llama 2-7B,计算量降低60%

それでは、DeepSeek MoE の具体的なパフォーマンスはどのようなものでしょうか?

計算量が 60% 削減

現在のバージョンの DeepSeek MoE には 160 億個のパラメータがあり、実際に有効化されるパラメータの数は約 28 億個です。

独自の 7B 高密度モデルと比較すると、19 データセットにおける 2 つのパフォーマンスには異なる長所と短所がありますが、全体的なパフォーマンスは比較的近いです。

同じく高密度モデルである Llama 2-7B と比較すると、DeepSeek MoE は数学やコードなどにおいて明らかな利点を示しています。

しかし、両方の高密度モデルの計算量は 4k トークンあたり 180TFLOP を超えますが、DeepSeek MoE の計算量は 74.4TFLOP のみで、この 2 つのモデルの 40% にすぎません。

首个国产开源MoE大模型来了!性能媲美Llama 2-7B,计算量降低60%

20 億のパラメーターで実施されたパフォーマンス テストでは、DeepSeek MoE が、より少ない計算で 1.5 倍のパラメーターを使用しても同じ MoE モデルのパフォーマンスを達成できることが示されています。 B は同等かそれ以上の結果を示しています。

首个国产开源MoE大模型来了!性能媲美Llama 2-7B,计算量降低60%

さらに、Deep Seek チームは SFT に基づいて DeepSeek MoE のチャット バージョンも微調整し、そのパフォーマンスも独自の高密度バージョンや Llama 2 に近づきました。 -7B。

首个国产开源MoE大模型来了!性能媲美Llama 2-7B,计算量降低60%

さらに、DeepSeek チームは、DeepSeek MoE モデルの 145B バージョンが開発中であることも明らかにしました。

段階的な予備テストでは、145B DeepSeek MoE が GShard 137B に大きくリードしており、28.5% の計算量で DeepSeek 67B モデルの高密度バージョンと同等のパフォーマンスを達成できることが示されています。

研究開発が完了したら、チームは 145B バージョンもオープンソース化する予定です。

首个国产开源MoE大模型来了!性能媲美Llama 2-7B,计算量降低60%

これらのモデルのパフォーマンスの背後には、DeepSeek が独自に開発した新しい MoE アーキテクチャがあります。

自社開発の MoE の新しいアーキテクチャ

まず、従来の MoE アーキテクチャと比較して、DeepSeek にはよりきめ細かい専門部門があります。

パラメータの総数が固定されている場合、従来のモデルは N 人の専門家を分類できますが、DeepSeek は 2N 人の専門家を分類できます。

同時に、タスクを実行するたびに選択される専門家の数が従来のモデルの 2 倍になるため、使用されるパラメータの総数は変わりませんが、選択の自由度が高まります。

このセグメンテーション戦略により、アクティベーション専門家のより柔軟かつ適応的な組み合わせが可能になり、それによってさまざまなタスクにおけるモデルの精度と知識獲得の適切性が向上します。

首个国产开源MoE大模型来了!性能媲美Llama 2-7B,计算量降低60%

エキスパート部門の違いに加えて、DeepSeek では「共有エキスパート」設定も革新的に導入されています。

これらの共有エキスパートは、すべての入力のトークンをアクティブ化し、ルーティング モジュールの影響を受けません。目的は、さまざまなコンテキストで必要な共通の知識を取得して統合することです。

これらの共有知識を共有エキスパートに圧縮することで、他のエキスパート間のパラメーターの重複を減らすことができ、それによってモデルのパラメーター効率が向上します。

共有エキスパートを設定すると、他のエキスパートが独自の知識領域にさらに集中できるようになり、専門家の専門性の全体的なレベルが向上します。

首个国产开源MoE大模型来了!性能媲美Llama 2-7B,计算量降低60%

#アブレーション実験の結果は、両方のソリューションが DeepSeek MoE の「コスト削減と効率向上」において重要な役割を果たすことを示しています。

首个国产开源MoE大模型来了!性能媲美Llama 2-7B,计算量降低60%

論文アドレス: https://arxiv.org/abs/2401.06066。

参考リンク: https://mp.weixin.qq.com/s/T9-EGxYuHcGQgXArLXGbgg。

以上が国内の大規模オープンソースMoEモデルを導入、Llama 2-7Bと同等の性能を持ちながら計算量を60%削減の詳細内容です。詳細については、PHP 中国語 Web サイトの他の関連記事を参照してください。

声明
この記事は51CTO.COMで複製されています。侵害がある場合は、admin@php.cn までご連絡ください。
Gemma Scope:AI'の思考プロセスを覗くためのGoogle'の顕微鏡Gemma Scope:AI'の思考プロセスを覗くためのGoogle'の顕微鏡Apr 17, 2025 am 11:55 AM

ジェマの範囲で言語モデルの内部の仕組みを探る AI言語モデルの複雑さを理解することは、重要な課題です。 包括的なツールキットであるGemma ScopeのGoogleのリリースは、研究者に掘り下げる強力な方法を提供します

ビジネスインテリジェンスアナリストは誰で、どのようになるか?ビジネスインテリジェンスアナリストは誰で、どのようになるか?Apr 17, 2025 am 11:44 AM

ビジネスの成功のロック解除:ビジネスインテリジェンスアナリストになるためのガイド 生データを組織の成長を促進する実用的な洞察に変換することを想像してください。 これはビジネスインテリジェンス(BI)アナリストの力です - GUにおける重要な役割

SQLに列を追加する方法は? - 分析VidhyaSQLに列を追加する方法は? - 分析VidhyaApr 17, 2025 am 11:43 AM

SQLの変更テーブルステートメント:データベースに列を動的に追加する データ管理では、SQLの適応性が重要です。 その場でデータベース構造を調整する必要がありますか? Alter Tableステートメントはあなたの解決策です。このガイドの詳細は、コルを追加します

ビジネスアナリストとデータアナリストビジネスアナリストとデータアナリストApr 17, 2025 am 11:38 AM

導入 2人の専門家が重要なプロジェクトで協力している賑やかなオフィスを想像してください。 ビジネスアナリストは、会社の目標に焦点を当て、改善の分野を特定し、市場動向との戦略的整合を確保しています。 シム

ExcelのCountとCountaとは何ですか? - 分析VidhyaExcelのCountとCountaとは何ですか? - 分析VidhyaApr 17, 2025 am 11:34 AM

Excelデータカウントと分析:カウントとカウントの機能の詳細な説明 特に大規模なデータセットを使用する場合、Excelでは、正確なデータカウントと分析が重要です。 Excelは、これを達成するためにさまざまな機能を提供し、CountおよびCounta関数は、さまざまな条件下でセルの数をカウントするための重要なツールです。両方の機能はセルをカウントするために使用されますが、設計ターゲットは異なるデータ型をターゲットにしています。 CountおよびCounta機能の特定の詳細を掘り下げ、独自の機能と違いを強調し、データ分析に適用する方法を学びましょう。 キーポイントの概要 カウントとcouを理解します

ChromeはAIと一緒にここにいます:毎日何か新しいことを体験してください!!ChromeはAIと一緒にここにいます:毎日何か新しいことを体験してください!!Apr 17, 2025 am 11:29 AM

Google Chrome'sAI Revolution:パーソナライズされた効率的なブラウジングエクスペリエンス 人工知能(AI)は私たちの日常生活を急速に変換しており、Google ChromeはWebブラウジングアリーナで料金をリードしています。 この記事では、興奮を探ります

ai' s Human Side:Wellbeing and the Quadruple bottuntai' s Human Side:Wellbeing and the Quadruple bottuntApr 17, 2025 am 11:28 AM

インパクトの再考:四重材のボトムライン 長い間、会話はAIの影響の狭い見方に支配されており、主に利益の最終ラインに焦点を当てています。ただし、より全体的なアプローチは、BUの相互接続性を認識しています

5ゲームを変える量子コンピューティングの使用ケースあなたが知っておくべきである5ゲームを変える量子コンピューティングの使用ケースあなたが知っておくべきであるApr 17, 2025 am 11:24 AM

物事はその点に向かって着実に動いています。量子サービスプロバイダーとスタートアップに投資する投資は、業界がその重要性を理解していることを示しています。そして、その価値を示すために、現実世界のユースケースの数が増えています

See all articles

ホットAIツール

Undresser.AI Undress

Undresser.AI Undress

リアルなヌード写真を作成する AI 搭載アプリ

AI Clothes Remover

AI Clothes Remover

写真から衣服を削除するオンライン AI ツール。

Undress AI Tool

Undress AI Tool

脱衣画像を無料で

Clothoff.io

Clothoff.io

AI衣類リムーバー

AI Hentai Generator

AI Hentai Generator

AIヘンタイを無料で生成します。

ホットツール

メモ帳++7.3.1

メモ帳++7.3.1

使いやすく無料のコードエディター

AtomエディタMac版ダウンロード

AtomエディタMac版ダウンロード

最も人気のあるオープンソースエディター

SAP NetWeaver Server Adapter for Eclipse

SAP NetWeaver Server Adapter for Eclipse

Eclipse を SAP NetWeaver アプリケーション サーバーと統合します。

SecLists

SecLists

SecLists は、セキュリティ テスターの究極の相棒です。これは、セキュリティ評価中に頻繁に使用されるさまざまな種類のリストを 1 か所にまとめたものです。 SecLists は、セキュリティ テスターが必要とする可能性のあるすべてのリストを便利に提供することで、セキュリティ テストをより効率的かつ生産的にするのに役立ちます。リストの種類には、ユーザー名、パスワード、URL、ファジング ペイロード、機密データ パターン、Web シェルなどが含まれます。テスターはこのリポジトリを新しいテスト マシンにプルするだけで、必要なあらゆる種類のリストにアクセスできるようになります。

VSCode Windows 64 ビットのダウンロード

VSCode Windows 64 ビットのダウンロード

Microsoft によって発売された無料で強力な IDE エディター