ホームページ >テクノロジー周辺機器 >AI >DeepGemmはDeepseekオープンソースウィークの3日目にリリースされました

DeepGemmはDeepseekオープンソースウィークの3日目にリリースされました

Jennifer Aniston
Jennifer Anistonオリジナル
2025-03-03 18:58:10206ブラウズ

deepseekリリースdeepgemm:ai

の高性能FP8GEMMライブラリ ? #opensourceweekの3日目:deepgemm

deepgemmの導入 - 密集したgemmsとmoe gemmsをサポートするFP8 GEMMライブラリ、V3/R1のトレーニングと推論を強化します。

hopper gpus上の最大1350 fp8 tflops

oly使いやすいように設計された最小限の依存関係

compilent完全にコンパイルされています…

- deepseek(@deepseek_ai)2025年2月26日

このリリースは、Deepseek FlashML(1日目)とDeepseek Deepep(2日目)の発売の成功に続きます。

目次

gemmとは?

fp8?
    とは何ですか
  • deepgemm
  • の必要性 DeepGemmの重要な機能
  • パフォーマンスベンチマーク
  • インストール手順
  • 結論
  • gemmとは?

一般的なマトリックス乗算(GEMM)は、2つのマトリックスを増やして3分の1を生成する基本的な線形代数操作です。 多数のアプリケーションで広く使用されており、その式は次のとおりです

GEMMは、特にニューラルネットワークトレーニングと推論のための深い学習において、モデルのパフォーマンスの最適化に重要です。

DeepGEMM Released on Day 3 of DeepSeek Open Source Week

このイラストは、最適化されたキャッシュ利用のために、タイル(マトリックスを小さなブロック、ntile、ktile)に強調するGEMMを示しています。 これにより、データの局所性と並列性が強化されたパフォーマンスが向上します

fp8?

DeepGEMM Released on Day 3 of DeepSeek Open Source Weekとは何ですか

FP8(8ビットフローティングポイント)は、高性能コンピューティング形式であり、精度と効率的な数値データ表現を削減します。 機械学習における大規模なデータセットの計算需要を処理するのに特に有益です。

典型的なFP8形式には次のものが含まれます

1サインビット 5指数ビット

2分数ビット

このコンパクトな構造により、大規模なモデルのトレーニングに最適な、より速い計算とメモリの使用量が減少する可能性があります。 精度はわずかに損なわれる可能性がありますが、これはしばしば受け入れられ、計算オーバーヘッドの減少によりパフォーマンスの向上につながります。

  • この画像は、FP8(E4M3およびE5M2形式)とFP16およびBF16を比較し、異なる浮動小数点形式の精度と範囲のトレードオフを示しています。

    deepgemm

    の必要性 DeepGEMMは、多様なGEMM操作のために軽量で高性能でユーザーフレンドリーなライブラリを提供することにより、マトリックスの乗算の課題に対処します。

    AIコミュニティで最適化されたFP8 GEMMの重要な必要性を満たします。 小さなメモリフットプリントを備えた高性能

    • 密度とMOEの両方のレイアウトをサポートしています。
    • 大規模なAIモデルのトレーニングと実行には
    • 重要です。
    • 専用のGEMMタイプを使用してMoEアーキテクチャを最適化します
    • DeepSeekのAIモデルを直接強化します
    • より広範なAI開発エコシステムに利益をもたらします。
    • deepgemm
    • の重要な機能
    • deepgemmの強みには以下が含まれます

    ハイパフォーマンス:nvidiaホッパーgpusで最大1350 fp8 tflopsを達成します。

    軽量設計:
      単純化された使用のための最小依存関係。
    • ジャストインタイムコンピレーション:
    • 合理化されたユーザーエクスペリエンスのために、実行時にカーネルをコンパイルします。
    • 簡潔なコアロジック:コアコードの約300行、多くのエキスパートチューニングされたカーネルを上回る。
    • 多様なレイアウトのサポート:
    • サポート:密集したMOEレイアウトと2つのMOEレイアウト。
    • パフォーマンスベンチマーク さまざまなマトリックス構成にわたるDeepGEMMの効率を以下に示します:

    カスタムスタイル

    / .custom-table { 幅:100%; 国境崩壊:崩壊; /

    境界線が2倍にならないようにします

    / マージン:20px 0; } .custom-tableth、.custom-table td { 国境:1pxソリッド#000; /可視境界 パディング:12px; /快適なパディング/ テキストアライグ:センター; /中央のテキスト

    / } .custom-tableth { バックグラウンドカラー:#f8f9fa; /ヘッダーの明るい灰色/ font-weight:bold; } /レスポンシブ調整/ @media(max-width:768px){ .custom-tableth、.custom-table td { フォントサイズ:14px; /小さな画面上の小さなテキスト/ パディング:8px; } }

    表1:deepgemmパフォーマンスベンチマーク

    インストール手順

    deepgemmのインストールは簡単です:

    ステップ1:前提条件

    • ホッパーアーキテクチャgpus(SM_90A)
    • python 3.8
    • cuda 12.3(推奨:12.8)
    • pytorch 2.1
    • cutlass 3.6(gitサブモジュールにすることができます)

    ステップ2:リポジトリをクローン

    git clone --recursive [email protected]:deepseek-ai/DeepGEMM.git

    ステップ3:ライブラリをインストールします

    python setup.py install

    ステップ4:deepgemmをインポート

    import deep_gemm

    詳細な手順については、DeepGEMM GitHubリポジトリを参照してください

    結論

    DeepGEMMは、高度な機械学習タスクに最適な高性能で使いやすいFP8 GEMMライブラリです。 その軽量設計、速度、柔軟性により、AI開発者にとって貴重なツールになります。 Deepseekの4日目のリリースに関する最新情報については、Analytics Vidhyaブログを確認してください!

以上がDeepGemmはDeepseekオープンソースウィークの3日目にリリースされましたの詳細内容です。詳細については、PHP 中国語 Web サイトの他の関連記事を参照してください。

声明:
この記事の内容はネチズンが自主的に寄稿したものであり、著作権は原著者に帰属します。このサイトは、それに相当する法的責任を負いません。盗作または侵害の疑いのあるコンテンツを見つけた場合は、admin@php.cn までご連絡ください。