deepseekリリースdeepgemm:ai
の高性能FP8GEMMライブラリ目次deepgemmの導入 - 密集したgemmsとmoe gemmsをサポートするFP8 GEMMライブラリ、V3/R1のトレーニングと推論を強化します。
hopper gpus上の最大1350 fp8 tflops
oly使いやすいように設計された最小限の依存関係compilent完全にコンパイルされています…
- deepseek(@deepseek_ai)2025年2月26日このリリースは、Deepseek FlashML(1日目)とDeepseek Deepep(2日目)の発売の成功に続きます。
gemmとは?
fp8?- とは何ですか
- deepgemm の必要性 DeepGemmの重要な機能
- パフォーマンスベンチマーク
- インストール手順
- 結論
- gemmとは?
一般的なマトリックス乗算(GEMM)は、2つのマトリックスを増やして3分の1を生成する基本的な線形代数操作です。 多数のアプリケーションで広く使用されており、その式は次のとおりです
GEMMは、特にニューラルネットワークトレーニングと推論のための深い学習において、モデルのパフォーマンスの最適化に重要です。
とは何ですか
典型的なFP8形式には次のものが含まれます
1サインビット 5指数ビット
2分数ビット
このコンパクトな構造により、大規模なモデルのトレーニングに最適な、より速い計算とメモリの使用量が減少する可能性があります。 精度はわずかに損なわれる可能性がありますが、これはしばしば受け入れられ、計算オーバーヘッドの減少によりパフォーマンスの向上につながります。
- この画像は、FP8(E4M3およびE5M2形式)とFP16およびBF16を比較し、異なる浮動小数点形式の精度と範囲のトレードオフを示しています。
deepgemm
の必要性 DeepGEMMは、多様なGEMM操作のために軽量で高性能でユーザーフレンドリーなライブラリを提供することにより、マトリックスの乗算の課題に対処します。
AIコミュニティで最適化されたFP8 GEMMの重要な必要性を満たします。 小さなメモリフットプリントを備えた高性能
- 密度とMOEの両方のレイアウトをサポートしています。 大規模なAIモデルのトレーニングと実行には
- 重要です。
- 専用のGEMMタイプを使用してMoEアーキテクチャを最適化します DeepSeekのAIモデルを直接強化します
- より広範なAI開発エコシステムに利益をもたらします。
- deepgemm
- の重要な機能 deepgemmの強みには以下が含まれます
ハイパフォーマンス:nvidiaホッパーgpusで最大1350 fp8 tflopsを達成します。
軽量設計:- 単純化された使用のための最小依存関係。
- ジャストインタイムコンピレーション: 合理化されたユーザーエクスペリエンスのために、実行時にカーネルをコンパイルします。
- 簡潔なコアロジック:コアコードの約300行、多くのエキスパートチューニングされたカーネルを上回る。 多様なレイアウトのサポート:
- サポート:密集したMOEレイアウトと2つのMOEレイアウト。
- パフォーマンスベンチマーク さまざまなマトリックス構成にわたるDeepGEMMの効率を以下に示します:
カスタムスタイル
/ .custom-table { 幅:100%; 国境崩壊:崩壊; /
境界線が2倍にならないようにします/ マージン:20px 0; } .custom-tableth、.custom-table td { 国境:1pxソリッド#000; /可視境界 パディング:12px; /快適なパディング/ テキストアライグ:センター; /中央のテキスト
/ } .custom-tableth { バックグラウンドカラー:#f8f9fa; / ヘッダーの明るい灰色/ font-weight:bold; } /レスポンシブ調整/ @media(max-width:768px){ .custom-tableth、.custom-table td { フォントサイズ:14px; /小さな画面上の小さなテキスト/ パディング:8px; } }表1:deepgemmパフォーマンスベンチマーク
インストール手順
deepgemmのインストールは簡単です:
ステップ1:前提条件
- ホッパーアーキテクチャgpus(SM_90A)
- python 3.8
- cuda 12.3(推奨:12.8)
- pytorch 2.1
- cutlass 3.6(gitサブモジュールにすることができます)
ステップ2:リポジトリをクローン
git clone --recursive [email protected]:deepseek-ai/DeepGEMM.git
ステップ3:ライブラリをインストールします
python setup.py install
ステップ4:deepgemmをインポート
import deep_gemm
詳細な手順については、DeepGEMM GitHubリポジトリを参照してください
結論
DeepGEMMは、高度な機械学習タスクに最適な高性能で使いやすいFP8 GEMMライブラリです。 その軽量設計、速度、柔軟性により、AI開発者にとって貴重なツールになります。 Deepseekの4日目のリリースに関する最新情報については、Analytics Vidhyaブログを確認してください!
以上がDeepGemmはDeepseekオープンソースウィークの3日目にリリースされましたの詳細内容です。詳細については、PHP 中国語 Web サイトの他の関連記事を参照してください。

FaceのOlympiccoder-7Bを抱き締める:強力なオープンソースコード推論モデル 優れたコードに焦点を当てた言語モデルを開発するための競争は激化しており、顔を抱き締めることは、恐るべき競争相手との競争に参加しました:Olympiccoder-7B、製品

AIが質問に答えるだけでなく、AIができることを望んでいる人は何人いますか?私は自分が持っていることを知っています、そして最近、私はそれがどのように変容しているかに驚いています。 aiチャットボットはもうチャットするだけでなく、作成することです。

Smart AIは、エンタープライズソフトウェアプラットフォームとアプリケーションのあらゆるレベルのレベルに統合され始めているため(強力なコアツールと信頼性の低いシミュレーションツールの両方があることを強調する必要があります)、これらのエージェントを管理するための新しいインフラストラクチャ機能のセットが必要です。 ドイツのベルリンに拠点を置くプロセスオーケストレーション会社であるCamundaは、Smart AIが適切な役割を果たし、新しいデジタル職場での正確なビジネス目標とルールと一致するのに役立つと考えています。同社は現在、組織がAIエージェントのモデル化、展開、管理を支援するように設計されたインテリジェントオーケストレーション機能を提供しています。 実用的なソフトウェアエンジニアリングの観点から、これはどういう意味ですか? 確実性と非決定的プロセスの統合 同社は、鍵はユーザー(通常はデータサイエンティスト、ソフトウェア)を許可することだと言いました

次の'25年にGoogle Cloudに参加して、GoogleがどのようにAIの製品を区別するかを見たいと思っていました。 エージェントスペース(ここで説明)とカスタマーエクスペリエンススイート(ここで説明)に関する最近の発表は、ビジネス価値を強調し、

検索拡張生成(RAG)システムのための最適な多言語埋め込みモデルの選択 今日の相互接続された世界では、効果的な多言語AIシステムを構築することが最重要です。 REには、堅牢な多言語埋め込みモデルが重要です

テスラのオースティンロボタキシローンチ:マスクの主張を詳しく見る Elon Muskは最近、テキサス州オースティンでのテスラの今後のRobotaxi発売を発表しました。当初、安全上の理由で10〜20台の車両の小さな艦隊を展開し、迅速な拡大を計画しました。 h

人工知能の適用方法は予期しない場合があります。当初、私たちの多くは、それが主にコードの作成やコンテンツの作成など、創造的で技術的なタスクに使用されていると思うかもしれません。 ただし、Harvard Business Reviewによって報告された最近の調査では、そうではないことが示されています。ほとんどのユーザーは、仕事だけでなく、サポート、組織、さらには友情のために人工知能を求めています! 報告書は、AIアプリケーションの最初のケースは治療と交際であると述べています。これは、その24時間年中無休の可用性と匿名の正直なアドバイスとフィードバックを提供する能力が非常に価値があることを示しています。 一方、マーケティングタスク(ブログの作成、ソーシャルメディアの投稿の作成、広告コピーなど)は、一般的な使用リストではるかに低くランク付けされています。 なぜこれがなぜですか?研究の結果とそれがどのように続くかを見てみましょう

AIエージェントの台頭は、ビジネス環境を変えています。 Cloud Revolutionと比較して、AIエージェントの影響は指数関数的に大きく、知識作業に革命をもたらすことを約束していると予測されています。 人間の意思決定-makiをシミュレートする能力


ホットAIツール

Undresser.AI Undress
リアルなヌード写真を作成する AI 搭載アプリ

AI Clothes Remover
写真から衣服を削除するオンライン AI ツール。

Undress AI Tool
脱衣画像を無料で

Clothoff.io
AI衣類リムーバー

Video Face Swap
完全無料の AI 顔交換ツールを使用して、あらゆるビデオの顔を簡単に交換できます。

人気の記事

ホットツール

メモ帳++7.3.1
使いやすく無料のコードエディター

DVWA
Damn Vulnerable Web App (DVWA) は、非常に脆弱な PHP/MySQL Web アプリケーションです。その主な目的は、セキュリティ専門家が法的環境でスキルとツールをテストするのに役立ち、Web 開発者が Web アプリケーションを保護するプロセスをより深く理解できるようにし、教師/生徒が教室環境で Web アプリケーションを教え/学習できるようにすることです。安全。 DVWA の目標は、シンプルでわかりやすいインターフェイスを通じて、さまざまな難易度で最も一般的な Web 脆弱性のいくつかを実践することです。このソフトウェアは、

MantisBT
Mantis は、製品の欠陥追跡を支援するために設計された、導入が簡単な Web ベースの欠陥追跡ツールです。 PHP、MySQL、Web サーバーが必要です。デモおよびホスティング サービスをチェックしてください。

SublimeText3 中国語版
中国語版、とても使いやすい

mPDF
mPDF は、UTF-8 でエンコードされた HTML から PDF ファイルを生成できる PHP ライブラリです。オリジナルの作者である Ian Back は、Web サイトから「オンザフライ」で PDF ファイルを出力し、さまざまな言語を処理するために mPDF を作成しました。 HTML2FPDF などのオリジナルのスクリプトよりも遅く、Unicode フォントを使用すると生成されるファイルが大きくなりますが、CSS スタイルなどをサポートし、多くの機能強化が施されています。 RTL (アラビア語とヘブライ語) や CJK (中国語、日本語、韓国語) を含むほぼすべての言語をサポートします。ネストされたブロックレベル要素 (P、DIV など) をサポートします。
