DeepGemmはDeepseekオープンソースウィークの3日目にリリースされました-AI-php.cn

ホームページ

テクノロジー周辺機器

DeepGemmはDeepseekオープンソースウィークの3日目にリリースされました

Jennifer Aniston

Mar 03, 2025 pm 06:58 PM

deepseekリリースdeepgemm：ai

の高性能FP8GEMMライブラリ？ #opensourceweekの3日目：deepgemm

deepgemmの導入 - 密集したgemmsとmoe gemmsをサポートするFP8 GEMMライブラリ、V3/R1のトレーニングと推論を強化します。

hopper gpus上の最大1350 fp8 tflops
oly使いやすいように設計された最小限の依存関係
compilent完全にコンパイルされています…

- deepseek（@deepseek_ai）2025年2月26日

このリリースは、Deepseek FlashML（1日目）とDeepseek Deepep（2日目）の発売の成功に続きます。

gemmとは？

fp8？

deepgemm
パフォーマンスベンチマーク
インストール手順
結論
gemmとは？

一般的なマトリックス乗算（GEMM）は、2つのマトリックスを増やして3分の1を生成する基本的な線形代数操作です。多数のアプリケーションで広く使用されており、その式は次のとおりです

GEMMは、特にニューラルネットワークトレーニングと推論のための深い学習において、モデルのパフォーマンスの最適化に重要です。

DeepGEMM Released on Day 3 of DeepSeek Open Source Week

このイラストは、最適化されたキャッシュ利用のために、タイル（マトリックスを小さなブロック、ntile、ktile）に強調するGEMMを示しています。これにより、データの局所性と並列性が強化されたパフォーマンスが向上します

fp8？

DeepGEMM Released on Day 3 of DeepSeek Open Source Week とは何ですか

FP8（8ビットフローティングポイント）は、高性能コンピューティング形式であり、精度と効率的な数値データ表現を削減します。機械学習における大規模なデータセットの計算需要を処理するのに特に有益です。

典型的なFP8形式には次のものが含まれます

1サインビット 5指数ビット

2分数ビット

このコンパクトな構造により、大規模なモデルのトレーニングに最適な、より速い計算とメモリの使用量が減少する可能性があります。精度はわずかに損なわれる可能性がありますが、これはしばしば受け入れられ、計算オーバーヘッドの減少によりパフォーマンスの向上につながります。

この画像は、FP8（E4M3およびE5M2形式）とFP16およびBF16を比較し、異なる浮動小数点形式の精度と範囲のトレードオフを示しています。
deepgemm
の必要性 DeepGEMMは、多様なGEMM操作のために軽量で高性能でユーザーフレンドリーなライブラリを提供することにより、マトリックスの乗算の課題に対処します。

AIコミュニティで最適化されたFP8 GEMMの重要な必要性を満たします。小さなメモリフットプリントを備えた高性能
- 密度とMOEの両方のレイアウトをサポートしています。
- 重要です。
- 専用のGEMMタイプを使用してMoEアーキテクチャを最適化します
- より広範なAI開発エコシステムに利益をもたらします。
- deepgemm
- の重要な機能
ハイパフォーマンス：nvidiaホッパーgpusで最大1350 fp8 tflopsを達成します。

軽量設計：
- ジャストインタイムコンピレーション：
- 簡潔なコアロジック：コアコードの約300行、多くのエキスパートチューニングされたカーネルを上回る。
- サポート：密集したMOEレイアウトと2つのMOEレイアウト。
- パフォーマンスベンチマークさまざまなマトリックス構成にわたるDeepGEMMの効率を以下に示します：
カスタムスタイル

/ .custom-table { 幅：100％; 国境崩壊：崩壊; /
境界線が2倍にならないようにします
/ マージン：20px 0; } .custom-tableth、.custom-table td { 国境：1pxソリッド＃000; /可視境界パディング：12px; /快適なパディング/ テキストアライグ：センター; /中央のテキスト
/ } .custom-tableth { バックグラウンドカラー：＃f8f9fa; /ヘッダーの明るい灰色/ font-weight：bold; } /レスポンシブ調整/ @media（max-width：768px）{ .custom-tableth、.custom-table td { フォントサイズ：14px; /小さな画面上の小さなテキスト/ パディング：8px; } }
表1：deepgemmパフォーマンスベンチマーク

インストール手順

deepgemmのインストールは簡単です：

ステップ1：前提条件
- ホッパーアーキテクチャgpus（SM_90A）
- python 3.8
- cuda 12.3（推奨：12.8）
- pytorch 2.1
- cutlass 3.6（gitサブモジュールにすることができます）
ステップ2：リポジトリをクローン
```
git clone --recursive [email protected]:deepseek-ai/DeepGEMM.git
```
ステップ3：ライブラリをインストールします
```
python setup.py install
```
ステップ4：deepgemmをインポート
```
import deep_gemm
```
詳細な手順については、DeepGEMM GitHubリポジトリを参照してください

結論
DeepGEMMは、高度な機械学習タスクに最適な高性能で使いやすいFP8 GEMMライブラリです。その軽量設計、速度、柔軟性により、AI開発者にとって貴重なツールになります。 Deepseekの4日目のリリースに関する最新情報については、Analytics Vidhyaブログを確認してください！

以上がDeepGemmはDeepseekオープンソースウィークの3日目にリリースされましたの詳細内容です。詳細については、PHP 中国語 Web サイトの他の関連記事を参照してください。

声明

この記事の内容はネチズンが自主的に寄稿したものであり、著作権は原著者に帰属します。このサイトは、それに相当する法的責任を負いません。盗作または侵害の疑いのあるコンテンツを見つけた場合は、admin@php.cn までご連絡ください。

顔を抱きしめます＆＃039; S 7BモデルオリンピックコダーはClaude 3.7を破っていますか？Apr 23, 2025 am 11:49 AM

FaceのOlympiccoder-7Bを抱き締める：強力なオープンソースコード推論モデル優れたコードに焦点を当てた言語モデルを開発するための競争は激化しており、顔を抱き締めることは、恐るべき競争相手との競争に参加しました：Olympiccoder-7B、製品

4つの新しいジェミニ機能は、見逃す余裕がありますApr 23, 2025 am 11:48 AM

AIが質問に答えるだけでなく、AIができることを望んでいる人は何人いますか？私は自分が持っていることを知っています、そして最近、私はそれがどのように変容しているかに驚いています。 aiチャットボットはもうチャットするだけでなく、作成することです。

Camundaは、エージェントAIオーケストレーションの新しいスコアを作成しますApr 23, 2025 am 11:46 AM

Smart AIは、エンタープライズソフトウェアプラットフォームとアプリケーションのあらゆるレベルのレベルに統合され始めているため（強力なコアツールと信頼性の低いシミュレーションツールの両方があることを強調する必要があります）、これらのエージェントを管理するための新しいインフラストラクチャ機能のセットが必要です。ドイツのベルリンに拠点を置くプロセスオーケストレーション会社であるCamundaは、Smart AIが適切な役割を果たし、新しいデジタル職場での正確なビジネス目標とルールと一致するのに役立つと考えています。同社は現在、組織がAIエージェントのモデル化、展開、管理を支援するように設計されたインテリジェントオーケストレーション機能を提供しています。実用的なソフトウェアエンジニアリングの観点から、これはどういう意味ですか？確実性と非決定的プロセスの統合同社は、鍵はユーザー（通常はデータサイエンティスト、ソフトウェア）を許可することだと言いました

キュレーションされたエンタープライズAIエクスペリエンスに価値はありますか？Apr 23, 2025 am 11:45 AM

次の'25年にGoogle Cloudに参加して、GoogleがどのようにAIの製品を区別するかを見たいと思っていました。エージェントスペース（ここで説明）とカスタマーエクスペリエンススイート（ここで説明）に関する最近の発表は、ビジネス価値を強調し、

ぼろきれに最適な多言語埋め込みモデルを見つける方法は？Apr 23, 2025 am 11:44 AM

検索拡張生成（RAG）システムのための最適な多言語埋め込みモデルの選択今日の相互接続された世界では、効果的な多言語AIシステムを構築することが最重要です。 REには、堅牢な多言語埋め込みモデルが重要です

ムスク：オースティンのロボタキシスは、10,000マイルごとに介入が必要ですApr 23, 2025 am 11:42 AM

テスラのオースティンロボタキシローンチ：マスクの主張を詳しく見る Elon Muskは最近、テキサス州オースティンでのテスラの今後のRobotaxi発売を発表しました。当初、安全上の理由で10〜20台の車両の小さな艦隊を展開し、迅速な拡大を計画しました。 h

AI＆＃x27;の衝撃的なピボット：作業ツールからデジタルセラピストやライフコーチまでApr 23, 2025 am 11:41 AM

人工知能の適用方法は予期しない場合があります。当初、私たちの多くは、それが主にコードの作成やコンテンツの作成など、創造的で技術的なタスクに使用されていると思うかもしれません。ただし、Harvard Business Reviewによって報告された最近の調査では、そうではないことが示されています。ほとんどのユーザーは、仕事だけでなく、サポート、組織、さらには友情のために人工知能を求めています！報告書は、AIアプリケーションの最初のケースは治療と交際であると述べています。これは、その24時間年中無休の可用性と匿名の正直なアドバイスとフィードバックを提供する能力が非常に価値があることを示しています。一方、マーケティングタスク（ブログの作成、ソーシャルメディアの投稿の作成、広告コピーなど）は、一般的な使用リストではるかに低くランク付けされています。なぜこれがなぜですか？研究の結果とそれがどのように続くかを見てみましょう

企業はAIエージェントの採用に向けて競い合っていますApr 23, 2025 am 11:40 AM

AIエージェントの台頭は、ビジネス環境を変えています。 Cloud Revolutionと比較して、AIエージェントの影響は指数関数的に大きく、知識作業に革命をもたらすことを約束していると予測されています。人間の意思決定-makiをシミュレートする能力

See all articles

ホットAIツール

Undresser.AI Undress

リアルなヌード写真を作成する AI 搭載アプリ

AI Clothes Remover

写真から衣服を削除するオンライン AI ツール。

Undress AI Tool

脱衣画像を無料で

Clothoff.io

AI衣類リムーバー

Video Face Swap

完全無料の AI 顔交換ツールを使用して、あらゆるビデオの顔を簡単に交換できます。

ホットツール

メモ帳++7.3.1

使いやすく無料のコードエディター

DVWA

Damn Vulnerable Web App (DVWA) は、非常に脆弱な PHP/MySQL Web アプリケーションです。その主な目的は、セキュリティ専門家が法的環境でスキルとツールをテストするのに役立ち、Web 開発者が Web アプリケーションを保護するプロセスをより深く理解できるようにし、教師/生徒が教室環境で Web アプリケーションを教え/学習できるようにすることです。安全。 DVWA の目標は、シンプルでわかりやすいインターフェイスを通じて、さまざまな難易度で最も一般的な Web 脆弱性のいくつかを実践することです。このソフトウェアは、

MantisBT

Mantis は、製品の欠陥追跡を支援するために設計された、導入が簡単な Web ベースの欠陥追跡ツールです。 PHP、MySQL、Web サーバーが必要です。デモおよびホスティングサービスをチェックしてください。

SublimeText3 中国語版

中国語版、とても使いやすい

mPDF

mPDF は、UTF-8 でエンコードされた HTML から PDF ファイルを生成できる PHP ライブラリです。オリジナルの作者である Ian Back は、Web サイトから「オンザフライ」で PDF ファイルを出力し、さまざまな言語を処理するために mPDF を作成しました。 HTML2FPDF などのオリジナルのスクリプトよりも遅く、Unicode フォントを使用すると生成されるファイルが大きくなりますが、CSS スタイルなどをサポートし、多くの機能強化が施されています。 RTL (アラビア語とヘブライ語) や CJK (中国語、日本語、韓国語) を含むほぼすべての言語をサポートします。ネストされたブロックレベル要素 (P、DIV など) をサポートします。