首頁 >科技週邊 >人工智慧 >DeepGemm在DeepSeek開源週的第3天發布

DeepGemm在DeepSeek開源週的第3天發布

Jennifer Aniston原創: 2025-03-03 18:58:10201瀏覽

> DeepSeek釋放DeepGemm：AI

>的高性能FP8 GEMM庫作為#opensourceweek的一部分，DeepSeek揭開了DeepGemm，這是一個優化的尖端庫，可為有效的FP8常規矩陣乘法（GEMMS）優化。該庫支持稠密和混合物（MOE）GEMM，證明對V3/R1型號訓練和推理而言是無價的。 DeepGemm旨在顯著提高AI工作量的性能和效率，從而加強了DeepSeek對開源創新的承諾。

？ #opensourceweek的第3天：deepgemm

介紹DeepGemm - FP8 GEMM庫支持密集和Moe Gemms，為V3/R1培訓和推理提供動力。

⚡hopper gpus上的最多1350 fp8 tflops
✅最小依賴性，旨在易於使用
✅完全編譯的時間……

- DeepSeek（@deepseek_ai）2025年2月26日

此版本是在DeepSeek FlashMl（第1天）和DeepSeek Deepep（第2天）的成功推出之後。目錄的

表

什麼是Gemm？

什麼是fp8？
需要deepgemm
的關鍵特徵
>性能基準
>安裝說明
結論

什麼是Gemm？

一般矩陣乘法（GEMM）是一種基本線性代數操作，可乘以兩個矩陣以產生第三個矩陣。它的公式廣泛使用，是：

GEMM對於模型性能優化至關重要，尤其是在神經網絡培訓和推理的深度學習中。 DeepGEMM Released on Day 3 of DeepSeek Open Source Week

>此圖表顯示了GEMM，突出顯示了瓷磚（將矩陣分為較小的塊 - mtile，ntile，ktile），以優化加速使用。這通過增強的數據局部性和並行性提高了性能。

> DeepGEMM Released on Day 3 of DeepSeek Open Source Week

什麼是fp8？

> fp8（8位浮點）是一種高性能計算格式，可降低精度和有效的數值數據表示。這對於處理機器學習中大型數據集的計算需求特別有益。 典型的FP8格式包括：

> 1個標誌位

5個指數位

>這種緊湊的結構可實現更快的計算和減少的內存使用情況，非常適合訓練大型模型。雖然精確度可能會略有損害，但這通常是可以接受的，即使是由於計算開銷降低而導致性能提高。

此圖像將FP8（E4M3和E5M2格式）與FP16和BF16進行了比較，說明了不同浮點格式的精度和範圍之間的權衡。

需要深gemmmmmmmmmmmmmmmmmmmmmmmmmmmmmmmmmmmmmmmmmmmmmmmmmmmmmmmmmmmmmmmmmmmmmmmmmmmmmmmmmmmmmmmmmmmmmmmmmmmmmmmmmmmmmmmmmmmmmmmmmmmmmmmmmmmmmmmmmmmmmmmmmmmmmmmmmmmmmmmmmmmmmmmmmmmmmmmmmmmmmmmmmmmmmmmmmmmmmmmmmmmmmmmmmmmmmmmmmmmmmmmmmmmmmmmmmmmmmmmm的 DeepGemm通過為各種GEMM操作提供輕巧，高性能和用戶友好的庫來解決矩陣乘法挑戰。

高性能，具有較小的內存足跡。

>用專門的GEMM類型優化MOE體系結構。
> DeepGemm的優勢包括：
高性能：
在NVIDIA HOPPER GPU上最多可達到1350 FP8 TFLOPS。

輕量級設計：簡化用法的最小依賴項。

即時彙編：

簡潔的核心邏輯：大約300行的核心代碼，表現優於許多專家調整的內核。
支持各種佈局：支持密集和兩個MOE佈局。
性能基準

表/的自定義樣式/ .custom-table { 寬度：100％；邊界爆發：崩潰； /確保邊界不要加倍

可見邊框

舒適的填充/ 文字平衡：中心； /中心文本/ } .custom-table th { 背景色：＃f8f9fa; /淺灰色，用於標頭

/ 字體重量：大膽； } /

/ 填充：8px; } }

表1：

DeepGemm安裝很簡單：

python 3.8
> cuda 12.3（推薦：12.8）
> pytorch 2.1
Cutlass 3.6（可以是git子模塊）

git clone --recursive [email protected]:deepseek-ai/DeepGEMM.git

步驟3：安裝庫

python setup.py install

步驟4：導入deepgemm

有關詳細說明，請參見DeepGemm github存儲庫。

import deep_gemm

結論

DeepGemm是一個高性能的，用戶友好的FP8 GEMM庫，非常適合高級機器學習任務。它的輕巧設計，速度和靈活性使其成為AI開發人員的寶貴工具。檢查Analytics Vidhya博客以獲取有關DeepSeek的第4天版本的最新信息！

以上是DeepGemm在DeepSeek開源週的第3天發布的詳細內容。更多資訊請關注PHP中文網其他相關文章！

Python edge for while format include double this margin padding border background table td th github git pytorch

陳述：

本文內容由網友自願投稿，版權歸原作者所有。本站不承擔相應的法律責任。如發現涉嫌抄襲或侵權的內容，請聯絡admin@php.cn

上一篇：2025年探索的十大多模式LLM -Analytics Vidhya下一篇：2025年探索的十大多模式LLM -Analytics Vidhya

看更多