首頁 >科技週邊 >人工智慧 >DeepGemm在DeepSeek開源週的第3天發布

DeepGemm在DeepSeek開源週的第3天發布

Jennifer Aniston
Jennifer Aniston原創
2025-03-03 18:58:10201瀏覽

> DeepSeek釋放DeepGemm:AI

>的高性能FP8 GEMM庫 作為#opensourceweek的一部分,DeepSeek揭開了DeepGemm,這是一個優化的尖端庫,可為有效的FP8常規矩陣乘法(GEMMS)優化。 該庫支持稠密和混合物(MOE)GEMM,證明對V3/R1型號訓練和推理而言是無價的。 DeepGemm旨在顯著提高AI工作量的性能和效率,從而加強了DeepSeek對開源創新的承諾。

? #opensourceweek的第3天:deepgemm

介紹DeepGemm - FP8 GEMM庫支持密集和Moe Gemms,為V3/R1培訓和推理提供動力。

⚡hopper gpus上的最多1350 fp8 tflops

✅最小依賴性,旨在易於使用
✅完全編譯的時間……

- DeepSeek(@deepseek_ai)2025年2月26日

此版本是在DeepSeek FlashMl(第1天)和DeepSeek Deepep(第2天)的成功推出之後。 目錄的

什麼是Gemm?
  • 什麼是fp8?
  • 需要deepgemm
  • DeepGemm
  • 的關鍵特徵
  • >
  • >性能基準
  • >安裝說明
  • 結論
什麼是Gemm?

一般矩陣乘法(GEMM)是一種基本線性代數操作,可乘以兩個矩陣以產生第三個矩陣。 它的公式廣泛使用,是:

GEMM對於模型性能優化至關重要,尤其是在神經網絡培訓和推理的深度學習中。 DeepGEMM Released on Day 3 of DeepSeek Open Source Week

>此圖表顯示了GEMM,突出顯示了瓷磚(將矩陣分為較小的塊 - mtile,ntile,ktile),以優化加速使用。 這通過增強的數據局部性和並行性提高了性能。

> DeepGEMM Released on Day 3 of DeepSeek Open Source Week

什麼是fp8?

> fp8(8位浮點)是一種高性能計算格式,可降低精度和有效的數值數據表示。 這對於處理機器學習中大型數據集的計算需求特別有益。 典型的FP8格式包括:

> 1個標誌位

5個指數位

    2個分數位
  • >這種緊湊的結構可實現更快的計算和減少的內存使用情況,非常適合訓練大型模型。 雖然精確度可能會略有損害,但這通常是可以接受的,即使是由於計算開銷降低而導致性能提高。
  • 此圖像將FP8(E4M3和E5M2格式)與FP16和BF16進行了比較,說明了不同浮點格式的精度和範圍之間的權衡。

    >

    需要深gemmmmmmmmmmmmmmmmmmmmmmmmmmmmmmmmmmmmmmmmmmmmmmmmmmmmmmmmmmmmmmmmmmmmmmmmmmmmmmmmmmmmmmmmmmmmmmmmmmmmmmmmmmmmmmmmmmmmmmmmmmmmmmmmmmmmmmmmmmmmmmmmmmmmmmmmmmmmmmmmmmmmmmmmmmmmmmmmmmmmmmmmmmmmmmmmmmmmmmmmmmmmmmmmmmmmmmmmmmmmmmmmmmmmmmmmmmmmmmmm的 DeepGemm通過為各種GEMM操作提供輕巧,高性能和用戶友好的庫來解決矩陣乘法挑戰。

    填補了在AI社區中優化FP8 GEMM的關鍵需求。

    高性能,具有較小的內存足跡。

      支持密集和MOE佈局。
    • >對於大型AI模型培訓和執行至關重要。
    • >用專門的GEMM類型優化MOE體系結構。
    • 直接增強了DeepSeek的AI模型。
    • 受益於更廣泛的AI開發生態系統。
    • DeepGemmMMMMMMMMMMMMMMMMMMMMMMMMMMMMMMMMMMMMMMMMMMMMMMMMMMMMMMMMMMMMMMM
    • > DeepGemm的優勢包括:
    • 高性能:
    • 在NVIDIA HOPPER GPU上最多可達到1350 FP8 TFLOPS。

    輕量級設計:簡化用法的最小依賴項。

    即時彙編:

    在運行時編譯內核,以進行簡化的用戶體驗。
    • 簡潔的核心邏輯:大約300行的核心代碼,表現優於許多專家調整的內核。
    • 支持各種佈局:支持密集和兩個MOE佈局。
    • 性能基準
    • DeepGemm在各種矩陣配置上的效率如下:
    /

    /的自定義樣式/ .custom-table { 寬度:100%; 邊界爆發:崩潰; /確保邊界不要加倍

    / 保證金:20px 0; } .custom-table th,.custom-table TD 邊界:1PX實心#000; /

    可見邊框

    / 填充:12px; /

    舒適的填充/ 文字平衡:中心; /中心文本/ } .custom-table th { 背景色:#f8f9fa; /淺灰色,用於標頭

    / 字體重量:大膽; } /響應式調整/ @Media(最大寬度:768px){ .custom-table th,.custom-table TD 字體大小:14px; /較小的屏幕上的較小文本/ 填充:8px; } } 表1:DeepGemm performance Benchmarks

    表1:

    >安裝說明

    DeepGemm安裝很簡單:

    步驟1:先決條件

    >料斗架構GPU(SM_90A)
    • python 3.8
    • > cuda 12.3(推薦:12.8)
    • >
    • > pytorch 2.1
    • Cutlass 3.6(可以是git子模塊)
    步驟2:克隆存儲庫

    >

    >
git clone --recursive [email protected]:deepseek-ai/DeepGEMM.git
步驟3:安裝庫

>

>
python setup.py install
步驟4:導入deepgemm

>

有關詳細說明,請參見DeepGemm github存儲庫。
import deep_gemm

結論

DeepGemm是一個高性能的,用戶友好的FP8 GEMM庫,非常適合高級機器學習任務。 它的輕巧設計,速度和靈活性使其成為AI開發人員的寶貴工具。 檢查Analytics Vidhya博客以獲取有關DeepSeek的第4天版本的最新信息!

以上是DeepGemm在DeepSeek開源週的第3天發布的詳細內容。更多資訊請關注PHP中文網其他相關文章!

陳述:
本文內容由網友自願投稿,版權歸原作者所有。本站不承擔相應的法律責任。如發現涉嫌抄襲或侵權的內容,請聯絡admin@php.cn