> DeepSeek釋放DeepGemm:AI
>的高性能FP8 GEMM庫 作為#opensourceweek的一部分,DeepSeek揭開了DeepGemm,這是一個優化的尖端庫,可為有效的FP8常規矩陣乘法(GEMMS)優化。 該庫支持稠密和混合物(MOE)GEMM,證明對V3/R1型號訓練和推理而言是無價的。 DeepGemm旨在顯著提高AI工作量的性能和效率,從而加強了DeepSeek對開源創新的承諾。
? #opensourceweek的第3天:deepgemm此版本是在DeepSeek FlashMl(第1天)和DeepSeek Deepep(第2天)的成功推出之後。 目錄的表介紹DeepGemm - FP8 GEMM庫支持密集和Moe Gemms,為V3/R1培訓和推理提供動力。
⚡hopper gpus上的最多1350 fp8 tflops
✅最小依賴性,旨在易於使用
- DeepSeek(@deepseek_ai)2025年2月26日
✅完全編譯的時間……
什麼是Gemm?
一般矩陣乘法(GEMM)是一種基本線性代數操作,可乘以兩個矩陣以產生第三個矩陣。 它的公式廣泛使用,是:
GEMM對於模型性能優化至關重要,尤其是在神經網絡培訓和推理的深度學習中。
>此圖表顯示了GEMM,突出顯示了瓷磚(將矩陣分為較小的塊 - mtile,ntile,ktile),以優化加速使用。 這通過增強的數據局部性和並行性提高了性能。
>
> fp8(8位浮點)是一種高性能計算格式,可降低精度和有效的數值數據表示。 這對於處理機器學習中大型數據集的計算需求特別有益。 典型的FP8格式包括:
> 1個標誌位
5個指數位
此圖像將FP8(E4M3和E5M2格式)與FP16和BF16進行了比較,說明了不同浮點格式的精度和範圍之間的權衡。
>需要深gemmmmmmmmmmmmmmmmmmmmmmmmmmmmmmmmmmmmmmmmmmmmmmmmmmmmmmmmmmmmmmmmmmmmmmmmmmmmmmmmmmmmmmmmmmmmmmmmmmmmmmmmmmmmmmmmmmmmmmmmmmmmmmmmmmmmmmmmmmmmmmmmmmmmmmmmmmmmmmmmmmmmmmmmmmmmmmmmmmmmmmmmmmmmmmmmmmmmmmmmmmmmmmmmmmmmmmmmmmmmmmmmmmmmmmmmmmmmmmmm的
DeepGemm通過為各種GEMM操作提供輕巧,高性能和用戶友好的庫來解決矩陣乘法挑戰。
高性能,具有較小的內存足跡。
輕量級設計:簡化用法的最小依賴項。
即時彙編:
在運行時編譯內核,以進行簡化的用戶體驗。表/的自定義樣式/ .custom-table { 寬度:100%; 邊界爆發:崩潰; /確保邊界不要加倍
/ 保證金:20px 0; } .custom-table th,.custom-table TD 邊界:1PX實心#000; /可見邊框
/ 填充:12px; /舒適的填充/ 文字平衡:中心; /中心文本/ } .custom-table th { 背景色:#f8f9fa; /淺灰色,用於標頭
表1:
>安裝說明DeepGemm安裝很簡單:
步驟1:先決條件>料斗架構GPU(SM_90A)
>
>git clone --recursive [email protected]:deepseek-ai/DeepGEMM.git步驟3:安裝庫
>
>python setup.py install步驟4:導入deepgemm
>
有關詳細說明,請參見DeepGemm github存儲庫。import deep_gemm
結論
DeepGemm是一個高性能的,用戶友好的FP8 GEMM庫,非常適合高級機器學習任務。 它的輕巧設計,速度和靈活性使其成為AI開發人員的寶貴工具。 檢查Analytics Vidhya博客以獲取有關DeepSeek的第4天版本的最新信息!
以上是DeepGemm在DeepSeek開源週的第3天發布的詳細內容。更多資訊請關注PHP中文網其他相關文章!