3140參數Grok-1推理加速3.8倍，PyTorch+HuggingFace版來了-人工智慧-PHP中文網

首頁

科技週邊

人工智慧

3140參數Grok-1推理加速3.8倍，PyTorch+HuggingFace版來了

王林

Mar 25, 2024 pm 03:21 PM

ai模型

馬斯克說到做到開源Grok-1，開源社群一片狂喜。

但基於Grok-1做改動or商用，都還有點難題：

Grok-1使用Rust JAX建構，對於習慣Python PyTorch HuggingFace等主流軟體生態的用戶上手門檻高。

3140參數Grok-1推理加速3.8倍，PyTorch+HuggingFace版來了

△圖註：Grok登上GitHub熱度榜世界第一

Colossal-AI團隊最新成果，解大家燃眉之急，提供方便易用的Python PyTorch HuggingFace Grok-1，能將推理延遲加速近4倍！

現在，模型已在HuggingFace、ModelScope上發布。

HuggingFace下載連結：
https://www.php.cn/link/335396ce0d3f6e808c26132f91916eae

ModelScope下載連結：
https: //www.php.cn/link/7ae7778c9ae86d2ded133e891995dc9e

性能優化

結合Colossal-AI在AI大模型系統優化領域的豐富積累，已迅速支持對Grok-1的張量並行。

在單一8H800 80GB伺服器上，推理效能相較於JAX、HuggingFace的auto device map等方法，推理延遲加速近4倍。

3140參數Grok-1推理加速3.8倍，PyTorch+HuggingFace版來了

使用教學

下載安裝Colossal-AI後，啟動推理腳本即可。

./run_inference_fast.sh hpcaitech/grok-1

模型權重將會自動下載和加載，推理結果也能保持對齊。如下圖Grok-1 greedy search的運行測試。

3140參數Grok-1推理加速3.8倍，PyTorch+HuggingFace版來了

更多詳情可參考grok-1使用範例：
https://www.php.cn/link/e2575ed7d2c481c414c10e688bcbc4cf

龐然大物Grok-1

這次開源，xAI發布了Grok-1的基本模型權重和網路架構。

具體來說是2023年10月預訓練階段的原始基礎模型，沒有針對任何特定應用（例如對話）進行微調。

結構上，Grok-1採用了混合專家（MoE）架構，包含8個專家，總參數量為314B（3140億），處理Token時，其中的兩個專家會被激活，激活參數量為86B。

單看這活化的參數量，就已經超過了密集模型Llama 2的70B，對於MoE架構來說，這樣的參數量稱之為龐然大物也毫不為過。

更多參數資訊如下：

視窗長度為8192tokens，精確度為bf16
Tokenizer vocab大小為131072（2^17），與GPT-4接近；
embedding大小為6144（48×128）；
Transformer層數為64，每層都有一個解碼器層，包含多頭注意力塊和密集塊；
key value大小為128；
多頭注意力區塊中，有48 個頭用於查詢，8 個用於KV，KV 大小為128；
密集區塊（密集前饋區塊）擴充因子為8，隱藏層大小為32768

3140參數Grok-1推理加速3.8倍，PyTorch+HuggingFace版來了

#在GitHub頁面中，官方提示，由於模型規模較大（314B參數），需要有足夠GPU和記憶體的機器才能運作Grok。

這裡MoE層的實作效率並不高，選擇這種實作方式是為了避免驗證模型的正確性時需要自訂核心。

模型的權重檔案則是以磁力連結的形式提供，檔案大小接近300GB。

3140參數Grok-1推理加速3.8倍，PyTorch+HuggingFace版來了

值得一提的是，Grok-1採用的是Apache 2.0 license，商用友善。

目前Grok-1在GitHub上的標星已達到43.9k Stars。

量子位元了解，Colossal-AI將在近期進一步推出對Grok-1在並行加速、量化降低顯存成本等優化，歡迎持續關注。

Colossal-AI開源位址：#https://www.php.cn/link/b9531e7d2a8f38fe8dcc73f58cae9530

#################################################################################################################

以上是3140參數Grok-1推理加速3.8倍，PyTorch+HuggingFace版來了的詳細內容。更多資訊請關注PHP中文網其他相關文章！

陳述

本文轉載於：51CTO.COM。如有侵權，請聯絡admin@php.cn刪除

如何使用Huggingface Smollm建立個人AI助手Apr 18, 2025 am 11:52 AM

利用“設備” AI的力量：建立個人聊天機器人CLI 在最近的過去，個人AI助手的概念似乎是科幻小說。想像一下科技愛好者亞歷克斯（Alex）夢見一個聰明的本地AI同伴 - 不依賴

通過斯坦福大學激動人心的新計劃，精神健康的AI專心分析Apr 18, 2025 am 11:49 AM

他們的首屆AI4MH發射於2025年4月15日舉行，著名的精神科醫生兼神經科學家湯姆·因斯爾（Tom Insel）博士曾擔任開幕式演講者。 Insel博士因其在心理健康研究和技術方面的傑出工作而聞名

2025年WNBA選秀課程進入聯盟成長並與在線騷擾作鬥爭Apr 18, 2025 am 11:44 AM

恩格伯特說：“我們要確保WNBA仍然是每個人，球員，粉絲和公司合作夥伴，感到安全，重視和授權的空間。” anno

Python內置數據結構的綜合指南 - 分析VidhyaApr 18, 2025 am 11:43 AM

介紹 Python擅長使用編程語言，尤其是在數據科學和生成AI中。在處理大型數據集時，有效的數據操作（存儲，管理和訪問）至關重要。我們以前涵蓋了數字和ST

與替代方案相比，Openai新型號的第一印象Apr 18, 2025 am 11:41 AM

潛水之前，一個重要的警告：AI性能是非確定性的，並且特定於高度用法。簡而言之，您的里程可能會有所不同。不要將此文章（或任何其他）文章作為最後一句話 - 目的是在您自己的情況下測試這些模型

AI投資組合|如何為AI職業建立投資組合？Apr 18, 2025 am 11:40 AM

建立杰出的AI/ML投資組合：初學者和專業人士指南創建引人注目的投資組合對於確保在人工智能（AI）和機器學習（ML）中的角色至關重要。本指南為建立投資組合提供了建議

代理AI對安全操作可能意味著什麼Apr 18, 2025 am 11:36 AM

結果？倦怠，效率低下以及檢測和作用之間的差距擴大。這一切都不應該令任何從事網絡安全工作的人感到震驚。不過，代理AI的承諾已成為一個潛在的轉折點。這個新課

Google與Openai：AI為學生打架Apr 18, 2025 am 11:31 AM

直接影響與長期夥伴關係？兩週前，Openai提出了強大的短期優惠，在2025年5月底之前授予美國和加拿大大學生免費訪問Chatgpt Plus。此工具包括GPT-4O，A A A A A

See all articles

熱AI工具

Undresser.AI Undress

人工智慧驅動的應用程序，用於創建逼真的裸體照片

AI Clothes Remover

用於從照片中去除衣服的線上人工智慧工具。

Undress AI Tool

免費脫衣圖片

Clothoff.io

AI脫衣器

AI Hentai Generator

免費產生 AI 無盡。

熱工具

MinGW - Minimalist GNU for Windows

這個專案正在遷移到osdn.net/projects/mingw的過程中，你可以繼續在那裡關注我們。 MinGW：GNU編譯器集合（GCC）的本機Windows移植版本，可自由分發的導入函式庫和用於建置本機Windows應用程式的頭檔；包括對MSVC執行時間的擴展，以支援C99功能。 MinGW的所有軟體都可以在64位元Windows平台上運作。