老黃給H100「打雞血」：英偉達推出大模型加速包，Llama2推理速度翻倍

老黃給H100「打雞血」：英偉達推出大模型加速包，Llama2推理速度翻倍

WBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWB

Sep 18, 2023 pm 03:45 PM

ai訓練

大模型的推理速度，短短一個月就提高了一倍！

近日，英偉達宣布推出了一款專為H100設計的“雞血包”，旨在加速LLM推理過程

或許這下可以不用空等明年才能交付的GH200了老黃給H100「打雞血」：英偉達推出大模型加速包，Llama2推理速度翻倍。

老黃給H100「打雞血」：英偉達推出大模型加速包，Llama2推理速度翻倍

GPU的運算能力一直在影響著大型模型的效能，無論是硬體供應商或使用者，都希望能夠獲得更快的運算速度

而作為大模型背後硬體的最大供應商，英偉達一直在研究怎麼給大模型硬體加速。

透過與多家AI公司合作，英偉達終於推出了大模型推理優化程式TensorRT-LLM(暫且簡稱TensorRT)。

TensorRT不僅能讓大模型的推理速度翻倍，使用起來也很方便。

無須深入了解C 和CUDA，也能快速客製化最佳化策略，在H100上更快跑大模型。

英偉達科學家範麟熙(Jim Fan)轉發並評論稱，英偉達的「另一項優勢」就是可以最大化利用GPU性能的配套軟體。

老黃給H100「打雞血」：英偉達推出大模型加速包，Llama2推理速度翻倍

英偉達透過軟體為產品注入了新的活力，就像實踐了老黃的那句「買得越多，省得越多」。然而，這並不妨礙一些人覺得產品價格太高

老黃給H100「打雞血」：英偉達推出大模型加速包，Llama2推理速度翻倍

除了價格，也有網友對其運行效果提出了質疑：

我們總是看到(宣傳中的)多少倍的效能提升，但自己運行Llama 2的時候每秒還是只能處理幾十個token。

老黃給H100「打雞血」：英偉達推出大模型加速包，Llama2推理速度翻倍

對於TensorRT來說，我們需要進一步進行檢驗，以決定它是否真的有效。讓我們先來詳細了解TensorRT

大模型推理速度翻倍

TensorRT-LLM優化後的H100，對於運行大型模型來說速度有多快呢？

英偉達的通告中給出了Llama 2和GPT-J-6B兩種模型的資料。

在經過優化後的H100上，跑Llama 2的推理速度是A100的4.6倍，也是八月份未經優化的H100的1.77倍

老黃給H100「打雞血」：英偉達推出大模型加速包，Llama2推理速度翻倍

#而GPT-J-6B的推理速度是A100上的8倍、八月未優化版的2倍。

老黃給H100「打雞血」：英偉達推出大模型加速包，Llama2推理速度翻倍

TensorRT也提供了一個開源的模組化Python API，可以根據不同的LLM需求快速自訂最佳化方案

這個API將深度學習編譯器、核心最佳化、預/後處理和多節點通訊功能整合到了一起。

其中針對GPT(2/3)、Llama等常見模型，還有已經客製化好的版本，可以「開箱即用」。

透過TensorRT中最新的開源AI內核，開發者還可以對模型自身進行最佳化，其中就包含了讓Transformer大幅提速的注意力演算法FlashAttention。

TensorRT是一個用於優化深度學習推理的高效能推理引擎。它透過使用混合精度計算、動態圖優化和層融合等技術，對LLM推理速度進行了最佳化。具體而言，TensorRT透過將浮點運算轉換為半精度浮點運算，減少了運算量和記憶體頻寬的需求，從而提高了推理速度。此外，TensorRT還使用了動態圖優化技術，根據輸入資料的特徵動態地選擇最優的網路結構，進一步提高了推理速度。另外，TensorRT也透過層融合技術將多個運算層合併為一個更有效率的運算層，減少了運算和記憶體存取的開銷，進一步提高了推理速度。總之，TensorRT透過多種最佳化技術，顯著提升了LLM推理的速度和效率

首先要得益於TensorRT對多節點協同工作方式進行了最佳化。

像Llama這樣龐大的模型，在單卡上是跑不起來的，需要多塊GPU一起跑才能帶動。

过去，这一工作需要人们手工把模型拆开来实现。

有了TensorRT，系统能够自动地对模型进行拆分，并且通过NVLink在多个GPU之间高效运行

老黃給H100「打雞血」：英偉達推出大模型加速包，Llama2推理速度翻倍

其次，TensorRT还利用了一种名为动态批处理的优化调度技术。

在推理过程中，LLM实际上是通过多次执行模型迭代来进行的

动态批处理技术会将已完成的序列立即踢出，而不是等待整批任务完成后再处理下一组请求。

在实际测试中，动态批处理技术成功地将LLM的GPU请求吞吐量减少了一半，从而显著降低了运行成本

另一个关键点则是将16位精度浮点数转换为8位精度，从而降低内存消耗。

FP8相对于训练阶段的FP16来说，资源消耗更低，同时精确度又高于INT-8，既能提高性能，又不影响模型的准确性

使用Hopper Transformer引擎，系统会自动完成FP16到FP8的转换编译，无需手动修改模型中的任何代码

目前，TensorRT-LLM的早鸟版已经可以下载，正式版将在几周内推出并集成到NeMo框架中

One More Thing

每当大事件出现，总少不了“列文虎克”的身影。

在英伟达的公告中提到了与Meta等人工智能领军企业合作，但没有提及OpenAI

从这则通告中，就有网友发现了这个华点，并发到了OpenAI论坛上：

请让我看看是谁没有被老黄cue到（手动狗头）

老黃給H100「打雞血」：英偉達推出大模型加速包，Llama2推理速度翻倍

你还期待老黄会给我们带来怎样的“惊喜”呢？

以上是老黃給H100「打雞血」：英偉達推出大模型加速包，Llama2推理速度翻倍的詳細內容。更多資訊請關注PHP中文網其他相關文章！

陳述

本文轉載於：51CTO.COM。如有侵權，請聯絡admin@php.cn刪除

使用Lamini-Analytics Vidhya微調開源LLM

使用Lamini-Analytics Vidhya微調開源LLMApr 12, 2025 am 10:20 AM

最近，隨著大語言模型和AI的興起，我們看到了自然語言處理方面的無數進步。文本，代碼和圖像/視頻生成等域中的模型具有存檔的人類的推理和P

Python中使用OpenCV和Roboflow進行性別檢測 - 分析Vidhya

Python中使用OpenCV和Roboflow進行性別檢測 - 分析VidhyaApr 12, 2025 am 10:19 AM

介紹從面部圖像中檢測性別是計算機視覺的眾多迷人應用之一。在這個項目中，我們將OpenCV結合在一起，以解決位置與性別分類的Roboflow API

生成AI在個性化廣告內容中的作用是什麼？

生成AI在個性化廣告內容中的作用是什麼？Apr 12, 2025 am 10:18 AM

介紹自易貨系統概念以來，廣告世界一直在進化。廣告商找到了創造性的方法來引起我們的關注。在當前年齡，消費者期望BR

Openai＆＃039; o1-preview vs o1-mini：向前邁出的一步

Openai＆＃039; o1-preview vs o1-mini：向前邁出的一步Apr 12, 2025 am 10:04 AM

介紹 9月12日，OpenAI發布了一項名為“與LLM的學習推理”的更新。他們介紹了O1模型，該模型是使用強化學習來應對複雜推理任務的訓練。是什麼設置了此mod

如何使用OpenAI O1構建遊戲？ - 分析Vidhya

如何使用OpenAI O1構建遊戲？ - 分析VidhyaApr 12, 2025 am 10:03 AM

介紹 OpenAI O1模型家族大大提高了推理能力和經濟表現，尤其是在科學，編碼和解決問題方面。 Openai的目標是創建越來越高的AI和O1模型

流行的LLM代理工具用於客戶查詢管理

流行的LLM代理工具用於客戶查詢管理Apr 12, 2025 am 10:01 AM

介紹如今，客戶查詢管理的世界正在以前所未有的速度移動，每天都有新的工具成為頭條新聞。大型語言模型（LLM）代理是在這種情況下的最新創新，增強了Cu

100天企業的AI實施計劃

100天企業的AI實施計劃Apr 12, 2025 am 09:56 AM

介紹採用生成AI可能是任何公司的變革旅程。但是，Genai實施過程通常會繁瑣且令人困惑。 Niit Lim的董事長兼聯合創始人Rajendra Singh Pawar

Pixtral 12B與QWEN2-VL-72B

Pixtral 12B與QWEN2-VL-72BApr 12, 2025 am 09:52 AM

介紹人工智能革命引起了創造力的新時代，文本對圖像模型正在重新定義藝術，設計和技術的交集。 pixtral 12b和qwen2-vl-72b是兩個開創性的力量。

See all articles

熱AI工具

Undresser.AI Undress

Undresser.AI Undress

人工智慧驅動的應用程序，用於創建逼真的裸體照片

AI Clothes Remover

AI Clothes Remover

用於從照片中去除衣服的線上人工智慧工具。

Undress AI Tool

Undress AI Tool

免費脫衣圖片

Clothoff.io

Clothoff.io

AI脫衣器

AI Hentai Generator

AI Hentai Generator

免費產生 AI 無盡。

熱門文章

R.E.P.O.能量晶體解釋及其做什麼（黃色晶體）

3 週前By尊渡假赌尊渡假赌尊渡假赌

R.E.P.O.最佳圖形設置

3 週前By尊渡假赌尊渡假赌尊渡假赌

刺客信條陰影：貝殼謎語解決方案

2 週前ByDDD

R.E.P.O.如果您聽不到任何人，如何修復音頻

3 週前By尊渡假赌尊渡假赌尊渡假赌

WWE 2K25：如何解鎖Myrise中的所有內容

3 週前By尊渡假赌尊渡假赌尊渡假赌

熱工具

Atom編輯器mac版下載

Atom編輯器mac版下載

最受歡迎的的開源編輯器

SecLists

SecLists

SecLists是最終安全測試人員的伙伴。它是一個包含各種類型清單的集合，這些清單在安全評估過程中經常使用，而且都在一個地方。 SecLists透過方便地提供安全測試人員可能需要的所有列表，幫助提高安全測試的效率和生產力。清單類型包括使用者名稱、密碼、URL、模糊測試有效載荷、敏感資料模式、Web shell等等。測試人員只需將此儲存庫拉到新的測試機上，他就可以存取所需的每種類型的清單。

DVWA

DVWA

Damn Vulnerable Web App (DVWA) 是一個PHP/MySQL的Web應用程序，非常容易受到攻擊。它的主要目標是成為安全專業人員在合法環境中測試自己的技能和工具的輔助工具，幫助Web開發人員更好地理解保護網路應用程式的過程，並幫助教師/學生在課堂環境中教授/學習Web應用程式安全性。 DVWA的目標是透過簡單直接的介面練習一些最常見的Web漏洞，難度各不相同。請注意，該軟體中

SublimeText3 Linux新版

SublimeText3 Linux新版

SublimeText3 Linux最新版

EditPlus 中文破解版

EditPlus 中文破解版

體積小，語法高亮，不支援程式碼提示功能

熱門話題

gmail信箱登陸入口在哪裡

7467

15

1376

52

steam的賬戶名稱是什麼格式

77

11

win11激活密鑰永久

48

19

NYT連接提示和答案

19

22