老黄给H100'打鸡血”：英伟达推出大模型加速包，Llama2推理速度翻倍

老黄给H100'打鸡血”：英伟达推出大模型加速包，Llama2推理速度翻倍

WBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWB

Sep 18, 2023 pm 03:45 PM

ai训练

大模型的推理速度，仅仅一个月就提高了一倍！

近日，英伟达宣布推出了一款专为H100设计的“鸡血包”，旨在加速LLM推理过程

或许这下可以不用空等明年才能交付的GH200了老黄给H100打鸡血”：英伟达推出大模型加速包，Llama2推理速度翻倍。

老黄给H100打鸡血”：英伟达推出大模型加速包，Llama2推理速度翻倍

GPU的计算能力一直在影响着大型模型的性能，无论是硬件供应商还是使用者，都希望能够获得更快的计算速度

而作为大模型背后硬件的最大供应商，英伟达一直在研究怎么给大模型硬件加速。

通过与多家AI公司合作，英伟达终于推出了大模型推理优化程序TensorRT-LLM(暂且简称TensorRT)。

TensorRT不仅能让大模型的推理速度翻番，使用起来也十分方便。

无需深入了解C++和CUDA，也能快速定制优化策略，在H100上更快地跑大模型。

英伟达科学家范麟熙(Jim Fan)转发并评论称，英伟达的“另一项优势”就是可以最大化利用GPU性能的配套软件。

老黄给H100打鸡血”：英伟达推出大模型加速包，Llama2推理速度翻倍

英伟达通过软件给产品注入了新的活力，就像实践了老黄的那句“买得越多，省得越多”。然而，这并不妨碍一些人觉得产品价格太高

老黄给H100打鸡血”：英伟达推出大模型加速包，Llama2推理速度翻倍

除了价格，也有网友对其运行效果提出了质疑：

我们总是看到(宣传中的)多少倍的性能提升，但自己运行Llama 2的时候每秒还是只能处理几十个token。

老黄给H100打鸡血”：英伟达推出大模型加速包，Llama2推理速度翻倍

对于TensorRT来说，我们需要进一步进行检验，以确定它是否真的有效。让我们先来详细了解一下TensorRT

大模型推理速度翻倍

TensorRT-LLM优化后的H100，对于运行大型模型来说速度有多快呢？

英伟达的通告中给出了Llama 2和GPT-J-6B两种模型的数据。

在经过优化后的H100上，跑Llama 2的推理速度是A100的4.6倍，也是八月份未经优化的H100的1.77倍

老黄给H100打鸡血”：英伟达推出大模型加速包，Llama2推理速度翻倍

而GPT-J-6B的推理速度是A100上的8倍、八月未优化版的2倍。

老黄给H100打鸡血”：英伟达推出大模型加速包，Llama2推理速度翻倍

TensorRT还提供了一个开源的模块化Python API，可以根据不同的LLM需求快速定制优化方案

这个API将深度学习编译器、内核优化、预/后处理和多节点通信功能集成到了一起。

其中针对GPT(2/3)、Llama等常见模型，还有已经定制好的版本，可以“开箱即用”。

通过TensorRT中最新的开源AI内核，开发者还可以对模型自身进行优化，其中就包括了让Transformer大大提速的注意力算法FlashAttention。

TensorRT是一个用于优化深度学习推理的高性能推理引擎。它通过使用混合精度计算、动态图优化和层融合等技术，对LLM推理速度进行了优化。具体而言，TensorRT通过将浮点计算转换为半精度浮点计算，减少了计算量和内存带宽的需求，从而提高了推理速度。此外，TensorRT还使用了动态图优化技术，根据输入数据的特征动态地选择最优的网络结构，进一步提高了推理速度。另外，TensorRT还通过层融合技术将多个计算层合并为一个更高效的计算层，减少了计算和内存访问的开销，进一步提高了推理速度。总之，TensorRT通过多种优化技术，显著提升了LLM推理的速度和效率

首先要得益于TensorRT对多节点协同工作方式进行了优化。

像Llama这样庞大的模型，在单卡上是跑不起来的，需要多块GPU一起跑才能带动。

过去，这一工作需要人们手工把模型拆开来实现。

有了TensorRT，系统能够自动地对模型进行拆分，并且通过NVLink在多个GPU之间高效运行

老黄给H100打鸡血”：英伟达推出大模型加速包，Llama2推理速度翻倍

其次，TensorRT还利用了一种名为动态批处理的优化调度技术。

在推理过程中，LLM实际上是通过多次执行模型迭代来进行的

动态批处理技术会将已完成的序列立即踢出，而不是等待整批任务完成后再处理下一组请求。

在实际测试中，动态批处理技术成功地将LLM的GPU请求吞吐量减少了一半，从而显着降低了运行成本

另一个关键点则是将16位精度浮点数转换为8位精度，从而降低内存消耗。

FP8相对于训练阶段的FP16来说，资源消耗更低，同时精确度又高于INT-8，既能提高性能，又不影响模型的准确性

使用Hopper Transformer引擎，系统会自动完成FP16到FP8的转换编译，无需手动修改模型中的任何代码

目前，TensorRT-LLM的早鸟版已经可以下载，正式版将在几周内推出并集成到NeMo框架中

One More Thing

每当大事件出现，总少不了“列文虎克”的身影。

在英伟达的公告中提到了与Meta等人工智能领军企业合作，但没有提及OpenAI

从这则通告中，就有网友发现了这个华点，并发到了OpenAI论坛上：

请让我看看是谁没有被老黄cue到（手动狗头）

老黄给H100打鸡血”：英伟达推出大模型加速包，Llama2推理速度翻倍

你还期待老黄会给我们带来怎样的“惊喜”呢？

以上是老黄给H100'打鸡血”：英伟达推出大模型加速包，Llama2推理速度翻倍的详细内容。更多信息请关注PHP中文网其他相关文章！

声明

本文转载于：51CTO.COM。如有侵权，请联系admin@php.cn删除

外推指南

外推指南Apr 15, 2025 am 11:38 AM

介绍假设有一个农民每天在几周内观察农作物的进展。他研究了增长率，并开始思考他的植物在几周内可以生长的高度。从Th

软AI的兴起及其对当今企业的意义

软AI的兴起及其对当今企业的意义Apr 15, 2025 am 11:36 AM

软AI（被定义为AI系统，旨在使用近似推理，模式识别和灵活的决策执行特定的狭窄任务 - 试图通过拥抱歧义来模仿类似人类的思维。但是这对业务意味着什么

为AI前沿的不断发展的安全框架

为AI前沿的不断发展的安全框架Apr 15, 2025 am 11:34 AM

答案很明确 - 只是云计算需要向云本地安全工具转变，AI需要专门为AI独特需求而设计的新型安全解决方案。云计算和安全课程的兴起在

生成AI的3种方法放大了企业家：当心平均值！

生成AI的3种方法放大了企业家：当心平均值！Apr 15, 2025 am 11:33 AM

企业家，并使用AI和Generative AI来改善其业务。同时，重要的是要记住生成的AI，就像所有技术一样，都是一个放大器 - 使得伟大和平庸，更糟。严格的2024研究O

Andrew Ng的新简短课程

Andrew Ng的新简短课程Apr 15, 2025 am 11:32 AM

解锁嵌入模型的力量：深入研究安德鲁·NG的新课程想象一个未来，机器可以完全准确地理解和回答您的问题。这不是科幻小说；多亏了AI的进步，它已成为R

大语言模型（LLM）中的幻觉是不可避免的吗？

大语言模型（LLM）中的幻觉是不可避免的吗？Apr 15, 2025 am 11:31 AM

大型语言模型（LLM）和不可避免的幻觉问题您可能使用了诸如Chatgpt，Claude和Gemini之类的AI模型。这些都是大型语言模型（LLM）的示例，在大规模文本数据集上训练的功能强大的AI系统

60％的问题 - AI搜索如何消耗您的流量

60％的问题 - AI搜索如何消耗您的流量Apr 15, 2025 am 11:28 AM

最近的研究表明，根据行业和搜索类型，AI概述可能导致有机交通下降15-64％。这种根本性的变化导致营销人员重新考虑其在数字可见性方面的整个策略。新的

麻省理工学院媒体实验室将人类蓬勃发展成为AI R＆D的核心

麻省理工学院媒体实验室将人类蓬勃发展成为AI R＆D的核心Apr 15, 2025 am 11:26 AM

埃隆大学（Elon University）想象的数字未来中心的最新报告对近300名全球技术专家进行了调查。由此产生的报告“ 2035年成为人类”，得出的结论是，大多数人担心AI系统加深的采用

See all articles

热AI工具

Undresser.AI Undress

Undresser.AI Undress

人工智能驱动的应用程序，用于创建逼真的裸体照片

AI Clothes Remover

AI Clothes Remover

用于从照片中去除衣服的在线人工智能工具。

Undress AI Tool

Undress AI Tool

免费脱衣服图片

Clothoff.io

Clothoff.io

AI脱衣机

AI Hentai Generator

AI Hentai Generator

免费生成ai无尽的。

热门文章

R.E.P.O.能量晶体解释及其做什么（黄色晶体）

4 周前By尊渡假赌尊渡假赌尊渡假赌

R.E.P.O.最佳图形设置

4 周前By尊渡假赌尊渡假赌尊渡假赌

刺客信条阴影：贝壳谜语解决方案

2 周前ByDDD

R.E.P.O.如果您听不到任何人，如何修复音频

4 周前By尊渡假赌尊渡假赌尊渡假赌

WWE 2K25：如何解锁Myrise中的所有内容

1 个月前By尊渡假赌尊渡假赌尊渡假赌

热工具

适用于 Eclipse 的 SAP NetWeaver 服务器适配器

适用于 Eclipse 的 SAP NetWeaver 服务器适配器

将Eclipse与SAP NetWeaver应用服务器集成。

SublimeText3 Mac版

SublimeText3 Mac版

神级代码编辑软件(SublimeText3)

Atom编辑器mac版下载

Atom编辑器mac版下载

最流行的的开源编辑器

Dreamweaver CS6

Dreamweaver CS6

视觉化网页开发工具

EditPlus 中文破解版

EditPlus 中文破解版

体积小，语法高亮，不支持代码提示功能

热门话题

gmail邮箱登陆入口在哪里

7510

15

1378

52

steam的账户名称是什么格式

78

11

win11激活密钥永久

52

19

NYT连接提示和答案

19

64