搜索
首页科技周边人工智能最大化利用GPU性能的方法

加速人工智能项目的默认方法是增加GPU集群的规模。然而,由于GPU供应日益紧张,成本也越来越高。很多人工智能公司将超过80%的筹集资本用于计算资源,这是可以理解的。GPU是人工智能基础设施的关键,应该尽可能多地投入预算。然而,在这些高昂的成本之外,还有其他提高GPU性能的方法需要考虑,而且越来越迫切

最大化利用GPU性能的方法

扩展GPU集群并非易事,特别是在生成式人工智能暴力扩张导致GPU短缺的情况下。NVIDIA A100 GPU是受到影响的首批GPU之一,而且现在非常稀缺,一些版本的交付周期长达一年。这些供应链挑战迫使许多人考虑将更高端的H100作为替代品,但很明显会付出更高的价格。对于那些投资于自己基础设施、为其行业创造下一个伟大的生成式人工智能解决方案的创业者来说,需要从现有GPU中榨取每一滴效率

让我们来看看企业如何通过提议修改人工智能基础设施的网络和存储设计,从中获得更多的计算投资

数据问题

优化现有计算基础设施的利用率是一个重要的方法。为了最大化GPU利用率,需要解决数据传输速度过慢的问题,以确保GPU保持高负载运行。有些用户的GPU利用率仅为20%,这是不可接受的。因此,人工智能团队正在寻找最佳途径,以最大化人工智能投资的回报

GPU是人工智能的引擎。就像汽车发动机需要汽油才能运行一样,GPU也需要数据来进行运算。如果限制了数据流,就会限制GPU的性能。如果GPU的工作效率只有50%,那么人工智能团队的生产力就会下降,一个项目完成所需的时间会增加一倍,投资回报率也会减半。因此,在基础设施设计中,必须确保GPU能够以最高效率运行,并提供预期的计算性能

需要注意的是,DGX A100和H100服务器都有高达30 TB的内部存储容量。然而,考虑到平均模型大小约为150 TB,这个容量对于大多数深度学习模型来说是不够的。因此,需要额外的外部数据存储器来为GPU提供数据

存储性能

AI存储通常由服务器、NVMe SSD和存储软件组成,它们通常封装在一个简单的设备中。就像GPU被优化为与数以万计的核心并行处理大量数据一样,存储也需要具备高性能。在人工智能中,存储的基本要求是能够存储整个数据集,并以线速(即网络允许的最快速度)将数据传输到GPU,以保持GPU的高效运行和饱和。任何不足都会导致对这些非常昂贵和有价值的GPU资源的浪费

通过交付数据与能够跟上10或15台GPU服务器集群全速运行的速度,有助于优化GPU资源并提高整个环境的性能,同时尽可能充分利用预算,从整个基础设施中获得最大收益

事实上,挑战在于,没有针对AI进行优化的存储供应商需要许多客户端计算节点来从存储中提取全部性能。如果从一个GPU服务器开始,则反过来需要许多存储节点才能达到该性能才能为单个GPU服务器供应。

重写后的内容:不要轻信所有的基准结果;当使用多个GPU服务器时,可以轻松获得更大的带宽,但是人工智能依赖于存储,无论何时需要,它都会将所有性能提供给单个GPU节点。坚持使用能够提供所需超高性能的存储,但它可以在单个存储节点中实现这一点,并且能够将此性能提供给单个GPU节点。这可能会限制市场范围,但在开始人工智能项目之旅时,这是一个优先考虑的事项

网络带宽

越来越强大的计算能力推动了对其他人工智能基础设施的需求不断增加。带宽要求已经达到了新的高度,能够管理每秒从存储设备通过网络发送并由GPU处理的大量数据。存储设备中的网络适配器(NIC)连接到网络中的交换机,这些交换机连接到GPU服务器内部的适配器。NIC可以在正确配置的情况下将存储直接连接到1或2个GPU服务器中的NIC,不会出现瓶颈,确保带宽足够高,可以将最大数据负载从存储传递到GPU,使其在持续的时间内保持饱和,这是关键,在许多情况下,未能做到这一点是我们看到GPU利用率较低的原因。

GPU编排

一旦基础设施就位,GPU编排和分配工具将极大地帮助团队更高效地集结和分配资源,了解GPU的使用情况,提供更高级别的资源控制,减少瓶颈并提高利用率。只有在底层基础设施能够确保数据正确流动的情况下,这些工具才能如预期地完成所有这些任务

在人工智能领域,数据是输入的关键。因此,传统企业闪存在用于企业关键任务应用程序(如库存控制数据库服务器、电子邮件服务器、备份服务器)时,并不与人工智能相关。这些解决方案是使用传统协议构建的,尽管它们已被重新用于人工智能,但这些传统基础限制了它们在GPU和AI工作负载方面的性能,推高了价格,并浪费了资金在过于昂贵和不必要的功能上

在当前全球GPU短缺的情况下,再加上人工智能行业的迅猛发展,寻找最大限度提高GPU性能的方法变得前所未有的重要——尤其是在短期内。随着深度学习项目的蓬勃发展,这些方法成为降低成本和提高产出的几个关键途径

以上是最大化利用GPU性能的方法的详细内容。更多信息请关注PHP中文网其他相关文章!

声明
本文转载于:51CTO.COM。如有侵权,请联系admin@php.cn删除
外推指南外推指南Apr 15, 2025 am 11:38 AM

介绍 假设有一个农民每天在几周内观察农作物的进展。他研究了增长率,并开始思考他的植物在几周内可以生长的高度。从Th

软AI的兴起及其对当今企业的意义软AI的兴起及其对当今企业的意义Apr 15, 2025 am 11:36 AM

软AI(被定义为AI系统,旨在使用近似推理,模式识别和灵活的决策执行特定的狭窄任务 - 试图通过拥抱歧义来模仿类似人类的思维。 但是这对业务意味着什么

为AI前沿的不断发展的安全框架为AI前沿的不断发展的安全框架Apr 15, 2025 am 11:34 AM

答案很明确 - 只是云计算需要向云本地安全工具转变,AI需要专门为AI独特需求而设计的新型安全解决方案。 云计算和安全课程的兴起 在

生成AI的3种方法放大了企业家:当心平均值!生成AI的3种方法放大了企业家:当心平均值!Apr 15, 2025 am 11:33 AM

企业家,并使用AI和Generative AI来改善其业务。同时,重要的是要记住生成的AI,就像所有技术一样,都是一个放大器 - 使得伟大和平庸,更糟。严格的2024研究O

Andrew Ng的新简短课程Andrew Ng的新简短课程Apr 15, 2025 am 11:32 AM

解锁嵌入模型的力量:深入研究安德鲁·NG的新课程 想象一个未来,机器可以完全准确地理解和回答您的问题。 这不是科幻小说;多亏了AI的进步,它已成为R

大语言模型(LLM)中的幻觉是不可避免的吗?大语言模型(LLM)中的幻觉是不可避免的吗?Apr 15, 2025 am 11:31 AM

大型语言模型(LLM)和不可避免的幻觉问题 您可能使用了诸如Chatgpt,Claude和Gemini之类的AI模型。 这些都是大型语言模型(LLM)的示例,在大规模文本数据集上训练的功能强大的AI系统

60%的问题 -  AI搜索如何消耗您的流量60%的问题 - AI搜索如何消耗您的流量Apr 15, 2025 am 11:28 AM

最近的研究表明,根据行业和搜索类型,AI概述可能导致有机交通下降15-64%。这种根本性的变化导致营销人员重新考虑其在数字可见性方面的整个策略。 新的

麻省理工学院媒体实验室将人类蓬勃发展成为AI R&D的核心麻省理工学院媒体实验室将人类蓬勃发展成为AI R&D的核心Apr 15, 2025 am 11:26 AM

埃隆大学(Elon University)想象的数字未来中心的最新报告对近300名全球技术专家进行了调查。由此产生的报告“ 2035年成为人类”,得出的结论是,大多数人担心AI系统加深的采用

See all articles

热AI工具

Undresser.AI Undress

Undresser.AI Undress

人工智能驱动的应用程序,用于创建逼真的裸体照片

AI Clothes Remover

AI Clothes Remover

用于从照片中去除衣服的在线人工智能工具。

Undress AI Tool

Undress AI Tool

免费脱衣服图片

Clothoff.io

Clothoff.io

AI脱衣机

AI Hentai Generator

AI Hentai Generator

免费生成ai无尽的。

热门文章

R.E.P.O.能量晶体解释及其做什么(黄色晶体)
4 周前By尊渡假赌尊渡假赌尊渡假赌
R.E.P.O.最佳图形设置
4 周前By尊渡假赌尊渡假赌尊渡假赌
R.E.P.O.如果您听不到任何人,如何修复音频
4 周前By尊渡假赌尊渡假赌尊渡假赌
WWE 2K25:如何解锁Myrise中的所有内容
1 个月前By尊渡假赌尊渡假赌尊渡假赌

热工具

SublimeText3 Mac版

SublimeText3 Mac版

神级代码编辑软件(SublimeText3)

PhpStorm Mac 版本

PhpStorm Mac 版本

最新(2018.2.1 )专业的PHP集成开发工具

WebStorm Mac版

WebStorm Mac版

好用的JavaScript开发工具

Atom编辑器mac版下载

Atom编辑器mac版下载

最流行的的开源编辑器

Dreamweaver Mac版

Dreamweaver Mac版

视觉化网页开发工具