搜索
首页科技周边人工智能采用OpenAI还是DIY?揭开自托管大型语言模型的真实成本

采用OpenAI还是DIY?揭开自托管大型语言模型的真实成本

你的服务标准已被定位为“AI驱动”,通过整合大型语言模型。你的网站首页自豪地展示了你的AI驱动服务带来的革命性影响,通过互动演示和案例研究。这也是你公司在全球GenAI领域留下的第一个印记。

你的小而忠实的用户基础正在享受提升后的客户体验,并且你可以看到未来增长的潜力。然而,在这个月进入第三周时,你收到了一封来自OpenAI的邮件,让你大吃一惊:

就在一周前,你还在与客户交谈,评估产品市场契合度(PMF),现在,成千上万的用户涌到你的网站(如今在社交媒体上任何事情都可能变得病毒式传播),并使你的AI驱动服务崩溃。

结果,你曾经可靠的服务不仅让现有用户感到沮丧,也影响了新用户。

一个快速而显而易见的解决办法是通过增加使用限制立即恢复服务。

然而,这个临时解决方案带来了不安感。你不禁感到自己被锁定在对单一供应商的依赖中,对自己的AI及其相关成本控制有限。

“我应该自己动手吗?”你问自己。

你已经知道了开源的大型语言模型(LLMs)已经成为现实。在Hugging Face这样的平台上,成千上万的模型可供即时使用,这为自然语言处理的开展提供了可能性。

然而,你遇到的最强大的LLMs拥有数十亿参数,达到数百千兆字节,并且需要大量努力才能扩展。在一个需要低延迟的实时系统中,你不能像使用传统模型那样简单地将它们插入你的应用程序。

尽管你对团队建设必要基础设施的能力充满信心,真正的关注点在于这种转变的成本含义,包括:

  • 微调成本
  • 托管成本
  • 服务成本

所以,一个重大的问题是:你是应该增加使用限制,还是应该走自托管,也就是所谓的“拥有”路线?

使用Llama 2做一些计算

首先,不要急。这是一个重大决定。

如果你咨询你的机器学习(ML)工程师,他们可能会告诉你,Lama 2是一个开源LLM,看起来是一个不错的选择,因为在大多数任务上它的表现与你目前使用的GPT-3一样好。

你还会发现,这个模型有三种规模大小——70亿、13亿和7亿参数——你决定使用最大的70亿参数模型,以保持与你目前使用的OpenAI模型的竞争力。

LLaMA 2使用bfloat16进行训练,因此每个参数消耗2字节。这意味着模型大小将是140 GB。

如果你认为这个模型调整起来很大,不用担心。使用LoRA,你不需要在部署前对整个模型进行微调。

事实上,你可能只需要微调总参数的约0.1%,即70M,这在bfloat16表示下消耗0.14 GB。

令人印象深刻,对吧?

为了在微调期间适应内存开销(如反向传播、存储激活、存储数据集),最好维持的内存空间是可训练参数消耗的大约5倍。

让我们来详细分析一下:

在使用LoRA时,LLaMA 2 70B模型的权重是固定的,因此这不会导致内存开销 → 内存需求 = 140 GB。

然而,为了调整LoRA层,我们需要维持0.14 GB * (5倍) = 0.7 GB。

这样在微调期间总共需要约141 GB的内存。

假设你目前还没有培训基础设施,我们假设你更喜欢使用AWS。根据AWS EC2按需定价,计算成本约为每小时2.8美元,因此微调的成本约为每天67美元,这并不是一个巨大的费用,因为微调不会持续很多天。

人工智能与餐厅正相反:主要成本在于服务而非准备

在部署时,你需要在内存中维护两个权重:

  • 模型权重,消耗140 GB内存。
  • LoRA微调权重,消耗0.14 GB内存。

总共是140.14 GB。

当然,你可以取消梯度计算,但仍然建议维持大约1.5倍的内存 — 大约210 GB — 以应对任何意外的开销。

再次基于AWS EC2按需定价,GPU计算的成本约为每小时3.70美元,即保持模型在生产内存中并响应传入请求的成本约为每天90美元。

这相当于每月约2700美元。

另一个需要考虑的事情是,意外故障总是会发生。如果你没有备用机制,你的用户将停止接收模型预测。如果你想防止这种情况发生,你需要维护另一个冗余模型,以防第一个模型请求失败。

因此,这将使你的成本达到每天180美元或每月5400美元。你几乎接近目前使用OpenAI的成本了。

在什么情况下,OpenAI和开源模型的成本会打平?

如果你继续使用OpenAI,以下是每天你可以处理的单词数量,以匹配上述使用LLaMA 2的微调和服务成本。

根据OpenAI的定价,微调GPT 3.5 Turbo的成本为每1000个令牌0.0080美元。

假设大多数单词有两个令牌,为了匹配开源LLaMA 2 70B模型的微调成本(每天67美元),你需要向OpenAI模型提供大约415万个单词。

通常,A4纸上的平均字数为300,这意味着我们可以向模型提供大约14,000页的数据以匹配开源微调成本,这是一个巨大的数字。

你可能没有那么多的微调数据,所以使用OpenAI进行微调的成本总是较低。

另一个可能很明显的点是,这种微调成本不是与训练时间相关,而是与模型微调的数据量相关。在微调开源模型时情况并非如此,因为成本将取决于数据量和你使用AWS计算资源的时间。

至于服务成本,根据OpenAI的定价页面,一个经过微调的GPT 3.5 Turbo的输入成本为每1000个令牌0.003美元,输出为每1000个令牌0.006美元。

我们假设平均每1000个令牌0.004美元。要达到每天180美元的成本,我们需要通过API每天处理大约2220万个单词。

这相当于超过74,000页的数据,每页300个单词。

然而,好处是你不需要确保模型全天候运行,因为OpenAI提供了按使用付费的定价。

如果你的模型从未被使用,你就不需要支付任何费用。

总结:何时拥有才真正有意义?

一开始,转向自托管AI可能看起来是一个诱人的尝试。但要小心随之而来的隐藏成本和头痛问题。

除了偶尔失眠的夜晚让你纳闷你的AI驱动服务为何会宕机之外,如果使用第三方提供商,几乎所有在生产系统中管理LLMs的困难都会消失。

特别是当你的服务不是主要依赖于“AI”,而是依赖于AI的其他东西时。

对于大企业来说,每年65,000美元的拥有成本可能只是杯水车薪,但对于大多数企业来说,这是一个不能忽视的数字。

此外,我们不应忘记其他额外费用,如人才和维护,这些可以轻松将总成本增加到每年200,000至250,000美元以上。

当然,从一开始就拥有模型有其好处,比如保持对你的数据和使用的控制。

但是,要使自托管变得可行,你将需要用户请求量远远超过每天大约2220万个单词的标准,并且需要同时具备管理人才和后勤的资源。

对于大多数用例来说,拥有模型而不是使用API在财务上可能并不划算。

以上是采用OpenAI还是DIY?揭开自托管大型语言模型的真实成本的详细内容。更多信息请关注PHP中文网其他相关文章!

声明
本文转载于:51CTO.COM。如有侵权,请联系admin@php.cn删除
5强大的AI提示可以提高任何业务想法5强大的AI提示可以提高任何业务想法Apr 16, 2025 am 11:11 AM

幸运的是,这是一个生成AI的领域,可以非常有帮助。不,它不会带来万无一失的策略。但这可以帮助您集思广益,研究市场以及微调营销内容和消息传递。 不是

Smart研究生:AI时代的职业建议Smart研究生:AI时代的职业建议Apr 16, 2025 am 11:10 AM

只有今年只有不同。不确定。 关税战争正在进行中,这不仅仅是事实。 AI是最近抓挠和灵魂搜索的根本原因。国家青年慈善机构最近对

有效的加速主义或亲社会AI。 AI的未来是什么?有效的加速主义或亲社会AI。 AI的未来是什么?Apr 16, 2025 am 11:09 AM

加速主义者的愿景:全速前进 有效的加速主义,即短期内被称为E/ACC,在2022年左右出现,是一种技术优越的运动,在硅谷及其他地区获得了巨大的牵引

Excel中的相对,绝对和混合参考是什么?Excel中的相对,绝对和混合参考是什么?Apr 16, 2025 am 11:03 AM

介绍 我最初的电子表格经历令人沮丧,因为复制时公式的行为不可预测。 那时我不了解细胞引用,但是掌握亲戚,绝对和混合的参考文献彻底改变了我的广播。

Word2Vec的智能主题电子邮件线生成Word2Vec的智能主题电子邮件线生成Apr 16, 2025 am 11:01 AM

本文演示了如何使用Word2Vec嵌入生成有效的电子邮件主题行。 它可以指导您建立一个利用语义相似性来创建上下文相关主题行,改善电子邮件营销的系统

数据分析师的未来数据分析师的未来Apr 16, 2025 am 11:00 AM

数据分析:导航不断发展的景观 想象一个世界,数据不仅是数字,而且是每个管理决定的基石。 在这个动态的环境中,数据分析师是必不可少的,将原始数据转换为可操作的

Excel中的Sumproduct函数是什么? - 分析VidhyaExcel中的Sumproduct函数是什么? - 分析VidhyaApr 16, 2025 am 10:55 AM

Excel的Sumproduct函数:数据分析强大 解锁Excel Sumpropoduct函数的功能,以用于简化数据分析。这种多功能功能毫不费力地结合了求和功能,扩展到添加,减去

什么是数据擦洗?什么是数据擦洗?Apr 16, 2025 am 10:53 AM

数据清洁:确保数据的准确性和可靠性 想象一下,计划一个大型家庭聚会,其中有不正确的客人名单 - 重复联系人,重复,拼写错误的名字。 准备不足的清单可能会破坏活动。 相似地

See all articles

热AI工具

Undresser.AI Undress

Undresser.AI Undress

人工智能驱动的应用程序,用于创建逼真的裸体照片

AI Clothes Remover

AI Clothes Remover

用于从照片中去除衣服的在线人工智能工具。

Undress AI Tool

Undress AI Tool

免费脱衣服图片

Clothoff.io

Clothoff.io

AI脱衣机

AI Hentai Generator

AI Hentai Generator

免费生成ai无尽的。

热门文章

R.E.P.O.能量晶体解释及其做什么(黄色晶体)
4 周前By尊渡假赌尊渡假赌尊渡假赌
R.E.P.O.最佳图形设置
4 周前By尊渡假赌尊渡假赌尊渡假赌
R.E.P.O.如果您听不到任何人,如何修复音频
4 周前By尊渡假赌尊渡假赌尊渡假赌
R.E.P.O.聊天命令以及如何使用它们
4 周前By尊渡假赌尊渡假赌尊渡假赌

热工具

Dreamweaver Mac版

Dreamweaver Mac版

视觉化网页开发工具

PhpStorm Mac 版本

PhpStorm Mac 版本

最新(2018.2.1 )专业的PHP集成开发工具

SublimeText3 英文版

SublimeText3 英文版

推荐:为Win版本,支持代码提示!

DVWA

DVWA

Damn Vulnerable Web App (DVWA) 是一个PHP/MySQL的Web应用程序,非常容易受到攻击。它的主要目标是成为安全专业人员在合法环境中测试自己的技能和工具的辅助工具,帮助Web开发人员更好地理解保护Web应用程序的过程,并帮助教师/学生在课堂环境中教授/学习Web应用程序安全。DVWA的目标是通过简单直接的界面练习一些最常见的Web漏洞,难度各不相同。请注意,该软件中

mPDF

mPDF

mPDF是一个PHP库,可以从UTF-8编码的HTML生成PDF文件。原作者Ian Back编写mPDF以从他的网站上“即时”输出PDF文件,并处理不同的语言。与原始脚本如HTML2FPDF相比,它的速度较慢,并且在使用Unicode字体时生成的文件较大,但支持CSS样式等,并进行了大量增强。支持几乎所有语言,包括RTL(阿拉伯语和希伯来语)和CJK(中日韩)。支持嵌套的块级元素(如P、DIV),