搜索
首页科技周边人工智能超越法学硕士:这就是为什么小语言模型是人工智能的未来

快速链接

摘要

  • Open AI、Google、Microsoft 和 Meta 等大公司正在投资 SLM。
  • SLM 在整个行业越来越受欢迎,并且更适合作为未来的人工智能。
  • SLM 的示例包括 Google Nano、Microsoft 的 Phi-3 和 Open AI 的 GPT-4o mini。

大型语言模型 (LLM) 随着 Open AI 的 ChatGPT 的发布而出现。从那时起,有几家公司也推出了 LLM,但现在越来越多的公司倾向于小语言模型 (SLM)。

SLM 势头强劲,但它们是什么,与 LLM 有何不同?

什么是小语言模型?

小语言模型(SLM)是一种参数较少的人工智能模型(将其视为训练期间学习的模型中的值)。与大型同类产品一样,SLM 可以生成文本并执行其他任务。然而,SLM 使用较少的数据集进行训练,参数较少,并且需要较少的计算能力来训练和运行。

SLM 专注于关键功能,其占用空间小意味着它们可以部署在不同的设备上,包括那些没有移动设备等高端硬件。例如,Google 的 Nano 是一个从头开始构建的设备上 SLM,可在移动设备上运行。据该公司称,由于尺寸较小,Nano 可以在有或没有网络连接的情况下在本地运行。

small language model gemini nano use examples
Google

除了Nano,还有很多来自 AI 领域领先和新兴公司的其他 SLM。一些流行的 SLM 包括 Microsoft 的 Phi-3、OpenAI 的 GPT-4o mini、Anthropic 的 Claude 3 Haiku、Meta 的 Llama 3 和 Mistral AI 的 Mixtral 8x7B。

还有其他选项,您可能认为是 LLM,但实际上它们是SLM。考虑到大多数公司正在采用多模型方法,在其产品组合中发布不止一种语言模型,同时提供 LLM 和 SLM,这一点尤其正确。一个例子是 GPT-4,它有多种型号,包括 GPT-4、GPT-4o (Omni) 和 GPT-4o mini

小语言模型与大型语言模型

在讨论 SLM 时,我们不能忽视它们的大对应物:LLM。 SLM 和 LLM 之间的关键区别在于模型大小,它是根据参数来衡量的。

截至撰写本文时,人工智能行业对于最大数量尚未达成共识模型的参数数量不应超过被视为 SLM 的参数或被视为 LLM 所需的最小数量。然而,SLM 通常有数百万到数十亿个参数,而 LLM 则更多,高达数万亿个。

例如,2020 年发布的 GPT-3 有 1750 亿个参数(而据传 GPT-4 模型的数量约为 1.76 万亿),而微软的 2024 Phi-3-mini、Phi-3-small 和Phi-3-medium SLM 分别测量 3.8、7 和 140 亿个参数。

small language models versus large language models chart
微软

SLM 和 LLM 之间的另一个区别因素是用于训练的数据量。 SLM 使用少量数据进行训练,而 LLM 使用大型数据集。这种差异也会影响模型解决复杂任务的能力。

由于训练中使用的数据量很大,LLM 更适合解决需要高级推理的不同类型的复杂任务,而 SLM 更适合解决更简单的任务任务。与 LLM 不同,SLM 使用较少的训练数据,但所使用的数据必须具有更高的质量,才能在一个小包中实现 LLM 中的许多功能。

为什么小语言模型是未来

对于大多数用例,SLM 更有能力成为公司和消费者用来执行各种任务的主流模型。当然,法学硕士有其优势,并且更适合某些用例,例如解决复杂的任务。然而,由于以下原因,SLM 是大多数用例的未来。

1. 降低培训和维护成本

server raid configurations feature
季莫菲耶夫弗拉基米尔/Shutterstock

SLM 比 LLM 需要更少的培训数据,这使得它们成为培训数据、财务或两者都有限的个人和中小型公司最可行的选择。 LLM 需要大量的训练数据,进而需要大量的计算资源来训练和运行。

为了正确看待这一点,OpenAI 的首席执行官 Sam Altman 证实,他们的训练花费了超过 1 亿美元GPT-4 在麻省理工学院的一次活动中发表演讲时(根据连线)。另一个例子是 Meta 的 OPT-175B LLM。 Meta 表示它是使用 992 个 NVIDIA A100 80GB GPU 进行训练的,据 CNBC 每台成本约为 10,000 美元。这样一来,成本大约为 900 万美元,还不包括能源、工资等其他费用。

按照这样的数字,中小型公司培养 LLM 是不可行的。相比之下,SLM 在资源方面的进入门槛较低,运行成本也较低,因此,更多的公司会接受它们。

2. 更好的性能

A person talking to their phone with the ChatGPT icon hovering over the screen.
GBJSTOCK / Shutterstock

性能是 SLM 因其紧凑的尺寸而击败 LLM 的另一个领域。 SLM 的延迟更短,更适合需要更快响应的场景,例如实时应用程序。例如,在数字助理等语音响应系统中,更快的响应是首选。

在设备上运行(稍后详细介绍)也意味着您的请求不必访问在线服务器并返回到响应您的查询,从而获得更快的响应。

3. 更准确

A phone screen with the ChatGPT logo and an 'x,' and the Claude logo blurred in the background.
ZinetroN / Shutterstock

当谈到生成式人工智能时,有一件事保持不变:垃圾进,垃圾出。目前的法学硕士已经使用原始互联网数据的大型数据集进行了培训。因此,它们可能并不在所有情况下都是准确的。这是ChatGPT和类似模型的问题之一,也是为什么你不应该相信人工智能聊天机器人所说的一切。另一方面,SLM 使用比 LLM 更高质量的数据进行训练,因此具有更高的准确性。

SLM 还可以通过针对特定任务或领域的集中训练来进一步微调,从而在这些任务或领域中获得更高的准确性与更大、更通用的模型相比。

4. 可以在设备上运行

small language model mockup on smartphone
皮特·汉森/Shutterstock

SLM 比 LLM 需要更少的计算能力,因此是边缘计算案例的理想选择。它们可以部署在智能手机和自动驾驶汽车等边缘设备上,这些设备没有大量的计算能力或资源。谷歌的 Nano 模型可以在设备上运行,即使没有有效的互联网连接也可以工作。

这种能力为公司和消费者带来了双赢的局面。首先,这是隐私的胜利,因为用户数据是在本地处理而不是发送到云端,这一点很重要,因为更多的人工智能被集成到我们的智能手机中,几乎包含了我们的所有细节。这对公司来说也是一个胜利,因为他们不需要部署和运行大型服务器来处理人工智能任务。

SLM 正在获得动力,其中最大的行业参与者,如 Open AI、Google、Microsoft、 Anthropic 和 Meta 发布了此类模型。这些模型更适合更简单的任务,这也是我们大多数人使用法学硕士的目的;因此,他们是未来。

但是法学硕士不会去任何地方。相反,它们将用于高级应用程序,结合不同领域的信息来创建新的东西,例如医学研究。

以上是超越法学硕士:这就是为什么小语言模型是人工智能的未来的详细内容。更多信息请关注PHP中文网其他相关文章!

声明
本文内容由网友自发贡献,版权归原作者所有,本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容,请联系admin@php.cn
加利福尼亚攻击AI到快速赛道野火恢复许可证加利福尼亚攻击AI到快速赛道野火恢复许可证May 04, 2025 am 11:10 AM

AI简化了野火恢复允许 澳大利亚科技公司Archistar的AI软件利用机器学习和计算机视觉,可以自动评估建筑计划,以遵守当地法规。这种验证前具有重要意义

美国可以从爱沙尼亚AI驱动的数字政府中学到什么美国可以从爱沙尼亚AI驱动的数字政府中学到什么May 04, 2025 am 11:09 AM

爱沙尼亚的数字政府:美国的典范? 美国在官僚主义的效率低下方面挣扎,但爱沙尼亚提供了令人信服的选择。 这个小国拥有由AI支持的近100%数字化的,以公民为中心的政府。 这不是

通过生成AI的婚礼计划通过生成AI的婚礼计划May 04, 2025 am 11:08 AM

计划婚礼是一项艰巨的任务,即使是最有条理的夫妇,也常常压倒了婚礼。 本文是关于AI影响的持续福布斯系列的一部分(请参阅此处的链接),探讨了生成AI如何彻底改变婚礼计划。 婚礼上

什么是数字防御AI代理?什么是数字防御AI代理?May 04, 2025 am 11:07 AM

企业越来越多地利用AI代理商进行销售,而政府则将其用于各种既定任务。 但是,消费者倡导强调个人需要拥有自己的AI代理人作为对经常定位的辩护的必要性

商业领袖生成引擎优化指南(GEO)商业领袖生成引擎优化指南(GEO)May 03, 2025 am 11:14 AM

Google正在领导这一转变。它的“ AI概述”功能已经为10亿用户提供服务,在任何人单击链接之前提供完整的答案。[^2] 其他球员也正在迅速获得地面。 Chatgpt,Microsoft Copilot和PE

该初创公司正在使用AI代理来与恶意广告和模仿帐户进行战斗该初创公司正在使用AI代理来与恶意广告和模仿帐户进行战斗May 03, 2025 am 11:13 AM

2022年,他创立了社会工程防御初创公司Doppel,以此做到这一点。随着网络犯罪分子越来越高级的AI模型来涡轮增压,Doppel的AI系统帮助企业对其进行了大规模的对抗 - 更快,更快,

世界模型如何从根本上重塑生成AI和LLM的未来世界模型如何从根本上重塑生成AI和LLM的未来May 03, 2025 am 11:12 AM

瞧,通过与合适的世界模型进行交互,可以实质上提高生成的AI和LLM。 让我们来谈谈。 对创新AI突破的这种分析是我正在进行的《福布斯》列的最新覆盖范围的一部分,包括

2050年五月:我们要庆祝什么?2050年五月:我们要庆祝什么?May 03, 2025 am 11:11 AM

劳动节2050年。全国范围内的公园充满了享受传统烧烤的家庭,而怀旧游行则穿过城市街道。然而,庆祝活动现在具有像博物馆般的品质 - 历史重演而不是纪念C

See all articles

热AI工具

Undresser.AI Undress

Undresser.AI Undress

人工智能驱动的应用程序,用于创建逼真的裸体照片

AI Clothes Remover

AI Clothes Remover

用于从照片中去除衣服的在线人工智能工具。

Undress AI Tool

Undress AI Tool

免费脱衣服图片

Clothoff.io

Clothoff.io

AI脱衣机

Video Face Swap

Video Face Swap

使用我们完全免费的人工智能换脸工具轻松在任何视频中换脸!

热工具

WebStorm Mac版

WebStorm Mac版

好用的JavaScript开发工具

SublimeText3汉化版

SublimeText3汉化版

中文版,非常好用

Dreamweaver CS6

Dreamweaver CS6

视觉化网页开发工具

适用于 Eclipse 的 SAP NetWeaver 服务器适配器

适用于 Eclipse 的 SAP NetWeaver 服务器适配器

将Eclipse与SAP NetWeaver应用服务器集成。

螳螂BT

螳螂BT

Mantis是一个易于部署的基于Web的缺陷跟踪工具,用于帮助产品缺陷跟踪。它需要PHP、MySQL和一个Web服务器。请查看我们的演示和托管服务。