快速链接
摘要
- Open AI、Google、Microsoft 和 Meta 等大公司正在投资 SLM。
- SLM 在整个行业越来越受欢迎,并且更适合作为未来的人工智能。
- SLM 的示例包括 Google Nano、Microsoft 的 Phi-3 和 Open AI 的 GPT-4o mini。
大型语言模型 (LLM) 随着 Open AI 的 ChatGPT 的发布而出现。从那时起,有几家公司也推出了 LLM,但现在越来越多的公司倾向于小语言模型 (SLM)。
SLM 势头强劲,但它们是什么,与 LLM 有何不同?
什么是小语言模型?
小语言模型(SLM)是一种参数较少的人工智能模型(将其视为训练期间学习的模型中的值)。与大型同类产品一样,SLM 可以生成文本并执行其他任务。然而,SLM 使用较少的数据集进行训练,参数较少,并且需要较少的计算能力来训练和运行。
SLM 专注于关键功能,其占用空间小意味着它们可以部署在不同的设备上,包括那些没有移动设备等高端硬件。例如,Google 的 Nano 是一个从头开始构建的设备上 SLM,可在移动设备上运行。据该公司称,由于尺寸较小,Nano 可以在有或没有网络连接的情况下在本地运行。
除了Nano,还有很多来自 AI 领域领先和新兴公司的其他 SLM。一些流行的 SLM 包括 Microsoft 的 Phi-3、OpenAI 的 GPT-4o mini、Anthropic 的 Claude 3 Haiku、Meta 的 Llama 3 和 Mistral AI 的 Mixtral 8x7B。
还有其他选项,您可能认为是 LLM,但实际上它们是SLM。考虑到大多数公司正在采用多模型方法,在其产品组合中发布不止一种语言模型,同时提供 LLM 和 SLM,这一点尤其正确。一个例子是 GPT-4,它有多种型号,包括 GPT-4、GPT-4o (Omni) 和 GPT-4o mini。
小语言模型与大型语言模型
在讨论 SLM 时,我们不能忽视它们的大对应物:LLM。 SLM 和 LLM 之间的关键区别在于模型大小,它是根据参数来衡量的。
截至撰写本文时,人工智能行业对于最大数量尚未达成共识模型的参数数量不应超过被视为 SLM 的参数或被视为 LLM 所需的最小数量。然而,SLM 通常有数百万到数十亿个参数,而 LLM 则更多,高达数万亿个。
例如,2020 年发布的 GPT-3 有 1750 亿个参数(而据传 GPT-4 模型的数量约为 1.76 万亿),而微软的 2024 Phi-3-mini、Phi-3-small 和Phi-3-medium SLM 分别测量 3.8、7 和 140 亿个参数。
SLM 和 LLM 之间的另一个区别因素是用于训练的数据量。 SLM 使用少量数据进行训练,而 LLM 使用大型数据集。这种差异也会影响模型解决复杂任务的能力。
由于训练中使用的数据量很大,LLM 更适合解决需要高级推理的不同类型的复杂任务,而 SLM 更适合解决更简单的任务任务。与 LLM 不同,SLM 使用较少的训练数据,但所使用的数据必须具有更高的质量,才能在一个小包中实现 LLM 中的许多功能。
为什么小语言模型是未来
对于大多数用例,SLM 更有能力成为公司和消费者用来执行各种任务的主流模型。当然,法学硕士有其优势,并且更适合某些用例,例如解决复杂的任务。然而,由于以下原因,SLM 是大多数用例的未来。
1. 降低培训和维护成本

SLM 比 LLM 需要更少的培训数据,这使得它们成为培训数据、财务或两者都有限的个人和中小型公司最可行的选择。 LLM 需要大量的训练数据,进而需要大量的计算资源来训练和运行。
为了正确看待这一点,OpenAI 的首席执行官 Sam Altman 证实,他们的训练花费了超过 1 亿美元GPT-4 在麻省理工学院的一次活动中发表演讲时(根据连线)。另一个例子是 Meta 的 OPT-175B LLM。 Meta 表示它是使用 992 个 NVIDIA A100 80GB GPU 进行训练的,据 CNBC 每台成本约为 10,000 美元。这样一来,成本大约为 900 万美元,还不包括能源、工资等其他费用。
按照这样的数字,中小型公司培养 LLM 是不可行的。相比之下,SLM 在资源方面的进入门槛较低,运行成本也较低,因此,更多的公司会接受它们。
2. 更好的性能

性能是 SLM 因其紧凑的尺寸而击败 LLM 的另一个领域。 SLM 的延迟更短,更适合需要更快响应的场景,例如实时应用程序。例如,在数字助理等语音响应系统中,更快的响应是首选。
在设备上运行(稍后详细介绍)也意味着您的请求不必访问在线服务器并返回到响应您的查询,从而获得更快的响应。
3. 更准确

当谈到生成式人工智能时,有一件事保持不变:垃圾进,垃圾出。目前的法学硕士已经使用原始互联网数据的大型数据集进行了培训。因此,它们可能并不在所有情况下都是准确的。这是ChatGPT和类似模型的问题之一,也是为什么你不应该相信人工智能聊天机器人所说的一切。另一方面,SLM 使用比 LLM 更高质量的数据进行训练,因此具有更高的准确性。
SLM 还可以通过针对特定任务或领域的集中训练来进一步微调,从而在这些任务或领域中获得更高的准确性与更大、更通用的模型相比。
4. 可以在设备上运行

SLM 比 LLM 需要更少的计算能力,因此是边缘计算案例的理想选择。它们可以部署在智能手机和自动驾驶汽车等边缘设备上,这些设备没有大量的计算能力或资源。谷歌的 Nano 模型可以在设备上运行,即使没有有效的互联网连接也可以工作。
这种能力为公司和消费者带来了双赢的局面。首先,这是隐私的胜利,因为用户数据是在本地处理而不是发送到云端,这一点很重要,因为更多的人工智能被集成到我们的智能手机中,几乎包含了我们的所有细节。这对公司来说也是一个胜利,因为他们不需要部署和运行大型服务器来处理人工智能任务。
SLM 正在获得动力,其中最大的行业参与者,如 Open AI、Google、Microsoft、 Anthropic 和 Meta 发布了此类模型。这些模型更适合更简单的任务,这也是我们大多数人使用法学硕士的目的;因此,他们是未来。
但是法学硕士不会去任何地方。相反,它们将用于高级应用程序,结合不同领域的信息来创建新的东西,例如医学研究。
以上是超越法学硕士:这就是为什么小语言模型是人工智能的未来的详细内容。更多信息请关注PHP中文网其他相关文章!

模型上下文协议(MCP):AI和数据的通用连接器 我们都熟悉AI在日常编码中的作用。 REPLIT,GitHub副词,黑匣子AI和光标IDE只是AI如何简化我们的工作流程的几个示例。 但是想象一下

Microsoft的OmniparSer V2和Omnitool:用AI彻底改变GUI自动化 想象一下AI不仅理解,而且像经验丰富的专业人员一样与Windows 11界面进行互动。 Microsoft的OmniparSer V2和Omnitool使它成为RE

Vibe编码通过让我们使用自然语言而不是无尽的代码行创建应用程序来重塑软件开发的世界。受Andrej Karpathy等有远见的人的启发,这种创新的方法使Dev

革命性应用程序开发:深入研究替代代理 厌倦了使用复杂的开发环境和晦涩的配置文件搏斗? Replit Agent旨在简化将想法转换为功能应用程序的过程。 这个AI-P

这篇博客文章分享了我测试跑道ML的新ACT ONE动画工具的经验,涵盖其Web界面和Python API。虽然有希望,但我的结果比预期的不那么令人印象深刻。 想探索生成的AI吗? 在P中学习使用LLM

2025年2月,Generative AI又是一个改变游戏规则的月份,为我们带来了一些最令人期待的模型升级和开创性的新功能。从Xai的Grok 3和Anthropic的Claude 3.7十四行诗到Openai的G

Yolo(您只看一次)一直是领先的实时对象检测框架,每次迭代都在以前的版本上改善。最新版本Yolo V12引入了进步,可显着提高准确性

这项耗资5000亿美元的星际之门AI项目由OpenAI,Softbank,Oracle和Nvidia等科技巨头支持,并得到美国政府的支持,旨在巩固美国AI的领导力。 这项雄心勃勃


热AI工具

Undresser.AI Undress
人工智能驱动的应用程序,用于创建逼真的裸体照片

AI Clothes Remover
用于从照片中去除衣服的在线人工智能工具。

Undress AI Tool
免费脱衣服图片

Clothoff.io
AI脱衣机

AI Hentai Generator
免费生成ai无尽的。

热门文章

热工具

SublimeText3 Mac版
神级代码编辑软件(SublimeText3)

Dreamweaver CS6
视觉化网页开发工具

ZendStudio 13.5.1 Mac
功能强大的PHP集成开发环境

安全考试浏览器
Safe Exam Browser是一个安全的浏览器环境,用于安全地进行在线考试。该软件将任何计算机变成一个安全的工作站。它控制对任何实用工具的访问,并防止学生使用未经授权的资源。

PhpStorm Mac 版本
最新(2018.2.1 )专业的PHP集成开发工具