超越法学硕士：这就是为什么小语言模型是人工智能的未来-人工智能-PHP中文网

首页

科技周边

人工智能

超越法学硕士：这就是为什么小语言模型是人工智能的未来

Jennifer Aniston

Dec 13, 2024 pm 03:53 PM

快速链接

什么是小语言模型？

小语言模型与大型语言模型

为什么小语言模型是未来

摘要

Open AI、Google、Microsoft 和 Meta 等大公司正在投资 SLM。
SLM 在整个行业越来越受欢迎，并且更适合作为未来的人工智能。
SLM 的示例包括 Google Nano、Microsoft 的 Phi-3 和 Open AI 的 GPT-4o mini。

大型语言模型 (LLM) 随着 Open AI 的 ChatGPT 的发布而出现。从那时起，有几家公司也推出了 LLM，但现在越来越多的公司倾向于小语言模型 (SLM)。

SLM 势头强劲，但它们是什么，与 LLM 有何不同？

什么是小语言模型？

小语言模型（SLM）是一种参数较少的人工智能模型（将其视为训练期间学习的模型中的值）。与大型同类产品一样，SLM 可以生成文本并执行其他任务。然而，SLM 使用较少的数据集进行训练，参数较少，并且需要较少的计算能力来训练和运行。

SLM 专注于关键功能，其占用空间小意味着它们可以部署在不同的设备上，包括那些没有移动设备等高端硬件。例如，Google 的 Nano 是一个从头开始构建的设备上 SLM，可在移动设备上运行。据该公司称，由于尺寸较小，Nano 可以在有或没有网络连接的情况下在本地运行。

small language model gemini nano use examples — Google

除了Nano，还有很多来自 AI 领域领先和新兴公司的其他 SLM。一些流行的 SLM 包括 Microsoft 的 Phi-3、OpenAI 的 GPT-4o mini、Anthropic 的 Claude 3 Haiku、Meta 的 Llama 3 和 Mistral AI 的 Mixtral 8x7B。

还有其他选项，您可能认为是 LLM，但实际上它们是SLM。考虑到大多数公司正在采用多模型方法，在其产品组合中发布不止一种语言模型，同时提供 LLM 和 SLM，这一点尤其正确。一个例子是 GPT-4，它有多种型号，包括 GPT-4、GPT-4o (Omni) 和 GPT-4o mini。

小语言模型与大型语言模型

在讨论 SLM 时，我们不能忽视它们的大对应物：LLM。 SLM 和 LLM 之间的关键区别在于模型大小，它是根据参数来衡量的。

截至撰写本文时，人工智能行业对于最大数量尚未达成共识模型的参数数量不应超过被视为 SLM 的参数或被视为 LLM 所需的最小数量。然而，SLM 通常有数百万到数十亿个参数，而 LLM 则更多，高达数万亿个。

例如，2020 年发布的 GPT-3 有 1750 亿个参数（而据传 GPT-4 模型的数量约为 1.76 万亿），而微软的 2024 Phi-3-mini、Phi-3-small 和Phi-3-medium SLM 分别测量 3.8、7 和 140 亿个参数。

small language models versus large language models chart — 微软

SLM 和 LLM 之间的另一个区别因素是用于训练的数据量。 SLM 使用少量数据进行训练，而 LLM 使用大型数据集。这种差异也会影响模型解决复杂任务的能力。

由于训练中使用的数据量很大，LLM 更适合解决需要高级推理的不同类型的复杂任务，而 SLM 更适合解决更简单的任务任务。与 LLM 不同，SLM 使用较少的训练数据，但所使用的数据必须具有更高的质量，才能在一个小包中实现 LLM 中的许多功能。

为什么小语言模型是未来

对于大多数用例，SLM 更有能力成为公司和消费者用来执行各种任务的主流模型。当然，法学硕士有其优势，并且更适合某些用例，例如解决复杂的任务。然而，由于以下原因，SLM 是大多数用例的未来。

1. 降低培训和维护成本

server raid configurations feature — 季莫菲耶夫弗拉基米尔/Shutterstock

SLM 比 LLM 需要更少的培训数据，这使得它们成为培训数据、财务或两者都有限的个人和中小型公司最可行的选择。 LLM 需要大量的训练数据，进而需要大量的计算资源来训练和运行。

为了正确看待这一点，OpenAI 的首席执行官 Sam Altman 证实，他们的训练花费了超过 1 亿美元GPT-4 在麻省理工学院的一次活动中发表演讲时（根据连线）。另一个例子是 Meta 的 OPT-175B LLM。 Meta 表示它是使用 992 个 NVIDIA A100 80GB GPU 进行训练的，据 CNBC 每台成本约为 10,000 美元。这样一来，成本大约为 900 万美元，还不包括能源、工资等其他费用。

按照这样的数字，中小型公司培养 LLM 是不可行的。相比之下，SLM 在资源方面的进入门槛较低，运行成本也较低，因此，更多的公司会接受它们。

2. 更好的性能

A person talking to their phone with the ChatGPT icon hovering over the screen. — GBJSTOCK / Shutterstock

性能是 SLM 因其紧凑的尺寸而击败 LLM 的另一个领域。 SLM 的延迟更短，更适合需要更快响应的场景，例如实时应用程序。例如，在数字助理等语音响应系统中，更快的响应是首选。

在设备上运行（稍后详细介绍）也意味着您的请求不必访问在线服务器并返回到响应您的查询，从而获得更快的响应。

3. 更准确

ZinetroN / Shutterstock

当谈到生成式人工智能时，有一件事保持不变：垃圾进，垃圾出。目前的法学硕士已经使用原始互联网数据的大型数据集进行了培训。因此，它们可能并不在所有情况下都是准确的。这是ChatGPT和类似模型的问题之一，也是为什么你不应该相信人工智能聊天机器人所说的一切。另一方面，SLM 使用比 LLM 更高质量的数据进行训练，因此具有更高的准确性。

SLM 还可以通过针对特定任务或领域的集中训练来进一步微调，从而在这些任务或领域中获得更高的准确性与更大、更通用的模型相比。