搜索
首页科技周边人工智能超越法学硕士:这就是为什么小语言模型是人工智能的未来

快速链接

摘要

  • Open AI、Google、Microsoft 和 Meta 等大公司正在投资 SLM。
  • SLM 在整个行业越来越受欢迎,并且更适合作为未来的人工智能。
  • SLM 的示例包括 Google Nano、Microsoft 的 Phi-3 和 Open AI 的 GPT-4o mini。

大型语言模型 (LLM) 随着 Open AI 的 ChatGPT 的发布而出现。从那时起,有几家公司也推出了 LLM,但现在越来越多的公司倾向于小语言模型 (SLM)。

SLM 势头强劲,但它们是什么,与 LLM 有何不同?

什么是小语言模型?

小语言模型(SLM)是一种参数较少的人工智能模型(将其视为训练期间学习的模型中的值)。与大型同类产品一样,SLM 可以生成文本并执行其他任务。然而,SLM 使用较少的数据集进行训练,参数较少,并且需要较少的计算能力来训练和运行。

SLM 专注于关键功能,其占用空间小意味着它们可以部署在不同的设备上,包括那些没有移动设备等高端硬件。例如,Google 的 Nano 是一个从头开始构建的设备上 SLM,可在移动设备上运行。据该公司称,由于尺寸较小,Nano 可以在有或没有网络连接的情况下在本地运行。

small language model gemini nano use examples
Google

除了Nano,还有很多来自 AI 领域领先和新兴公司的其他 SLM。一些流行的 SLM 包括 Microsoft 的 Phi-3、OpenAI 的 GPT-4o mini、Anthropic 的 Claude 3 Haiku、Meta 的 Llama 3 和 Mistral AI 的 Mixtral 8x7B。

还有其他选项,您可能认为是 LLM,但实际上它们是SLM。考虑到大多数公司正在采用多模型方法,在其产品组合中发布不止一种语言模型,同时提供 LLM 和 SLM,这一点尤其正确。一个例子是 GPT-4,它有多种型号,包括 GPT-4、GPT-4o (Omni) 和 GPT-4o mini

小语言模型与大型语言模型

在讨论 SLM 时,我们不能忽视它们的大对应物:LLM。 SLM 和 LLM 之间的关键区别在于模型大小,它是根据参数来衡量的。

截至撰写本文时,人工智能行业对于最大数量尚未达成共识模型的参数数量不应超过被视为 SLM 的参数或被视为 LLM 所需的最小数量。然而,SLM 通常有数百万到数十亿个参数,而 LLM 则更多,高达数万亿个。

例如,2020 年发布的 GPT-3 有 1750 亿个参数(而据传 GPT-4 模型的数量约为 1.76 万亿),而微软的 2024 Phi-3-mini、Phi-3-small 和Phi-3-medium SLM 分别测量 3.8、7 和 140 亿个参数。

small language models versus large language models chart
微软

SLM 和 LLM 之间的另一个区别因素是用于训练的数据量。 SLM 使用少量数据进行训练,而 LLM 使用大型数据集。这种差异也会影响模型解决复杂任务的能力。

由于训练中使用的数据量很大,LLM 更适合解决需要高级推理的不同类型的复杂任务,而 SLM 更适合解决更简单的任务任务。与 LLM 不同,SLM 使用较少的训练数据,但所使用的数据必须具有更高的质量,才能在一个小包中实现 LLM 中的许多功能。

为什么小语言模型是未来

对于大多数用例,SLM 更有能力成为公司和消费者用来执行各种任务的主流模型。当然,法学硕士有其优势,并且更适合某些用例,例如解决复杂的任务。然而,由于以下原因,SLM 是大多数用例的未来。

1. 降低培训和维护成本

server raid configurations feature
季莫菲耶夫弗拉基米尔/Shutterstock

SLM 比 LLM 需要更少的培训数据,这使得它们成为培训数据、财务或两者都有限的个人和中小型公司最可行的选择。 LLM 需要大量的训练数据,进而需要大量的计算资源来训练和运行。

为了正确看待这一点,OpenAI 的首席执行官 Sam Altman 证实,他们的训练花费了超过 1 亿美元GPT-4 在麻省理工学院的一次活动中发表演讲时(根据连线)。另一个例子是 Meta 的 OPT-175B LLM。 Meta 表示它是使用 992 个 NVIDIA A100 80GB GPU 进行训练的,据 CNBC 每台成本约为 10,000 美元。这样一来,成本大约为 900 万美元,还不包括能源、工资等其他费用。

按照这样的数字,中小型公司培养 LLM 是不可行的。相比之下,SLM 在资源方面的进入门槛较低,运行成本也较低,因此,更多的公司会接受它们。

2. 更好的性能

A person talking to their phone with the ChatGPT icon hovering over the screen.
GBJSTOCK / Shutterstock

性能是 SLM 因其紧凑的尺寸而击败 LLM 的另一个领域。 SLM 的延迟更短,更适合需要更快响应的场景,例如实时应用程序。例如,在数字助理等语音响应系统中,更快的响应是首选。

在设备上运行(稍后详细介绍)也意味着您的请求不必访问在线服务器并返回到响应您的查询,从而获得更快的响应。

3. 更准确

A phone screen with the ChatGPT logo and an 'x,' and the Claude logo blurred in the background.
ZinetroN / Shutterstock

当谈到生成式人工智能时,有一件事保持不变:垃圾进,垃圾出。目前的法学硕士已经使用原始互联网数据的大型数据集进行了培训。因此,它们可能并不在所有情况下都是准确的。这是ChatGPT和类似模型的问题之一,也是为什么你不应该相信人工智能聊天机器人所说的一切。另一方面,SLM 使用比 LLM 更高质量的数据进行训练,因此具有更高的准确性。

SLM 还可以通过针对特定任务或领域的集中训练来进一步微调,从而在这些任务或领域中获得更高的准确性与更大、更通用的模型相比。

4. 可以在设备上运行

small language model mockup on smartphone
皮特·汉森/Shutterstock

SLM 比 LLM 需要更少的计算能力,因此是边缘计算案例的理想选择。它们可以部署在智能手机和自动驾驶汽车等边缘设备上,这些设备没有大量的计算能力或资源。谷歌的 Nano 模型可以在设备上运行,即使没有有效的互联网连接也可以工作。

这种能力为公司和消费者带来了双赢的局面。首先,这是隐私的胜利,因为用户数据是在本地处理而不是发送到云端,这一点很重要,因为更多的人工智能被集成到我们的智能手机中,几乎包含了我们的所有细节。这对公司来说也是一个胜利,因为他们不需要部署和运行大型服务器来处理人工智能任务。

SLM 正在获得动力,其中最大的行业参与者,如 Open AI、Google、Microsoft、 Anthropic 和 Meta 发布了此类模型。这些模型更适合更简单的任务,这也是我们大多数人使用法学硕士的目的;因此,他们是未来。

但是法学硕士不会去任何地方。相反,它们将用于高级应用程序,结合不同领域的信息来创建新的东西,例如医学研究。

以上是超越法学硕士:这就是为什么小语言模型是人工智能的未来的详细内容。更多信息请关注PHP中文网其他相关文章!

声明
本文内容由网友自发贡献,版权归原作者所有,本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容,请联系admin@php.cn
什么是模型上下文协议(MCP)?什么是模型上下文协议(MCP)?Mar 03, 2025 pm 07:09 PM

模型上下文协议(MCP):AI和数据的通用连接器 我们都熟悉AI在日常编码中的作用。 REPLIT,GitHub副词,黑匣子AI和光标IDE只是AI如何简化我们的工作流程的几个示例。 但是想象一下

使用OmniparSer V2和Omnitool建立本地视觉代理使用OmniparSer V2和Omnitool建立本地视觉代理Mar 03, 2025 pm 07:08 PM

Microsoft的OmniparSer V2和Omnitool:用AI彻底改变GUI自动化 想象一下AI不仅理解,而且像经验丰富的专业人员一样与Windows 11界面进行互动。 Microsoft的OmniparSer V2和Omnitool使它成为RE

我尝试了使用光标AI编码的Vibe编码,这太神奇了!我尝试了使用光标AI编码的Vibe编码,这太神奇了!Mar 20, 2025 pm 03:34 PM

Vibe编码通过让我们使用自然语言而不是无尽的代码行创建应用程序来重塑软件开发的世界。受Andrej Karpathy等有远见的人的启发,这种创新的方法使Dev

补充代理:带有实际示例的指南补充代理:带有实际示例的指南Mar 04, 2025 am 10:52 AM

革命性应用程序开发:深入研究替代代理 厌倦了使用复杂的开发环境和晦涩的配置文件搏斗? Replit Agent旨在简化将想法转换为功能应用程序的过程。 这个AI-P

跑道Act-One指南:我拍摄了自己的测试跑道Act-One指南:我拍摄了自己的测试Mar 03, 2025 am 09:42 AM

这篇博客文章分享了我测试跑道ML的新ACT ONE动画工具的经验,涵盖其Web界面和Python API。虽然有希望,但我的结果比预期的不那么令人印象深刻。 想探索生成的AI吗? 在P中学习使用LLM

2025年2月的Genai推出前5名:GPT-4.5,Grok-3等!2025年2月的Genai推出前5名:GPT-4.5,Grok-3等!Mar 22, 2025 am 10:58 AM

2025年2月,Generative AI又是一个改变游戏规则的月份,为我们带来了一些最令人期待的模型升级和开创性的新功能。从Xai的Grok 3和Anthropic的Claude 3.7十四行诗到Openai的G

如何使用Yolo V12进行对象检测?如何使用Yolo V12进行对象检测?Mar 22, 2025 am 11:07 AM

Yolo(您只看一次)一直是领先的实时对象检测框架,每次迭代都在以前的版本上改善。最新版本Yolo V12引入了进步,可显着提高准确性

Elon Musk&Sam Altman冲突超过5000亿美元的星际之门项目Elon Musk&Sam Altman冲突超过5000亿美元的星际之门项目Mar 08, 2025 am 11:15 AM

这项耗资5000亿美元的星际之门AI项目由OpenAI,Softbank,Oracle和Nvidia等科技巨头支持,并得到美国政府的支持,旨在巩固美国AI的领导力。 这项雄心勃勃

See all articles

热AI工具

Undresser.AI Undress

Undresser.AI Undress

人工智能驱动的应用程序,用于创建逼真的裸体照片

AI Clothes Remover

AI Clothes Remover

用于从照片中去除衣服的在线人工智能工具。

Undress AI Tool

Undress AI Tool

免费脱衣服图片

Clothoff.io

Clothoff.io

AI脱衣机

AI Hentai Generator

AI Hentai Generator

免费生成ai无尽的。

热门文章

R.E.P.O.能量晶体解释及其做什么(黄色晶体)
2 周前By尊渡假赌尊渡假赌尊渡假赌
仓库:如何复兴队友
4 周前By尊渡假赌尊渡假赌尊渡假赌
Hello Kitty Island冒险:如何获得巨型种子
4 周前By尊渡假赌尊渡假赌尊渡假赌

热工具

SublimeText3 Mac版

SublimeText3 Mac版

神级代码编辑软件(SublimeText3)

Dreamweaver CS6

Dreamweaver CS6

视觉化网页开发工具

ZendStudio 13.5.1 Mac

ZendStudio 13.5.1 Mac

功能强大的PHP集成开发环境

安全考试浏览器

安全考试浏览器

Safe Exam Browser是一个安全的浏览器环境,用于安全地进行在线考试。该软件将任何计算机变成一个安全的工作站。它控制对任何实用工具的访问,并防止学生使用未经授权的资源。

PhpStorm Mac 版本

PhpStorm Mac 版本

最新(2018.2.1 )专业的PHP集成开发工具