2025年的前13个小语言模型（SLM）-Analytics Vidhya-人工智能-PHP中文网

首页

科技周边

人工智能

2025年的前13个小语言模型（SLM）-Analytics Vidhya

Joseph Gordon-Levitt

Mar 15, 2025 am 09:53 AM

今年，像OpenAI的O1这样的紧凑型语言模型（CLM）引起了极大的关注，表明了令人印象深刻的自然语言处理能力。但是，许多应用程序不需要大型模型的巨大资源。输入小型语言模型（SLM） - 高效，简化的解决方案，非常适合预算意识的应用和有限的计算环境。

SLM平衡性能和效率。优化的体系结构和尺寸使它们非常适合需要快速推断的边缘设备，资源受限系统和应用程序。从为移动应用程序供电到提供离线NLP功能，这些模型正在民主化高级语言技术。

该博客探索了13个表现最佳的SLM。无论您是寻求轻量级解决方案的开发人员还是研究有效NLP的研究人员，该列表都表明较小的可能会更好。让我们探讨这些紧凑的模型如何产生重大影响。

多功能多任务性能（翻译，摘要，问答）
- T5
- QWEN-2
- 美洲驼3.2
- Mistral Nemo
- Mistral Small 3
以推理为中心的任务
- O3米尼
- PHI-4
文字生成
- DISTILGPT-2
- Smollm
NLU一般（文本分类，情感分析，命名实体识别）
- 微型
- 莫比尔伯特
- Microsoft Phi 3.5 Mini
- Gemma 2
- 蒂尼伯特
- Distilbert
常见问题

要深入研究SLM，请参阅：什么是小语言模型（SLM）？现在，让我们检查一下这13个领先的SLM。

多功能多任务性能（翻译，摘要，问答）

T5

Google Research的T5（文本到文本传输变压器）是一种使用统一的文本对文本框架的多功能模型，用于各种NLP任务（转换，摘要，Q＆A）。

参数大小

T5提供各种尺寸，从T5-S-S-S-S-S-MALL（6000万参数）到T5-11b（110亿个参数），可满足各种资源需求。

建筑学

T5的变压器体系结构使用编码器和解码器组件，通过将所有任务作为文本到文本问题来强调灵活性。在大型数据集上进行预培训可以增强其理解。

2025年的前13个小语言模型（SLM）-Analytics Vidhya

可用性

T5是开源（Apache 2.0许可证），可通过TensorFlow和拥抱面访问。

QWEN-2

QWEN-2是适用于各种应用的文本生成，分类和摘要方面有效的CLM。它的模块化设计是约束硬件的理想选择。

参数大小

QWEN-2有30亿，70亿和130亿个参数版本，可为不同的应用提供可扩展性。

建筑学

QWEN-2的高级变压器体系结构使用旋转位置嵌入等技术以及适应性的速度和稳定性。它的模块化可确保适应性。

可用性

Qwen-2是开源的，具有一些可通过订阅提供的高级功能。

美洲驼3.2

Llama 3.2优先考虑使用资源效率的高性能，使其适用于较低计算开销的应用。

参数大小

Llama 3.2提供的版本范围从13亿到130亿个参数，使用户可以根据需求进行选择。

建筑学

Llama 3.2使用分组的查询注意力，旋转位置嵌入（绳索）和Swiglu激活来提高效率和性能。

2025年的前13个小语言模型（SLM）-Analytics Vidhya

可用性

Llama 3.2是开源的，具有免费的层和付费选项，可用于扩展功能和支持。

Mistral Nemo

Mistral Nemo是一种紧凑而有效的CLM，旨在高质量的语言理解和产生，强调表现和易于整合。

参数大小

Mistral Nemo有13亿，70亿和130亿个参数版本。

建筑学

Mistral Nemo的基于变压器的体系结构使用优化的注意机制和增强的令牌嵌入，以有效的内存使用和吞吐量。

可用性

Mistral Nemo是开源的。

Mistral Small 3

Mistral Small 3处理大约80％的生成AI任务，具有适度的硬件要求。

参数大小

Mistral Small 3具有240亿个参数，提供的性能与更大的模型相当。它可以部署在单个高端GPU或功能强大的笔记本电脑上。

建筑学

Mistral Small 3使用的层少于竞争模型的低延迟性能。它可提供预训练和指导调整的版本。

可用性

Mistral Small 3是开源（Apache 2.0许可证），可在拥抱脸，Ollama和Kaggle上使用。

以推理为中心的任务

O3米尼

O3-Mini是一种紧凑的模型，尽管参数计数减少了，但它适用于资源受限的设备。

参数大小

O3-Mini的参数计数大大减少了，可以在资源有限的设备上有效地操作。

建筑学

作为OpenAI推理模型系列的一部分，O3 MINI支持文本输入/输出和可调节的推理级别。

可用性

O3-Mini可通过Chatgpt，OpenAI API，Microsoft Azure OpenAI服务和Open Router访问。

PHI-4

微软的PHI-4（140亿个参数）在推理任务方面擅长计算效率。

参数大小

PHI-4的140亿参数已针对推理效率和降低计算需求进行了优化。

建筑和培训

PHI-4的架构和培训过程（包括合成数据生成和改进技术）增强了其推理能力。

可用性

PHI-4目前是专有的。

文字生成

DISTILGPT-2

Distilgpt-2是GPT-2的较小，更高效的版本，保留了大多数功能，同时大大降低了其尺寸。

参数大小

Distilgpt-2通常具有约8200万个参数，而GPT-2显着降低。

建筑学

Distilgpt-2使用与GPT-2相似的变压器架构，但通过知识蒸馏实现的层较少。

2025年的前13个小语言模型（SLM）-Analytics Vidhya

可用性

Distilgpt-2是开源的（拥抱的脸）。

Smollm

Smollm是一种轻巧的模型，旨在使用降低计算足迹的有效NLP。

参数大小

Smollm提供各种尺寸，从1000万到3亿个参数。

建筑学

Smollm使用基于变压器的设计，具有修剪，量化和自适应计算方法的效率。

可用性

Smollm是开源的，具有免费的级别和付费选项。

NLU一般（文本分类，情感分析，命名实体识别）

微型

Microsoft的Minilm是使用知识蒸馏技术的紧凑而有效的模型。

参数大小

Minilm提供各种尺寸，从2200万到3.84亿个参数。

建筑学

Minilm使用了深层的自我注意力学机制，并结合了知识蒸馏以从较大模型中传递性能。

2025年的前13个小语言模型（SLM）-Analytics Vidhya

可用性

Minilm是开源的（拥抱的脸，github）。

莫比尔伯特

Moberbert是BERT的轻量化改编版，专为资源约束设备而设计。

参数大小

洛夫伯特有大约2500万个参数。

建筑学

莫菲伯特使用瓶颈结构，倒瓶颈层和四倍的进料网络，以提高效率。

2025年的前13个小语言模型（SLM）-Analytics Vidhya

可用性

洛夫伯特是开源的。

Microsoft Phi 3.5 Mini

Microsoft Phi 3.5迷你平衡效率和性能，以有限的资源来了解强大的自然语言理解。

参数大小

Phi 3.5 Mini有13亿和30亿个参数版本。

建筑学

Phi 3.5 Mini的变压器体系结构使用优化的注意机制来提高效率。

可用性

Microsoft Phi 3.5 Mini是专有的，集成到Microsoft Azure AI服务（免费和付费层）中。

Gemma 2

Gemma 2的设计用于有效的NLU和发电任务，平衡准确性和速度。

参数大小

Gemma 2提供了1.25亿，3.5亿和12亿参数的版本。

建筑学

Gemma 2使用具有动态注意力头和层归一化增强的流线型变压器体系结构。

2025年的前13个小语言模型（SLM）-Analytics Vidhya

可用性

Gemma 2是开源（允许许可证），具有免费和高级选项。

蒂尼伯特

Tinybert是Bert的蒸馏版本，可降低计算复杂性和记忆足迹。

参数大小

Tinybert最小的版本约有1400万个参数，而较大的版本的参数约为6600万。

建筑学

Tinybert使用类似的变压器架构来BERT，但层较少，尺寸降低。

2025年的前13个小语言模型（SLM）-Analytics Vidhya

可用性

Tinybert是开源（Apache License 2.0），可通过拥抱的脸型变压器访问。

Distilbert

Distilbert是Bert的较小，更快且更轻的版本，保留了Bert的大部分表现。

参数大小

Distilbert约有6600万个参数。

建筑学

Distilbert通过减少层数和采用知识蒸馏来简化Bert的架构。

2025年的前13个小语言模型（SLM）-Analytics Vidhya

可用性

Distilbert是开源的（拥抱的脸型变压器）。

结论

SLM通过提供性能，效率和可及性的平衡来彻底改变NLP。它们对资源受限环境的适用性使它们非常适合各种应用。开源和专有模型都在推动创新并扩大对先进语言技术的访问。随着AI采用的增长，SLM对于有效，包含的NLP缩放至关重要。

常见问题

Q1。小语言模型可以离线使用吗？答：是的，他们的轻质性质允许在各种设备上离线部署。

Q2。小语言模型如何微调？答：使用较小的数据集，微型调整将预训练的模型调整为特定任务。

Q3。小语言模型安全且私密吗？答：当地部署可以增强安全性和隐私性，但实施细节至关重要。

以上是2025年的前13个小语言模型（SLM）-Analytics Vidhya的详细内容。更多信息请关注PHP中文网其他相关文章！

声明

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系admin@php.cn

META的新AI助手：生产力助推器还是时间下沉？May 01, 2025 am 11:18 AM

Meta携手Nvidia、IBM和Dell等合作伙伴，拓展了Llama Stack的企业级部署整合。在安全方面，Meta推出了Llama Guard 4、LlamaFirewall和CyberSecEval 4等新工具，并启动了Llama Defenders计划，以增强AI安全性。此外，Meta还向10个全球机构（包括致力于改善公共服务、医疗保健和教育的初创企业）发放了总额150万美元的Llama Impact Grants。由Llama 4驱动的全新Meta AI应用，被设想为Meta AI

80％的Zers将嫁给AI：研究May 01, 2025 am 11:17 AM

公司开创性的人类互动公司Joi AI介绍了“ AI-Iatsionship”一词来描述这些不断发展的关系。 Joi AI的关系治疗师Jaime Bronstein澄清说，这并不是要取代人类C

AI使互联网的机器人问题变得更糟。这家耗资20亿美元的创业公司在前线May 01, 2025 am 11:16 AM

在线欺诈和机器人攻击对企业构成了重大挑战。零售商与机器人ho积产品，银行战斗帐户收购和社交媒体平台与模仿者的斗争。 AI的兴起加剧了这个问题，Rende

卖给机器人：将创造或破坏业务的营销革命May 01, 2025 am 11:15 AM

AI代理人有望彻底改变营销，并可能超过以前技术转变的影响。这些代理代表了生成AI的重大进步，不仅是处理诸如chatgpt之类的处理信息，而且还采取了Actio

计算机视觉技术如何改变NBA季后赛主持人May 01, 2025 am 11:14 AM

人工智能对关键NBA游戏4决策的影响两场关键游戏4 NBA对决展示了AI在主持仪式中改变游戏规则的角色。首先，丹佛的尼古拉·乔基奇（Nikola Jokic）错过了三分球，导致亚伦·戈登（Aaron Gordon）的最后一秒钟。索尼的鹰

AI如何加速再生医学的未来May 01, 2025 am 11:13 AM

传统上，扩大重生医学专业知识在全球范围内要求广泛的旅行，动手培训和多年指导。现在，AI正在改变这一景观，克服地理局限性并通过EN加速进步

Intel Foundry Direct Connect 2025的关键要点May 01, 2025 am 11:12 AM

英特尔正努力使其制造工艺重回领先地位，同时努力吸引无晶圆厂半导体客户在其晶圆厂制造芯片。为此，英特尔必须在业界建立更多信任，不仅要证明其工艺的竞争力，还要证明合作伙伴能够以熟悉且成熟的工作流程、一致且高可靠性地制造芯片。今天我听到的一切都让我相信英特尔正在朝着这个目标前进。新任首席执行官谭立柏的主题演讲拉开了当天的序幕。谭立柏直率而简洁。他概述了英特尔代工服务的若干挑战，以及公司为应对这些挑战、为英特尔代工服务的未来规划成功路线而采取的措施。谭立柏谈到了英特尔代工服务正在实施的流程，以更以客