今年,像OpenAI的O1这样的紧凑型语言模型(CLM)引起了极大的关注,表明了令人印象深刻的自然语言处理能力。但是,许多应用程序不需要大型模型的巨大资源。输入小型语言模型(SLM) - 高效,简化的解决方案,非常适合预算意识的应用和有限的计算环境。
SLM平衡性能和效率。优化的体系结构和尺寸使它们非常适合需要快速推断的边缘设备,资源受限系统和应用程序。从为移动应用程序供电到提供离线NLP功能,这些模型正在民主化高级语言技术。
该博客探索了13个表现最佳的SLM。无论您是寻求轻量级解决方案的开发人员还是研究有效NLP的研究人员,该列表都表明较小的可能会更好。让我们探讨这些紧凑的模型如何产生重大影响。
要深入研究SLM,请参阅:什么是小语言模型(SLM)?现在,让我们检查一下这13个领先的SLM。
Google Research的T5(文本到文本传输变压器)是一种使用统一的文本对文本框架的多功能模型,用于各种NLP任务(转换,摘要,Q&A)。
T5提供各种尺寸,从T5-S-S-S-S-S-MALL(6000万参数)到T5-11b(110亿个参数),可满足各种资源需求。
T5的变压器体系结构使用编码器和解码器组件,通过将所有任务作为文本到文本问题来强调灵活性。在大型数据集上进行预培训可以增强其理解。
T5是开源(Apache 2.0许可证),可通过TensorFlow和拥抱面访问。
QWEN-2是适用于各种应用的文本生成,分类和摘要方面有效的CLM。它的模块化设计是约束硬件的理想选择。
QWEN-2有30亿,70亿和130亿个参数版本,可为不同的应用提供可扩展性。
QWEN-2的高级变压器体系结构使用旋转位置嵌入等技术以及适应性的速度和稳定性。它的模块化可确保适应性。
Qwen-2是开源的,具有一些可通过订阅提供的高级功能。
Llama 3.2优先考虑使用资源效率的高性能,使其适用于较低计算开销的应用。
Llama 3.2提供的版本范围从13亿到130亿个参数,使用户可以根据需求进行选择。
Llama 3.2使用分组的查询注意力,旋转位置嵌入(绳索)和Swiglu激活来提高效率和性能。
Llama 3.2是开源的,具有免费的层和付费选项,可用于扩展功能和支持。
Mistral Nemo是一种紧凑而有效的CLM,旨在高质量的语言理解和产生,强调表现和易于整合。
Mistral Nemo有13亿,70亿和130亿个参数版本。
Mistral Nemo的基于变压器的体系结构使用优化的注意机制和增强的令牌嵌入,以有效的内存使用和吞吐量。
Mistral Nemo是开源的。
Mistral Small 3处理大约80%的生成AI任务,具有适度的硬件要求。
Mistral Small 3具有240亿个参数,提供的性能与更大的模型相当。它可以部署在单个高端GPU或功能强大的笔记本电脑上。
Mistral Small 3使用的层少于竞争模型的低延迟性能。它可提供预训练和指导调整的版本。
Mistral Small 3是开源(Apache 2.0许可证),可在拥抱脸,Ollama和Kaggle上使用。
O3-Mini是一种紧凑的模型,尽管参数计数减少了,但它适用于资源受限的设备。
O3-Mini的参数计数大大减少了,可以在资源有限的设备上有效地操作。
作为OpenAI推理模型系列的一部分,O3 MINI支持文本输入/输出和可调节的推理级别。
O3-Mini可通过Chatgpt,OpenAI API,Microsoft Azure OpenAI服务和Open Router访问。
微软的PHI-4(140亿个参数)在推理任务方面擅长计算效率。
PHI-4的140亿参数已针对推理效率和降低计算需求进行了优化。
PHI-4的架构和培训过程(包括合成数据生成和改进技术)增强了其推理能力。
PHI-4目前是专有的。
Distilgpt-2是GPT-2的较小,更高效的版本,保留了大多数功能,同时大大降低了其尺寸。
Distilgpt-2通常具有约8200万个参数,而GPT-2显着降低。
Distilgpt-2使用与GPT-2相似的变压器架构,但通过知识蒸馏实现的层较少。
Distilgpt-2是开源的(拥抱的脸)。
Smollm是一种轻巧的模型,旨在使用降低计算足迹的有效NLP。
Smollm提供各种尺寸,从1000万到3亿个参数。
Smollm使用基于变压器的设计,具有修剪,量化和自适应计算方法的效率。
Smollm是开源的,具有免费的级别和付费选项。
Microsoft的Minilm是使用知识蒸馏技术的紧凑而有效的模型。
Minilm提供各种尺寸,从2200万到3.84亿个参数。
Minilm使用了深层的自我注意力学机制,并结合了知识蒸馏以从较大模型中传递性能。
Minilm是开源的(拥抱的脸,github)。
Moberbert是BERT的轻量化改编版,专为资源约束设备而设计。
洛夫伯特有大约2500万个参数。
莫菲伯特使用瓶颈结构,倒瓶颈层和四倍的进料网络,以提高效率。
洛夫伯特是开源的。
Microsoft Phi 3.5迷你平衡效率和性能,以有限的资源来了解强大的自然语言理解。
Phi 3.5 Mini有13亿和30亿个参数版本。
Phi 3.5 Mini的变压器体系结构使用优化的注意机制来提高效率。
Microsoft Phi 3.5 Mini是专有的,集成到Microsoft Azure AI服务(免费和付费层)中。
Gemma 2的设计用于有效的NLU和发电任务,平衡准确性和速度。
Gemma 2提供了1.25亿,3.5亿和12亿参数的版本。
Gemma 2使用具有动态注意力头和层归一化增强的流线型变压器体系结构。
Gemma 2是开源(允许许可证),具有免费和高级选项。
Tinybert是Bert的蒸馏版本,可降低计算复杂性和记忆足迹。
Tinybert最小的版本约有1400万个参数,而较大的版本的参数约为6600万。
Tinybert使用类似的变压器架构来BERT,但层较少,尺寸降低。
Tinybert是开源(Apache License 2.0),可通过拥抱的脸型变压器访问。
Distilbert是Bert的较小,更快且更轻的版本,保留了Bert的大部分表现。
Distilbert约有6600万个参数。
Distilbert通过减少层数和采用知识蒸馏来简化Bert的架构。
Distilbert是开源的(拥抱的脸型变压器)。
SLM通过提供性能,效率和可及性的平衡来彻底改变NLP。它们对资源受限环境的适用性使它们非常适合各种应用。开源和专有模型都在推动创新并扩大对先进语言技术的访问。随着AI采用的增长,SLM对于有效,包含的NLP缩放至关重要。
Q1。小语言模型可以离线使用吗?答:是的,他们的轻质性质允许在各种设备上离线部署。
Q2。小语言模型如何微调?答:使用较小的数据集,微型调整将预训练的模型调整为特定任务。
Q3。小语言模型安全且私密吗?答:当地部署可以增强安全性和隐私性,但实施细节至关重要。
以上是2025年的前13个小语言模型(SLM)-Analytics Vidhya的详细内容。更多信息请关注PHP中文网其他相关文章!