JAMBA 1.5:一种强大的混合语言模型,用于长篇文化处理
Jamba 1.5是AI21实验室的尖端大语言模型,具有令人印象深刻的处理能力,可处理广泛的文本上下文。有两个版本可供选择:Jamba 1.5大型(940亿参数)和Jamba 1.5 Mini(120亿个参数) - 它利用了将MAMBA结构化状态空间模型(SSM)与传统变压器结构相结合的独特混合体系结构。这种创新的方法可以处理空前的256K有效上下文窗口,这是开源模型的重大飞跃。
关键功能:
建筑细节:
方面 | 细节 |
---|---|
基础体系结构 | 混合变压器 - 曼巴(Mamba |
模型变体 | jamba-1.5大(94B活动参数,总计398b)和jamba-1.5-mini(12B活动参数,总计52B) |
层组成 | 9个街区,每个街区有8层; 1:7变压器与曼巴层的比率 |
专家的混合物(MOE) | 16位专家,选择每个令牌的前2个 |
隐藏的尺寸 | 8192 |
注意力头 | 64个查询头,8个钥匙值头 |
上下文长度 | 多达256K令牌 |
量化技术 | MOE和MLP层的ExpertsInt8 |
激活功能 | 集成的变压器和MAMBA激活 |
效率 | 在8x80GB GPU上针对高吞吐量和低潜伏期进行了优化 |
访问和利用Jamba 1.5:
Jamba 1.5很容易通过AI21的工作室API和拥抱的脸访问。该模型可以针对特定域进行微调,以进一步提高性能。下面提供了使用AI21 API的Python示例:
Python示例:
从AI21导入AI21Client 来自AI21.models.Chat Import Chatmessage 消息= [ChatMessage(content =“ 2-3行中的令牌是什么? 客户端= ai21client(api_key ='')#替换'用API键 响应= client.chat.completions.create( 消息=消息, 型号=“ jamba-1.5-mini”, 流= true ) 零件回应: 打印(块。
结论:
Jamba 1.5代表了大型语言模型的重大进步,提供了强大的功率和效率融合。它处理异常长上下文的能力,再加上其多功能应用程序和可访问的部署选项,使其成为多种NLP任务的宝贵工具。
常见问题(常见问题解答):(类似于原始问题,但出于简洁而改写)
以上是Jamba 1.5:具有混合Mamba-Transformer架构的详细内容。更多信息请关注PHP中文网其他相关文章!