搜索
首页科技周边人工智能Jamba 1.5:具有混合Mamba-Transformer架构

JAMBA 1.5:一种强大的混合语言模型,用于长篇文化处理

Jamba 1.5是AI21实验室的尖端大语言模型,具有令人印象深刻的处理能力,可处理广泛的文本上下文。有两个版本可供选择:Jamba 1.5大型(940亿参数)和Jamba 1.5 Mini(120亿个参数) - 它利用了将MAMBA结构化状态空间模型(SSM)与传统变压器结构相结合的独特混合体系结构。这种创新的方法可以处理空前的256K有效上下文窗口,这是开源模型的重大飞跃。

Jamba 1.5:具有混合Mamba-Transformer架构

关键功能:

  • 庞大的上下文窗口:最多256K令牌的过程,非常适合冗长的文档和复杂的任务。
  • 混合体系结构:结合了变压器和MAMBA模型的优势,以获得最佳效率和性能。
  • 有效的量化:利用专家量定量化来减少记忆足迹和更快的处理。
  • 多语言支持:跨九种语言有效地发挥作用:英语,西班牙语,法语,葡萄牙语,意大利语,荷兰语,德语,阿拉伯语和希伯来语。
  • 多功能应用程序:适用于广泛的NLP任务,包括问答,摘要,文本生成和分类。
  • 可访问的部署:可通过AI21的Studio API,拥抱的脸和云合作伙伴获得。

建筑细节:

Jamba 1.5:具有混合Mamba-Transformer架构

方面 细节
基础体系结构 混合变压器 - 曼巴(Mamba
模型变体 jamba-1.5大(94B活动参数,总计398b)和jamba-1.5-mini(12B活动参数,总计52B)
层组成 9个街区,每个街区有8层; 1:7变压器与曼巴层的比率
专家的混合物(MOE) 16位专家,选择每个令牌的前2个
隐藏的尺寸 8192
注意力头 64个查询头,8个钥匙值头
上下文长度 多达256K令牌
量化技术 MOE和MLP层的ExpertsInt8
激活功能 集成的变压器和MAMBA激活
效率 在8x80GB GPU上针对高吞吐量和低潜伏期进行了优化

访问和利用Jamba 1.5:

Jamba 1.5很容易通过AI21的工作室API和拥抱的脸访问。该模型可以针对特定域进行微调,以进一步提高性能。下面提供了使用AI21 API的Python示例:

Python示例:

从AI21导入AI21Client
来自AI21.models.Chat Import Chatmessage

消息= [ChatMessage(content =“ 2-3行中的令牌是什么?
客户端= ai21client(api_key ='')#替换'用API键
响应= client.chat.completions.create(
    消息=消息,
    型号=“ jamba-1.5-mini”,
    流= true
)
零件回应:
    打印(块。 

Jamba 1.5:具有混合Mamba-Transformer架构Jamba 1.5:具有混合Mamba-Transformer架构Jamba 1.5:具有混合Mamba-Transformer架构

结论:

Jamba 1.5代表了大型语言模型的重大进步,提供了强大的功率和效率融合。它处理异常长上下文的能力,再加上其多功能应用程序和可访问的部署选项,使其成为多种NLP任务的宝贵工具。

常见问题(常见问题解答):(类似于原始问题,但出于简洁而改写)

  • Q1:什么是Jamba 1.5?答:具有94B(大)或12B(mini)参数的混合变压器 - 曼巴(Mamba)大型语言模型,优化了用于遵循和长篇文章处理的说明。
  • Q2:Jamba 1.5如何有效地处理长上下文?答:通过其混合体系结构和ExpertsInt8量化,启用了256K令牌上下文窗口,并减少了内存使用情况。
  • Q3:什么是expertsint8量化?答:使用MOE和MLP层中INT8精度的压缩技术,以提高效率。
  • 问题4:Jamba 1.5公开可用吗?答:是的,在Jamba Open Model许可下,可以通过拥抱脸访问。

以上是Jamba 1.5:具有混合Mamba-Transformer架构的详细内容。更多信息请关注PHP中文网其他相关文章!

声明
本文内容由网友自发贡献,版权归原作者所有,本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容,请联系admin@php.cn
外推指南外推指南Apr 15, 2025 am 11:38 AM

介绍 假设有一个农民每天在几周内观察农作物的进展。他研究了增长率,并开始思考他的植物在几周内可以生长的高度。从Th

软AI的兴起及其对当今企业的意义软AI的兴起及其对当今企业的意义Apr 15, 2025 am 11:36 AM

软AI(被定义为AI系统,旨在使用近似推理,模式识别和灵活的决策执行特定的狭窄任务 - 试图通过拥抱歧义来模仿类似人类的思维。 但是这对业务意味着什么

为AI前沿的不断发展的安全框架为AI前沿的不断发展的安全框架Apr 15, 2025 am 11:34 AM

答案很明确 - 只是云计算需要向云本地安全工具转变,AI需要专门为AI独特需求而设计的新型安全解决方案。 云计算和安全课程的兴起 在

生成AI的3种方法放大了企业家:当心平均值!生成AI的3种方法放大了企业家:当心平均值!Apr 15, 2025 am 11:33 AM

企业家,并使用AI和Generative AI来改善其业务。同时,重要的是要记住生成的AI,就像所有技术一样,都是一个放大器 - 使得伟大和平庸,更糟。严格的2024研究O

Andrew Ng的新简短课程Andrew Ng的新简短课程Apr 15, 2025 am 11:32 AM

解锁嵌入模型的力量:深入研究安德鲁·NG的新课程 想象一个未来,机器可以完全准确地理解和回答您的问题。 这不是科幻小说;多亏了AI的进步,它已成为R

大语言模型(LLM)中的幻觉是不可避免的吗?大语言模型(LLM)中的幻觉是不可避免的吗?Apr 15, 2025 am 11:31 AM

大型语言模型(LLM)和不可避免的幻觉问题 您可能使用了诸如Chatgpt,Claude和Gemini之类的AI模型。 这些都是大型语言模型(LLM)的示例,在大规模文本数据集上训练的功能强大的AI系统

60%的问题 -  AI搜索如何消耗您的流量60%的问题 - AI搜索如何消耗您的流量Apr 15, 2025 am 11:28 AM

最近的研究表明,根据行业和搜索类型,AI概述可能导致有机交通下降15-64%。这种根本性的变化导致营销人员重新考虑其在数字可见性方面的整个策略。 新的

麻省理工学院媒体实验室将人类蓬勃发展成为AI R&D的核心麻省理工学院媒体实验室将人类蓬勃发展成为AI R&D的核心Apr 15, 2025 am 11:26 AM

埃隆大学(Elon University)想象的数字未来中心的最新报告对近300名全球技术专家进行了调查。由此产生的报告“ 2035年成为人类”,得出的结论是,大多数人担心AI系统加深的采用

See all articles

热AI工具

Undresser.AI Undress

Undresser.AI Undress

人工智能驱动的应用程序,用于创建逼真的裸体照片

AI Clothes Remover

AI Clothes Remover

用于从照片中去除衣服的在线人工智能工具。

Undress AI Tool

Undress AI Tool

免费脱衣服图片

Clothoff.io

Clothoff.io

AI脱衣机

AI Hentai Generator

AI Hentai Generator

免费生成ai无尽的。

热门文章

R.E.P.O.能量晶体解释及其做什么(黄色晶体)
4 周前By尊渡假赌尊渡假赌尊渡假赌
R.E.P.O.最佳图形设置
4 周前By尊渡假赌尊渡假赌尊渡假赌
R.E.P.O.如果您听不到任何人,如何修复音频
4 周前By尊渡假赌尊渡假赌尊渡假赌
WWE 2K25:如何解锁Myrise中的所有内容
1 个月前By尊渡假赌尊渡假赌尊渡假赌

热工具

SublimeText3汉化版

SublimeText3汉化版

中文版,非常好用

适用于 Eclipse 的 SAP NetWeaver 服务器适配器

适用于 Eclipse 的 SAP NetWeaver 服务器适配器

将Eclipse与SAP NetWeaver应用服务器集成。

Dreamweaver Mac版

Dreamweaver Mac版

视觉化网页开发工具

安全考试浏览器

安全考试浏览器

Safe Exam Browser是一个安全的浏览器环境,用于安全地进行在线考试。该软件将任何计算机变成一个安全的工作站。它控制对任何实用工具的访问,并防止学生使用未经授权的资源。

MinGW - 适用于 Windows 的极简 GNU

MinGW - 适用于 Windows 的极简 GNU

这个项目正在迁移到osdn.net/projects/mingw的过程中,你可以继续在那里关注我们。MinGW:GNU编译器集合(GCC)的本地Windows移植版本,可自由分发的导入库和用于构建本地Windows应用程序的头文件;包括对MSVC运行时的扩展,以支持C99功能。MinGW的所有软件都可以在64位Windows平台上运行。