国内规模最大的开源大模型来了:
参数650亿、基于2.6-3.2万亿token训练。
排名仅次于“猎鹰”和“羊驼”,性能媲美GPT3.5,现在就能无条件免费商用。
它就是来自深圳元象公司的XVERSE。
根据算力、资源限制和具体任务需求的不同,我们能对它进行任何自由修改或蒸馏。
除了规模大,它还具有16k上下文,支持40多种语言,并还有7B、13B两个版本可选。
具体什么来头?
国内规模最大的可商用大模型来了
研究表明,参数量越高,高质量训练数据越多,大模型性能才能不断提升。
而业界普遍共识是达到500到600亿参数门槛,大模型才能“智能涌现” ,在多任务中展现强大性能。
但训练此量级模型成本高昂,技术要求较高,目前主要为闭源付费提供。
在国外开源生态中,Llama2-70B和Falcon-180B等标杆模型为“有条件”开源,设置了月活跃用户数或收入等商用上限,并因缺乏训练数据在中文能力上有明显短板。
在此,为推动国产大模型开源生态与产业应用发展,元象XVERSE公司宣布开源650亿参数高性能通用大模型XVERSE-65B,无条件免费商用。13B模型则全面升级,提高“小”模型能力上限。
元象XVERSE创始人姚星表示:“面对研发时间紧、算力持续短缺等挑战,团队在三个月内研发出多款高性能7B、13B模型,并最早为社区献上一个‘大有可为’的65B模型。”
XVERSE-65B底座模型在2.6万亿Tokens的高质量数据上从头训练,上下文窗口扩展至16K,支持中、英、俄、法等40多种语言。
显著提升了三方面能力:
一、理解、生成、推理和记忆等基础能力,到模型的多样性、创造性和精度表现,从优异到强大;
二、扩展了工具调用、代码解释、反思修正等能力,为构建智能体(AI Agent)奠定技术基础,提高模型实用性;
三、显著缓解7B、13B中常见且可能很严重的幻觉问题,减少大模型“胡说八道”,提高准确性和专业度。
元象大模型系列均为全自研,涵盖多项关键技术与研发创新:
1、复杂分布式系统设计:
借鉴团队研发腾讯围棋AI“绝艺”、王者荣耀AI“绝悟”等大系统上的丰富经验,自研高效算子、显存优化、并行调度策略、数据-计算-通信重叠、平台与框架协同等关键技术,打造高效稳定的训练系统, 千卡集群峰值算力利用率达58.5%,位居业界前列。
2、全面提升性能:
65B训练中采用 FlashAttention2加速计算, 3D并行基础上采用虚拟流水线(virtual pipeline)技术,降低较长流水线产生过高气泡率,提升计算推理效率;上下文窗口长度从8K逐步提升到16K,使其不仅能出色完成复杂任务,包括长文理解、长文生成和超长对话,还拓展了工具调用、代码解释及反思修正能力,能更好构建智能体(AI Agent)。
3、极致提升训练稳定性:
因计算量庞大,通信拥塞、芯片过热或计算节点故障成为65B训练常态,初期出现过一周最高八次故障的情况。
通过集群基础设施运营、资源调度、训练框架和调度平台协同等持续优化,元象打造出高稳定、低中断、强容错的训练系统,将每周有效训练率提升至98.6%。
此外,在接近1.6万亿Tokens的模型训练中期,损失函数产生了NaN值,可能导致训练中断。
通常情况下,业界一般会在分析后删除与之相关的数据区间。
而团队根据经验判定这是模型自然演化,选择不删除数据,直接跳过相关参数更新,最终 NaN值 问题解决。
后期对参数值、激活值、梯度值等中间状态的进一步分析表明,该问题可能与模型最后一层transformer block激活值的最大值变化有关,并会随最大值的逐渐降低而自行解决。
性能媲美GPT3.5
为确保业界能对元象大模型性能有全面、客观、长期认知,研究人员参考了一系列权威学术测评,制定了涵盖问答、理解、知识、推理、数学、代码等六个维度的11项主流权威测评标准,将持续使用并迭代。
XVERSE-65B在国内尚无同量级模型可对比,在与国外标杆对比测评中,部分指标超越、综合性能媲美GPT3.5;全面超越开源标杆Llama2-70B 和Falcon-180B;与GPT4仍有差距。
全面升级的XVERSE-13B-2,比同尺寸模型增加大量高质量数据,训练数据高达3.2万亿, 极大提升了“小”模型的能力上限。
它文理兼修,保持了文科优势,问答提升18%,理科长足进步, 代码提升149%、数学提升198%,在测评中全面超越了Llama2、Baichuan2等国内外开源标杆。
现在,元象大模型可在Github、Hugging Face、魔搭ModelScope等多平台搜索“XVERSE”下载,简单登记后即可无条件免费商用,能满足中小企业、科研机构和个人开发者绝大部分的应用与迭代需求。
元象同时提供模型训练、推理、部署、精调等全方位技术服务,赋能文娱、金融、医疗等各行各业,帮助在智能客服、创意写作、精准推荐等多场景打造行业领先的用户体验。
2023年10月, 腾讯音乐率先宣布与元象大模型建立战略合作 ,共同推出lyraXVERSE加速大模型、全面升级其音乐助手“AI小琴”,未来还将持续探索AI与3D前沿技术。
以上是国内最大开源模型发布,无条件免费商用!参数650亿,基于2.6万亿token训练的详细内容。更多信息请关注PHP中文网其他相关文章!

尽管它无法提供训练有素的治疗师的人类联系和直觉,但研究表明,许多人很乐意与相对无面和匿名的AI机器人分享他们的担忧和担忧。 这是否总是好我

人工智能(AI)是一种技术数十年的技术,正在彻底改变食品零售业。 从大规模的效率提高和成本降低到精简的各种业务功能的流程,AI的影响是Undeniabl

让我们来谈谈。 对创新AI突破的分析是我正在进行的AI中正在进行的福布斯列覆盖的一部分,包括识别和解释各种有影响力的AI复杂性(请参阅此处的链接)。此外,对于我的comp

保持专业形象需要偶尔的衣柜更新。 在线购物方便时,它缺乏面对面尝试的确定性。 我的解决方案? AI驱动的个性化。 我设想AI助手策划服装Selecti

谷歌翻译新增语言学习功能 据Android Authority报道,应用专家AssembleDebug发现,最新版本的谷歌翻译应用包含一个新的“练习”模式的测试代码,旨在帮助用户通过个性化活动来提高他们的语言技能。此功能目前对用户不可见,但AssembleDebug能够部分激活它并查看其一些新的用户界面元素。 激活后,该功能会在屏幕底部添加一个新的“毕业帽”图标,标有“Beta”徽章,表明“练习”功能最初将以实验形式发布。 相关的弹出提示显示“练习为你量身定制的活动!”,这意味着谷歌将生成定制的

麻省理工学院的研究人员正在开发Nanda,这是为AI代理设计的开创性的Web协议。 Nanda的缩写是网络代理和分散的AI,通过添加Internet功能,使AI Agen能够构建人类的模型上下文协议(MCP)。

Meta的最新冒险:与Chatgpt竞争的AI应用程序 Facebook,Instagram,WhatsApp和Threads的母公司Meta正在启动新的AI功能应用程序。 这个独立的应用程序Meta AI旨在直接与Openai的Chatgpt竞争。 杠杆

导航AI网络攻击的上升潮流 最近,CISO的杰森·克林顿(Jason Clinton)拟人化,强调了与非人类身份相关的新兴风险 - 作为机器对机器的通信增殖,维护这些“身份”


热AI工具

Undresser.AI Undress
人工智能驱动的应用程序,用于创建逼真的裸体照片

AI Clothes Remover
用于从照片中去除衣服的在线人工智能工具。

Undress AI Tool
免费脱衣服图片

Clothoff.io
AI脱衣机

Video Face Swap
使用我们完全免费的人工智能换脸工具轻松在任何视频中换脸!

热门文章

热工具

DVWA
Damn Vulnerable Web App (DVWA) 是一个PHP/MySQL的Web应用程序,非常容易受到攻击。它的主要目标是成为安全专业人员在合法环境中测试自己的技能和工具的辅助工具,帮助Web开发人员更好地理解保护Web应用程序的过程,并帮助教师/学生在课堂环境中教授/学习Web应用程序安全。DVWA的目标是通过简单直接的界面练习一些最常见的Web漏洞,难度各不相同。请注意,该软件中

螳螂BT
Mantis是一个易于部署的基于Web的缺陷跟踪工具,用于帮助产品缺陷跟踪。它需要PHP、MySQL和一个Web服务器。请查看我们的演示和托管服务。

SublimeText3汉化版
中文版,非常好用

SecLists
SecLists是最终安全测试人员的伙伴。它是一个包含各种类型列表的集合,这些列表在安全评估过程中经常使用,都在一个地方。SecLists通过方便地提供安全测试人员可能需要的所有列表,帮助提高安全测试的效率和生产力。列表类型包括用户名、密码、URL、模糊测试有效载荷、敏感数据模式、Web shell等等。测试人员只需将此存储库拉到新的测试机上,他就可以访问到所需的每种类型的列表。

SublimeText3 Mac版
神级代码编辑软件(SublimeText3)