国内最大开源模型发布，无条件免费商用！参数650亿，基于2.6万亿token训练-人工智能-PHP中文网

首页

科技周边

人工智能

国内最大开源模型发布，无条件免费商用！参数650亿，基于2.6万亿token训练

PHPz

Nov 06, 2023 pm 02:29 PM

模型开源

国内规模最大的开源大模型来了：

参数650亿、基于2.6-3.2万亿token训练。

排名仅次于“猎鹰”和“羊驼”，性能媲美GPT3.5，现在就能无条件免费商用。

国内最大开源模型发布，无条件免费商用！参数650亿，基于2.6万亿token训练

它就是来自深圳元象公司的XVERSE。

根据算力、资源限制和具体任务需求的不同，我们能对它进行任何自由修改或蒸馏。

除了规模大，它还具有16k上下文，支持40多种语言，并还有7B、13B两个版本可选。

具体什么来头？

国内规模最大的可商用大模型来了

研究表明，参数量越高，高质量训练数据越多，大模型性能才能不断提升。

而业界普遍共识是达到500到600亿参数门槛，大模型才能“智能涌现” ，在多任务中展现强大性能。

但训练此量级模型成本高昂，技术要求较高，目前主要为闭源付费提供。

在国外开源生态中，Llama2-70B和Falcon-180B等标杆模型为“有条件”开源，设置了月活跃用户数或收入等商用上限，并因缺乏训练数据在中文能力上有明显短板。

在此，为推动国产大模型开源生态与产业应用发展，元象XVERSE公司宣布开源650亿参数高性能通用大模型XVERSE-65B，无条件免费商用。13B模型则全面升级，提高“小”模型能力上限。

元象XVERSE创始人姚星表示：“面对研发时间紧、算力持续短缺等挑战，团队在三个月内研发出多款高性能7B、13B模型，并最早为社区献上一个‘大有可为’的65B模型。”

XVERSE-65B底座模型在2.6万亿Tokens的高质量数据上从头训练，上下文窗口扩展至16K，支持中、英、俄、法等40多种语言。

显著提升了三方面能力：

一、理解、生成、推理和记忆等基础能力，到模型的多样性、创造性和精度表现，从优异到强大；

二、扩展了工具调用、代码解释、反思修正等能力，为构建智能体（AI Agent）奠定技术基础，提高模型实用性；

三、显著缓解7B、13B中常见且可能很严重的幻觉问题，减少大模型“胡说八道”，提高准确性和专业度。

元象大模型系列均为全自研，涵盖多项关键技术与研发创新：

1、复杂分布式系统设计：

借鉴团队研发腾讯围棋AI“绝艺”、王者荣耀AI“绝悟”等大系统上的丰富经验，自研高效算子、显存优化、并行调度策略、数据-计算-通信重叠、平台与框架协同等关键技术，打造高效稳定的训练系统，千卡集群峰值算力利用率达58.5%，位居业界前列。

2、全面提升性能：

65B训练中采用 FlashAttention2加速计算， 3D并行基础上采用虚拟流水线（virtual pipeline）技术，降低较长流水线产生过高气泡率，提升计算推理效率；上下文窗口长度从8K逐步提升到16K，使其不仅能出色完成复杂任务，包括长文理解、长文生成和超长对话，还拓展了工具调用、代码解释及反思修正能力，能更好构建智能体（AI Agent）。

3、极致提升训练稳定性：

因计算量庞大，通信拥塞、芯片过热或计算节点故障成为65B训练常态，初期出现过一周最高八次故障的情况。

通过集群基础设施运营、资源调度、训练框架和调度平台协同等持续优化，元象打造出高稳定、低中断、强容错的训练系统，将每周有效训练率提升至98.6%。

此外，在接近1.6万亿Tokens的模型训练中期，损失函数产生了NaN值，可能导致训练中断。

通常情况下，业界一般会在分析后删除与之相关的数据区间。

而团队根据经验判定这是模型自然演化，选择不删除数据，直接跳过相关参数更新，最终 NaN值问题解决。

后期对参数值、激活值、梯度值等中间状态的进一步分析表明，该问题可能与模型最后一层transformer block激活值的最大值变化有关，并会随最大值的逐渐降低而自行解决。

国内最大开源模型发布，无条件免费商用！参数650亿，基于2.6万亿token训练

性能媲美GPT3.5

为确保业界能对元象大模型性能有全面、客观、长期认知，研究人员参考了一系列权威学术测评，制定了涵盖问答、理解、知识、推理、数学、代码等六个维度的11项主流权威测评标准，将持续使用并迭代。

XVERSE-65B在国内尚无同量级模型可对比，在与国外标杆对比测评中，部分指标超越、综合性能媲美GPT3.5；全面超越开源标杆Llama2-70B 和Falcon-180B；与GPT4仍有差距。

国内最大开源模型发布，无条件免费商用！参数650亿，基于2.6万亿token训练

全面升级的XVERSE-13B-2，比同尺寸模型增加大量高质量数据，训练数据高达3.2万亿，极大提升了“小”模型的能力上限。

它文理兼修，保持了文科优势，问答提升18%，理科长足进步，代码提升149%、数学提升198%，在测评中全面超越了Llama2、Baichuan2等国内外开源标杆。

国内最大开源模型发布，无条件免费商用！参数650亿，基于2.6万亿token训练

现在，元象大模型可在Github、Hugging Face、魔搭ModelScope等多平台搜索“XVERSE”下载，简单登记后即可无条件免费商用，能满足中小企业、科研机构和个人开发者绝大部分的应用与迭代需求。

元象同时提供模型训练、推理、部署、精调等全方位技术服务，赋能文娱、金融、医疗等各行各业，帮助在智能客服、创意写作、精准推荐等多场景打造行业领先的用户体验。

2023年10月，腾讯音乐率先宣布与元象大模型建立战略合作，共同推出lyraXVERSE加速大模型、全面升级其音乐助手“AI小琴”，未来还将持续探索AI与3D前沿技术。

以上是国内最大开源模型发布，无条件免费商用！参数650亿，基于2.6万亿token训练的详细内容。更多信息请关注PHP中文网其他相关文章！

声明

本文转载于：51CTO.COM。如有侵权，请联系admin@php.cn删除

人工智能治疗师在这里：您需要了解的14个开创性的心理健康工具Apr 30, 2025 am 11:17 AM

尽管它无法提供训练有素的治疗师的人类联系和直觉，但研究表明，许多人很乐意与相对无面和匿名的AI机器人分享他们的担忧和担忧。这是否总是好我

叫AI到杂货店过道Apr 30, 2025 am 11:16 AM

人工智能（AI）是一种技术数十年的技术，正在彻底改变食品零售业。从大规模的效率提高和成本降低到精简的各种业务功能的流程，AI的影响是Undeniabl

从生成的AI中进行佩普谈话来提升您的精神Apr 30, 2025 am 11:15 AM

让我们来谈谈。对创新AI突破的分析是我正在进行的AI中正在进行的福布斯列覆盖的一部分，包括识别和解释各种有影响力的AI复杂性（请参阅此处的链接）。此外，对于我的comp

为什么AI驱动的超个性化是所有企业必须的Apr 30, 2025 am 11:14 AM

保持专业形象需要偶尔的衣柜更新。在线购物方便时，它缺乏面对面尝试的确定性。我的解决方案？ AI驱动的个性化。我设想AI助手策划服装Selecti

忘记Duolingo：Google Translate的新AI功能教授语言Apr 30, 2025 am 11:13 AM

谷歌翻译新增语言学习功能据Android Authority报道，应用专家AssembleDebug发现，最新版本的谷歌翻译应用包含一个新的“练习”模式的测试代码，旨在帮助用户通过个性化活动来提高他们的语言技能。此功能目前对用户不可见，但AssembleDebug能够部分激活它并查看其一些新的用户界面元素。激活后，该功能会在屏幕底部添加一个新的“毕业帽”图标，标有“Beta”徽章，表明“练习”功能最初将以实验形式发布。相关的弹出提示显示“练习为你量身定制的活动！”，这意味着谷歌将生成定制的