搜索
首页科技周边人工智能全方位、无死角的开源,邢波团队LLM360让大模型实现真正的透明

开源模型正展现着它们蓬勃的生命力,不仅数量激增,性能更是愈发优秀。图灵奖获得者 Yann LeCun 也发出了这样的感叹:「开源人工智能模型正走在超越专有模型的路上。」

专有模型在技术性能和创新能力方面表现出了巨大的潜力,但是由于其非开源的特性,阻碍了LLM的发展。一些开源模型虽然为从业者和研究者提供了多样化的选择,但大多数只公开了最终的模型权重或推理代码,越来越多的技术报告将其范围限制在顶层设计和表面统计之内。这种闭源的策略不仅限制了开源模型的发展,而且在很大程度上阻碍了整个LLM研究领域的进步

这意味着,这些模型需要更全面和深入地共享,包括训练数据、算法细节、实现挑战以及性能评估的细节。

Cerebras、Petuum 和 MBZUAI 等的研究者们共同提出了 LLM360。这是一项全面开源 LLM 的倡议,主张向社区提供与 LLM 训练相关的一切,包含训练代码和数据、模型检查点以及中间结果等。LLM360 的目标是让 LLM 训练过程透明化,使每个人都能复现,从而推动开放和协作式的人工智能研究的发展。

全方位、无死角的开源,邢波团队LLM360让大模型实现真正的透明


  • 论文地址:https://arxiv.org/pdf/2312.06550.pdf
  • 项目网页:https://www.llm360.ai/
  • 博客:https://www.llm360.ai/blog/introducing-llm360-fully-transparent-open-source-llms.html

研究者们制定了 LLM360 的架构,重点关注其设计原则和完全开源的理由。他们详细规定了 LLM360 框架的组成部分,包含数据集、代码和配置、模型检查点、指标等具体细节。LLM360 为当前和未来的开源模型树立了透明度的样本。

研究者在 LLM360 的开源框架下发布了两个从头开始预训练的大型语言模型:AMBER 和 CRYSTALCODER。AMBER 是基于 1.3T token 进行预训练的 7B 英语语言模型。CRYSTALCODER 是基于 1.4T token 预训练的 7B 英语和代码语言模型。在本文中,研究者们总结了这两个模型的开发细节、初步评估结果、观察结果以及从中汲取的经验和教训。值得注意的是,在发布时,AMBER 和 CRYSTALCODER 在训练过程中分别保存了 360 个和 143 个模型检查点。

全方位、无死角的开源,邢波团队LLM360让大模型实现真正的透明

下面,我们一起来看看文章的详细内容吧

LLM360 的框架

LLM360 将为 LLM 预训练过程中需要收集哪些数据和代码提供一个标准,以确保已有的工作能更好地在社区中流通、共享。它主要包含以下几个部分:

全方位、无死角的开源,邢波团队LLM360让大模型实现真正的透明

1. 训练数据集和数据处理代码

预训练数据集对大型语言模型的性能至关重要。因此,了解预训练数据集,用以评估潜在的行为问题和偏见非常重要。此外,公开的预训练数据集有助于提高 LLM 在后续微调和适应各领域时的可扩展性。最近的研究表明,在重复数据上进行训练会不成比例地降低模型最终的性能。因此,公开原始预训练数据,有助于避免在下游微调或继续在特定领域进行预训练时使用到重复的数据。综合以上原因,LLM360 倡导公开大型语言模型的原始数据集。在合适的情况中,还应公开关于数据过滤、处理和训练顺序的详细信息。

需要重新写作的内容是:2. 训练代码、超参数和配置

训练代码、超参数和配置对 LLM 训练的性能和质量有重大影响,但并不总是公开披露。在 LLM360 中,研究者开源预训练框架的所有训练代码、训练参数以及系统配置。

3. 模型检查点重写为:3. 模型检查点

定期保存模型检查点也相当有用。它们不仅对训练过程中的故障恢复至关重要,而且对训练后的研究也很有用,这些检查点可以让后来的研究者从多个起点继续训练模型,无需从头开始训练,有助于复现和深入研究。

4. 性能指标

训练一个 LLM 往往需要花费数周至数月,训练期间的演化趋势可以提供有价值的信息。然而,目前只有亲历者才能获得训练的详细日志和中间指标,这阻碍了对 LLM 的全面研究。这些统计数据往往包含了难以察觉的关键见解。即使是对这些衡量标准进行方差计算这样的简单分析,也能揭示重要的发现。例如,GLM 的研究团队就是通过分析梯度规范行为,提出了一种有效处理损失尖峰和 NaN 损失的梯度收缩算法。

Amber 

AMBER 是 LLM360 「大家庭」的第一位成员,同时发布的还有它的微调版本:AMBERCHAT 和 AMBERSAFE 。

全方位、无死角的开源,邢波团队LLM360让大模型实现真正的透明

需要重写的内容:数据和模型的详细信息

表 2 详细列出了 AMBER 的预训练数据集,其中包含 1.26 T 个标记。其中包括数据的预处理方法、格式、数据混合比例以及 AMBER 模型的架构细节和特定预训练超参数。详细信息请参考 LLM360 代码库的项目主页

全方位、无死角的开源,邢波团队LLM360让大模型实现真正的透明

AMBER采用了与LLaMA 7B4相同的模型结构,表3总结了LLM的详细结构配置

全方位、无死角的开源,邢波团队LLM360让大模型实现真正的透明

在预训练和超参数方面,研究人员尽力遵循了LLaMA的预训练超参数。AMBER使用AdamW优化器进行训练,超参数为:β₁=0.9,β₂=0.95。此外,研究人员还发布了几个AMBER的微调版本:AMBERCHAT和AMBERSAFE。AMBERCHAT是基于WizardLM的指令训练数据集进行微调的。有关更多参数细节,请参阅原文

为了达到不改变原始含义的目的,需要将内容重写为中文。以下是对"实验及结果"的重写: 进行实验和结果分析

研究者们使用了Open LLM排行榜上的四个基准数据集来评估AMBER的性能。根据图4所示,在HellaSwag和ARC数据集中,AMBER的得分在预训练期间逐渐增加,而在TruthfulQA数据集中,得分则随着训练进行而降低。在MMLU数据集中,AMBER的得分在预训练的初始阶段下降,然后开始上升

全方位、无死角的开源,邢波团队LLM360让大模型实现真正的透明

在表 4 中,研究者将 AMBER 的模型性能与 OpenLLaMA、RedPajama-INCITE、Falcon、MPT 等类似时间段内训练出的模型进行了比较。许多模型的设计灵感都来自 LLaMA 。可以发现,AMBER 在 MMLU 的得分较为出色,但在 ARC 上的表现稍逊一筹。与其他类似模型相比,AMBER 的表现相对较强。

全方位、无死角的开源,邢波团队LLM360让大模型实现真正的透明

CRYSTALCODER 

 LLM360 「大家庭」的第二位成员是 CrystalCoder。

全方位、无死角的开源,邢波团队LLM360让大模型实现真正的透明

CrystalCoder 是一个基于 1.4 T token 训练的 7B 语言模型,实现了编码和语言能力之间的平衡。与大多数之前的代码 LLM 不同,CrystalCoder 是通过精心混合文本和代码数据进行训练的,以最大化在这两个领域的实用性。与 Code Llama 2 相比,CrystalCoder 的代码数据在预训练过程中较早引入。此外,研究者在 Python 和 Web 编程语言上训练了 CrystalCoder,以提高其作为编程助手的实用性。

重新构建模型架构

CrystalCoder 采用了与 LLaMA 7B 非常相似的架构,加入了最大更新参数化(muP)。除了这种特定的参数化,研究者还进行了一些修改。另外,研究者还使用 LayerNorm 代替 RMSNorm,因为 CG-1 架构支持高效计算 LayerNorm。

为了达到不改变原始含义的目的,需要将内容重写为中文。以下是对"实验及结果"的重写: 进行实验和结果分析

在Open LLM Leaderboard上,研究者对该模型进行了基准测试,包括四个基准数据集和编码基准数据集。如图6所示

全方位、无死角的开源,邢波团队LLM360让大模型实现真正的透明

参考表5,可以看到CrystalCoder在语言任务和代码任务之间取得了良好的平衡

全方位、无死角的开源,邢波团队LLM360让大模型实现真正的透明

ANALYSIS360

根据之前的研究,通过分析模型的中间检查点,可以进行深入研究。研究人员希望LLM360能够为社区提供有用的参考和研究资源。为此,他们发布了ANALYSIS360项目的初始版本,这是一个对模型行为进行多方面分析的有组织存储库,包括模型特征和下游评估结果

作为对一系列模型检查点进行分析的示例,研究者对LLM中的记忆化进行了初步研究。最近的研究显示,LLM可能会记忆大部分训练数据,并且通过适当的提示可以提取这些数据。这种记忆化不仅存在着泄露私人训练数据方面的问题,而且如果训练数据包含重复或特殊性,还会降低LLM的性能。研究者公开了所有检查点和数据,以便可以对整个训练阶段的记忆化进行全面分析

以下为本文所采用的记忆化得分方法,该得分表示在长度为 k 的提示后续长度为 l 的 token 的准确性。具体记忆化得分设置,请参阅原文。

全方位、无死角的开源,邢波团队LLM360让大模型实现真正的透明

在图7中呈现了10个选定检查点的记忆化分数分布情况

全方位、无死角的开源,邢波团队LLM360让大模型实现真正的透明

研究者根据所选检查点对数据块进行分组,并在图 8 中绘制每个检查点的每个数据块组的记忆化分数。他们发现 AMBER 检查点对最新数据的记忆化程度超过之前的数据。此外对于每个数据块,记忆化分数在额外训练后会略有下降,但之后会持续上升。

全方位、无死角的开源,邢波团队LLM360让大模型实现真正的透明

图 9 展示了序列之间在记忆化得分和可提取 k 值的相关性。可见,检查点之间存在很强的相关性。

全方位、无死角的开源,邢波团队LLM360让大模型实现真正的透明

总结

研究者总结了对AMBER和CRYSTALCODER的观察结果和一些启示。他们表示,预训练是一项计算量巨大的任务,许多学术实验室或小型机构都无力承担。他们希望LLM360能够提供全面的知识,让用户了解LLM预训练过程中发生的情况,而无需亲自动手

请查看原文以获取更多详细信息

以上是全方位、无死角的开源,邢波团队LLM360让大模型实现真正的透明的详细内容。更多信息请关注PHP中文网其他相关文章!

声明
本文转载于:51CTO.COM。如有侵权,请联系admin@php.cn删除
最新的最佳及时工程技术的年度汇编最新的最佳及时工程技术的年度汇编Apr 10, 2025 am 11:22 AM

对于那些可能是我专栏新手的人,我广泛探讨了AI的最新进展,包括体现AI,AI推理,AI中的高科技突破,及时的工程,AI培训,AI,AI RE RE等主题

欧洲的AI大陆行动计划:Gigafactories,Data Labs和Green AI欧洲的AI大陆行动计划:Gigafactories,Data Labs和Green AIApr 10, 2025 am 11:21 AM

欧洲雄心勃勃的AI大陆行动计划旨在将欧盟确立为人工智能的全球领导者。 一个关键要素是建立了AI Gigafactories网络,每个网络都有大约100,000个高级AI芯片 - 2倍的自动化合物的四倍

微软的直接代理商故事是否足以创造更多的粉丝?微软的直接代理商故事是否足以创造更多的粉丝?Apr 10, 2025 am 11:20 AM

微软对AI代理申请的统一方法:企业的明显胜利 微软最近公告的新AI代理能力清晰而统一的演讲给人留下了深刻的印象。 与许多技术公告陷入困境不同

向员工出售AI策略:Shopify首席执行官的宣言向员工出售AI策略:Shopify首席执行官的宣言Apr 10, 2025 am 11:19 AM

Shopify首席执行官TobiLütke最近的备忘录大胆地宣布AI对每位员工的基本期望是公司内部的重大文化转变。 这不是短暂的趋势。这是整合到P中的新操作范式

IBM启动具有完整AI集成的Z17大型机IBM启动具有完整AI集成的Z17大型机Apr 10, 2025 am 11:18 AM

IBM的Z17大型机:集成AI用于增强业务运营 上个月,在IBM的纽约总部,我收到了Z17功能的预览。 以Z16的成功为基础(于2022年推出并证明持续的收入增长

5 Chatgpt提示取决于别人并完全相信自己5 Chatgpt提示取决于别人并完全相信自己Apr 10, 2025 am 11:17 AM

解锁不可动摇的信心,消除了对外部验证的需求! 这五个CHATGPT提示将指导您完全自力更生和自我感知的变革转变。 只需复制,粘贴和自定义包围

AI与您的思想危险相似AI与您的思想危险相似Apr 10, 2025 am 11:16 AM

人工智能安全与研究公司 Anthropic 最近的一项[研究]开始揭示这些复杂过程的真相,展现出一种令人不安地与我们自身认知领域相似的复杂性。自然智能和人工智能可能比我们想象的更相似。 窥探内部:Anthropic 可解释性研究 Anthropic 进行的研究的新发现代表了机制可解释性领域的重大进展,该领域旨在反向工程 AI 的内部计算——不仅仅观察 AI 做了什么,而是理解它在人工神经元层面如何做到这一点。 想象一下,试图通过绘制当有人看到特定物体或思考特定想法时哪些神经元会放电来理解大脑。A

龙翼展示高通的边缘动力龙翼展示高通的边缘动力Apr 10, 2025 am 11:14 AM

高通的龙翼:企业和基础设施的战略飞跃 高通公司通过其新的Dragonwing品牌在全球范围内积极扩展其范围,以全球为目标。 这不仅仅是雷布兰

See all articles

热AI工具

Undresser.AI Undress

Undresser.AI Undress

人工智能驱动的应用程序,用于创建逼真的裸体照片

AI Clothes Remover

AI Clothes Remover

用于从照片中去除衣服的在线人工智能工具。

Undress AI Tool

Undress AI Tool

免费脱衣服图片

Clothoff.io

Clothoff.io

AI脱衣机

AI Hentai Generator

AI Hentai Generator

免费生成ai无尽的。

热门文章

R.E.P.O.能量晶体解释及其做什么(黄色晶体)
3 周前By尊渡假赌尊渡假赌尊渡假赌
R.E.P.O.最佳图形设置
3 周前By尊渡假赌尊渡假赌尊渡假赌
R.E.P.O.如果您听不到任何人,如何修复音频
3 周前By尊渡假赌尊渡假赌尊渡假赌
WWE 2K25:如何解锁Myrise中的所有内容
3 周前By尊渡假赌尊渡假赌尊渡假赌

热工具

PhpStorm Mac 版本

PhpStorm Mac 版本

最新(2018.2.1 )专业的PHP集成开发工具

Dreamweaver Mac版

Dreamweaver Mac版

视觉化网页开发工具

禅工作室 13.0.1

禅工作室 13.0.1

功能强大的PHP集成开发环境

螳螂BT

螳螂BT

Mantis是一个易于部署的基于Web的缺陷跟踪工具,用于帮助产品缺陷跟踪。它需要PHP、MySQL和一个Web服务器。请查看我们的演示和托管服务。

SublimeText3汉化版

SublimeText3汉化版

中文版,非常好用