介绍
大型语言模型(LLMS)促进了自然语言处理(NLP)的进步,但它们也提出了一些有关计算效率的重要问题。这些模型已经变得太大了,因此培训和推理成本不再在合理的限制范围内。
为了解决这个问题,Hoffmann等人引入的龙猫缩放定律。 2022年,提供了一个开创性的框架,以优化LLM的培训。 Chinchilla缩放定律提供了一个必要的指南,可以通过在模型大小,培训数据和计算资源之间建立关系来有效地扩展LLM的情况而不损害绩效。我们将在本文中详细讨论它。
概述
- Chinchilla缩放定律通过平衡模型大小和数据量来优化LLM培训,以提高效率。
- 新的扩展见解表明,在接受更多数据培训时,较小的语言模型可以胜过较大的语言模型。
- Chinchilla的方法通过将数据数量优先于模型尺寸来挑战传统的LLM缩放,以提高计算效率。
- Chinchilla缩放法为NLP提供了新的路线图,从而指导了高性能,资源有效的模型的发展。
- Chinchilla缩放定律通过将模型大小和培训数据加倍,从而最大程度地提高语言模型性能,从而最大程度地缩写计算成本。
目录
- 什么是Chinchilla缩放法?
- 焦点转变:从模型大小到数据
- 龙猫缩放定律的概述
- 龙猫缩放定律的主要发现
- 计算最佳训练
- 来自400多个模型的经验证据
- 修订的估计和持续改进
- 龙猫方法的好处
- 提高性能
- 降低计算成本
- 对未来研究和模型开发的影响
- 挑战和考虑因素
- 常见问题
什么是Chinchilla缩放法?
该论文“培训译文最佳的大语言模型”于2022年发表,重点是确定三个关键因素之间的关系:模型大小,代币数量和计算预算。作者发现,现有的大型语言模型(LLMS)如GPT-3(175b参数),Gopher(280b)和Megatron(530b)的训练明显不足。尽管这些模型的大小增加,但训练数据的数量在很大程度上保持恒定,从而导致了次优的性能。作者提出,必须将模型大小和训练令牌的数量平均缩放,以进行最佳训练。为了证明这一点,他们培训了大约400款型号,范围从7,000万到160亿多个参数不等,使用了5到5000亿个令牌。
基于这些发现,作者训练了一种名为Chinchilla的新模型,该模型使用与Gopher(280B)相同的计算预算,但只有70B参数,而培训数据则多四倍。 Chinchilla的表现优于几个著名的LLM,包括Gopher(280b),GPT-3(175b),Jurassic-1(178b)和Megatron(530b)。这一结果与OpenAI在“ LLMS缩放定律”中提出的缩放定律相矛盾,这表明较大的模型总是会更好。 Chinchilla缩放定律表明,经过更多数据培训时,较小的模型可以实现出色的性能。这种方法还使较小的模型更易于微调和减少推理潜伏期。
该图显示,尽管较小,但Chinchilla(70b)遵循不同的计算与参数比率,并且超过了Gopher和GPT-3等较大的模型。
其他方法(1、2和3)探索了基于计算分配优化模型性能的不同方法。
从这个数字中,我们可以看到Chinchilla的优势,即使Chinchilla的尺寸较小(70B参数),它也接受了更大的数据集(1.4万亿代码)的培训,该数据遵循了Chinchilla缩放法律中介绍的原则,如果他们在更大的模型上培训了更大的模型。参数但接受了相对较少的令牌培训,这表明这些模型可能没有完全优化其计算潜力。
焦点转变:从模型大小到数据
从历史上看,提高LLM性能的重点一直在增加模型大小上,如GPT-3和Gopher等模型所示。这是由Kaplan等人的研究驱动的。 (2020),它提出了模型大小和性能之间的幂律关系。但是,随着模型的增长,训练数据的数量并未相应地扩展,从而导致计算潜力不足。 Chinchilla缩放法律通过表明资源的分配更加平衡,尤其是在数据和模型大小方面,可以导致表现更好的模型,这些模型在不达到最低可能的损失的情况下会导致更佳的计算模型。
龙猫缩放定律的概述
模型大小,训练令牌和计算成本之间的权衡是龙猫缩放定律的核心。该法律在这三个参数之间建立了最佳的平衡:
- 模型大小(N) :模型中的参数数量。
- 训练令牌(D) :训练过程中使用的令牌总数。
- 计算成本(c) :分配用于培训的总计算资源,通常以拖台(每秒的浮点操作)进行测量。
Chinchilla缩放定律表明,为了获得最佳性能,模型大小和训练数据的数量都应以相等的速度扩展。具体而言,训练令牌的数量也应为每次加倍模型大小加倍。这种方法对比了早期的方法,该方法强调增加模型大小而没有足够增加训练数据。
这种关系在数学上表示为:
在哪里:
- L是模特的最终损失。
- L_0是不可约的损失,代表了最佳性能。
- 与理想的生成过程相比, A和B是捕获模型表现不佳的常数。
- α和β是描述损失对模型大小和数据大小的尺度的指数。
龙猫缩放定律的主要发现
以下是龙猫鳞片定律的主要发现:
计算最佳训练
龙猫缩放定律突出显示了模型大小和训练数据量之间的最佳平衡。具体而言,研究发现,每个模型参数的20个训练令牌的大约比率非常适合通过给定的计算预算实现最佳性能。例如,具有700亿参数的龙猫模型接受了1.4万亿代币的训练,比Gopher多四倍,但参数却少得多。这种平衡导致模型在几个基准上的表现明显优于较大的模型。
来自400多个模型的经验证据
为了得出龙猫缩放定律,Hoffmann等人。培训了400多个变压器型号,大小从7,000万到160亿个参数不等,在多达5000亿个代币的数据集上。经验证据强烈支持以下假设:经过更多数据(以固定的计算预算)训练的模型比单独增加模型大小要好。
修订的估计和持续改进
随后的研究试图完善Hoffmann等人的初始发现,从而确定参数估计值的可能调整。一些研究提出了原始结果中的较小不一致,并提出了修订的估计值,以更好地适合观察到的数据。这些调整表明需要进一步的研究以了解模型缩放的动态,但是《龙猫缩放定律》的核心见解仍然是宝贵的指南。
龙猫方法的好处
这是龙猫方法的好处:
提高性能
Chinchilla的模型大小和训练数据相等的缩放得出了显着的结果。尽管比许多其他大型模型都小,但在各种基准上,Chinchilla的表现都优于GPT-3,Gopher,甚至大量的超源性NLG模型(5300亿个参数)。例如,在大量的多任务语言理解(MMLU)基准上,奇奇拉的平均准确性为67.5%,比Gopher的60%显着提高。
降低计算成本
Chinchilla方法优化了性能,并降低了训练和推理的计算和能源成本。诸如GPT-3和Gopher之类的培训模型需要巨大的计算资源,使它们在现实世界中的应用非常昂贵。相比之下,Chinchilla的型号较小和更广泛的培训数据导致对微调和推理的计算要求较低,从而使其在下游应用程序中更容易访问。
对未来研究和模型开发的影响
《龙猫缩放法》为LLM开发的未来提供了宝贵的见解。关键含义包括:
- 指导模型设计:了解如何平衡模型大小和培训数据,使研究人员和开发人员在设计新模型时可以做出更明智的决策。通过遵守《龙猫缩放定律》中概述的原则,开发人员可以确保其模型既计算效率高且表现高。
- 指导模型设计:有关优化音量的知识,因此培训数据为模型的研究和设计提供了信息。在此指南量表中,他们的想法的发展将在高效率的广泛定义中运作,而不会过多地消费计算机资源。
- 性能优化:龙猫缩放定律提供了优化LLM的路线图。通过专注于相等的规模,开发人员可以避免训练不足的大型模型的陷阱,并确保对训练和推理任务进行优化模型。
- 丹丘(Chinchilla)以外的探索:随着研究的继续,新的策略正在发展,以扩大龙猫缩放法的思想。例如,一些研究人员正在研究以更少的计算资源来达到相似性能水平的方法,或者进一步增强数据约束环境中的模型性能。这些探索可能会导致更有效的培训管道。
挑战和考虑因素
尽管《龙猫缩放法》标志着了解LLM扩展的重要一步,但它也提出了新的问题和挑战:
- 数据收集:就像龙猫一样,训练1.4万亿代币的模型意味着许多高质量数据集的可用性。但是,这样的数据收集和处理规模为研究人员和开发人员以及伦理问题(例如隐私和偏见)提出了组织问题。
- 偏见和毒性:但是,使用龙猫缩放定律训练的模型的定期偏差和毒性比例降低比所有这些效率低下问题更容易,更有效。随着LLM的权力和覆盖范围的增长,确保公平和减轻有害产出将是未来研究的关键领域。
结论
龙猫的缩放定律代表了我们对优化大型语言模型培训的理解的关键进步。通过在模型大小,培训数据和计算成本之间建立明确的关系,该法律为有效扩展LLM的计算最佳框架提供了最佳的框架。 Chinchilla模型的成功证明了这种方法在绩效和资源效率方面的实际好处。
随着该领域的研究继续,龙猫缩放法的原理可能会影响LLM开发的未来,从而指导模型的设计,这些模型在维持可持续性和可及性的同时,推动了自然语言处理的边界。
另外,如果您正在在线寻找生成AI课程,请探索:Genai Pinnacle程序!
常见问题
Q1。什么是龙猫缩放定律?Ans。 Chinchilla缩放定律是一个经验框架,描述了语言模型的大小(参数数),培训数据的量(令牌)和培训所需的计算资源之间的最佳关系。它旨在最大程度地减少培训计算,同时最大程度地提高模型性能。
Q2。 Chinchilla缩放定律的关键参数是什么? Ans。关键参数包括:
1。N:模型中的参数数。
2。D:培训令牌的数量。
3。C:拖船中的总计算成本。
4。L:模型在测试数据集上实现的平均损失。
5。A和B:与理想生成过程相比,反映表现不佳的常数。
6。α和β:指数分别描述损失量表的模型和数据大小。
Ans。该法律表明,模型大小和训练令牌应以相等的速度扩展以达到最佳性能。具体而言,对于型号尺寸的每次加倍,训练令牌的数量也应加倍,通常旨在每个参数的比例约为20个令牌。
Q4。龙猫缩放定律有哪些批评或局限性?Ans。最近的研究表明,Hoffmann等人的原始估计值可能存在潜在的问题,包括报告的数据和过度置信区间的不一致。一些研究人员认为,扩展法可能过于简单,并且在模型培训中没有考虑各种实际考虑。
Q5。龙猫缩放法如何影响最近的语言模型开发?Ans。 《龙猫缩放法》的发现为包括Google的Gemini Suite在内的几个著名模型的设计和培训过程提供了信息。它还促使人们讨论了“超越龙猫”策略的讨论,研究人员根据原始缩放法探索了大于最佳的培训模型。
以上是什么是龙猫缩放定律?的详细内容。更多信息请关注PHP中文网其他相关文章!
![无法使用chatgpt!解释可以立即测试的原因和解决方案[最新2025]](https://img.php.cn/upload/article/001/242/473/174717025174979.jpg?x-oss-process=image/resize,p_40)
ChatGPT无法访问?本文提供多种实用解决方案!许多用户在日常使用ChatGPT时,可能会遇到无法访问或响应缓慢等问题。本文将根据不同情况,逐步指导您解决这些问题。 ChatGPT无法访问的原因及初步排查 首先,我们需要确定问题是出在OpenAI服务器端,还是用户自身网络或设备问题。 请按照以下步骤进行排查: 步骤1:检查OpenAI官方状态 访问OpenAI Status页面 (status.openai.com),查看ChatGPT服务是否正常运行。如果显示红色或黄色警报,则表示Open

2025年5月10日,麻省理工学院物理学家Max Tegmark告诉《卫报》,AI实验室应在释放人工超级智能之前模仿Oppenheimer的三位一体测试演算。 “我的评估是'康普顿常数',这是一场比赛的可能性

AI音乐创作技术日新月异,本文将以ChatGPT等AI模型为例,详细讲解如何利用AI辅助音乐创作,并辅以实际案例进行说明。我们将分别介绍如何通过SunoAI、Hugging Face上的AI jukebox以及Python的Music21库进行音乐创作。 通过这些技术,每个人都能轻松创作原创音乐。但需注意,AI生成内容的版权问题不容忽视,使用时务必谨慎。 让我们一起探索AI在音乐领域的无限可能! OpenAI最新AI代理“OpenAI Deep Research”介绍: [ChatGPT]Ope

ChatGPT-4的出现,极大地拓展了AI应用的可能性。相较于GPT-3.5,ChatGPT-4有了显着提升,它具备强大的语境理解能力,还能识别和生成图像,堪称万能的AI助手。在提高商业效率、辅助创作等诸多领域,它都展现出巨大的潜力。然而,与此同时,我们也必须注意其使用上的注意事项。 本文将详细解读ChatGPT-4的特性,并介绍针对不同场景的有效使用方法。文中包含充分利用最新AI技术的技巧,敬请参考。 OpenAI发布的最新AI代理,“OpenAI Deep Research”详情请点击下方链

CHATGPT应用程序:与AI助手释放您的创造力!初学者指南 ChatGpt应用程序是一位创新的AI助手,可处理各种任务,包括写作,翻译和答案。它是一种具有无限可能性的工具,可用于创意活动和信息收集。 在本文中,我们将以一种易于理解的方式解释初学者,从如何安装chatgpt智能手机应用程序到语音输入功能和插件等应用程序所独有的功能,以及在使用该应用时要牢记的要点。我们还将仔细研究插件限制和设备对设备配置同步

ChatGPT中文版:解锁中文AI对话新体验 ChatGPT风靡全球,您知道它也提供中文版本吗?这款强大的AI工具不仅支持日常对话,还能处理专业内容,并兼容简体中文和繁体中文。无论是中国地区的使用者,还是正在学习中文的朋友,都能从中受益。 本文将详细介绍ChatGPT中文版的使用方法,包括账户设置、中文提示词输入、过滤器的使用、以及不同套餐的选择,并分析潜在风险及应对策略。此外,我们还将对比ChatGPT中文版和其他中文AI工具,帮助您更好地了解其优势和应用场景。 OpenAI最新发布的AI智能

这些可以将其视为生成AI领域的下一个飞跃,这为我们提供了Chatgpt和其他大型语言模型聊天机器人。他们可以代表我们采取行动,而不是简单地回答问题或产生信息

使用chatgpt有效的多个帐户管理技术|关于如何使用商业和私人生活的详尽解释! Chatgpt在各种情况下都使用,但是有些人可能担心管理多个帐户。本文将详细解释如何为ChatGpt创建多个帐户,使用时该怎么做以及如何安全有效地操作它。我们还介绍了重要的一点,例如业务和私人使用差异,并遵守OpenAI的使用条款,并提供指南,以帮助您安全地利用多个帐户。 Openai


热AI工具

Undresser.AI Undress
人工智能驱动的应用程序,用于创建逼真的裸体照片

AI Clothes Remover
用于从照片中去除衣服的在线人工智能工具。

Undress AI Tool
免费脱衣服图片

Clothoff.io
AI脱衣机

Video Face Swap
使用我们完全免费的人工智能换脸工具轻松在任何视频中换脸!

热门文章

热工具

禅工作室 13.0.1
功能强大的PHP集成开发环境

SublimeText3 Linux新版
SublimeText3 Linux最新版

适用于 Eclipse 的 SAP NetWeaver 服务器适配器
将Eclipse与SAP NetWeaver应用服务器集成。

MinGW - 适用于 Windows 的极简 GNU
这个项目正在迁移到osdn.net/projects/mingw的过程中,你可以继续在那里关注我们。MinGW:GNU编译器集合(GCC)的本地Windows移植版本,可自由分发的导入库和用于构建本地Windows应用程序的头文件;包括对MSVC运行时的扩展,以支持C99功能。MinGW的所有软件都可以在64位Windows平台上运行。

DVWA
Damn Vulnerable Web App (DVWA) 是一个PHP/MySQL的Web应用程序,非常容易受到攻击。它的主要目标是成为安全专业人员在合法环境中测试自己的技能和工具的辅助工具,帮助Web开发人员更好地理解保护Web应用程序的过程,并帮助教师/学生在课堂环境中教授/学习Web应用程序安全。DVWA的目标是通过简单直接的界面练习一些最常见的Web漏洞,难度各不相同。请注意,该软件中