首页 >科技周边 >人工智能 >超越因果语言建模

超越因果语言建模

PHPz
PHPz原创
2025-02-25 18:28:09175浏览

> Neurips 2024聚光灯:使用选择性语言建模(SLM)

进行优化语言模型

>最近,我提出了一份来自2024年Neurips的引人入胜的论文,“并非所有的标记都是您在当地阅读组中所需的。” 本文解决了一个令人惊讶的简单但有影响力的问题:在训练语言模型期间,每个令牌是否需要下一步的预测? >标准方法涉及大量的网络绑带数据集和普遍应用因果语言建模(CLM)。 本文提出了假设的挑战,提出某些令牌阻碍了学习过程而不是帮助。 作者表明,将培训集中在“有用”代币上可以显着提高数据效率和下游任务绩效。 这篇文章总结了他们的核心思想和关键的实验发现。

>

问题:噪声和效率低下的学习

> >大型网络中心不可避免地包含噪音。虽然文档级过滤有所帮助,但噪声通常位于各个文档中。 这些嘈杂的令牌浪费了计算资源,并可能使模型混淆。 作者分析了令牌级学习动力学,基于其跨渗透损失轨迹对令牌进行分类:

l→l(低至低):

迅速学习,提供最小的进一步好处。
  • h→l(高到低):最初很困难,但最终学会了;代表宝贵的学习机会。
  • h→h(高到高):始终困难,通常是由于固有的不可预测性(良好的不确定性)。>
  • l→H(低至高):最初学会,但后来成为问题,可能是由于上下文变化或噪声。 他们的分析表明,只有一小部分代币提供有意义的学习信号。
  • >
  • 解决方案:选择性语言建模(SLM)>
  • 建议的解决方案,选择性语言建模(SLM),提供了一种更具针对性的方法:>

参考模型(RM)训练:数据的高质量子集用于微调预训练的基本模型,创建参考模型(RM)。该RM充当令牌“有用性”的基准。

Beyond Causal Language Modeling多余的损失计算:

对于大型语料库中的每个令牌,RM的损失与当前训练模型的损失(“多余损失”)之间的差异。 较高的多余损失表明改善的潜力更大。
  1. > 选择性反向传播:在所有令牌上都执行完整的正向通行证,但是仅对多余损失最高的代币的顶部 k%

    进行反向传播。这动态地将培训集中在最有价值的代币上。
  2. >

实验结果:显着增长

SLM在各种实验中都具有显着优势:

Beyond Causal Language Modeling

与标准CLM相比,SLM在上,
  • 数学域:

    上,SLM在GSM8K和数学基准上的性能提高了10%,与标准CLM相比,达到基线绩效的速度更快为5-10倍。 7B模型仅使用其培训令牌的3%匹配最先进的模型。 1B型号的微调进一步提高了40%以上的性能。

    通用域:
  • 即使使用了强大的预训练的基本模型,SLM在15个基准方面的平均平均提高约为5.8%,尤其是在诸如代码和数学之类的具有挑战性的领域。
  • 自我引用:

    即使是来自RAW语料库的快速训练的RM也提供了2-3%的准确性提升,而使用的代币降低了30-40%。
  • >结论和未来工作

    >
  • >本文提供了有关令牌级学习动态的宝贵见解,并引入了SLM,这是一种优化语言模型预处理的高效技术。 未来的研究方向包括将SLM扩展到较大的模型,探索基于API的参考模型,使用多个参考模型整合增强学习,以及将SLM与安全性和真实性考虑对齐。 这项工作代表了高效有效的语言模型培训方面的重大进步。

    以上是超越因果语言建模的详细内容。更多信息请关注PHP中文网其他相关文章!

    声明:
    本文内容由网友自发贡献,版权归原作者所有,本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容,请联系admin@php.cn