搜索
首页常见问题2024 年构建大规模语言模型之旅

2024 年构建大规模语言模型之旅

Apr 18, 2024 pm 03:04 PM
git语言模型内存占用

2024 年将见证大型语言模型 (LLM) 的技术跃升,研究人员和工程师不断突破自然语言处理的界限。这些拥有海量参数的 LLM 正在彻底改变我们与机器的交互方式,实现更自然的对话、代码生成和复杂推理。然而,构建这些庞然大物并非易事,它涉及数据准备、先进训练技术和可扩展推理的复杂性。这篇综述深入探讨了构建 LLM 所需的技术细节,涵盖了从数据采购到训练创新和对齐策略的最新进展。

2024 年构建大规模语言模型之旅

2024 年有望成为大型语言模型(LLM) 的里程碑时代,因为研究人员和工程师将突破自然语言处理的可能性界限。这些拥有数十亿甚至数万亿参数的大规模神经网络将彻底改变我们与机器交互的方式,实现更自然和开放式的对话、代码生成和多模式推理。

然而,建立如此庞大的法学硕士并不是一件简单的事。它需要精心策划的管道,从数据采购和准备到先进的训练技术和可扩展的推理。在这篇文章中,我们将深入探讨构建这些前沿语言模型所涉及的技术复杂性,探索整个堆栈的最新创新和挑战。

数据准备

1. 数据来源

任何法学硕士的基础都是它所训练的数据,而现代模型会摄取数量惊人的文本(通常超过一万亿个令牌),这些文本来自网络爬虫、代码存储库、书籍等。常见的数据源包括:

通用爬取网络语料库

GitHub 和 Software Heritage 等代码存储库

维基百科和书籍等精选数据集(公共领域与受版权保护的)

综合生成的数据

2. 数据过滤

简单地获取所有可用数据通常不是最佳的,因为它可能会引入噪音和偏差。因此,采用了仔细的数据过滤技术:

质量过滤

基于长度和语言等文档属性的启发式过滤

使用好数据和坏数据的示例进行基于分类器的过滤

语言模型的困惑度阈值

特定领域的过滤

检查对特定领域子集的影响

制定定制规则和阈值

选择策略

确定性硬阈值

概率随机抽样

3. 重复数据删除

大型网络语料库包含显着的重叠,冗余文档可能导致模型有效“记忆”过多的区域。利用 MinHash 等高效的近重复检测算法来减少这种冗余偏差。

4. 代币化

一旦我们拥有了高质量、去重的文本语料库,就需要将其标记化——转换为神经网络在训练期间可以摄取的标记序列。无处不在的字节级 BPE 编码是首选,可以优雅地处理代码、数学符号和其他上下文。需要对整个数据集进行仔细采样,以避免过度拟合分词器本身。

5. 数据质量评估

评估数据质量是一项具有挑战性但至关重要的任务,尤其是在如此大规模的情况下。采用的技术包括:

在子集训练期间监控 Commonsense QA、HellaSwag 和 OpenBook QA 等高信号基准

手动检查域/URL 并检查保留/丢弃的示例

数据聚类和可视化工具

训练辅助标记器来分析标记

训练

1. 模型并行性

现代法学硕士的庞大规模(通常太大,无法适应单个 GPU 甚至单个机器)需要先进的并行化方案,以各种方式将模型拆分到多个设备和机器上:

数据并行性:将批次分散到多个设备上

张量并行性:跨设备分割模型权重和激活

管道并行性:将模型视为一系列阶段并将其跨设备进行管道化

序列并行性:分割各个输入序列以进一步扩展

结合这些 4D 并行策略可以扩展到具有数万亿个参数的模型。

2. 高效注意力

主要的计算瓶颈在于 Transformer 架构核心的自注意力操作。 Flash Attention 和 Factorized Kernels 等方法提供了高度优化的注意力实现,避免不必要地实现完整的注意力矩阵。

3、稳定训练

在如此极端的规模下实现稳定收敛是一项重大挑战。该领域的创新包括:

改进的初始化方案

MuTransfer 等超参数传输方法

优化的学习率计划,例如余弦退火

4. 架构创新

最近模型架构方面的突破极大地提高了法学硕士的能力:

Mixture-of-Experts (MoE):每个示例仅激活模型参数的子集,由路由网络启用

Mamba:基于哈希的专家混合层的有效实现

结盟

虽然能力至关重要,但我们还需要安全、真实、符合人类价值观和指导的法学硕士。这是人工智能对齐这一新兴领域的目标:

来自人类反馈的强化学习(RLHF):使用从人类对模型输出的偏好中得出的奖励信号来微调模型; PPO、DPO 等方法正在积极探索。

宪法人工智能:宪法人工智能在训练过程中将规则和指令编码到模型中,从头开始灌输期望的行为。

推理

一旦我们的 LLM 训练完毕,我们需要对其进行优化以实现高效推理——以最小的延迟向用户提供模型输出:

量化:将大模型权重压缩为低精度格式,例如int8更便宜的计算和内存占用;常用的技术包括 GPTQ、GGML 和 NF4。

推测性解码: 通过使用小模型来启动较大模型来加速推理,如 Medusa 方法

系统优化:即时编译、内核融合和 CUDA 图形优化可进一步提升速度。

结论

在 2024 年构建大规模语言模型需要在整个堆栈中仔细构建和创新——从数据采购和清理到可扩展的训练系统和高效的推理部署。我们只介绍了一些亮点,但该领域正在以惊人的速度发展,新技术和新发现不断涌现。围绕数据质量评估、大规模稳定收敛、与人类价值观的一致性以及强大的现实世界部署的挑战仍然是开放领域。但法学硕士的潜力是巨大的 - 请继续关注,我们将在 2024 年及以后突破语言 AI 的可能性!

以上是2024 年构建大规模语言模型之旅的详细内容。更多信息请关注PHP中文网其他相关文章!

声明
本文内容由网友自发贡献,版权归原作者所有,本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容,请联系admin@php.cn

热AI工具

Undresser.AI Undress

Undresser.AI Undress

人工智能驱动的应用程序,用于创建逼真的裸体照片

AI Clothes Remover

AI Clothes Remover

用于从照片中去除衣服的在线人工智能工具。

Undress AI Tool

Undress AI Tool

免费脱衣服图片

Clothoff.io

Clothoff.io

AI脱衣机

Video Face Swap

Video Face Swap

使用我们完全免费的人工智能换脸工具轻松在任何视频中换脸!

热工具

禅工作室 13.0.1

禅工作室 13.0.1

功能强大的PHP集成开发环境

DVWA

DVWA

Damn Vulnerable Web App (DVWA) 是一个PHP/MySQL的Web应用程序,非常容易受到攻击。它的主要目标是成为安全专业人员在合法环境中测试自己的技能和工具的辅助工具,帮助Web开发人员更好地理解保护Web应用程序的过程,并帮助教师/学生在课堂环境中教授/学习Web应用程序安全。DVWA的目标是通过简单直接的界面练习一些最常见的Web漏洞,难度各不相同。请注意,该软件中

mPDF

mPDF

mPDF是一个PHP库,可以从UTF-8编码的HTML生成PDF文件。原作者Ian Back编写mPDF以从他的网站上“即时”输出PDF文件,并处理不同的语言。与原始脚本如HTML2FPDF相比,它的速度较慢,并且在使用Unicode字体时生成的文件较大,但支持CSS样式等,并进行了大量增强。支持几乎所有语言,包括RTL(阿拉伯语和希伯来语)和CJK(中日韩)。支持嵌套的块级元素(如P、DIV),

SublimeText3 英文版

SublimeText3 英文版

推荐:为Win版本,支持代码提示!

SublimeText3汉化版

SublimeText3汉化版

中文版,非常好用