Meta无限长文本大模型来了：参数仅7B，已开源-人工智能-PHP中文网

首页

科技周边

人工智能

Meta无限长文本大模型来了：参数仅7B，已开源

WBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWB

Apr 18, 2024 pm 03:40 PM

gitmeta工程排列

谷歌之后，Meta 也来卷无限长上下文。

Transformers的二次复杂度和弱长度外推限制了它们扩展到长序列的能力，虽然存在线性注意力力和状态空间模型等次二次解决方案，但从以往经验来看，它们在预训练效率和下游任务准确性方面表现不佳。

近日，谷歌提出的Infini-Transformer引入了有效方法，可以将基于Transformer的大型语言模型（LLM）扩展到无限长输入，而不增加存储和计算需求，吸引了人们的关注。

几乎就在同时，Meta 也提出了一种无限长文本技术。

Meta无限长文本大模型来了：参数仅7B，已开源

论文地址：https://arxiv.org/pdf/2404.08801.pdf
论文标题：MEGALODON: Efficient LLM Pretraining and Inference with Unlimited Context Length
代码：https://github.com/XuezheMax/megalodon

在4月12日提交的一篇论文中，来自Meta、南加州大学、CMU、UCSD等机构引入了MEGALODON，一种用于高效序列建模的神经架构，上下文长度不受限制。

MEGALODON进一步发展了MEGA（带有门控注意力的指数移动平均）的结构，并引入了多种技术组件来提高其能力和稳定性，包括复数指数移动平均（CEMA）、时间步归一化层、归一化注意力机制和具有两个特征的预归一化（pre-norm）残差连接。

Meta无限长文本大模型来了：参数仅7B，已开源

在与 LLAMA2 的直接比较中，MEGALODON 在 70 亿参数和 2 万亿训练 token 的规模上取得了比 Transformer 更好的效率。MEGALODON 的训练损失达到 1.70，处于 LLAMA2-7B (1.75) 和 13B (1.67) 之间。MEGALODON 相对于 Transformers 的改进在不同任务和模式的一系列基准测试中表现强劲。

MEGALODON 本质上是一种改进的 MEGA 架构（Ma et al., 2023），它利用了门控注意力机制和经典指数移动平均（EMA）方法。为了进一步提高 MEGALODON 在大规模长上下文预训练方面的能力和效率，作者提出了多种技术组件。首先，MEGALODON 引入了复数指数移动平均 (CEMA) 组件，将 MEGA 中的多维阻尼 EMA 扩展到复数域。其次，MEGALODON 提出了时间步长归一化层，它将组归一化层推广到自回归序列建模任务，以允许沿顺序维度进行归一化。

为了提高大规模预训练的稳定性，MEGALODON 进一步提出了归一化注意力，以及通过修改广泛采用的预归一化和后归一化方法而具有两跳残差配置的预归一化。通过简单地将输入序列分块为固定块，如 MEGA-chunk 中所做的那样，MEGALODON 在模型训练和推理中实现了线性计算和内存复杂性。

在与 LLAMA2 的直接比较上，控制了数据和计算的同时，MEGALODON-7B 在训练困惑度方面显著优于用于训练 LLAMA2-7B 的最先进的 Transformer 变体。在对长上下文建模的评估上，包括高达 2M 的各种上下文长度中的困惑度以及 Scrolls 中的长上下文 QA 任务证明了 MEGALODON 对无限长度序列进行建模的能力。中小型基准的其他实验结果，包括 LRA、ImageNet、Speech Commands、WikiText-103 和 PG19 证明了 MEGALODON 在体量和多模态上的能力。

方法介绍

首先，文章简单回顾了 MEGA（ Moving Average Equipped Gated Attention ）架构中的关键组件，并讨论了 MEGA 中存在的问题。

MEGA 将 EMA（ exponential moving average ）组件嵌入到注意力矩阵的计算中，以纳入跨时间步长维度的归纳偏差。具体而言，多维阻尼 EMA 首先通过扩展矩阵 Meta无限长文本大模型来了：参数仅7B，已开源将输入序列 X 的每个维度单独扩展为 h 维，然后将阻尼 EMA 应用于 h 维隐藏空间。形式如下：

Meta无限长文本大模型来了：参数仅7B，已开源

为了降低全注意力机制中的二次复杂度，MEGA 简单地将 (14-16) 中的查询、键和值序列拆分为长度为 c 的块。(17) 中的注意力单独应用于每个块，产生线性复杂度 O (kc^2 ) = O (nc)。

从技术上讲，MEGA 中的 EMA 子层有助于捕获每个 token 附近的本地上下文信息，从而缓解了在超出块边界的上下文中丢失信息的问题。尽管 MEGA 取得了令人深刻的印象，但面临如下问题：

i）由于 MEGA 中 EMA 子层的表达能力有限，具有块级注意力的 MEGA 性能仍然落后于全注意力 MEGA。

ii) 对于不同的任务、数据类型，最终的 MEGA 架构可能存在架构差异，例如，不同的归一化层、归一化模式和注意力函数 f (・) 。

iii) 没有经验证据表明 MEGA 可扩展用于大规模预训练。

Meta无限长文本大模型来了：参数仅7B，已开源

CEMA：将多维阻尼 EMA 扩展到复数域

为了解决 MEGA 面临的问题，该研究提出了 MEGALODON。

具体而言，他们创造性地提出了复指数移动平均 CEMA（ complex exponential moving average ），将上式（1）改写为如下形式：

Meta无限长文本大模型来了：参数仅7B，已开源

并将（2）中的 θ_j 参数化为：

Meta无限长文本大模型来了：参数仅7B，已开源

时间步（Timestep）归一化

尽管层归一化与 Transformer 相结合的性能令人印象深刻，但很明显，层归一化不能直接减少沿空间维度（也称为时间步长或序列维度）的内部协变量偏移。

在 MEGALODON 中，该研究通过计算累积均值和方差将组归一化扩展到自回归情况。

Meta无限长文本大模型来了：参数仅7B，已开源

图 2 说明了层归一化和时间步标准化。

Meta无限长文本大模型来了：参数仅7B，已开源

MEGALODON 中的归一化注意力

此外，该研究还提出了专门为 MEGA 定制的归一化注意力机制，以提高其稳定性。形式如下：

Meta无限长文本大模型来了：参数仅7B，已开源

则上式 (17) 中的注意力操作改为：

Meta无限长文本大模型来了：参数仅7B，已开源

具有 Two-hop 残差的预范数（Pre-Norm）

通过调查发现，扩大模型大小会造成预归一化不稳定问题。基于 Transformer 块的预归一化可以表示为（如图 3 (b) 所示）：

Meta无限长文本大模型来了：参数仅7B，已开源

在原始 MEGA 架构中，将 φ (19) 用于门控残差连接 (21) 以缓解此问题。然而，更新门 φ 引入了更多的模型参数，当模型规模扩大到 70 亿时，不稳定问题仍然存在。MEGALODON 引入了一种名为 pre-norm 的新配置，具有 two-hop 残差，它只是简单地重新排列每个块中的残差连接，如图 3（c）所示：

Meta无限长文本大模型来了：参数仅7B，已开源

实验

为了评估 MEGALODON 在长上下文序列建模上的可扩展性和效率，本文将 MEGALODON 扩展到 70 亿规模大小。

LLM 预训练

为了提高数据效率，研究者在训练过程中显示了 MEGALODON-7B、LLAMA2-7B 和 LLAMA2-13B 的负对数似然 (NLL)，如图 1 所示。

在相同数量的训练 token 下，MEGALODON-7B 获得了比 LLAMA2-7B 明显更好（更低）的 NLL，表现出更好的数据效率。

Meta无限长文本大模型来了：参数仅7B，已开源

图 4 说明了分别使用 4K 和 32K 上下文长度的 LLAMA2-7B 和 MEGALODON-7B 在每个设备上的平均 WPS（ word/token per second ）。对于 LLAMA2 模型，该研究使用 Flash-Attention V2 加速全注意力的计算。在 4K 上下文长度下，由于引入了 CEMA 和时间步归一化，MEGALODON-7B 比 LLAMA2-7B 稍慢（约 6%）。当将上下文长度扩展到 32K 时，MEGALODON-7B 明显比 LLAMA2-7B 快（约 32%），这证明了 MEGALODON 对于长上下文预训练的计算效率。

Meta无限长文本大模型来了：参数仅7B，已开源

短上下文评估

表 1 总结了 MEGALODON 和 LLAMA2 在学术基准上的结果，以及其他开源基础模型，包括 MPT、RWKV 、Mamba 、 Mistral 和 Gemma 的比较结果。在相同的 2T token 上进行预训练后，MEGALODON-7B 在所有基准测试中均优于 LLAMA2-7B。在某些任务上，MEGALODON-7B 的性能与 LLAMA2-13B 相当甚至更好。

Meta无限长文本大模型来了：参数仅7B，已开源

长上下文评估

图 5 显示了验证数据集在 4K 到 2M 各种上下文长度下的困惑度 (PPL)。可以观察到 PPL 随着上下文长度单调下降，验证了 MEGALODON 在建模极长序列方面的有效性和鲁棒性。

Meta无限长文本大模型来了：参数仅7B，已开源

指令微调

表 3 总结了 7B 模型在 MT-Bench 上的性能。与 Vicuna 相比，MEGALODON 在 MT-Bench 上表现出优越的性能，并且与 LLAMA2-Chat 相当，而后者利用 RLHF 进行了进一步的对齐微调。

Meta无限长文本大模型来了：参数仅7B，已开源

中等规模基准评估

为了评估 MEGALODON 在图像分类任务上的性能，该研究在 Imagenet-1K 数据集上进行了实验。表 4 报告了验证集上的 Top-1 准确率。MEGALODON 的准确率比 DeiT-B 提高了 1.3%，比 MEGA 提高了 0.8%。

Meta无限长文本大模型来了：参数仅7B，已开源

表 5 说明了 MEGALODON 在 PG-19 上的字级困惑度 (PPL)，以及与之前最先进的模型，包括 Compressive Transformer 、Perceiver AR、Perceiver AR、块循环 Transformer 和 MEGABYTE 等的对比。MEGALODON 性能明显领先。

Meta无限长文本大模型来了：参数仅7B，已开源

更详细内容请参考论文原文。

以上是Meta无限长文本大模型来了：参数仅7B，已开源的详细内容。更多信息请关注PHP中文网其他相关文章！

声明

本文转载于：机器之心。如有侵权，请联系admin@php.cn删除

从摩擦到流：AI如何重塑法律工作May 09, 2025 am 11:29 AM

法律技术革命正在获得动力，促使法律专业人员积极采用AI解决方案。对于那些旨在保持竞争力的人来说，被动抵抗不再是可行的选择。为什么技术采用至关重要？法律专业人员

这就是AI对您的看法，对您的了解May 09, 2025 am 11:24 AM

许多人认为与AI的互动是匿名的，与人类交流形成了鲜明的对比。但是，AI在每次聊天期间都会积极介绍用户。每个单词的每个提示都经过分析和分类。让我们探索AI Revo的这一关键方面

建立蓬勃发展的AI-Ready企业文化的7个步骤May 09, 2025 am 11:23 AM

成功的人工智能战略，离不开强大的企业文化支撑。正如彼得·德鲁克所言，企业运作依赖于人，人工智能的成功也同样如此。对于积极拥抱人工智能的组织而言，构建适应AI的企业文化至关重要，它甚至决定着AI战略的成败。西蒙诺咨询公司（West Monroe）近期发布了构建蓬勃发展的AI友好型企业文化的实用指南，以下是一些关键要点： 1. 明确AI的成功模式：首先，要对AI如何赋能业务有清晰的愿景。理想的AI运作文化，能够实现人与AI系统之间工作流程的自然融合。AI擅长某些任务，而人类则擅长创造力、判

Netflix New Scroll，Meta AI的游戏规则改变者，Neuralink价值85亿美元May 09, 2025 am 11:22 AM

Meta升级AI助手应用，可穿戴式AI时代来临！这款旨在与ChatGPT竞争的应用，提供文本、语音交互、图像生成和网络搜索等标准AI功能，但现在首次增加了地理位置功能。这意味着Meta AI在回答你的问题时，知道你的位置和正在查看的内容。它利用你的兴趣、位置、个人资料和活动信息，提供最新的情境信息，这在以前是无法实现的。该应用还支持实时翻译，这彻底改变了Ray-Ban眼镜上的AI体验，使其实用性大大提升。对外国电影征收关税是对媒体和文化的赤裸裸的权力行使。如果实施，这将加速向AI和虚拟制作的

今天采取这些步骤以保护自己免受AI网络犯罪的侵害May 09, 2025 am 11:19 AM

人工智能正在彻底改变网络犯罪领域，这迫使我们必须学习新的防御技巧。网络罪犯日益利用深度伪造和智能网络攻击等强大的人工智能技术进行欺诈和破坏，其规模前所未有。据报道，87%的全球企业在过去一年中都成为人工智能网络犯罪的目标。那么，我们该如何避免成为这波智能犯罪的受害者呢？让我们探讨如何在个人和组织层面识别风险并采取防护措施。网络罪犯如何利用人工智能随着技术的进步，犯罪分子不断寻找新的方法来攻击个人、企业和政府。人工智能的广泛应用可能是最新的一个方面，但其潜在危害是前所未有的。特别是，人工智