揭秘的全新版本：你从未见过的Transformer数学原理-人工智能-PHP中文网

首页

科技周边

人工智能

揭秘的全新版本：你从未见过的Transformer数学原理

王林

Jan 12, 2024 pm 11:48 PM

理论arxiv

近日，arxiv 上发布了一篇论文，对 Transformer 的数学原理进行全新解读，内容很长，知识很多，十二分建议阅读原文。

2017 年，Vaswani 等人发表的《Attention is all you need》成为神经网络架构发展的一个重要里程碑。这篇论文的核心贡献是自注意机制，这是 Transformers 区别于传统架构的创新之处，在其卓越的实用性能中发挥了重要作用。

事实上，这一创新已成为计算机视觉和自然语言处理等领域人工智能进步的关键催化剂，同时在大语言模型的出现中也起到了关键作用。因此，了解 Transformers，尤其是自注意处理数据的机制，是一个至关重要但在很大程度上尚未充分研究的领域。

揭秘的全新版本：你从未见过的Transformer数学原理

论文地址：https://arxiv.org/pdf/2312.10794.pdf

深度神经网络（DNNs）有一个共同特征：输入数据按照顺序，被逐层处理，形成一个时间离散的动态系统（具体内容可以参考 MIT 出版的《深度学习》，国内也被称为「花书」）。这种观点已被成功地用于将残差网络建模到时间连续的动态系统上，后者被称为神经常微分方程（neural ODEs）。在神经常微分方程中，输入图像揭秘的全新版本：你从未见过的Transformer数学原理

在时间间隔（0，T）上会按照给定的时变速度场揭秘的全新版本：你从未见过的Transformer数学原理

进行演化。因此，DNN 可以看作是从一个揭秘的全新版本：你从未见过的Transformer数学原理

到另一个

的流映射（Flow Map）揭秘的全新版本：你从未见过的Transformer数学原理

。即使在经典 DNN 架构限制下的速度场揭秘的全新版本：你从未见过的Transformer数学原理

中，流映射之间也具有很强的相似性。

研究者们发现，Transformers 实际上是在揭秘的全新版本：你从未见过的Transformer数学原理

上的流映射，即 d 维概率测度空间（the space of probability measures）间的映射。为了实现这种在度量空间间进行转换的流映射，Transformers 需要建立了一个平均场相互作用的粒子系统（mean-field interacting particle system.）。

具体来说，每个粒子（在深度学习语境下可以理解为 token）都遵循向量场的流动，流动取决于所有粒子的经验测度（empirical measure）。反过来，方程决定了粒子经验测量的演变进程，这个过程可能会持续很长时间，需要进行持续关注。

对此，研究者的主要观察结果是，粒子们往往最终会聚集到一起。这种现象在诸如单向推导（即预测序列中的下一个词）的学习任务中会尤为明显。输出度量对下一个 token 的概率分布进行编码，根据聚类结果就可以筛选出少量可能的结果。

本文的研究结果表明，极限分布实际上是一个点质量，不存在多样性或随机性，但这与实际观测结果不符。这一明显的悖论因粒子存在长时间的可变状态得到解决。从图 2 和图 4 中可以看出，Transformers 具有两种不同的时间尺度：在第一阶段，所有 token 迅速形成几个簇，而在第二阶段（较第一阶段速度慢得多），通过簇的成对合并过程，所有 token 最终坍缩为一个点。

揭秘的全新版本：你从未见过的Transformer数学原理

本文的目标有两个方面。一方面，本文旨在提供一个从数学角度研究 Transformers 通用且易于理解的框架。特别是，通过这些相互作用粒子系统的结构，研究者可以将其与数学中的既定主题建立具体联系，包括非线性传输方程、Wasserstein 梯度流、集体行为模型和球面上点的最优化配置等。另一方面，本文描述了几个有前景的研究方向，并特别关注长时间跨度下的聚类现象。研究者提出的主要结果指标都是新的，并且还在整篇论文中提出了他们认为有趣的开放性问题。

本文的主要贡献分为三个部分。

揭秘的全新版本：你从未见过的Transformer数学原理

第 1 部分：建模。本文定义了 Transformer 架构的理想模型，该模型将层数视为连续时间变量。这种抽象方法并不新颖，与 ResNets 等经典架构所采用的方法类似。本文的模型只关注 Transformer 架构的两个关键组成部分：自注意力机制和层归一化。层归一化有效地将粒子限制在单位球揭秘的全新版本：你从未见过的Transformer数学原理

的空间内部，而自注意力机制则是通过经验度量实现粒子之间的非线性耦合。反过来，经验度量根据连续性偏微分方程进行演化。本文还为自注意引入了一个更简单好用的替代模型，一个能量函数的 Wasserstein 梯度流，而能量函数在球面上点的最优配置已经有成熟的研究方法。

第二部分：聚类。在这一部分，研究者提出了在较长时间跨度下，token 聚类的新的数学结果。如定理 4.1 表明，在高维空间中，一组随机初始化在单位球上的 n 个粒子会在揭秘的全新版本：你从未见过的Transformer数学原理

时聚成一个点。研究者对粒子集群收缩率的精确描述对这一结果进行了补充说明。具体来说，研究者绘制了所有粒子间距离的直方图，以及所有粒子快要完成聚类的时间点（见原文第 4 节）。研究者还在不假设维数 d 较大的情况下就得到了聚类结果（见原文第 5 节）。

第 3 部分：未来展望。本文主要以开放式问题的形式提出问题，并通过数字观测加以证实，以此提出了未来研究的潜在路线。研究者首先关注维数 d = 2 的情况（见原文第 6 节），并引出与 Kuramoto 振荡器的联系。然后简要展示了如何通过对模型进行简单而自然的修改，解决球面最优化相关的难题（见原文第 7 节）。接下来的章节探讨了相互作用的粒子系统，这些粒子系统使得对 Transformer 架构中的参数进行调整成为可能，日后可能会进一步产生实际应用。

以上是揭秘的全新版本：你从未见过的Transformer数学原理的详细内容。更多信息请关注PHP中文网其他相关文章！

声明

本文转载于：机器之心。如有侵权，请联系admin@php.cn删除

五个时间序列预测的深度学习模型对比总结May 05, 2023 pm 05:16 PM

MakridakisM-Competitions系列（分别称为M4和M5）分别在2018年和2020年举办（M6也在今年举办了）。对于那些不了解的人来说，m系列得比赛可以被认为是时间序列生态系统的一种现有状态的总结，为当前得预测的理论和实践提供了经验和客观的证据。2018年M4的结果表明，纯粹的“ML”方法在很大程度上胜过传统的统计方法，这在当时是出乎意料的。在两年后的M5[1]中，最的高分是仅具有“ML”方法。并且所有前50名基本上都是基于ML的（大部分是树型模型）。这场比赛看到了LightG

RLHF与AlphaGo核心技术强强联合，UW/Meta让文本生成能力再上新台阶Oct 27, 2023 pm 03:13 PM

在一项最新的研究中，来自UW和Meta的研究者提出了一种新的解码算法，将AlphaGo采用的蒙特卡洛树搜索算法（Monte-CarloTreeSearch,MCTS）应用到经过近端策略优化（ProximalPolicyOptimization,PPO）训练的RLHF语言模型上，大幅提高了模型生成文本的质量。PPO-MCTS算法通过探索与评估若干条候选序列，搜索到更优的解码策略。通过PPO-MCTS生成的文本能更好满足任务要求。论文链接：https://arxiv.org/pdf/2309.150

MIT团队运用机器学习闭环自主分子发现平台，成功发现、合成和描述了303种新分子Jan 04, 2024 pm 05:38 PM

编辑|X传统意义上，发现所需特性的分子过程一直是由手动实验、化学家的直觉以及对机制和第一原理的理解推动的。随着化学家越来越多地使用自动化设备和预测合成算法，自主研究设备越来越接近实现。近日，来自MIT的研究人员开发了由集成机器学习工具驱动的闭环自主分子发现平台，以加速具有所需特性的分子的设计。无需手动实验即可探索化学空间并利用已知的化学结构。在两个案例研究中，该平台尝试了3000多个反应，其中1000多个产生了预测的反应产物，提出、合成并表征了303种未报道的染料样分子。该研究以《Autonom

AI助力脑机接口研究，纽约大学突破性神经语音解码技术，登Nature子刊Apr 17, 2024 am 08:40 AM

作者|陈旭鹏编辑|ScienceAI由于神经系统的缺陷导致的失语会导致严重的生活障碍，它可能会限制人们的职业和社交生活。近年来，深度学习和脑机接口（BCI）技术的飞速发展为开发能够帮助失语者沟通的神经语音假肢提供了可行性。然而，神经信号的语音解码面临挑战。近日，约旦大学VideoLab和FlinkerLab的研究者开发了一个新型的可微分语音合成器，可以利用一个轻型的卷积神经网络将语音编码为一系列可解释的语音参数（例如音高、响度、共振峰频率等），并通过可微分神经网络将这些参数合成为语音。这个合成器

Code Llama代码能力飙升，微调版HumanEval得分超越GPT-4，一天发布Aug 26, 2023 pm 09:01 PM

昨天，Meta开源专攻代码生成的基础模型CodeLlama，可免费用于研究以及商用目的。CodeLlama系列模型有三个参数版本，参数量分别为7B、13B和34B。并且支持多种编程语言，包括Python、C++、Java、PHP、Typescript(Javascript)、C#和Bash。Meta提供的CodeLlama版本包括：代码Llama，基础代码模型；代码羊-Python，Python微调版本；代码Llama-Instruct，自然语言指令微调版就其效果来说，CodeLlama的不同版

准确率 >98%，基于电子密度的 GPT 用于化学研究，登 Nature 子刊Mar 27, 2024 pm 02:16 PM

编辑|紫罗可合成分子的化学空间是非常广阔的。有效地探索这个领域需要依赖计算筛选技术，比如深度学习，以便快速地发现各种有趣的化合物。将分子结构转换为数字表示形式，并开发相应算法生成新的分子结构是进行化学发现的关键。最近，英国格拉斯哥大学的研究团队提出了一种基于电子密度训练的机器学习模型，用于生成主客体binders。这种模型能够以简化分子线性输入规范（SMILES）格式读取数据，准确率高达98%，从而实现对分子在二维空间的全面描述。通过变分自编码器生成主客体系统的电子密度和静电势的三维表示，然后通

手机摄影技术让以假乱真的好莱坞级电影特效视频走红Sep 07, 2023 am 09:41 AM

一个普通人用一台手机就能制作电影特效的时代已经来了。最近，一个名叫Simulon的3D技术公司发布了一系列特效视频，视频中的3D机器人与环境无缝融合，而且光影效果非常自然。呈现这些效果的APP也叫Simulon，它能让使用者通过手机摄像头的实时拍摄，直接渲染出CGI（计算机生成图像）特效，就跟打开美颜相机拍摄一样。在具体操作中，你要先上传一个3D模型（比如图中的机器人）。Simulon会将这个模型放置到你拍摄的现实世界中，并使用准确的照明、阴影和反射效果来渲染它们。整个过程不需要相机解算、HDR

谷歌用大型模型训练机器狗理解模糊指令，激动不已准备去野餐Jan 16, 2024 am 11:24 AM

人类和四足机器人之间简单有效的交互是创造能干的智能助理机器人的途径，其昭示着这样一个未来：技术以超乎我们想象的方式改善我们的生活。对于这样的人类-机器人交互系统，关键是让四足机器人有能力响应自然语言指令。近来大型语言模型（LLM）发展迅速，已经展现出了执行高层规划的潜力。然而，对LLM来说，理解低层指令依然很难，比如关节角度目标或电机扭矩，尤其是对于本身就不稳定、必需高频控制信号的足式机器人。因此，大多数现有工作都会假设已为LLM提供了决定机器人行为的高层API，而这就从根本上限制了系统的表现能

See all articles