图与代码不一致，Transformer论文被发现错误，网友：早该被指出1000次-人工智能-PHP中文网

首页

科技周边

人工智能

图与代码不一致，Transformer论文被发现错误，网友：早该被指出1000次

WBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWB

May 25, 2023 pm 03:01 PM

ai代码

2017 年，谷歌大脑团队在其论文《Attention Is All You Need》中创造性的提出 Transformer 这一架构，自此这一研究一路开挂，成为当今 NLP 领域最受欢迎的模型之一，被广泛应用于各种语言任务，并取得了许多 SOTA 结果。

不仅如此，在 NLP 领域一路领先的 Transformer，迅速席卷计算机视觉（CV）、语音识别等领域，在图像分类、目标检测、语音识别等任务上取得良好的效果。

图与代码不一致，Transformer论文被发现错误，网友：早该被指出1000次

论文地址：https://arxiv.org/pdf/1706.03762.pdf

从推出至今，Transformer 已经成为众多模型的核心模块，比如大家熟悉的 BERT、T5 等都有 Transformer 的身影。就连近段时间爆火的 ChatGPT 也依赖 Transformer，而后者早已被谷歌申请了专利。

图与代码不一致，Transformer论文被发现错误，网友：早该被指出1000次

图源：https://patentimages.storage.googleapis.com/05/e8/f1/cd8eed389b7687/US10452978.pdf

此外 OpenAI 发布的系列模型 GPT（Generative Pre-trained Transformer），名字中带有 Transformer，可见 Transformer 是 GPT 系列模型的核心。

与此同时，最近 OpenAI 联合创始人 Ilya Stutskever 在谈到 Transformer 时表示，当 Transformer 刚发布之初，实际上是论文放出来的第二天，他们就迫不及待的将以前的研究切换到 Transformer ，后续才有了 GPT。可见 Transformer 的重要性不言而喻。

6 年时间，基于 Transformer 构建的模型不断发展壮大。然而现在，有人发现了 Transformer 原始论文中的一处错误。

Transformer 架构图与代码「不一致」

发现错误的是一位知名机器学习与 AI 研究者、初创公司 Lightning AI 的首席 AI 教育家 Sebastian Raschka。他指出，原始 Transformer 论文中的架构图有误，将层归一化（LN）放置在了残差块之间，而这与代码不一致。

图与代码不一致，Transformer论文被发现错误，网友：早该被指出1000次

Transformer 架构图如下左，图右为 Post-LN Transformer 层（出自论文《On Layer Normalization in the Transformer Architecture》［1］）。

不一致的代码部分如下，其中 82 行写了执行顺序「layer_postprocess_sequence＝"dan"」，表示后处理依次执行 dropout、residual_add 和 layer_norm。如果上图左中的 add&norm 理解为：add 在 norm 上面，即先 norm 再 add，那确实代码和图不一致。

代码地址：

https://github.com/tensorflow/tensor2tensor/commit/f5c9b17e617ea9179b7d84d36b1e8162cb369f25#diff-76e2b94ef16871bdbf46bf04dfe7f1477bafb884748f08197c9cf1b10a4dd78e…

接下来，Sebastian 又表示，论文《On Layer Normalization in the Transformer Architecture》认为 Pre-LN 表现更好，能够解决梯度问题。这是很多或者大多数架构在实践中所采用的，但它可能导致表示崩溃。

当层归一化在注意力和全连接层之前被放置于残差连接之中时，能够实现更好的梯度。

图与代码不一致，Transformer论文被发现错误，网友：早该被指出1000次

因此，虽然关于 Post-LN 或 Pre-LN 的争论仍在继续，但另一篇论文结合了这两点，即《ResiDual: Transformer with Dual Residual Connections》［2］。

对于 Sebastian 的这一发现，有人认为，我们经常会遇到与代码或结果不一致的论文。大多数是无心之过，但有时令人感到奇怪。考虑到 Transformer 论文的流行程度，这个不一致问题早就应该被提及 1000 次。

Sebastian 回答称，公平地讲，「最最原始」的代码确实与架构图一致，但 2017 年提交的代码版本进行了修改，同时没有更新架构图。所以，这实在令人困惑。

图与代码不一致，Transformer论文被发现错误，网友：早该被指出1000次

正如一位网友所说，「读代码最糟糕的是，你会经常发现这样的小变化，而你不知道是有意还是无意。你甚至无法测试它，因为你没有足够的算力来训练模型。」

不知谷歌之后会更新代码还是架构图，我们拭目以待！

以上是图与代码不一致，Transformer论文被发现错误，网友：早该被指出1000次的详细内容。更多信息请关注PHP中文网其他相关文章！

声明

本文转载于：51CTO.COM。如有侵权，请联系admin@php.cn删除

Python 文本终端 GUI 框架，太酷了Apr 12, 2023 pm 12:52 PM

Curses首先出场的是 Curses[1]。CurseCurses 是一个能提供基于文本终端窗口功能的动态库，它可以: 使用整个屏幕创建和管理一个窗口使用 8 种不同的彩色为程序提供鼠标支持使用键盘上的功能键Curses 可以在任何遵循 ANSI/POSIX 标准的 Unix/Linux 系统上运行。Windows 上也可以运行，不过需要额外安装 windows-curses 库：pip install windows-curses 上面图片，就是一哥们用 Curses 写的俄罗斯

五个方便好用的Python自动化脚本Apr 11, 2023 pm 07:31 PM

相比大家都听过自动化生产线、自动化办公等词汇，在没有人工干预的情况下，机器可以自己完成各项任务，这大大提升了工作效率。编程世界里有各种各样的自动化脚本，来完成不同的任务。尤其Python非常适合编写自动化脚本，因为它语法简洁易懂，而且有丰富的第三方工具库。这次我们使用Python来实现几个自动化场景，或许可以用到你的工作中。1、自动化阅读网页新闻这个脚本能够实现从网页中抓取文本，然后自动化语音朗读，当你想听新闻的时候，这是个不错的选择。代码分为两大部分，第一通过爬虫抓取网页文本呢，第二通过阅读工

用Python写了个小工具，再复杂的文件夹，分分钟帮你整理!Apr 11, 2023 pm 08:19 PM

糟透了我承认我不是一个爱整理桌面的人，因为我觉得乱糟糟的桌面，反而容易找到文件。哈哈，可是最近桌面实在是太乱了，自己都看不下去了，几乎占满了整个屏幕。虽然一键整理桌面的软件很多，但是对于其他路径下的文件，我同样需要整理，于是我想到使用Python，完成这个需求。效果展示我一共为将文件分为9个大类，分别是图片、视频、音频、文档、压缩文件、常用格式、程序脚本、可执行程序和字体文件。# 不同文件组成的嵌套字典 file_dict = { '图片': ['jpg','png','gif','webp

用 WebAssembly 在浏览器中运行 PythonApr 11, 2023 pm 09:43 PM

长期以来，Python 社区一直在讨论如何使 Python 成为网页浏览器中流行的编程语言。然而网络浏览器实际上只支持一种编程语言：JavaScript。随着网络技术的发展，我们已经把越来越多的程序应用在网络上，如游戏、数据科学可视化以及音频和视频编辑软件。这意味着我们已经把繁重的计算带到了网络上——这并不是JavaScript的设计初衷。所有这些挑战提出了对新编程语言的需求，这种语言可以提供快速、可移植、紧凑和安全的代码执行。因此，主要的浏览器供应商致力于实现这个想法，并在2017年向世界推出

从头开始构建，DeepMind新论文用伪代码详解TransformerApr 09, 2023 pm 08:31 PM

2017 年 Transformer 横空出世，由谷歌在论文《Attention is all you need》中引入。这篇论文抛弃了以往深度学习任务里面使用到的 CNN 和 RNN。这一开创性的研究颠覆了以往序列建模和 RNN 划等号的思路，如今被广泛用于 NLP。大热的 GPT、BERT 等都是基于 Transformer 构建的。Transformer 自推出以来，研究者已经提出了许多变体。但大家对 Transformer 的描述似乎都是以口头形式、图形解释等方式介绍该架构。关于 Tra

一文读懂层次聚类（Python代码）Apr 11, 2023 pm 09:13 PM

首先要说，聚类属于机器学习的无监督学习，而且也分很多种方法，比如大家熟知的有K-means。层次聚类也是聚类中的一种，也很常用。下面我先简单回顾一下K-means的基本原理，然后慢慢引出层次聚类的定义和分层步骤，这样更有助于大家理解。层次聚类和K-means有什么不同？K-means 工作原理可以简要概述为：决定簇数（k）从数据中随机选取 k 个点作为质心将所有点分配到最近的聚类质心计算新形成的簇的质心重复步骤 3 和 4这是一个迭代过程，直到新形成的簇的质心不变，或者达到最大迭代次数

用 Python 实现导弹自动追踪，超燃！Apr 12, 2023 am 08:04 AM

大家好，我是J哥。这个没有点数学基础是很难算出来的。但是我们有了计算机就不一样了，依靠计算机极快速的运算速度，我们利用微分的思想，加上一点简单的三角学知识，就可以实现它。好，话不多说，我们来看看它的算法原理，看图：由于待会要用pygame演示，它的坐标系是y轴向下，所以这里我们也用y向下的坐标系。算法总的思想就是根据上图，把时间t分割成足够小的片段（比如1/1000，这个时间片越小越精确），每一个片段分别构造如上三角形，计算出导弹下一个时间片走的方向（即∠a）和走的路程（即vt=|AC|），这时

集成GPT-4的Cursor让编写代码和聊天一样简单，用自然语言编写代码的新时代已来Apr 04, 2023 pm 12:15 PM

集成GPT-4的Github Copilot X还在小范围内测中，而集成GPT-4的Cursor已公开发行。Cursor是一个集成GPT-4的IDE，可以用自然语言编写代码，让编写代码和聊天一样简单。 GPT-4和GPT-3.5在处理和编写代码的能力上差别还是很大的。官网的一份测试报告。前两个是GPT-4，一个采用文本输入，一个采用图像输入；第三个是GPT3.5，可以看出GPT-4的代码能力相较于GPT-3.5有较大能力的提升。集成GPT-4的Github Copilot X还在小范围内测中，而

See all articles