搜尋
首頁科技週邊人工智慧從頭開始構建,DeepMind新論文用偽代碼詳解Transformer

2017 年 Transformer 橫空出世,由Google在論文《Attention is all you need》中引入。這篇論文拋棄了以往深度學習任務裡面所使用的 CNN 和 RNN。這項開創性的研究顛覆了以往序列建模和 RNN 劃等號的思路,如今被廣泛用於 NLP。大熱的 GPT、BERT 等都是基於 Transformer 建構的。

Transformer 自推出以來,研究者已經提出了許多變體。但大家對 Transformer 的描述似乎都是以口頭形式、圖形解釋等方式介紹架構。關於 Transformer 的偽代碼描述可參考的資料很少。

正如下面這段話所表達的:一位AI 領域非常出名的研究者,曾向一位著名的複雜性理論家發送了一篇自認為寫得非常好的論文。而理論家的回答是:我在論文中找不到任何定理,我不知道這篇論文是關於什麼的。

對於從業者來說,論文可能足夠詳細,但理論家所需的精確度通常更高。由於某些原因,DL 社群似乎不願意為他們的神經網路模型提供偽代碼。

目前看來,DL 社群有以下問題:

DL 出版缺乏科學的準確性和細節。深度學習在過去 5 到 10 年間取得了巨大的成功,每年發表的論文數以千計。許多研究者只是非正式地描述了他們如何改變先前的模型,大約 100 多頁的論文只包含幾行非正式地模型描述。充其量是一些高階圖表,沒有偽代碼,沒有方程式,沒有提到對模型的精確解釋。甚至沒有人為著名的 Transformer 及其編碼器 / 解碼器變體提供偽代碼。

原始碼與偽代碼。開源原始碼非常有用,但與數千行的真實原始碼相比,精心設計的偽代碼通常不到一頁,基本上仍然是完整的。這似乎是一項沒有人願意做的苦工。

解釋訓練過程同樣重要,但有時論文中甚至沒有提到模型的輸入和輸出以及潛在的副作用是什麼。論文中的實驗部分通常不會解釋輸入演算法的內容以及如何輸入。如果方法部分有一些解釋,通常與實驗部分中描述的內容脫節,可能是由於不同的作者編寫了不同的部分造成的。

有人會問:真的需要偽代碼嗎? 偽代碼有什麼用?

來自DeepMind 的研究者認為提供偽代碼有很多用途,與閱讀文章或滾動1000 行實際代碼相比,偽代碼將所有重要的內容濃縮在一頁紙上,更容易開發新的變體。為此,他們最近發表的一篇論文《 Formal Algorithms for Transformers 》,文章以完整的、數學精確的方式來描述 Transformer 架構。

論文簡介

本文涵蓋了什麼是 Transformer、Transformer 如何訓練、Transformer 被用來做什麼、Transformer 關鍵架構元件以及比較出名的模型預覽。

從頭開始構建,DeepMind新論文用偽代碼詳解Transformer

#論文網址:https://arxiv.org/pdf/2207.09238.pdf

不過,閱讀本文,讀者需熟悉基礎ML 術語和簡單的神經網路體系架構(如MLPs)。對於讀者而言,在理解了文中的內容後,將會紮實的掌握 Transformer,並可能使用偽代碼實現自己的 Transformer 變體。

這篇論文的主體部分是第 3-8 章,分別介紹了 Transformer 及其典型任務、tokenization、Transformer 的架構組成、Transformer 的訓練和推理、實際應用。

從頭開始構建,DeepMind新論文用偽代碼詳解Transformer

論文中基本完整的偽代碼大約有 50 行,而實際的真實原始碼則有數千行。論文中表述演算法的偽代碼適用於需要緊湊、完整和精確公式的理論研究者、從頭實現 Transformer 的實驗研究人員,同時對使用形式 Transformer 演算法擴充論文或教科書也大有裨益。

從頭開始構建,DeepMind新論文用偽代碼詳解Transformer

論文中偽代碼範例

#對於熟悉基本的ML 術語和簡單的神經網路架構(例如MLP)的初學者來說,這篇論文將幫助你掌握紮實的Transformer 基礎,並用偽代碼模板實現自己的Transformer 模型。

作者介紹

這篇論文的第一作者是今年 3 月正式入職 DeepMind 的研究員 Mary Phuong。她博士畢業於奧地利科學技術研究所,主要從事機器學習的理論研究。

從頭開始構建,DeepMind新論文用偽代碼詳解Transformer

#論文的另一位作者是DeepMind 的資深研究員Marcus Hutter,也是澳大利亞國立大學(ANU) 電腦科學研究院(RSCS) 的名譽教授。

從頭開始構建,DeepMind新論文用偽代碼詳解Transformer

#Marcus Hutter 多年來一直從事人工智慧數學理論的研究。這個研究領域是基於若干數學和計算科學概念,涉及強化學習、機率論、演算法資訊理論、最佳化、搜尋和計算理論等。他的著作《通用人工智慧:基於演算法機率的順序決策》於 2005 年出版,這是一本技術性和數學性都很強的書。

2002 年,Marcus Hutter 與 Jürgen Schmidhuber 和 Shane Legg 一起提出了基於理想化智能體和獎勵強化學習的人工智慧數學理論 AIXI。 2009 年,Marcus Hutter 又提出了特徵強化學習理論。

以上是從頭開始構建,DeepMind新論文用偽代碼詳解Transformer的詳細內容。更多資訊請關注PHP中文網其他相關文章!

陳述
本文轉載於:51CTO.COM。如有侵權,請聯絡admin@php.cn刪除
Python 文本终端 GUI 框架,太酷了Python 文本终端 GUI 框架,太酷了Apr 12, 2023 pm 12:52 PM

Curses首先出场的是 Curses[1]。CurseCurses 是一个能提供基于文本终端窗口功能的动态库,它可以: 使用整个屏幕 创建和管理一个窗口 使用 8 种不同的彩色 为程序提供鼠标支持 使用键盘上的功能键Curses 可以在任何遵循 ANSI/POSIX 标准的 Unix/Linux 系统上运行。Windows 上也可以运行,不过需要额外安装 windows-curses 库:pip install windows-curses 上面图片,就是一哥们用 Curses 写的 俄罗斯

五个方便好用的Python自动化脚本五个方便好用的Python自动化脚本Apr 11, 2023 pm 07:31 PM

相比大家都听过自动化生产线、自动化办公等词汇,在没有人工干预的情况下,机器可以自己完成各项任务,这大大提升了工作效率。编程世界里有各种各样的自动化脚本,来完成不同的任务。尤其Python非常适合编写自动化脚本,因为它语法简洁易懂,而且有丰富的第三方工具库。这次我们使用Python来实现几个自动化场景,或许可以用到你的工作中。1、自动化阅读网页新闻这个脚本能够实现从网页中抓取文本,然后自动化语音朗读,当你想听新闻的时候,这是个不错的选择。代码分为两大部分,第一通过爬虫抓取网页文本呢,第二通过阅读工

用Python写了个小工具,再复杂的文件夹,分分钟帮你整理!用Python写了个小工具,再复杂的文件夹,分分钟帮你整理!Apr 11, 2023 pm 08:19 PM

糟透了我承认我不是一个爱整理桌面的人,因为我觉得乱糟糟的桌面,反而容易找到文件。哈哈,可是最近桌面实在是太乱了,自己都看不下去了,几乎占满了整个屏幕。虽然一键整理桌面的软件很多,但是对于其他路径下的文件,我同样需要整理,于是我想到使用Python,完成这个需求。效果展示我一共为将文件分为9个大类,分别是图片、视频、音频、文档、压缩文件、常用格式、程序脚本、可执行程序和字体文件。# 不同文件组成的嵌套字典 file_dict = { '图片': ['jpg','png','gif','webp

用 WebAssembly 在浏览器中运行 Python用 WebAssembly 在浏览器中运行 PythonApr 11, 2023 pm 09:43 PM

长期以来,Python 社区一直在讨论如何使 Python 成为网页浏览器中流行的编程语言。然而网络浏览器实际上只支持一种编程语言:JavaScript。随着网络技术的发展,我们已经把越来越多的程序应用在网络上,如游戏、数据科学可视化以及音频和视频编辑软件。这意味着我们已经把繁重的计算带到了网络上——这并不是JavaScript的设计初衷。所有这些挑战提出了对新编程语言的需求,这种语言可以提供快速、可移植、紧凑和安全的代码执行。因此,主要的浏览器供应商致力于实现这个想法,并在2017年向世界推出

一文读懂层次聚类(Python代码)一文读懂层次聚类(Python代码)Apr 11, 2023 pm 09:13 PM

首先要说,聚类属于机器学习的无监督学习,而且也分很多种方法,比如大家熟知的有K-means。层次聚类也是聚类中的一种,也很常用。下面我先简单回顾一下K-means的基本原理,然后慢慢引出层次聚类的定义和分层步骤,这样更有助于大家理解。层次聚类和K-means有什么不同?K-means 工作原理可以简要概述为: 决定簇数(k) 从数据中随机选取 k 个点作为质心 将所有点分配到最近的聚类质心 计算新形成的簇的质心 重复步骤 3 和 4这是一个迭代过程,直到新形成的簇的质心不变,或者达到最大迭代次数

从头开始构建,DeepMind新论文用伪代码详解Transformer从头开始构建,DeepMind新论文用伪代码详解TransformerApr 09, 2023 pm 08:31 PM

2017 年 Transformer 横空出世,由谷歌在论文《Attention is all you need》中引入。这篇论文抛弃了以往深度学习任务里面使用到的 CNN 和 RNN。这一开创性的研究颠覆了以往序列建模和 RNN 划等号的思路,如今被广泛用于 NLP。大热的 GPT、BERT 等都是基于 Transformer 构建的。Transformer 自推出以来,研究者已经提出了许多变体。但大家对 Transformer 的描述似乎都是以口头形式、图形解释等方式介绍该架构。关于 Tra

提高Python代码可读性的五个基本技巧提高Python代码可读性的五个基本技巧Apr 11, 2023 pm 09:07 PM

译者 | 赵青窕审校 | 孙淑娟你是否经常回头看看6个月前写的代码,想知道这段代码底是怎么回事?或者从别人手上接手项目,并且不知道从哪里开始?这样的情况对开发者来说是比较常见的。Python中有许多方法可以帮助我们理解代码的内部工作方式,因此当您从头来看代码或者写代码时,应该会更容易地从停止的地方继续下去。在此我给大家举个例子,我们可能会得到如下图所示的代码。这还不是最糟糕的,但有一些事情需要我们去确认,例如:在load_las_file函数中f和d代表什么?为什么我们要在clay函数中检查结果

Python-master,实用Python脚本合集!Python-master,实用Python脚本合集!Apr 11, 2023 pm 05:04 PM

Python这门语言很适合用来写些实用的小脚本,跑个自动化、爬虫、算法什么的,非常方便。这也是很多人学习Python的乐趣所在,可能只需要花个礼拜入门语法,就能用第三方库去解决实际问题。我在Github上就看到过不少Python代码的项目,几十行代码就能实现一个场景功能,非常实用。比方说仓库Python-master里就有很多不错的实用Python脚本,举几个简单例子:1. 创建二维码import pyqrcode import png from pyqrcode import QRCode

See all articles

熱AI工具

Undresser.AI Undress

Undresser.AI Undress

人工智慧驅動的應用程序,用於創建逼真的裸體照片

AI Clothes Remover

AI Clothes Remover

用於從照片中去除衣服的線上人工智慧工具。

Undress AI Tool

Undress AI Tool

免費脫衣圖片

Clothoff.io

Clothoff.io

AI脫衣器

AI Hentai Generator

AI Hentai Generator

免費產生 AI 無盡。

熱門文章

R.E.P.O.能量晶體解釋及其做什麼(黃色晶體)
2 週前By尊渡假赌尊渡假赌尊渡假赌
倉庫:如何復興隊友
1 個月前By尊渡假赌尊渡假赌尊渡假赌
Hello Kitty Island冒險:如何獲得巨型種子
4 週前By尊渡假赌尊渡假赌尊渡假赌

熱工具

MantisBT

MantisBT

Mantis是一個易於部署的基於Web的缺陷追蹤工具,用於幫助產品缺陷追蹤。它需要PHP、MySQL和一個Web伺服器。請查看我們的演示和託管服務。

VSCode Windows 64位元 下載

VSCode Windows 64位元 下載

微軟推出的免費、功能強大的一款IDE編輯器

Dreamweaver Mac版

Dreamweaver Mac版

視覺化網頁開發工具

SublimeText3 英文版

SublimeText3 英文版

推薦:為Win版本,支援程式碼提示!

記事本++7.3.1

記事本++7.3.1

好用且免費的程式碼編輯器