検索
ホームページテクノロジー周辺機器AIゼロから構築された DeepMind の新しい論文では、擬似コードを使用して Transformer を詳細に説明しています

Transformer は 2017 年に誕生し、Google の論文「attention is all you need」で紹介されました。このペーパーでは、以前の深層学習タスクで使用されていた CNN と RNN を放棄します。この画期的な研究は、シーケンス モデリングと RNN を同一視するというこれまでの考えを覆し、現在では NLP で広く使用されています。人気のある GPT、BERT などはすべて Transformer 上に構築されています。

トランス その導入以来、研究者は多くのバリエーションを提案してきました。しかし、Transformer についての皆さんの説明は、言語形式や図による説明などでアーキテクチャを紹介しているようです。 Transformer の疑似コードの説明について利用できる情報はほとんどありません。

次の文章で表現されているように: AI の分野で非常に有名な研究者が、有名な複雑性理論家に、非常によく書かれていると思われる論文を送ったことがあります。そして理論家の答えは次のとおりです。論文には定理が見つかりません。論文が何について書いているのかわかりません。

論文は実務家にとっては十分に詳細なものかもしれませんが、理論家が要求する精度は通常より高くなります。何らかの理由で、DL コミュニティはニューラル ネットワーク モデルの疑似コードを提供することに消極的であるようです。

現在、DL コミュニティには次の問題があるようです。

DL 出版物には科学的な正確さと詳細が欠けています。ディープラーニングは過去 5 ~ 10 年にわたって大きな成功を収めており、毎年数千の論文が発表されています。多くの研究者は、以前のモデルをどのように変更したかを非公式に説明するだけで、100 ページを超える論文には非公式のモデルの説明が数行しか含まれていません。せいぜい、いくつかの高レベルの図があり、疑似コードや方程式はなく、モデルの正確な解釈についての言及もありません。有名な Transformer とそのエンコーダ/デコーダのバリアントの疑似コードを提供する人さえいません。

ソースコードと疑似コード。オープンソースのソース コードは非常に便利ですが、実際のソース コードが数千行あるのに比べ、適切に設計された疑似コードは通常 1 ページ未満であり、それでも本質的には完成しています。それは誰もやりたくない大変な仕事のように思えました。

トレーニング プロセスの説明も同様に重要ですが、論文ではモデルの入力と出力が何であるか、潜在的な副作用が何であるかさえ言及されていないことがあります。論文の実験セクションでは、アルゴリズムに何がどのように入力されるかが説明されていないことがよくあります。 「方法」セクションに何らかの説明がある場合、「実験」セクションで説明されている内容と乖離していることがよくあります。これはおそらく、異なる著者が異なるセクションを書いたためと考えられます。

「疑似コードは本当に必要ですか? 疑似コードは何に使うのですか?」と疑問に思う人もいるかもしれません。

DeepMind の研究者は、疑似コードの提供には多くの用途があると考えています。記事を読んだり、1000 行の実際のコードをスクロールしたりするのと比較して、疑似コードはすべての重要なコンテンツを 1 ページに凝縮しています。新しいバリアントの開発が容易になります。この目的を達成するために、彼らは最近、完全かつ数学的に正確な方法で Transformer アーキテクチャを説明する論文「Formal Algorithms for Transformers」を発表しました。

論文の紹介

この記事では、Transformer とは何か、Transformer のトレーニング方法、Transformer の用途、Transformer の主要なアーキテクチャ コンポーネント、およびプレビューについて説明します。より有名なモデルの。

ゼロから構築された DeepMind の新しい論文では、擬似コードを使用して Transformer を詳細に説明しています

論文アドレス: https://arxiv.org/pdf/2207.09238.pdf ##ただし、この記事を読むには、読者は基本的な ML 用語と単純なニューラル ネットワーク アーキテクチャ (MLP など) に精通している必要があります。読者は、記事の内容を理解した後、Transformer をしっかりと理解し、疑似コードを使用して独自の Transformer バリアントを実装できるようになります。

この文書の主要部分は第 3 章から 8 章で、Transformer とその典型的なタスク、トークン化、Transformer のアーキテクチャ構成、Transformer のトレーニングと推論、および実際のアプリケーションを紹介します。

ゼロから構築された DeepMind の新しい論文では、擬似コードを使用して Transformer を詳細に説明しています論文内の基本的に完全な疑似コードの長さは約 50 行ですが、実際の実際のソース コードの長さは数千行です。論文内のアルゴリズムを説明する擬似コードは、コンパクトで完全かつ正確な式を必要とする理論研究者、Transformer を最初から実装する実験研究者に適しており、また、正式な Transformer アルゴリズムを使用して論文や教科書を拡張する場合にも役立ちます。

ゼロから構築された DeepMind の新しい論文では、擬似コードを使用して Transformer を詳細に説明しています

論文内の疑似コードの例

基本的な ML 用語と簡単なニューラルに精通している人向けネットワーク アーキテクチャ 初心者 (MLP など) 向けに、このペーパーは強固な Transformer の基礎をマスターし、疑似コード テンプレートを使用して独自の Transformer モデルを実装するのに役立ちます。

著者紹介

この論文の筆頭著者は、今年 3 月に DeepMind に正式に入社した研究者、Mary Phuong です。彼女はオーストリア科学技術大学で博士号を取得し、主に機械学習の理論研究に従事しました。

ゼロから構築された DeepMind の新しい論文では、擬似コードを使用して Transformer を詳細に説明しています

この論文のもう一人の著者は、DeepMind の上級研究員である Marcus Hutter です。オーストラリア国立大学 (ANU) コンピューターサイエンス研究所 (RSCS) の名誉教授。

ゼロから構築された DeepMind の新しい論文では、擬似コードを使用して Transformer を詳細に説明しています

Marcus Hutter は、多くの人のために人工知能の数学理論の研究に従事してきました。年。この研究分野は、強化学習、確率理論、アルゴリズム情報理論、最適化、検索、計算理論など、いくつかの数学および計算科学の概念に基づいています。彼の著書『General Artificial Intelligence: Sequential Decision-Making Based on Algorithmic Probability』は 2005 年に出版された、非常に技術的かつ数学的な本です。

2002 年、Marcus Hutter は、Jürgen Schmidhuber および Shane Legg とともに、理想化されたエージェントと報酬強化学習に基づいた人工知能 AIXI の数学理論を提案しました。 2009 年に、Marcus Hutter は特徴強化学習理論を提案しました。

###

以上がゼロから構築された DeepMind の新しい論文では、擬似コードを使用して Transformer を詳細に説明していますの詳細内容です。詳細については、PHP 中国語 Web サイトの他の関連記事を参照してください。

声明
この記事は51CTO.COMで複製されています。侵害がある場合は、admin@php.cn までご連絡ください。
Python 文本终端 GUI 框架,太酷了Python 文本终端 GUI 框架,太酷了Apr 12, 2023 pm 12:52 PM

Curses首先出场的是 Curses[1]。CurseCurses 是一个能提供基于文本终端窗口功能的动态库,它可以: 使用整个屏幕 创建和管理一个窗口 使用 8 种不同的彩色 为程序提供鼠标支持 使用键盘上的功能键Curses 可以在任何遵循 ANSI/POSIX 标准的 Unix/Linux 系统上运行。Windows 上也可以运行,不过需要额外安装 windows-curses 库:pip install windows-curses 上面图片,就是一哥们用 Curses 写的 俄罗斯

五个方便好用的Python自动化脚本五个方便好用的Python自动化脚本Apr 11, 2023 pm 07:31 PM

相比大家都听过自动化生产线、自动化办公等词汇,在没有人工干预的情况下,机器可以自己完成各项任务,这大大提升了工作效率。编程世界里有各种各样的自动化脚本,来完成不同的任务。尤其Python非常适合编写自动化脚本,因为它语法简洁易懂,而且有丰富的第三方工具库。这次我们使用Python来实现几个自动化场景,或许可以用到你的工作中。1、自动化阅读网页新闻这个脚本能够实现从网页中抓取文本,然后自动化语音朗读,当你想听新闻的时候,这是个不错的选择。代码分为两大部分,第一通过爬虫抓取网页文本呢,第二通过阅读工

用Python写了个小工具,再复杂的文件夹,分分钟帮你整理!用Python写了个小工具,再复杂的文件夹,分分钟帮你整理!Apr 11, 2023 pm 08:19 PM

糟透了我承认我不是一个爱整理桌面的人,因为我觉得乱糟糟的桌面,反而容易找到文件。哈哈,可是最近桌面实在是太乱了,自己都看不下去了,几乎占满了整个屏幕。虽然一键整理桌面的软件很多,但是对于其他路径下的文件,我同样需要整理,于是我想到使用Python,完成这个需求。效果展示我一共为将文件分为9个大类,分别是图片、视频、音频、文档、压缩文件、常用格式、程序脚本、可执行程序和字体文件。# 不同文件组成的嵌套字典 file_dict = { '图片': ['jpg','png','gif','webp

用 WebAssembly 在浏览器中运行 Python用 WebAssembly 在浏览器中运行 PythonApr 11, 2023 pm 09:43 PM

长期以来,Python 社区一直在讨论如何使 Python 成为网页浏览器中流行的编程语言。然而网络浏览器实际上只支持一种编程语言:JavaScript。随着网络技术的发展,我们已经把越来越多的程序应用在网络上,如游戏、数据科学可视化以及音频和视频编辑软件。这意味着我们已经把繁重的计算带到了网络上——这并不是JavaScript的设计初衷。所有这些挑战提出了对新编程语言的需求,这种语言可以提供快速、可移植、紧凑和安全的代码执行。因此,主要的浏览器供应商致力于实现这个想法,并在2017年向世界推出

一文读懂层次聚类(Python代码)一文读懂层次聚类(Python代码)Apr 11, 2023 pm 09:13 PM

首先要说,聚类属于机器学习的无监督学习,而且也分很多种方法,比如大家熟知的有K-means。层次聚类也是聚类中的一种,也很常用。下面我先简单回顾一下K-means的基本原理,然后慢慢引出层次聚类的定义和分层步骤,这样更有助于大家理解。层次聚类和K-means有什么不同?K-means 工作原理可以简要概述为: 决定簇数(k) 从数据中随机选取 k 个点作为质心 将所有点分配到最近的聚类质心 计算新形成的簇的质心 重复步骤 3 和 4这是一个迭代过程,直到新形成的簇的质心不变,或者达到最大迭代次数

从头开始构建,DeepMind新论文用伪代码详解Transformer从头开始构建,DeepMind新论文用伪代码详解TransformerApr 09, 2023 pm 08:31 PM

2017 年 Transformer 横空出世,由谷歌在论文《Attention is all you need》中引入。这篇论文抛弃了以往深度学习任务里面使用到的 CNN 和 RNN。这一开创性的研究颠覆了以往序列建模和 RNN 划等号的思路,如今被广泛用于 NLP。大热的 GPT、BERT 等都是基于 Transformer 构建的。Transformer 自推出以来,研究者已经提出了许多变体。但大家对 Transformer 的描述似乎都是以口头形式、图形解释等方式介绍该架构。关于 Tra

提高Python代码可读性的五个基本技巧提高Python代码可读性的五个基本技巧Apr 11, 2023 pm 09:07 PM

译者 | 赵青窕审校 | 孙淑娟你是否经常回头看看6个月前写的代码,想知道这段代码底是怎么回事?或者从别人手上接手项目,并且不知道从哪里开始?这样的情况对开发者来说是比较常见的。Python中有许多方法可以帮助我们理解代码的内部工作方式,因此当您从头来看代码或者写代码时,应该会更容易地从停止的地方继续下去。在此我给大家举个例子,我们可能会得到如下图所示的代码。这还不是最糟糕的,但有一些事情需要我们去确认,例如:在load_las_file函数中f和d代表什么?为什么我们要在clay函数中检查结果

Python-master,实用Python脚本合集!Python-master,实用Python脚本合集!Apr 11, 2023 pm 05:04 PM

Python这门语言很适合用来写些实用的小脚本,跑个自动化、爬虫、算法什么的,非常方便。这也是很多人学习Python的乐趣所在,可能只需要花个礼拜入门语法,就能用第三方库去解决实际问题。我在Github上就看到过不少Python代码的项目,几十行代码就能实现一个场景功能,非常实用。比方说仓库Python-master里就有很多不错的实用Python脚本,举几个简单例子:1. 创建二维码import pyqrcode import png from pyqrcode import QRCode

See all articles

ホットAIツール

Undresser.AI Undress

Undresser.AI Undress

リアルなヌード写真を作成する AI 搭載アプリ

AI Clothes Remover

AI Clothes Remover

写真から衣服を削除するオンライン AI ツール。

Undress AI Tool

Undress AI Tool

脱衣画像を無料で

Clothoff.io

Clothoff.io

AI衣類リムーバー

AI Hentai Generator

AI Hentai Generator

AIヘンタイを無料で生成します。

ホットツール

Dreamweaver Mac版

Dreamweaver Mac版

ビジュアル Web 開発ツール

SublimeText3 中国語版

SublimeText3 中国語版

中国語版、とても使いやすい

SublimeText3 Mac版

SublimeText3 Mac版

神レベルのコード編集ソフト(SublimeText3)

SublimeText3 英語版

SublimeText3 英語版

推奨: Win バージョン、コードプロンプトをサポート!

DVWA

DVWA

Damn Vulnerable Web App (DVWA) は、非常に脆弱な PHP/MySQL Web アプリケーションです。その主な目的は、セキュリティ専門家が法的環境でスキルとツールをテストするのに役立ち、Web 開発者が Web アプリケーションを保護するプロセスをより深く理解できるようにし、教師/生徒が教室環境で Web アプリケーションを教え/学習できるようにすることです。安全。 DVWA の目標は、シンプルでわかりやすいインターフェイスを通じて、さまざまな難易度で最も一般的な Web 脆弱性のいくつかを実践することです。このソフトウェアは、