ゼロから構築された DeepMind の新しい論文では、擬似コードを使用して Transformer を詳細に説明しています-AI-php.cn

ホームページ

テクノロジー周辺機器

ゼロから構築された DeepMind の新しい論文では、擬似コードを使用して Transformer を詳細に説明しています

王林

Apr 09, 2023 pm 08:31 PM

コードdeepmind

Transformer は 2017 年に誕生し、Google の論文「attention is all you need」で紹介されました。このペーパーでは、以前の深層学習タスクで使用されていた CNN と RNN を放棄します。この画期的な研究は、シーケンスモデリングと RNN を同一視するというこれまでの考えを覆し、現在では NLP で広く使用されています。人気のある GPT、BERT などはすべて Transformer 上に構築されています。

トランスその導入以来、研究者は多くのバリエーションを提案してきました。しかし、Transformer についての皆さんの説明は、言語形式や図による説明などでアーキテクチャを紹介しているようです。 Transformer の疑似コードの説明について利用できる情報はほとんどありません。

次の文章で表現されているように: AI の分野で非常に有名な研究者が、有名な複雑性理論家に、非常によく書かれていると思われる論文を送ったことがあります。そして理論家の答えは次のとおりです。論文には定理が見つかりません。論文が何について書いているのかわかりません。

論文は実務家にとっては十分に詳細なものかもしれませんが、理論家が要求する精度は通常より高くなります。何らかの理由で、DL コミュニティはニューラルネットワークモデルの疑似コードを提供することに消極的であるようです。

現在、DL コミュニティには次の問題があるようです。

DL 出版物には科学的な正確さと詳細が欠けています。ディープラーニングは過去 5 ～ 10 年にわたって大きな成功を収めており、毎年数千の論文が発表されています。多くの研究者は、以前のモデルをどのように変更したかを非公式に説明するだけで、100 ページを超える論文には非公式のモデルの説明が数行しか含まれていません。せいぜい、いくつかの高レベルの図があり、疑似コードや方程式はなく、モデルの正確な解釈についての言及もありません。有名な Transformer とそのエンコーダ/デコーダのバリアントの疑似コードを提供する人さえいません。

ソースコードと疑似コード。オープンソースのソースコードは非常に便利ですが、実際のソースコードが数千行あるのに比べ、適切に設計された疑似コードは通常 1 ページ未満であり、それでも本質的には完成しています。それは誰もやりたくない大変な仕事のように思えました。

トレーニングプロセスの説明も同様に重要ですが、論文ではモデルの入力と出力が何であるか、潜在的な副作用が何であるかさえ言及されていないことがあります。論文の実験セクションでは、アルゴリズムに何がどのように入力されるかが説明されていないことがよくあります。「方法」セクションに何らかの説明がある場合、「実験」セクションで説明されている内容と乖離していることがよくあります。これはおそらく、異なる著者が異なるセクションを書いたためと考えられます。

「疑似コードは本当に必要ですか? 疑似コードは何に使うのですか?」と疑問に思う人もいるかもしれません。

DeepMind の研究者は、疑似コードの提供には多くの用途があると考えています。記事を読んだり、1000 行の実際のコードをスクロールしたりするのと比較して、疑似コードはすべての重要なコンテンツを 1 ページに凝縮しています。新しいバリアントの開発が容易になります。この目的を達成するために、彼らは最近、完全かつ数学的に正確な方法で Transformer アーキテクチャを説明する論文「Formal Algorithms for Transformers」を発表しました。

論文の紹介

この記事では、Transformer とは何か、Transformer のトレーニング方法、Transformer の用途、Transformer の主要なアーキテクチャコンポーネント、およびプレビューについて説明します。より有名なモデルの。

ゼロから構築された DeepMind の新しい論文では、擬似コードを使用して Transformer を詳細に説明しています

論文アドレス: https://arxiv.org/pdf/2207.09238.pdf ##ただし、この記事を読むには、読者は基本的な ML 用語と単純なニューラルネットワークアーキテクチャ (MLP など) に精通している必要があります。読者は、記事の内容を理解した後、Transformer をしっかりと理解し、疑似コードを使用して独自の Transformer バリアントを実装できるようになります。

この文書の主要部分は第 3 章から 8 章で、Transformer とその典型的なタスク、トークン化、Transformer のアーキテクチャ構成、Transformer のトレーニングと推論、および実際のアプリケーションを紹介します。

ゼロから構築された DeepMind の新しい論文では、擬似コードを使用して Transformer を詳細に説明しています論文内の基本的に完全な疑似コードの長さは約 50 行ですが、実際の実際のソースコードの長さは数千行です。論文内のアルゴリズムを説明する擬似コードは、コンパクトで完全かつ正確な式を必要とする理論研究者、Transformer を最初から実装する実験研究者に適しており、また、正式な Transformer アルゴリズムを使用して論文や教科書を拡張する場合にも役立ちます。

ゼロから構築された DeepMind の新しい論文では、擬似コードを使用して Transformer を詳細に説明しています

論文内の疑似コードの例

基本的な ML 用語と簡単なニューラルに精通している人向けネットワークアーキテクチャ初心者 (MLP など) 向けに、このペーパーは強固な Transformer の基礎をマスターし、疑似コードテンプレートを使用して独自の Transformer モデルを実装するのに役立ちます。

著者紹介

この論文の筆頭著者は、今年 3 月に DeepMind に正式に入社した研究者、Mary Phuong です。彼女はオーストリア科学技術大学で博士号を取得し、主に機械学習の理論研究に従事しました。

ゼロから構築された DeepMind の新しい論文では、擬似コードを使用して Transformer を詳細に説明しています

この論文のもう一人の著者は、DeepMind の上級研究員である Marcus Hutter です。オーストラリア国立大学 (ANU) コンピューターサイエンス研究所 (RSCS) の名誉教授。

ゼロから構築された DeepMind の新しい論文では、擬似コードを使用して Transformer を詳細に説明しています

Marcus Hutter は、多くの人のために人工知能の数学理論の研究に従事してきました。年。この研究分野は、強化学習、確率理論、アルゴリズム情報理論、最適化、検索、計算理論など、いくつかの数学および計算科学の概念に基づいています。彼の著書『General Artificial Intelligence: Sequential Decision-Making Based on Algorithmic Probability』は 2005 年に出版された、非常に技術的かつ数学的な本です。

2002 年、Marcus Hutter は、Jürgen Schmidhuber および Shane Legg とともに、理想化されたエージェントと報酬強化学習に基づいた人工知能 AIXI の数学理論を提案しました。 2009 年に、Marcus Hutter は特徴強化学習理論を提案しました。

###

以上がゼロから構築された DeepMind の新しい論文では、擬似コードを使用して Transformer を詳細に説明していますの詳細内容です。詳細については、PHP 中国語 Web サイトの他の関連記事を参照してください。

声明

この記事は51CTO.COMで複製されています。侵害がある場合は、admin@php.cn までご連絡ください。

私のコラムに新しいかもしれない人のために、具体化されたAI、AI推論、AIのハイテクブレークスルー、AIの迅速なエンジニアリング、AIのトレーニング、AIのフィールディングなどのトピックなど、全面的なAIの最新の進歩を広く探求します。

ヨーロッパのAI大陸行動計画：GigaFactories、Data Labs、Green AIApr 10, 2025 am 11:21 AM

ヨーロッパの野心的なAI大陸行動計画は、人工知能のグローバルリーダーとしてEUを確立することを目指しています。重要な要素は、AI GigaFactoriesのネットワークの作成であり、それぞれが約100,000の高度なAIチップを収容しています。

Microsoftの簡単なエージェントストーリーは、より多くのファンを作成するのに十分ですか？Apr 10, 2025 am 11:20 AM

AIエージェントアプリケーションに対するMicrosoftの統一アプローチ：企業の明確な勝利新しいAIエージェント機能に関するマイクロソフトの最近の発表は、その明確で統一されたプレゼンテーションに感銘を受けました。 TEで行き詰まった多くのハイテクアナウンスとは異なり

従業員へのAI戦略の販売：Shopify CEOのマニフェストApr 10, 2025 am 11:19 AM

Shopify CEOのTobiLütkeの最近のメモは、AIの能力がすべての従業員にとって基本的な期待であると大胆に宣言し、会社内の重大な文化的変化を示しています。これはつかの間の傾向ではありません。これは、pに統合された新しい運用パラダイムです

IBMは、完全なAI統合でZ17メインフレームを起動しますApr 10, 2025 am 11:18 AM

IBMのZ17メインフレーム：AIを強化した事業運営の統合先月、IBMのニューヨーク本社で、Z17の機能のプレビューを受け取りました。 Z16の成功に基づいて構築（2022年に開始され、持続的な収益の成長の実証

5 chatgptプロンプトは他の人に依存して停止し、自分を完全に信頼するApr 10, 2025 am 11:17 AM

揺るぎない自信のロックを解除し、外部検証の必要性を排除します！これらの5つのCHATGPTプロンプトは、完全な自立と自己認識の変革的な変化に向けて導きます。ブラケットをコピー、貼り付け、カスタマイズするだけです

AIはあなたの心に危険なほど似ていますApr 10, 2025 am 11:16 AM

人工知能のセキュリティおよび研究会社であるAnthropicによる最近の[研究]は、これらの複雑なプロセスについての真実を明らかにし始め、私たち自身の認知領域に不穏に似た複雑さを示しています。自然知能と人工知能は、私たちが思っているよりも似ているかもしれません。内部スヌーピング：人類の解釈可能性研究人類によって行われた研究からの新しい発見は、AIの内部コンピューティングをリバースエンジニアリングすることを目的とする機械的解釈可能性の分野の大きな進歩を表しています。AIが何をするかを観察するだけでなく、人工ニューロンレベルでそれがどのように行うかを理解します。誰かが特定のオブジェクトを見たり、特定のアイデアについて考えたりしたときに、どのニューロンが発射するかを描くことによって脳を理解しようとすることを想像してください。 a

Dragonwingは、QualcommのEdge Momentumを紹介していますApr 10, 2025 am 11:14 AM

Qualcomm's DragonWing：企業とインフラストラクチャへの戦略的な飛躍 Qualcommは、新しいDragonwingブランドで世界的に企業やインフラ市場をターゲットにして、モバイルを超えてリーチを積極的に拡大しています。これは単なるレブランではありません

See all articles

ホットAIツール

Undresser.AI Undress

リアルなヌード写真を作成する AI 搭載アプリ

AI Clothes Remover

写真から衣服を削除するオンライン AI ツール。

Undress AI Tool

脱衣画像を無料で

Clothoff.io

AI衣類リムーバー

AI Hentai Generator

AIヘンタイを無料で生成します。

ホットツール

mPDF

mPDF は、UTF-8 でエンコードされた HTML から PDF ファイルを生成できる PHP ライブラリです。オリジナルの作者である Ian Back は、Web サイトから「オンザフライ」で PDF ファイルを出力し、さまざまな言語を処理するために mPDF を作成しました。 HTML2FPDF などのオリジナルのスクリプトよりも遅く、Unicode フォントを使用すると生成されるファイルが大きくなりますが、CSS スタイルなどをサポートし、多くの機能強化が施されています。 RTL (アラビア語とヘブライ語) や CJK (中国語、日本語、韓国語) を含むほぼすべての言語をサポートします。ネストされたブロックレベル要素 (P、DIV など) をサポートします。