ホームページ >テクノロジー周辺機器 >AI >ゼロから構築された DeepMind の新しい論文では、擬似コードを使用して Transformer を詳細に説明しています
Transformer は 2017 年に誕生し、Google の論文「attention is all you need」で紹介されました。このペーパーでは、以前の深層学習タスクで使用されていた CNN と RNN を放棄します。この画期的な研究は、シーケンス モデリングと RNN を同一視するというこれまでの考えを覆し、現在では NLP で広く使用されています。人気のある GPT、BERT などはすべて Transformer 上に構築されています。
トランス その導入以来、研究者は多くのバリエーションを提案してきました。しかし、Transformer についての皆さんの説明は、言語形式や図による説明などでアーキテクチャを紹介しているようです。 Transformer の疑似コードの説明について利用できる情報はほとんどありません。
次の文章で表現されているように: AI の分野で非常に有名な研究者が、有名な複雑性理論家に、非常によく書かれていると思われる論文を送ったことがあります。そして理論家の答えは次のとおりです。論文には定理が見つかりません。論文が何について書いているのかわかりません。
論文は実務家にとっては十分に詳細なものかもしれませんが、理論家が要求する精度は通常より高くなります。何らかの理由で、DL コミュニティはニューラル ネットワーク モデルの疑似コードを提供することに消極的であるようです。
現在、DL コミュニティには次の問題があるようです。
DL 出版物には科学的な正確さと詳細が欠けています。ディープラーニングは過去 5 ~ 10 年にわたって大きな成功を収めており、毎年数千の論文が発表されています。多くの研究者は、以前のモデルをどのように変更したかを非公式に説明するだけで、100 ページを超える論文には非公式のモデルの説明が数行しか含まれていません。せいぜい、いくつかの高レベルの図があり、疑似コードや方程式はなく、モデルの正確な解釈についての言及もありません。有名な Transformer とそのエンコーダ/デコーダのバリアントの疑似コードを提供する人さえいません。
ソースコードと疑似コード。オープンソースのソース コードは非常に便利ですが、実際のソース コードが数千行あるのに比べ、適切に設計された疑似コードは通常 1 ページ未満であり、それでも本質的には完成しています。それは誰もやりたくない大変な仕事のように思えました。
トレーニング プロセスの説明も同様に重要ですが、論文ではモデルの入力と出力が何であるか、潜在的な副作用が何であるかさえ言及されていないことがあります。論文の実験セクションでは、アルゴリズムに何がどのように入力されるかが説明されていないことがよくあります。 「方法」セクションに何らかの説明がある場合、「実験」セクションで説明されている内容と乖離していることがよくあります。これはおそらく、異なる著者が異なるセクションを書いたためと考えられます。
「疑似コードは本当に必要ですか? 疑似コードは何に使うのですか?」と疑問に思う人もいるかもしれません。
DeepMind の研究者は、疑似コードの提供には多くの用途があると考えています。記事を読んだり、1000 行の実際のコードをスクロールしたりするのと比較して、疑似コードはすべての重要なコンテンツを 1 ページに凝縮しています。新しいバリアントの開発が容易になります。この目的を達成するために、彼らは最近、完全かつ数学的に正確な方法で Transformer アーキテクチャを説明する論文「Formal Algorithms for Transformers」を発表しました。
この記事では、Transformer とは何か、Transformer のトレーニング方法、Transformer の用途、Transformer の主要なアーキテクチャ コンポーネント、およびプレビューについて説明します。より有名なモデルの。
論文アドレス: https://arxiv.org/pdf/2207.09238.pdf ##ただし、この記事を読むには、読者は基本的な ML 用語と単純なニューラル ネットワーク アーキテクチャ (MLP など) に精通している必要があります。読者は、記事の内容を理解した後、Transformer をしっかりと理解し、疑似コードを使用して独自の Transformer バリアントを実装できるようになります。
この文書の主要部分は第 3 章から 8 章で、Transformer とその典型的なタスク、トークン化、Transformer のアーキテクチャ構成、Transformer のトレーニングと推論、および実際のアプリケーションを紹介します。
論文内の基本的に完全な疑似コードの長さは約 50 行ですが、実際の実際のソース コードの長さは数千行です。論文内のアルゴリズムを説明する擬似コードは、コンパクトで完全かつ正確な式を必要とする理論研究者、Transformer を最初から実装する実験研究者に適しており、また、正式な Transformer アルゴリズムを使用して論文や教科書を拡張する場合にも役立ちます。
論文内の疑似コードの例
基本的な ML 用語と簡単なニューラルに精通している人向けネットワーク アーキテクチャ 初心者 (MLP など) 向けに、このペーパーは強固な Transformer の基礎をマスターし、疑似コード テンプレートを使用して独自の Transformer モデルを実装するのに役立ちます。
著者紹介
この論文の筆頭著者は、今年 3 月に DeepMind に正式に入社した研究者、Mary Phuong です。彼女はオーストリア科学技術大学で博士号を取得し、主に機械学習の理論研究に従事しました。
この論文のもう一人の著者は、DeepMind の上級研究員である Marcus Hutter です。オーストラリア国立大学 (ANU) コンピューターサイエンス研究所 (RSCS) の名誉教授。
Marcus Hutter は、多くの人のために人工知能の数学理論の研究に従事してきました。年。この研究分野は、強化学習、確率理論、アルゴリズム情報理論、最適化、検索、計算理論など、いくつかの数学および計算科学の概念に基づいています。彼の著書『General Artificial Intelligence: Sequential Decision-Making Based on Algorithmic Probability』は 2005 年に出版された、非常に技術的かつ数学的な本です。
2002 年、Marcus Hutter は、Jürgen Schmidhuber および Shane Legg とともに、理想化されたエージェントと報酬強化学習に基づいた人工知能 AIXI の数学理論を提案しました。 2009 年に、Marcus Hutter は特徴強化学習理論を提案しました。
###以上がゼロから構築された DeepMind の新しい論文では、擬似コードを使用して Transformer を詳細に説明していますの詳細内容です。詳細については、PHP 中国語 Web サイトの他の関連記事を参照してください。