検索
ホームページテクノロジー周辺機器AI明らかになった新バージョン: これまでに見たことのない Transformer の数学的原理

最近、Transformer の数学的原理の新しい解釈を提供する論文が arxiv に公開されました。内容は非常に長く、知識も豊富です。原文を読むことをお勧めします。 。

2017 年、Vaswani らによって出版された「attention is all you need」は、ニューラル ネットワーク アーキテクチャの開発における重要なマイルストーンとなりました。この論文の中心的な貢献はセルフアテンション メカニズムです。これは、トランスフォーマーを従来のアーキテクチャから区別する革新であり、トランスフォーマーの優れた実用的なパフォーマンスにおいて重要な役割を果たします。

実際、このイノベーションは、コンピューター ビジョンや自然言語処理などの分野における人工知能の進歩の重要な触媒となっており、また、人工知能の出現においても重要な役割を果たしています。大規模な言語モデルの効果。したがって、トランスフォーマー、特に自己注意がデータを処理するメカニズムを理解することは重要ですが、ほとんど研究されていない分野です。

明らかになった新バージョン: これまでに見たことのない Transformer の数学的原理

論文アドレス: https://arxiv.org/pdf/2312.10794.pdf

ディープ ニューラル ネットワーク ( DNN) には、入力データが層ごとに順番に処理され、時間離散動的システムを形成するという共通の特徴があります (具体的な内容については、MIT 発行の「深層学習」を参照してください。中国では「花書」とも呼ばれています)。 )。この観点は、ニューラル常微分方程式 (ニューラル ODE) と呼ばれる時間連続動的システム上に残差ネットワークをモデル化するためにうまく使用されています。神聖な定数微分方程式では、入力画像 明らかになった新バージョン: これまでに見たことのない Transformer の数学的原理 は、時間間隔 (0, T) で与えられた時間変化する速度場 明らかになった新バージョン: これまでに見たことのない Transformer の数学的原理 に従って進化します。したがって、DNN は、ある 明らかになった新バージョン: これまでに見たことのない Transformer の数学的原理 から別の 明らかになった新バージョン: これまでに見たことのない Transformer の数学的原理 への流れマップ (Flow Map) 明らかになった新バージョン: これまでに見たことのない Transformer の数学的原理 とみなすことができます。古典的な DNN アーキテクチャの制約下の速度場であっても、フロー マップ間には強い類似性があります。 明らかになった新バージョン: これまでに見たことのない Transformer の数学的原理

研究者らは、トランスフォーマーが実際には
上のフロー マッピング、つまり d 次元の確率測度空間 (確率測度の空間) 間のマッピングであることを発見しました。メートル空間間で変換するこのフロー マッピングを実装するには、トランスフォーマーは平均場相互作用粒子システムを確立する必要があります。 明らかになった新バージョン: これまでに見たことのない Transformer の数学的原理

具体的には、各粒子 (深層学習のコンテキストではトークンとして理解できます) はベクトル場の流れに従い、その流れは経験的な測定に依存します。すべての粒子の割合 (経験的測定)。次に、方程式は粒子の経験的測定の発展を決定します。このプロセスは長期間続く可能性があり、継続的な注意が必要です。

研究者らの主な観察は、粒子は最終的には凝集する傾向があるということでした。この現象は、一方向導出 (つまり、シーケンス内の次の単語の予測) などの学習タスクで特に顕著です。出力メトリックは次のトークンの確率分布をエンコードし、クラスタリング結果に基づいて少数の考えられる結果をフィルタリングして除外できます。

この記事の研究結果は、極限分布が実際には多様性やランダム性のない点塊であることを示していますが、これは実際の観測結果と矛盾しています。この明らかな矛盾は、粒子が長期間にわたって可変状態で存在するという事実によって解決されます。図 2 と 4 からわかるように、トランスフォーマーには 2 つの異なる時間スケールがあります。第 1 段階では、すべてのトークンがすぐにいくつかのクラスターを形成しますが、第 2 段階では (第 1 段階よりもはるかに遅い)、トークンのペアごとのマージ プロセス中に、クラスターでは、すべてのトークンが最終的に 1 つの点に崩壊します。

明らかになった新バージョン: これまでに見たことのない Transformer の数学的原理

明らかになった新バージョン: これまでに見たことのない Transformer の数学的原理

この記事の目的は 2 つあります。一方で、この記事は、数学的な観点からトランスフォーマーを研究するための一般的でわかりやすい枠組みを提供することを目的としています。特に、これらの相互作用する粒子系の構造により、研究者は、非線形輸送方程式、ワッサーシュタイン勾配流、集団挙動のモデル、球上の点の最適構成など、数学の確立されたトピックと具体的に結び付けることができます。一方、この論文では、長期にわたるクラスタリング現象に特に焦点を当てて、いくつかの有望な研究の方向性について説明しています。研究者らによって提案された主な結果の尺度は新しいものであり、論文全体を通じて興味深いと考えられる未解決の質問も提起されています。

この記事の主な貢献は 3 つの部分に分かれています。

明らかになった新バージョン: これまでに見たことのない Transformer の数学的原理


#パート 1: モデリング。この記事では、層の数を連続時間変数として扱う Transformer アーキテクチャの理想的なモデルを定義します。この抽象化のアプローチは新しいものではなく、ResNets などの古典的なアーキテクチャで採用されているアプローチに似ています。この記事のモデルは、Transformer アーキテクチャの 2 つの主要なコンポーネント、セルフ アテンション メカニズムとレイヤー正規化のみに焦点を当てています。レイヤー正規化は粒子を単位球の空間に効果的に制限し、セルフアテンション メカニズムは経験的測定を通じて粒子間の非線形結合を実現します。次に、経験的尺度は連続偏微分方程式に従って発展します。この記事では、自己注意のためのよりシンプルで使いやすい代替モデル、エネルギー関数のワッサーシュタイン勾配流も紹介します。また、エネルギー関数の球面上の点の最適な構成については、すでに成熟した研究手法が存在します。
明らかになった新バージョン: これまでに見たことのない Transformer の数学的原理
#パート 2: クラスタリング。この部分では、研究者らは、より長い期間にわたるトークンのクラスタリングに関する新しい数学的結果を提案します。定理 4.1 が示すように、高次元空間では、単位球上でランダムに初期化された n 個の粒子のグループが
の点に集まります。研究者らによる粒子クラスターの収縮率の正確な説明は、この結果を補足するものです。具体的には、研究者らは、すべての粒子間の距離と、すべての粒子がクラスタリングを完了しようとしていた時点のヒストグラムをプロットしました (元の記事のセクション 4 を参照)。研究者らは、大きな次元 d を仮定せずにクラスタリングの結果も得ました (元の記事のセクション 5 を参照)。
明らかになった新バージョン: これまでに見たことのない Transformer の数学的原理#パート 3: 将来を見据えて。この記事では、主に自由形式の質問の形式で質問を提示し、数値的な観察を通じてそれらを実証することにより、将来の研究の潜在的な方向性を提案します。研究者らはまず、次元 d = 2 の場合 (元の記事のセクション 6 を参照) に焦点を当て、倉本発振器との関係を引き出します。次に、モデルに単純かつ自然な変更を加えることで、球面最適化に関連する困難な問題をどのように解決できるかを簡単に示します (元の記事のセクション 7 を参照)。次の章では、Transformer アーキテクチャのパラメータを調整できるようにする相互作用するパーティクル システムについて説明します。これは、後で実用的なアプリケーションにつながる可能性があります。

以上が明らかになった新バージョン: これまでに見たことのない Transformer の数学的原理の詳細内容です。詳細については、PHP 中国語 Web サイトの他の関連記事を参照してください。

声明
この記事は机器之心で複製されています。侵害がある場合は、admin@php.cn までご連絡ください。
ほとんどが使用されています10 Power BIチャート - 分析Vidhyaほとんどが使用されています10 Power BIチャート - 分析VidhyaApr 16, 2025 pm 12:05 PM

Microsoft PowerBIチャートでデータ視覚化の力を活用する 今日のデータ駆動型の世界では、複雑な情報を非技術的な視聴者に効果的に伝えることが重要です。 データの視覚化は、このギャップを橋渡しし、生データを変換するi

AIのエキスパートシステムAIのエキスパートシステムApr 16, 2025 pm 12:00 PM

エキスパートシステム:AIの意思決定力に深く飛び込みます 医療診断から財務計画まで、あらゆることに関する専門家のアドバイスにアクセスできることを想像してください。 それが人工知能の専門家システムの力です。 これらのシステムはプロを模倣します

3人の最高の雰囲気コーダーがこのAI革命をコードで分解する3人の最高の雰囲気コーダーがこのAI革命をコードで分解するApr 16, 2025 am 11:58 AM

まず第一に、これがすぐに起こっていることは明らかです。さまざまな企業が、現在AIによって書かれているコードの割合について話しており、これらは迅速なクリップで増加しています。すでに多くの仕事の移動があります

滑走路AIのGen-4:AIモンタージュはどのように不条理を超えることができますか滑走路AIのGen-4:AIモンタージュはどのように不条理を超えることができますかApr 16, 2025 am 11:45 AM

映画業界は、デジタルマーケティングからソーシャルメディアまで、すべてのクリエイティブセクターとともに、技術的な岐路に立っています。人工知能が視覚的なストーリーテリングのあらゆる側面を再構築し始め、エンターテイメントの風景を変え始めたとき

5日間のISRO AI無料コースを登録する方法は? - 分析Vidhya5日間のISRO AI無料コースを登録する方法は? - 分析VidhyaApr 16, 2025 am 11:43 AM

ISROの無料AI/MLオンラインコース:地理空間技術の革新へのゲートウェイ インド宇宙研究機関(ISRO)は、インドのリモートセンシング研究所(IIRS)を通じて、学生と専門家に素晴らしい機会を提供しています。

AIのローカル検索アルゴリズムAIのローカル検索アルゴリズムApr 16, 2025 am 11:40 AM

ローカル検索アルゴリズム:包括的なガイド 大規模なイベントを計画するには、効率的なワークロード分布が必要です。 従来のアプローチが失敗すると、ローカル検索アルゴリズムは強力なソリューションを提供します。 この記事では、Hill ClimbingとSimulについて説明します

OpenaiはGPT-4.1でフォーカスをシフトし、コーディングとコスト効率を優先しますOpenaiはGPT-4.1でフォーカスをシフトし、コーディングとコスト効率を優先しますApr 16, 2025 am 11:37 AM

このリリースには、GPT-4.1、GPT-4.1 MINI、およびGPT-4.1 NANOの3つの異なるモデルが含まれており、大規模な言語モデルのランドスケープ内のタスク固有の最適化への動きを示しています。これらのモデルは、ようなユーザー向けインターフェイスをすぐに置き換えません

プロンプト:ChatGptは偽のパスポートを生成しますプロンプト:ChatGptは偽のパスポートを生成しますApr 16, 2025 am 11:35 AM

Chip Giant Nvidiaは、月曜日に、AI Supercomputersの製造を開始すると述べました。これは、大量のデータを処理して複雑なアルゴリズムを実行できるマシンを初めて初めて米国内で実行します。発表は、トランプSI大統領の後に行われます

See all articles

ホットAIツール

Undresser.AI Undress

Undresser.AI Undress

リアルなヌード写真を作成する AI 搭載アプリ

AI Clothes Remover

AI Clothes Remover

写真から衣服を削除するオンライン AI ツール。

Undress AI Tool

Undress AI Tool

脱衣画像を無料で

Clothoff.io

Clothoff.io

AI衣類リムーバー

AI Hentai Generator

AI Hentai Generator

AIヘンタイを無料で生成します。

ホットツール

EditPlus 中国語クラック版

EditPlus 中国語クラック版

サイズが小さく、構文の強調表示、コード プロンプト機能はサポートされていません

mPDF

mPDF

mPDF は、UTF-8 でエンコードされた HTML から PDF ファイルを生成できる PHP ライブラリです。オリジナルの作者である Ian Back は、Web サイトから「オンザフライ」で PDF ファイルを出力し、さまざまな言語を処理するために mPDF を作成しました。 HTML2FPDF などのオリジナルのスクリプトよりも遅く、Unicode フォントを使用すると生成されるファイルが大きくなりますが、CSS スタイルなどをサポートし、多くの機能強化が施されています。 RTL (アラビア語とヘブライ語) や CJK (中国語、日本語、韓国語) を含むほぼすべての言語をサポートします。ネストされたブロックレベル要素 (P、DIV など) をサポートします。

SublimeText3 中国語版

SublimeText3 中国語版

中国語版、とても使いやすい

ゼンドスタジオ 13.0.1

ゼンドスタジオ 13.0.1

強力な PHP 統合開発環境

Dreamweaver Mac版

Dreamweaver Mac版

ビジュアル Web 開発ツール