検索
ホームページテクノロジー周辺機器AI聞いてください、Transformer はサポート ベクター マシンです

Transformer はサポート ベクター マシン (SVM) であり、学術コミュニティでの議論を引き起こした新しい理論です。

先週末、ペンシルベニア大学とカリフォルニア大学リバーサイド校の論文では、大規模モデルに基づいてトランスフォーマー構造の原理を研究することが試みられました。は最適に関連しています。 形式的等価性は、入力トークンが最適でないトークンから分離されているハードバウンド SVM 問題間で確立されます。

著者は、この理論が各入力シーケンスで「良い」トークンと「悪い」トークンを分離する SVM の問題を解決するとハッカーニュースで述べました。優れたパフォーマンスを備えたトークン セレクターであるこの SVM は、入力に 0 ~ 1 のラベルを割り当てる従来の SVM とは本質的に異なります。

この理論は、注意がソフトマックスを通じてどのようにスパース性を引き起こすのかも説明しています。SVM 決定境界の間違った側にある「悪い」トークンはソフトマックス関数によって抑制されますが、「良い」トークンはソフトマックス関数によって抑制されます。 SVM 決定境界の間違った側にあるトークンは、最終的にゼロ以外のソフトマックス確率を持つトークンです。この SVM はソフトマックスの指数特性から派生していることにも言及する価値があります。

論文が arXiv にアップロードされると、次から次へと意見が寄せられました。

聞いてください、Transformer はサポート ベクター マシンです

ぐるぐる回っても、サポート ベクター マシンはまだ時代遅れではありません。

古典的な論文「Attending is All You Need」の出版以来、Transformer アーキテクチャは自然言語処理 (NLP) の分野に革命的な進歩をもたらしてきました。 Transformer のアテンション層は、一連の入力トークン X を受け入れ、聞いてください、Transformer はサポート ベクター マシンです を計算することでトークン間の相関関係を評価します。ここで、(K, Q) はトレーニング可能なキークエリ パラメーターであり、最終的に効果的なキャプチャ リモートです。依存関係。

今回、「サポート ベクター マシンとしてのトランスフォーマー」と呼ばれる新しい論文は、外積線形制約を使用して、自己注意最適化ジオメトリとハード マージン SVM 問題の間の形式的等価性を確立します。最適な入力トークンを最適でないトークンから分離するためのトークン ペアの調整。

聞いてください、Transformer はサポート ベクター マシンです

論文リンク: https://arxiv.org/pdf/2308.16898.pdf

これこの形式的な等価性は、Davoud Ataee Tarzanagh らによる論文「Max-Margin Token Selection in Attendant Mechanism」に基づいており、勾配降下法によって最適化された 1 層トランスフォーマーの暗黙的なバイアスを説明できます。 ## (1) (K, Q) でパラメータ化されたアテンション層を最適化し、消失正則化によって SVM 解に収束します。これにより、結合パラメータが最小化されます

## の核ノルム。対照的に、W を介して直接パラメータ化すると、フロベニウスのノルム SVM 目標が最小化されます。この論文では、この収束について説明し、それが全体的な最適化ではなく局所的な最適化の方向で発生する可能性があることを強調しています。 聞いてください、Transformer はサポート ベクター マシンです(2) この論文では、適切な幾何学的条件下での W パラメータ化勾配降下法のローカル/グローバル方向収束も実証しています。重要なことは、過剰パラメータ化は、SVM 問題の実現可能性を確保し、静止点のない良好な最適化環境を確保することにより、グローバルな収束を促進することです。

(3) この研究の理論は主に線形予測ヘッドに適用されますが、研究チームは非線形ヘッド/MLP 暗黙的バイアスで 1 を予測できる、より一般的な SVM 相当物を提案しました。層トランスのこと。

全体として、この研究の結果は一般的なデータセットに適用でき、交差注意層に拡張することができ、研究の結論の実際的な妥当性は徹底的な数値実験を通じて得られています。確認する。この研究は、多層トランスフォーマーを最適なトークンを分離して選択する SVM 階層として見るという新しい研究の視点を確立します。

具体的には、長さ T と埋め込み次元 d

の入力シーケンスが与えられた場合、この研究ではコアのクロスアテンションとセルフアテンションのモデルを分析します。

聞いてください、Transformer はサポート ベクター マシンです

このうち、K、Q、V はそれぞれトレーニング可能なキー、クエリ、値行列です。 聞いてください、Transformer はサポート ベクター マシンです ; S (・) はソフトマックス非線形性を表し、行ごとに適用されます。この研究では、Z の最初のトークン (z で示される) が予測に使用されると想定しています。具体的には、トレーニング データセット 聞いてください、Transformer はサポート ベクター マシンです聞いてください、Transformer はサポート ベクター マシンです聞いてください、Transformer はサポート ベクター マシンです が与えられた場合、この研究では損失減少関数 聞いてください、Transformer はサポート ベクター マシンです が使用されます。 Minimize: 聞いてください、Transformer はサポート ベクター マシンです

聞いてください、Transformer はサポート ベクター マシンですここで、h (・):

は含まれる値の重み予測ヘッダーです。 V.この定式化では、モデル f (・) は、注目層の後に MLP が続く単層トランスフォーマーを正確に表します。著者は、聞いてください、Transformer はサポート ベクター マシンです を設定することによって (2) の自己注意を復元します。ここで、x_i はシーケンス X_i の最初のトークンを表します。ソフトマックス演算の非線形性により、最適化には大きな課題が生じます。たとえ予測ヘッドが固定で線形であっても、問題は非凸で非線形です。この研究では、著者らは注意の重み (K、Q、または W) を最適化し、SVM の基本的な同等性を確立するためにこれらの課題を克服することに焦点を当てています。 聞いてください、Transformer はサポート ベクター マシンです論文の構成は次のとおりです: 第 2 章では、自己注意と最適化に関する予備知識を紹介します。第 3 章では、自己注意の最適化幾何学を分析し、注意パラメータが次のとおりであることを示します。 RP は最大周辺解に収束します。第 4 章と第 5 章では、それぞれグローバルおよびローカル勾配降下解析を紹介し、キー クエリ変数 W が (Att-SVM) の解に収束することを示します。第 6 章では、非線形予測の解を提供します。等価性に関する頭部および一般化 SVM の結果、第 7 章では理論を逐次的および因果的予測に拡張し、第 8 章では関連文献について説明します。最後に、第 9 章は、未解決の質問と今後の研究の方向性を提案して終わります。

論文の主な内容は次のとおりです:

注意層の暗黙的なバイアス (第 2 章-3)

正則化がなくなったときにアテンションパラメータ (K, Q) を最適化すると、

の最大周辺解の方向に収束します。そのカーネルノルムターゲットは、結合パラメータ 聞いてください、Transformer はサポート ベクター マシンです です。クロスアテンションが結合パラメーター W で直接パラメーター化される場合、正則化パス (RP) は、フロベニウス ノルムをターゲットとする (Att-SVM) 解に方向的に収束します。 聞いてください、Transformer はサポート ベクター マシンですこれは、W と (K, Q) のパラメトリック最適化ダイナミクスを正式に区別した最初の結果であり、後者における低次のバイアスが明らかになりました。この研究の理論は、選択されたトークンの最適性を明確に説明しており、当然、シーケンス間または因果関係の分類設定にも拡張されます。

勾配降下法の収束 (第 4 章から第 5 章)

適切な初期化と線形ヘッド h (・) を使用した場合、結合されたキークエリ変数 W の勾配降下 (GD) 反復は、(Att-SVM) の局所最適解への方向に収束します (セクション 5)。局所的な最適値を達成するには、選択したトークンのスコアが隣接するトークンよりも高くなければなりません。

局所的な最適方向は必ずしも一意ではなく、問題の幾何学的特性に基づいて決定できます [TLZO23]。重要な貢献として、著者らは大域最適への収束を保証する幾何学的条件を特定しています (第 4 章)。これらの条件には次のものが含まれます:

  • 最良のトークンにはスコアに大きな差があります。
  • 初期勾配の方向は最良のトークンと一致しています。

さらに、この論文では、(1) (Att- SVM)、(2) グローバルな収束を促進するための良性の最適化ランドスケープ (つまり、静止点や誤った局所的な最適方向が存在しない) (セクション 5.2 を参照)。

#図 1 と 2 はこれを示しています。

聞いてください、Transformer はサポート ベクター マシンです


聞いてください、Transformer はサポート ベクター マシンです

##SVM 等価性の一般性 (第 6 章)

線形 h (・) を使用して最適化する場合、アテンション層は本質的にバイアスがかかります。各シーケンス内のトークンを選択します (これも既知です)。厳重な注意として)。これは (Att-SVM) に反映されており、出力トークンは入力トークンの凸結合です。対照的に、著者らは非線形ヘッドが複数のトークンで構成されなければならないことを示し、したがって変圧器ダイナミクスにおける非線形ヘッドの重要性を強調しています(セクション 6.1)。著者らは、理論から得た洞察を利用して、より一般的な SVM と同等のアプローチを提案しています。

理論でカバーされていない一般的なケース (たとえば、h (・) は MLP) では、この論文の方法が正確に予測できることを証明していることは注目に値します。勾配降下トレーニング 注意における暗黙のバイアス。具体的には、私たちの一般式は、注意の重みを 2 つの部分に分離します: SVM によって制御される方向部分 (0 ~ 1 マスクを適用してマーカーを選択します)、および有限部分 (ソフトマックスを調整する部分) 選択されたトークンの正確な構成を決定するソフトマックス確率。

これらの発見の重要な特徴は、これらの発見が (SVM が実行可能な限り) 任意のデータセットに適用され、数値的に検証できることです。著者らは、変圧器の最大限界等価性と暗黙的バイアスを広範囲に実験的に検証しました。著者らは、これらの発見が階層型最大マージントークン選択メカニズムとしてのトランスフォーマーの理解に貢献し、トランスフォーマーの最適化と一般化のダイナミクスに関する今後の研究の基礎を築くことができると信じています。

以上が聞いてください、Transformer はサポート ベクター マシンですの詳細内容です。詳細については、PHP 中国語 Web サイトの他の関連記事を参照してください。

声明
この記事は51CTO.COMで複製されています。侵害がある場合は、admin@php.cn までご連絡ください。
10生成AIコーディング拡張機能とコードのコードを探る必要があります10生成AIコーディング拡張機能とコードのコードを探る必要がありますApr 13, 2025 am 01:14 AM

ねえ、忍者をコーディング!その日はどのようなコーディング関連のタスクを計画していますか?このブログにさらに飛び込む前に、コーディング関連のすべての問題について考えてほしいです。 終わり? - &#8217を見てみましょう

革新を調理する:人工知能がフードサービスを変革する方法革新を調理する:人工知能がフードサービスを変革する方法Apr 12, 2025 pm 12:09 PM

食品の準備を強化するAI まだ初期の使用中ですが、AIシステムは食品の準備にますます使用されています。 AI駆動型のロボットは、ハンバーガーの製造、SAの組み立てなど、食品の準備タスクを自動化するためにキッチンで使用されています

Pythonネームスペースと可変スコープに関する包括的なガイドPythonネームスペースと可変スコープに関する包括的なガイドApr 12, 2025 pm 12:00 PM

導入 Python関数における変数の名前空間、スコープ、および動作を理解することは、効率的に記述し、ランタイムエラーや例外を回避するために重要です。この記事では、さまざまなASPを掘り下げます

ビジョン言語モデル(VLM)の包括的なガイドビジョン言語モデル(VLM)の包括的なガイドApr 12, 2025 am 11:58 AM

導入 鮮やかな絵画や彫刻に囲まれたアートギャラリーを歩くことを想像してください。さて、各ピースに質問をして意味のある答えを得ることができたらどうでしょうか?あなたは尋ねるかもしれません、「あなたはどんな話を言っていますか?

MediaTekは、Kompanio UltraとDimenity 9400でプレミアムラインナップをブーストしますMediaTekは、Kompanio UltraとDimenity 9400でプレミアムラインナップをブーストしますApr 12, 2025 am 11:52 AM

製品のケイデンスを継続して、今月MediaTekは、新しいKompanio UltraやDimenity 9400を含む一連の発表を行いました。これらの製品は、スマートフォン用のチップを含むMediaTekのビジネスのより伝統的な部分を埋めます

今週のAIで:Walmartがファッションのトレンドを設定する前に設定します今週のAIで:Walmartがファッションのトレンドを設定する前に設定しますApr 12, 2025 am 11:51 AM

#1 GoogleはAgent2Agentを起動しました 物語:月曜日の朝です。 AI駆動のリクルーターとして、あなたはより賢く、難しくありません。携帯電話の会社のダッシュボードにログインします。それはあなたに3つの重要な役割が調達され、吟味され、予定されていることを伝えます

生成AIは精神障害に会います生成AIは精神障害に会いますApr 12, 2025 am 11:50 AM

私はあなたがそうであるに違いないと思います。 私たちは皆、精神障害がさまざまな心理学の用語を混ぜ合わせ、しばしば理解できないか完全に無意味であることが多い、さまざまなおしゃべりで構成されていることを知っているようです。 FOを吐き出すために必要なことはすべてです

プロトタイプ:科学者は紙をプラスチックに変えますプロトタイプ:科学者は紙をプラスチックに変えますApr 12, 2025 am 11:49 AM

今週公開された新しい研究によると、2022年に製造されたプラスチックの9.5%のみがリサイクル材料から作られていました。一方、プラスチックは埋め立て地や生態系に積み上げられ続けています。 しかし、助けが近づいています。エンジンのチーム

See all articles

ホットAIツール

Undresser.AI Undress

Undresser.AI Undress

リアルなヌード写真を作成する AI 搭載アプリ

AI Clothes Remover

AI Clothes Remover

写真から衣服を削除するオンライン AI ツール。

Undress AI Tool

Undress AI Tool

脱衣画像を無料で

Clothoff.io

Clothoff.io

AI衣類リムーバー

AI Hentai Generator

AI Hentai Generator

AIヘンタイを無料で生成します。

ホットツール

mPDF

mPDF

mPDF は、UTF-8 でエンコードされた HTML から PDF ファイルを生成できる PHP ライブラリです。オリジナルの作者である Ian Back は、Web サイトから「オンザフライ」で PDF ファイルを出力し、さまざまな言語を処理するために mPDF を作成しました。 HTML2FPDF などのオリジナルのスクリプトよりも遅く、Unicode フォントを使用すると生成されるファイルが大きくなりますが、CSS スタイルなどをサポートし、多くの機能強化が施されています。 RTL (アラビア語とヘブライ語) や CJK (中国語、日本語、韓国語) を含むほぼすべての言語をサポートします。ネストされたブロックレベル要素 (P、DIV など) をサポートします。

SecLists

SecLists

SecLists は、セキュリティ テスターの究極の相棒です。これは、セキュリティ評価中に頻繁に使用されるさまざまな種類のリストを 1 か所にまとめたものです。 SecLists は、セキュリティ テスターが必要とする可能性のあるすべてのリストを便利に提供することで、セキュリティ テストをより効率的かつ生産的にするのに役立ちます。リストの種類には、ユーザー名、パスワード、URL、ファジング ペイロード、機密データ パターン、Web シェルなどが含まれます。テスターはこのリポジトリを新しいテスト マシンにプルするだけで、必要なあらゆる種類のリストにアクセスできるようになります。

EditPlus 中国語クラック版

EditPlus 中国語クラック版

サイズが小さく、構文の強調表示、コード プロンプト機能はサポートされていません

SublimeText3 Linux 新バージョン

SublimeText3 Linux 新バージョン

SublimeText3 Linux 最新バージョン

Dreamweaver Mac版

Dreamweaver Mac版

ビジュアル Web 開発ツール