Tokenformer: パラメーターをトークンとして扱うことでトランスフォーマーを再考する-ウェブ3.0-php.cn

ホームページ

ウェブ3.0

Tokenformer: パラメーターをトークンとして扱うことでトランスフォーマーを再考する

Patricia Arquette

Nov 04, 2024 am 12:36 AM

ScalingTokenformer Transformer Architecture Tokenized Parameters AI Applications

トランスフォーマーは人工知能を変革し、NLP、コンピュータービジョン、マルチモーダルデータ統合において比類のないパフォーマンスを提供します。これらのモデルは、注意メカニズムを通じてデータ内のパターンを識別することに優れており、複雑なタスクに最適です。ただし、従来の構造に伴う計算コストが高いため、変圧器モデルの迅速なスケーリングを改善する必要があります。

Tokenformer: パラメーターをトークンとして扱うことでトランスフォーマーを再考する

トランスフォーマーは人工知能に革命をもたらし、自然言語処理 (NLP)、コンピュータービジョン、マルチモーダルデータ統合において比類のないパフォーマンスを提供します。これらのモデルは、注意メカニズムを通じてデータ内のパターンを識別することに優れており、複雑なタスクに最適です。ただし、従来の構造に伴う計算コストが高いため、変圧器モデルの迅速なスケーリングを改善する必要があります。これらのモデルが成長するにつれて、大量のハードウェアリソースとトレーニング時間が必要になり、モデルのサイズが大きくなるにつれて指数関数的に増加します。

トランスフォーマーのスケーリングにおける主な障害は、線形投影レイヤー内の固定パラメーターにあります。この静的な構造により、完全に再トレーニングせずに拡張するモデルの能力が制限され、モデルのサイズが大きくなるにつれてコストが急激に増加します。これらの従来のモデルは通常、チャネル寸法の増加など、アーキテクチャの変更が発生した場合に包括的な再トレーニングを必要とします。

その結果、これらの拡張の計算コストは非現実的なほど高くなり、このアプローチには柔軟性が欠けています。新しいパラメーターを動的に追加できないため、成長が阻害され、これらのモデルは進化する AI アプリケーションへの適応性が低くなり、時間とリソースの面でよりコストがかかります。

歴史的に、モデルのスケーラビリティを管理するアプローチには、重みを複製したり、ニューロンを複製して層を拡張する Net2Net などの方法を使用してモデルを再構築したりすることが含まれていました。ただし、これらのアプローチでは、事前トレーニングされたモデルのバランスが崩れることが多く、その結果、収束速度が遅くなり、トレーニングがさらに複雑になります。

これらの手法は段階的に進歩していますが、スケーリング中にモデルの整合性を維持するには依然として限界があります。トランスフォーマーは静的な線形投影に大きく依存しているため、パラメーターの拡張は高価で柔軟性がありません。 GPT やその他の大規模なトランスフォーマーのような従来のモデルは、多くの場合、最初から再トレーニングされるため、新しいスケーリング段階ごとに高い計算コストが発生します。

マックスプランク研究所、Google、北京大学の研究者らは、モデルパラメーターをトークンとして扱うことでトランスフォーマーを根本的に再考し、トークンとパラメーター間の動的な相互作用を可能にする、Tokenformer と呼ばれる新しいアーキテクチャを開発しました。

このフレームワークでは、Tokenformer はトークンパラメーターアテンション (パテンション) レイヤーと呼ばれる新しいコンポーネントを導入し、増分スケーリングを容易にします。モデルは再トレーニングせずに新しいパラメータートークンを追加できるため、トレーニングコストが大幅に削減されます。

Tokenformer は、同じフレームワーク内で入力トークンとパラメーターを表すことにより、柔軟なスケーリングを可能にし、スケーラビリティと高いパフォーマンスを維持する、より効率的でリソースを意識したモデルアーキテクチャを研究者に提供します。

Tokenformer の Pattention レイヤーは入力トークンをクエリとして使用し、モデルパラメーターはキーと値として機能します。これは、線形射影のみに依存する標準のトランスフォーマーアプローチとは異なります。

モデルのスケーリングは、新しいキーと値のパラメーターのペアを追加し、入力と出力の次元を一定に保ち、完全な再トレーニングを回避することによって実現されます。 Tokenformer のアーキテクチャはモジュール式に設計されており、研究者は追加のトークンを組み込むことでモデルをシームレスに拡張できます。

このインクリメンタルスケーリング機能は、学習済みの情報を中断することなく、新しいデータセットやより大きなモデルサイズに迅速に適応できると同時に、事前トレーニングされた重みの効率的な再利用をサポートします。

Tokenformer モデルは精度を維持しながら計算コストを大幅に削減するため、パフォーマンス上の利点は注目に値します。たとえば、Tokenformer は、従来のトランスフォーマーが必要とする一般的なトレーニング費用の半分のみで、パラメータ数を 1 億 2,400 万から 14 億に拡張しました。

ある実験では、モデルは 14 億のパラメーター構成に対して 11.77 のテスト複雑度を達成しました。これは、ゼロからトレーニングした同様のサイズの変換器の 11.63 の複雑度にほぼ一致します。

この効率性は、Tokenformer が従来のモデルの数分の 1 のリソース消費量で、言語やビジュアルモデリングタスクを含む複数のドメインにわたって高いパフォーマンスを達成できることを意味します。

Tokenformer は、AI 研究を推進し、トランスフォーマーベースのモデルを改善するための重要なポイントを多数提供します。これらには以下が含まれます:

パラメータをトークンとして扱うことで、再トレーニングせずに増分モデルのスケーリングが可能になります。

トークンパラメーターアテンションレイヤーにより、効率的なパラメーター拡張が容易になります。

モジュラーアーキテクチャは、追加のトークンを組み込むことでシームレスなモデルの拡張をサポートします。

このモデルは、リソースの消費を最小限に抑えながら、さまざまなドメインにわたって高いパフォーマンスを実現します。

結論として、Tokenformer は、トランスフォーマーベースのモデルをスケーリングする革新的なアプローチを提供します。このモデルアーキテクチャは、パラメーターをトークンとして扱い、コストを削減し、タスク間でモデルのパフォーマンスを維持することにより、スケーラビリティとリソース効率を実現します。

この柔軟性は変圧器設計における画期的な進歩であり、再トレーニングすることなく高度な AI アプリケーションの要求に適応できるモデルを提供します。 Tokenformer のアーキテクチャは将来の AI 研究に有望であり、大規模なモデルを持続的かつ効率的に開発する道を提供します。

HuggingFace の論文、GitHub ページ、モデルをチェックしてください。

この研究の功績はすべて、このプロジェクトの研究者に与えられます。また、Twitter で私たちをフォローし、Telegram チャンネルと LinkedIn グループに参加することも忘れないでください。私たちの仕事が気に入ったら、ニュースレターも気に入っていただけるでしょう。 55,000 ML SubReddit に忘れずに参加してください。

[私たちとのスポンサーシップの機会] 毎月 100 万人の読者と 50 万人のコミュニティメンバーとともにあなたの研究/製品/ウェビナーを宣伝しましょう

以上がTokenformer: パラメーターをトークンとして扱うことでトランスフォーマーを再考するの詳細内容です。詳細については、PHP 中国語 Web サイトの他の関連記事を参照してください。

声明

この記事の内容はネチズンが自主的に寄稿したものであり、著作権は原著者に帰属します。このサイトは、それに相当する法的責任を負いません。盗作または侵害の疑いのあるコンテンツを見つけた場合は、admin@php.cn までご連絡ください。

ビットコイン（BTC）価格アクション：ブルズは10万ドルを目標としていますが、キーレベルを守る必要がありますApr 27, 2025 am 11:26 AM

Bitcoinは現在、94,000ドルのレベルを超えて取引されており、最近の安値からの急激な回復の後、強い勢いを示しています。

ビットコイン（BTC）価格アクション：ブルズアイ$ 100Kですが、キーレベルを守る必要がありますApr 27, 2025 am 11:24 AM

Bitcoinは現在、94,000ドルのレベルを超えて取引されており、最近の安値からの急激な回復の後、強い勢いを示しています。

floppypepe（FPPE）は、賢い投資機会を求める投資家にとって最高の選択肢として浮上していますApr 27, 2025 am 11:22 AM

暗号通貨市場は多くの投資機会を提供し、Dogecoin（Doge）とShiba Inu（Shib）がMeme Coinsの人気のあるオプションです。

Ark Investの最新の調査によると、Bitcoin（BTC）は2030年までに240万ドルに達する可能性があります

Bitcoinの軌跡は投資家の想像力を捉えており、Ark Investの最新の研究アップデートは、暗号通貨の将来の変革的な絵を描いています。

ジェド・マッカレブの2014年のリップルからの出発は、おそらく戦略の一部でしたApr 27, 2025 am 11:18 AM

ジェド・マカレブの2014年のリップルからの出発は噂を引き起こしましたが、戦略の一部であった可能性があります。

5ミームコインキャッチヒート：Floki inu、Cheems、および1つの覆面捜査gemApr 27, 2025 am 11:16 AM

深刻な波を作るための次のミームコインがまだトレンドではなく、電報チャットと暗号のツイッタースレッドの影に隠れている場合はどうなりますか？

ダラスのスターは、コロラド雪崩でスクリプトを完全に反転させました。Apr 27, 2025 am 11:14 AM

ミロ・ヘスカネンとジェイソン・ロバートソンに怪我をしたおかげで、シリーズに登場する明確な負け犬が来る

仮想通貨市場での印象的な回復は、Altcoinsが地面を獲得するにつれて続きますApr 27, 2025 am 11:12 AM

仮想通貨市場は、ビットコインの最近の復活によって推進されて、代替の暗号通貨が基盤を獲得しているため、印象的な回復を引き続き示し続けています。

ホットAIツール

Undresser.AI Undress

リアルなヌード写真を作成する AI 搭載アプリ

AI Clothes Remover

写真から衣服を削除するオンライン AI ツール。

Undress AI Tool

脱衣画像を無料で

Clothoff.io

AI衣類リムーバー

Video Face Swap

完全無料の AI 顔交換ツールを使用して、あらゆるビデオの顔を簡単に交換できます。

ホットツール

ZendStudio 13.5.1 Mac

強力な PHP 統合開発環境

メモ帳++7.3.1

使いやすく無料のコードエディター

DVWA

Damn Vulnerable Web App (DVWA) は、非常に脆弱な PHP/MySQL Web アプリケーションです。その主な目的は、セキュリティ専門家が法的環境でスキルとツールをテストするのに役立ち、Web 開発者が Web アプリケーションを保護するプロセスをより深く理解できるようにし、教師/生徒が教室環境で Web アプリケーションを教え/学習できるようにすることです。安全。 DVWA の目標は、シンプルでわかりやすいインターフェイスを通じて、さまざまな難易度で最も一般的な Web 脆弱性のいくつかを実践することです。このソフトウェアは、