トランスフォーマーは人工知能を変革し、NLP、コンピューター ビジョン、マルチモーダル データ統合において比類のないパフォーマンスを提供します。これらのモデルは、注意メカニズムを通じてデータ内のパターンを識別することに優れており、複雑なタスクに最適です。ただし、従来の構造に伴う計算コストが高いため、変圧器モデルの迅速なスケーリングを改善する必要があります。
トランスフォーマーは人工知能に革命をもたらし、自然言語処理 (NLP)、コンピューター ビジョン、マルチモーダル データ統合において比類のないパフォーマンスを提供します。これらのモデルは、注意メカニズムを通じてデータ内のパターンを識別することに優れており、複雑なタスクに最適です。ただし、従来の構造に伴う計算コストが高いため、変圧器モデルの迅速なスケーリングを改善する必要があります。これらのモデルが成長するにつれて、大量のハードウェア リソースとトレーニング時間が必要になり、モデルのサイズが大きくなるにつれて指数関数的に増加します。
トランスフォーマーのスケーリングにおける主な障害は、線形投影レイヤー内の固定パラメーターにあります。この静的な構造により、完全に再トレーニングせずに拡張するモデルの能力が制限され、モデルのサイズが大きくなるにつれてコストが急激に増加します。これらの従来のモデルは通常、チャネル寸法の増加など、アーキテクチャの変更が発生した場合に包括的な再トレーニングを必要とします。
その結果、これらの拡張の計算コストは非現実的なほど高くなり、このアプローチには柔軟性が欠けています。新しいパラメーターを動的に追加できないため、成長が阻害され、これらのモデルは進化する AI アプリケーションへの適応性が低くなり、時間とリソースの面でよりコストがかかります。
歴史的に、モデルのスケーラビリティを管理するアプローチには、重みを複製したり、ニューロンを複製して層を拡張する Net2Net などの方法を使用してモデルを再構築したりすることが含まれていました。ただし、これらのアプローチでは、事前トレーニングされたモデルのバランスが崩れることが多く、その結果、収束速度が遅くなり、トレーニングがさらに複雑になります。
これらの手法は段階的に進歩していますが、スケーリング中にモデルの整合性を維持するには依然として限界があります。トランスフォーマーは静的な線形投影に大きく依存しているため、パラメーターの拡張は高価で柔軟性がありません。 GPT やその他の大規模なトランスフォーマーのような従来のモデルは、多くの場合、最初から再トレーニングされるため、新しいスケーリング段階ごとに高い計算コストが発生します。
マックス プランク研究所、Google、北京大学の研究者らは、モデル パラメーターをトークンとして扱うことでトランスフォーマーを根本的に再考し、トークンとパラメーター間の動的な相互作用を可能にする、Tokenformer と呼ばれる新しいアーキテクチャを開発しました。
このフレームワークでは、Tokenformer はトークンパラメーター アテンション (パテンション) レイヤーと呼ばれる新しいコンポーネントを導入し、増分スケーリングを容易にします。モデルは再トレーニングせずに新しいパラメーター トークンを追加できるため、トレーニング コストが大幅に削減されます。
Tokenformer は、同じフレームワーク内で入力トークンとパラメーターを表すことにより、柔軟なスケーリングを可能にし、スケーラビリティと高いパフォーマンスを維持する、より効率的でリソースを意識したモデル アーキテクチャを研究者に提供します。
Tokenformer の Pattention レイヤーは入力トークンをクエリとして使用し、モデル パラメーターはキーと値として機能します。これは、線形射影のみに依存する標準のトランスフォーマー アプローチとは異なります。
モデルのスケーリングは、新しいキーと値のパラメーターのペアを追加し、入力と出力の次元を一定に保ち、完全な再トレーニングを回避することによって実現されます。 Tokenformer のアーキテクチャはモジュール式に設計されており、研究者は追加のトークンを組み込むことでモデルをシームレスに拡張できます。
このインクリメンタル スケーリング機能は、学習済みの情報を中断することなく、新しいデータセットやより大きなモデル サイズに迅速に適応できると同時に、事前トレーニングされた重みの効率的な再利用をサポートします。
Tokenformer モデルは精度を維持しながら計算コストを大幅に削減するため、パフォーマンス上の利点は注目に値します。たとえば、Tokenformer は、従来のトランスフォーマーが必要とする一般的なトレーニング費用の半分のみで、パラメータ数を 1 億 2,400 万から 14 億に拡張しました。
ある実験では、モデルは 14 億のパラメーター構成に対して 11.77 のテスト複雑度を達成しました。これは、ゼロからトレーニングした同様のサイズの変換器の 11.63 の複雑度にほぼ一致します。
この効率性は、Tokenformer が従来のモデルの数分の 1 のリソース消費量で、言語やビジュアル モデリング タスクを含む複数のドメインにわたって高いパフォーマンスを達成できることを意味します。
Tokenformer は、AI 研究を推進し、トランスフォーマーベースのモデルを改善するための重要なポイントを多数提供します。これらには以下が含まれます:
パラメータをトークンとして扱うことで、再トレーニングせずに増分モデルのスケーリングが可能になります。
トークンパラメーター アテンション レイヤーにより、効率的なパラメーター拡張が容易になります。
モジュラー アーキテクチャは、追加のトークンを組み込むことでシームレスなモデルの拡張をサポートします。
このモデルは、リソースの消費を最小限に抑えながら、さまざまなドメインにわたって高いパフォーマンスを実現します。
結論として、Tokenformer は、トランスフォーマーベースのモデルをスケーリングする革新的なアプローチを提供します。このモデル アーキテクチャは、パラメーターをトークンとして扱い、コストを削減し、タスク間でモデルのパフォーマンスを維持することにより、スケーラビリティとリソース効率を実現します。
この柔軟性は変圧器設計における画期的な進歩であり、再トレーニングすることなく高度な AI アプリケーションの要求に適応できるモデルを提供します。 Tokenformer のアーキテクチャは将来の AI 研究に有望であり、大規模なモデルを持続的かつ効率的に開発する道を提供します。
HuggingFace の論文、GitHub ページ、モデルをチェックしてください。
この研究の功績はすべて、このプロジェクトの研究者に与えられます。また、Twitter で私たちをフォローし、Telegram チャンネルと LinkedIn グループに参加することも忘れないでください。私たちの仕事が気に入ったら、ニュースレターも気に入っていただけるでしょう。 55,000 ML SubReddit に忘れずに参加してください。
[私たちとのスポンサーシップの機会] 毎月 100 万人の読者と 50 万人のコミュニティ メンバーとともにあなたの研究/製品/ウェビナーを宣伝しましょう
以上がTokenformer: パラメーターをトークンとして扱うことでトランスフォーマーを再考するの詳細内容です。詳細については、PHP 中国語 Web サイトの他の関連記事を参照してください。