トランスフォーマーは人工知能を変革し、NLP、コンピューター ビジョン、マルチモーダル データ統合において比類のないパフォーマンスを提供します。これらのモデルは、注意メカニズムを通じてデータ内のパターンを識別することに優れており、複雑なタスクに最適です。ただし、従来の構造に伴う計算コストが高いため、変圧器モデルの迅速なスケーリングを改善する必要があります。
トランスフォーマーは人工知能に革命をもたらし、自然言語処理 (NLP)、コンピューター ビジョン、マルチモーダル データ統合において比類のないパフォーマンスを提供します。これらのモデルは、注意メカニズムを通じてデータ内のパターンを識別することに優れており、複雑なタスクに最適です。ただし、従来の構造に伴う計算コストが高いため、変圧器モデルの迅速なスケーリングを改善する必要があります。これらのモデルが成長するにつれて、大量のハードウェア リソースとトレーニング時間が必要になり、モデルのサイズが大きくなるにつれて指数関数的に増加します。
トランスフォーマーのスケーリングにおける主な障害は、線形投影レイヤー内の固定パラメーターにあります。この静的な構造により、完全に再トレーニングせずに拡張するモデルの能力が制限され、モデルのサイズが大きくなるにつれてコストが急激に増加します。これらの従来のモデルは通常、チャネル寸法の増加など、アーキテクチャの変更が発生した場合に包括的な再トレーニングを必要とします。
その結果、これらの拡張の計算コストは非現実的なほど高くなり、このアプローチには柔軟性が欠けています。新しいパラメーターを動的に追加できないため、成長が阻害され、これらのモデルは進化する AI アプリケーションへの適応性が低くなり、時間とリソースの面でよりコストがかかります。
歴史的に、モデルのスケーラビリティを管理するアプローチには、重みを複製したり、ニューロンを複製して層を拡張する Net2Net などの方法を使用してモデルを再構築したりすることが含まれていました。ただし、これらのアプローチでは、事前トレーニングされたモデルのバランスが崩れることが多く、その結果、収束速度が遅くなり、トレーニングがさらに複雑になります。
これらの手法は段階的に進歩していますが、スケーリング中にモデルの整合性を維持するには依然として限界があります。トランスフォーマーは静的な線形投影に大きく依存しているため、パラメーターの拡張は高価で柔軟性がありません。 GPT やその他の大規模なトランスフォーマーのような従来のモデルは、多くの場合、最初から再トレーニングされるため、新しいスケーリング段階ごとに高い計算コストが発生します。
マックス プランク研究所、Google、北京大学の研究者らは、モデル パラメーターをトークンとして扱うことでトランスフォーマーを根本的に再考し、トークンとパラメーター間の動的な相互作用を可能にする、Tokenformer と呼ばれる新しいアーキテクチャを開発しました。
このフレームワークでは、Tokenformer はトークンパラメーター アテンション (パテンション) レイヤーと呼ばれる新しいコンポーネントを導入し、増分スケーリングを容易にします。モデルは再トレーニングせずに新しいパラメーター トークンを追加できるため、トレーニング コストが大幅に削減されます。
Tokenformer は、同じフレームワーク内で入力トークンとパラメーターを表すことにより、柔軟なスケーリングを可能にし、スケーラビリティと高いパフォーマンスを維持する、より効率的でリソースを意識したモデル アーキテクチャを研究者に提供します。
Tokenformer の Pattention レイヤーは入力トークンをクエリとして使用し、モデル パラメーターはキーと値として機能します。これは、線形射影のみに依存する標準のトランスフォーマー アプローチとは異なります。
モデルのスケーリングは、新しいキーと値のパラメーターのペアを追加し、入力と出力の次元を一定に保ち、完全な再トレーニングを回避することによって実現されます。 Tokenformer のアーキテクチャはモジュール式に設計されており、研究者は追加のトークンを組み込むことでモデルをシームレスに拡張できます。
このインクリメンタル スケーリング機能は、学習済みの情報を中断することなく、新しいデータセットやより大きなモデル サイズに迅速に適応できると同時に、事前トレーニングされた重みの効率的な再利用をサポートします。
Tokenformer モデルは精度を維持しながら計算コストを大幅に削減するため、パフォーマンス上の利点は注目に値します。たとえば、Tokenformer は、従来のトランスフォーマーが必要とする一般的なトレーニング費用の半分のみで、パラメータ数を 1 億 2,400 万から 14 億に拡張しました。
ある実験では、モデルは 14 億のパラメーター構成に対して 11.77 のテスト複雑度を達成しました。これは、ゼロからトレーニングした同様のサイズの変換器の 11.63 の複雑度にほぼ一致します。
この効率性は、Tokenformer が従来のモデルの数分の 1 のリソース消費量で、言語やビジュアル モデリング タスクを含む複数のドメインにわたって高いパフォーマンスを達成できることを意味します。
Tokenformer は、AI 研究を推進し、トランスフォーマーベースのモデルを改善するための重要なポイントを多数提供します。これらには以下が含まれます:
パラメータをトークンとして扱うことで、再トレーニングせずに増分モデルのスケーリングが可能になります。
トークンパラメーター アテンション レイヤーにより、効率的なパラメーター拡張が容易になります。
モジュラー アーキテクチャは、追加のトークンを組み込むことでシームレスなモデルの拡張をサポートします。
このモデルは、リソースの消費を最小限に抑えながら、さまざまなドメインにわたって高いパフォーマンスを実現します。
結論として、Tokenformer は、トランスフォーマーベースのモデルをスケーリングする革新的なアプローチを提供します。このモデル アーキテクチャは、パラメーターをトークンとして扱い、コストを削減し、タスク間でモデルのパフォーマンスを維持することにより、スケーラビリティとリソース効率を実現します。
この柔軟性は変圧器設計における画期的な進歩であり、再トレーニングすることなく高度な AI アプリケーションの要求に適応できるモデルを提供します。 Tokenformer のアーキテクチャは将来の AI 研究に有望であり、大規模なモデルを持続的かつ効率的に開発する道を提供します。
HuggingFace の論文、GitHub ページ、モデルをチェックしてください。
この研究の功績はすべて、このプロジェクトの研究者に与えられます。また、Twitter で私たちをフォローし、Telegram チャンネルと LinkedIn グループに参加することも忘れないでください。私たちの仕事が気に入ったら、ニュースレターも気に入っていただけるでしょう。 55,000 ML SubReddit に忘れずに参加してください。
[私たちとのスポンサーシップの機会] 毎月 100 万人の読者と 50 万人のコミュニティ メンバーとともにあなたの研究/製品/ウェビナーを宣伝しましょう
以上がTokenformer: パラメーターをトークンとして扱うことでトランスフォーマーを再考するの詳細内容です。詳細については、PHP 中国語 Web サイトの他の関連記事を参照してください。

暗号通貨は常に、テクノロジーの最先端が大胆な野心を満たす領域であり、将来的にはよりエキサイティングになっています。人工知能が影響を受け続けているため、少数のデジタル資産があります。
![ビットコイン[BTC]は、2月の最終週に92,000ドルのサポートレベルを失った後、下降トレンドにいました](https://img.php.cn/upload/article/001/246/273/174209101774967.jpg?x-oss-process=image/resize,p_40)
OBVなどの技術的指標は、販売圧力が支配的であることを示しており、より多くの損失が先にある可能性が高いことを示しています。

この記事では、2015年から2025年までのビットコインの10年間の価格動向が、ビットコインの価格が劇的に変動し、200ドルから100,000ドルを超えることを示しています。この期間中、ビットコインの価格は、ブロックの報酬の半分、市場の感情、規制政策、グローバルなマクロ経済状況など、さまざまな要因の影響を受けました。この記事では、ビットコインの価格の上昇を年々分析し、主要な年の価格の変化の解釈に焦点を当てており、投資家がビットコインの価格の歴史を理解し、将来の傾向を予測するためのリファレンスを提供します。 キーワード:ビットコイン価格、ビットコイントレンド、ビットコイン10年、デジタル通貨、暗号通貨

トップの仮想通貨交換はランク付けされています。これらのプラットフォームにはそれぞれ独自の利点があります。

この記事では、2015年の最初の0.31ドルから2017年の急増から1,400ドル近くまで急増し、2018年と2022年に市場が急落し、2021年には2023年のリバウンドと安定性の記録的な高値に急増したイーサリアムの価格動向をレビューしました。この記事データは、毎年イーサリアム価格の大幅な変化をカバーし、2024 - 2025年の価格動向を予測し、投資家に包括的な歴史的参照とイーサリアム価格の将来の見通しを提供します。 イーサリアム価格の変動の歴史を理解し、投資機会をつかみます!

トップ10のデジタル通貨アプリプラットフォーム:1。OKX、2。GATE.IO、4。KRAKEN、6。HUOBI、7。Crypto.com、9。Bitfinex、10。考慮されます。

それ以来、プロバイダーは、これがどのように起こったか、そしてそれが将来どのように(できれば)再び起こらないかを調査してきました。

どのミームコインがあなたの小さな投資を人生を変える利益に変えることができるのか疑問に思ったことはありませんか? 2025年にMeme Coin Marketが激化するにつれて、投資家は新鮮な機会に飛び込み、価格が急上昇する前に次の大きな波をキャッチすることを望んでいます。

ホットAIツール

Undresser.AI Undress
リアルなヌード写真を作成する AI 搭載アプリ

AI Clothes Remover
写真から衣服を削除するオンライン AI ツール。

Undress AI Tool
脱衣画像を無料で

Clothoff.io
AI衣類リムーバー

AI Hentai Generator
AIヘンタイを無料で生成します。

人気の記事

ホットツール

Dreamweaver Mac版
ビジュアル Web 開発ツール

MantisBT
Mantis は、製品の欠陥追跡を支援するために設計された、導入が簡単な Web ベースの欠陥追跡ツールです。 PHP、MySQL、Web サーバーが必要です。デモおよびホスティング サービスをチェックしてください。

PhpStorm Mac バージョン
最新(2018.2.1)のプロフェッショナル向けPHP統合開発ツール

SublimeText3 中国語版
中国語版、とても使いやすい

mPDF
mPDF は、UTF-8 でエンコードされた HTML から PDF ファイルを生成できる PHP ライブラリです。オリジナルの作者である Ian Back は、Web サイトから「オンザフライ」で PDF ファイルを出力し、さまざまな言語を処理するために mPDF を作成しました。 HTML2FPDF などのオリジナルのスクリプトよりも遅く、Unicode フォントを使用すると生成されるファイルが大きくなりますが、CSS スタイルなどをサポートし、多くの機能強化が施されています。 RTL (アラビア語とヘブライ語) や CJK (中国語、日本語、韓国語) を含むほぼすべての言語をサポートします。ネストされたブロックレベル要素 (P、DIV など) をサポートします。

ホットトピック









