Meta AI とアムステルダム大学による最新の研究では、一般的なニューラル ネットワーク アーキテクチャであるトランスフォーマーが、最新のコンピューター ビジョン モデルに存在する局所性誘導バイアスに依存することなく、画像の個々のピクセルを直接操作できることが示されました。
メタ AI とアムステルダム大学の研究者は、一般的なニューラル ネットワーク アーキテクチャであるトランスフォーマーが、最新のコンピューター ビジョン モデルに存在する局所性誘導バイアスに依存せずに、画像の個々のピクセルに対して直接動作できることを実証しました。 「Transformers on Individual Pixels」と題された研究は、局所性 (遠くのピクセルよりも隣接するピクセルの関連性が高いという概念) が視覚タスクの基本的な要件であるという長年の信念に疑問を投げかけています。
伝統的に、畳み込みニューラル ネットワークのようなコンピューター ビジョン アーキテクチャは、 (ConvNets) とビジョン トランスフォーマー (ViTs) は、隣接するピクセルの関連性がより高いと仮定して、畳み込みカーネル、プーリング操作、パッチ化などの技術を通じて局所性バイアスを組み込んでいます
対照的に、研究者らはピクセル トランスフォーマー (PiT) を導入しました。ピクセルを個々のトークンとして扱い、画像の 2D グリッド構造に関するあらゆる仮定を取り除きます。驚くべきことに、PiT はさまざまなタスクにわたって高いパフォーマンスの結果を達成しました
たとえば、PiT が VQGAN の潜在トークン空間を使用する画像生成タスクに適用された場合、Fréchet Inception Distance (FID) や Inception などの品質指標で局所性に偏った対応するものよりも優れたパフォーマンスを示しました。スコア (IS)。
Perceiver IO Transformer のラインで動作する PiT は、シーケンスが長いため計算コストが高くなる可能性がありますが、ビジョン モデルにおける局所性バイアスの必要性に課題を抱えています。長いシーケンス長の処理が進歩するにつれて、PiT はより実用的になる可能性があります。
この研究は最終的に、ニューラル アーキテクチャにおける誘導バイアスを削減することの潜在的な利点を強調しており、これにより、多様な視覚タスクやデータ モダリティのための、より多用途で有能なシステムが実現する可能性があります。
ニュースソース:
https://www.kdj.com/cryptocurrency-news/articles/pixel-transformers-pits-challenge-locality-bias-vision-models.html
以上がピクセル トランスフォーマー (PiT) がビジョン モデルにおける局所性バイアスのニーズに挑むの詳細内容です。詳細については、PHP 中国語 Web サイトの他の関連記事を参照してください。