ホームページ  >  記事  >  テクノロジー周辺機器  >  軽量ビジュアル ネットワークの新しいバックボーン: 効率的なフーリエ演算子トークン ミキサー

軽量ビジュアル ネットワークの新しいバックボーン: 効率的なフーリエ演算子トークン ミキサー

WBOY
WBOY転載
2023-08-17 17:57:081479ブラウズ

1. 背景

長年にわたり、Transformer、ラージカーネル CNN、MLP の 3 つのビジョン バックボーン ネットワークは、幅広いコンピューターで大きな成功を収めてきました。これは主に、地球規模で情報を効率的に融合できる能力によるものです。

Transformer、CNN、MLP は現在 3 つの主流のニューラル ネットワークであり、それぞれ異なる方法を使用して、グローバル スコープのトークンの融合。 Transformer ネットワークでは、セルフ アテンション メカニズムは、トークン融合の重みとしてクエリ キー ペアの相関関係を使用します。 CNN は、コンボリューション カーネルのサイズを拡張することで、Transformer と同様のパフォーマンスを実現します。 MLP は、完全な接続を通じてすべてのトークン間に別の強力なパラダイムを実装します。これらの方法は効果的ではありますが、計算の複雑さ (O(N^2)) が高く、ストレージとコンピューティング能力が限られているデバイスに導入するのが難しいため、多くのモデルの適用範囲が制限されます

#2. AFF トークン ミキサー: 軽量、グローバル、適応型

計算コストのかかる問題を解決するために、研究者は適応型 Fu と呼ばれる手法を開発しました。適応型フーリエの効率的なグローバル トークン融合アルゴリズムです。フィルター (AFF)。このアルゴリズムは、フーリエ変換を使用してトークン セットを周波数領域に変換し、周波数領域でコンテンツを適応できるフィルター マスクを学習して、周波数領域空間に変換されたトークン セットに対して適応フィルター操作を実行します。 ##適応周波数フィルター: 効率的なグローバル トークン ミキサー

##原文にアクセスするには、このリンクをクリックしてください: https://arxiv .org/ abs/2307.14008

軽量ビジュアル ネットワークの新しいバックボーン: 効率的なフーリエ演算子トークン ミキサー

周波数領域の畳み込み定理によれば、AFF トークン ミキサーの数学的等価演算は、元の領域で実行される畳み込み演算であり、フーリエ アダマール積演算と等価です。ドメイン内で。これは、AFF トークン ミキサーが、元のドメインで動的畳み込みカーネルを使用することにより、コンテンツ適応型のグローバル トークン フュージョンを実現できることを意味します。その空間解像度はトークン セットのサイズと同じです (下図の右のサブ図を参照)。

動的畳み込みは、特に高い空間解像度を持つ動的畳み込みカーネルを使用する場合、計算コストがかかることはよく知られています。このコストは、効率的で軽量なネットワーク設計にとっては高すぎるようです。これは受け入れられません。 。ただし、この記事で提案する AFF トークン ミキサーは、低消費電力の同等の実装で上記の要件を同時に満たすことができ、複雑さを O (N^2) から O (N log N) に軽減し、それによってコンピューティング効率を大幅に向上させます

概略図 1: AFF モジュールと AFFNet ネットワークの構造を示します

軽量ビジュアル ネットワークの新しいバックボーン: 効率的なフーリエ演算子トークン ミキサー

3. AFFNet: 軽量レベル ビジュアル ネットワークの新しいバックボーン

AFF トークン ミキサーを主要なニューラル ネットワーク操作オペレーターとして使用することで、研究者たちは、AFFNet と呼ばれる軽量ニューラル ネットワークの構築に成功しました。豊富な実験結果は、AFF トークン ミキサーが、視覚的意味認識や高密度予測タスクなど、幅広い視覚タスクにおいて精度と効率の優れたバランスを達成していることを示しています。

4. 実験結果

研究者らは、視覚的な意味認識、セグメンテーション、検出などの複数のタスクにおける AFF トークン ミキサーと AFFNet のパフォーマンスを評価し、現在の研究分野で最も先進的な軽量ビジュアル バックボーンと比較しました。ネットワークを比較してみました。実験結果は、モデル設計が幅広い視覚タスクで良好に機能することを示し、軽量で効率的な新世代のトークン融合オペレーターとしての AFF トークン ミキサーの可能性を裏付けています。 SOTA と比較した図 2 は、ImageNet-1K データ セットの Acc-Param 曲線と Acc-FLOPs 曲線を示しています

#最先端の手法の結果を ImageNet-1K データセットと比較します。表 1 を参照してください。軽量ビジュアル ネットワークの新しいバックボーン: 効率的なフーリエ演算子トークン ミキサー

表 2 は、先進技術を使用した視覚的検出およびセグメンテーション タスクの比較軽量ビジュアル ネットワークの新しいバックボーン: 効率的なフーリエ演算子トークン ミキサー

5. 結論

この研究は、潜在空間における周波数領域変換がグローバル適応トークン融合において重要な役割を果たしており、効率的かつ低コストであることを証明しています。電力相当の実装。これは、ニューラル ネットワークのトークン融合演算子の設計に関する新しい研究アイデアを提供し、特にストレージとコンピューティング能力が制限されている場合に、エッジ デバイスにニューラル ネットワーク モデルを展開するための新しい開発スペースを提供します#

以上が軽量ビジュアル ネットワークの新しいバックボーン: 効率的なフーリエ演算子トークン ミキサーの詳細内容です。詳細については、PHP 中国語 Web サイトの他の関連記事を参照してください。

声明:
この記事は51cto.comで複製されています。侵害がある場合は、admin@php.cn までご連絡ください。