ホームページ >テクノロジー周辺機器 >AI >CNN を基本モデルとして使用する、変形可能な畳み込み InternImage は、検出とセグメンテーションの新記録を達成しました。

CNN を基本モデルとして使用する、変形可能な畳み込み InternImage は、検出とセグメンテーションの新記録を達成しました。

WBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWB転載: 2023-04-12 08:19:082005ブラウズ

近年の大規模ビジュアルトランスフォーマーの開発のブームにより、コンピュータビジョンの分野におけるパフォーマンスの限界が押し上げられています。 Vision Transformer モデルは、モデルパラメーターとトレーニングデータの数を拡張することで、畳み込みニューラルネットワークを打ち負かします。上海人工知能研究所、清華大学、Nanda、SenseTime、Hong Kong Chinese の研究者らは、畳み込みニューラルネットワークとビジュアルトランスフォーマーの間のギャップを要約しました。演算子レベルで見ると、従来の CNN 演算子には長距離依存性と適応空間集約機能が欠けており、構造レベルで見ると、従来の CNN 構造には高度なコンポーネントが欠けています。

上記の技術的問題に対応して、浦江研究所、清華大学、その他の機関の研究者らは、畳み込みニューラルネットワークに基づく大規模モデルと呼ばれる革新的なモデルを提案しました。 InternImage の場合、スパース動的畳み込みをコアオペレーターとして使用し、関連情報を条件として入力することで適応的な空間集約を実現します。 InternImage は、従来の CNN の厳密な帰納的バイアスを軽減することにより、大量のデータからより強力で堅牢な大規模パラメータパターンを学習できるようにします。その有効性は、画像分類、オブジェクト検出、セマンティックセグメンテーションなどの視覚タスクで検証されています。 ImageNet、COCO、ADE20K などの難しいベンチマークデータセットで競争力のある結果を達成し、同じパラメータレベルでビジュアル Transformer 構造を超え、大規模な画像モデルに新しい方向性を提供しました。

##従来の畳み込みニューラルネットワークの制限

CNN を基本モデルとして使用する、変形可能な畳み込み InternImage は、検出とセグメンテーションの新記録を達成しました。

モデルのスケールを拡大することは、特徴表現の品質を向上させるための重要な戦略です。コンピュータービジョンの分野では、モデルの拡張が重要です。パラメータは深さを効果的に高めるだけでなく、モデルには表現学習能力があり、大量のデータからの学習と知識の獲得を実現できます。 ViT と Swin Transformer は、深度モデルを初めて 20 億と 30 億のパラメーターレベルに拡張し、ImageNet データセット内の単一モデルの分類精度も 90% を超え、従来の CNN ネットワークや小規模モデルをはるかに上回りました。技術的なボトルネックを突破します。ただし、長距離依存性と空間関係モデリング機能が欠如しているため、従来の CNN モデルは、Transformer 構造と同様のモデルスケール拡張機能を実現できません。研究者らは、従来の畳み込みニューラルネットワークとビジュアル Transformer の違いを次のように要約しました。

(1) オペレータレベルから見ると、ビジュアル Transformer のマルチヘッドアテンションメカニズムには長距離依存性と適応性があります。空間集約機能の恩恵を受けて、ビジュアル Transformer は、CNN ネットワークよりも強力で堅牢な表現を大量のデータから学習できます。

(2) モデルアーキテクチャの観点から見ると、ビジュアル Transformer には、マルチヘッドアテンションメカニズムに加えて、CNN ネットワークにはない、Layer などのより高度なモジュールがあります。正規化（LN）、フィードフォワードニューラルネットワークFFN、GELUなど

最近の研究の中には、大規模なカーネル畳み込みを使用して長距離の依存関係を取得しようとしているものもありますが、モデルのスケールと点で最先端のビジュアルトランスフォーマーにはまだ程遠いです。正確さ。

変形可能な畳み込みネットワークのさらなる拡張

InternImage は、(1) DCNv3 演算子を含む演算子とモデル構造を再設計することにより、畳み込みモデルのスケーラビリティを向上させ、帰納的バイアスを軽減します。共有投影重み、マルチグループメカニズム、および DCNv2 オペレーターに基づくサンプリングポイント変調を導入します。 (2) 基本モジュール。モデル構築の基本モジュール単位として高度なモジュールを統合します。 (3) モジュールのスタックルール。モデルを拡張する際のモデルの幅、深さ、グループ数、その他のハイパーパラメータを標準化します。

この作業は、大規模なパラメーターに効果的に拡張できる CNN モデルの構築に特化しています。まず、変形可能な畳み込み演算子 DCNv2 が、長距離の依存関係に適応し、誘導バイアスを弱めるように再設計され、次に、調整された畳み込み演算子が高度なコンポーネントと結合されて、基本ユニットモジュールが確立され、最後に、モジュールのスタッキングとスケーリングのルールを調査して実装します。大規模なパラメータを備えたベースモデルを構築し、大量のデータから強力な表現を学習できます。

CNN を基本モデルとして使用する、変形可能な畳み込み InternImage は、検出とセグメンテーションの新記録を達成しました。

この調査では、演算子レベルで、まず、畳み込み演算子と他の主流の演算子の主な違いを要約します。現在主流の Transformer シリーズモデルは、大規模なモデル構築を実現するために主にマルチヘッドセルフアテンションメカニズムに依存しています。その演算子には、長距離フィーチャ間の接続関係を構築するのに十分な長距離依存関係があり、空間適応集約も備わっています。ピクセルレベルの構築を実現する機能。ただし、このグローバルアテンションメカニズムには膨大なコンピューティングとストレージの要件があり、効率的なトレーニングと迅速なコンバージェンスの実現が困難になります。同様に、ローカルアテンションメカニズムには長距離の特徴依存性がありません。大コアの高密度畳み込みには空間集約機能がないため、畳み込みの自然な誘導バイアスを克服するのは難しく、モデルの拡張には役立ちません。したがって、InterImage は、コンピューティングリソースやストレージリソースをあまり浪費することなく、グローバルアテンション効果を達成し、効率的なトレーニングを実現する動的なスパース畳み込み演算子を設計します。

DCNv2 オペレーターをベースに、研究者らは DCNv3 オペレーターを再設計、調整、提案し、具体的な改善点としては以下の部分が挙げられます。

(1) 共有投影の重み。従来の畳み込みと同様に、DCNv2 のさまざまなサンプリングポイントには独立した投影重みがあるため、パラメータサイズはサンプリングポイントの総数と線形に関係します。パラメータとメモリの複雑さを軽減するために、分離可能な畳み込みのアイデアを利用し、位置に依存しない重みを使用してグループ化重みを置き換えます。射影重みは異なるサンプリングポイント間で共有され、すべてのサンプリング位置の依存関係は保持されます。

(2) マルチグループ機構を導入します。マルチグループ設計は、グループ化畳み込みで最初に導入され、Transformer のマルチヘッドセルフアテンションで広く使用されており、適応空間集約と組み合わせることで、機能の多様性を効果的に向上させることができます。これに触発されて、研究者は空間集計プロセスをいくつかのグループに分割し、各グループは独立したサンプリングオフセットを持ちます。それ以来、単一の DCNv3 レイヤーの異なるグループが異なる空間集約パターンを持ち、その結果、機能の多様性が豊富になりました。

(3) サンプリングポイント変調のスカラー正規化。モデル容量が拡張されたときの不安定性の問題を軽減するために、研究者らは正規化モードをサンプルごとにソフトマックス正規化に設定し、これにより大規模モデルのトレーニングプロセスがより安定するだけでなく、すべてのサンプリングポイントのモデル、接続関係。

CNN を基本モデルとして使用する、変形可能な畳み込み InternImage は、検出とセグメンテーションの新記録を達成しました。

DCNv3 オペレーターを構築した後、まず基本モジュールとモデルの他のレイヤーの全体的な詳細を標準化してから、 InterImage を構築するためのスタッキング戦略。最後に、提案されたモデルの展開規則に従って、異なるパラメータ量を持つモデルが構築されます。

基本モジュール。従来の CNN で広く使用されているボトルネック構造とは異なり、この研究では、GELU、レイヤー正規化 (LN)、フィードフォワードネットワーク (FFN) などのより高度なコンポーネントを備えた、ViT に近い基本モジュールを採用しています。さまざまな視覚タスクをより効率的に実行できます。基本モジュールの詳細は上の図に示されており、コアオペレーターは DCNv3 です。DCNv3 は、軽量の分離可能な畳み込みを介して入力特徴を渡すことにより、サンプリングバイアスと変調スケールを予測します。その他のコンポーネントについては、通常のトランスと同じ設計に従います。

オーバーレイルール。ブロックスタッキングプロセスを明確にするために、この研究では 2 つのモジュールスタッキングルールを提案します. 最初のルールは、最後の 3 つのステージのチャネル数です。最初のステージ CNN を基本モデルとして使用する、変形可能な畳み込み InternImage は、検出とセグメンテーションの新記録を達成しました。意思決定、つまり ; 2 番目のルールは、各モジュールのグループ番号が各ステージのチャネル数に対応することです。 CNN を基本モデルとして使用する、変形可能な畳み込み InternImage は、検出とセグメンテーションの新記録を達成しました。 ; 3 番目のスタッキングモードは「AABA」に固定されます。つまり、ステージ 1、2、および 4 のモジュールスタックの数は同じです。、ステージ 3 の値を超えない CNN を基本モデルとして使用する、変形可能な畳み込み InternImage は、検出とセグメンテーションの新記録を達成しました。。したがって、パラメータボリューム 30M のモデルをベースとして選択し、具体的なパラメータは、Steam 出力チャンネル数 CNN を基本モデルとして使用する、変形可能な畳み込み InternImage は、検出とセグメンテーションの新記録を達成しました。 # が 64、グループ数がその 1/16 です。各ステージの入力チャンネル数ステージ 1、2、4 のモジュールスタック CNN を基本モデルとして使用する、変形可能な畳み込み InternImage は、検出とセグメンテーションの新記録を達成しました。の数は 4、ステージ 3 のモジュールスタックの数 18、モデルパラメータは30Mです。モデルのスケーリングルール

。上記の制約の下での最適なモデルに基づいて、この調査では、ネットワークモデルの 2 つのスケーリング次元、深さ D (モジュールスタックの数) と幅 C (チャネルの数) を、制限係数 # を使用して正規化しました。 # および は、複合係数 CNN を基本モデルとして使用する、変形可能な畳み込み InternImage は、検出とセグメンテーションの新記録を達成しました。に沿って深さと幅をスケールします。つまり、、、実験によれば、最適な設定はです。このルールに従って、この研究では、InternImage-T、S、B、L、XL というさまざまなスケールのモデルを構築しました。特定のパラメータは次のとおりです: CNN を基本モデルとして使用する、変形可能な畳み込み InternImage は、検出とセグメンテーションの新記録を達成しました。

実験結果

画像分類実験: 4億2700万の公開データセットを使用: Laion-400M、YFCC15M、CC12M , InternImage-H は、ImageNet-1K 上で 89.2% の精度を実現します。

CNN を基本モデルとして使用する、変形可能な畳み込み InternImage は、検出とセグメンテーションの新記録を達成しました。

#オブジェクト検出: 最大の InternImage-H をバックボーンとして取得ネットワークを構築し、基本的な検出フレームワークとして DINO を使用して、Objects365 データセットで DINO 検出器を事前トレーニングし、COCO で微調整しました。このモデルは、ターゲット検出タスクで 65.4% という最適な結果を達成し、COCO ターゲット検出のパフォーマンス境界を突破しました。

CNN を基本モデルとして使用する、変形可能な畳み込み InternImage は、検出とセグメンテーションの新記録を達成しました。

セマンティックセグメンテーション: セマンティックセグメンテーションについては、InterImage-H Itも非常に優れたパフォーマンスを達成し、Mask2Former と組み合わせると、ADE20K で現在の最高の 62.9% を達成しました。

CNN を基本モデルとして使用する、変形可能な畳み込み InternImage は、検出とセグメンテーションの新記録を達成しました。

結論

本研究は、強力な表現を提供できる新しい CNN ベースの大規模基本モデルである InternImage を提案します。画像分類、オブジェクト検出、セマンティックセグメンテーションなどの多用途の視覚タスク。研究者らは、基本モデルのニーズを満たすように柔軟な DCNv2 オペレーターを調整し、コアオペレーターに基づいて一連のブロッキング、スタッキング、スケーリングルールを開発しました。オブジェクト検出とセマンティックセグメンテーションのベンチマークに関する広範な実験により、InterImage が大量のデータでトレーニングされた適切に設計された大規模ビジュアル Transformer と同等以上のパフォーマンスを達成できることが検証されており、CNN も大規模ビジュアル基本モデルにおいて重要なステップであることが示されています。研究して選んでください。それでも、大規模な CNN はまだ開発の初期段階にあり、研究者らは InterImage が良い出発点として機能することを期待しています。

以上がCNN を基本モデルとして使用する、変形可能な畳み込み InternImage は、検出とセグメンテーションの新記録を達成しました。の詳細内容です。詳細については、PHP 中国語 Web サイトの他の関連記事を参照してください。

声明：

この記事は51cto.comで複製されています。侵害がある場合は、admin@php.cn までご連絡ください。

前の記事：転倒検知、骨格点人間動作認識に基づき、コードの一部はChatgptで完成次の記事：転倒検知、骨格点人間動作認識に基づき、コードの一部はChatgptで完成

続きを見る