ターゲット検出のための最新のディープアーキテクチャはパラメータが半分で、3 倍高速です +-AI-php.cn

ホームページ

テクノロジー周辺機器

ターゲット検出のための最新のディープアーキテクチャはパラメータが半分で、3 倍高速です +

王林

Apr 09, 2023 am 11:41 AM

建築ターゲットの検出深さ

簡単な紹介

研究著者らは、物体検出のための新しいディープアーキテクチャである Matrix Net (xNet) を提案しています。 xNet は、サイズ寸法とアスペクト比が異なるオブジェクトをネットワーク層にマッピングします。ネットワーク層では、オブジェクトのサイズとアスペクト比は層内でほぼ均一です。したがって、xNet はサイズとアスペクト比を認識したアーキテクチャを提供します。研究者は xNet を使用して、キーポイントベースのターゲット検出を強化します。新しいアーキテクチャは、他のシングルショット検出器よりも高い時間効率を実現し、MS COCO データセットで 47.8 mAP を達成しながら、パラメータの半分を使用し、2 番目に優れたフレームワークよりも 3 倍高速にトレーニングします。

簡易結果表示

ターゲット検出のための最新のディープアーキテクチャはパラメータが半分で、3 倍高速です +

上図に示すように、xNet のパラメータと効率は他のモデルをはるかに上回っています。その中でも、FSAF はアンカーベースの検出器の中で最も優れた効果を発揮し、古典的な RetinaNet を上回ります。研究者らによって提案されたモデルは、同様の数のパラメータを備えた他のすべてのシングルショットアーキテクチャよりも優れています。

背景と現在の状況

オブジェクト検出は、コンピュータービジョンで最も広く研究されているタスクの 1 つであり、オブジェクト追跡、インスタンスセグメンテーションなどの他のビジョンタスクにも多くの応用例があります。および画像のキャプション。ターゲット検出構造は、シングルショット検出器と2段階検出器の2つのカテゴリに分類できます。 2 段階検出器は、領域提案ネットワークを利用して固定数のオブジェクト候補を見つけ、次に 2 番目のネットワークを使用して各候補のスコアを予測し、その境界ボックスを改善します。

一般的な 2 段階アルゴリズム

ターゲット検出のための最新のディープアーキテクチャはパラメータが半分で、3 倍高速です +

シングルショット検出器は、アンカーベースの検出器とキーポイントの 2 つのカテゴリに分類することもできます。ベースの検出器。アンカーベースの検出器には多くのアンカー境界ボックスが含まれており、各テンプレートのオフセットとクラスを予測します。最も有名なアンカーベースのアーキテクチャは RetinaNet です。RetinaNet は、アンカー境界ボックスのクラスの不均衡を修正するのに役立つ焦点損失関数を提案しています。最もパフォーマンスの高いアンカーベースの検出器は FSAF です。 FSAF は、アンカーベースの出力をアンカーレス出力ヘッドと統合して、パフォーマンスをさらに向上させます。

一方、キーポイントベースの検出器は、左上と右下のヒートマップを予測し、特徴の埋め込みを使用してそれらを照合します。オリジナルのキーポイントベースの検出器は CornerNet です。これは、特別なコーナープーリングレイヤーを利用して、さまざまなサイズのオブジェクトを正確に検出します。それ以来、Centerne はオブジェクトの中心とコーナーを予測することにより、CornerNet アーキテクチャを大幅に改善しました。

マトリックスネット

下の図は、階層マトリックスを使用して、さまざまなサイズとクラスター横比を持つターゲットをモデル化するマトリックスネット (xNet) を示しています。エントリ i, j of は層 li,j を表します。行列 l1,1 の左上隅の幅は 2^(i-1) でダウンサンプリングされ、高さは 2^(j-1) でダウンサンプリングされます。対角レイヤーは、FPN に相当するさまざまなサイズの正方形レイヤーであり、非対角レイヤーは長方形レイヤーです (これは xNet に固有です)。レイヤ l1,1 が最大のレイヤで、右へ 1 ステップごとにレイヤの幅が半分になり、右へ 1 ステップごとに高さが半分になります。

ターゲット検出のための最新のディープアーキテクチャはパラメータが半分で、3 倍高速です +

#たとえば、レイヤー l3,4 はレイヤー l3,3 の半分の幅です。対角レイヤーはアスペクト比が正方形に近いオブジェクトをモデル化するのに対し、非対角レイヤーはアスペクト比が正方形に近いオブジェクトをモデル化します。マトリックスの右上または左下隅近くのレイヤーは、アスペクト比が極端に高いまたは低いオブジェクトをモデル化します。このようなターゲットは非常にまれであるため、効率を向上させるためにプルーニングできます。

1. レイヤーの生成

マトリックスレイヤーの生成は、モデルパラメーターの数に影響するため、重要なステップです。パラメーターが多いほど、モデルの式が強化され、最適化問題がより困難になるため、研究者は新しいパラメーターをできるだけ少なく導入することを選択します。対角層は、バックボーンのさまざまな段階から、またはフィーチャピラミッドフレームワークを使用して取得できます。上三角レイヤーは、対角レイヤーに 1x2 ストライドを持つ一連の共有 3x3 畳み込みを適用することによって取得されます。同様に、左下の層は、2x1 のストライドで共有 3x3 畳み込みを使用して取得されます。新しいパラメータの数を最小限に抑えるために、パラメータはすべてのダウンサンプリング畳み込み間で共有されます。

2. レイヤー範囲

マトリックスの各レイヤーは、特定の幅と高さでターゲットをモデル化するため、マトリックスの各レイヤーのターゲットに割り当てられる幅と高さを定義する必要があります。範囲。この範囲は、マトリックス層の特徴ベクトルの受容野を反映する必要があります。マトリックスの右への各ステップは水平方向の受容野を効果的に 2 倍にし、各ステップは垂直方向の受容野を 2 倍にします。したがって、マトリックス内で右または下に移動すると、幅または高さの範囲を 2 倍にする必要があります。最初の層 l1,1 の範囲が定義されたら、上記のルールを使用して残りの行列層の範囲を生成できます。

3. 行列ネットの利点

行列ネットの主な利点は、正方畳み込みカーネルがさまざまなアスペクト比に関する情報を正確に収集できることです。 RetinaNet などの従来の物体検出モデルでは、さまざまなアスペクト比とスケールを出力するには正方形コンボリューションカーネルが必要です。境界ボックスの異なる側面には異なる背景が必要となるため、これは直観に反します。マトリックスネットでは、各マトリックス層のコンテキストが変化するため、同じ正方形コンボリューションカーネルを異なるスケールとアスペクト比の境界ボックスに使用できます。

ターゲットサイズは指定されたレイヤー内でほぼ均一であるため、幅と高さのダイナミックレンジは他のアーキテクチャ (FPN など) に比べて小さくなります。したがって、ターゲットの高さと幅を回帰することは、より簡単な最適化問題になります。最後に、マトリックスネットは、アンカーベースまたはキーポイントベースのワンショットまたはツーショット検出器として、任意の物体検出アーキテクチャとして使用できます。

マトリックスネットはキーポイントに基づく検出に使用されます

コーナーネットが提案されたとき、それは代わりに使用されました。アンカーベースの検出では、一対のコーナー (左上と右下) を利用して境界ボックスを予測します。 CornerNet はコーナーごとにヒートマップ、オフセット、エンベディングを予測します。ターゲット検出のための最新のディープアーキテクチャはパラメータが半分で、3 倍高速です +

上の図は、キーポイントに基づくターゲット検出フレームワーク - KP-xNet で、4 つのステップが含まれています。

(a-b): xNet のバックボーンが使用されます;
(c): 共有出力サブネットワークが使用されます、および各マトリックスレイヤーについて、左上隅と右下隅のヒートマップとオフセットが予測され、ターゲットレイヤー内のそれらの中心点が予測されます;
(d ): 中心点予測を使用すると、同じレイヤー内のコーナーが一致し、すべてのレイヤーの出力がソフト非最大抑制と結合されて、最終出力が得られます。

#実験結果

#次の表は、MS COCO データセットの結果を示しています。

ターゲット検出のための最新のディープアーキテクチャはパラメータが半分で、3 倍高速です +

研究者らはまた、さまざまなバックボーンのパラメーターの数に基づいて、新しく提案されたモデルを他のモデルと比較しました。最初の図では、KP-xNet がすべてのパラメーターレベルで他のすべての構造よりも優れていることがわかります。研究者らは、これは KP-xNet がスケールとアスペクト比を意識したアーキテクチャを使用しているためであると考えています。

#論文アドレス: https://arxiv.org/pdf/1908.04646.pdf

以上がターゲット検出のための最新のディープアーキテクチャはパラメータが半分で、3 倍高速です +の詳細内容です。詳細については、PHP 中国語 Web サイトの他の関連記事を参照してください。

声明

この記事は51CTO.COMで複製されています。侵害がある場合は、admin@php.cn までご連絡ください。

Huggingface smollmであなたの個人的なAIアシスタントを構築する方法Apr 18, 2025 am 11:52 AM

オンデバイスAIの力を活用：個人的なチャットボットCLIの構築最近では、個人的なAIアシスタントの概念はサイエンスフィクションのように見えました。ハイテク愛好家のアレックスを想像して、賢くて地元のAI仲間を夢見ています。

メンタルヘルスのためのAIは、スタンフォード大学でのエキサイティングな新しいイニシアチブによって注意深く分析されますApr 18, 2025 am 11:49 AM

AI4MHの最初の発売は2025年4月15日に開催され、有名な精神科医および神経科学者であるLuminary Dr. Tom Insel博士がキックオフスピーカーを務めました。 Insel博士は、メンタルヘルス研究とテクノでの彼の傑出した仕事で有名です

2025年のWNBAドラフトクラスは、成長し、オンラインハラスメントの成長と戦いに参加しますApr 18, 2025 am 11:44 AM

「私たちは、WNBAが、すべての人、プレイヤー、ファン、企業パートナーが安全であり、大切になり、力を与えられたスペースであることを保証したいと考えています」とエンゲルバートは述べ、女性のスポーツの最も有害な課題の1つになったものに取り組んでいます。アノ

Pythonビルトインデータ構造の包括的なガイド-AnalyticsVidhyaApr 18, 2025 am 11:43 AM

導入 Pythonは、特にデータサイエンスと生成AIにおいて、プログラミング言語として優れています。大規模なデータセットを処理する場合、効率的なデータ操作（ストレージ、管理、アクセス）が重要です。以前に数字とstをカバーしてきました

Openaiの新しいモデルからの代替案からの第一印象Apr 18, 2025 am 11:41 AM

潜る前に、重要な注意事項：AIパフォーマンスは非決定論的であり、非常にユースケース固有です。簡単に言えば、走行距離は異なる場合があります。この（または他の）記事を最終的な単語として撮影しないでください。これらのモデルを独自のシナリオでテストしないでください

AIポートフォリオ| AIキャリアのためにポートフォリオを構築する方法は？Apr 18, 2025 am 11:40 AM

傑出したAI/MLポートフォリオの構築：初心者と専門家向けガイド説得力のあるポートフォリオを作成することは、人工知能（AI）と機械学習（ML）で役割を確保するために重要です。このガイドは、ポートフォリオを構築するためのアドバイスを提供します

エージェントAIがセキュリティ運用にとって何を意味するのかApr 18, 2025 am 11:36 AM

結果？燃え尽き症候群、非効率性、および検出とアクションの間の隙間が拡大します。これは、サイバーセキュリティで働く人にとってはショックとしてはありません。しかし、エージェントAIの約束は潜在的なターニングポイントとして浮上しています。この新しいクラス

Google対Openai：学生のためのAIの戦いApr 18, 2025 am 11:31 AM

即時の影響と長期パートナーシップ？ 2週間前、Openaiは強力な短期オファーで前進し、2025年5月末までに米国およびカナダの大学生にChatGpt Plusに無料でアクセスできます。このツールにはGPT ‑ 4o、Aが含まれます。

See all articles

ホットAIツール

Undresser.AI Undress

リアルなヌード写真を作成する AI 搭載アプリ

AI Clothes Remover

写真から衣服を削除するオンライン AI ツール。

Undress AI Tool

脱衣画像を無料で

Clothoff.io

AI衣類リムーバー

AI Hentai Generator

AIヘンタイを無料で生成します。

ホットツール

SecLists

SecLists は、セキュリティテスターの究極の相棒です。これは、セキュリティ評価中に頻繁に使用されるさまざまな種類のリストを 1 か所にまとめたものです。 SecLists は、セキュリティテスターが必要とする可能性のあるすべてのリストを便利に提供することで、セキュリティテストをより効率的かつ生産的にするのに役立ちます。リストの種類には、ユーザー名、パスワード、URL、ファジングペイロード、機密データパターン、Web シェルなどが含まれます。テスターはこのリポジトリを新しいテストマシンにプルするだけで、必要なあらゆる種類のリストにアクセスできるようになります。

SublimeText3 中国語版

中国語版、とても使いやすい

ゼンドスタジオ 13.0.1

強力な PHP 統合開発環境

AtomエディタMac版ダウンロード

最も人気のあるオープンソースエディター

MinGW - Minimalist GNU for Windows

このプロジェクトは osdn.net/projects/mingw に移行中です。引き続きそこでフォローしていただけます。 MinGW: GNU Compiler Collection (GCC) のネイティブ Windows ポートであり、ネイティブ Windows アプリケーションを構築するための自由に配布可能なインポートライブラリとヘッダーファイルであり、C99 機能をサポートする MSVC ランタイムの拡張機能が含まれています。すべての MinGW ソフトウェアは 64 ビット Windows プラットフォームで実行できます。