簡単な紹介
研究著者らは、物体検出のための新しいディープ アーキテクチャである Matrix Net (xNet) を提案しています。 xNet は、サイズ寸法とアスペクト比が異なるオブジェクトをネットワーク層にマッピングします。ネットワーク層では、オブジェクトのサイズとアスペクト比は層内でほぼ均一です。したがって、xNet はサイズとアスペクト比を認識したアーキテクチャを提供します。研究者は xNet を使用して、キーポイントベースのターゲット検出を強化します。新しいアーキテクチャは、他のシングルショット検出器よりも高い時間効率を実現し、MS COCO データセットで 47.8 mAP を達成しながら、パラメータの半分を使用し、2 番目に優れたフレームワークよりも 3 倍高速にトレーニングします。
簡易結果表示
上図に示すように、xNet のパラメータと効率は他のモデルをはるかに上回っています。その中でも、FSAF はアンカーベースの検出器の中で最も優れた効果を発揮し、古典的な RetinaNet を上回ります。研究者らによって提案されたモデルは、同様の数のパラメータを備えた他のすべてのシングルショット アーキテクチャよりも優れています。
背景と現在の状況
オブジェクト検出は、コンピューター ビジョンで最も広く研究されているタスクの 1 つであり、オブジェクト追跡、インスタンス セグメンテーションなどの他のビジョン タスクにも多くの応用例があります。および画像のキャプション。ターゲット検出構造は、シングルショット検出器と2段階検出器の2つのカテゴリに分類できます。 2 段階検出器は、領域提案ネットワークを利用して固定数のオブジェクト候補を見つけ、次に 2 番目のネットワークを使用して各候補のスコアを予測し、その境界ボックスを改善します。
一般的な 2 段階アルゴリズム
シングルショット検出器は、アンカーベースの検出器とキーポイントの 2 つのカテゴリに分類することもできます。ベースの検出器。アンカーベースの検出器には多くのアンカー境界ボックスが含まれており、各テンプレートのオフセットとクラスを予測します。最も有名なアンカーベースのアーキテクチャは RetinaNet です。RetinaNet は、アンカー境界ボックスのクラスの不均衡を修正するのに役立つ焦点損失関数を提案しています。最もパフォーマンスの高いアンカーベースの検出器は FSAF です。 FSAF は、アンカーベースの出力をアンカーレス出力ヘッドと統合して、パフォーマンスをさらに向上させます。
一方、キーポイント ベースの検出器は、左上と右下のヒートマップを予測し、特徴の埋め込みを使用してそれらを照合します。オリジナルのキーポイント ベースの検出器は CornerNet です。これは、特別なコーナー プーリング レイヤーを利用して、さまざまなサイズのオブジェクトを正確に検出します。それ以来、Centerne はオブジェクトの中心とコーナーを予測することにより、CornerNet アーキテクチャを大幅に改善しました。
マトリックス ネット
下の図は、階層マトリックスを使用して、さまざまなサイズとクラスター横比を持つターゲットをモデル化するマトリックス ネット (xNet) を示しています。エントリ i, j of は層 li,j を表します。行列 l1,1 の左上隅の幅は 2^(i-1) でダウンサンプリングされ、高さは 2^(j-1) でダウンサンプリングされます。対角レイヤーは、FPN に相当するさまざまなサイズの正方形レイヤーであり、非対角レイヤーは長方形レイヤーです (これは xNet に固有です)。レイヤ l1,1 が最大のレイヤで、右へ 1 ステップごとにレイヤの幅が半分になり、右へ 1 ステップごとに高さが半分になります。
#たとえば、レイヤー l3,4 はレイヤー l3,3 の半分の幅です。対角レイヤーはアスペクト比が正方形に近いオブジェクトをモデル化するのに対し、非対角レイヤーはアスペクト比が正方形に近いオブジェクトをモデル化します。マトリックスの右上または左下隅近くのレイヤーは、アスペクト比が極端に高いまたは低いオブジェクトをモデル化します。このようなターゲットは非常にまれであるため、効率を向上させるためにプルーニングできます。
1. レイヤーの生成
マトリックス レイヤーの生成は、モデル パラメーターの数に影響するため、重要なステップです。パラメーターが多いほど、モデルの式が強化され、最適化問題がより困難になるため、研究者は新しいパラメーターをできるだけ少なく導入することを選択します。対角層は、バックボーンのさまざまな段階から、またはフィーチャ ピラミッド フレームワークを使用して取得できます。上三角レイヤーは、対角レイヤーに 1x2 ストライドを持つ一連の共有 3x3 畳み込みを適用することによって取得されます。同様に、左下の層は、2x1 のストライドで共有 3x3 畳み込みを使用して取得されます。新しいパラメータの数を最小限に抑えるために、パラメータはすべてのダウンサンプリング畳み込み間で共有されます。
2. レイヤー範囲
マトリックスの各レイヤーは、特定の幅と高さでターゲットをモデル化するため、マトリックスの各レイヤーのターゲットに割り当てられる幅と高さを定義する必要があります。範囲。この範囲は、マトリックス層の特徴ベクトルの受容野を反映する必要があります。マトリックスの右への各ステップは水平方向の受容野を効果的に 2 倍にし、各ステップは垂直方向の受容野を 2 倍にします。したがって、マトリックス内で右または下に移動すると、幅または高さの範囲を 2 倍にする必要があります。最初の層 l1,1 の範囲が定義されたら、上記のルールを使用して残りの行列層の範囲を生成できます。
3. 行列ネットの利点
行列ネットの主な利点は、正方畳み込みカーネルがさまざまなアスペクト比に関する情報を正確に収集できることです。 RetinaNet などの従来の物体検出モデルでは、さまざまなアスペクト比とスケールを出力するには正方形コンボリューション カーネルが必要です。境界ボックスの異なる側面には異なる背景が必要となるため、これは直観に反します。マトリックス ネットでは、各マトリックス層のコンテキストが変化するため、同じ正方形コンボリューション カーネルを異なるスケールとアスペクト比の境界ボックスに使用できます。
ターゲット サイズは指定されたレイヤー内でほぼ均一であるため、幅と高さのダイナミック レンジは他のアーキテクチャ (FPN など) に比べて小さくなります。したがって、ターゲットの高さと幅を回帰することは、より簡単な最適化問題になります。最後に、マトリックス ネットは、アンカーベースまたはキーポイントベースのワンショットまたはツーショット検出器として、任意の物体検出アーキテクチャとして使用できます。
マトリックス ネットはキー ポイントに基づく検出に使用されます
コーナーネットが提案されたとき、それは代わりに使用されました。アンカーベースの検出では、一対のコーナー (左上と右下) を利用して境界ボックスを予測します。 CornerNet はコーナーごとにヒートマップ、オフセット、エンベディングを予測します。
上の図は、キーポイントに基づくターゲット検出フレームワーク - KP-xNet で、4 つのステップが含まれています。
- (a-b): xNet のバックボーンが使用されます;
- (c): 共有出力サブネットワークが使用されます、および各マトリックス レイヤーについて、左上隅と右下隅のヒートマップとオフセットが予測され、ターゲット レイヤー内のそれらの中心点が予測されます;
- (d ): 中心点予測を使用すると、同じレイヤー内のコーナーが一致し、すべてのレイヤーの出力がソフト非最大抑制と結合されて、最終出力が得られます。
#次の表は、MS COCO データ セットの結果を示しています。
研究者らはまた、さまざまなバックボーンのパラメーターの数に基づいて、新しく提案されたモデルを他のモデルと比較しました。最初の図では、KP-xNet がすべてのパラメーター レベルで他のすべての構造よりも優れていることがわかります。研究者らは、これは KP-xNet がスケールとアスペクト比を意識したアーキテクチャを使用しているためであると考えています。
#論文アドレス: https://arxiv.org/pdf/1908.04646.pdf
以上がターゲット検出のための最新のディープ アーキテクチャはパラメータが半分で、3 倍高速です +の詳細内容です。詳細については、PHP 中国語 Web サイトの他の関連記事を参照してください。

Microsoft PowerBIチャートでデータ視覚化の力を活用する 今日のデータ駆動型の世界では、複雑な情報を非技術的な視聴者に効果的に伝えることが重要です。 データの視覚化は、このギャップを橋渡しし、生データを変換するi

エキスパートシステム:AIの意思決定力に深く飛び込みます 医療診断から財務計画まで、あらゆることに関する専門家のアドバイスにアクセスできることを想像してください。 それが人工知能の専門家システムの力です。 これらのシステムはプロを模倣します

まず第一に、これがすぐに起こっていることは明らかです。さまざまな企業が、現在AIによって書かれているコードの割合について話しており、これらは迅速なクリップで増加しています。すでに多くの仕事の移動があります

映画業界は、デジタルマーケティングからソーシャルメディアまで、すべてのクリエイティブセクターとともに、技術的な岐路に立っています。人工知能が視覚的なストーリーテリングのあらゆる側面を再構築し始め、エンターテイメントの風景を変え始めたとき

ISROの無料AI/MLオンラインコース:地理空間技術の革新へのゲートウェイ インド宇宙研究機関(ISRO)は、インドのリモートセンシング研究所(IIRS)を通じて、学生と専門家に素晴らしい機会を提供しています。

ローカル検索アルゴリズム:包括的なガイド 大規模なイベントを計画するには、効率的なワークロード分布が必要です。 従来のアプローチが失敗すると、ローカル検索アルゴリズムは強力なソリューションを提供します。 この記事では、Hill ClimbingとSimulについて説明します

このリリースには、GPT-4.1、GPT-4.1 MINI、およびGPT-4.1 NANOの3つの異なるモデルが含まれており、大規模な言語モデルのランドスケープ内のタスク固有の最適化への動きを示しています。これらのモデルは、ようなユーザー向けインターフェイスをすぐに置き換えません

Chip Giant Nvidiaは、月曜日に、AI Supercomputersの製造を開始すると述べました。これは、大量のデータを処理して複雑なアルゴリズムを実行できるマシンを初めて初めて米国内で実行します。発表は、トランプSI大統領の後に行われます


ホットAIツール

Undresser.AI Undress
リアルなヌード写真を作成する AI 搭載アプリ

AI Clothes Remover
写真から衣服を削除するオンライン AI ツール。

Undress AI Tool
脱衣画像を無料で

Clothoff.io
AI衣類リムーバー

AI Hentai Generator
AIヘンタイを無料で生成します。

人気の記事

ホットツール

MantisBT
Mantis は、製品の欠陥追跡を支援するために設計された、導入が簡単な Web ベースの欠陥追跡ツールです。 PHP、MySQL、Web サーバーが必要です。デモおよびホスティング サービスをチェックしてください。

SAP NetWeaver Server Adapter for Eclipse
Eclipse を SAP NetWeaver アプリケーション サーバーと統合します。

VSCode Windows 64 ビットのダウンロード
Microsoft によって発売された無料で強力な IDE エディター

SublimeText3 英語版
推奨: Win バージョン、コードプロンプトをサポート!

ZendStudio 13.5.1 Mac
強力な PHP 統合開発環境
