ホームページ  >  記事  >  テクノロジー周辺機器  >  YOLOは不滅です! YOLOv9 がリリースされました: パフォーマンスとスピード SOTA~

YOLOは不滅です! YOLOv9 がリリースされました: パフォーマンスとスピード SOTA~

王林
王林転載
2024-02-26 11:31:361220ブラウズ

今日の深層学習手法は、モデルの予測結果が実際の状況に最も近くなるように、最適な目的関数を設計することに重点を置いています。同時に、予測に十分な情報を取得するには、適切なアーキテクチャを設計する必要があります。既存の方法は、入力データがレイヤーごとの特徴抽出と空間変換を受けると、大量の情報が失われるという事実を無視しています。この記事では、ディープネットワークを介してデータを送信する際の重要な問題、つまり情報のボトルネックと可逆機能について詳しく説明します。これに基づいて、深層ネットワークが複数の目的を達成するために必要なさまざまな変化に対処するために、プログラマブル勾配情報 (PGI) の概念が提案されています。 PGI は、目的関数を計算するためのターゲット タスクに完全な入力情報を提供することで、ネットワークの重みを更新するための信頼できる勾配情報を取得できます。さらに、新しい軽量ネットワーク アーキテクチャである勾配パス プランニングに基づく一般化効率層集約ネットワーク (GELAN) が設計されています。

検証結果は、GELAN アーキテクチャが軽量モデル上の PGI を通じて大きな利点を得たことを示しています。 MS COCO データセットの実験では、GELAN と PGI を組み合わせた方が、従来の畳み込み演算子のみを使用したディープ畳み込みに基づく最先端の方法よりも優れたパラメーター利用率を達成できることが示されています。 PGIの汎用性により、軽量モデルから大型モデルまで幅広く対応します。 PGI では、モデルに十分な情報が与えられるため、大規模なデータセットで事前トレーニングされた最先端のモデルよりも、最初からトレーニングされたモデルを使用した方が、より良い結果を達成することができます。

記事のアドレス: https://arxiv.org/pdf/2402.13616

コードリンク: https://github.com/WongKinYiu/yolov9

素晴らしいパフォーマンス

MS COCO データセットでのリアルタイムのターゲット検出器の比較結果によると、GELAN および PGI に基づくターゲット検出方法は、ターゲット検出の点で、最初からトレーニングされた以前の方法よりも大幅に優れています。パフォーマンス。新しい手法は、精度の点で大規模なデータセットの事前トレーニングに依存する RT DETR を上回り、パラメーターの利用の点でもディープ コンボリューション設計に基づく YOLO MS を上回ります。これらの結果は、GELAN および PGI 手法がターゲット検出の分野で潜在的な利点を持っており、将来の研究や応用において重要な技術の選択肢となる可能性があることを示しています。

YOLOは不滅です! YOLOv9 がリリースされました: パフォーマンスとスピード SOTA~

#この記事の寄稿

    既存のディープ ニューラル ネットワーク アーキテクチャを可逆関数の観点から理論的に分析します。このプロセスにより、これまで説明が困難であった多くの現象を説明することに成功しました。 PGI および補助可逆分岐もこの分析に基づいて設計され、優れた結果を達成しました。
  1. によって設計された PGI は、深い監視が非常に深いニューラル ネットワーク アーキテクチャにのみ使用できるという問題を解決し、新しい軽量アーキテクチャを日常業務に真に適用できるようにします。
  2. 設計された GELAN は、従来の畳み込みのみを使用して、最先端のテクノロジーに基づく深い畳み込み設計よりも高いパラメーターの使用量を実現しながら、軽量、高速、正確であるという大きな利点を示します。
  3. 提案された PGI と GELAN を組み合わせると、MS COCO データセット上の YOLOv9 の物体検出パフォーマンスは、あらゆる面で既存のリアルタイム物体検出器を大幅に上回ります。

方法

PGI および関連するネットワーク アーキテクチャと方法

下の図に示すように、(a ) パス集約ネットワーク (PAN)、(b) 可逆カラム (RevCol)、(c) 従来の深い監視、および (d) YOLOv9 によって提案されたプログラム可能な勾配情報 (PGI)。

YOLOは不滅です! YOLOv9 がリリースされました: パフォーマンスとスピード SOTA~

PGI は主に 3 つのコンポーネントで構成されます:

    メイン ブランチ: 推論に使用されるアーキテクチャ;
  1. 補助可逆ブランチ: メイン ブランチが逆方向に送信するための信頼できる勾配を生成します。
  2. マルチレベルの補助情報: 計画可能なマルチレベルのセマンティック情報を学習するためにメイン ブランチを制御します。

GELAN のアーキテクチャ

下図に示すように、YOLOv9 が提案する (a) CSPNet、(b) ELAN、(c) GELAN です。 。 CSPNet を模倣し、ELAN を GELAN に拡張し、あらゆるコンピューティング ブロックをサポートできます。

YOLOは不滅です! YOLOv9 がリリースされました: パフォーマンスとスピード SOTA~

結果の比較

既存技術との比較

次の表に示します。 YOLOv9 と、最初からトレーニングされた他のリアルタイム物体検出器との比較が示されています。全体として、既存の手法の中で最もパフォーマンスが高い手法は、軽量モデルの場合は YOLO MS-S、中型モデルの場合は YOLO MS、一般モデルの場合は YOLOv7 AF、大規模モデルの場合は YOLOv8-X です。 YOLOv9 は軽量モデルや中型モデルの YOLO MS と比較してパラメータが約 10%、計算量が 5 ~ 15% 減少していますが、AP は 0.4 ~ 0.6% 向上しています。 YOLOv7 AF と比較して、YOLOv9-C ではパラメータが 42% 少なく、計算が 21% 少ないにもかかわらず、同じ AP (53%) を達成します。 YOLOv8-X と比較して、YOLOv9-X ではパラメーターが 15% 減少し、計算が 25% 減少し、AP が 1.7% 増加して大幅に改善されました。上記の比較結果は、YOLOv9 があらゆる面で既存の方法に比べて大幅に改善されていることを示しています。

YOLOは不滅です! YOLOv9 がリリースされました: パフォーマンスとスピード SOTA~

最先端のリアルタイム物体検出器との比較

比較に参加するメソッドはすべて、RT DETR、RTMDet、PP-YOLOE などの ImageNet を事前トレーニングの重みとして使用します。等スクラッチ トレーニング手法を使用した YOLOv9 は、他の手法のパフォーマンスを明らかに上回っています。

YOLOは不滅です! YOLOv9 がリリースされました: パフォーマンスとスピード SOTA~

結果の視覚化

機能マップ (結果の視覚化): PlainNet 作成、異なる深さでの ResNet、CSPNet、GELAN のランダムな初期重み出力。 100 層を超えると、ResNet はターゲット情報を混乱させるのに十分なフィードフォワード出力を生成し始めます。ここで提案するGELANは、150層目でもかなり完全な情報を保持でき、200層目でも十分な識別能力を持っている。

YOLOは不滅です! YOLOv9 がリリースされました: パフォーマンスとスピード SOTA~

GELAN および YOLOv9 (GELAN PGI) の PAN 機能マップ (視覚化結果): バイアス ウォームアップのラウンド後。 GELAN には初期の分岐がいくつかありましたが、PGI の可逆分岐を追加した後は、ターゲット オブジェクトに焦点を当てることができるようになりました。

YOLOは不滅です! YOLOv9 がリリースされました: パフォーマンスとスピード SOTA~

さまざまなネットワーク アーキテクチャのランダムな初期重み出力特徴マップの視覚化された結果: (a) 入力画像、(b) PlainNet、(c) ResNet、(d) CSPNet、および (e) 提案された GELAN。図からわかるように、アーキテクチャが異なると、目的関数の損失を計算するために提供される情報の程度が異なりますが、私たちのアーキテクチャは、最も完全な情報を保持し、目的関数を計算するための最も信頼できる勾配情報を提供できます。

YOLOは不滅です! YOLOv9 がリリースされました: パフォーマンスとスピード SOTA~

結論

この論文では、PGI を使用して、情報のボトルネックと、適切ではない深い監視メカニズムの問題を解決することを提案します。軽量ニューラル ネットワークの質問です。効率的で軽量なニューラル ネットワークである GELAN を設計しました。ターゲット検出に関しては、GELAN はさまざまなコンピューティング モジュールと深度設定の下で強力で安定したパフォーマンスを示します。実際、さまざまな推論デバイスに適したモデルに幅広く拡張可能です。上記 2 つの問題に対して、PGI の導入により、軽量モデルと深層モデルの両方で大幅な精度の向上が可能になります。 YOLOv9 は PGI と GELAN を組み合わせて設計されており、強力な競争力を示します。その優れた設計により、ディープ モデルは YOLOv8 と比較してパラメータ数を 49%、計算量を 43% 削減しながらも、MS COCO データ セットで 0.6% の AP 改善を達成しています。

元のリンク: https://mp.weixin.qq.com/s/nP4JzVwn1S-MeKAzbf97uw

以上がYOLOは不滅です! YOLOv9 がリリースされました: パフォーマンスとスピード SOTA~の詳細内容です。詳細については、PHP 中国語 Web サイトの他の関連記事を参照してください。

声明:
この記事は51cto.comで複製されています。侵害がある場合は、admin@php.cn までご連絡ください。