ホームページ >テクノロジー周辺機器 >AI >YOLOは不滅です! YOLOv9 がリリースされました: パフォーマンスとスピード SOTA~
今日の深層学習手法は、モデルの予測結果が実際の状況に最も近くなるように、最適な目的関数を設計することに重点を置いています。同時に、予測に十分な情報を取得するには、適切なアーキテクチャを設計する必要があります。既存の方法は、入力データがレイヤーごとの特徴抽出と空間変換を受けると、大量の情報が失われるという事実を無視しています。この記事では、ディープネットワークを介してデータを送信する際の重要な問題、つまり情報のボトルネックと可逆機能について詳しく説明します。これに基づいて、深層ネットワークが複数の目的を達成するために必要なさまざまな変化に対処するために、プログラマブル勾配情報 (PGI) の概念が提案されています。 PGI は、目的関数を計算するためのターゲット タスクに完全な入力情報を提供することで、ネットワークの重みを更新するための信頼できる勾配情報を取得できます。さらに、新しい軽量ネットワーク アーキテクチャである勾配パス プランニングに基づく一般化効率層集約ネットワーク (GELAN) が設計されています。
検証結果は、GELAN アーキテクチャが軽量モデル上の PGI を通じて大きな利点を得たことを示しています。 MS COCO データセットの実験では、GELAN と PGI を組み合わせた方が、従来の畳み込み演算子のみを使用したディープ畳み込みに基づく最先端の方法よりも優れたパラメーター利用率を達成できることが示されています。 PGIの汎用性により、軽量モデルから大型モデルまで幅広く対応します。 PGI では、モデルに十分な情報が与えられるため、大規模なデータセットで事前トレーニングされた最先端のモデルよりも、最初からトレーニングされたモデルを使用した方が、より良い結果を達成することができます。
記事のアドレス: https://arxiv.org/pdf/2402.13616
コードリンク: https://github.com/WongKinYiu/yolov9
MS COCO データセットでのリアルタイムのターゲット検出器の比較結果によると、GELAN および PGI に基づくターゲット検出方法は、ターゲット検出の点で、最初からトレーニングされた以前の方法よりも大幅に優れています。パフォーマンス。新しい手法は、精度の点で大規模なデータセットの事前トレーニングに依存する RT DETR を上回り、パラメーターの利用の点でもディープ コンボリューション設計に基づく YOLO MS を上回ります。これらの結果は、GELAN および PGI 手法がターゲット検出の分野で潜在的な利点を持っており、将来の研究や応用において重要な技術の選択肢となる可能性があることを示しています。
比較に参加するメソッドはすべて、RT DETR、RTMDet、PP-YOLOE などの ImageNet を事前トレーニングの重みとして使用します。等スクラッチ トレーニング手法を使用した YOLOv9 は、他の手法のパフォーマンスを明らかに上回っています。
機能マップ (結果の視覚化): PlainNet 作成、異なる深さでの ResNet、CSPNet、GELAN のランダムな初期重み出力。 100 層を超えると、ResNet はターゲット情報を混乱させるのに十分なフィードフォワード出力を生成し始めます。ここで提案するGELANは、150層目でもかなり完全な情報を保持でき、200層目でも十分な識別能力を持っている。
GELAN および YOLOv9 (GELAN PGI) の PAN 機能マップ (視覚化結果): バイアス ウォームアップのラウンド後。 GELAN には初期の分岐がいくつかありましたが、PGI の可逆分岐を追加した後は、ターゲット オブジェクトに焦点を当てることができるようになりました。
さまざまなネットワーク アーキテクチャのランダムな初期重み出力特徴マップの視覚化された結果: (a) 入力画像、(b) PlainNet、(c) ResNet、(d) CSPNet、および (e) 提案された GELAN。図からわかるように、アーキテクチャが異なると、目的関数の損失を計算するために提供される情報の程度が異なりますが、私たちのアーキテクチャは、最も完全な情報を保持し、目的関数を計算するための最も信頼できる勾配情報を提供できます。
この論文では、PGI を使用して、情報のボトルネックと、適切ではない深い監視メカニズムの問題を解決することを提案します。軽量ニューラル ネットワークの質問です。効率的で軽量なニューラル ネットワークである GELAN を設計しました。ターゲット検出に関しては、GELAN はさまざまなコンピューティング モジュールと深度設定の下で強力で安定したパフォーマンスを示します。実際、さまざまな推論デバイスに適したモデルに幅広く拡張可能です。上記 2 つの問題に対して、PGI の導入により、軽量モデルと深層モデルの両方で大幅な精度の向上が可能になります。 YOLOv9 は PGI と GELAN を組み合わせて設計されており、強力な競争力を示します。その優れた設計により、ディープ モデルは YOLOv8 と比較してパラメータ数を 49%、計算量を 43% 削減しながらも、MS COCO データ セットで 0.6% の AP 改善を達成しています。
元のリンク: https://mp.weixin.qq.com/s/nP4JzVwn1S-MeKAzbf97uw
以上がYOLOは不滅です! YOLOv9 がリリースされました: パフォーマンスとスピード SOTA~の詳細内容です。詳細については、PHP 中国語 Web サイトの他の関連記事を参照してください。