ホームページ >テクノロジー周辺機器 >AI >清華大学が引き継ぎ、YOLOv10 が登場しました。パフォーマンスが大幅に向上し、GitHub のホット リストに掲載されました。
ターゲット検出システムのベンチマークであるYOLOシリーズが再び大幅にアップグレードされました。
今年 2 月の YOLOv9 のリリース以来、YOLO (You Only Look Once) シリーズのバトンは清華大学の研究者の手に渡されました。
先週末、YOLOv10 のリリースのニュースが AI コミュニティの注目を集めました。これは、コンピュータ ビジョンの分野における画期的なフレームワークと考えられており、リアルタイムのエンドツーエンドの物体検出機能で知られており、効率と精度を組み合わせた強力なソリューションを提供することで YOLO シリーズの伝統を継承しています。
論文アドレス: https://arxiv.org/pdf/2405.14458
プロジェクトアドレス: https://github.com/THU-MIG/yolov10
新バージョン以降
YOLO は、その強力なパフォーマンスと低消費電力のため、常にリアルタイムターゲット検出の分野で主要なパラダイムであり続けています。コンピューティング能力。このフレームワークは、自動運転、監視、物流などのさまざまな実用的なアプリケーションで広く使用されています。効率的かつ正確な物体検出機能により、歩行者や車両をリアルタイムで識別するなどのタスクに最適であり、物流分野では在庫管理や荷物追跡に役立ち、AI 機能により多くのタスクの効率を向上させることができます。
過去数年にわたって、研究者たちは YOLO のアーキテクチャ設計、最適化目標、データ強化戦略などを研究し、大きな進歩を遂げてきました。ただし、後処理が非最大抑制 (NMS) に依存しているため、YOLO のエンドツーエンド展開が妨げられ、推論レイテンシに悪影響を及ぼします。さらに、YOLO の個々のコンポーネントの設計には包括的かつ徹底的な検討が欠けており、その結果、計算量が大幅に冗長になり、モデルの機能が制限されます。
YOLOv10 の画期的な点は、後処理とモデル アーキテクチャの観点から YOLO のパフォーマンス効率の境界をさらに改善することです。
この目的のために、研究チームは、YOLOのパフォーマンスと推論レイテンシーの点で改善されるYOLOフリーのNMSトレーニングのための一貫した二重割り当て(一貫した二重割り当て)を初めて提案しました。
研究チームは、YOLO の全体的な効率と精度を重視したモデル設計戦略を提案し、効率と精度の観点から YOLO の各コンポーネントを完全に最適化し、コンピューティングのオーバーヘッドを大幅に削減し、モデルの機能を強化しました。
広範な実験により、YOLOv10 がさまざまなモデル スケールで SOTA のパフォーマンスと効率を達成することが示されています。たとえば、YOLOv10-S は、COCO 上の同様の AP で RT-DETR-R18 よりも 1.8 倍高速であり、パラメータと FLOP の数を大幅に削減します。 YOLOv9-C と比較すると、YOLOv10-B は同じパフォーマンスでレイテンシが 46% 減少し、パラメータが 25% 減少しています。
全体的な効率と精度を重視したモデル設計を達成するために、研究チームは効率と精度の2つの側面から改善方法を提案しました。
効率を向上させるために、この研究では、明らかな計算の冗長性を削減し、より効率的なアーキテクチャを達成するために、軽量の分類ヘッド、空間チャネル(空間チャネル)の分離されたダウンサンプリング、ソートガイド付きブロック設計を提案しています。
精度を向上させるために、研究チームは大規模なカーネル畳み込みを調査し、モデルの機能を強化し、低コストでパフォーマンス向上の可能性を引き出す効果的な部分セルフアテンション (PSA) モジュールを提案しました。これらの方法に基づいて、チームは、YOLOv10-N/S/M/B/L/X という、さまざまな規模の一連のリアルタイム エンドツーエンド検出器の実装に成功しました。
NMS フリーのトレーニングのための一貫した二重割り当て
トレーニング中、YOLO は通常、TAL を利用して複数の陽性サンプルを各インスタンスに割り当てます。 1 対多の割り当てアプローチは、最適化を促進し、モデルが優れたパフォーマンスを達成できるようにする豊富な監視信号を生成します。
ただし、これには YOLO が NMS の後処理に依存する必要があり、デプロイ時の推論効率が最適ではなくなります。これまでの研究では、冗長な予測を抑制するために 1 対 1 のマッチングが検討されてきましたが、多くの場合、追加の推論オーバーヘッドが発生します。
1 対多の割り当てとは異なり、1 対 1 マッチングでは各グラウンド トゥルースに 1 つの予測のみが割り当てられ、NMS の後処理が回避されます。ただし、これでは監視が不十分になり、精度と収束速度が理想的ではなくなります。幸いなことに、この欠点は 1 対多の割り当てによって解決できます。
この研究で提案された「二重ラベル割り当て」は、上記 2 つの戦略の利点を組み合わせたものです。以下の図に示すように、この研究では YOLO 用の別の 1 対 1 ヘッドを導入します。元の 1 対多分岐と同じ構造を保持し、同じ最適化目標を採用しますが、ラベル割り当てを取得するために 1 対 1 マッチングを利用します。トレーニング中、2 つのヘッドは共同で最適化され、推論中に豊富な監視を提供します。YOLOv10 は 1 対多のヘッドを破棄し、1 対 1 のヘッドを利用して予測を行います。これにより、追加の推論コストを発生させることなく、YOLO をエンドツーエンドで導入できるようになります。
全体的な効率と精度主導のモデル設計
後処理に加えて、YOLO のモデル アーキテクチャは、効率と精度のトレードオフに対して大きな課題ももたらします。これまでの研究活動ではさまざまな設計戦略が検討されてきましたが、YOLO のさまざまなコンポーネントの包括的な調査はまだ不足しています。したがって、モデル アーキテクチャは無視できない計算冗長性と制限された機能を示します。
YOLO のコンポーネントには、ステム、ダウンサンプリング レイヤー、基本的な構成要素を備えたステージ、ヘッドが含まれます。筆者は主に以下の 3 つの部分について効率重視のモデル設計を行っています。
精度主導のモデル設計を達成するために、研究チームはさらに検討した 採用する大規模なカーネル畳み込みとセルフアテンション メカニズムにより、最小限のコストでモデルのパフォーマンスを向上させます。
表 1 に示すように、清華チームによって開発された YOLOv10 は、さまざまなモデル スケールで SOTA パフォーマンスとエンドツーエンド レイテンシーを達成しました。
この研究では、YOLOv10-S および YOLOv10-M のアブレーション実験も実施しました。実験結果を次の表に示します。最適な AP と遅延のトレードオフにより、一貫した一致メトリックによって最適なパフォーマンスが実現されます。
以下の表に示すように、軽量分類ヘッド、空間チャネル分離ダウンサンプリング、順序ガイド付きモジュール設計などの各設計コンポーネントは、パラメーター数、FLOP、遅延の削減に貢献します。重要なのは、これらの改善は優れたパフォーマンスを維持しながら達成されるということです。
精度主導のモデル設計のための分析。研究者らは、YOLOv10-S/M に基づいて精度重視の設計要素を段階的に統合した結果を発表しています。
表 10 に示すように、ラージコア コンボリューション モジュールと PSA モジュールを使用すると、YOLOv10-S のパフォーマンスが 0.4% AP と 1.4% AP 大幅に向上し、最小遅延増加はそれぞれ 0.03ms と 0.15ms でした。
以上が清華大学が引き継ぎ、YOLOv10 が登場しました。パフォーマンスが大幅に向上し、GitHub のホット リストに掲載されました。の詳細内容です。詳細については、PHP 中国語 Web サイトの他の関連記事を参照してください。