YOLOv6 の高速かつ正確なターゲット検出フレームワークがオープンソース化されました-AI-php.cn

ホームページ

テクノロジー周辺機器

YOLOv6 の高速かつ正確なターゲット検出フレームワークがオープンソース化されました

王林

May 09, 2023 pm 02:52 PM

美団オープンソース

著者: Chu Yi、Kai Heng など

最近、Meituan のビジュアルインテリジェンス部門は、検出精度と推論効率を同時に重視できる産業アプリケーション専用のターゲット検出フレームワーク YOLOv6 を開発しました。時間。研究開発プロセス中、ビジュアルインテリジェンス部門は、学界や産業界からの最先端の開発や科学研究の結果を活用しながら、探索と最適化を続けました。信頼できるターゲット検出データセットである COCO での実験結果では、YOLOv6 が検出精度と速度の点で同規模の他のアルゴリズムを上回っていることが示されており、さまざまな異なるプラットフォームの展開もサポートしており、プロジェクト展開時の適応作業が大幅に簡素化されています。。これはオープンソースであり、より多くの学生を支援することを期待しています。

1. 概要

YOLOv6 は、Meituan のビジュアルインテリジェンス部門によって開発されたターゲット検出フレームワークであり、産業用アプリケーションに特化しています。このフレームワークは、検出精度と推論効率の両方に重点を置いており、業界で一般的に使用されているサイズモデルの中で、YOLOv6-nano の精度は COCO で最大 35.0% AP、推論速度は です。 T4。1242 FPS; YOLOv6-s は、COCO で 43.1% AP の精度、T4 で 520 FPS の推論速度を達成できます。デプロイメントに関して、YOLOv6 は、GPU (TensorRT)、CPU (OPENVINO)、ARM (MNN、TNN、NCNN) などのさまざまなプラットフォームのデプロイメントをサポートします。これにより、プロジェクト展開時の適応作業が大幅に簡素化されます。現在、プロジェクトは Github、ポータル: YOLOv6 にオープンソース化されています。困っている友達は、Star にアクセスして収集し、いつでもアクセスしてください。

YOLOv5 や YOLOX をはるかに超える精度と速度を実現した新しいフレームワーク

オブジェクト検出は、コンピュータビジョン分野の基礎技術として、広く利用されています。中でも YOLO シリーズアルゴリズムは、総合的なパフォーマンスが優れているため、ほとんどの産業アプリケーションで徐々に推奨されるフレームワークになりました。これまで、業界は多くの YOLO 検出フレームワークを導き出してきました。その中には、YOLOv5^[1]、YOLOX^[2]、PP-YOLOE^[3] があります。最も代表的なパフォーマンスですが、実際に使用してみると、上記のフレームワークには速度と精度の点でまだ改善の余地があることがわかりました。これに基づいて、業界の既存の先進技術を研究および活用することにより、新しいターゲット検出フレームワーク YOLOv6 を開発しました。このフレームワークは、モデルのトレーニング、推論、マルチプラットフォーム展開などの産業アプリケーション要件の完全なチェーンをサポートし、ネットワーク構造やトレーニング戦略などのアルゴリズムレベルで多くの改善と最適化を行っています。COCO データセットでは、YOLOv6同じサイズの他のアルゴリズムを上回る、関連する結果を以下の図 1 に示します。 1 YOLOv6 モデルの各サイズと他モデルのパフォーマンスの比較

YOLOv6 の高速かつ正確なターゲット検出フレームワークがオープンソース化されました

図 1-2 YOLOv6 と他のモデルのパフォーマンス比較異なる解像度の他のモデル

YOLOv6 の高速かつ正確なターゲット検出フレームワークがオープンソース化されました図 1-1

は、異なるサイズのネットワークにおける各検出アルゴリズムのパフォーマンスの比較を示しています。曲線上の点は、それぞれ検出アルゴリズムのパフォーマンスを表しています異なるサイズのネットワーク (s /tiny/nano) モデルのパフォーマンスでは、図からわかるように、YOLOv6 は精度と速度の点で同じサイズの他の YOLO シリーズアルゴリズムを上回っています。。図 1-2 は、入力解像度が変化したときの各検出ネットワークモデルのパフォーマンスの比較を示しています。曲線上の点は左から右に、画像解像度が順次増加するときを表します (384/448/512/576 / 640) このモデルのパフォーマンスは、図からわかるように、さまざまな解像度の下でも YOLOv6 が大きなパフォーマンス上の利点を維持しています。 2. YOLOv6 の主要テクノロジーの紹介YOLOv6 では、主に背骨、首、頭、トレーニング戦略において多くの改善が加えられています:

私たちは、統合された方法でより効率的なバックボーンとネックを設計しました。ハードウェア対応ニューラルネットワークの設計アイデアに触発され、RepVGG スタイルに基づいて再パラメータ化可能でより効率的な設計を設計しました。 [4]^{EfficientRep バックボーンと Rep-PAN ネック。}
より簡潔で効果的な効率的な分離ヘッドは、精度を維持しながら、一般的な分離ヘッドによって生じる追加の遅延オーバーヘッドをさらに削減するように最適化および設計されています。
トレーニング戦略に関しては、SimOTA[2]^{ラベル割り当て戦略と SIoU}[ 9] ^{境界ボックス回帰損失により、検出精度がさらに向上します。}

2.1 ハードウェアに優しいバックボーンネットワーク設計

YOLOv5/YOLOX で使用されるバックボーンとネックは両方とも CSPNet に基づいて構築されています[5]^{、マルチブランチアプローチと残差構造を使用します。 GPU などのハードウェアの場合、この構造によりレイテンシがある程度増加し、メモリ帯域幅の使用率が低下します。以下の図 2 は、コンピュータアーキテクチャの分野におけるルーフラインモデル}#[8]^{の紹介であり、ハードウェアのコンピューティング能力とメモリ帯域幅の関係を示しています。}

YOLOv6 の高速かつ正確なターゲット検出フレームワークがオープンソース化されました

図2 ルーフラインモデル紹介図

そこで、ハードウェアを意識したニューラルネットワーク設計、バックボーンとネックが再設計され、最適化されました。この考え方は、ハードウェアの特性と推論フレームワーク/コンパイルフレームワークの特性を踏まえ、ハードウェアとコンパイルしやすい構造を設計原則とし、ハードウェアの計算能力、メモリ帯域幅などを総合的に考慮してネットワークを構築します。、コンパイル最適化特性、ネットワーク表現機能などを確認し、高速で良好なネットワーク構造を取得します。上記の 2 つの再設計された検出コンポーネントについて、YOLOv6 ではそれぞれ EfficientRep Backbone と Rep-PAN Neck と呼びます。これらの主な貢献は次のとおりです:

RepVGG の導入[ 4]^{スタイル構造。}
バックボーンとネックはハードウェアを意識した考え方に基づいて再設計されました。

RepVGG[4]^{スタイル構造はトレーニング中はマルチブランチトポロジであり、実際のデプロイメント中に単一の 3x3 に等価に融合できます。畳み込みの構造 (}融合プロセスは以下の図 3 に示されています)。融合された 3x3 畳み込み構造により、計算集約型のハードウェア (GPU など) の計算能力を効果的に利用でき、GPU/CPU 上の高度に最適化された NVIDIA cuDNN および Intel MKL コンパイルフレームワークの助けも得られます。得られる。。

実験の結果、上記の戦略により、YOLOv6 はハードウェア遅延を削減し、アルゴリズムの精度を大幅に向上させ、検出ネットワークをより高速かつ強力にすることがわかりました。ナノサイズモデルを例にとると、YOLOv5-nano で使用されるネットワーク構造と比較して、この方法では速度が 21% 向上し、精度が 3.6% AP 向上します。

YOLOv6 の高速かつ正確なターゲット検出フレームワークがオープンソース化されました

図 3 Rep オペレーターの融合プロセス[4]

EfficientRep Backbone: バックボーンの設計に関しては、上記の Rep オペレーターに基づいて効率的なバックボーンを設計しました。 YOLOv5 で使用される CSP-Backbone と比較して、この Backbone はハードウェア (GPU など) の計算能力を効率的に利用でき、強力な表現能力も備えています。

下の図 4 は EfficientRep Backbone の具体的な設計構造図で、Backbone の stride=2 の通常の Conv 層を stride=2 の RepConv 層に置き換えています。同時に、元の CSP ブロックは RepBlock に再設計され、RepBlock の最初の RepConv が変換され、チャネルの次元が調整されます。さらに、元の SPPF をより効率的な SimSPPF に最適化します。

YOLOv6 の高速かつ正確なターゲット検出フレームワークがオープンソース化されました

図 4 EfficientRep バックボーン構造図

Rep-PAN:ネック設計に関しては、ハードウェアでの推論をより効率的にし、精度と速度のより良いバランスを達成するために、ハードウェアを意識したニューラルネットワーク設計のアイデアに基づいて、YOLOv6 のより効果的な機能融合ネットワーク構造を設計しました。

Rep-PAN は PAN^[6] トポロジに基づいており、RepBlock を使用して YOLOv5 で使用されている CSP-Block を置き換え、同時にネック全体のオペレーターを調整します。その目的は、ハードウェア上で効率的な推論を実現しながら、優れたマルチスケール機能融合機能を維持することです (Rep-PAN 構造図は以下の図 5 に示されています)。

YOLOv6 の高速かつ正確なターゲット検出フレームワークがオープンソース化されました

図 5 Rep-PAN 構造図

2.2 より簡潔で効率的な分離ヘッド

YOLOv6 では、分離型検出ヘッド (Decoupled Head) 構造を採用し、設計を合理化しています。オリジナルの YOLOv5 の検出ヘッドは分類ブランチと回帰ブランチをマージして共有することによって実装されていますが、YOLOX の検出ヘッドは分類ブランチと回帰ブランチを分離し、さらに 2 つの 3x3 畳み込み層を追加しています。検出精度は向上していますが、ネットワーク遅延はある程度増加します。

したがって、関連する演算子の表現能力とハードウェアの計算オーバーヘッドとのバランスを考慮してデカップリングヘッドの設計を合理化し、ハイブリッドを使用して再設計しました。チャネル戦略より効率的なデカップリングヘッド構造が開発され、精度を維持しながら遅延が削減され、デカップリングヘッドの 3x3 畳み込みによって生じる追加の遅延オーバーヘッドが軽減されます。ナノサイズのモデルでアブレーション実験を実施し、同じチャネル数のデカップリングヘッド構造を比較することにより、精度が 0.2% AP 向上し、速度が 6.8% 向上しました。

YOLOv6 の高速かつ正確なターゲット検出フレームワークがオープンソース化されました

#図 6 効率的な分離ヘッド構造図

2.3 より効果的なトレーニング戦略

#検出精度をさらに向上させるために、私たちは学界や産業界の他の検出フレームワークからの高度な研究の進歩を活用しています:アンカーフリーアンカーフリーパラダイム、SimOTAラベル割り当て戦略、SIoUバウンディングボックス回帰損失。

アンカーフリーアンカーフリーパラダイム

YOLOv6 は、より簡潔なアンカーフリー検出方法を採用しています。アンカーベースの検出器は、トレーニング前にクラスター分析を実行して最適なアンカーセットを決定する必要があるため、検出器の複雑さがある程度増加します。同時に、一部のエッジエンドアプリケーションでは、多数の検出結果が発生します。ハードウェアステップ間で転送する必要がある場合も、追加の遅延が発生します。アンカーフリーアンカーフリーパラダイムは、その強力な一般化能力とより単純なデコードロジックにより、近年広く使用されています。アンカーフリーに関する実験的研究の結果、アンカーベースの検出器の複雑さによって生じる追加の遅延と比較して、アンカーフリー検出器では速度が 51% 向上していることがわかりました。

SimOTA ラベル割り当て戦略

より高品質の陽性サンプルを取得するために、YOLOv6 は SimOTA

[4]## を導入しました。 #このアルゴリズムは、検出精度をさらに向上させるために、陽性サンプルを動的に割り当てます。 YOLOv5 のラベル割り当て戦略はシェイプマッチングに基づいており、クロスグリッドマッチング戦略を通じて陽性サンプルの数を増やすことで、ネットワークを迅速に収束させることができます。ただし、この方法は静的な割り当て方法であり、それに沿って調整されることはありません。ネットワークトレーニングプロセスを使用します。

近年、動的ラベル割り当てに基づいた手法が多数登場しており、このような手法では、トレーニングプロセス中にネットワーク出力に基づいて陽性サンプルが割り当てられ、より高品質な陽性サンプルが生成されます。、ひいてはネットワークの前向き最適化を促進します。たとえば、OTA[7]

はサンプルマッチングを最適な伝送問題としてモデル化し、グローバル情報の下で最適なサンプルマッチング戦略を取得して精度を向上させますが、OTA は Sinkhorn-Knopp アルゴリズムを使用するため、トレーニングに時間がかかりますが延長され、SimOTA

[4] アルゴリズムは Top-K 近似戦略を使用してサンプルの最適一致を取得するため、トレーニングが大幅に高速化されます。したがって、YOLOv6 は SimOTA 動的割り当て戦略を採用し、それをアンカーフリーパラダイムと組み合わせて、ナノサイズモデルで平均検出精度を 1.3% AP 向上させます。 SIoU バウンディングボックス回帰損失

回帰精度をさらに向上させるために、YOLOv6 は SIoU を採用しています。 [9 ]

ネットワークの学習を監視する境界ボックス回帰損失関数。ターゲット検出ネットワークのトレーニングには、通常、分類損失とバウンディングボックス回帰損失という少なくとも 2 つの損失関数の定義が必要です。損失関数の定義は、多くの場合、検出精度とトレーニング速度に大きな影響を与えます。

近年、一般的に使用されるバウンディングボックス回帰損失には、IoU、GIoU、CIoU、DIoU損失などが含まれます。これらの損失関数は、予測フレームとターゲットフレームの間の重なりの程度、中心点などの要素を考慮します。 2 つの間のギャップを測定し、それによってネットワークが損失を最小限に抑えて回帰精度を向上させるように誘導しますが、これらの方法では、予測ボックスとターゲットボックスの間の方向の一致は考慮されていません。 SIoU 損失関数は、必要な回帰間にベクトル角を導入することで距離損失を再定義し、回帰の自由度を効果的に低減し、ネットワークの収束を加速し、回帰精度をさらに向上させます。 YOLOv6s での実験に SIoU 損失を使用すると、CIoU 損失と比較して、平均検出精度が 0.3% AP 向上しました。

3. 実験結果

上記の最適化戦略と改善により、YOLOv6 はさまざまなサイズの複数のモデルで優れたパフォーマンスを達成しました。以下の表 1 は、YOLOv6-nano のアブレーション実験結果を示しており、実験結果から、当社が独自に設計した検出ネットワークにより、精度と速度の両方で大きな向上がもたらされたことがわかります。 YOLOv6 の高速かつ正確なターゲット検出フレームワークがオープンソース化されました

表 1 YOLOv6 ナノアブレーション実験結果以下の表 2 は、現在主流の他の YOLO シリーズアルゴリズムと比較した YOLOv6 の実験結果を示しています。表から次のことがわかります。

YOLOv6 の高速かつ正確なターゲット検出フレームワークがオープンソース化されました

#表 2 さまざまなサイズの YOLOv6 モデルと他のモデルのパフォーマンスの比較

YOLOv6-nano は、COCO val で 35.0% AP の精度を達成しました。同時に、T4 での推論に TRT FP16 バッチサイズ = 32 を使用すると、1242FPS のパフォーマンスを達成できます。 nano、精度が 7% AP 増加、速度が 85% 増加します。
YOLOv6-tiny は、COCO val で 41.3% AP の精度を達成しました。同時に、T4 での推論に TRT FP16 バッチサイズ = 32 を使用すると、602FPS のパフォーマンスを達成できます。 YOLOv5 -s と比較して、精度が 3.9% AP、速度が 29.4% 向上します。
YOLOv6-s は、COCO val で 43.1% AP の精度を達成しました。同時に、T4 での推論に TRT FP16 バッチサイズ = 32 を使用すると、520FPS のパフォーマンスを達成できます。 YOLOX -s と比較すると、精度が 2.6% AP 向上し、速度が 38.6% 向上します。PP-YOLOE-s と比較して、精度が 0.4% AP 向上し、単一バッチ推論に T4 上の TRT FP16 を使用すると、速度が 0.4% 向上します。 71.3%。

4. 概要と展望

この記事では、ターゲット検出フレームワークにおける Meituan Visual Intelligence 部門の最適化と実践経験を紹介します。 , 私たちは、YOLO シリーズフレームワークのトレーニング戦略、バックボーンネットワーク、マルチスケール特徴融合、検出ヘッドなどを考えて最適化し、新しい検出フレームワーク YOLOv6 を設計しました。当初の目的は、実際に発生した問題を解決することにありました。産業用アプリケーションの実装に関する質問です。

YOLOv6 フレームワークを構築する際、ハードウェアを意識したニューラルネットワーク設計アイデアに基づいて、自社開発の EfficientRep Backbone、Rep-Neck、Efficient Decoupled Head などのいくつかの新しい手法を検討し、最適化しました。また、アンカーフリー、SimOTA、SIoU 回帰損失など、学界や産業界での最先端の開発や成果も活用しています。 COCO データセットの実験結果は、YOLOv6 が検出精度と速度の点で最高であることを示しています。

# 今後も、YOLOv6 エコシステムの構築と改善を続けていきます。主な作業には次の側面が含まれます。 YOLOv6 モデルの全範囲に対応し、引き続き検出パフォーマンスを向上させます。

以上がYOLOv6 の高速かつ正確なターゲット検出フレームワークがオープンソース化されましたの詳細内容です。詳細については、PHP 中国語 Web サイトの他の関連記事を参照してください。

声明

この記事は51CTO.COMで複製されています。侵害がある場合は、admin@php.cn までご連絡ください。

Excelの丸い関数は何ですか？ - 分析VidhyaApr 17, 2025 am 10:56 AM

正確な数値データのためのMicrosoft Excelのラウンド関数のマスター数字はスプレッドシートの基本ですが、精度と読みやすさを達成するには、生データだけではありません。 Microsoft Excelのラウンド機能は、TRAの強力なツールです

Llamaindexを使用した反射エージェントのガイドApr 17, 2025 am 10:41 AM

AI Intelligenceの強化：LlamainDexを使用して反射性AIエージェントに深く飛び込む問題を解決するだけでなく、改善する独自の思考プロセスを反映しているAIを想像してください。これは反射性AIエージェントの領域であり、この記事では

ラングチェーンでベクトル埋め込みを計算して保存する方法は？Apr 17, 2025 am 10:37 AM

強化されたコンテンツの取得のためのラングチェーンとベクトルの埋め込みを活用します以前の記事では、クエリ関連のコンテンツ抽出のためのデータの読み込みと分割技術をカバーしました。この記事は、ベクトル埋め込みを使用して高度なデータ検索を掘り下げています

2025年にデータサイエンスフレッシュを雇用する上位13社Apr 17, 2025 am 10:30 AM

データサイエンスキャリア：2024年の成功のためのトップ企業とヒント最近のデータサイエンス卒業生と多国籍企業（MNC）を目指している最終年のエンジニアリング学生には、多くの選択肢があります。このガイドは、データを採用する大手企業を強調しています

Genaiで魅力的な顧客体験を作成する方法は？Apr 17, 2025 am 10:27 AM

生成AIでの顧客体験の強化：戦略的アプローチ顧客満足度は最重要であり、企業は並外れた体験を提供する必要性をますます認識しています。顧客の70％以上がパーソナライズされたサービスを望んでいます

Flux.1、Gemma 2、Sam 2などをフィーチャーしたAIブレークスルーApr 17, 2025 am 10:26 AM

AI週刊ダイジェスト：画期的な革新と倫理的考慮事項 AV BYTESへようこそ、最もエキサイティングなAIの進歩の毎週のまとめ！今週のハイライトは、テキストからイメージの生成、モデルエフィシーの驚くべき進歩を披露します

データサイエンスとコンピューターサイエンスApr 17, 2025 am 10:25 AM

導入志を同じくする仲間、影響力のある技術者、そしてIT愛好家に囲まれた技術会議に参加していると想像してください。群衆の中で、あなたは誤って2人の専門家が自分の仕事について議論しているのを聞きました。つまり、病気の予測における機械学習の適用に情熱を傾けるデータ科学者です。また、ソフトウェア向けに設計した新しいアーキテクチャを説明することに興奮しているコンピューター科学者。注意深く聞くと、彼らの目標はすべてテクノロジー関連ですが、使用する戦略とツールは非常に異なることがわかります。この発見はあなたの好奇心に影響を与えました：データサイエンスとコンピューターサイエンスの違いは何ですか？これらの2つの魅力的な領域、それらの特定のコンテンツと将来の技術者が行くところについての洞察を得るために、この旅に一緒に出演しましょう