Maison  >  Article  >  Périphériques technologiques  >  YoloCS : réduisez efficacement la complexité spatiale des cartes de fonctionnalités

YoloCS : réduisez efficacement la complexité spatiale des cartes de fonctionnalités

WBOY
WBOYoriginal
2024-06-12 17:49:26304parcourir

YoloCS : réduisez efficacement la complexité spatiale des cartes de fonctionnalités

Adresse papier : YOLOCS : Détection d'objets basée sur la compression de canal dense pour la solidification spatiale des caractéristiques (arxiv.org)

Résumé du 01

Dans le partage d'aujourd'hui, le chercheur a examiné les caractéristiques de la purification des caractéristiques et du gradient. corrélation entre les caractéristiques des canaux et les noyaux de convolution lors de la rétropropagation, en se concentrant sur la propagation vers l'avant et vers l'arrière au sein du réseau. Par conséquent, les chercheurs ont proposé une méthode de solidification de l’espace de fonctionnalités appelée compression de canal dense. Sur la base des concepts de base de la méthode, deux modules innovants pour les réseaux de base et de tête sont introduits : la compression de canal dense (DCFS) pour la solidification de l'espace de fonctionnalités et la tête découplée à compression multi-niveaux asymétrique (ADH). Lorsqu'ils sont intégrés au modèle YOLOv5, ces deux modules ont démontré des performances extraordinaires, aboutissant à un modèle amélioré connu sous le nom de YOLOCS.

YoloCS : réduisez efficacement la complexité spatiale des cartes de fonctionnalités YoloCS : réduisez efficacement la complexité spatiale des cartes de fonctionnalités

Évalués sur l'ensemble de données MSCOCO, les AP des modèles YOLOCS grand, moyen et petit sont respectivement de 50,1%, 47,6% et 42,5%. Tout en conservant une vitesse d'inférence similaire à celle du modèle YOLOv5, les modèles YOLOCS grand, moyen et petit ont obtenu respectivement des avantages de 1,1 %, 2,3 % et 5,2 % par rapport à l'AP de YOLOv5.

02 Contexte

Ces dernières années, la technologie de détection d'objets a reçu une large attention dans le domaine de la vision par ordinateur. Parmi eux, la technologie de détection de cible basée sur l'algorithme multi-boîte à tir unique (Single Shot Multi Box Detector, appelé SSD) et la technologie de détection de cible basée sur le réseau neuronal convolutif (Convolutional Neural Networks, appelé CNN) sont les deux technologies de détection de cibles les plus couramment utilisées. Cependant, en raison de la faible précision de l'algorithme multi-trame à tir unique et de la grande complexité informatique de la technologie de détection de cible basée sur les réseaux neuronaux convolutifs, la recherche d'une technologie de détection de cible efficace et de haute précision est devenue un point chaud dans la recherche actuelle. un.

YoloCS : réduisez efficacement la complexité spatiale des cartes de fonctionnalités

Dense Channel Compression (DCC) est une nouvelle technologie de compression de réseau neuronal convolutif qui permet la compression et l'accélération des paramètres de réseau en solidifiant spatialement les cartes de caractéristiques dans le réseau neuronal convolutif. Cependant, l’application de la technologie DCC dans le domaine de la détection de cibles n’a pas été entièrement étudiée. La technologie Dense Channel Compression (DCC) vise à améliorer l’efficacité des calculs en réduisant le nombre de paramètres réseau. Plus précisément, DCC réduit le nombre de paramètres de la couche convolutive en effectuant une compression de canal sur la carte des caractéristiques de sortie de la couche convolutive. Cette technique de compression peut être obtenue en supprimant les canaux redondants et inutiles, ou en utilisant des méthodes telles que la décomposition de bas rang. Bien que la technologie DCC soit très efficace dans les tâches de classification d'images, une technologie de détection de cible basée sur la compression de canal dense est proposée, nommée YOLOCS (YOLO with Dense Channel Compression). La technologie YOLOCS combine la technologie DCC avec l'algorithme YOLO (You Only Look Once) pour obtenir un traitement efficace et de haute précision de la détection de cible. Plus précisément, la technologie YOLOCS utilise la technologie DCC pour solidifier spatialement la carte des caractéristiques, obtenant ainsi un positionnement précis de la position cible en même temps, la technologie YOLOCS utilise les caractéristiques de l'algorithme multi-trame unique de l'algorithme YOLO pour obtenir une classification rapide des cibles ; calcul.

03 Nouveau cadreYoloCS : réduisez efficacement la complexité spatiale des cartes de fonctionnalités

Compression de canal dense pour la structure de solidification spatiale des caractéristiques (DCFS)

  • Dans la méthode proposée (image (c) ci-dessus), le chercheur a non seulement résolu l'équilibre Le problème entre la largeur et la profondeur du réseau compresse également les fonctionnalités de différentes couches de profondeur via une convolution 3 × 3, réduisant de moitié le nombre de canaux avant la sortie et la fusion des fonctionnalités. Cette approche permet aux chercheurs d'affiner davantage les résultats des caractéristiques de différentes couches, améliorant ainsi la diversité et l'efficacité des caractéristiques pendant la phase de fusion.

De plus, les fonctionnalités compressées de chaque couche sont dotées de poids de noyau de convolution plus importants (3 × 3), élargissant ainsi le champ de réception des fonctionnalités de sortie. Cette approche est appelée compression de canal dense solidifié par espace de fonctionnalités. La raison d'être de la compression de canal dense pour la solidification de l'espace des fonctionnalités repose sur l'utilisation de noyaux de convolution plus grands pour faciliter la compression de canal. Cette technique présente deux avantages clés : premièrement, elle étend le champ réceptif de perception des caractéristiques lors de la propagation vers l'avant, garantissant ainsi que les détails des caractéristiques pertinents au niveau régional sont incorporés afin de minimiser la perte de caractéristiques tout au long de l'étape de compression. Deuxièmement, l’amélioration des détails des erreurs lors de la rétropropagation des erreurs permet un ajustement plus précis du poids.

Pour illustrer davantage ces deux avantages, deux canaux sont compressés à l'aide de convolutions avec deux types de noyau différents (1×1 et 3×3), comme indiqué ci-dessous :

YoloCS : réduisez efficacement la complexité spatiale des cartes de fonctionnalités

Réseau de DCFS La structure est illustrée dans la figure ci-dessous. Une structure de goulot d'étranglement à trois couches est adoptée pour compresser progressivement le canal pendant le processus de propagation vers l'avant du réseau. La convolution demi-canal 3 × 3 est appliquée à toutes les branches, suivie par des couches de fonctions de normalisation par lots (BN) et d'activation. Par la suite, une couche convolutionnelle 1 × 1 est utilisée pour compresser les canaux de fonctionnalités de sortie afin qu'ils correspondent aux canaux de fonctionnalités d'entrée. Afin de résoudre le problème de la tête découplée dans le modèle YOLOX, les chercheurs ont mené une série de tests. Recherche et expérimentation. Les résultats révèlent une corrélation logique entre l'utilisation de structures de tête découplées et les fonctions de perte associées. Plus précisément, pour différentes tâches, la structure de la tête de découplage doit être ajustée en fonction de la complexité du calcul des pertes. De plus, lorsque la structure de tête découplée est appliquée à diverses tâches, la compression directe des canaux de fonctionnalités de la couche précédente (comme indiqué ci-dessous) dans les canaux de tâches peut entraîner une perte significative de fonctionnalités en raison des différences dans les dimensions de sortie finale. Ceci, à son tour, peut nuire aux performances globales du modèle.

YoloCS : réduisez efficacement la complexité spatiale des cartes de fonctionnalités

  • De plus, lorsque l'on considère la méthode de compression de canal dense proposée pour la solidification de l'espace de fonctionnalités, la réduction directe du nombre de canaux dans la couche finale pour correspondre aux canaux de sortie peut entraîner une perte de fonctionnalités lors de la propagation vers l'avant, réduisant ainsi les performances du réseau. . Dans le même temps, dans le contexte de la rétropropagation, cette structure peut conduire à une rétropropagation des erreurs sous-optimale, entravant la réalisation de la stabilité du gradient. Pour relever ces défis, une nouvelle tête de découplage est introduite, appelée tête de découplage à compression asymétrique à plusieurs étages (voir la figure (b) ci-dessous). Plus précisément, les chercheurs ont approfondi le chemin du réseau dédié à la tâche de notation cible et ont utilisé 3 convolutions pour élargir le champ réceptif et le nombre de paramètres de la tâche. Dans le même temps, les caractéristiques de chaque couche convolutive sont compressées le long de la dimension du canal. Ce procédé non seulement atténue efficacement la difficulté de formation liée à la tâche de notation cible et améliore les performances du modèle, mais réduit également considérablement les paramètres et les GFLOP du module de tête découplé, améliorant ainsi considérablement la vitesse d'inférence. De plus, 1 couche convolutive est utilisée pour séparer les tâches de classification et de boîte englobante. En effet, pour les échantillons positifs appariés, les pertes associées aux deux tâches sont relativement faibles, évitant ainsi une extension excessive. Cette approche réduit considérablement les paramètres et les GFLOP dans l'en-tête de découplage, augmentant ainsi la vitesse d'inférence. 04 Visualisation de l'expérience

Expérience d'ablation sur MS-COCO val2017

YoloCS : réduisez efficacement la complexité spatiale des cartes de fonctionnalités

Comparaison de YOLOCS, YOLOX et YOLOv5-r6.1[7] en termes d'AP sur MS-COCO 2017 test-dev

YoloCS : réduisez efficacement la complexité spatiale des cartes de fonctionnalités

Ce qui précède est le contenu détaillé de. pour plus d'informations, suivez d'autres articles connexes sur le site Web de PHP en chinois!

Déclaration:
Le contenu de cet article est volontairement contribué par les internautes et les droits d'auteur appartiennent à l'auteur original. Ce site n'assume aucune responsabilité légale correspondante. Si vous trouvez un contenu suspecté de plagiat ou de contrefaçon, veuillez contacter admin@php.cn