Maison >Périphériques technologiques >IA >YOLO est immortel ! YOLOv9 est sorti : performances et vitesse SOTA~

YOLO est immortel ! YOLOv9 est sorti : performances et vitesse SOTA~

王林avant: 2024-02-26 11:31:361542parcourir

Les méthodes d'apprentissage profond d'aujourd'hui se concentrent sur la conception de la fonction objectif la plus appropriée afin que les résultats de prédiction du modèle soient les plus proches de la situation réelle. Dans le même temps, une architecture adaptée doit être conçue pour obtenir suffisamment d’informations pour la prédiction. Les méthodes existantes ignorent le fait que lorsque les données d’entrée subissent une extraction de caractéristiques couche par couche et une transformation spatiale, une grande quantité d’informations sera perdue. Cet article abordera des problèmes importants lors de la transmission de données via des réseaux profonds, à savoir les goulots d'étranglement de l'information et les fonctions réversibles. Sur cette base, le concept d'information de gradient programmable (PGI) est proposé pour faire face aux différents changements requis par les réseaux profonds pour atteindre des objectifs multiples. PGI peut fournir des informations d'entrée complètes pour la tâche cible afin de calculer la fonction objectif, obtenant ainsi des informations de gradient fiables pour mettre à jour les pondérations du réseau. En outre, une nouvelle architecture de réseau légère - GELAN (Generalized Efficient Layer Aggregation Network) basée sur la planification de chemins de gradient est conçue.

Les résultats de la vérification montrent que l'architecture GELAN obtient des avantages significatifs grâce au PGI sur des modèles légers. Les expériences sur l'ensemble de données MS COCO montrent que GELAN combiné avec PGI peut obtenir une meilleure utilisation des paramètres que les méthodes de pointe basées sur la convolution profonde utilisant uniquement des opérateurs de convolution traditionnels. La polyvalence du PGI le rend adapté à une large gamme de modèles, des modèles légers aux grands modèles. Avec PGI, le modèle est entièrement informé, il est donc possible d'obtenir de meilleurs résultats en utilisant un modèle formé à partir de zéro qu'un modèle de pointe pré-entraîné sur un grand ensemble de données.

Adresse de l'article : https://arxiv.org/pdf/2402.13616

Lien du code : https://github.com/WongKinYiu/yolov9

Excellentes performances

Selon la cible en temps réel sur l'ensemble de données MS COCO Les résultats de la comparaison des détecteurs montrent que les méthodes de détection de cibles basées sur GELAN et PGI sont nettement en avance sur les méthodes précédentes formées à partir de zéro en termes de performances de détection de cibles. La nouvelle méthode surpasse RT DETR, qui repose sur un pré-entraînement de grands ensembles de données, en termes de précision, et surpasse également YOLO MS basée sur une conception à convolution profonde en termes d'utilisation des paramètres. Ces résultats indiquent que les méthodes GELAN et PGI présentent des avantages potentiels dans le domaine de la détection de cibles et pourraient devenir des choix technologiques importants dans les recherches et applications futures.

YOLO est immortel ! YOLOv9 est sorti : performances et vitesse SOTA~

La contribution de cet article

analyse théoriquement l'architecture des réseaux neuronaux profonds existante du point de vue des fonctions réversibles. Grâce à ce processus, il explique avec succès de nombreux phénomènes difficiles à expliquer dans le passé. Des branches réversibles PGI et auxiliaires ont également été conçues sur la base de cette analyse et ont obtenu d'excellents résultats.
Le PGI conçu résout le problème selon lequel la supervision approfondie ne peut être utilisée que pour des architectures de réseaux neuronaux extrêmement profondes, rendant la nouvelle architecture légère véritablement applicable au travail quotidien.
Le GELAN conçu utilise uniquement des convolutions traditionnelles pour obtenir une utilisation de paramètres plus élevée que les conceptions à convolution profonde basées sur une technologie de pointe, tout en montrant de grands avantages en termes de légèreté, de rapidité et de précision.
En combinant le PGI et le GELAN proposés, les performances de détection d'objets de YOLOv9 sur l'ensemble de données MS COCO dépassent largement les détecteurs d'objets en temps réel existants dans tous les aspects.

Méthode

PGI et architecture et méthodes de réseau associées

Comme le montre la figure ci-dessous, (a) Réseau d'agrégation de chemins (PAN), (b) Colonne réversible (RevCol), (c) Profondeur traditionnelle supervision, et (d) informations de gradient programmables (PGI) proposées par YOLOv9.

YOLO est immortel ! YOLOv9 est sorti : performances et vitesse SOTA~

PGI est principalement composé de trois composants :

branche principale : l'architecture utilisée pour l'inférence ;
branche auxiliaire réversible : générer des gradients fiables pour la transmission vers l'arrière à partir de la branche principale
informations auxiliaires multi-niveaux : Contrôlez la branche principale pour apprendre des informations sémantiques multi-niveaux programmables.

L'architecture de GELAN

est présentée dans la figure ci-dessous, (a) CSPNet, (b) ELAN et (c) GELAN proposé par YOLOv9. Il imite CSPNet et étend ELAN à GELAN, qui peut prendre en charge n'importe quel bloc informatique.

YOLO est immortel ! YOLOv9 est sorti : performances et vitesse SOTA~

Comparaison des résultats

Comparaison avec les techniques existantes

Le tableau ci-dessous répertorie la comparaison de YOLOv9 avec d'autres détecteurs d'objets en temps réel formés à partir de zéro. Dans l'ensemble, les méthodes les plus performantes parmi les méthodes existantes sont YOLO MS-S pour les modèles légers, YOLO MS pour les modèles moyens, YOLOv7 AF pour les modèles généraux et YOLOv8-X pour les grands modèles. Par rapport au YOLO MS des modèles légers et moyens, YOLOv9 a environ 10 % de paramètres en moins et 5 à 15 % de calculs en moins, mais présente toujours une amélioration de 0,4 à 0,6 % de l'AP. Par rapport à YOLOv7 AF, YOLOv9-C a 42 % de paramètres en moins et 21 % de calculs en moins, mais atteint le même AP (53 %). Par rapport à YOLOv8-X, YOLOv9-X a 15 % de paramètres en moins, 25 % de calculs en moins et une amélioration significative de l'AP, qui a augmenté de 1,7 %. Les résultats de comparaison ci-dessus montrent que YOLOv9 est considérablement amélioré par rapport aux méthodes existantes dans tous les aspects.

YOLO est immortel ! YOLOv9 est sorti : performances et vitesse SOTA~

Comparaison avec des détecteurs d'objets en temps réel de pointe

Les méthodes participant à la comparaison utilisent toutes ImageNet comme poids de pré-entraînement, notamment RT DETR, RTMDet et PP-YOLOE. YOLOv9 utilisant la méthode d'entraînement scratch dépasse clairement les performances des autres méthodes.

YOLO est immortel ! YOLOv9 est sorti : performances et vitesse SOTA~

Résultats visualisés

Carte des caractéristiques (résultats visualisés) : Sortie par poids initiaux aléatoires de PlainNet, ResNet, CSPNet et GELAN à différentes profondeurs. Après 100 couches, ResNet commence à produire une sortie anticipée suffisante pour confondre les informations cibles. Le GELAN proposé ici peut encore conserver des informations assez complètes au niveau de la 150ème couche, et possède toujours une capacité de discrimination suffisante au niveau de la 200ème couche.

YOLO est immortel ! YOLOv9 est sorti : performances et vitesse SOTA~

Cartes de fonctionnalités PAN (résultats de visualisation) de GELAN et YOLOv9 (GELAN + PGI) : Après une série d'échauffement de biais. GELAN présentait une certaine divergence initiale, mais après avoir ajouté la branche réversible de PGI, il était mieux en mesure de se concentrer sur l'objet cible.

YOLO est immortel ! YOLOv9 est sorti : performances et vitesse SOTA~

Résultats de visualisation de cartes de caractéristiques de sortie de poids initial aléatoires pour différentes architectures de réseau : (a) image d'entrée, (b) PlainNet, (c) ResNet, (d) CSPNet et (e) GELAN proposé. On peut voir sur la figure que dans différentes architectures, le degré d'information fourni pour calculer la perte de la fonction objectif est différent, et notre architecture peut conserver les informations les plus complètes et fournir les informations de gradient les plus fiables pour calculer la fonction objectif.

YOLO est immortel ! YOLOv9 est sorti : performances et vitesse SOTA~

Conclusion

Cet article propose d'utiliser PGI pour résoudre le problème des goulots d'étranglement de l'information et le problème selon lequel les mécanismes de supervision profonde ne sont pas adaptés aux réseaux de neurones légers. a conçu GELAN, un réseau de neurones efficace et léger. En termes de détection de cible, GELAN affiche des performances solides et stables sous différents modules informatiques et paramètres de profondeur. Il est en effet largement évolutif vers des modèles adaptés à une variété de dispositifs d'inférence. En réponse aux deux problèmes ci-dessus, l’introduction du PGI permet aux modèles légers et aux modèles profonds d’obtenir des améliorations significatives en termes de précision. YOLOv9, conçu en combinant PGI et GELAN, fait preuve d'une forte compétitivité. Son excellente conception permet au modèle profond de réduire le nombre de paramètres de 49 % et la quantité de calcul de 43 % par rapport à YOLOv8, tout en atteignant une amélioration AP de 0,6 % sur l'ensemble de données MS COCO.

Lien original : https://mp.weixin.qq.com/s/nP4JzVwn1S-MeKAzbf97uw

Ce qui précède est le contenu détaillé de. pour plus d'informations, suivez d'autres articles connexes sur le site Web de PHP en chinois!

架构对象 github YOLO https

Déclaration：

Cet article est reproduit dans:. en cas de violation, veuillez contacter admin@php.cn Supprimer

Article précédent：Plein d'informations utiles ! Première version texte du cours d'IA de deux heures de Master Karpathy, un nouveau flux de travail convertit automatiquement les vidéos en articlesArticle suivant：Plein d'informations utiles ! Première version texte du cours d'IA de deux heures de Master Karpathy, un nouveau flux de travail convertit automatiquement les vidéos en articles

Articles Liés

Voir plus