Maison >Périphériques technologiques >IA >FisheyeDetNet : le premier algorithme de détection de cible basé sur une caméra fisheye
La détection d'objets est un problème relativement mature dans les systèmes de conduite autonome, parmi lesquels la détection des piétons est l'un des premiers algorithmes à être déployés. Des recherches très complètes ont été menées dans la plupart des articles. Cependant, la perception de la distance à l’aide de caméras fisheye pour une vue panoramique est relativement moins étudiée. En raison de la distorsion radiale importante, la représentation standard du cadre de délimitation est difficile à mettre en œuvre dans les caméras fisheye. Pour alléger la description ci-dessus, nous explorons les conceptions étendues de boîtes englobantes, d'ellipses et de polygones généraux dans des représentations polaires/angulaires et définissons une métrique de segmentation d'instance mIOU pour analyser ces représentations. Le modèle fisheyeDetNet proposé avec une forme polygonale surpasse les autres modèles et atteint simultanément une métrique mAP de 49,5 % sur l'ensemble de données de la caméra fisheye Valeo pour la conduite autonome. Il s’agit actuellement de la première étude sur les algorithmes de détection de cibles basés sur des caméras fisheye dans des scénarios de conduite autonome.
Lien de l'article : https://arxiv.org/pdf/2404.13443.pdf
Notre structure de réseau est basée sur le modèle de réseau YOLOv3 et possède de fortes capacités de détection des boîtes englobantes, des boîtes englobantes pivotées, les ellipses et les polygones, etc. sont représentés de différentes manières. Pour permettre au réseau d'être porté sur du matériel automobile basse consommation, nous utilisons ResNet18 comme encodeur. Par rapport à l'encodeur Darknet53 standard, les paramètres sont réduits de plus de 60 %. L'architecture de réseau proposée est présentée dans la figure ci-dessous.
Notre modèle de boîte englobante est le même que YOLOv3, sauf que l'encodeur Darknet53 est remplacé par un encodeur ResNet18. Semblable à YOLOv3, la détection d'objets est effectuée à plusieurs échelles. Pour chaque grille de chaque échelle, prédisez la largeur de l'objet (), la hauteur (), les coordonnées du centre de l'objet (,) et la classe d'objet. Enfin, une suppression non maximale est utilisée pour filtrer les détections redondantes.
Dans ce modèle, l'orientation de la boîte est régressée avec les informations régulières de la boîte (,,,). La plage de vérité terrain directionnelle (-180 à +180°) est normalisée entre -1 et +1.
La régression d'ellipse est la même que la régression de boîte orientée. La seule différence est la représentation de la sortie. La fonction de perte est donc également la même que la perte de boîte dirigée.
Notre méthode de segmentation d'instances basée sur des polygones proposée est très similaire aux méthodes PolarMask et PolyYOLO. Au lieu d'utiliser des points polygonaux clairsemés et des prédictions à échelle unique comme PolyYOLO. Nous utilisons l'annotation de polygones denses et la prédiction multi-échelles.
Nous avons évalué sur l'ensemble de données fisheye de Valeo, qui contient 60 000 images. Les images ont été capturées à partir de 4 caméras à vision panoramique en Europe, en Amérique du Nord et en Asie.
Chaque modèle est comparé à l'aide de la métrique de précision moyenne (mAP) avec un seuil IoU de 50 %. Les résultats sont présentés dans le tableau ci-dessous. Chaque algorithme est évalué sur la base de deux critères : les performances identiques et les performances de segmentation des instances.
Ce qui précède est le contenu détaillé de. pour plus d'informations, suivez d'autres articles connexes sur le site Web de PHP en chinois!