Maison >Périphériques technologiques >IA >Plus de 70 % de mAP pour la première fois ! GeMap : Carte locale de haute précision SOTA à nouveau actualisée

Plus de 70 % de mAP pour la première fois ! GeMap : Carte locale de haute précision SOTA à nouveau actualisée

WBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBavant: 2023-12-15 10:46:00684parcourir

Écrit ci-dessus et compréhension personnelle de l'auteur

La construction de cartes vectorisées de haute précision basées sur les données de capteurs en temps réel est cruciale pour les tâches en aval telles que la prévision et la planification, et peut efficacement compenser les mauvaises performances en temps réel du mode hors ligne. cartes de haute précision. Avec le développement de l'apprentissage profond, la construction de cartes vectorielles en ligne de haute précision a progressivement émergé, et des ouvrages représentatifs tels que HDMapNet, MapTR, etc. ont vu le jour les uns après les autres. Cependant, les méthodes existantes de construction de cartes vectorielles en ligne de haute précision manquent d'exploration des propriétés géométriques des éléments cartographiques (y compris la forme des éléments, les relations verticales, parallèles et autres relations géométriques).

Propriétés géométriques des cartes vectorisées de haute précision

Les cartes vectorisées de haute précision résument fortement les éléments sur la route et représentent chaque élément de la carte sous la forme d'une séquence de points bidimensionnelle. La conception des routes urbaines a des spécifications spécifiques. Par exemple, dans la plupart des cas, les passages pour piétons sont carrés rectangulaires ou parallélogrammes ; Différents éléments des cartes haute définition présentent également de nombreuses caractéristiques similaires. Ces règles de bon sens sont résumées dans les propriétés géométriques des cartes haute précision, y compris la forme des éléments cartographiques (rectangle, parallélogramme, ligne droite, etc. ), ou différentes cartes Relations entre éléments (parallèles, verticales, etc.). Les propriétés géométriques limitent fortement la représentation des éléments cartographiques. Si vous comprenez parfaitement les propriétés géométriques de la construction de modèles en ligne, vous pouvez obtenir des résultats plus précis.

Proposer l'importance de la représentation géométrique pour les cartes de haute précision

Bien qu'en théorie, il soit encore possible pour les modèles existants d'apprendre les propriétés géométriques des éléments cartographiques, les caractéristiques des propriétés géométriques déterminent que, du moins dans les conditions traditionnelles design, le modèle n'est pas facile à apprendre.

coordonnées absolues

des éléments de la carte (dans le système de coordonnées du véhicule) continuent de changer. La forme des passages pour piétons, des voies, des limites des routes, etc. ne changera pas, de même que la relation parallèle entre les voies ne changera pas. Les propriétés géométriques des éléments cartographiques sont objectives et l'une de ses caractéristiques importantes est l'invariance. Plus précisément, il s'agit de invariance rigide (restant invariant à la transformation en rotation et en translation). Les travaux antérieurs, qu'ils utilisent une simple représentation polyligne ou des courbes polynomiales avec des points de contrôle (telles que les courbes de Bézier, les courbes de Bézier par morceaux), sont tous basés sur des coordonnées absolues et de bout en bout sur la base de l'optimisation des coordonnées absolues. L'objectif d'optimisation basé sur les coordonnées absolues lui-même n'a pas d'invariance rigide, il est donc difficile de s'attendre à ce que la solution optimale locale dans laquelle s'inscrit le modèle contienne une compréhension des propriétés géométriques. Par conséquent, une représentation capable de caractériser pleinement les propriétés géométriques et de présenter une certaine invariance est nécessaire.

Figure 1. Exemple d'invariance géométrique.

首次超过70% mAP！GeMap：局部高精地图SOTA再次刷新 Lorsque le véhicule tourne à droite, les coordonnées absolues changeront considérablement. L'image de droite montre un scénario réel correspondant.

Conception de GeMap

Représentation géométrique

Compte tenu des deux problèmes ci-dessus, nous améliorons d'abord la méthode de représentation. Nous espérons introduire une bonne représentation géométrique en plus de la représentation traditionnelle basée sur des coordonnées absolues, qui doit répondre aux exigences suivantes :

peut décrire la forme des éléments de la carte

peut décrire l'

entre éléments cartographiques Rigidité
l'invariance de translation , nous utilisons une quantité relative, c'est-à-dire le vecteur de décalage entre les points pour garantir davantage l'invariance de rotation

vecteur de décalage

, et l'angle entre différents vecteurs de décalage. Ces deux éléments - longueur et angle - constituent la base de la représentation géométrique que nous proposons. De plus, afin de mieux distinguer et décrire les formes et relier deux types différents de propriétés géométriques, nous avons affiné le design selon le principe de simplicité : Pour décrire des formes, nous calculons la distance entre des points adjacents dans un un seul élément de carte décale les vecteurs entre eux et calcule la longueur du vecteur de décalage et l'angle entre les vecteurs de décalage adjacents. Cette représentation identifie de manière unique toute polyligne/polygone. Des exemples de deux images sont présentés ci-dessous :

Veuillez regarder la figure 2, qui montre la représentation des formes géométriques

Pour un rectangle, il peut être décrit en utilisant un angle droit et deux paires de côtés égaux pour une ligne droite, tous les angles inclus sont de 0 degré ou 180 degrés ; .

Pour caractériser association, de la même manière, nous considérons d'abord la distance entre deux points quelconques. Cependant, si l’angle est calculé pour tous les vecteurs de décalage point à point, la complexité de la représentation est trop élevée et le coût de calcul est inabordable. Plus précisément, en supposant qu'il y a un total d'éléments cartographiques et que chaque élément est représenté par un point, la quantité de données pour tous les angles atteindra (en prenant 1 000, en supposant que chaque donnée d'angle est un nombre à virgule flottante de 32 bits, tel que une représentation est seulement L'espace occupé atteindra le niveau TB). En fait, cela n’est pas nécessaire pour les relations normales verticales, parallèles, etc. Par conséquent, nous calculons d’abord les décalages au sein des éléments, puis calculons uniquement l’angle entre chaque paire de ces décalages dans le cadre de la représentation géométrique. Cette représentation d'association simplifiée conserve la capacité de décrire des relations parallèles, verticales et autres, alors que le volume de données correspondant est seulement (environ 4 Mo dans les conditions susmentionnées). Pour faciliter la compréhension, nous fournissons également quelques exemples :

首次超过70% mAP！GeMap：局部高精地图SOTA再次刷新

Figure 3. Représentation d'association géométrique.

La relation parallèle et la relation perpendiculaire sont exprimées par l'angle entre le vecteur de décalage étant de 0 degré ou 90 degrés ; la distance entre les deux points peut refléter dans une certaine mesure les informations sur la largeur de la voie

C'est la représentation de formes et associations géométriques optimisées, nous adoptons l'approche la plus simple, calculons directement la représentation géométrique de la prédiction et de l'étiquette, puis utilisons la norme comme cible d'optimisation :

首次超过70% mAP！GeMap：局部高精地图SOTA再次刷新

où et représentent la longueur et l'angle calculés en fonction de l'étiquette, respectivement, et la somme représentent la prévision de la longueur et de l'angle calculés. Une astuce est utilisée lorsqu'il s'agit d'angles inclus : le calcul direct de l'angle implique une fonction arctan discontinue, qui rencontrera des difficultés lors de l'optimisation (il y a un problème de gradient de disparition proche de ±90 degrés), donc ce que l'on compare en réalité, c'est l'angle inclus. Les cosinus et sinus de La robustesse de

首次超过70% mAP！GeMap：局部高精地图SOTA再次刷新 Attention géométriquement découplée

Une architecture adoptée par MapTR, PivotNet, etc. fait correspondre chaque point de l'élément de carte à une requête du Transformer. Le problème de cette architecture est qu’elle ne fait pas de distinction entre les deux grandes catégories de propriétés géométriques.

Dans l'auto-attention, toutes les requêtes (c'est-à-dire les « points ») interagissent de manière égale les unes avec les autres. Cependant, la forme de l’élément map correspond à un groupe de requêtes. L'interaction entre ces groupes devient un handicap lors de la perception de la forme des éléments. Au contraire, dans la perception de la relation entre les éléments, la forme est également devenue un facteur redondant. Cela signifie que

dissocier la perception de la forme et de l'association peut conduire à de meilleurs résultats

Afin de découpler la géométrie et le traitement d'association, nous utilisons deux étapes d'auto-attention : Chaque élément de la carte comprend

requêtes, et l'attention est effectuée à l'intérieur de ces

requêtes pour le traitement des formes géométriques

complètent les relations d'attention à travers les éléments pour gérer les associations géométriques L'attention du découplage géométrique peut être représentée de manière plus vivante par la figure suivante. Notre implémentation est relativement simple, utilisant directement des masques pour contrôler la portée de l'attention. Puisque ces deux types d'attention sont complémentaires, avec une mise en œuvre raisonnable, la complexité temporelle peut être équivalente à la réalisation d'une seule auto-attention

Figure 4. Attention géométriquement découplée.

Le côté gauche est l'attention à la forme effectuée au sein d'un seul élément, et le côté droit est l'attention associée effectuée entre les éléments.

首次超过70% mAP！GeMap：局部高精地图SOTA再次刷新

Résultats expérimentaux

Nous avons mené un grand nombre d'expériences sur les ensembles de données nuScenes et Argoverse 2. Les deux sont des ensembles de données de conduite autonome à grande échelle couramment utilisés et fournissent tous deux des annotations cartographiques.

Principaux résultats

Nous avons mené trois séries d'expériences sur nuScenes. Premièrement, nous utilisons une combinaison relativement pure de fonctions objectives, incluant uniquement les pertes géométriques et d'autres pertes nécessaires (telles que la distance point à point, la direction des bords, la classification). Cette combinaison vise à mettre en évidence l'importance des propriétés géométriques que nous proposons. valeur sans trop rechercher les résultats SOTA. Les résultats montrent que notre méthode améliore mAP par rapport à MapTR dans ce cas. Pour explorer les limites de GeMap, nous ajoutons également quelques objectifs auxiliaires, notamment la segmentation et l'estimation de la profondeur. Dans ce cas, nous avons également obtenu des résultats SOTA (amélioration mAP). Il convient de noter que parvenir à une telle amélioration ne nécessite pas de sacrifier trop de vitesse d’inférence. Enfin, nous avons également essayé d'introduire des entrées modales LiDAR supplémentaires. Avec l'aide d'entrées modales supplémentaires, les performances de GeMap ont été encore améliorées

首次超过70% mAP！GeMap：局部高精地图SOTA再次刷新

De même, sur l'ensemble de données Argoverse 2, notre méthode a également obtenu des résultats très remarquables.

首次超过70% mAP！GeMap：局部高精地图SOTA再次刷新

Le contenu réécrit est : des expériences d'ablation

Le contenu réécrit supplémentaire sur nuScenes est : des expériences d'ablation prouvent la valeur de la perte géométrique et de l'attention géométriquement découplée. Fait intéressant, comme nous nous y attendions, l’utilisation directe de la perte géométrique entraînera une diminution des performances du modèle. Nous pensons que cela est dû au fait que le couplage structurel de la forme et du traitement d'association rend difficile pour le modèle l'optimisation de la représentation géométrique et après combinaison avec l'attention du découplage géométrique, la perte géométrique joue le rôle qui lui revient (de "+ Perte euclidienne" à "Complet").

首次超过70% mAP！GeMap：局部高精地图SOTA再次刷新

Plus de résultats

De plus, nous avons également effectué une analyse visuelle de nuScenes. Les résultats de visualisation montrent que GeMap est non seulement robuste dans la gestion de la rotation et de la translation, mais présente également certains avantages dans la résolution des problèmes d'occlusion, comme le montre la figure ci-dessous. Les éléments cartographiques difficiles sont marqués par des cases orange dans la figure

首次超过70% mAP！GeMap：局部高精地图SOTA再次刷新

Figure 5. Résultats de la comparaison visuelle.

Dans les résultats expérimentaux les jours de pluie, nous avons également vérifié quantitativement la robustesse de l'occlusion (voir le tableau ci-dessous). En effet, la pluie bloque naturellement la caméra

首次超过70% mAP！GeMap：局部高精地图SOTA再次刷新

Cela peut s'expliquer par le fait que le modèle apprend les propriétés géométriques et est donc capable de mieux deviner les éléments de la carte même lorsqu'il y a des occlusions. Par exemple, si le modèle comprend la forme des lignes de voie, il lui suffit alors d'en « voir » une partie pour estimer le reste ; le modèle comprend la relation parallèle entre les lignes de voie, ou les caractéristiques de largeur de la voie, donc même si l'un d'entre eux est bloqué, la partie obstruée peut également être devinée sur la base de la relation parallèle et des facteurs de largeur

Résumé

Nous avons souligné les propriétés géométriques des éléments cartographiques et leur valeur pour la construction de cartes vectorisées en ligne de haute précision . Sur cette base, nous proposons une méthode puissante pour vérifier initialement cette valeur. De plus, la robustesse de GeMap à l'occlusion peut indiquer l'idée d'utiliser des propriétés géométriques pour gérer l'occlusion dans d'autres tâches de conduite autonome (telles que la détection, la prédiction d'occupation, etc.) - car les véhicules et les routes ont des propriétés géométriques relativement standardisées. Bien entendu, notre méthode elle-même a beaucoup à explorer davantage. Par exemple, des éléments géométriques de complexité différente peuvent-ils être décrits de manière adaptative en utilisant différents points ? Est-il possible de comprendre la représentation géométrique d’un point de vue probabiliste et de la rendre plus robuste au bruit ? Parce que nous avons simplifié l’association d’éléments, existe-t-il une meilleure représentation de l’association géométrique ? Ce sont toutes des directions pour une optimisation ultérieure.

首次超过70% mAP！GeMap：局部高精地图SOTA再次刷新

Le contenu qui doit être réécrit est : https://mp.weixin.qq.com/s/BoxlskT68Kjb07mfwQ7Swg lien

Ce qui précède est le contenu détaillé de. pour plus d'informations, suivez d'autres articles connexes sur le site Web de PHP en chinois!

架构 map transformer https 传感器

Déclaration：

Cet article est reproduit dans:. en cas de violation, veuillez contacter admin@php.cn Supprimer

Article précédent：Avec un temps de 19,87 secondes, « Flying Dog » HOUND a établi un nouveau record du chien robot le plus rapide sur 100 mètresArticle suivant：Avec un temps de 19,87 secondes, « Flying Dog » HOUND a établi un nouveau record du chien robot le plus rapide sur 100 mètres

Articles Liés

Voir plus