Maison  >  Article  >  Périphériques technologiques  >  Efficacité augmentée de 16 fois ! VRSO : annotation 3D d'objets statiques purement visuels, ouvrant la boucle fermée des données !

Efficacité augmentée de 16 fois ! VRSO : annotation 3D d'objets statiques purement visuels, ouvrant la boucle fermée des données !

WBOY
WBOYavant
2024-04-11 16:16:20666parcourir

Mort de l'étiquetage

Détection d'objets statiques (SOD), y compris les feux de circulation, les panneaux de guidage et les cônes de signalisation, la plupart des algorithmes sont des réseaux neuronaux profonds basés sur des données et nécessitent une grande quantité de données d'entraînement. La pratique actuelle implique généralement l'annotation manuelle d'un grand nombre d'échantillons d'entraînement sur des données de nuages ​​de points analysées par LiDAR pour corriger les cas à longue traîne.

Efficacité augmentée de 16 fois ! VRSO : annotation 3D dobjets statiques purement visuels, ouvrant la boucle fermée des données !

L'annotation manuelle est difficile à capturer la variabilité et la complexité des scènes réelles, et ne parvient souvent pas à prendre en compte les occultations, les différentes conditions d'éclairage et les divers angles de vision (flèches jaunes sur la figure 1). L'ensemble du processus comporte de longs liens, est extrêmement long, sujet aux erreurs et coûteux (Figure 2). Les entreprises recherchent donc actuellement des solutions d'étiquetage automatique, notamment basées sur la vision pure. Après tout, toutes les voitures ne disposent pas d'un lidar.

Efficacité augmentée de 16 fois ! VRSO : annotation 3D dobjets statiques purement visuels, ouvrant la boucle fermée des données !

VRSO+ est un système d'annotation basé sur la vision pour l'annotation d'objets statiques. Il utilise principalement les informations des résultats de SFM, de détection d'objets 2D et de segmentation d'instance. L'effet global est le suivant :

  • L'erreur de projection moyenne de l'annotation est de seulement. est de 2,6 pixels, soit environ un quart de l'annotation Waymo (10,6 pixels)
  • Par rapport à l'annotation manuelle, la vitesse est augmentée d'environ 16 fois

Pour les objets statiques, VRSO extrait les points clés grâce à la segmentation des instances et aux contours pour résoudre le défi de l'intégration et la déduplication d'objets statiques de différents points de vue, ainsi que la difficulté de sous-observation due à des problèmes d'occlusion, améliorent la précision des annotations. À partir de la figure 1, par rapport aux résultats d'annotation manuelle de l'ensemble de données Waymo Open, VRSO démontre une robustesse et une précision géométrique supérieures.

(Vous avez tous vu ça, pourquoi ne pas glisser votre pouce vers le haut et cliquer sur la carte en haut pour me suivre, L'opération entière ne vous prendra que 1,328 secondes, puis enlèvera toutes les informations utiles dans l'avenir, au cas où cela serait utile~)

Comment briser la situation

Le système VRSO est principalement divisé en deux parties : Reconstruction de scène et Annotation d'objet statique.

Efficacité augmentée de 16 fois ! VRSO : annotation 3D dobjets statiques purement visuels, ouvrant la boucle fermée des données !

La partie reconstruction n'est pas au centre, elle est basée sur l'algorithme SFM pour restaurer la pose de l'image et les points clés 3D clairsemés.

Algorithme d'annotation d'objets statiques, combiné à un pseudo-code, le processus général est le suivant (ce qui suit sera détaillé étape par étape) :

  • Utilisation d'algorithmes de détection et de segmentation d'objets 2D prêts à l'emploi pour générer des candidats
  • Utilisation du 3D-2D correspondance des points clés dans le modèle SFM Relations pour suivre les instances 2D à travers les images
  • Introduction de la cohérence de reprojection pour optimiser les paramètres d'annotation 3D des objets statiques

Efficacité augmentée de 16 fois ! VRSO : annotation 3D dobjets statiques purement visuels, ouvrant la boucle fermée des données !

1. Suivi des relations

  • étape 1 : Extraire les limites 3D en fonction points clés du modèle SFM points 3D à l'intérieur de la boîte.
  • étape 2 : Calculez les coordonnées de chaque point 3D sur la carte 2D en fonction de la relation de correspondance 2D-3D.
  • étape 3 : Déterminez l'instance correspondante du point 3D sur la carte 2D actuelle en fonction des coordonnées de la carte 2D et des points d'angle de segmentation de l'instance.
  • étape 4 : Déterminez la correspondance entre les observations 2D et les cadres de délimitation 3D pour chaque image 2D.

2.proposal génère

pour initialiser les paramètres de la boîte 3D (position, direction, taille) de l'objet statique pour l'ensemble du clip vidéo. Chaque point clé de SFM a une position 3D précise et une image 2D correspondante. Pour chaque instance 2D, les points caractéristiques du masque d'instance 2D sont extraits. Ensuite, un ensemble de points clés 3D correspondants peut être considéré comme candidat aux boîtes englobantes 3D.

Un panneau de signalisation est représenté comme un rectangle avec une orientation dans l'espace, qui possède 6 degrés de liberté, dont la translation (,,), l'orientation (θ) et la taille (largeur et hauteur). Compte tenu de sa profondeur, un feu tricolore possède 7 degrés de liberté. Les cônes de signalisation sont représentés de la même manière que les feux de circulation.

3.proposition affiner

  • étape 1 : Extraire le contour de chaque objet statique de la segmentation d'instance 2D.
  • étape 2 : Ajustez le cadre de délimitation orienté minimum (OBB) pour le contour du contour.
  • étape 3 : Extrayez les sommets du cadre de délimitation minimum.
  • étape 4 : Calculez la direction en fonction des sommets et des points centraux, et déterminez l'ordre des sommets.
  • étape 5 : Le processus de segmentation et de fusion est effectué sur la base des résultats de la détection 2D et de la segmentation des instances.
  • étape 6 : Détecter et rejeter les observations contenant des occlusions. L'extraction de sommets du masque de segmentation d'instance 2D nécessite que les quatre coins de chaque signe soient visibles. S'il y a des occlusions, des boîtes englobantes alignées sur l'axe (AABB) sont extraites de la segmentation de l'instance et le rapport de surface entre les AABB et les boîtes de détection 2D est calculé. S'il n'y a pas d'occlusions, ces deux méthodes de calcul de surface doivent être proches.

Efficacité augmentée de 16 fois ! VRSO : annotation 3D dobjets statiques purement visuels, ouvrant la boucle fermée des données !

4. Triangulation

Obtenez la valeur initiale du sommet de l'objet statique dans des conditions 3D grâce à la triangulation.

En vérifiant le nombre de points clés dans les boîtes englobantes 3D obtenues par SFM et la segmentation des instances lors de la reconstruction de la scène, seules les instances dont le nombre de points clés dépasse le seuil sont considérées comme des observations stables et valides. Pour ces instances, la boîte englobante 2D correspondante est considérée comme une observation valide. Grâce à l'observation 2D de plusieurs images, les sommets du cadre de délimitation 2D sont triangulés pour obtenir les coordonnées du cadre de délimitation.

Pour les panneaux circulaires qui ne distinguent pas les sommets « inférieur gauche, supérieur gauche, supérieur droit, supérieur droit et inférieur droit » sur le masque, ces panneaux circulaires doivent être identifiés. En utilisant les résultats de détection 2D comme observations d'objets circulaires, des masques de segmentation d'instance 2D sont utilisés pour l'extraction de contours. Le point central et le rayon sont calculés via un algorithme d'ajustement des moindres carrés. Les paramètres du signe circulaire incluent le point central (,,), la direction (θ) et le rayon ().

5. Affinement du suivi

Correspondance des points de fonctionnalité de suivi basée sur SFM. Déterminez s'il convient de fusionner ces instances distinctes en fonction de la distance euclidienne des sommets du cadre de délimitation 3D et de la projection IoU du cadre de délimitation 2D. Une fois la fusion terminée, les points caractéristiques 3D au sein d'une instance peuvent être regroupés pour associer davantage de points caractéristiques 2D. L'association itérative 2D-3D est effectuée jusqu'à ce qu'aucun point caractéristique 2D ne puisse être ajouté.

6. Optimisation finale des paramètres

En prenant le signe rectangulaire comme exemple, les paramètres qui peuvent être optimisés incluent la position (,,), la direction (θ) et la taille (,), avec un total de six degrés. de liberté. Les principales étapes comprennent :

  • Convertir six degrés de liberté en quatre points 3D et calculer la matrice de rotation.
  • Projetez les quatre points 3D convertis sur l'image 2D.
  • Calculez le résidu entre le résultat de la projection et le résultat du point de coin obtenu par segmentation d'instance.
  • Utilisez Huber pour l'optimisation et la mise à jour des paramètres du cadre de délimitation

Effet d'annotation

Efficacité augmentée de 16 fois ! VRSO : annotation 3D dobjets statiques purement visuels, ouvrant la boucle fermée des données !

Efficacité augmentée de 16 fois ! VRSO : annotation 3D dobjets statiques purement visuels, ouvrant la boucle fermée des données !

Efficacité augmentée de 16 fois ! VRSO : annotation 3D dobjets statiques purement visuels, ouvrant la boucle fermée des données !

Il existe également des cas difficiles à longue traîne, tels qu'une résolution extrêmement basse et un éclairage insuffisant.

Efficacité augmentée de 16 fois ! VRSO : annotation 3D dobjets statiques purement visuels, ouvrant la boucle fermée des données !

Pour résumer

Le cadre VRSO permet d'obtenir une annotation 3D de haute précision et cohérente d'objets statiques, intègre étroitement les algorithmes de détection, de segmentation et SFM, élimine l'intervention manuelle dans l'annotation de conduite intelligente et fournit des résultats comparables basés sur LiDAR. à l'annotation manuelle. Des évaluations qualitatives et quantitatives ont été menées avec l'ensemble de données ouvert Waymo largement reconnu : par rapport à l'annotation manuelle, la vitesse est augmentée d'environ 16 fois, tout en conservant la meilleure cohérence et précision.

Ce qui précède est le contenu détaillé de. pour plus d'informations, suivez d'autres articles connexes sur le site Web de PHP en chinois!

Déclaration:
Cet article est reproduit dans:. en cas de violation, veuillez contacter admin@php.cn Supprimer