Maison >Périphériques technologiques >IA >Contrôle plus granulaire de l'arrière-plan et du premier plan, édition plus rapide : l'approche en deux étapes de BEVControl

Contrôle plus granulaire de l'arrière-plan et du premier plan, édition plus rapide : l'approche en deux étapes de BEVControl

WBOY
WBOYavant
2023-09-07 23:21:061464parcourir

Cet article présentera une méthode pour générer avec précision des images Street View multi-vues grâce à la mise en page BEV Sketch

Contrôle plus granulaire de larrière-plan et du premier plan, édition plus rapide : lapproche en deux étapes de BEVControl

Dans le domaine de la conduite autonome, la synthèse d'images est largement utilisée pour améliorer les performances des tâches de perception en aval

Dans le domaine de la vision par ordinateur, améliorant la perception Un défi de recherche de longue date en matière de performance des modèles est relevé grâce aux images synthétiques. Dans les systèmes de conduite autonome centrés sur la vision, utilisant des caméras multi-vues, ce problème devient plus important car certaines scènes à longue traîne ne peuvent jamais être collectées

Contrôle plus granulaire de larrière-plan et du premier plan, édition plus rapide : lapproche en deux étapes de BEVControl

Comme le montre la figure 1(a), la méthode de génération existante saisit le structure BEV de style segmentation sémantique dans le réseau de génération et produit des images multi-vues raisonnables. Lorsqu’elles sont évaluées uniquement sur la base de mesures au niveau de la scène, les méthodes existantes semblent capables de synthétiser des images photoréalistes de vues de rue. Cependant, une fois zoomé, nous avons constaté qu'il ne parvenait pas à produire des détails précis au niveau de l'objet. Dans la figure, nous démontrons une erreur courante des algorithmes de génération de pointe, à savoir que le véhicule généré est complètement orienté dans la direction opposée par rapport à la boîte englobante 3D cible. De plus, la modification de la structure BEV du style de segmentation sémantique est une tâche difficile et nécessite beaucoup de main-d'œuvre.

Par conséquent, nous proposons une méthode en deux étapes appelée BEVControl pour fournir un contrôle géométrique plus fin de l'arrière-plan et du premier plan, comme le montre la figure 1. (b). BEVControl prend en charge la saisie de structure BEV de style croquis, permettant une édition rapide et facile. De plus, notre BEVControl décompose la cohérence visuelle en deux sous-objectifs : la cohérence géométrique entre les vues de rue et la vue à vol d'oiseau via le contrôleur ; la cohérence visuelle entre les vues de rue via le coordinateur

Contrôle plus granulaire de larrière-plan et du premier plan, édition plus rapide : lapproche en deux étapes de BEVControl

Lien papier :

https:// www.php.cn/link/1531beb762df4029513ebf9295e0d34f

Method Framework

Contrôle plus granulaire de larrière-plan et du premier plan, édition plus rapide : lapproche en deux étapes de BEVControl

    BEVControl est un réseau de génération structuré UNet, composé d'une série de compositions de modules. Chaque module comporte deux éléments, à savoir le contrôleur et le coordinateur.
  • Entrée : croquis BEV, image de bruit multi-vues et invite de texte pour une édition facile ;
  • Sortie : image multi-vues générée.

Détails de la méthode

Contrôle plus granulaire de larrière-plan et du premier plan, édition plus rapide : lapproche en deux étapes de BEVControl

    BEV esquisse au processus de projection de caméra conditionné par la caméra. L'entrée est un croquis BEV. Le résultat est constitué de conditions de premier plan et de conditions d’arrière-plan multi-vues.

Contrôle plus granulaire de larrière-plan et du premier plan, édition plus rapide : lapproche en deux étapes de BEVControl

    Contrôleur : reçoit les informations de premier plan et d'arrière-plan de l'esquisse de la vue de la caméra de manière auto-attentionnelle et génère des caractéristiques de vue de rue qui sont géométriquement cohérentes avec l'esquisse BEV.
  • Coordinateur : utilise un nouveau mécanisme d'attention multi-vues et multi-éléments pour obtenir une interaction contextuelle multi-vues et produire des fonctionnalités Street View avec une cohérence d'apparence.

Métriques d'évaluation proposées

    Les travaux récents de génération d'images Street View évaluent uniquement la qualité de la génération en fonction de métriques au niveau de la scène (telles que FID, road mIoU, etc.).
  • Nous avons constaté qu'il est impossible d'évaluer la véritable capacité générative d'un réseau génératif en utilisant uniquement ces métriques, comme le montre la figure ci-dessous. Les résultats qualitatifs et quantitatifs rapportés montrent que les deux groupes génèrent des images Street View avec des scores FID similaires mais des capacités très différentes pour un contrôle précis du premier plan et de l'arrière-plan.
  • Nous proposons donc un ensemble de métriques d'évaluation permettant de mesurer finement les capacités de contrôle du réseau de production.

Contrôle plus granulaire de larrière-plan et du premier plan, édition plus rapide : lapproche en deux étapes de BEVControl

Résultats quantitatifs

    Comparaison de BEVControl et des méthodes de pointe sur les métriques d'évaluation proposées.
  • Contrôle plus granulaire de larrière-plan et du premier plan, édition plus rapide : lapproche en deux étapes de BEVControl
  • Appliquez BEVControl pour l'amélioration des données afin d'améliorer la tâche de détection de cible.

Contrôle plus granulaire de larrière-plan et du premier plan, édition plus rapide : lapproche en deux étapes de BEVControl

Résultats qualitatifs

  • Comparaison de BEVControl et des méthodes de pointe sur l'ensemble de validation NuScenes.

Contrôle plus granulaire de larrière-plan et du premier plan, édition plus rapide : lapproche en deux étapes de BEVControl

Contrôle plus granulaire de larrière-plan et du premier plan, édition plus rapide : lapproche en deux étapes de BEVControl

Effet démo

Contrôle plus granulaire de larrière-plan et du premier plan, édition plus rapide : lapproche en deux étapes de BEVControl

Contrôle plus granulaire de larrière-plan et du premier plan, édition plus rapide : lapproche en deux étapes de BEVControl

Le contenu qui doit être réécrit est : Références

Le contenu qui doit être réécrit est : [1] Swerdlow A, Xu R , Zhou B. Génération d'images Street View à partir d'une vue à vol d'oiseau [J].

Ce qui précède est le contenu détaillé de. pour plus d'informations, suivez d'autres articles connexes sur le site Web de PHP en chinois!

Déclaration:
Cet article est reproduit dans:. en cas de violation, veuillez contacter admin@php.cn Supprimer