Maison >Périphériques technologiques >IA >Contrôle plus granulaire de l'arrière-plan et du premier plan, édition plus rapide : l'approche en deux étapes de BEVControl

Contrôle plus granulaire de l'arrière-plan et du premier plan, édition plus rapide : l'approche en deux étapes de BEVControl

WBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBavant: 2023-09-07 23:21:061613parcourir

Cet article présentera une méthode pour générer avec précision des images Street View multi-vues grâce à la mise en page BEV Sketch

Contrôle plus granulaire de larrière-plan et du premier plan, édition plus rapide : lapproche en deux étapes de BEVControl

Dans le domaine de la conduite autonome, la synthèse d'images est largement utilisée pour améliorer les performances des tâches de perception en aval

Dans le domaine de la vision par ordinateur, améliorant la perception Un défi de recherche de longue date en matière de performance des modèles est relevé grâce aux images synthétiques. Dans les systèmes de conduite autonome centrés sur la vision, utilisant des caméras multi-vues, ce problème devient plus important car certaines scènes à longue traîne ne peuvent jamais être collectées

Contrôle plus granulaire de larrière-plan et du premier plan, édition plus rapide : lapproche en deux étapes de BEVControl

Comme le montre la figure 1(a), la méthode de génération existante saisit le structure BEV de style segmentation sémantique dans le réseau de génération et produit des images multi-vues raisonnables. Lorsqu’elles sont évaluées uniquement sur la base de mesures au niveau de la scène, les méthodes existantes semblent capables de synthétiser des images photoréalistes de vues de rue. Cependant, une fois zoomé, nous avons constaté qu'il ne parvenait pas à produire des détails précis au niveau de l'objet. Dans la figure, nous démontrons une erreur courante des algorithmes de génération de pointe, à savoir que le véhicule généré est complètement orienté dans la direction opposée par rapport à la boîte englobante 3D cible. De plus, la modification de la structure BEV du style de segmentation sémantique est une tâche difficile et nécessite beaucoup de main-d'œuvre.

Par conséquent, nous proposons une méthode en deux étapes appelée BEVControl pour fournir un contrôle géométrique plus fin de l'arrière-plan et du premier plan, comme le montre la figure 1. (b). BEVControl prend en charge la saisie de structure BEV de style croquis, permettant une édition rapide et facile. De plus, notre BEVControl décompose la cohérence visuelle en deux sous-objectifs : la cohérence géométrique entre les vues de rue et la vue à vol d'oiseau via le contrôleur ; la cohérence visuelle entre les vues de rue via le coordinateur

Contrôle plus granulaire de larrière-plan et du premier plan, édition plus rapide : lapproche en deux étapes de BEVControl

Lien papier :

https:// www.php.cn/link/1531beb762df4029513ebf9295e0d34f

Method Framework

Entrée : croquis BEV, image de bruit multi-vues et invite de texte pour une édition facile ;
Sortie : image multi-vues générée.

Détails de la méthode

Contrôle plus granulaire de larrière-plan et du premier plan, édition plus rapide : lapproche en deux étapes de BEVControl

Coordinateur : utilise un nouveau mécanisme d'attention multi-vues et multi-éléments pour obtenir une interaction contextuelle multi-vues et produire des fonctionnalités Street View avec une cohérence d'apparence.

Métriques d'évaluation proposées

Nous avons constaté qu'il est impossible d'évaluer la véritable capacité générative d'un réseau génératif en utilisant uniquement ces métriques, comme le montre la figure ci-dessous. Les résultats qualitatifs et quantitatifs rapportés montrent que les deux groupes génèrent des images Street View avec des scores FID similaires mais des capacités très différentes pour un contrôle précis du premier plan et de l'arrière-plan.
Nous proposons donc un ensemble de métriques d'évaluation permettant de mesurer finement les capacités de contrôle du réseau de production.

Contrôle plus granulaire de larrière-plan et du premier plan, édition plus rapide : lapproche en deux étapes de BEVControl

Résultats quantitatifs

Contrôle plus granulaire de larrière-plan et du premier plan, édition plus rapide : lapproche en deux étapes de BEVControl

Résultats qualitatifs

Comparaison de BEVControl et des méthodes de pointe sur l'ensemble de validation NuScenes.

Contrôle plus granulaire de larrière-plan et du premier plan, édition plus rapide : lapproche en deux étapes de BEVControl

Effet démo

Contrôle plus granulaire de larrière-plan et du premier plan, édition plus rapide : lapproche en deux étapes de BEVControl

Le contenu qui doit être réécrit est : Références

Le contenu qui doit être réécrit est : [1] Swerdlow A, Xu R , Zhou B. Génération d'images Street View à partir d'une vue à vol d'oiseau [J].

Ce qui précède est le contenu détaillé de. pour plus d'informations, suivez d'autres articles connexes sur le site Web de PHP en chinois!

对象算法 https

Déclaration：

Cet article est reproduit dans:. en cas de violation, veuillez contacter admin@php.cn Supprimer

Article précédent：Un guide pour fabriquer un capteur numérique pour un appareil photo sténopéArticle suivant：Un guide pour fabriquer un capteur numérique pour un appareil photo sténopé

Articles Liés

Voir plus