Maison > Article > Périphériques technologiques > Anything in Any Scene : Insertion d'objets réalistes (pour aider à la synthèse de diverses données de conduite)
Titre original : Anything in Any Scene : Photorealistic Video Object Insertion
Lien papier : https://arxiv.org/pdf/2401.17509.pdf
Lien code : https://github.com/AnythingInAnyScene/anything_in_anyscene
Affiliation de l'auteur : Xpeng Motors
La simulation vidéo réaliste a montré un grand potentiel dans divers domaines d'application, de la réalité virtuelle à la production cinématographique. Surtout lorsque la capture vidéo dans le monde réel est peu pratique ou coûteuse. Les méthodes existantes de simulation vidéo ne parviennent souvent pas à modéliser avec précision les environnements d'éclairage, à représenter la géométrie des objets ou à atteindre des niveaux élevés de photoréalisme. Cet article propose Anything in Any Scene, un cadre de simulation vidéo réelle novateur et polyvalent qui peut insérer de manière transparente n'importe quel objet dans des vidéos dynamiques existantes et mettre l'accent sur le réalisme physique. Le cadre global proposé dans cet article contient trois processus clés : 1) intégrer des objets réels dans une scène vidéo donnée et les placer dans des emplacements appropriés pour garantir le réalisme géométrique ; 2) estimer la distribution de l'éclairage du ciel et de l'environnement et simuler des ombres réelles et améliorer le réalisme de la lumière ; 3) Utilisez un réseau de transfert de style pour affiner la sortie vidéo finale afin de maximiser le réalisme photo. Cet article prouve expérimentalement que le framework Anything in Any Scene peut générer des vidéos de simulation avec un excellent réalisme géométrique, réalisme d'éclairage et réalisme photo. En atténuant considérablement les défis associés à la génération de données vidéo, notre cadre fournit une solution efficace et rentable pour obtenir des vidéos de haute qualité. De plus, ses applications s'étendent bien au-delà de l'amélioration des données vidéo, montrant un potentiel prometteur dans la réalité virtuelle, le montage vidéo et diverses autres applications centrées sur la vidéo.
Cet article présente un cadre de simulation vidéo novateur et extensible Anything in Any Scene, capable d'intégrer n'importe quel objet dans n'importe quelle vidéo de scène dynamique.
Cet article est structuré de manière unique et se concentre sur le maintien de la géométrie, de l'éclairage et du photoréalisme dans les simulations vidéo afin de garantir une haute qualité et l'authenticité des résultats de sortie.
Après une vérification approfondie, les résultats montrent que le framework a la capacité de produire des simulations vidéo très réalistes, élargissant ainsi considérablement la portée d'application et le potentiel de développement de ce domaine.
Les simulations d'images et de vidéos sont utilisées avec succès dans une variété d'applications allant de la réalité virtuelle à la production cinématographique. La capacité de générer un contenu visuel diversifié et de haute qualité grâce à la simulation d’images et de vidéos photoréalistes a le potentiel de faire progresser ces domaines, en introduisant de nouvelles possibilités et applications. Même si l’authenticité des images et des vidéos capturées dans le monde réel est inestimable, elles sont souvent limitées par des distributions à longue traîne. Cela conduit à une surreprésentation des scénarios courants et à une sous-représentation de situations rares mais critiques, ce qui présente un défi connu sous le nom de problème de non-distribution. Les méthodes traditionnelles permettant de remédier à ces limitations via la capture et le montage vidéo se sont révélées peu pratiques ou d'un coût prohibitif, car il était difficile de couvrir tous les scénarios possibles. L'importance de la simulation vidéo, notamment en intégrant des vidéos existantes avec des objets nouvellement insérés, devient cruciale pour surmonter ces défis. En générant un contenu visuel à grande échelle, diversifié et réaliste, la simulation vidéo contribue à enrichir les applications de réalité virtuelle, de montage vidéo et d'augmentation des données vidéo.
Cependant, générer des vidéos de simulation réalistes en tenant compte du réalisme physique reste un problème ouvert et difficile. Les méthodes existantes présentent souvent des limites en se concentrant sur des paramètres spécifiques, en particulier les environnements intérieurs [9, 26, 45, 46, 57]. Ces méthodes peuvent ne pas répondre de manière adéquate à la complexité des scènes extérieures, notamment aux conditions d'éclairage variables et aux objets en mouvement rapide. Les méthodes reposant sur l'enregistrement de modèles 3D se limitent à intégrer des classes limitées d'objets [12, 32, 40, 42]. De nombreuses méthodes ignorent des facteurs importants tels que la modélisation de l'environnement lumineux, le placement correct des objets et l'obtention du réalisme [12, 36]. Le cas d’échec est illustré à la figure 1. Par conséquent, ces limitations limitent considérablement leur application dans les domaines qui nécessitent des simulations vidéo de scènes hautement évolutives, géométriquement cohérentes et réalistes, telles que la conduite autonome et la robotique.
Cet article propose Anything in Any Scene, un cadre complet pour l'insertion d'objets vidéo photoréalistes qui répond à ces défis. Le cadre est conçu pour être polyvalent et adapté aux scènes intérieures et extérieures, garantissant une précision physique en termes de réalisme géométrique, de réalisme d'éclairage et de photoréalisme. L'objectif de cet article est de créer des simulations vidéo qui sont non seulement utiles pour l'augmentation des données visuelles dans l'apprentissage automatique, mais également adaptées à diverses applications vidéo telles que la réalité virtuelle et le montage vidéo.
L'aperçu du cadre Anything in Any Scene de cet article est présenté dans la figure 2. Cet article détaille notre pipeline novateur et évolutif pour créer une bibliothèque d'actifs diversifiée de vidéos de scène et de maillages d'objets dans la section 3. Cet article présente un moteur de requête de données visuelles conçu pour récupérer efficacement des clips vidéo pertinents à partir de requêtes visuelles à l'aide de mots-clés descriptifs. Ensuite, cet article propose deux méthodes pour générer des maillages 3D, en tirant parti des ressources 3D existantes ainsi que de la reconstruction d'images multi-vues. Cela permet l'insertion sans restriction de n'importe quel objet souhaité, même s'il est très irrégulier ou sémantiquement faible. Dans la section 4, l'article détaille les méthodes d'intégration d'objets dans des vidéos de scènes dynamiques, en se concentrant sur le maintien du réalisme physique. Cet article conçoit la méthode de placement et de stabilisation d'objet décrite dans la section 4.1 pour garantir que l'objet inséré est ancré de manière stable sur des images vidéo consécutives. Pour relever le défi de la création d'effets d'éclairage et d'ombre réalistes, cet article estime l'éclairage du ciel et de l'environnement et génère des ombres réalistes pendant le rendu, comme décrit dans la section 4.2. Les images vidéo simulées générées contiennent inévitablement des artefacts irréalistes qui diffèrent de la vidéo capturée dans le monde réel, tels que des différences de qualité d'image en termes de niveaux de bruit, de fidélité des couleurs et de netteté. Cet article utilise un réseau de transfert de style pour améliorer le réalisme photographique dans la section 4.3.
Les vidéos de simulation générées à partir du cadre proposé dans cet article atteignent un degré élevé de réalisme d'éclairage, de réalisme géométrique et de réalisme photo, surpassant les autres vidéos en qualité et en quantité, comme le montre la section 5.3. Cet article démontre en outre l'application de la vidéo de simulation de cet article dans les algorithmes de perception de formation dans la section 5.4 pour vérifier sa valeur pratique. Le cadre Anything in Any Scene permet la création d'ensembles de données vidéo à grande échelle et à faible coût pour l'augmentation des données avec un gain de temps et une qualité visuelle réaliste, allégeant ainsi le fardeau de la génération de données vidéo et améliorant potentiellement la longue traîne et les sorties. défis de distribution. Grâce à sa conception générale, le framework Anything in Any Scene peut facilement intégrer des modèles améliorés et de nouveaux modules, tels que des méthodes améliorées de reconstruction de maillage 3D, pour améliorer encore les performances de simulation vidéo.
Figure 1. Exemples d'images vidéo simulées avec des erreurs dans l'estimation de l'environnement d'éclairage, des erreurs dans le placement des objets et des styles de texture irréalistes. Ces problèmes font que l'image manque de réalisme physique. Figure 2. Présentation du cadre Anything in Any Scene pour l'insertion d'objets vidéo photoréalistes Figure 3. Exemple de vidéo de scène de conduite pour le placement d'objets. Les points rouges sur chaque image correspondent à l'endroit où les objets ont été insérés.
Figure 4. Exemples d'images originales du ciel, d'images HDR reconstruites et de leurs cartes de répartition de l'éclairage solaire associées
Figure 5. Exemples d'images panoramiques d'environnement HDR originales et reconstruites
Figure 6. Exemple de génération d'ombres pour les objets insérés
Figure 7. Comparaison qualitative des images vidéo simulées à partir de l'ensemble de données PandaSet à l'aide de réseaux de transfert de différents styles.
Figure 8. Comparaison qualitative des images vidéo simulées à partir de l'ensemble de données PandaSet dans diverses conditions de rendu.
Cet article propose un cadre innovant et extensible, "Anything in Any Scene", conçu pour la simulation vidéo réaliste. Le cadre proposé dans cet article intègre de manière transparente divers objets dans différentes vidéos dynamiques, garantissant ainsi la préservation du réalisme géométrique, du réalisme de l'éclairage et du photoréalisme. Grâce à de nombreuses démonstrations, cet article démontre son efficacité pour atténuer les défis associés à la collecte et à la génération de données vidéo, en fournissant des solutions rentables et permettant de gagner du temps pour une variété de scénarios. L'application de notre cadre montre des améliorations significatives dans les tâches de perception en aval, en particulier dans la résolution du problème de distribution à longue traîne dans la détection d'objets. La flexibilité de notre framework permet l'intégration directe de modèles améliorés pour chaque module, et notre framework pose une base solide pour l'exploration et l'innovation futures dans le domaine de la simulation vidéo réaliste.
Bai C, Shao Z, Zhang G et al. Tout dans n'importe quelle scène : insertion d'objet vidéo photoréaliste [J].
Ce qui précède est le contenu détaillé de. pour plus d'informations, suivez d'autres articles connexes sur le site Web de PHP en chinois!