Maison >Périphériques technologiques >IA >Qu'il s'agisse d'une vidéo réelle ou d'une vidéo IA, « Mosca » peut reconstruire et restaurer des scènes dynamiques 4D.

Qu'il s'agisse d'une vidéo réelle ou d'une vidéo IA, « Mosca » peut reconstruire et restaurer des scènes dynamiques 4D.

WBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBoriginal: 2024-06-22 07:09:52799parcourir

Quil sagisse dune vidéo réelle ou dune vidéo IA, « Mosca » peut reconstruire et restaurer des scènes dynamiques 4D.

La rubrique AIxiv est une rubrique où ce site publie du contenu académique et technique. Au cours des dernières années, la rubrique AIxiv de ce site a reçu plus de 2 000 rapports, couvrant les meilleurs laboratoires des principales universités et entreprises du monde entier, favorisant efficacement les échanges et la diffusion académiques. Si vous souhaitez partager un excellent travail, n'hésitez pas à contribuer ou à nous contacter pour un rapport. Courriel de soumission : liyazhou@jiqizhixin.com ; zhaoyunfeng@jiqizhixin.com

Lei Jiahui, doctorant au Département d'informatique de l'Université de Pennsylvanie (2020 - présent), son superviseur est le professeur Kostas Daniilidis, son directeur actuel l'orientation de la recherche est celle des scènes dynamiques en quatre dimensions, des représentations de modélisation géométrique et des algorithmes avec applications. Il a publié 7 articles en tant que premier ou co-auteur dans les principales conférences sur la vision par ordinateur et l'apprentissage automatique (CVPR, NeurIPS, ICML, ECCV). Son précédent diplôme de premier cycle (2016-2020) est diplômé du département de contrôle de l'université du Zhejiang et de la classe mixte du Zhu Kezhen College avec la première place dans sa spécialisation.

La reconstruction de scènes dynamiques rendues à partir d'une vidéo monoculaire arbitraire est un Saint Graal dans la recherche en vision par ordinateur. Dans cet article, une équipe de chercheurs de l’Université de Pennsylvanie et de l’Université de Stanford tente de faire un petit pas vers cet objectif.

Il existe d'énormes vidéos monoculaires sur Internet, qui contiennent une grande quantité d'informations sur le monde physique. Cependant, la vision 3D manque encore de moyens efficaces pour extraire les informations dynamiques 3D de ces vidéos afin de prendre en charge la future modélisation de grands modèles 3D et la compréhension de la dynamique. monde physique. Bien qu’important, ce problème inverse est extrêmement difficile.

Premièrement, les vidéos 2D réelles manquent souvent d'informations multi-vues, de sorte que la géométrie multi-vue ne peut pas être utilisée pour la reconstruction 3D. Dans de nombreux cas, il est même impossible de résoudre la pose de la caméra et les paramètres internes via les logiciels existants (. comme COLMAP).
Deuxièmement, le degré de liberté des scènes dynamiques est extrêmement élevé, et la représentation tridimensionnelle de sa déformation et de la fusion d'informations à long terme est encore immature, ce qui rend ce problème inverse difficile plus compliqué.

Cet article propose un nouveau système de traitement de l'information neuronale - MoSca, qui n'a besoin que de fournir une série d'images vidéo sans aucune information supplémentaire, et peut générer des vidéos, des clips de films et de séries télévisées à partir de SORA, reconstruire une dynamique rendue scènes de vidéos monoculaires dans la nature, de vidéos Internet et d'ensembles de données publics.

Quil sagisse dune vidéo réelle ou dune vidéo IA, « Mosca » peut reconstruire et restaurer des scènes dynamiques 4D.

Adresse ArXiv : https://arxiv.org/pdf/2405.17421
Code (sera open source dans un futur proche) : www.github.com/JiahuiLei/MoSca
Site Web du projet : www.cis.upenn.edu/~leijh/projects/mosca/
Vidéo (bilibili) : www.bilibili.com/video/BV1uU411o75P/?vd_source=177d8c87be5e898a43e8937dbef9bed4

Ce qui suit sont deux démos vidéo.

Présentation de la méthode

Afin de surmonter les difficultés ci-dessus, Mosca a d'abord utilisé les solides connaissances préalables stockées dans les modèles de base de vision par ordinateur pour réduire l'espace de solution du problème.

Quil sagisse dune vidéo réelle ou dune vidéo IA, « Mosca » peut reconstruire et restaurer des scènes dynamiques 4D.

Plus précisément, Mosca utilise le modèle d'estimation de profondeur métrique monoculaire UniDepth, le modèle CoTracker de suivi vidéo à long terme de tout point (suivre n'importe quel point) et l'estimation du flux optique (flux optique) ) L'erreur géométrique épipolaire (erreur épipolaire) calculé par le modèle RAFT et les caractéristiques sémantiques fournies par le modèle sémantique pré-entraîné DINO-v2. Voir le chapitre 3.1 de l'article pour plus de détails. Nous observons que la plupart des déformations dynamiques du monde réel sont de nature compacte et clairsemée, et que leur complexité est souvent bien inférieure à celle des structures géométriques réelles. Par exemple, le mouvement d’un objet dur peut être représenté par une rotation et une translation, et le mouvement d’une personne peut être grossièrement approximé par la rotation et la translation de plusieurs articulations.

Basé sur cette observation, cet article propose une

nouvelle représentation de scène dynamique compacte - 4D Motion Scaffold

, qui met à niveau la sortie du modèle de base ci-dessus de deux dimensions à quatre dimensions et la fusionne, tout en intégrant également la régularisation des déformations inspirée par la physique (ARAP). .

L'échafaudage de mouvement à quatre dimensions est un graphe. Chaque nœud du graphe est une chaîne de trajectoires de mouvement de corps rigide (SE (3)) La topologie du graphe est l'arête voisine la plus proche construite en considérant la distance entre le corps rigide. courbes de trajectoire de mouvement à l’échelle mondiale. Les déformations en tout point de l'espace peuvent être représentées en lissant les trajectoires des corps rigides des nœuds sur le graphe interpolé dans l'espace-temps à l'aide de doubles quaternions. Cette représentation simplifie grandement les paramètres de mouvement qui doivent être résolus. (Voir le chapitre 3.2 du document pour plus de détails).

Un autre énorme avantage de l'échafaudage de mouvement en quatre dimensions est qu'il peut être directement initialisé par la profondeur monoculaire et le suivi vidéo des points en deux dimensions, puis la position inconnue du point d'occlusion et la direction du système de coordonnées local peuvent être résolues grâce à un moyen efficace. optimisation physique à terme régulier. Pour plus de détails, veuillez vous référer au chapitre 3.3 de l'article

Avec l'échafaudage de mouvement en quatre dimensions, n'importe quel point à tout moment peut être déformé en n'importe quel moment cible, ce qui permet de fusionner globalement les informations d'observation. Plus précisément, chaque image de la vidéo peut être rétroprojetée dans un espace tridimensionnel à l'aide de la carte de profondeur estimée et initialisée avec une gaussienne tridimensionnelle (3DGS). Ces gaussiennes sont « liées » à l’échafaudage du mouvement quadridimensionnel et peuvent circuler librement à tout moment. Si vous souhaitez restituer la scène à un certain moment, il vous suffit de transférer les gaussiennes de tous les autres moments globaux au moment actuel via l'échafaudage quadridimensionnel pour la fusion. Cette représentation de scène dynamique basée sur un échafaudage de mouvement quadridimensionnel et gaussien peut être optimisée efficacement par le moteur de rendu gaussien (voir le chapitre 3.4 de l'article pour plus de détails).

Enfin, il convient de mentionner que Mosca est un système qui ne nécessite pas de paramètres internes et externes de la caméra. En utilisant l'erreur de géométrie épipolaire produite par le modèle de pierre angulaire mentionné ci-dessus pour déterminer le masque de fond statique, et en utilisant la sortie de profondeur et de suivi de points du modèle de pierre angulaire, Mosca peut optimiser efficacement l'erreur de reprojection et résoudre l'ajustement global du faisceau pour produire directement Paramètres internes et pose de la caméra, et continuez à optimiser la caméra grâce au rendu ultérieur (voir le chapitre 3.5 de l'article pour plus de détails).

Résultats expérimentaux

Mosca peut reconstruire des scènes dynamiques dans les vidéos de l'ensemble de données DAVIS. Il convient de noter que Mosca prend en charge de manière flexible plusieurs moteurs de rendu gaussiens. En plus du moteur de rendu 3DGS natif, cet article a également testé le récent moteur de rendu de reconstruction de surface gaussienne GOF (Gaussian Opacity Field). Comme le montre le train le plus à droite de l'image, GOF peut restituer une normale et une profondeur de meilleure qualité.

Moska réalise des améliorations significatives sur l'ensemble de données difficile IPhone DyCheck, tout en comparant également d'autres méthodes sur l'ensemble de données Nvidia largement comparable.

Ce qui précède est le contenu détaillé de. pour plus d'informations, suivez d'autres articles connexes sur le site Web de PHP en chinois!

Error github 算法 iphone https Foundation

Déclaration：

Le contenu de cet article est volontairement contribué par les internautes et les droits d'auteur appartiennent à l'auteur original. Ce site n'assume aucune responsabilité légale correspondante. Si vous trouvez un contenu suspecté de plagiat ou de contrefaçon, veuillez contacter admin@php.cn

Article précédent：Identifiez automatiquement les meilleures molécules et réduisez les coûts de synthèse. Le MIT développe un cadre d'algorithme de prise de décision en matière de conception moléculaire.Article suivant：Identifiez automatiquement les meilleures molécules et réduisez les coûts de synthèse. Le MIT développe un cadre d'algorithme de prise de décision en matière de conception moléculaire.

Articles Liés

Voir plus