Maison >Périphériques technologiques >IA >L'équipe chinoise NUS lance le dernier modèle : une reconstruction 3D à vue unique, rapide et précise !

L'équipe chinoise NUS lance le dernier modèle : une reconstruction 3D à vue unique, rapide et précise !

王林
王林avant
2023-04-26 17:37:08970parcourir

La reconstruction 3D d'images 2D a toujours été un moment fort dans le domaine du CV.

Différents modèles ont été développés pour tenter de pallier à ce problème.

Aujourd'hui, des chercheurs de l'Université nationale de Singapour ont publié conjointement un article et développé un nouveau framework Anything-3D pour résoudre ce problème de longue date.

Léquipe chinoise NUS lance le dernier modèle : une reconstruction 3D à vue unique, rapide et précise !

Adresse papier : https://arxiv.org/pdf/2304.10261.pdf#🎜 🎜#

Avec l'aide du modèle « diviser tout » de Meta, Anything-3D donne directement vie à tout objet divisé.

Léquipe chinoise NUS lance le dernier modèle : une reconstruction 3D à vue unique, rapide et précise !

De plus, en utilisant le modèle Zero-1-to-3, vous pouvez obtenir différents angles de base Ke .

Léquipe chinoise NUS lance le dernier modèle : une reconstruction 3D à vue unique, rapide et précise !

Vous pouvez même effectuer une reconstruction 3D de personnages.

Léquipe chinoise NUS lance le dernier modèle : une reconstruction 3D à vue unique, rapide et précise !

Léquipe chinoise NUS lance le dernier modèle : une reconstruction 3D à vue unique, rapide et précise !

On peut dire que celui-là est vraiment un percée.

Anything-3D !

Dans le monde réel, divers objets et environnements sont divers et complexes. Par conséquent, sans restrictions, la reconstruction 3D à partir d’une seule image RVB se heurte à de nombreuses difficultés.

Ici, des chercheurs de l'Université nationale de Singapour ont combiné une série de modèles de langage visuel et de modèles de segmentation d'objets SAM (Segment-Anything) pour générer un système Strong polyvalent et fiable. - N'importe quoi en 3D.

Le but est de réaliser la tâche de reconstruction 3D sous la condition d'une perspective unique.

Ils utilisent le modèle BLIP pour générer des descriptions de texture, utilisent le modèle SAM pour extraire des objets dans l'image, puis utilisent le modèle de diffusion texte → image Stable Diffusion pour placer les objets dans Nerf (champ de rayonnement neuronal).

Dans des expériences ultérieures, Anything-3D a démontré ses puissantes capacités de reconstruction tridimensionnelle. Non seulement il est précis, mais il a un large éventail d’applicabilités.

Anything-3D a des effets évidents en résolvant les limites des méthodes existantes. Les chercheurs ont démontré les avantages de ce nouveau cadre en testant et en évaluant divers ensembles de données.

Léquipe chinoise NUS lance le dernier modèle : une reconstruction 3D à vue unique, rapide et précise !

Sur la photo ci-dessus, on peut voir : "Corgi tire la langue et court des milliers de kilomètres" , "Silver Wings", "Statue de la Déesse confiée à une voiture de luxe" et "Une vache brune dans un champ portant une corde bleue sur la tête".

Il s'agit d'une démonstration préliminaire que le framework Anything-3D peut habilement restaurer des images à vue unique prises dans n'importe quel environnement sous une forme 3D et générer une texture.

Ce nouveau framework fournit toujours des résultats très précis malgré d'importants changements dans la perspective de la caméra et les propriétés des objets.

Il faut savoir que la reconstruction d'objets 3D à partir d'images 2D est au cœur du sujet dans le domaine de la vision par ordinateur, très importante pour les robots, la conduite autonome, la réalité, réalité virtuelle et impression tridimensionnelle. Elle a un impact énorme dans tous les domaines.

Bien que de bons progrès aient été réalisés ces dernières années, la tâche de reconstruction d'objets à image unique dans des environnements non structurés reste un problème très attrayant et urgent à résoudre.

Actuellement, les chercheurs ont pour tâche de générer une représentation tridimensionnelle d'un ou plusieurs objets à partir d'une seule image bidimensionnelle. Les méthodes de représentation incluent des nuages ​​de points, des maillages ou des représentations volumiques.

Cependant, ce problème n'est fondamentalement pas vrai.

En raison de l'ambiguïté inhérente créée par la projection bidimensionnelle, il est impossible de déterminer sans ambiguïté la structure tridimensionnelle d'un objet.

Couplée aux énormes différences de forme, de taille, de texture et d'apparence, la reconstruction d'objets dans leur environnement naturel est très complexe. De plus, les objets des images du monde réel sont souvent masqués, ce qui empêche une reconstruction précise des parties masquées.

Dans le même temps, des variables telles que l'éclairage et les ombres peuvent également affecter grandement l'apparence des objets, et les différences d'angle et de distance peuvent également provoquer des changements évidents entre les deux. -projection dimensionnelle.

Assez avec les difficultés, Anything-3D est prêt à jouer.

Dans l'article, les chercheurs ont présenté en détail ce cadre système révolutionnaire, qui intègre le modèle de langage visuel et le modèle de segmentation d'objets pour combiner facilement des objets 2D en 3D. .

De cette façon, un système doté de fonctions puissantes et d'une forte adaptabilité devient. Reconstruction à vue unique ? Facile.

Selon les chercheurs, en combinant les deux modèles, il est possible de récupérer et de déterminer la texture et la géométrie tridimensionnelles d'une image donnée.

Anything-3D utilise le modèle BLIP (Bootstrapping Language-Image Model) pour pré-entraîner la description textuelle de l'image, puis utilise le modèle SAM pour identifier le zone de distribution de l'objet.

Ensuite, utilisez les objets segmentés et les descriptions textuelles pour effectuer la tâche de reconstruction 3D.

En d'autres termes, cet article utilise un modèle de diffusion texte → image 2D pré-entraîné pour effectuer une synthèse 3D d'images. De plus, les chercheurs ont utilisé la distillation fractionnée pour entraîner un Nerf spécifiquement pour les images. Le coin supérieur gauche est l'image originale 2D. Elle passe d'abord par SAM pour segmenter le corgi, puis par BLIP pour générer une description textuelle, puis utilise la distillation fractionnée pour créer un Nerf.

Léquipe chinoise NUS lance le dernier modèle : une reconstruction 3D à vue unique, rapide et précise !Grâce à des expériences rigoureuses sur différents ensembles de données, les chercheurs ont démontré l'efficacité et l'adaptabilité de cette approche, tout en améliorant la précision, la robustesse et la généralisation. Les capacités dépassent les méthodes existantes. .

Les chercheurs ont également mené une analyse complète et approfondie des défis existants dans la reconstruction d'objets 3D dans des environnements naturels et ont exploré comment le nouveau cadre peut résoudre ces problèmes.

Enfin, en intégrant les capacités de vision à distance nulle et de compréhension du langage dans le modèle de base, le nouveau framework peut mieux reconstruire des objets à partir de différents types d'images dans le monde réel et générer une représentation 3D précise, complexe et largement applicable.

On peut dire qu'Anything-3D est une avancée majeure dans le domaine de la reconstruction d'objets 3D.

Voici d'autres exemples :

#🎜🎜 ## ##小, grue d'excavatrice orange vif, chapeau vert petit canard en caoutchouc jaune#🎜🎜 ## 🎜🎜 ## 🎜🎜 ## 🎜🎜 ## 🎜🎜# #🎜🎜 ##### 🎜🎜#Times Tears Fading Cannon , Pig Pig's Cute Metal Save Tibet, Tabouret haut à quatre pattes rouge cinabre#🎜🎜 ## 🎜🎜 ## 🎜🎜 ##### ## 🎜🎜#Ce nouveau cadre peut identifier de manière interactive les régions dans des images à vue unique et représenter des objets 2D avec des incorporations de texte optimisées. En fin de compte, un modèle de distillation fractionnée prenant en charge la 3D est utilisé pour générer efficacement des objets 3D de haute qualité.

En résumé, Anything-3D démontre le potentiel de reconstruction d'objets 3D naturels à partir d'images à vue unique.

Les chercheurs ont déclaré que la qualité de la reconstruction 3D du nouveau cadre peut être plus parfaite et que les chercheurs travaillent constamment dur pour améliorer la qualité de la génération.

De plus, les chercheurs ont déclaré que les évaluations quantitatives d'ensembles de données 3D telles que la synthèse de nouvelles vues et la reconstruction d'erreurs ne sont pas fournies actuellement, mais seront incluses dans les futures itérations de travail. ces contenus.

Pendant ce temps, l'objectif ultime des chercheurs est d'élargir ce cadre pour s'adapter à des situations plus pratiques, notamment la récupération d'objets sous des vues clairsemées.

À propos de l'auteur

Wang est actuellement professeur assistant tenure track au département ECE de l'Université nationale de Singapour (NUS).

Avant de rejoindre l'Université nationale de Singapour, il était professeur adjoint au département CS du Stevens Institute of Technology. Avant de rejoindre Stevens, j'ai travaillé comme postdoctorant dans le groupe de formation d'images du professeur Thomas Huang à l'Institut Beckman de l'Université de l'Illinois à Urbana-Champaign.

Wang a obtenu son doctorat au Laboratoire de vision par ordinateur de l'Ecole Polytechnique Fédérale de Lausanne (EPFL), supervisé par le professeur Pascal Fua, et a obtenu son doctorat au Département d'informatique Sciences, Université polytechnique de Hong Kong en 2010 Licence avec mention très bien.

Léquipe chinoise NUS lance le dernier modèle : une reconstruction 3D à vue unique, rapide et précise !

Ce qui précède est le contenu détaillé de. pour plus d'informations, suivez d'autres articles connexes sur le site Web de PHP en chinois!

Déclaration:
Cet article est reproduit dans:. en cas de violation, veuillez contacter admin@php.cn Supprimer