Maison  >  Article  >  Périphériques technologiques  >  Nouvelle version open source de Stability AI : la génération 3D introduit un modèle de diffusion vidéo, une cohérence de qualité améliorée, une lecture en 4 090

Nouvelle version open source de Stability AI : la génération 3D introduit un modèle de diffusion vidéo, une cohérence de qualité améliorée, une lecture en 4 090

WBOY
WBOYavant
2024-03-20 14:25:18959parcourir

Stability AI, la société derrière Stable Diffusion, a lancé quelque chose de nouveau.

Cette période apporte de nouveaux progrès dans le domaine graphique 3D :

Stable Video 3D (SV3D) basé sur la diffusion vidéo stable peut générer des maillages 3D de haute qualité avec une seule image.

Stability AI开源上新:3D生成引入视频扩散模型,质量一致性up,4090可玩

Stable Video Diffusion (SVD) est un modèle précédemment publié par Stability AI pour générer des vidéos haute résolution. L'avènement du SV3D marque la première fois que le modèle de diffusion vidéo est appliqué avec succès au domaine de la génération 3D.

A déclaré officiellement que sur cette base, SV3D a considérablement amélioré la qualité et la cohérence de la génération 3D.

Stability AI开源上新:3D生成引入视频扩散模型,质量一致性up,4090可玩

Les poids des modèles sont toujours open source, mais ils ne peuvent être utilisés qu'à des fins non commerciales. Si vous souhaitez les utiliser à des fins commerciales, vous devez acheter un abonnement Stability AI~

Sans plus tarder, prenons. un regard sur les détails du document.

Utilisation du modèle de diffusion vidéo pour la génération 3D

Présentation du modèle de diffusion vidéo latente, l'objectif principal de SV3D est d'utiliser la cohérence temporelle du modèle vidéo pour améliorer la cohérence de la génération 3D.

Et les données vidéo elles-mêmes sont également plus faciles à obtenir que les données 3D.

Stability AI propose cette fois deux versions de SV3D :

  • SV3D_u : Générez une vidéo orbitale basée sur une seule image.

Stability AI开源上新:3D生成引入视频扩散模型,质量一致性up,4090可玩

  • SV3D_p : étend la fonctionnalité de SV3D_u pour créer des vidéos de modèles 3D basées sur des chemins de caméra spécifiés.

Stability AI开源上新:3D生成引入视频扩散模型,质量一致性up,4090可玩

Les chercheurs ont également amélioré la technologie d'optimisation 3D : en utilisant une stratégie d'entraînement grossière à fine, en optimisant les maillages NeRF et DMTet pour générer des objets 3D.

Stability AI开源上新:3D生成引入视频扩散模型,质量一致性up,4090可玩

Ils ont également conçu une fonction de perte spéciale appelée échantillonnage de distillation de score masqué (SDS) pour améliorer la qualité et la cohérence des modèles 3D générés en optimisant les zones qui ne sont pas directement visibles dans les données d'entraînement.

Dans le même temps, SV3D introduit un modèle d'éclairage basé sur une gaussienne sphérique pour séparer les effets d'éclairage et les textures, réduisant ainsi efficacement les problèmes d'éclairage intégrés tout en conservant la clarté des textures.

Stability AI开源上新:3D生成引入视频扩散模型,质量一致性up,4090可玩

Spécifiquement en termes d'architecture, SV3D contient les composants clés suivants :

  • UNet : SV3D est construit sur la base de SVD et contient un UNet multicouche, où chaque couche possède une série de blocs résiduels (y compris Couche de convolution 3D) et deux modules Transformer qui traitent respectivement les informations spatiales et temporelles.
  • Entrée conditionnelle : l'image d'entrée est intégrée dans l'espace latent via l'encodeur VAE, et sera fusionnée avec l'état latent du bruit et entrée ensemble dans UNet ; la matrice d'intégration CLIP de l'image d'entrée est utilisée comme clé de chaque transformateur ; paire de valeurs de couche d'attention croisée du module.
  • Encodage de trajectoire de caméra : SV3D a conçu deux types de trajectoires, statiques et dynamiques, pour étudier l'impact des conditions d'attitude de la caméra. Dans une orbite statique, la caméra entoure l'objet selon des angles d'azimut régulièrement espacés ; dans une orbite dynamique, la caméra autorise des angles d'azimut irrégulièrement espacés et des angles d'élévation différents.

Les informations sur la trajectoire de mouvement de la caméra et les informations temporelles du bruit de diffusion seront entrées ensemble dans le module résiduel et converties en intégration de position sinusoïdale. Ensuite, ces informations d'intégration seront intégrées et transformées linéairement, et ajoutées au temps de bruit. intégration par étapes.

Une telle conception vise à améliorer la capacité du modèle à traiter les images en contrôlant finement les trajectoires de la caméra et l'entrée de bruit.

Stability AI开源上新:3D生成引入视频扩散模型,质量一致性up,4090可玩

De plus, SV3D utilise CFG (guidage sans classificateur) pendant le processus de génération pour contrôler la netteté de la génération, en particulier lors de la génération des dernières images de la piste, la mise à l'échelle triangulaire CFG est utilisée pour éviter une netteté excessive .

Les chercheurs ont formé SV3D sur l'ensemble de données Objaverse, avec une résolution d'image de 575×576 et un champ de vision de 33,8 degrés. Le document révèle que les trois modèles (SV3D_u, SV3D_c, SV3D_p) ont été formés sur 4 nœuds pendant environ 6 jours, chaque nœud étant équipé de 8 GPU A100 de 80 Go.

Résultats expérimentaux

En termes de nouvelle synthèse de perspective (NVS) et de reconstruction 3D, SV3D surpasse les autres méthodes existantes et atteint SOTA.

Stability AI开源上新:3D生成引入视频扩散模型,质量一致性up,4090可玩
Stability AI开源上新:3D生成引入视频扩散模型,质量一致性up,4090可玩

À en juger par les résultats de la comparaison qualitative, la vue multi-vue générée par SV3D a des détails plus riches et est plus proche de l'image d'entrée d'origine. En d’autres termes, SV3D peut capturer les détails avec plus de précision et maintenir la cohérence lors des changements d’angle de visualisation afin de comprendre et de reconstruire la structure 3D des objets.

Stability AI开源上新:3D生成引入视频扩散模型,质量一致性up,4090可玩

De tels résultats ont suscité l'émotion de nombreux internautes :

Il est concevable que dans les 6 à 12 prochains mois, la technologie de génération 3D soit utilisée dans les jeux et les projets vidéo.

Stability AI开源上新:3D生成引入视频扩散模型,质量一致性up,4090可玩

Il y a toujours des idées audacieuses dans la zone de commentaires...

Stability AI开源上新:3D生成引入视频扩散模型,质量一致性up,4090可玩

Et le projet est open source La première vague d'amis y a déjà joué et peut l'exécuter sur 4090.

Stability AI开源上新:3D生成引入视频扩散模型,质量一致性up,4090可玩

Lien de référence :
[1]https://twitter.com/StabilityAI/status/1769817136799855098.
[2]https://stability.ai/news/introducing-stable-video-3d.
[3]https://sv3d.github.io/index.html.

Ce qui précède est le contenu détaillé de. pour plus d'informations, suivez d'autres articles connexes sur le site Web de PHP en chinois!

Déclaration:
Cet article est reproduit dans:. en cas de violation, veuillez contacter admin@php.cn Supprimer