Maison >Périphériques technologiques >IA >La version 3D de SORA est là ! DreamTech lance Direct3D, le premier grand modèle 3D-DiT natif au monde

La version 3D de SORA est là ! DreamTech lance Direct3D, le premier grand modèle 3D-DiT natif au monde

王林original: 2024-06-18 09:57:211171parcourir

En mai 2024, DreamTech a officiellement annoncé son grand modèle de génération 3D de haute qualité Direct3D et a publié l'article universitaire connexe Direct3D : Scalable Image-to-3D Generation via 3D Latent Diffusion Transformer.

3D 版 SORA 来了！DreamTech 推出全球首个原生 3D-DiT 大模型 Direct3D

Lien : https://arxiv.org/abs/2405.14832

Il s'agit du premier grand modèle 3D rendu public d'un itinéraire généré en 3D natif en utilisant un transformateur de diffusion 3D (3D-DiT). Il résout le problème de la génération de contenu 3D de haute qualité qui tourmente depuis longtemps l'industrie.

3D 版 SORA 来了！DreamTech 推出全球首个原生 3D-DiT 大模型 Direct3D

Adhérer à la voie technologique native 3D et réaliser des percées

Auparavant, la voie technologique habituellement adoptée par 3D AIGC était le levage 2D vers 3D, ce qui signifie mettre à niveau le modèle d'image 2D pour obtenir un modèle 3D, qui représente les premières solutions incluent le Score Distillation Sampling (SDS) représenté par DreamFusion proposé par Google, et le Large Reconstruction Model (LRM) représenté par Instant3D proposé par Adobe. Bien que les données 3D soient progressivement introduites dans le processus de formation du modèle pour améliorer la qualité, la technologie d'amélioration de la dimensionnalité 2D présente des problèmes inhérents tels que des têtes et des faces multiples, des cavités et des occlusions. Les solutions existantes sont difficiles à répondre aux exigences des applications commerciales pour la génération 3D générale.

3D 版 SORA 来了！DreamTech 推出全球首个原生 3D-DiT 大模型 Direct3D

Au début de l'année dernière, certaines personnes de l'industrie ont commencé à essayer la voie 3D native, c'est-à-dire obtenir des modèles 3D directement sans passer par des images 2D multi-vues intermédiaires ou une optimisation itérative multi-vue. L'itinéraire technique peut éviter les inconvénients de l'amélioration de la dimensionnalité 2D et montrer le potentiel d'obtenir un contenu 3D de haute qualité, sans distorsion, incomplet et disponible dans le commerce. En principe, la méthode 3D native présente des avantages significatifs par rapport à la méthode d'amélioration de la dimensionnalité 2D. Cependant, la formation de modèles et le développement d'algorithmes ont toujours posé de nombreux défis. Les problèmes les plus critiques sont les suivants :

Représentation efficace du modèle 3D : Image. Et les vidéos peuvent obtenir directement des fonctionnalités latentes grâce à la compression de représentation matricielle 2D/2,5D. En revanche, les données 3D ont une topologie complexe et des dimensions de représentation plus élevées. Comment compresser efficacement des données 3D, puis analyser et apprendre la distribution des données 3D dans l'espace latent 3D est un problème qui a toujours troublé le personnel de l'industrie.
Architecture de formation 3D efficace : L'architecture DiT a été appliquée pour la première fois dans le domaine de la génération d'images et a obtenu un grand succès, notamment Stable Diffusion 3 (SD3) et Hunyuan-DiT. Dans le domaine de la génération vidéo, OpenAI SORA utilise. l'architecture DiT pour obtenir avec succès des effets de génération vidéo qui dépassent de loin ceux de Runway et Pika ; dans le domaine de la génération 3D, limité par une topologie complexe et des méthodes de représentation tridimensionnelle, l'architecture DiT originale ne peut pas être directement appliquée à la génération de maillage 3D.
Données d'entraînement 3D à grande échelle de haute qualité : La qualité et l'échelle des données d'entraînement 3D déterminent directement la qualité et la capacité de généralisation du modèle généré. On pense généralement dans l'industrie qu'il y en a au moins des dizaines de millions. des données de formation 3D de haute qualité sont nécessaires pour répondre aux exigences de formation des grands modèles 3D. Cependant, les données 3D sont extrêmement rares dans le monde. Bien qu'il existe des dizaines de millions d'ensembles de données d'entraînement 3D tels que ObjaverseXL, la plupart d'entre eux sont des structures simples de mauvaise qualité, et les données 3D de haute qualité disponibles représentent moins de 5 %. . Comment obtenir une quantité suffisante de données 3D de haute qualité est un problème mondial.

3D 版 SORA 来了！DreamTech 推出全球首个原生 3D-DiT 大模型 Direct3D

En réponse aux problèmes fondamentaux ci-dessus, DreamTech a proposé le premier grand modèle 3D-DiT natif au monde, Direct3D. Grâce à une vérification expérimentale approfondie, la qualité de génération de modèles 3D de Direct3D dépasse largement la méthode de dimensionnalité 2D actuelle, qui bénéficie principalement des trois points suivants :

D3D-VAE : Direct3D propose un modèle 3D similaire à OpenAI SORA VAE (Variational Auto-Encoder) est utilisé pour extraire les caractéristiques latentes des données 3D, réduisant ainsi la complexité de représentation des données 3D du N^3 d'origine à un espace latent 3D compact de n^2 (n<
D3D-DiT : Direct3D adopte l'architecture DiT et améliore et optimise le DiT original. Il introduit des modules d'alignement au niveau sémantique et au niveau des pixels pour les images d'entrée, qui peuvent obtenir un alignement élevé du modèle de sortie avec n'importe quelle image d'entrée. .
Moteur de données 3D DreamTech : Direct3D utilise une grande quantité de données 3D de haute qualité dans la formation, dont la plupart sont produites par le moteur de synthèse de données auto-développé par DreamTech. Le moteur de synthèse DreamTech a établi des processus de traitement de données entièrement automatiques tels que le nettoyage et l'annotation des données, et a accumulé et produit plus de 20 millions de données 3D de haute qualité, complétant ainsi la dernière pièce du puzzle pour la mise en œuvre d'algorithmes 3D natifs. Il convient de mentionner qu'OpenAI a essayé d'utiliser des millions de données synthétiques 3D dans le processus de formation de Shap-E et Point-E en 2023. Par rapport à la solution de synthèse de données d'OpenAI, les données 3D synthétisées par DreamTech sont à plus grande échelle et de meilleure qualité. .

Adoption de l'architecture DiT

Le domaine 3D a une fois de plus vérifié la loi de mise à l'échelle

En termes d'architecture technique, Direct3D utilise Diffusion Transformer (DiT), qui est similaire à OpenAI SORA. L'architecture DiT est actuellement l'architecture grand modèle AIGC la plus avancée. Elle combine les avantages des deux architectures majeures de Diffusion et Transformer pour répondre aux exigences d'évolutivité, c'est-à-dire qu'elle fournit au modèle plus de données et des paramètres de modèle plus volumineux. peut atteindre, voire dépasser, la qualité générative humaine. Les projets pratiques actuels de la technologie DiT incluent Stable Diffusion 3 (Stablility AI, février 2024), Hunyuan-DiT (Tencent, mai 2024) dans le sens de la génération d'images et SORA (OpenAI, février 2024) dans le sens de la génération de vidéos. , Direct3D de DreamTech est la première pratique publique de DiT au monde dans le sens de la génération de contenu 3D.

L'architecture DiT est conforme et a été vérifiée à plusieurs reprises en tant que loi de mise à l'échelle.

3D 版 SORA 来了！DreamTech 推出全球首个原生 3D-DiT 大模型 Direct3D

Scaling Law a pleinement prouvé son efficacité sur les grands modèles de langage. À mesure que le nombre de paramètres et de données d'entraînement augmente, l'intelligence des grands modèles sera grandement améliorée dans le domaine de la génération d'images, à partir des paramètres du SD1 ; la taille de SORA varie de 0,8B à 8B de SD3, et la taille des paramètres de Dall-E 3 est de 12B, ce qui démontre l'efficacité de la loi de mise à l'échelle dans le domaine de la génération vidéo, par rapport à Runway, Pika, etc. ; a émis l'hypothèse que sa mise en œuvre technique implique principalement une modification de l'architecture du modèle. Elle est devenue DiT, et les paramètres du modèle et les données de formation ont été améliorés d'un ordre de grandeur, démontrant des effets de génération choquants au monde, qu'il s'agisse de la résolution vidéo, de la durée de la vidéo ou de la vidéo. qualité de génération, elle a été grandement améliorée.

Il en va de même dans le domaine 3D. Direct3D-1B montre à l'industrie la première architecture 3D-DiT native réalisable. Il utilise un moteur de synthèse de données de haute qualité auto-développé pour augmenter la quantité de données d'entraînement et de modèles. Paramètres pour générer des résultats En constante amélioration, le futur domaine de génération 3D sera complètement remplacé par Direct3D (ou son architecture dérivée) des solutions LRM ou SDS existantes. Actuellement, l'équipe DreamTech promeut régulièrement la mise à l'échelle de Direct3D et prévoit de lancer Direct3D-XL avec 15B de paramètres avant la fin de l'année. Dans le même temps, cela augmentera davantage les données 3D de haute qualité pour les modèles d'entraînement. plus de 5 fois. La génération 3D marquera le début d’un moment marquant.

La qualité de la génération de contenu 3D a atteint le niveau commercial

Avec le lancement de Direct3D, le domaine de la génération 3D a fait un grand pas dans l'ère commerciale. En prenant l'exemple de l'impression 3D, les modèles générés à l'aide de solutions techniques telles que SDS et LRM auront les problèmes suivants :

La structure géométrique du modèle est déformée et sujette à de longues têtes et queues ; de nombreuses bavures pointues ;
La surface est trop lisse et manque de détails ;
la maille présente un petit nombre de taches et la structure fine ne peut pas être garantie ;
L'existence de ces problèmes a empêché les modèles générés par diverses solutions précédentes de pouvoir être imprimés normalement sur les imprimantes 3D, et des ajustements et des réparations manuels sont nécessaires. Étant donné que Direct3D adopte la technologie 3D native et utilise uniquement des données 3D dans l'ensemble de formation, la qualité des modèles 3D qu'il génère est plus proche de la qualité d'origine et résout parfaitement les problèmes fondamentaux tels que la structure géométrique, la précision du modèle, les détails de surface, et le nombre de patchs de maillage. La qualité des modèles générés par Direct3D a dépassé la limite supérieure de précision des imprimantes domestiques. Seules les imprimantes commerciales et industrielles dotées de spécifications plus élevées peuvent restaurer pleinement la précision des modèles générés.

Auparavant, les solutions techniques telles que SDS et LRM étaient limitées par la forme d'expression des caractéristiques du modèle 3D. Généralement, le nombre de correctifs de maillage de modèle générés était d'environ 50 000 à 200 000, et il était difficile de l'augmenter. le maillage des modèles 3D Le nombre de pâtons doit souvent atteindre plus de 1 million à 5 millions. Direct3D propose un paradigme d'expression de caractéristiques 3D plus raffiné, de sorte que le nombre de maillages de modèles générés n'a pas de limite supérieure et peut atteindre et dépasser 10 millions, répondant aux besoins de divers scénarios commerciaux.

Avec l'augmentation de la quantité de paramètres de modèle Direct3D et de données d'entraînement, la génération 3D sera appliquée à de plus en plus d'industries, y compris les industries des jeux et de l'animation de niveau billion. On s'attend à ce qu'avant la fin de 2025, La génération 3D réalisera le travail de remplacement de la plupart des jeux, animations, modélisation de films et de télévision, et la mettra en œuvre à grande échelle dans diverses industries.

Direct3D Practice

Basé sur le grand modèle Direct3D, DreamTech a lancé deux produits d'adoption précoce, qui sont actuellement ouverts aux tests d'application (Cliquez pour lire le texte original, accédez à : www. neural4d.com).

L'un d'entre eux est Animeit ! Pour les utilisateurs du côté C. Animeit ! peut convertir n'importe quel objet image/texte saisi par l'utilisateur en une image de personnage 3D de haute qualité dans un style bidimensionnel, et le personnage 3D a des nœuds squelettiques. pour l'action Binding, sur Animeit!, les utilisateurs peuvent directement parler et interagir avec des partenaires d'IA 3D personnalisés.

Le personnage bidimensionnel généré par Animeit est extrêmement précis, avec des détails de contour du visage clairement visibles, des détails de mains proéminents et des doigts distincts. Il s'agit d'un niveau de qualité que les technologies de la génération 3D précédente ne peuvent déjà atteindre. disponible pour la production MMD dans la communauté 2D.

3D 版 SORA 来了！DreamTech 推出全球首个原生 3D-DiT 大模型 Direct3D

Un autre produit est une plate-forme de création de contenu 3D pour les créateurs. Les utilisateurs peuvent obtenir des modèles 3D de haute qualité en 1 minute grâce à des descriptions textuelles, comme en utilisant des plates-formes telles que Midjourney, sans attendre un raffinement à long terme ; téléchargez également une seule image et attendez un moment pour obtenir un modèle 3D de haute qualité et restauré avec précision.

À propos de DreamTech

DreamTech est profondément impliqué dans le domaine de la technologie de l'IA 3D et s'engage à utiliser des produits et services innovants pour améliorer l'expérience des créateurs et des consommateurs AIGC du monde entier. utiliser une IA avancée La technologie crée une expérience spatio-temporelle 4D qui est parfaitement connectée au monde réel et interagit en temps réel, et réalise l'intelligence artificielle générale (AGI) en simulant la complexité et la diversité du monde réel.

DreamTech rassemble les meilleurs talents mondiaux de l'IA et son équipe fondatrice est composée d'académiciens de la British Academy et de l'Académie des sciences, de jeunes talents de niveau national et de nombreux talents de haut niveau à Shenzhen. Les principaux membres de l'entreprise sont diplômés d'universités de renommée mondiale telles que l'Université d'Oxford, l'Université chinoise de Hong Kong et l'Université des sciences et technologies de Hong Kong, et ont travaillé dans des entreprises leaders du secteur telles qu'Apple, Tencent et Baidu. Les membres de l'équipe fondatrice ont fondé avec succès un certain nombre d'entreprises qui sont devenues des références dans le domaine de la 3D. Ces sociétés ont ensuite été rachetées par des géants de l'industrie tels qu'Apple, Google et Bosch.

Ce qui précède est le contenu détaillé de. pour plus d'informations, suivez d'autres articles connexes sur le site Web de PHP en chinois!

架构 auto 对象算法人工智能 transformer stable diffusion DreamFusion https AIGC midjourney agi

Déclaration：

Le contenu de cet article est volontairement contribué par les internautes et les droits d'auteur appartiennent à l'auteur original. Ce site n'assume aucune responsabilité légale correspondante. Si vous trouvez un contenu suspecté de plagiat ou de contrefaçon, veuillez contacter admin@php.cn

Article précédent：Laissez Lu Xun parler des virelangues et Hepburn jouer du hip-hop. Un autre modèle vidéo est devenu viral et a été fondé par un médecin chinois de Stanford.Article suivant：Laissez Lu Xun parler des virelangues et Hepburn jouer du hip-hop. Un autre modèle vidéo est devenu viral et a été fondé par un médecin chinois de Stanford.

Articles Liés

Voir plus