Maison >Périphériques technologiques >IA >Rendre les reliques culturelles « vivantes », la technologie de reconstruction 3D du cloud vidéo du moteur volcanique est révélée
La Chine a une longue histoire, un profond héritage culturel et un grand nombre de reliques culturelles En tant que cristallisation de la sagesse des générations précédentes, la valeur des reliques culturelles en tant que documents va de soi. Les livres anciens sont un support important pour l'enregistrement de la civilisation chinoise et un héritage culturel précieux qui a été transmis jusqu'à nos jours. La protection des reliques culturelles est également un travail de base important à long terme. Plus de 2 800 bibliothèques à travers le pays rassemblent plus de 50 millions de livres anciens, dont un tiers est endommagé à des degrés divers. Selon le nombre actuel de personnel de restauration des reliques culturelles, il faudra des centaines d'années pour restaurer toutes les reliques culturelles de la collection.
"Travel Notes on Ancient Books" est un projet de revitalisation de livres anciens créé conjointement par ByteDance et Les premières archives historiques de Chine, l'Académie de Dunhuang, le Gansu Slip Museum et la Bibliothèque nationale (Musée national des livres classiques), restaurantle ancien Les quatre découvertes majeures de documents - Os d'oracle des ruines de Yin, feuilles de bambou de Juyan Han, écrits posthumes de Dunhuang et archives Ming et Qing, donnent vie aux livres anciens sous forme numérique .
Ce projet est centré sur un documentaire interactif VR, s'appuyant sur la dernièretechnologie de reconstruction 3D du Volcano Engine Multimedia Laboratory, reproduisant des reliques culturelles hors ligne dans des scènes virtuelles PICO et appliquant la technologie vidéo de champ lumineux auto-développée pour collecter Il restaure également de manière éclatante les informations du champ lumineux des personnages dynamiques, offrant un haut degré de liberté de visualisation et une expérience interactive dans les scènes VR. Dans ces documentaires, les téléspectateurs peuvent utiliser PICO, Douyin VR à l'œil nu et d'autres méthodes pour voyager dans le temps et l'espace sans quitter leur domicile, participer personnellement à des événements historiques, et avoir un contact étroit avec et apprécier des livres anciens.
Cet article se concentre sur la technologie de reconstruction 3D du laboratoire multimédia Volcano Engine et sur les principes, les progrès et les domaines d'application de la technologie vidéo en champ lumineux pour aider chacun à mieux comprendre et comprendre la technologie de reconstruction 3D et aider les technologies associées à être utilisées dans des produits réels. et applications Terrain. 1. Défis et difficultés techniquesLa numérisation des reliques culturelles nécessite une reconstruction tridimensionnelle et une restauration numérique des reliques culturelles. Elle pose également un grand défi à la technologie de reconstruction tridimensionnelle :La technologie de reconstruction tridimensionnelle comprend généralement la collecte de données , le prétraitement, l'épissage de nuages de points, l'analyse des caractéristiques, la génération de maillage et de texture et d'autres étapes.
La reconstruction 3D traditionnelle utilise le processus de reconstruction des informations 3D des images basé sur la vision ou la multimodalité (données de profondeur, par exemple laser), qui peut modéliser des objets et des scènes statiques,mais manque de méthodes efficaces pour les objets et les scènes dynamiques. Une solution totale pour le modelage .
Le laboratoire multimédia Volcano Engine dispose d'une technologie de reconstruction d'objets, d'une technologie de reconstruction de scène et d'une technologie vidéo en champ lumineux, qui peuvent construire des formes haute fidélité d'objets statiques et restaurer leurs matériaux complexes, il peut reconstruire de grandes scènes, y compris ; villes Une modélisation efficace des parcs, des espaces d'habitation, etc. constitue une base importante pour les jumeaux numériques ; ils peuvent reconstruire et reproduire des objets dynamiques et des scènes dynamiques à l'aide d'une technologie vidéo avancée en champ lumineux pour réaliser une diffusion à la demande et en direct, avec un ensemble complet de techniques. plan de solutions.
2.1 Technologie de reconstruction d'objets : à la fois protéger les reliques culturelles et numériser avec précision Dans le projet « Notes de voyage sur les livres anciens », le laboratoire multimédia Volcano Engine a réalisé des restaurations numériques de plus de 40 reliques culturelles. Dans le processus de restauration numérique des reliques culturelles, la première difficulté rencontrée est que les reliques culturelles doivent être protégées, et il existe certaines restrictions sur les équipements de collecte, par exemple, les équipements laser de haute précision couramment utilisés ne peuvent pas être utilisés pour numériser les reliques culturelles. Cela a poussé l’équipe duVolcano Engine Multimedia Laboratory à adopter une approche basée sur la vision pour la reconstruction 3D des reliques culturelles.
Cependant, les méthodes traditionnelles de reconstruction basées sur la vision ne peuvent pas gérer des objets faiblement texturés, et il est également difficile de reconstruire des objets de formes complexes (comme des pantoufles longues et étroites, des os d'oracle plats). À cette fin, la solution technique des Signed Distance Fields (SDF) est utilisée pour représenter des objets tridimensionnels, et la méthode de deep learning est utilisée pour surmonter les difficultés de reconstruction ci-dessus. SDF représente la distance directionnelle entre chaque point de l'espace et l'objet. Il s'agit d'une représentation implicite. Le diagramme schématique du SDF bidimensionnel est le suivant.
Schéma schématique du SDF
Comment superviser le réseau neuronal pour s'adapter avec précision au SDF est un problème qui doit être étudié. Utilisez d’abord l’algorithme Structure from Motion (SfM) pour calculer avec précision la posture de la caméra de l’image capturée. Avec la posture de la caméra, les informations spatiales représentées par le SDF sont restituées sur l'image à l'aide de la méthode de rendu différenciable, et l'image rendue est comparée à l'image collectée dans cette perspective, et le réseau neuronal est continuellement optimisé pour améliorer le SDF. chaque perspective de collection. Les résultats de rendu sont aussi cohérents que possible avec les images réelles capturées.
Afin d'améliorer encore la précision de la reconstruction, les points tridimensionnels obtenus par reconstruction clairsemée sont ajoutés comme contraintes lors de l'optimisation du SDF, ce qui permet de mieux restituer les caractéristiques détaillées de l'objet. Afin d'atteindre l'objectif de reconstruction complète, le laboratoire multimédia Volcano Engine combine également des algorithmes de segmentation et des algorithmes de reconstruction pour reconstruire efficacement la zone inférieure de l'objet.
Étant donné que l'objet doit être fixé dans une certaine position pendant le processus de numérisation, aucune image ne peut être collectée sur la surface inférieure de l'objet. La reconstruction complète d'un objet consiste à résoudre le problème de la reconstruction du bas de l'objet. La méthode habituelle est la méthode de la ligne de suspension ou la reconstruction multi-segments plus l'épissage post-traitement. La méthode de suspension n'est pas suffisamment sûre pour les reliques culturelles, et le processus de traitement post-épissage est long et ne peut pas être automatisé. À cette fin, le laboratoire multimédia Volcano Engine a ajouté une segmentation d'image automatisée à l'algorithme de reconstruction, qui peut unifier les données extraites des plans avant et arrière et les reconstruire ensemble pour obtenir directement le résultat complet de la reconstruction. les résultats de la reconstruction sont présentés dans la figure ci-dessous.
Résultats de modélisation sans utiliser la technologie de reconstruction complète
Résultats de modélisation à l'aide de la technologie de reconstruction complète
La mise en évidence est un grand défi pour la reconstruction d'objets. La correspondance des points entraînera une récupération inexacte de la pose de la caméra, et un autre point culminant détruira la cohérence des résultats d'observation entre les différents angles de vision, provoquant des interférences avec la reconstruction. À cette fin, le Volcano Engine Multimedia Laboratory a résumé un ensemble de méthodes pour éliminer les reflets à l'aide de la lumière polarisée, qui peut supprimer efficacement un grand nombre de reflets La comparaison des résultats d'élimination des reflets est présentée dans la figure ci-dessous. Les méthodes du Volcano Engine Multimedia Laboratory peuvent également simuler les propriétés de réflexion/réfraction de différents objets à réaliser Modélisation spéciale d'objets matériels
, Les résultats de la reconstruction des reliques culturelles sont présentés dans la figure ci-dessous.
Photo originale de reliques culturelles
Résultats de la reconstruction de reliques culturelles
Certaines des reliques culturelles des quatre grands musées sont des reliques culturelles précieuses telles que des bouts de papier et de bambou. Ces reliques culturelles sont également difficiles à sortir et à récupérer des vitrines. En réponse à cette situation, Le Laboratoire Multimédia Volcano Engine a auto-développé un équipement de collecte intégrant des polariseurs optiques, qui peuvent éliminer la lumière parasite, les reflets et les problèmes de réflexion causés par les vitrines en verre, nous permettant d'utiliser une coque de protection en verre tout en effectuer une numérisation haute fidélité et une reconstruction de reliques culturelles.
Artefacts dans des vitrines en verre
Résultats de la reconstruction des artefacts
De plus, la technologie de reconstruction d'objets du Volcano Engine Multimedia Laboratory comprend également estimation précise de la pose, réelle la restauration de matériaux complexes tels que les textures sensorielles ( réflexion diffuse, réflexion spéculaire, translucidité ) et la reconstruction de surfaces fines ont également été utilisées dans le projet "Notes de voyage sur les livres anciens" pour réaliser de précieux objets culturels des reliques. Une restauration 1:1 très réaliste et une conversion en ressources numériques permettent au public de « s'immerger » dans le musée et de rendre la collection plus profondément enracinée dans le cœur des gens.
La technologie de reconstruction d'objets du Laboratoire multimédia Volcano Engine a une forte universalité. Elle convient non seulement aux reliques culturelles, mais également aux objets généraux, tels que les objets très difficiles à manipuler. des objets minces tels que des lames de couteau. Cela peut également produire de bons résultats de reconstruction.
Haut : accessoires tels que des couteaux et des bâtons en bois ; bas : articles de commerce électronique
La reconstruction de scène est une combinaison d'ordinateurs vision et photogrammétrie Il s'agit d'un sujet de recherche important dans le domaine et a également des applications importantes dans les villes intelligentes, la réalité virtuelle, la navigation numérique et la protection du patrimoine numérique. La reconstruction tridimensionnelle par vision présente les avantages d'une efficacité d'acquisition élevée, d'un faible coût d'acquisition, d'une limite supérieure de précision élevée et d'une adaptabilité à un large éventail de scènes. Elle peut également éviter des dommages inutiles à la scène causés par d'autres équipements de numérisation, mais elle. fait face à de nombreux défis au niveau de l’algorithme. À cet égard, Le Volcano Engine Multimedia Laboratory combine la technologie de l'IA et les principes de base de la géométrie multi-vues pour construire un cadre d'algorithme de reconstruction visuelle avancé, robuste, précis et complet. Le processus de reconstruction comprend trois étapes clés : le traitement de l'image, l'optimisation du nuage de points et la reconstruction du maillage .
Le laboratoire multimédia Volcano Engine utilise une technologie avancée d'intelligence artificielle pour traiter des images telles que le débruitage, la super-résolution , l'extraction et la correspondance de caractéristiques, surmontant ainsi de nombreuses limitations des méthodes traditionnelles. Ensuite, l'algorithme SfM et l'ajustement du bundle (BA) sont utilisés pour extraire les structures géométriques clairsemées et les paramètres de la caméra de l'image. Dans le même temps, l'équipe a développé un algorithme d'estimation de pose qui prend en charge la saisie de données multi-capteurs telles que les caméras panoramiques, les groupes multi-caméras, les caméras RGBD, le lidar, le GPS/IMU, etc., pour obtenir des résultats multimodaux de haute précision. et reconstruction adaptative clairsemée. Afin de traiter des données à grande échelle, l'équipe a développé des stratégies de reconstruction de blocs et de fusion de cartes pour réaliser une reconstruction parallèle de clusters distribués, améliorant ainsi considérablement l'efficacité de la reconstruction.
Après avoir terminé la reconstruction clairsemée de la scène, convertissez les informations de l'image bidimensionnelle en informations de nuage de points tridimensionnels grâce à la technologie Multiple View Stereo (MVS). L'équipe a développé des algorithmes d'estimation de profondeur basés sur des caméras monoculaires, des caméras binoculaires et une vision stéréo multi-yeux. Elle utilise des réseaux neuronaux pour effectuer une estimation de profondeur dense et obtenir des performances stables et excellentes dans n'importe quel environnement de parallaxe et de texture variée. Après avoir obtenu les informations sur le nuage de points, effectuez le débruitage et la complétion du nuage de points, et obtenez une cohérence géométrique de la scène grâce à l'enregistrement du nuage de points. Enfin, la stratégie de fusion de nuages de points basée sur VoxelHash et les informations sémantiques d'image est utilisée pour filtrer davantage le bruit et générer un nuage de points de scène complet plus fluide et plus cohérent.
Après avoir obtenu le nuage de points de scène, effectuez la reconstruction du maillage. Le laboratoire multimédia Volcano Engine a auto-développé une variété d'algorithmes d'optimisation de grille pour obtenir le lissage, le débruitage, la simplification et le remplissage des trous de la grille afin d'obtenir un modèle de grille plus raffiné, complet et de haute qualité. Grâce à l'estimation de la pose de la caméra de haute précision et à l'optimisation de la qualité de l'image pendant le traitement de l'image, combinées à des algorithmes de cartographie auto-développés, des cartes de texture de haute qualité avec une définition plus élevée et moins de coutures peuvent être obtenues. Dans le même temps, l'algorithme de reconditionnement des textures est optimisé pour obtenir une utilisation plus élevée de la texture, réduire le gaspillage des ressources de stockage et améliorer la résolution efficace de la texture. Algorithme d'enregistrement d'images traditionnel
Algorithme Volcano Engine Video Cloud résultats de modélisation
Modélisation de scènes urbaines
Algorithme de cloud vidéo du moteur volcanique
Résultats de la reconstruction du temple Yuantong de Suzhou
La technologie de reconstruction d'objets et la technologie de reconstruction de scènes du laboratoire multimédia Volcano Engine peuvent restaurer des reliques culturelles de différentes tailles et formes dans des proportions égales et avec une grande précision. La technologie mentionnée ci-dessus peut convertir des reliques culturelles hors ligne en ligne et réaliser la présentation virtuelle des reliques culturelles dans PICO et Douyin. Les utilisateurs peuvent jouer avec les inscriptions sur os d'oracle dans leurs mains et voir clairement le texte dessus, réalisant ainsi une expérience de visualisation de reliques culturelles. cela n'est pas disponible dans les visites traditionnelles, et en même temps, vous pouvez transcender les limitations d'espace et vous promener dans les grottes de Dunhuang. En outre, cette technologie peut convertir de précieuses reliques culturelles hors ligne en ressources numériques permanentes en ligne, réaliser une protection numérique des reliques culturelles et permettre aux générations futures de découvrir personnellement l’image complète des reliques culturelles.
2.3 Technologie vidéo en champ lumineux auto-développée : le problème de l'équilibre entre coût et précision
Afin de pouvoir regarder une grande danse de manière immersive dans les grottes virtuelles de Dunhuang et vivre une expérience au-delà de la réalité, le laboratoire multimédia Volcano EngineLe La technologie vidéo en champ lumineux auto-développée peut reconstruire des personnages et des scènes dynamiques avec une haute fidélité, atteignant le niveau avancé de l'industrie.
Les données de maillage 3D dynamique (Dynamic Mesh) peuvent représenter des personnages et des scènes dynamiques, mais comment reconstruire un maillage 3D dynamique de haute qualité et rendre l'image nouvellement rendue aussi réaliste qu'une photo est un problème.
Si la scène est reconstruite manuellement par un concepteur de scène 3D, une meilleure qualité de reconstruction sera obtenue, mais un coût de main-d'œuvre plus élevé sera engagé si la scène 3D est automatiquement reconstruite via des algorithmes tels que SFM/MVS, certaines exigences pour la texture de la scène ; doivent être reconstruits, et les résultats de la reconstruction peuvent contenir des détails géométriques inexacts et des distorsions de texture.La technologie du champ de rayonnement neuronal utilise des réseaux de neurones pour la reconstruction implicite et utilise des modèles de rendu différenciables pour apprendre à restituer des images sous de nouvelles perspectives à partir de vues existantes, obtenant ainsi un rendu d'image photoréaliste, c'est-à-dire la technologie du champ de rayonnement neural (NeRF). Le modèle de rendu différenciable modélise le processus de rendu des modèles spatiaux et des textures tridimensionnelles aux images. Ses caractéristiques différenciables permettent d'apprendre la géométrie et les textures spatiales tridimensionnelles via des réseaux neuronaux sous la supervision d'images en perspective existantes. Sous une nouvelle perspective inconnue, la géométrie spatiale tridimensionnelle apprise peut être restituée pour obtenir une image sous une nouvelle perspective.
Le laboratoire multimédia Volcano Engine combine la technologie du champ de rayonnement neuronal avec la technologie traditionnelle de modélisation de maillage. Dans la pratique spécifique, le contour géométrique approximatif du personnage est d'abord reconstruit et la technologie NeRF est améliorée, le contour géométrique est incorporé a priori pour ajouter des conseils de formation, la géométrie de l'espace tridimensionnel est implicitement apprise et l'image d'un une nouvelle perspective dense est restituée. Au cours du processus de formation du champ de rayonnement neuronal, pour les scènes de personnages dynamiques, l'équipe a utilisé certaines stratégies d'optimisation pour améliorer le nouvel effet de génération de perspective dans cette scène, comme l'utilisation d'une expression hiérarchique basée sur le codage de hachage pour améliorer la vitesse de formation du modèle et l'utilisation de la formation en streaming pour améliorer la dynamique inter-images des scènes, etc. Enfin, la technologie de fusion vidéo est utilisée pour apprendre automatiquement les informations d'arrière-plan et réaliser un rééclairage du premier plan, afin que les acteurs du premier plan et les scènes d'arrière-plan puissent être intégrés de manière transparente.
En même temps, la technologie vidéo en champ lumineux du Laboratoire Multimédia Volcano Engine peut réaliser le montage, la reconstruction et réplication des scènes dynamiques complexes NeRF Present.
Technologie vidéo en champ lumineux du Volcano Engine Multimedia Lab, qui ne nécessite qu'une entrée multi-caméras clairsemée, peut générer des données de champ lumineux denses, qui utilisent principalement une nouvelle technologie de génération de perspective basée sur l'apprentissage en profondeur. Par rapport aux données vidéo traditionnelles, les données vidéo en champ lumineux présentent les caractéristiques d'un grand volume de données. L'équipe utilise une technologie de codage d'agrégation multi-vues pour compresser les données en champ lumineux afin de réduire la pression de transmission et de stockage. Combiné à la technologie de diffusion en direct à grande échelle et à la technologie de transmission RTC , il est possible de réaliser une diffusion à la demande et en direct de vidéos en champ lumineux.
Alors que la technologie 3D continue de mûrir, Volcano The La technologie 3D du laboratoire Engine Multimedia a non seulement des applications spécifiques dans le domaine de la réalité virtuelle, de la conduite autonome, de la vidéo en direct, des jeux et d'autres scénarios, mais continuera également à être explorée dans les domaines de l'industrie, des soins médicaux, de la construction et de l'ameublement. l'aérospatiale et d'autres domaines. Volcano Engine espère appliquer largement la technologie de reconstruction d'objets, la technologie de reconstruction de scènes et la technologie vidéo en champ lumineux à des produits et des projets dans diverses industries, servir les entreprises clientes et offrir aux utilisateurs une expérience innovante de plus haute définition, plus interactive et plus immersive.
Le Volcano Engine Multimedia Laboratory est une équipe de recherche sous Bytedance. Il s'engage à explorer les technologies de pointe dans le domaine multimédia et à participer aux travaux de normalisation internationaux. a été largement utilisé dans l'activité multimédia de TikTok pour l'audio, la vidéo Xigua et d'autres produits, et fournit des services techniques aux clients d'entreprise de Volcano Engine. Depuis la création du laboratoire, de nombreux articles ont été sélectionnés dans les meilleures conférences internationales et revues phares, et ont remporté plusieurs championnats de compétitions techniques internationales, des prix de l'innovation industrielle et des prix du meilleur article.
Ce qui précède est le contenu détaillé de. pour plus d'informations, suivez d'autres articles connexes sur le site Web de PHP en chinois!