Rumah > Artikel > Peranti teknologi > ICML 2024|Kombinasi kompleks penjanaan pemandangan 3D, penjanaan 3D perbualan LLM boleh dikawal dan rangka kerja penyuntingan ada di sini
Lajur AIxiv ialah lajur di mana tapak ini menerbitkan kandungan akademik dan teknikal. Dalam beberapa tahun kebelakangan ini, lajur AIxiv laman web ini telah menerima lebih daripada 2,000 laporan, meliputi makmal terkemuka dari universiti dan syarikat utama di seluruh dunia, mempromosikan pertukaran dan penyebaran akademik secara berkesan. Jika anda mempunyai kerja yang sangat baik yang ingin anda kongsikan, sila berasa bebas untuk menyumbang atau hubungi kami untuk melaporkan. E-mel penyerahan: liyazhou@jiqizhixin.com; zhaoyunfeng@jiqizhixin.com
Pengarang pertama dan pengarang yang sepadan kertas ini adalah kedua-duanya dari Makmal VDIG (Pentafsiran Data Visual dan Penjanaan) Institut Komputer Wangxuan Universiti Peking, pertama Penulis ialah pelajar kedoktoran Zhou Xiaoyu, dan pengarang yang sepadan ialah penyelia kedoktoran Wang Yongtao. Dalam tahun-tahun kebelakangan ini, makmal VDIG telah menerbitkan beberapa keputusan perwakilan di persidangan teratas seperti IJCV, CVPR, AAAI, ICCV, ICML, ECCV, dll., dan telah memenangi anugerah kejuaraan dan naib juara dalam pertandingan heavyweight dalam domestik. dan bidang CV asing untuk banyak kali Ia juga telah memenangi anugerah daripada universiti terkenal di dalam dan luar negara, Institusi penyelidikan saintifik bekerjasama secara meluas.
Dalam beberapa tahun kebelakangan ini, kaedah Text-to-3D untuk objek tunggal telah membuat satu siri penemuan, tetapi menghasilkan adegan 3D berbilang objek kompleks yang boleh dikawal dan berkualiti tinggi daripada teks masih menghadapi cabaran besar. Kaedah sebelumnya mempunyai kelemahan utama dalam kerumitan, kualiti geometri, konsistensi tekstur, interaksi berbilang objek, kebolehkawalan dan kebolehsuntingan adegan yang dihasilkan.
Baru-baru ini, pasukan penyelidik VDIG dari Institut Sains Komputer Wangxuan di Universiti Peking dan rakan usaha samanya mengumumkan hasil penyelidikan terkini GALA3D. Untuk penjanaan adegan 3D kompleks berbilang objek, kerja ini mencadangkan rangka kerja penjanaan terkawal berpandukan LLM untuk pemandangan 3D yang kompleks, GALA3D, yang boleh menjana pemandangan 3D yang berkualiti tinggi dan konsisten tinggi dengan berbilang objek dan perhubungan interaktif yang kompleks serta menyokong. interaksi perbualan. Pengawal editor, kertas itu telah diterima oleh ICML 2024. .
Kod kertas: https://github.com/VDIGPKU/GALA3DPengenalan kaedah
GALA3D menggunakan model bahasa besar (LLM) untuk menghasilkan reka letak awal dan mencadangkan susun atur 3D binaan generatif kompleks adegan 3D. Reka Bentuk GALA3D mengoptimumkan bentuk dan pengedaran Gaussians 3D melalui kawalan geometri penyesuaian untuk menjana pemandangan 3D dengan geometri, tekstur, skala dan interaksi tepat yang konsisten. Selain itu, GALA3D juga mencadangkan mekanisme pengoptimuman gabungan yang menggabungkan pendahuluan resapan bersyarat dan model graf Vincentian untuk menjana secara kolaboratif pemandangan berbilang objek 3D dengan gaya yang konsisten, sambil mengoptimumkan secara berulang susun atur awal yang diekstrak daripada LLM untuk mendapatkan pemandangan sebenar yang lebih realistik dan tepat. susun atur ruang. Eksperimen kuantitatif dan kajian kualitatif yang meluas menunjukkan bahawa GALA3D mencapai hasil yang ketara dalam penjanaan pemandangan 3D teks-ke-kompleks, mengatasi kaedah pemandangan 3D Vincent yang sedia ada.
a, susun atur pemandangan sebelumnya berdasarkan LLM
Les grands modèles de langage démontrent d'excellentes capacités de compréhension et de raisonnement du langage naturel.Cet article explore plus en détail les capacités de raisonnement et de génération de mise en page des grands modèles de langage LLM dans des scènes complexes en 3D. Comment obtenir une mise en page relativement raisonnable au préalable sans conception manuelle peut aider à réduire le coût de modélisation et de génération de scènes. Pour cela, nous utilisons des LLM (tels que GPT-3.5) pour extraire les instances de saisie de texte et leurs relations spatiales, et générer les priorités de mise en page correspondantes. Cependant, il existe un certain écart entre la disposition spatiale 3D et le Layout préalable de la scène interprétée par les LLM et la scène réelle, ce qui se traduit généralement par la génération d'objets suspendus/passants, de combinaisons d'objets aux proportions excessivement différentes, etc. De plus, nous proposons un module de raffinement de la mise en page pour ajuster et optimiser la mise en page brute générée ci-dessus grâce à une diffusion préalable basée sur la vision et à une gaussienne 3D générative guidée par la mise en page.
b, Layout Refinement
GALA3D utilise le module d'optimisation de la mise en page basé sur Diffusion avant d'optimiser la mise en page préalablement générée par les LLM ci-dessus. Plus précisément, nous avons ajouté l'optimisation du gradient de la disposition de l'espace gaussien 3D guidée par la mise en page dans le processus de génération 3D et ajusté la position spatiale, l'angle de rotation et le rapport de taille des mises en page générées par LLM via ControlNet. La figure montre la scène 3D et la mise en page avant et. après optimisation. La mise en page optimisée a une position spatiale et une échelle plus précises et rend l'interaction entre plusieurs objets dans la scène 3D plus raisonnable.
c, Représentation gaussienne 3D générative guidée par la mise en page
Nous introduisons pour la première fois des contraintes de mise en page 3D dans la représentation gaussienne 3D et proposons une gaussienne 3D générative guidée par la mise en page pour les scènes 3D complexes de Vincent. La représentation gaussienne 3D guidée par la mise en page contient plusieurs objets d'instance extraits sémantiquement, où la mise en page avant de chaque objet d'instance peut être paramétrée comme :
où, N représente le nombre total d'objets d'instance dans la scène. Plus précisément, chaque gaussienne 3D d'instance est optimisée grâce à un contrôle géométrique adaptatif pour obtenir une représentation gaussienne 3D d'objet au niveau de l'instance. De plus, nous combinons plusieurs Gaussiennes d'objets dans la scène entière en fonction de relations de position relative, générons des Gaussiennes 3D globales guidées par la mise en page et rendons la scène entière via un Splatting Gaussien global.
d, contrôle de géométrie adaptatif
Afin de mieux contrôler la distribution spatiale et la forme géométrique des Gaussiennes 3D pendant le processus de génération, nous proposons une méthode de contrôle de géométrie adaptative pour les Gaussiennes 3D génératives. Premièrement, étant donné un ensemble de gaussiennes initiales, afin de contraindre les gaussiennes 3D dans la plage de disposition, GALA3D utilise un ensemble de fonctions de distribution de densité pour contraindre la position spatiale de l'ellipsoïde gaussien. Nous échantillonnons ensuite les Gaussiennes près de la surface de mise en page pour ajuster la fonction de distribution. Ensuite, nous proposons de contrôler la géométrie des Gaussiennes 3D en utilisant la régularisation de forme. Pendant le processus de génération 3D, le contrôle adaptatif de la géométrie optimise en permanence la distribution et la géométrie des gaussiennes pour générer des multi-objets et des scènes 3D avec plus de détails de texture et une géométrie régulière. Le contrôle de la géométrie adaptative garantit également une plus grande contrôlabilité et cohérence des gaussiennes 3D génératives guidées par la mise en page.
Résultats expérimentaux
Par rapport aux méthodes de génération Text-to-3D existantes, GALA3D montre une meilleure qualité et cohérence de génération de scènes 3D. Les résultats expérimentaux quantitatifs sont présentés dans le tableau suivant :
Nous avons également une analyse approfondie et approfondie. Une enquête auprès des utilisateurs efficaces a été menée et 125 participants (dont 39,2 % étaient des experts et des praticiens dans des domaines connexes) ont été invités à mener une évaluation multi-angle des scénarios de génération de la méthode de cet article et des méthodes existantes. Les résultats sont présentés ci-dessous. tableau :
Les résultats expérimentaux montrent que GALA3D surpasse les méthodes existantes dans les indicateurs d'évaluation multidimensionnels tels que la qualité de la scène, la fidélité géométrique, la cohérence du texte, la cohérence de la scène, etc., et atteint la qualité de génération optimale.
Comme le montrent les résultats expérimentaux qualitatifs de la figure ci-dessous, GALA3D peut générer des scènes 3D complexes de combinaisons multi-objets en plan zéro avec une bonne cohérence :
La figure ci-dessous montre que GALA3D peut prendre en charge des scènes conversationnelles conviviales. Génération et édition contrôlables :
Pour plus de détails sur la recherche, veuillez vous référer à l'article original.
Atas ialah kandungan terperinci ICML 2024|Kombinasi kompleks penjanaan pemandangan 3D, penjanaan 3D perbualan LLM boleh dikawal dan rangka kerja penyuntingan ada di sini. Untuk maklumat lanjut, sila ikut artikel berkaitan lain di laman web China PHP!