Rumah >Peranti teknologi >AI >Episod yang paling menjanjikan untuk penjanaan 3D berkualiti tinggi? GaussianCube secara menyeluruh mengatasi NeRF dalam penjanaan 3D

Episod yang paling menjanjikan untuk penjanaan 3D berkualiti tinggi? GaussianCube secara menyeluruh mengatasi NeRF dalam penjanaan 3D

PHPzasal: 2024-06-16 22:50:001195semak imbas

Episod yang paling menjanjikan untuk penjanaan 3D berkualiti tinggi? GaussianCube secara menyeluruh mengatasi NeRF dalam penjanaan 3D

Lajur AIxiv laman web ini ialah lajur yang menerbitkan kandungan akademik dan teknikal. Dalam beberapa tahun kebelakangan ini, lajur AIxiv laman web ini telah menerima lebih daripada 2,000 laporan, meliputi makmal terkemuka dari universiti dan syarikat utama di seluruh dunia, mempromosikan pertukaran dan penyebaran akademik secara berkesan. Jika anda mempunyai kerja yang sangat baik yang ingin anda kongsikan, sila berasa bebas untuk menyumbang atau hubungi kami untuk melaporkan. E-mel penyerahan: liyazhou@jiqizhixin.com; zhaoyunfeng@jiqizhixin.com.

Dalam bidang penyelidikan pemodelan generatif 3D, dua kategori utama kaedah perwakilan 3D semasa adalah sama ada berdasarkan penyahkod tersirat dengan keupayaan pemasangan yang tidak mencukupi, atau tidak mempunyai struktur spatial yang jelas dan sukar untuk disepadukan dengan arus perdana teknologi resapan. Penyelidik dari Universiti Sains dan Teknologi China, Universiti Tsinghua dan Microsoft Research Asia mencadangkan GaussianCube, perwakilan 3D tersusun secara eksplisit dengan keupayaan pemasangan yang berkuasa, dan boleh digunakan dengan lancar pada model penyebaran 3D arus perdana semasa.

GaussianCube bermula dengan algoritma pemasangan Gaussian dengan kekangan ketumpatan novel yang membolehkan pemasangan ketepatan tinggi aset 3D sambil memastikan penggunaan bilangan Gaussian percuma yang tetap. Gaussians ini kemudiannya disusun semula ke dalam grid voxel yang telah ditetapkan menggunakan algoritma pengangkutan yang optimum. Terima kasih kepada ciri-ciri struktur GaussianCube, penyelidik boleh terus menggunakan 3D U-Net standard sebagai rangkaian tulang belakang untuk pemodelan resapan tanpa reka bentuk rangkaian yang kompleks.

Lebih penting lagi, algoritma pemasangan baharu yang dicadangkan dalam artikel ini sangat meningkatkan kekompakan perwakilan Apabila kualiti pemasangan perwakilan 3D adalah sama, bilangan parameter yang diperlukan hanyalah yang diperlukan oleh perwakilan berstruktur tradisional atau satu perseratus daripada jumlah parameter. Kekompakan ini mengurangkan kerumitan pemodelan generatif 3D dengan ketara. Penyelidik telah menjalankan eksperimen yang meluas mengenai penjanaan objek 3D tanpa syarat dan bersyarat, penciptaan avatar digital dan sintesis kandungan teks ke 3D.

Hasil berangka menunjukkan GaussianCube mencapai peningkatan prestasi sehingga 74% berbanding algoritma garis dasar sebelumnya. Seperti yang ditunjukkan di bawah, GaussianCube bukan sahaja dapat menjana aset 3D berkualiti tinggi, tetapi juga menyediakan kesan visual yang sangat menarik, menunjukkan sepenuhnya potensi besarnya sebagai perwakilan universal untuk penjanaan 3D. Rajah 1. Hasil yang dijana tanpa syarat. Kaedah dalam artikel ini boleh menghasilkan model 3D yang berkualiti tinggi dan pelbagai.入 Rajah 2. Hasil ciptaan penjelmaan digital berdasarkan potret input. Kaedah dalam artikel ini boleh mengekalkan maklumat ciri identiti potret input pada tahap yang besar, dan menyediakan gaya rambut dan pemodelan pakaian yang terperinci.入 Rajah 3. Hasil penciptaan aset 3D berdasarkan teks input. Kaedah dalam artikel ini boleh mengeluarkan hasil yang konsisten dengan maklumat teks, dan boleh memodelkan struktur geometri kompleks dan bahan terperinci. Rajah 4. Keputusan yang dijana mengikut keadaan kategori. Aset 3D yang dijana dalam artikel ini mempunyai semantik yang jelas dan struktur dan bahan geometri berkualiti tinggi.

Episod yang paling menjanjikan untuk penjanaan 3D berkualiti tinggi? GaussianCube secara menyeluruh mengatasi NeRF dalam penjanaan 3D

Nama kertas: GaussianCube: Perwakilan Sinaran Berstruktur dan Eksplisit untuk Pemodelan Generatif 3D
Laman utama projek: https://gaussiancube.github.io/
pautan: https://gaussiancube.github.io/
pdf/2403.19655
Kod sumber terbuka: https://github.com/GaussianCube/GaussianCube

Video demo: https://www.bilibili.com/video/BV1zy411h

Pada umur berapa anda masih menggunakan NeRF tradisional untuk pemodelan generatif 3D?

Kebanyakan kerja pemodelan generatif 3D sebelum ini telah menggunakan varian Neural Radiance Field (NeRF) sebagai perwakilan 3D asasnya, yang biasanya menggabungkan perwakilan ciri berstruktur eksplisit dan Penyahkod ciri tersirat. Walau bagaimanapun, dalam pemodelan generatif 3D, semua objek 3D perlu berkongsi penyahkod ciri tersirat yang sama, yang sangat melemahkan keupayaan pemasangan NeRF. Selain itu, teknologi pemaparan volum yang NeRF bergantung pada mempunyai kerumitan pengiraan yang sangat tinggi, yang mengakibatkan kelajuan pemaparan perlahan dan penggunaan memori GPU yang sangat tinggi. Baru-baru ini, satu lagi kaedah perwakilan tiga dimensi, 3D Gaussian Splatting (3DGS), telah menarik banyak perhatian. Walaupun 3DGS mempunyai keupayaan pemasangan yang berkuasa, prestasi pengkomputeran yang cekap dan ciri eksplisit sepenuhnya, ia telah digunakan secara meluas dalam tugas pembinaan semula tiga dimensi. Walau bagaimanapun, 3DGS tidak mempunyai struktur spatial yang jelas, yang menjadikannya tidak dapat digunakan secara langsung dalam rangka kerja pemodelan generatif arus perdana.

Oleh itu, pasukan penyelidik mencadangkan GaussianCube. Ini ialah kaedah perwakilan tiga dimensi yang inovatif yang berstruktur dan eksplisit sepenuhnya, dengan keupayaan pemasangan yang berkuasa. Kaedah yang dibentangkan dalam artikel ini mula-mula memastikan kesesuaian ketepatan tinggi dengan bilangan Gaussian percuma yang tetap, dan kemudian dengan cekap menyusun Gaussian ini ke dalam grid voxel berstruktur. Perwakilan eksplisit dan berstruktur ini membolehkan penyelidik mengguna pakai seni bina rangkaian 3D standard dengan lancar, seperti U-Net, tanpa memerlukan rangkaian kompleks dan tersuai yang diperlukan apabila menggunakan reka bentuk tidak berstruktur atau dinyahkod secara tersirat.

Pada masa yang sama, organisasi berstruktur melalui algoritma penghantaran optimum mengekalkan hubungan struktur spatial antara isirong Gaussian bersebelahan ke tahap yang paling besar, membolehkan penyelidik mengekstrak ciri dengan cekap hanya menggunakan rangkaian konvolusi 3D klasik. Lebih penting lagi, memandangkan penemuan dalam kajian terdahulu bahawa model resapan berprestasi buruk apabila berurusan dengan pengagihan data berdimensi tinggi, GaussianCube yang dicadangkan dalam kertas ini dengan ketara mengurangkan jumlah parameter yang diperlukan sambil mengekalkan pembinaan semula berkualiti tinggi, sekaligus mengurangkan masalah. Ia menghapuskan tekanan model resapan pada pemodelan pengedaran dan membawa keupayaan pemodelan yang ketara dan peningkatan kecekapan kepada bidang pemodelan generatif 3D.

Kaedah

Episod yang paling menjanjikan untuk penjanaan 3D berkualiti tinggi? GaussianCube secara menyeluruh mengatasi NeRF dalam penjanaan 3D

^…Rangka kerja kertas ini terdiri daripada dua peringkat utama: pembinaan perwakilan dan resapan tiga dimensi. Dalam fasa pembinaan perwakilan, memandangkan pemaparan berbilang paparan bagi aset 3D, pemasangan Gaussian dengan kekangan ketumpatan dilakukan padanya untuk mendapatkan Gaussian 3D dengan nombor tetap. Selepas itu, Gaussian tiga dimensi distrukturkan menjadi GaussianCube melalui pemindahan yang dioptimumkan. Dalam peringkat resapan 3D, para penyelidik melatih model resapan 3D untuk menjana GaussianCubes daripada hingar Gaussian.

cipta perwakilan untuk setiap aset 3D yang sesuai untuk pemodelan generatif. Memandangkan medan generatif sering memerlukan data yang dimodelkan untuk mempunyai panjang tetap yang seragam, kawalan ketumpatan penyesuaian dalam algoritma pemasangan 3DGS yang asal akan membawa kepada bilangan kernel Gaussian yang berbeza yang digunakan untuk memuatkan objek yang berbeza, yang membawa masalah kepada pemodelan generatif. Penyelesaian yang sangat mudah adalah dengan hanya mengalih keluar kawalan ketumpatan penyesuaian, tetapi para penyelidik mendapati bahawa ini mengurangkan ketepatan kesesuaian dengan teruk. Kertas kerja ini mencadangkan algoritma pemasangan kekangan ketumpatan baru yang mengekalkan operasi pemangkasan dalam kawalan ketumpatan penyesuaian asal, tetapi melakukan pemprosesan kekangan baharu pada operasi pemisahan dan pengklonan.

Secara khusus, dengan mengandaikan bahawa lelaran semasa termasuk Gaussians, para penyelidik mengenal pasti calon untuk operasi pemisahan atau pengklonan dengan memilih Gaussians yang magnitud kecerunannya pada kedudukan ruang sudut pandang melebihi ambang yang telah ditetapkan sebagai calon ini, bilangan tanda ambang τ ini.

. Untuk mengelakkan melebihi

Gaussian maksimum yang dipratentukan,
Gaussians dengan kecerunan kedudukan spatial sudut pandangan terbesar dipilih daripada calon untuk pemisahan atau pengklonan. Selepas melengkapkan proses pemasangan, penyelidik mengisinya dengan Gaussians dengan α=0 untuk mencapai kiraan sasaran

tanpa menjejaskan hasil pemaparan. Terima kasih kepada strategi ini, perwakilan berkualiti tinggi dengan beberapa susunan magnitud parameter yang lebih sedikit berbanding kerja sedia ada dengan kualiti serupa boleh dicapai, dengan ketara mengurangkan kesukaran pemodelan model resapan.

^{, Gaussian yang diperoleh melalui algoritma pemasangan di atas masih tidak mempunyai struktur susunan spatial yang jelas, yang menjadikan model penyebaran berikutnya tidak dapat memodelkan data dengan cekap. Untuk tujuan ini, penyelidik mencadangkan untuk memetakan Gaussians ke dalam grid voxel berstruktur yang telah ditetapkan untuk menjadikan Gaussians mempunyai struktur spatial yang jelas. Secara intuitif, matlamat langkah ini adalah untuk "menggerakkan" setiap Gaussian ke dalam voxel sambil mengekalkan kedekatan spatial Gaussians sebanyak mungkin.}

Para penyelidik memodelkannya sebagai masalah penghantaran optimum, menggunakan algoritma Jonker-Volgenant untuk mendapatkan hubungan pemetaan yang sepadan, dan kemudian menyusun Gaussians ke dalam voxel yang sepadan mengikut penyelesaian penghantaran optimum untuk mendapatkan GaussianCube, dan menggantikan kedudukan Gaussian asal dengan offset pusat voxel semasa untuk mengurangkan ruang penyelesaian model resapan. Perwakilan GaussianCube yang terakhir bukan sahaja berstruktur, tetapi juga mengekalkan hubungan struktur antara Gaussians yang bersebelahan ke tahap yang paling besar, yang memberikan sokongan kuat untuk pengekstrakan ciri yang cekap untuk pemodelan generatif 3D.

Dalam peringkat resapan tiga dimensi, artikel ini menggunakan model resapan tiga dimensi untuk memodelkan taburan GaussianCube. Terima kasih kepada organisasi GaussianCube yang berstruktur spatial, lilitan 3D standard mencukupi untuk mengekstrak dan mengagregat ciri Gaussians jiran dengan berkesan tanpa memerlukan reka bentuk rangkaian atau latihan yang kompleks. Oleh itu, penyelidik mengambil kesempatan daripada penyebaran rangkaian U-Net standard dan secara langsung menggantikan pengendali 2D asal (termasuk konvolusi, perhatian, pensampelan naik dan pensampelan rendah) dengan pelaksanaan 3D mereka.

Model resapan tiga dimensi artikel ini juga menyokong pelbagai isyarat keadaan untuk mengawal proses penjanaan, termasuk penjanaan keadaan label kategori, mencipta avatar digital berdasarkan keadaan imej dan menjana aset digital tiga dimensi berdasarkan teks. Keupayaan penjanaan berdasarkan keadaan multimodal sangat meluaskan skop aplikasi model dan menyediakan alat yang berkuasa untuk penciptaan kandungan 3D masa hadapan.

Hasil eksperimen

Para penyelidik mula-mula mengesahkan keupayaan pemasangan GaussianCube pada set data Kereta ShapeNet. Keputusan eksperimen menunjukkan bahawa berbanding dengan kaedah garis dasar, GaussianCube boleh mencapai pemasangan objek tiga dimensi berketepatan tinggi pada kelajuan terpantas dan dengan bilangan parameter terkecil.

Jadual 1. Perbandingan berangka bagi perwakilan tiga dimensi berbeza pada ShapeNet Car berkenaan struktur spatial, kualiti pemasangan, kelajuan pemasangan relatif dan jumlah parameter yang digunakan.

∗

menunjukkan bahawa objek berbeza berkongsi penyahkod ciri tersirat. Semua kaedah dinilai dengan lelaran 30K. Rajah 8. Perbandingan visual keupayaan pemasangan bagi perwakilan 3D yang berbeza pada ShapeNet Car. ∗ menunjukkan bahawa objek berbeza berkongsi penyahkod ciri tersirat. Semua kaedah dinilai dengan lelaran 30K. Episod yang paling menjanjikan untuk penjanaan 3D berkualiti tinggi? GaussianCube secara menyeluruh mengatasi NeRF dalam penjanaan 3D

^{Para penyelidik kemudian mengesahkan keupayaan penjanaan model penyebaran berasaskan GaussianCube pada sejumlah besar set data, termasuk ShapeNet, OmniObject3D, set data avatar digital sintetik dan set data Objaverse. Keputusan percubaan menunjukkan bahawa model kami mencapai hasil utama dalam penjanaan objek tanpa syarat dan kategori bersyarat, penciptaan avatar digital dan sintesis teks-ke-3D, daripada metrik berangka kepada kualiti visual. Khususnya, GaussianCube mencapai peningkatan prestasi sehingga 74% berbanding algoritma garis dasar sebelumnya.}

Episod yang paling menjanjikan untuk penjanaan 3D berkualiti tinggi? GaussianCube secara menyeluruh mengatasi NeRF dalam penjanaan 3D

Jadual 2. Perbandingan kuantitatif generasi tanpa syarat pada kereta shapenet, kerusi dan kategori generasi bersyarat pada omniObject3d.

^{… generasi nasional di ShapeNet Car, Chair. Kaedah dalam artikel ini boleh menghasilkan geometri yang tepat dan bahan terperinci. Rajah 10. Perbandingan kualitatif penjanaan keadaan kategori pada OmniObject3D. Kaedah ini boleh menghasilkan objek kompleks dengan semantik yang jelas. Jadual 3. Perbandingan kuantitatif penciptaan avatar digital berdasarkan potret input. Rajah 11. Perbandingan kualitatif penciptaan avatar digital berdasarkan potret input. Kaedah dalam artikel ini boleh memulihkan ciri identiti, ekspresi, aksesori dan butiran rambut potret input dengan lebih tepat.}

Episod yang paling menjanjikan untuk penjanaan 3D berkualiti tinggi? GaussianCube secara menyeluruh mengatasi NeRF dalam penjanaan 3D

^{Jadual 4. Perbandingan kuantitatif mencipta aset 3D berdasarkan teks input. Masa inferens diuji menggunakan A100 tunggal. Shap-E dan LGM mencapai Skor CLIP yang serupa dengan kaedah dalam artikel ini, tetapi mereka masing-masing menggunakan berjuta-juta data latihan (artikel ini hanya menggunakan 100,000 data tiga dimensi untuk latihan) dan model penyebaran graf Vincentian dua dimensi sebelum ini. Rajah 12. Perbandingan kualitatif mencipta aset 3D berdasarkan teks input. Kaedah dalam artikel ini boleh mencapai penjanaan aset 3D berkualiti tinggi berdasarkan teks input.}

Atas ialah kandungan terperinci Episod yang paling menjanjikan untuk penjanaan 3D berkualiti tinggi? GaussianCube secara menyeluruh mengatasi NeRF dalam penjanaan 3D. Untuk maklumat lanjut, sila ikut artikel berkaitan lain di laman web China PHP!

架构 for 对象 github 算法 https

Kenyataan：

Kandungan artikel ini disumbangkan secara sukarela oleh netizen, dan hak cipta adalah milik pengarang asal. Laman web ini tidak memikul tanggungjawab undang-undang yang sepadan. Jika anda menemui sebarang kandungan yang disyaki plagiarisme atau pelanggaran, sila hubungi admin@php.cn

Artikel sebelumnya：Model universal sumber terbuka paling berkuasa NVIDIA Nemotron-4 340BArtikel seterusnya：Model universal sumber terbuka paling berkuasa NVIDIA Nemotron-4 340B

Artikel berkaitan

Lihat lagi