Rumah >Peranti teknologi >AI >Lebih daripada sekadar Gaussian 3D! Gambaran keseluruhan terkini teknik pembinaan semula 3D yang terkini
Pembinaan semula 3D berasaskan imej ialah tugas mencabar yang melibatkan membuat kesimpulan bentuk 3D objek atau pemandangan daripada set imej input. Kaedah berasaskan pembelajaran telah menarik perhatian kerana keupayaan mereka untuk menganggar secara langsung bentuk 3D. Kertas ulasan ini memfokuskan pada teknik pembinaan semula 3D yang canggih, termasuk menjana novel, pandangan ghaib. Gambaran keseluruhan perkembangan terkini dalam kaedah percikan Gaussian disediakan, termasuk jenis input, struktur model, perwakilan output dan strategi latihan. Cabaran yang tidak dapat diselesaikan dan hala tuju masa depan turut dibincangkan. Memandangkan kemajuan pesat dalam bidang ini dan banyak peluang untuk meningkatkan kaedah pembinaan semula 3D, pemeriksaan menyeluruh terhadap algoritma nampaknya penting. Oleh itu, kajian ini memberikan gambaran menyeluruh tentang kemajuan terkini dalam serakan Gaussian.
(Leret ke atas dengan ibu jari anda, klik pada kad di bahagian atas untuk mengikuti saya, Seluruh operasi hanya akan membawa anda 1.328 saat, dan kemudian anda akan mengambil semua barangan percuma pada masa hadapan , sekiranya terdapat kandungan yang betul Adakah anda membantu~)
Pembinaan semula 3D dan NVS ialah dua bidang yang berkait rapat dalam grafik komputer yang bertujuan untuk menangkap dan menjadikan realistik Perwakilan 3D adegan fizikal. Pembinaan semula 3D melibatkan pengekstrakan maklumat geometri dan rupa daripada satu siri imej 2D, biasanya ditangkap dari sudut pandangan yang berbeza. Walaupun terdapat banyak teknik untuk pengimbasan 3D, penangkapan imej 2D yang berbeza ini adalah cara yang sangat mudah dan murah dari segi pengiraan untuk mengumpul maklumat tentang persekitaran 3D. Maklumat ini kemudiannya boleh digunakan untuk mencipta model 3D tempat kejadian, yang boleh digunakan untuk pelbagai tujuan, seperti aplikasi realiti maya (VR), tindanan realiti tambahan (AR) atau pemodelan reka bentuk bantuan komputer (CAD). .
NVS, sebaliknya, memfokuskan pada menjana paparan 2D baharu bagi pemandangan daripada model 3D yang diperoleh sebelum ini. Ini membolehkan penciptaan imej fotorealistik pemandangan dari mana-mana sudut pandangan yang diingini, walaupun imej asal tidak diambil dari sudut itu. Kemajuan terkini dalam pembelajaran mendalam telah membawa kepada peningkatan yang ketara dalam pembinaan semula 3D dan NVS. Model pembelajaran mendalam boleh digunakan untuk mengekstrak geometri dan rupa 3D dengan cekap daripada imej, dan model sedemikian juga boleh digunakan untuk menjana paparan novel yang realistik daripada model 3D. Akibatnya, teknologi ini menjadi semakin popular dalam pelbagai aplikasi, dan ia dijangka memainkan peranan yang lebih penting pada masa hadapan.
Bahagian ini akan memperkenalkan cara menyimpan atau mewakili data 3D, kemudian memperkenalkan set data awam yang paling biasa digunakan untuk tugasan ini, dan kemudian akan mengembangkan pelbagai algoritma, memfokuskan terutamanya pada percikan Gaussian.
Sifat spatial kompleks data tiga dimensi, termasuk dimensi isipadu, menyediakan perwakilan terperinci sasaran dan persekitaran. Ini penting untuk mencipta simulasi yang mendalam dan model yang tepat dalam pelbagai bidang penyelidikan. Struktur multidimensi data tiga dimensi membolehkan gabungan kedalaman, lebar dan ketinggian, membawa kepada kemajuan ketara dalam disiplin seperti reka bentuk seni bina dan teknologi pengimejan perubatan.
Pilihan perwakilan data memainkan peranan penting dalam reka bentuk banyak sistem pembelajaran mendalam 3D. Awan titik tidak mempunyai struktur seperti grid dan secara amnya tidak boleh berbelit-belit secara langsung. Sebaliknya, perwakilan voxel yang dicirikan oleh struktur seperti grid sering menimbulkan keperluan memori pengiraan yang tinggi.
Evolusi perwakilan 3D datang dengan cara data atau model 3D disimpan. Perwakilan data 3D yang paling biasa digunakan boleh dibahagikan kepada kaedah tradisional dan novel.
Pendekatan Tradisional:
Pendekatan Novel:
Struktur daripada gerakan: Pada tahun 1990-an, teknologi SFM semakin terkenal, mampu membina semula struktur 3D dan gerakan kamera daripada jujukan imej 2D. SFM ialah proses menganggar struktur 3D pemandangan daripada set imej 2D. SFM memerlukan korelasi titik antara imej. Cari titik yang sepadan dengan memadankan ciri atau titik penjejakan dalam berbilang imej dan triangulasi untuk mencari lokasi 3D.
Pembelajaran Mendalam: Dalam beberapa tahun kebelakangan ini, teknologi pembelajaran mendalam, terutamanya rangkaian neural konvolusi (CNN), telah disepadukan. Kaedah berasaskan pembelajaran mendalam semakin pantas dalam pembinaan semula 3D. Yang paling ketara ialah Rangkaian Penghuni 3D, seni bina rangkaian saraf yang direka untuk pemahaman dan pembinaan semula pemandangan 3D. Ia beroperasi dengan membahagikan ruang 3D kepada unit volumetrik kecil, atau voxel, dengan setiap voxel mewakili sama ada ia mengandungi sasaran atau ruang kosong. Rangkaian ini menggunakan teknik pembelajaran mendalam, seperti rangkaian neural konvolusi 3D, untuk meramalkan penghunian voxel, menjadikannya berharga untuk aplikasi seperti robotik, kenderaan autonomi, realiti tambahan dan pembinaan semula pemandangan 3D. Rangkaian ini sangat bergantung pada konvolusi dan transformer. Mereka penting untuk tugas seperti mengelak perlanggaran, perancangan laluan dan interaksi masa nyata dengan dunia fizikal. Tambahan pula, rangkaian penghunian 3D boleh menganggarkan ketidakpastian tetapi mungkin mempunyai had pengiraan apabila berurusan dengan adegan dinamik atau kompleks. Kemajuan dalam seni bina rangkaian saraf terus meningkatkan ketepatan dan kecekapannya.
Bidang Sinaran Neural: Dilancarkan pada 2020, NeRF menggabungkan rangkaian saraf dengan prinsip pembinaan semula tiga dimensi klasik dan telah menarik perhatian ketara dalam penglihatan dan grafik komputer. Ia membina semula adegan 3D terperinci dengan memodelkan fungsi volum dan meramalkan warna dan ketumpatan melalui rangkaian saraf. NeRF digunakan secara meluas dalam grafik komputer dan realiti maya. Baru-baru ini, NeRF telah meningkatkan ketepatan dan kecekapan melalui penyelidikan yang meluas. Penyelidikan terkini juga telah meneroka kebolehgunaan NeRF dalam senario bawah air. Semasa menyediakan perwakilan geometri pemandangan 3D yang mantap, cabaran seperti keperluan pengiraan masih wujud. Penyelidikan NeRF masa hadapan perlu menumpukan pada kebolehtafsiran, pemaparan masa nyata, aplikasi baru dan kebolehskalaan, membuka jalan untuk realiti maya, permainan dan robotik.
Penyebaran Gaussian: Akhirnya, pada tahun 2023, Penyebaran Gaussian 3D muncul sebagai teknologi pemaparan 3D masa nyata baharu. Dalam bahagian seterusnya, pendekatan ini dibincangkan secara terperinci.
Gaussian Splash menggunakan banyak Gaussian 3D atau zarah untuk menggambarkan pemandangan 3D, setiap satu dilengkapi dengan maklumat kedudukan, orientasi, skala, kelegapan dan warna. Untuk menjadikan zarah ini, tukarkannya kepada ruang 2D dan susunkannya secara strategik untuk pemaparan optimum.
Rajah 4 menunjukkan seni bina algoritma percikan Gaussian. Dalam algoritma asal, langkah-langkah berikut diambil:
KEMAUAN FUNGSI
Dinamik dan Deformasi
Model dinamik dan boleh ubah bentuk boleh diwakili dengan mudah dengan sedikit pengubahsuaian kepada perwakilan percikan Gaussian asal:
Gerakan dan Penjejakan Gaussianyang paling dinamik D Gaussian penjejakan gerakan merentasi langkah masa, bukannya percikan berasingan untuk setiap langkah masa. Katsumata et al mencadangkan penghampiran Fourier kedudukan dan penghampiran linear kuaternion putaran.
Makalah oleh Luiten et al memperkenalkan kaedah untuk menangkap 6 darjah kebebasan penuh semua titik 3D dalam adegan dinamik. Dengan menggabungkan kekangan kekakuan tempatan, Gaussian 3D dinamik mewakili putaran ruang yang konsisten, membolehkan penjejakan dan pembinaan semula 6-DOF padat tanpa memerlukan surat-menyurat atau input penstriman. Kaedah ini mengatasi PIP dalam penjejakan 2D, mencapai ralat trajektori median 10 kali lebih rendah, ketepatan trajektori yang lebih tinggi dan kadar kemandirian 100%. Perwakilan serba boleh ini memudahkan aplikasi seperti penyuntingan video 4D, sintesis paparan orang pertama dan penjanaan pemandangan dinamik.
Lin et al. memperkenalkan Model Deformasi Dwi Domain (DDDM) baharu, yang direka secara eksplisit untuk memodelkan ubah bentuk atribut setiap titik Gaussian. Model ini menggunakan kesesuaian siri Fourier dalam domain frekuensi dan kesesuaian polinomial dalam domain masa untuk menangkap sisa yang bergantung kepada masa. DDDM cemerlang dalam mengendalikan ubah bentuk dalam adegan video yang kompleks tanpa perlu melatih model 3D Gaussian Splash (3D-GS) yang berasingan untuk setiap bingkai. Terutamanya, pemodelan ubah bentuk eksplisit titik Gaussian diskret menjamin latihan pantas dan pemaparan pemandangan 4D, serupa dengan 3D-GS asal untuk pembinaan semula 3D statik. Pendekatan ini mempunyai peningkatan kecekapan yang ketara, dengan latihan hampir 5 kali lebih pantas berbanding pemodelan 3D-GS. Walau bagaimanapun, terdapat peluang untuk penambahbaikan dalam mengekalkan struktur nipis ketepatan tinggi dalam pemaparan akhir.
Variasi Ekspresi atau Emosi dan Boleh Disunting dalam Avatar
Shao et al memperkenalkan GaussianPlanes, perwakilan 4D yang dicapai melalui penguraian berasaskan satah dalam ruang dan masa tiga dimensi, meningkatkan keberkesanan penyuntingan . Selain itu, Control4D menggunakan penjana 4D untuk mengoptimumkan ruang penciptaan berterusan foto yang tidak konsisten, menghasilkan ketekalan dan kualiti yang lebih baik. Kaedah yang dicadangkan menggunakan GaussianPlanes untuk melatih perwakilan tersirat bagi pemandangan potret 4D, yang kemudiannya dijadikan ciri terpendam dan imej RGB menggunakan pemaparan Gaussian. Penjana berasaskan rangkaian adversarial generatif (GAN) dan editor berasaskan resapan 2D memperhalusi set data dan menjana imej sebenar dan palsu untuk pembezaan. Keputusan diskriminasi menyumbang kepada pengemaskinian berulang penjana dan diskriminator. Walau bagaimanapun, pendekatan ini menghadapi cabaran dalam mengendalikan gerakan tidak tegar yang pantas dan meluas kerana pergantungannya pada awan titik Gaussian kanonik dengan perwakilan aliran. Kaedah ini tertakluk kepada ControlNet, mengehadkan pengeditan kepada tahap yang kasar dan menghalang ungkapan yang tepat atau pengeditan tindakan. Tambahan pula, proses penyuntingan memerlukan pengoptimuman berulang, tidak mempunyai penyelesaian satu langkah.
Objek tidak tegar atau boleh ubah bentuk
Perwakilan saraf tersirat membawa perubahan ketara dalam pembinaan semula dan pemaparan pemandangan dinamik. Walau bagaimanapun, kaedah pemaparan saraf dinamik kontemporari menghadapi cabaran dalam menangkap butiran kompleks dan mencapai pemaparan masa nyata adegan dinamik.
Untuk menangani cabaran ini, Yang et al mencadangkan Gaussian 3D yang boleh diubah bentuk untuk pembinaan semula pemandangan dinamik monokular ketelitian tinggi. Kaedah 3D-GS boleh ubah bentuk baharu dicadangkan. Kaedah ini menggunakan Gaussians 3D yang dipelajari dalam ruang kanonik dengan medan ubah bentuk yang direka khusus untuk adegan dinamik monokular. Kaedah ini memperkenalkan mekanisme latihan licin penyepuhlindapan (AST) yang disesuaikan untuk adegan dinamik monokular dunia sebenar, dengan berkesan menyelesaikan kesan pose yang salah pada tugas interpolasi temporal tanpa memperkenalkan overhed latihan tambahan. Dengan menggunakan rasterizer Gaussian pembezaan, Gaussian 3D Boleh Bentuk bukan sahaja meningkatkan kualiti pemaparan tetapi juga mencapai kelajuan masa nyata, mengatasi kaedah sedia ada dalam kedua-dua aspek. Kaedah ini telah terbukti sangat sesuai untuk tugasan seperti NVS dan menawarkan kepelbagaian untuk tugasan pasca pengeluaran kerana sifat berasaskan titiknya. Keputusan eksperimen menyerlahkan kesan pemaparan yang unggul dan prestasi masa nyata kaedah ini, mengesahkan keberkesanannya dalam pemodelan adegan dinamik.
DIFFUSION
Resapan dan Gaussian Splash ialah teknik berkuasa untuk menjana objek 3D daripada penerangan/petunjuk teks. Ia menggabungkan kelebihan dua kaedah berbeza: model penyebaran dan penyebaran Gaussian. Model resapan ialah rangkaian saraf yang belajar menjana imej daripada input yang bising. Dengan memberi model satu siri imej yang semakin bersih, model itu belajar untuk membalikkan proses rasuah imej, akhirnya menghasilkan imej bersih daripada input rawak sepenuhnya. Ini boleh digunakan untuk menjana imej daripada penerangan teks, kerana model boleh belajar mengaitkan perkataan dengan ciri visual yang sepadan. Saluran paip teks-ke-3D dengan resapan dan percikan Gaussian berfungsi dengan mula-mula menjana awan titik 3D awal daripada perihalan teks menggunakan model resapan. Penyerakan Gaussian kemudiannya digunakan untuk menukar awan titik menjadi set sfera Gaussian. Akhirnya, sfera Gaussian diberikan untuk menghasilkan imej 3D sasaran.
Penjanaan berasaskan teks
Karya Yi et al memperkenalkan Gaussian Dreamer, kaedah teks-ke-3D yang menghubungkan model penyebaran 3D dan 2D dengan lancar melalui pemisahan Gaussian, memastikan ketekalan 3D dan penjanaan perincian yang kompleks. Rajah 7 menunjukkan model yang dicadangkan untuk menjana imej. Untuk memperkayakan lagi kandungan, pertumbuhan titik hingar dan gangguan warna diperkenalkan untuk menambah Gaussian 3D yang dimulakan. Kaedah ini dicirikan dengan mudah dan berkesan, menjana contoh 3D dalam masa 15 minit pada satu GPU, yang lebih tinggi dalam kelajuan berbanding kaedah sebelumnya. Kejadian tiga dimensi yang dijana boleh dipaparkan secara langsung dalam masa nyata, menyerlahkan kepraktisan kaedah ini. Rangka kerja keseluruhan termasuk pemula menggunakan model resapan 3D sebelum dan pengoptimuman menggunakan model resapan 2D, membolehkan penciptaan aset 3D yang berkualiti tinggi dan pelbagai daripada isyarat teks dengan memanfaatkan kelebihan kedua-dua model resapan.
Chen et al. mencadangkan penjanaan teks-ke-3D berasaskan penyebaran Gaussian (GSGEN), iaitu kaedah penjanaan teks-ke-3D yang menggunakan Gaussians 3D sebagai perwakilan. Dengan memanfaatkan prior geometri, kami menyerlahkan kelebihan unik serakan Gaussian dalam penjanaan teks-ke-3D. Strategi pengoptimuman dua peringkat menggabungkan panduan bersama resapan 2D dan 3D untuk membentuk struktur kasar yang koheren dalam pengoptimuman geometri, yang kemudiannya padat dalam penghalusan penampilan berasaskan kekompakan.
Denoising and Optimization
Rangka kerja GaussianDiffusion Li et al. mewakili pendekatan teks-ke-3D yang baru, memanfaatkan model resapan dinamik Gaussian dan Langevin untuk mempercepatkan pemaparan dan realisme yang tidak tertandingi. Pengenalan hingar berstruktur menyelesaikan cabaran geometri berbilang pandangan, manakala model serakan Gaussian variasi mengurangkan isu penumpuan dan artifak. Walaupun keputusan semasa menunjukkan realisme yang lebih baik, penyelidikan berterusan bertujuan untuk memperhalusi kekaburan dan jerebu yang diperkenalkan oleh Gaussians variasi untuk peningkatan selanjutnya.
Yang et al. menjalankan pemeriksaan menyeluruh ke atas resapan yang sedia ada dan mencadangkan rangka kerja yang bersatu untuk menambah baik ini dengan mengoptimumkan skor pengurangan. Kepelbagaian pendekatan meluas ke pelbagai kes penggunaan, secara konsisten memberikan peningkatan prestasi yang ketara. Dalam penilaian percubaan, pendekatan kami mencapai prestasi yang tidak pernah berlaku sebelum ini, mengatasi kaedah kontemporari. Walaupun kejayaannya dalam memperhalusi tekstur yang dihasilkan 3D, masih terdapat ruang untuk penambahbaikan dalam meningkatkan geometri model 3D yang dihasilkan.
Subseksyen ini akan membincangkan teknik yang dibangunkan oleh penyelidik untuk latihan yang lebih pantas dan/atau kelajuan inferens. Dalam kajian oleh Chung et al., satu kaedah diperkenalkan untuk mengoptimumkan taburan Gaussian untuk perwakilan pemandangan 3D menggunakan bilangan imej yang terhad sambil mengurangkan masalah overfitting. Kaedah tradisional untuk mewakili pemandangan 3D dengan titik taburan Gaussian boleh menyebabkan pemasangan berlebihan, terutamanya apabila imej yang tersedia adalah terhad. Teknik ini menggunakan peta kedalaman daripada model anggaran kedalaman monokular yang telah terlatih sebagai panduan geometri dan menjajarkannya dengan titik ciri yang jarang daripada saluran paip SFM. Ini membantu mengoptimumkan taburan Gaussian 3D, mengurangkan artifak terapung dan memastikan keselarasan geometri. Strategi pengoptimuman berpandukan kedalaman yang dicadangkan diuji pada set data LLFF, menunjukkan geometri yang dipertingkatkan berbanding menggunakan imej sahaja. Penyelidikan termasuk pengenalan strategi berhenti awal dan istilah pelicinan untuk peta kedalaman, yang kedua-duanya membantu meningkatkan prestasi. Walau bagaimanapun, batasan juga diakui, seperti pergantungan pada ketepatan model anggaran kedalaman monokular dan pergantungan pada prestasi COLMAP. Kerja masa hadapan disyorkan untuk meneroka kebergantungan antara anggaran kedalaman dan menangani cabaran anggaran kedalaman di kawasan yang sukar, seperti dataran tanpa tekstur atau langit.
Fu et al. memperkenalkan COLMAP Free 3D Gaussian Splatting (CF-3DGS), rangka kerja hujung ke hujung baharu untuk anggaran pose kamera serentak dan NVS daripada imej jujukan, yang menyelesaikan masalah gerakan kamera dalam kaedah sebelumnya. dengan tempoh latihan Yamato yang panjang. Tidak seperti perwakilan tersirat NeRF, CF-3DGS menggunakan awan titik eksplisit untuk mewakili tempat kejadian. Kaedah ini secara berurutan memproses bingkai input dan mengembangkan Gaussian 3D secara berperingkat untuk membina semula keseluruhan pemandangan, menunjukkan prestasi yang dipertingkatkan dan keteguhan pada babak mencabar seperti video 360°. Kaedah ini bersama-sama mengoptimumkan pose kamera dan 3D-GS secara berurutan, menjadikannya sangat sesuai untuk penstriman video atau pemerolehan imej yang dipesan. Penggunaan percikan Gaussian membolehkan latihan pantas dan kelajuan inferens, menunjukkan kelebihan pendekatan ini berbanding kaedah sebelumnya. Semasa menunjukkan keberkesanan, diakui bahawa pengoptimuman berjujukan mengehadkan aplikasi terutamanya kepada koleksi imej yang dipesan, memberi ruang untuk meneroka sambungan kepada koleksi imej yang tidak tersusun dalam penyelidikan masa depan.
Yu et al memerhatikan dalam 3D-GS bahawa artifak muncul dalam NVS terutamanya apabila menukar kadar persampelan. Penyelesaian yang diperkenalkan terdiri daripada menggabungkan penapis pelicinan 3D untuk melaraskan kekerapan maksimum primitif Gaussian 3D, dengan itu menangani artifak dalam pemaparan di luar pengedaran. Selain itu, penapis pelebaran 2D telah digantikan dengan penapis mip 2D untuk menangani isu penyalian dan pelebaran. Penilaian pada set data penanda aras menunjukkan keberkesanan Mip Splatting, terutamanya apabila mengubah suai kadar pensampelan. Pengubahsuaian yang dicadangkan adalah berprinsip, mudah dan memerlukan perubahan minimum kepada kod 3D-GS asal. Walau bagaimanapun, terdapat had yang diiktiraf, seperti ralat yang diperkenalkan oleh anggaran penapis Gaussian dan sedikit peningkatan dalam overhed latihan. Kajian ini mempersembahkan Mip Splatting sebagai penyelesaian yang kompetitif, menunjukkan pariti prestasi dengan kaedah terkini dan generalisasi unggul dalam senario luar pengedaran, menunjukkan keupayaannya untuk mencapai pemaparan tanpa alias pada sebarang potensi.
Gao et al. mencadangkan kaedah pemaparan awan titik 3D baharu yang mampu mengurai bahan dan pencahayaan daripada imej berbilang paparan. Rangka kerja ini membolehkan pengeditan pemandangan, pengesanan sinar dan pencahayaan semula masa nyata dengan cara yang boleh dibezakan. Setiap titik dalam pemandangan diwakili oleh Gaussian 3D "boleh diterangi semula", membawa maklumat tentang arah normalnya, sifat bahan seperti fungsi taburan pemantulan dua arah (BRDF) dan cahaya masuk dari arah yang berbeza. Untuk anggaran pencahayaan yang tepat, cahaya kejadian dibahagikan kepada komponen global dan tempatan, dan keterlihatan berdasarkan sudut tontonan diambil kira. Pengoptimuman pemandangan menggunakan percikan Gaussian 3D, manakala pemaparan boleh dibezakan berasaskan fizikal mengendalikan BRDF dan penguraian pencahayaan. Pendekatan pengesanan sinar berasaskan titik yang inovatif memanfaatkan hierarki volum yang terikat untuk membolehkan penaik keterlihatan yang cekap dan bayang-bayang realistik semasa pemaparan masa nyata. Eksperimen menunjukkan bahawa anggaran BRDF dan pemaparan paparan adalah lebih baik berbanding kaedah sedia ada. Walau bagaimanapun, cabaran masih wujud untuk adegan yang tidak mempunyai sempadan yang jelas dan memerlukan topeng sasaran semasa pengoptimuman. Kerja masa hadapan boleh meneroka penyepaduan isyarat stereo berbilang paparan (MVS) untuk meningkatkan ketepatan geometri awan titik yang dijana oleh serakan Gaussian 3D. Saluran paip "Gaussian 3D yang Boleh Dipercayai" ini menunjukkan keupayaan pemaparan masa nyata yang menjanjikan dan membuka pintu kepada grafik berasaskan jejaring revolusioner melalui pendekatan berasaskan awan titik yang membolehkan penyinaran semula, pengeditan dan pengesanan sinar.
Fan et al memperkenalkan teknik baharu untuk memampatkan perwakilan Gaussian 3D yang digunakan dalam pemaparan. Kaedah mereka mengenal pasti dan mengalih keluar Gaussian yang berlebihan berdasarkan kepentingannya, serupa dengan pemangkasan rangkaian, memastikan kesan minimum pada kualiti visual. Memanfaatkan pengekstrakan pengetahuan dan peningkatan pseudo-view, LightGaussian menyampaikan maklumat kepada perwakilan kerumitan yang lebih rendah dengan harmonik sfera yang lebih sedikit, seterusnya mengurangkan lebihan. Tambahan pula, skim hibrid yang dipanggil pengkuantitian VecTree mengoptimumkan perwakilan dengan mengkuantifikasi nilai atribut, dengan itu mencapai saiz yang lebih kecil tanpa kehilangan ketepatan yang ketara. Berbanding dengan kaedah standard, LightGaussian mencapai purata nisbah mampatan lebih daripada 15 kali, dan dengan ketara meningkatkan kelajuan pemaparan daripada 139 FPS kepada 215 FPS pada set data seperti Mip NeRF 360 dan Tanks&Temples. Langkah-langkah utama yang terlibat ialah pengiraan kepentingan global, pemangkasan Gaussians, mengekstrak pengetahuan dengan pseudo-views, dan mengukur atribut menggunakan VecTree. Secara keseluruhan, LightGaussian menyediakan penyelesaian terobosan untuk menukar perwakilan berasaskan titik yang besar kepada format yang padat, dengan ketara mengurangkan lebihan data dan meningkatkan kecekapan rendering dengan ketara.
Bahagian ini menyelidiki kemajuan ketara dalam aplikasi algoritma Gaussian Splash sejak penubuhannya pada Julai 2023. Kemajuan ini mempunyai kegunaan khusus dalam pelbagai bidang seperti avatar, SLAM, pengekstrakan jaringan dan simulasi fizik. Apabila digunakan pada kes penggunaan khusus ini, Gaussian Splatting menunjukkan kepelbagaian dan keberkesanannya dalam senario aplikasi yang berbeza.
Dengan peningkatan kegilaan aplikasi AR/VR, banyak penyelidikan Gauss Splash tertumpu pada membangunkan versi digital manusia. Menangkap subjek dari sudut pandangan yang lebih sedikit dan membina model 3D ialah tugas yang mencabar, dan Gaussian Splash membantu penyelidik dan industri mencapai matlamat ini.
Sudut sendi atau artikulasi
Teknik serakan Gaussian ini memfokuskan kepada pemodelan tubuh manusia berdasarkan sudut sendi. Beberapa parameter model jenis ini mencerminkan kedudukan, sudut dan parameter lain yang serupa bagi sambungan tiga dimensi. Nyahkod bingkai input untuk mengetahui kedudukan sambungan 3D dan sudut bingkai semasa.
Zielonka et al. mencadangkan model perwakilan tubuh manusia menggunakan taburan Gaussian dan melaksanakan pemaparan masa nyata menggunakan teknologi 3D-GS yang inovatif. Tidak seperti avatar boleh dipandu fotorealistik sedia ada, Drivable 3D Gaussian Splash (D3GA) tidak bergantung pada pendaftaran 3D yang tepat semasa latihan atau imej input padat semasa ujian. Sebaliknya, ia menggunakan video berbilang paparan yang ditentukur padat untuk pemaparan masa nyata dan memperkenalkan ubah bentuk berasaskan sangkar tetrahedral yang didorong oleh titik kekunci dan sudut dalam sambungan, menjadikannya berkesan untuk aplikasi yang melibatkan komunikasi, seperti yang ditunjukkan dalam Rajah 9.
Animasi
Kaedah ini biasanya melatih Gaussian yang bergantung pada pose untuk menangkap penampilan dinamik yang kompleks, termasuk perincian yang lebih halus dalam pakaian, menghasilkan avatar berkualiti tinggi. Sesetengah kaedah ini juga menyokong keupayaan pemaparan masa nyata.
Jiang et al mencadangkan HiFi4G, yang boleh menjadikan manusia sebenar dengan berkesan. HiFi4G menggabungkan perwakilan Gaussian 3D dengan penjejakan tidak tegar, menggunakan mekanisme graf dwi dengan pendahuluan gerakan dan pengoptimuman Gaussian 4D dengan penyelaras spatiotemporal adaptif. HiFi4G mencapai kira-kira 25 kali kadar mampatan, memerlukan kurang daripada 2MB ruang storan bagi setiap bingkai, dan berprestasi baik dari segi kelajuan pengoptimuman, kualiti pemaparan dan overhed storan, seperti yang ditunjukkan dalam Rajah 10. Ia mencadangkan perwakilan Gaussian 4D padat yang menghubungkan percikan Gaussian dan penjejakan tidak tegar. Walau bagaimanapun, pergantungan pada pembahagian, kecenderungan kepada pembahagian yang lemah yang membawa kepada artifak, dan keperluan untuk pembinaan semula setiap bingkai dan penjejakan grid menimbulkan had. Penyelidikan masa depan mungkin menumpukan pada mempercepatkan proses pengoptimuman dan mengurangkan pergantungan pesanan GPU untuk penggunaan yang lebih luas pada penonton web dan peranti mudah alih.
Berasaskan kepala
Kaedah avatar kepala sebelum ini kebanyakannya bergantung pada primitif eksplisit tetap (grid, titik) atau permukaan tersirat (SDF). Model berasaskan taburan Gaussian akan membuka jalan kepada peningkatan AR/VR dan aplikasi berasaskan penapis, membolehkan pengguna mencuba rupa solek, tona, gaya rambut, dsb.
Wang et al menggunakan transformasi Gaussian kanonik untuk mewakili adegan dinamik. Menggunakan triplane "dinamik" eksplisit sebagai bekas yang cekap untuk geometri kepala berparameter, sejajar dengan geometri dan faktor asas dalam triplane, pengarang memperoleh faktor regularisasi sejajar untuk Gaussians biasa. Dengan menggunakan MLP yang kecil, faktor didekodkan kepada kelegapan dan pekali harmonik sfera bagi primitif Gaussian 3D. Quin et al. mencipta avatar kepala ultra-realistik dengan perspektif, pose dan ekspresi yang boleh dikawal. Semasa proses pembinaan semula avatar, pengarang secara serentak mengoptimumkan parameter model ubah bentuk dan parameter percikan Gaussian. Karya ini mempamerkan keupayaan avatar untuk bernyawa dalam pelbagai senario yang mencabar. Dhamo et al mencadangkan HeadGaS, model hibrid yang memanjangkan perwakilan eksplisit 3D-GS berdasarkan ciri terpendam yang boleh dipelajari. Ciri-ciri ini kemudiannya boleh digabungkan secara linear dengan parameter dimensi rendah daripada model kepala parametrik untuk memperoleh warna dan nilai kelegapan yang bergantung kepada ekspresi akhir. Rajah 11 menunjukkan beberapa contoh imej.
SLAM
SLAM ialah teknologi yang digunakan dalam kereta pandu sendiri untuk membina peta secara serentak dan menentukan kedudukan kenderaan dalam peta itu. Ia membolehkan kenderaan mengemudi dan memetakan persekitaran yang tidak diketahui. Seperti namanya, visual SLAM (vSLAM) bergantung pada imej daripada kamera dan pelbagai penderia imej. Kaedah ini berfungsi dengan pelbagai jenis kamera, termasuk kamera ringkas, mata kompaun dan RGB-D, menjadikannya penyelesaian yang kos efektif. Melalui kamera, pengesanan mercu tanda boleh digabungkan dengan pengoptimuman berasaskan graf untuk meningkatkan fleksibiliti pelaksanaan SLAM. Monocular SLAM ialah subset vSLAM yang menggunakan kamera tunggal dan menghadapi cabaran dalam persepsi mendalam, yang boleh diselesaikan dengan menggabungkan penderia tambahan, seperti odometri dan pengekod unit ukuran inersia (IMU). Teknologi utama yang berkaitan dengan vSLAM termasuk SFM, odometri visual dan pelarasan rasuk. Algoritma Visual SLAM dibahagikan kepada dua kategori utama: kaedah jarang, yang menggunakan pemadanan titik ciri (cth., penjejakan dan pemetaan selari, ORB-SLAM) dan kaedah padat, yang menggunakan kecerahan imej keseluruhan (cth., DTAM, LSD-SLAM, DSO , SVO).
Penyebaran Gaussian boleh digunakan untuk simulasi dan pemaparan berasaskan fizikal. Dengan menambahkan lebih banyak parameter pada kernel Gaussian 3D, halaju, terikan dan sifat mekanikal lain boleh dimodelkan. Itulah sebabnya pelbagai kaedah telah dibangunkan dalam masa beberapa bulan, termasuk simulasi fizik menggunakan penyebaran Gaussian.
Xie et al memperkenalkan kaedah kinematik Gaussian tiga dimensi berdasarkan mekanik kontinum, menggunakan persamaan pembezaan separa (PDE) untuk memacu evolusi isirong Gaussian dan harmonik sfera yang berkaitan. Inovasi ini membolehkan penggunaan saluran paip pemaparan simulasi bersatu, memudahkan penjanaan gerakan dengan menghapuskan keperluan untuk jejaring sasaran yang jelas. Pendekatan mereka menunjukkan kepelbagaian melalui penandaarasan dan eksperimen yang komprehensif pada pelbagai bahan, menunjukkan prestasi masa nyata dalam senario dengan dinamik mudah. Pengarang memperkenalkan PhysGaussian, rangka kerja yang secara serentak dan lancar menjana dinamik berasaskan fizikal dan rendering fotorealistik. Walaupun mengakui batasan rangka kerja seperti kekurangan evolusi bayang-bayang dan penggunaan kuadratur titik tunggal untuk penyepaduan volum, penulis mencadangkan jalan untuk kerja masa hadapan, termasuk menggunakan kuadratur peringkat tinggi dalam kaedah titik bahan (MPM) dan meneroka penggunaan rangkaian saraf Bersepadu untuk pemodelan yang lebih realistik. Rangka kerja ini boleh diperluaskan untuk mengendalikan pelbagai bahan, seperti cecair, dan menggabungkan kawalan pengguna lanjutan menggunakan model bahasa besar (LLM). Rajah 13 menunjukkan proses latihan rangka kerja PhysGaussian.
Gaussian Splash juga memanjangkan sayapnya kepada penyuntingan 3D dan manipulasi titik adegan. Pengeditan adegan 3D berasaskan tip juga boleh dilakukan menggunakan kemajuan terkini yang akan dibincangkan. Kaedah ini bukan sahaja mewakili pemandangan sebagai peta Gaussian 3D, tetapi juga mempunyai pemahaman semantik dan perbalahan tentang tempat kejadian.
Chen et al. memperkenalkan GaussianEditor, algoritma penyuntingan 3D baharu berdasarkan Gaussian Splatting, yang bertujuan untuk mengatasi batasan kaedah penyuntingan 3D tradisional. Walaupun kaedah tradisional yang bergantung pada jerat atau awan titik berjuang untuk mencapai gambaran yang realistik, perwakilan 3D tersirat seperti NeRF menghadapi cabaran pemprosesan perlahan dan kawalan terhad. GaussianEditor menyelesaikan masalah ini dengan memanfaatkan 3D-GS, meningkatkan ketepatan dan kawalan dengan penjejakan semantik Gaussian, dan memperkenalkan Hierarchical Gaussian Splash (HGS) untuk hasil yang stabil dan diperhalusi di bawah bimbingan generatif. Algoritma ini termasuk kaedah pembaikan 3D khusus untuk penyingkiran dan penyepaduan objek yang cekap, menunjukkan kawalan unggul, keberkesanan dan prestasi pantas dalam eksperimen yang meluas. Rajah 14 menunjukkan pelbagai gesaan teks yang diuji oleh Chen et al. GaussianEditor menandakan kemajuan besar dalam penyuntingan 3D, memberikan keberkesanan, kelajuan dan kawalan yang dipertingkatkan. Sumbangan penyelidikan ini termasuk pengenalan penjejakan semantik Gaussian untuk kawalan penyuntingan terperinci, cadangan HGS untuk mencapai penumpuan yang stabil di bawah bimbingan penjanaan, pembangunan algoritma pembaikan 3D untuk pemadaman pantas dan penambahan sasaran, dan eksperimen meluas yang menunjukkan bahawa ini kaedah lebih baik daripada kaedah penyuntingan 3D sebelumnya. Walaupun kemajuan GaussianEditor, ia bergantung pada model resapan 2D untuk penyeliaan yang berkesan dan mempunyai had dalam mengendalikan isyarat kompleks, yang merupakan cabaran biasa yang dihadapi oleh kaedah penyuntingan 3D lain berdasarkan model yang serupa.
Secara tradisinya, adegan 3D telah diwakili menggunakan jerat dan mata kerana sifat eksplisit dan keserasiannya dengan rasterisasi berasaskan GPU/CUDA yang pantas. Walau bagaimanapun, kemajuan terkini, seperti kaedah NeRF, menumpukan pada perwakilan adegan berterusan, menggunakan teknik seperti pengoptimuman perceptron berbilang lapisan dan sintesis paparan novel melalui perarakan sinar volumetrik. Walaupun perwakilan berterusan membantu dengan pengoptimuman, pensampelan rawak yang diperlukan untuk pemaparan memperkenalkan bunyi yang mahal. Gaussian Splash merapatkan jurang ini dengan memanfaatkan perwakilan Gaussian 3D yang dioptimumkan untuk mencapai kualiti visual terkini dan masa latihan yang kompetitif. Selain itu, penyelesaian percikan berasaskan jubin memastikan pemaparan masa nyata berkualiti tinggi. Gaussian Splash memberikan beberapa hasil terbaik dari segi kualiti dan kecekapan apabila memaparkan pemandangan 3D.
Gaussian Splash telah dibangunkan untuk mengendalikan sasaran dinamik dan boleh ubah bentuk dengan mengubah suai perwakilan asalnya. Ini melibatkan penggabungan parameter seperti kedudukan 3D, putaran, faktor penskalaan dan pekali harmonik sfera untuk warna dan kelegapan. Kemajuan terkini dalam bidang ini termasuk pengenalan kehilangan sparsity untuk menggalakkan perkongsian trajektori ba-sis, pengenalan model ubah bentuk dwi-domain untuk menangkap sisa bergantung masa, dan pemetaan cangkang Gaussian yang menghubungkan rangkaian penjana dengan pemaparan Gaussian 3D. Usaha juga sedang dibuat untuk menangani cabaran seperti penjejakan yang tidak tegar, perubahan ekspresi avatar dan pemaparan cekap prestasi manusia yang realistik. Bersama-sama, kemajuan ini berfungsi ke arah pemaparan masa nyata, kecekapan yang dioptimumkan dan hasil berkualiti tinggi apabila bekerja dengan sasaran dinamik dan boleh ubah bentuk.
Sebaliknya, Diffusion dan Gaussian Splash bekerjasama untuk mencipta sasaran 3D daripada gesaan teks. Model resapan ialah rangkaian saraf yang belajar menjana imej daripada input bising dengan membalikkan proses rasuah imej melalui satu siri imej yang semakin bersih. Dalam saluran paip teks-ke-3D, model resapan menjana awan titik 3D awal berdasarkan perihalan teks, yang kemudiannya ditukar kepada sfera Gaussian menggunakan penyerakan Gaussian. Sfera Gaussian yang dihasilkan menjana imej sasaran 3D akhir. Kemajuan dalam bidang ini termasuk menggunakan hingar berstruktur untuk menangani cabaran geometri berbilang paparan, memperkenalkan model taburan Gaussian variasi untuk menangani isu penumpuan, dan mengoptimumkan skor denoising untuk meningkatkan resapan prior, bertujuan untuk mencapai realisme yang tiada tandingan dalam penjanaan dan prestasi 3D berasaskan teks .
Gaussian Splash telah digunakan secara meluas dalam penciptaan avatar digital untuk aplikasi AR/VR. Ini melibatkan menangkap objek dari bilangan sudut pandangan minimum dan membina model 3D. Teknologi ini telah digunakan untuk memodelkan sendi manusia, sudut sendi dan parameter lain, membolehkan penjanaan avatar yang ekspresif dan boleh dikawal. Kemajuan dalam bidang ini termasuk membangunkan kaedah untuk menangkap butiran muka frekuensi tinggi, mengekalkan ekspresi berlebihan dan mengubah avatar dengan berkesan. Tambahan pula, model hibrid dicadangkan yang menggabungkan perwakilan eksplisit dengan ciri terpendam yang boleh dipelajari untuk mencapai warna akhir dan nilai kelegapan yang bergantung kepada ekspresi. Kemajuan ini direka bentuk untuk meningkatkan geometri dan tekstur model 3D yang dijana untuk memenuhi permintaan yang semakin meningkat untuk avatar yang realistik dan boleh dikawal dalam aplikasi AR/VR.
Gaussian Splatting juga menemui aplikasi serba boleh dalam SLAM, menyediakan keupayaan penjejakan dan pemetaan masa nyata pada GPU. Dengan menggunakan perwakilan Gaussian 3D dan saluran paip rasterisasi percikan yang boleh dibezakan, ia membolehkan pemaparan pantas dan fotorealistik bagi adegan dunia sebenar dan sintetik. Teknik ini diperluaskan kepada pengekstrakan jaringan dan simulasi berasaskan fizik, membolehkan sifat mekanikal dimodelkan tanpa jaringan sasaran yang jelas. Kemajuan dalam mekanik kontinum dan persamaan pembezaan separa telah membenarkan evolusi kernel Gaussian, memudahkan penjanaan gerakan. Terutamanya, pengoptimuman melibatkan struktur data yang cekap seperti OpenVDB, istilah penyelarasan untuk penjajaran, dan istilah yang diilhamkan fizik untuk pengurangan ralat, dengan itu meningkatkan kecekapan dan ketepatan keseluruhan. Kerja lain telah dilakukan pada pemampatan dan meningkatkan kecekapan pemaparan serakan Gaussian.
Adalah jelas daripada Jadual 2 bahawa pada masa penulisan, Gaussian Splash ialah pilihan yang paling hampir dengan pemaparan masa nyata dan perwakilan adegan dinamik. Menduduki rangkaian bukanlah dibuat khusus untuk kes penggunaan NVS. Fotogrametri sesuai untuk mencipta model yang sangat tepat dan realistik dengan rasa konteks yang kuat. NeRF cemerlang dalam menjana paparan novel dan kesan pencahayaan yang realistik, memberikan kebebasan kreatif dan mengendalikan adegan yang kompleks. Gaussian Splash bersinar dalam keupayaan pemaparan masa nyata dan penerokaan interaktif, menjadikannya sesuai untuk aplikasi dinamik. Setiap kaedah mempunyai nichenya dan saling melengkapi, menyediakan pelbagai jenis alatan untuk pembinaan semula dan visualisasi 3D.
Walaupun Gaussian Splash adalah teknik yang sangat mantap, ia mempunyai beberapa kaveat. Sebahagian daripadanya disenaraikan di bawah:
Teknologi pembinaan semula 3D masa nyata akan merealisasikan pelbagai fungsi dalam grafik komputer dan bidang berkaitan, seperti penerokaan interaktif masa nyata adegan atau model 3D, dan manipulasi sudut pandangan dan sasaran melalui maklum balas segera . Ia juga boleh menghasilkan adegan dinamik dengan sasaran bergerak atau mengubah persekitaran dalam masa nyata, meningkatkan realisme dan rendaman. Pembinaan semula 3D masa nyata boleh digunakan dalam persekitaran simulasi dan latihan untuk memberikan maklum balas visual yang realistik untuk adegan maya dalam bidang seperti automotif, aeroangkasa dan perubatan. Ia juga akan menyokong pemaparan masa nyata pengalaman AR dan VR yang mendalam, di mana pengguna boleh berinteraksi dengan sasaran atau persekitaran maya dalam masa nyata. Secara keseluruhannya, Gaussian Splash masa nyata meningkatkan kecekapan, interaktiviti dan realisme untuk pelbagai aplikasi dalam grafik komputer, visualisasi, simulasi dan teknologi mendalam.
Dalam artikel ini, kami membincangkan pelbagai aspek fungsi dan aplikasi yang berkaitan dengan taburan Gaussian untuk pembinaan semula 3D dan sintesis paparan baharu. Ia meliputi pemodelan dinamik dan boleh ubah bentuk, penjejakan gerakan, sasaran tidak tegar/boleh berubah bentuk, ekspresi/perubahan emosi, penyebaran generatif berasaskan teks, denoising, pengoptimuman, avatar, sasaran boleh animasi, pemodelan berasaskan kepala, penyetempatan serentak dan topik seperti perancangan, pengekstrakan jaringan dan fizik, teknik pengoptimuman, keupayaan menyunting, kaedah pemaparan, pemampatan dan banyak lagi.
Secara khusus, artikel ini membincangkan cabaran dan kemajuan pembinaan semula 3D berasaskan imej, peranan kaedah berasaskan pembelajaran dalam meningkatkan anggaran bentuk 3D, dan aplikasi teknologi percikan Gaussian dalam mengendalikan adegan dinamik, manipulasi sasaran interaktif, pembahagian 3D dan Aplikasi berpotensi dan arah masa hadapan dalam penyuntingan pemandangan.
Gaussian Splash adalah transformatif dalam pelbagai bidang termasuk imejan janaan komputer, VR/AR, robotik, filem dan animasi, reka bentuk automotif, runcit, penyelidikan alam sekitar dan aplikasi aeroangkasa. Walau bagaimanapun, perlu diperhatikan bahawa penyerakan Gaussian mungkin mempunyai batasan dalam mencapai realisme berbanding kaedah lain seperti NeRF. Selain itu, cabaran yang berkaitan dengan overfitting, sumber pengiraan dan had kualiti pemaparan juga harus dipertimbangkan. Walaupun had ini, penyelidikan dan kemajuan berterusan dalam penyebaran Gaussian terus menangani cabaran ini dan meningkatkan lagi keberkesanan dan kebolehgunaan kaedah tersebut.
Atas ialah kandungan terperinci Lebih daripada sekadar Gaussian 3D! Gambaran keseluruhan terkini teknik pembinaan semula 3D yang terkini. Untuk maklumat lanjut, sila ikut artikel berkaitan lain di laman web China PHP!