Rumah >Peranti teknologi >AI >Rangka kerja pembinaan semula Gaussian yang cekap dan boleh digeneralisasikan yang boleh membuat alasan dengan cepat dengan hanya 3 paparan dan pengoptimuman lengkap dalam 45 saat.

Rangka kerja pembinaan semula Gaussian yang cekap dan boleh digeneralisasikan yang boleh membuat alasan dengan cepat dengan hanya 3 paparan dan pengoptimuman lengkap dalam 45 saat.

WBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBasal: 2024-06-10 14:24:571005semak imbas

Rangka kerja pembinaan semula Gaussian yang cekap dan boleh digeneralisasikan yang boleh membuat alasan dengan cepat dengan hanya 3 paparan dan pengoptimuman lengkap dalam 45 saat.

Lajur AIxiv ialah lajur di mana tapak ini menerbitkan kandungan akademik dan teknikal. Dalam beberapa tahun kebelakangan ini, lajur AIxiv laman web ini telah menerima lebih daripada 2,000 laporan, meliputi makmal terkemuka dari universiti dan syarikat utama di seluruh dunia, mempromosikan pertukaran dan penyebaran akademik secara berkesan. Jika anda mempunyai kerja yang sangat baik yang ingin anda kongsikan, sila berasa bebas untuk menyumbang atau hubungi kami untuk melaporkan. E-mel penyerahan: liyazhou@jiqizhixin.com; zhaoyunfeng@jiqizhixin.com

Teknologi sintesis paparan 3D digunakan secara meluas dalam bidang realiti maya dan realiti tambahan. NeRF telah mencapai kejayaan yang luar biasa dalam sintesis paparan dengan mengekod adegan secara tersirat sebagai pemandangan sinar. Walau bagaimanapun, kepraktisannya sangat terhad oleh fakta bahawa NeRF bergantung pada pertanyaan titik demi titik yang memakan masa koleksi padat untuk rendering. Untuk menyelesaikan masalah ini, beberapa kaedah NeRF yang boleh digeneralisasikan telah muncul, bertujuan untuk membina semula adegan daripada berbilang paparan dalam cara suapan ke hadapan rangkaian. Walau bagaimanapun, kaedah berasaskan NeRF adalah terhad kelajuan kerana ia memerlukan pertanyaan koleksi mata pada sinar untuk pemaparan. Baru-baru ini, 3D Gaussian Splatting (3D-GS) menggunakan Gaussians 3D anisotropik untuk memaparkan pemandangan dan mencapai pemaparan berkualiti tinggi masa nyata melalui rasterizer pembezaan.

Walau bagaimanapun, 3D-GS juga bergantung pada pengoptimuman setiap babak, yang mengambil masa berpuluh-puluh minit bagi setiap babak. Untuk menyelesaikan masalah ini, beberapa kerja pembinaan semula Gaussian umum telah muncul kemudiannya, cuba membuat generalisasi 3D-GS kepada adegan yang tidak kelihatan. Walau bagaimanapun, latihan dan kecekapan rendering kaedah ini perlu dipertingkatkan dan terutamanya terhad kepada pembinaan semula objek atau badan manusia.

Berdasarkan perkara ini, penyelidik dari Universiti Sains dan Teknologi Huazhong, Universiti Teknologi Nanyang, Universiti Greater Bay Area dan Makmal Kecerdasan Buatan Shanghai bersama-sama mencadangkan model pembinaan semula Gaussian yang cekap dan boleh digeneralisasikan, yang dipanggil MVSGaussian, untuk digunakan pada komposisi paparan baharu yang biasa adegan yang dilihat. Model ini berfungsi dengan membahagikan imej input kepada berbilang paparan dan menggunakan proses Gaussian untuk menganggarkan maklumat kedalaman dan tekstur, dan kemudian menggunakan algoritma pemadanan stereo berbilang paparan untuk menggabungkan pandangan dan menjana hasil pembinaan semula berkualiti tinggi. Kaedah ini mencapai keseimbangan yang baik antara kualiti pembinaan semula dan kecekapan pengiraan, menyediakan penyelesaian baharu untuk tugasan sintesis visual masa hadapan

Rangka kerja pembinaan semula Gaussian yang cekap dan boleh digeneralisasikan yang boleh membuat alasan dengan cepat dengan hanya 3 paparan dan pengoptimuman lengkap dalam 45 saat.

Tajuk kertas: Pembinaan Semula Gaussian Splatting Boleh Digeneralisasikan daripada Stereo Berbilang Pandangan
alamat: https ://arxiv.org/abs/2405.12218
Laman utama projek: https://mvsgaussian.github.io/
Kod sumber terbuka: https://github.com/ TQTQliu/MVS

Rangka kerja pembinaan semula Gaussian yang cekap dan boleh digeneralisasikan yang boleh membuat alasan dengan cepat dengan hanya 3 paparan dan pengoptimuman lengkap dalam 45 saat.

Rajah 2 Perbandingan perubahan dalam kualiti paparan paparan dengan masa pengoptimuman (bilangan lelaran). Memandangkan model yang boleh digeneralisasikan menyediakan permulaan yang baik, MVSGaussian boleh mencapai sintesis paparan berkualiti tinggi dengan masa pengoptimuman yang lebih singkat (lebih sedikit lelaran). Rangka kerja pembinaan semula Gaussian yang cekap dan boleh digeneralisasikan yang boleh membuat alasan dengan cepat dengan hanya 3 paparan dan pengoptimuman lengkap dalam 45 saat. Prinsip Asas

Untuk mereka bentuk rangka kerja sputtering Gaussian yang cekap dan boleh digeneralisasikan, kami menghadapi cabaran utama berikut: 1) Tidak seperti NeRF yang menggunakan perwakilan tersirat, adegan 3D-GSD secara eksplisit menggunakan Gaussian sfera. Apabila menggunakan 3D-GS terlatih pada adegan yang tidak kelihatan, parameter sfera Gaussian 3D, seperti kedudukan dan warna, berbeza dengan ketara. Mereka bentuk perwakilan umum untuk menyesuaikan diri dengan 3D-GS adalah tugas yang tidak remeh.

2) Kaedah NeRF yang boleh digeneralisasikan mencapai kesan sintesis paparan yang mengagumkan melalui pemaparan volum. Walau bagaimanapun, keupayaan generalisasi Gaussian sputtering belum diterokai sepenuhnya. Semasa proses sputtering, setiap sfera Gaussian menyumbang kepada berbilang piksel dalam kawasan tertentu imej, dan warna setiap piksel terkumpul daripada sumbangan berbilang sfera Gaussian. Korespondensi warna antara sfera Gaussian dan piksel ialah hubungan banyak-ke-banyak yang lebih kompleks, yang menimbulkan cabaran kepada keupayaan generalisasi model.

3) Kaedah NeRF yang boleh digeneralisasikan menunjukkan bahawa penalaan lebih lanjut untuk senario tertentu boleh meningkatkan kualiti paparan yang disintesis dengan ketara, tetapi ini memerlukan banyak pengoptimuman yang memakan masa. Walaupun 3D-GS lebih pantas daripada NeRF, ia masih mengambil masa yang lebih lama. Oleh itu, mereka bentuk kaedah untuk pengoptimuman adegan demi adegan pantas berdasarkan model yang boleh digeneralisasikan adalah hala tuju penyelidikan yang sangat menjanjikan.

Sebagai tindak balas kepada cabaran di atas, kami telah memberikan penyelesaian kami.

1) Memandangkan taburan kedudukan sfera Gaussian yang sepadan dengan setiap pemandangan adalah berbeza, kami menggunakan stereo berbilang pandangan (MVS) untuk memodelkan geometri pemandangan secara eksplisit dan membuat kesimpulan kedalaman. Seterusnya, kami mengekodkan ciri untuk titik 3D yang sepadan dengan anggaran kedalaman untuk membina perwakilan Gaussian sejajar piksel.

2) Berdasarkan ciri yang dikodkan, kami boleh menyahkodnya ke dalam parameter Gaussian melalui MLP untuk memaparkan paparan menggunakan teknologi sputtering. Walau bagaimanapun, kami mendapati bahawa pendekatan ini mempunyai keupayaan generalisasi yang terhad. Wawasan kami ialah modaliti sputtering memperkenalkan hubungan banyak-ke-banyak yang kompleks dari segi sumbangan warna, iaitu, antara sfera Gaussian dan piksel, yang menimbulkan cabaran kepada generalisasi. Oleh itu, kami mencadangkan kaedah pemaparan volum sedar mendalam yang mudah dan berkesan untuk meningkatkan keupayaan generalisasi, iaitu, menggunakan kaedah pemaparan volum titik persampelan tunggal. Pandangan akhir yang diberikan diperoleh dengan purata pandangan yang diberikan oleh teknik sputtering dan teknik rendering volum.

3) Model boleh generalisasi yang telah dilatih boleh menjana sejumlah besar Gaussian 3D daripada pelbagai perspektif, dan awan titik Gaussian ini boleh digunakan sebagai permulaan untuk pengoptimuman adegan demi adegan seterusnya. Walau bagaimanapun, disebabkan oleh batasan yang wujud dalam kaedah MVS, kedalaman yang diramalkan oleh model boleh umum mungkin tidak tepat sepenuhnya, mengakibatkan bunyi dalam awan titik Gaussian yang dihasilkan. Mencantumkan awan titik Gaussian ini secara terus akan menghasilkan bunyi yang banyak. Selain itu, sejumlah besar mata akan memperlahankan pengoptimuman dan pemaparan berikutnya. Penyelesaian intuitif ialah menurunkan sampel awan titik yang dijahit. Walau bagaimanapun, sambil mengurangkan hingar, ia juga mengurangkan bilangan mata yang sah. Wawasan kami ialah strategi pengagregatan yang baik harus mengurangkan titik hingar dan mengekalkan mata yang sah sebanyak mungkin sambil memastikan jumlah mata tidak terlalu besar. Untuk tujuan ini, kami memperkenalkan strategi pengagregatan berdasarkan ketekalan geometri berbilang pandangan. Khususnya, kami mengikut prinsip bahawa kedalaman ramalan titik 3D yang sama di bawah sudut tontonan yang berbeza hendaklah konsisten dan menapis titik hingar dengan mengira ralat unjuran semula kedalaman Gaussian daripada sudut tontonan yang berbeza.

Rangka kerja pembinaan semula Gaussian yang cekap dan boleh digeneralisasikan yang boleh membuat alasan dengan cepat dengan hanya 3 paparan dan pengoptimuman lengkap dalam 45 saat.

^{Rajah 3 Rangka kerja sputtering Gaussian yang boleh digeneralisasikan. Ciri mula-mula diekstrak daripada paparan input menggunakan Rangkaian Piramid Ciri (FPN), yang disesatkan kepada perspektif sasaran, membina volum kos, dan kemudian dilaraskan oleh CNN 3D untuk menjana kedalaman. Seterusnya, untuk titik 3D yang sepadan dengan kedalaman, kami membina perwakilan Gaussian sejajar piksel dengan mengagregatkan ciri pengekodan maklumat berbilang paparan dan spatial. Ciri-ciri ini kemudiannya dinyahkodkan kepada parameter Gaussian dan parameter pemaparan volum, yang menghasilkan dua paparan, dan hasil akhir ialah purata bagi dua paparan.}

Rangka kerja pembinaan semula Gaussian yang cekap dan boleh digeneralisasikan yang boleh membuat alasan dengan cepat dengan hanya 3 paparan dan pengoptimuman lengkap dalam 45 saat.

^{Rajah 4 Pengagregatan yang konsisten. Menggunakan model yang boleh digeneralisasikan untuk menjana peta kedalaman dan awan titik Gaussian, kami mula-mula melakukan semakan konsistensi geometri berbilang paparan pada peta kedalaman untuk mendapatkan topeng untuk menapis titik yang tidak boleh dipercayai. Selepas itu, awan titik yang ditapis disambungkan menjadi satu awan titik sebagai permulaan untuk pengoptimuman adegan demi adegan. . Dari segi inferens generalisasi (Jadual 1 dan 2), MVSGaussian menunjukkan prestasi unggul, mencapai prestasi yang lebih baik dengan kelajuan terpantas dan overhed memori yang minimum. Dari segi pengoptimuman adegan demi adegan (Jadual 3), MVSGaussian mampu mencapai kesan sintesis paparan terbaik dalam masa pengoptimuman terpendek (kira-kira 1/10 daripada 3D-GS) dan mengekalkan kelajuan pemaparan masa nyata setanding dengan 3D -GS. Tontonan kualitatif dan perbandingan video juga menunjukkan keupayaan MVSGaussian untuk mensintesis paparan berkualiti tinggi dengan lebih terperinci pemandangan dan lebih sedikit artifak. Lebih banyak hasil video tersedia di halaman utama projek.}

^{... Set ujian DTU. Jadual 2 Keputusan generalisasi kuantitatif pada set data Real Face-Facing, NeRF Synthetic dan Tanks and Temples. Jadual 3 Keputusan kuantitatif selepas pengoptimuman adegan demi senario. Rajah 5 Perbandingan keputusan penaakulan generalisasi.}

Rangka kerja pembinaan semula Gaussian yang cekap dan boleh digeneralisasikan yang boleh membuat alasan dengan cepat dengan hanya 3 paparan dan pengoptimuman lengkap dalam 45 saat.

^{Rajah 7 Perbandingan hasil selepas pengoptimuman adegan demi adegan.}

Rangka kerja pembinaan semula Gaussian yang cekap dan boleh digeneralisasikan yang boleh membuat alasan dengan cepat dengan hanya 3 paparan dan pengoptimuman lengkap dalam 45 saat.

untuk dibandingkan.

Rangka kerja pembinaan semula Gaussian yang cekap dan boleh digeneralisasikan yang boleh membuat alasan dengan cepat dengan hanya 3 paparan dan pengoptimuman lengkap dalam 45 saat.

KesimpulanDalam kertas kerja ini, kami mencadangkan MVSGaussian, kaedah sputtering Gaussian yang boleh digeneralisasikan untuk pembinaan semula adegan daripada pelbagai pandangan. Khususnya, kami memanfaatkan MVS untuk membuat alasan tentang geometri dan membina perwakilan Gaussian sejajar piksel. Tambahan pula, kami mencadangkan kaedah pemaparan Gaussian hibrid yang menggabungkan pemaparan volum sedar mendalam yang cekap untuk meningkatkan keupayaan pengitlakan. Selain menyamaratakan inferens secara langsung, model kami boleh diperhalusi dengan cepat untuk senario tertentu. Untuk mencapai pengoptimuman pantas, kami memperkenalkan strategi pengagregatan konsisten geometri berbilang paparan untuk menyediakan permulaan berkualiti tinggi. Berbanding dengan NeRF yang boleh digeneralisasikan, yang biasanya memerlukan berpuluh-puluh minit penalaan halus dan saat untuk memaparkan setiap imej, MVSGaussian mendayakan pemaparan masa nyata dengan kualiti sintesis yang lebih tinggi.

Selain itu, berbanding dengan 3D-GS, MVSGaussian mencapai kesan sintesis paparan yang lebih baik sambil mengurangkan kos pengiraan latihan. Percubaan yang meluas mengesahkan bahawa MVSGaussian mencapai tahap terkini dari segi prestasi generalisasi, kelajuan pemaparan masa nyata dan pengoptimuman adegan demi adegan yang pantas. Walau bagaimanapun, memandangkan MVSGaussian bergantung pada stereo berbilang paparan (MVS) untuk anggaran kedalaman, ia mewarisi pengehadan MVS, seperti mengurangkan ketepatan kedalaman di kawasan yang mempunyai tekstur yang lemah atau pantulan spekular, yang mengakibatkan kualiti paparan terdegradasi. Rangka kerja pembinaan semula Gaussian yang cekap dan boleh digeneralisasikan yang boleh membuat alasan dengan cepat dengan hanya 3 paparan dan pengoptimuman lengkap dalam 45 saat.

Atas ialah kandungan terperinci Rangka kerja pembinaan semula Gaussian yang cekap dan boleh digeneralisasikan yang boleh membuat alasan dengan cepat dengan hanya 3 paparan dan pengoptimuman lengkap dalam 45 saat.. Untuk maklumat lanjut, sila ikut artikel berkaitan lain di laman web China PHP!

继承 github 算法人工智能 https

Kenyataan：

Kandungan artikel ini disumbangkan secara sukarela oleh netizen, dan hak cipta adalah milik pengarang asal. Laman web ini tidak memikul tanggungjawab undang-undang yang sepadan. Jika anda menemui sebarang kandungan yang disyaki plagiarisme atau pelanggaran, sila hubungi admin@php.cn

Artikel sebelumnya：Kemajuan baharu dalam siri "Spatial Intelligence" Li Feifei, suite "BVS" baharu pasukan Wu Jiajun menilai model penglihatan komputerArtikel seterusnya：Kemajuan baharu dalam siri "Spatial Intelligence" Li Feifei, suite "BVS" baharu pasukan Wu Jiajun menilai model penglihatan komputer

Artikel berkaitan

Lihat lagi