Rumah >Peranti teknologi >AI >Video definisi tinggi itu tidak nyata. Adegan 3D yang dipaparkan dalam beberapa foto menyukarkan anda untuk membezakan keasliannya.

Video definisi tinggi itu tidak nyata. Adegan 3D yang dipaparkan dalam beberapa foto menyukarkan anda untuk membezakan keasliannya.

PHPzasal: 2024-08-05 20:15:51640semak imbas

Video definisi tinggi itu tidak nyata. Adegan 3D yang dipaparkan dalam beberapa foto menyukarkan anda untuk membezakan keasliannya.

Sila ambil perhatian bahawa animasi di atas adalah sepenuhnya pemandangan 3D yang dipaparkan daripada berbilang foto. Sukar bagi manusia untuk mengesan kelemahan mereka.

Kemudian mari kita lihat bagaimana senario ini direalisasikan.

Grid dan titik ialah perwakilan pemandangan 3D yang paling biasa, dan kerana ia jelas, ia sangat sesuai untuk rasterisasi berasaskan GPU/CUDA yang pantas. Sebaliknya, kaedah Medan Sinaran Neural (NeRF) tercanggih dibina pada perwakilan pemandangan berterusan, selalunya menggunakan perceptron berbilang lapisan (MLP) pemaparan volumetrik yang dioptimumkan untuk mensintesis perspektif baharu pada pemandangan yang ditangkap. Walaupun kesinambungan kaedah ini membantu dengan pengoptimuman, pensampelan rawak yang diperlukan untuk pemaparan adalah mahal dan bising.

Para penyelidik dari University of the French Riviera memperkenalkan kaedah baharu yang boleh menggabungkan kelebihan kedua-dua kaedah ini: Perwakilan Gaussian 3D mempunyai kualiti visual SOAT dan juga dioptimumkan dalam masa latihan, manakala berasaskan jubin Algoritma bola salji ( percikan berasaskan jubin) mencapai pemaparan masa nyata SOTA pada resolusi 1080p pada beberapa set data.

Alamat kertas: https://huggingface.co/papers/2308.04079

Pasukan penyelidik telah menetapkan matlamat: untuk menghasilkan adegan yang dirakam dengan berbilang foto dalam masa nyata dan mencapai masa terpantas dalam keadaan sebenar biasa pengoptimuman adegan. Walaupun kaedah yang dicadangkan sebelum ini oleh Fridovich-Kei et al mencapai latihan pantas, adalah sukar untuk mencapai kualiti visual yang dicapai oleh kaedah SOTA NeRF semasa, yang memerlukan sehingga 48 jam masa latihan. Terdapat juga kajian yang mencadangkan kaedah medan sinaran yang pantas tetapi berkualiti rendah yang boleh mencapai pemaparan interaktif mengikut adegan (10-15 bingkai sesaat), tetapi kaedah ini tidak boleh mencapai pemaparan masa nyata pada peleraian tinggi.

Seterusnya, mari kita lihat bagaimana artikel ini dilaksanakan. Penyelesaian pasukan penyelidik terutamanya terdiri daripada tiga bahagian.

Mula-mula, perkenalkan Gaussian 3D sebagai perwakilan adegan yang fleksibel dan ekspresif. Input adalah serupa dengan kaedah NeRF, iaitu kamera ditentukur menggunakan struktur-dari-gerakan (SfM) dan ensembel Gaussian 3D dimulakan menggunakan awan titik jarang yang diperoleh daripada proses SfM. Tambahan pula, kajian ini dapat memperoleh hasil yang berkualiti tinggi dengan hanya menggunakan mata SfM sebagai input. Perlu diingatkan bahawa untuk dataset sintetik NeRF, kaedah kami boleh memperoleh hasil yang berkualiti tinggi walaupun dengan pengamulaan rawak. Penyelidikan menunjukkan bahawa Gaussian 3D adalah pilihan yang baik.

Kedua, optimumkan sifat Gaussian 3D, iaitu kedudukan 3D, kelegapan?, kovarians anisotropik dan pekali harmonik sfera (SH). Proses pengoptimuman menghasilkan gambaran pemandangan yang agak padat, tidak tersusun dan tepat.

Ketiga, penyelesaian pemaparan masa nyata, penyelidikan ini menggunakan algoritma pengisihan GPU yang pantas. Walau bagaimanapun, disebabkan oleh perwakilan Gaussian 3D, adalah mungkin untuk melakukan penyambungan anisotropik sambil menghormati susunan keterlihatan, terima kasih kepada pengisihan dan pengadunan—dan dengan menjejaki lintasan bagi seberapa banyak sambatan yang diisih seperti yang diperlukan, membolehkan penyambungan yang cepat dan tepat ke belakang.

Ikhtisar kaedah

Ringkasnya, kertas kerja ini memberikan sumbangan berikut:

3introduksi anisotropik yang berkualiti tinggi medan sinaran; Video definisi tinggi itu tidak nyata. Adegan 3D yang dipaparkan dalam beberapa foto menyukarkan anda untuk membezakan keasliannya.

Kaedah pengoptimuman untuk sifat Gaussian 3D, dijalin dengan kawalan ketumpatan penyesuaian untuk mencipta gambaran berkualiti tinggi bagi adegan yang ditangkap

Kaedah pemaparan boleh dibezakan pantas untuk GPU yang peka dengan keterlihatan Ciri-ciri yang membolehkan jahitan anisotropik tinggi dan propagasi pantas; -sintesis paparan baharu yang berkualiti.

Eksperimen

Rajah berikut menunjukkan perbandingan kesan kaedah artikel ini dan kaedah sebelumnya.

Adegan dari atas ke bawah ialah basikal, taman, kaunter dan bilik daripada set data Mip-NeRF360 daripada set data hibrid dalam (untuk perbandingan lanjut, sila baca artikel asal). Perbezaan ketara yang dihasilkan melalui kaedah berbeza telah ditandakan dalam rajah, seperti jejari basikal, kaca rumah di hujung taman, tiang bakul besi dan teddy bear.

Dapat diperhatikan bahawa kaedah dalam artikel ini mempunyai lebih banyak kelebihan secara terperinci berbanding kaedah sebelumnya.

Anda boleh melihat perbezaan yang lebih jelas dalam video

Selain itu, dalam Rajah 6 kita dapat melihat bahawa walaupun dengan lelaran 7K (∼ dalam 5 minit ini mempunyai), Menangkap butiran kereta api dengan sangat baik. Pada lelaran 30K (~ 35 min), artifak latar belakang dikurangkan dengan ketara. Untuk pemandangan taman, perbezaannya hampir tidak ketara, dan lelaran 7K (~8 minit) sudah pun berkualiti tinggi.

Pasukan penyelidik menggunakan kaedah yang dicadangkan oleh Mip-NeRF360, membahagikan set data kepada bahagian latihan/ujian, dan menguji setiap 8 foto untuk membuat perbandingan yang konsisten dan bermakna, dengan itu menjana penunjuk ralat, dan menggunakan Yang paling biasa digunakan penunjuk standard PSNR, L-PIPS dan SSIM dalam literatur ditunjukkan dalam Jadual 1 untuk data terperinci.

Jadual 1 membentangkan penilaian kuantitatif kaedah baharu berbanding kerja sebelumnya yang dikira merentas tiga set data. Keputusan yang ditandakan dengan "†" diterima pakai terus daripada kertas asal, dan keputusan lain ialah keputusan percubaan pasukan eksperimen.

Skor PSNR NeRF sintetik. Ia boleh dilihat bahawa kaedah dalam artikel ini mempunyai skor yang lebih baik dalam kebanyakan kes, malah mencapai tahap optimum.

Eksperimen Ablasi

Pasukan penyelidik mengasingkan sumbangan berbeza dan pilihan algoritma yang dibuat dan membina satu set eksperimen untuk mengukur kesannya. Aspek algoritma berikut telah diuji: permulaan daripada SfM, strategi ketumpatan, kovarians anisotropik, membenarkan tompok tanpa had dengan kecerunan, dan penggunaan harmonik sfera. Jadual di bawah meringkaskan kesan kuantitatif setiap pilihan.

Mari kita lihat kesan yang lebih intuitif.

Menggunakan mata SfM untuk permulaan akan menghasilkan hasil yang lebih baik. . Kiri: 10 mata Gaussian mengehadkan kecerunan yang diterima. Kanan: Metodologi penuh artikel ini.

Untuk butiran lanjut, sila baca artikel asal.

Atas ialah kandungan terperinci Video definisi tinggi itu tidak nyata. Adegan 3D yang dipaparkan dalam beberapa foto menyukarkan anda untuk membezakan keasliannya.. Untuk maklumat lanjut, sila ikut artikel berkaitan lain di laman web China PHP!

算法 https

Kenyataan：

Kandungan artikel ini disumbangkan secara sukarela oleh netizen, dan hak cipta adalah milik pengarang asal. Laman web ini tidak memikul tanggungjawab undang-undang yang sepadan. Jika anda menemui sebarang kandungan yang disyaki plagiarisme atau pelanggaran, sila hubungi admin@php.cn

Artikel sebelumnya：Mengapakah model interaksi tertunda menjadi standard untuk generasi RAG seterusnya?Artikel seterusnya：Mengapakah model interaksi tertunda menjadi standard untuk generasi RAG seterusnya?

Artikel berkaitan

Lihat lagi