Rumah >Peranti teknologi >AI >Video komposit 3D berkualiti 4K tidak lagi membeku dalam tayangan slaid, dan kaedah baharu itu meningkatkan kelajuan pemaparan lebih daripada 30 kali ganda

Video komposit 3D berkualiti 4K tidak lagi membeku dalam tayangan slaid, dan kaedah baharu itu meningkatkan kelajuan pemaparan lebih daripada 30 kali ganda

王林ke hadapan: 2023-10-19 14:21:04621semak imbas

Walaupun kualiti 4K, video 60 bingkai hanya boleh ditonton oleh ahli pada beberapa APP, penyelidik AI telah pun mencapai video sintesis dinamik 3D tahap 4K, dan gambarnya agak lancar.

Dalam kehidupan sebenar, kebanyakan video yang kami hubungi adalah 2D. Apabila menonton video jenis ini, kami tidak mempunyai cara untuk memilih sudut tontonan, seperti berjalan di kalangan pelakon atau berjalan ke sudut ruang. Kemunculan peranti VR dan AR telah menggantikan kelemahan ini. Video 3D yang mereka sediakan membolehkan kami mengubah perspektif kami dan juga bergerak sesuka hati, dengan banyaknya meningkatkan rendaman kami.

Walau bagaimanapun, sintesis adegan dinamik 3D seperti ini sentiasa menjadi kesukaran, baik dari segi kualiti imej dan kelancaran.

Baru-baru ini, penyelidik dari Universiti Zhejiang, Teknologi Xiangyan dan Kumpulan Semut telah mencabar masalah ini. Dalam kertas kerja bertajuk "4K4D: Sintesis Paparan 4D Masa Nyata pada Resolusi 4K", mereka mencadangkan kaedah perwakilan awan titik yang dipanggil 4K4D, yang meningkatkan kelajuan pemaparan sintesis pemandangan dinamik 3D resolusi tinggi. Khususnya, menggunakan GPU RTX 4090, kaedah mereka boleh menghasilkan pada resolusi 4K pada kadar bingkai sehingga 80 FPS dan pada resolusi 1080p pada kadar bingkai sehingga 400 FPS. Secara keseluruhan, ia lebih daripada 30 kali lebih pantas daripada kaedah sebelumnya, dan kualiti pemaparan mencapai SOTA.

Video komposit 3D berkualiti 4K tidak lagi membeku dalam tayangan slaid, dan kaedah baharu itu meningkatkan kelajuan pemaparan lebih daripada 30 kali ganda

Berikut ialah pengenalan kertas kerja.

Pautan kertas: https://arxiv.org/pdf/2310.11448.pdf

Video komposit 3D berkualiti 4K tidak lagi membeku dalam tayangan slaid, dan kaedah baharu itu meningkatkan kelajuan pemaparan lebih daripada 30 kali ganda https://z ju3dv. github .io/4k4d/

Sintesis paparan dinamik bertujuan untuk membina semula adegan 3D yang dinamik daripada video yang ditangkap dan mencipta main balik maya yang mengasyikkan, yang merupakan masalah penglihatan komputer dan penyelidikan jangka panjang Kunci kepada utiliti teknologi ini ialah keupayaannya untuk memaparkan dalam masa nyata dengan kesetiaan yang tinggi, membolehkan ia digunakan dalam VR/AR, siaran sukan dan tangkapan prestasi artistik. Pendekatan tradisional mewakili adegan 3D dinamik sebagai jujukan jerat bertekstur dan menggunakan perkakasan yang kompleks untuk membina semulanya. Oleh itu, mereka biasanya terhad kepada persekitaran terkawal.
Baru-baru ini, perwakilan saraf tersirat telah mencapai kejayaan besar dalam membina semula adegan 3D dinamik daripada video RGB melalui pemaparan boleh dibezakan. Contohnya, "Sintesis video 3d saraf daripada video berbilang tontonan" memodelkan pemandangan sasaran sebagai medan sinaran dinamik, menggunakan pemaparan volum untuk mensintesis imej dan membandingkan serta mengoptimumkannya dengan imej input. Walaupun hasil sintesis paparan dinamik yang mengagumkan, kaedah sedia ada selalunya memerlukan beberapa saat atau bahkan minit untuk menghasilkan imej pada resolusi 1080p kerana penilaian rangkaian yang mahal. Diinspirasikan oleh kaedah sintesis paparan statik, beberapa kaedah sintesis paparan dinamik meningkatkan kelajuan pemaparan dengan mengurangkan kos atau bilangan penilaian rangkaian. Melalui strategi ini, Peta MLP dapat memaparkan angka dinamik latar depan pada 41.7 fps. Walau bagaimanapun, cabaran kelajuan pemaparan kekal, kerana prestasi masa nyata Peta MLP hanya boleh dicapai apabila menggubah imej dengan resolusi sederhana (384×512). Apabila memaparkan imej resolusi 4K, ia perlahan kepada hanya 1.3 FPS.

Dalam kertas kerja ini, penyelidik mencadangkan perwakilan saraf baharu - 4K4D, untuk memodelkan dan memaparkan adegan 3D dinamik. Seperti yang ditunjukkan dalam Rajah 1, 4K4D dengan ketara mengatasi kaedah sintesis paparan dinamik sebelumnya dalam kelajuan pemaparan sambil berdaya saing dalam kualiti pemaparan.

Pengarang menyatakan bahawa inovasi teras mereka terletak pada perwakilan awan titik 4D dan model penampilan hibrid. Khususnya, untuk adegan dinamik, mereka menggunakan algoritma ukiran ruang untuk mendapatkan jujukan awan titik kasar dan memodelkan kedudukan setiap titik sebagai vektor yang boleh dipelajari. Mereka juga memperkenalkan grid ciri 4D untuk menetapkan vektor ciri kepada setiap titik dan memasukkannya ke dalam rangkaian MLP untuk meramalkan jejari, ketumpatan dan pekali harmonik sfera (SH) titik. Jerat ciri 4D secara semula jadi menggunakan penyelarasan spatial pada awan titik, menjadikan pengoptimuman lebih mantap. Berdasarkan 4K4D, penyelidik membangunkan algoritma pengelupasan kedalaman yang boleh dibezakan yang menggunakan rasterisasi perkakasan untuk mencapai kelajuan pemaparan yang tidak pernah berlaku sebelum ini.

Penyelidik mendapati model SH berasaskan MLP sukar untuk mewakili penampilan adegan dinamik. Bagi mengurangkan masalah ini, mereka turut memperkenalkan model campuran imej untuk digabungkan dengan model SH bagi mewakili penampilan adegan. Reka bentuk yang penting ialah mereka menjadikan rangkaian pengadunan imej bebas daripada arah tontonan, jadi ia boleh diprakira selepas latihan untuk meningkatkan kelajuan pemaparan. Sebagai pedang bermata dua, strategi ini menjadikan model campuran imej diskret sepanjang arah tontonan. Masalah ini boleh diatasi menggunakan model SH berterusan. Berbanding dengan 3D Gaussian Splatting yang hanya menggunakan model SH, model penampilan hibrid yang dicadangkan oleh penyelidik menggunakan sepenuhnya maklumat yang ditangkap oleh imej input, dengan itu meningkatkan kualiti rendering dengan berkesan.

Untuk mengesahkan keberkesanan kaedah baharu, penyelidik menilai 4K4D pada berbilang set data sintesis paparan baharu dinamik berbilang paparan yang digunakan secara meluas, termasuk NHR, ENeRF-Outdoo, DNA-Rendering dan Neural3DV. Eksperimen yang meluas menunjukkan bahawa 4K4D bukan sahaja tertib magnitud lebih pantas dalam kelajuan pemaparan, tetapi juga jauh lebih baik daripada teknologi SOTA dari segi kualiti pemaparan. Menggunakan GPU RTX 4090, kaedah baharu ini mencapai 400 FPS pada set data Rendering DNA pada resolusi 1080p dan 80 FPS pada set data ENeRF-Outdoor pada resolusi 4k.

Pengenalan Kaedah

Memandangkan video berbilang tontonan yang menangkap pemandangan 3D dinamik, kertas kerja ini bertujuan untuk membina semula adegan sasaran dan melaksanakan sintesis paparan dalam masa nyata. Gambar rajah seni bina model ditunjukkan dalam Rajah 2:

Video komposit 3D berkualiti 4K tidak lagi membeku dalam tayangan slaid, dan kaedah baharu itu meningkatkan kelajuan pemaparan lebih daripada 30 kali ganda

Kemudian artikel itu memperkenalkan pengetahuan berkaitan menggunakan awan titik untuk memodelkan pemandangan dinamik ia bermula dari perspektif pembenaman 4D, model geometri dan model penampilan.

Pembenaman 4D: Memandangkan awan titik kasar bagi pemandangan sasaran, makalah ini menggunakan rangkaian saraf dan jerat ciri untuk mewakili geometri dan rupa dinamiknya. Khususnya, artikel ini mula-mula mentakrifkan enam pesawat ciri θ_xy, θ_xz, θ_yz, θ_tx, θ_ty dan θ_tz, dan mengguna pakai strategi K-Planes untuk menggunakan enam pesawat ini untuk memodelkan medan ciri 4D Θ(x, t):

Video komposit 3D berkualiti 4K tidak lagi membeku dalam tayangan slaid, dan kaedah baharu itu meningkatkan kelajuan pemaparan lebih daripada 30 kali ganda

Model geometri: Berdasarkan awan titik kasar, geometri pemandangan dinamik diwakili dengan mempelajari tiga atribut (entri) pada setiap titik, iaitu kedudukan p ∈ R^3 , jejari r ∈ R dan Ketumpatan σ ∈ R. Kemudian dengan bantuan titik-titik ini, ketumpatan isipadu titik x dalam ruang dikira. Kedudukan titik p dimodelkan sebagai vektor yang boleh dioptimumkan. Jejari r dan ketumpatan σ diramalkan dengan memasukkan vektor ciri f dalam Pers.(1) ke dalam rangkaian MLP.

Model rupa: Seperti yang ditunjukkan dalam Rajah 2c, kertas kerja ini menggunakan teknologi pengadunan imej dan model fungsi harmonik sfera (SH) untuk membina model rupa hibrid, di mana teknologi pengadunan imej mewakili rupa paparan diskret c_ibr, dan model SH mewakili rupa yang bergantung pada pandangan berterusan Kemunculan c_sh. Untuk titik x pada bingkai ke-t, warnanya dalam arah pandangan d ialah:

Video komposit 3D berkualiti 4K tidak lagi membeku dalam tayangan slaid, dan kaedah baharu itu meningkatkan kelajuan pemaparan lebih daripada 30 kali ganda

pengelupasan kedalaman yang boleh dibezakan

Dicadangkan dalam perwakilan adegan dinamik ini bantuan algoritma pengelupasan kedalaman ke dalam imej.

Para penyelidik membangunkan pelorek tersuai untuk melaksanakan algoritma pengelupasan kedalaman yang terdiri daripada pas rendering K. Iaitu, untuk piksel u tertentu, penyelidik melakukan pemprosesan berbilang langkah Akhirnya, selepas pemaparan K, piksel u memperoleh satu set titik isihan {x_k|k = 1, ..., K}.

Berdasarkan titik ini {x_k|k = 1, ..., K}, warna piksel u dalam pemaparan volum dinyatakan sebagai:

Video komposit 3D berkualiti 4K tidak lagi membeku dalam tayangan slaid, dan kaedah baharu itu meningkatkan kelajuan pemaparan lebih daripada 30 kali ganda

Semasa proses latihan, memandangkan warna piksel yang diberikan C (u), kertas ini membandingkannya dengan warna piksel sebenar C_gt (u) dan mengoptimumkan model secara hujung ke hujung menggunakan fungsi kehilangan berikut:

Video komposit 3D berkualiti 4K tidak lagi membeku dalam tayangan slaid, dan kaedah baharu itu meningkatkan kelajuan pemaparan lebih daripada 30 kali ganda

Selain itu, artikel ini juga menggunakan kehilangan persepsi:

Video komposit 3D berkualiti 4K tidak lagi membeku dalam tayangan slaid, dan kaedah baharu itu meningkatkan kelajuan pemaparan lebih daripada 30 kali ganda

dan kehilangan topeng:

Video komposit 3D berkualiti 4K tidak lagi membeku dalam tayangan slaid, dan kaedah baharu itu meningkatkan kelajuan pemaparan lebih daripada 30 kali ganda

ditakrifkan sebagai fungsi akhir

Video komposit 3D berkualiti 4K tidak lagi membeku dalam tayangan slaid, dan kaedah baharu itu meningkatkan kelajuan pemaparan lebih daripada 30 kali ganda

Eksperimen dan keputusan

Kertas ini menilai kaedah 4K4D pada dataset DNA-Rendering, ENeRF-Outdoor, NHR dan Neural3DV. Keputusan

Video komposit 3D berkualiti 4K tidak lagi membeku dalam tayangan slaid, dan kaedah baharu itu meningkatkan kelajuan pemaparan lebih daripada 30 kali ganda

pada dataset Rendering DNA ditunjukkan dalam Jadual 1. Keputusan menunjukkan bahawa kelajuan pemaparan 4K4D adalah lebih daripada 30 kali lebih pantas daripada ENeRF dengan prestasi SOTA, dan kualiti pemaparan adalah lebih baik.

Video komposit 3D berkualiti 4K tidak lagi membeku dalam tayangan slaid, dan kaedah baharu itu meningkatkan kelajuan pemaparan lebih daripada 30 kali ganda

Hasil kualitatif pada dataset Rendering DNA ditunjukkan dalam Rajah 5. Kplanes tidak dapat memulihkan penampilan terperinci dan geometri adegan dinamik 4D, manakala kaedah berasaskan imej lain menghasilkan Penampilan berkualiti tinggi. Walau bagaimanapun, kaedah ini cenderung untuk menghasilkan hasil yang kabur di sekitar oklusi dan tepi, mengakibatkan kualiti visual berkurangan, manakala 4K4D boleh menghasilkan pemaparan ketepatan yang lebih tinggi pada lebih 200 FPS.

Video komposit 3D berkualiti 4K tidak lagi membeku dalam tayangan slaid, dan kaedah baharu itu meningkatkan kelajuan pemaparan lebih daripada 30 kali ganda

Seterusnya, eksperimen menunjukkan hasil kualitatif dan kuantitatif kaedah berbeza pada set data ENeRFOutdoor. Seperti yang ditunjukkan dalam Jadual 2, 4K4D masih mencapai hasil yang jauh lebih baik apabila memaparkan pada lebih 140 FPS.

Video komposit 3D berkualiti 4K tidak lagi membeku dalam tayangan slaid, dan kaedah baharu itu meningkatkan kelajuan pemaparan lebih daripada 30 kali ganda

Sementara kaedah lain, seperti ENeRF, menghasilkan hasil rendering IBRNet mengandungi artifak hitam di sekeliling tepi imej, seperti yang ditunjukkan dalam Rajah 3; .

Video komposit 3D berkualiti 4K tidak lagi membeku dalam tayangan slaid, dan kaedah baharu itu meningkatkan kelajuan pemaparan lebih daripada 30 kali ganda

Jadual 6 menunjukkan keberkesanan algoritma pengelupasan kedalaman boleh dibezakan, dengan 4K4D adalah lebih daripada 7 kali lebih pantas daripada kaedah berasaskan CUDA.

Video komposit 3D berkualiti 4K tidak lagi membeku dalam tayangan slaid, dan kaedah baharu itu meningkatkan kelajuan pemaparan lebih daripada 30 kali ganda

Artikel ini juga melaporkan kelajuan pemaparan 4K4D pada perkakasan berbeza (RTX 3060, 3090 dan 4090) pada peleraian berbeza dalam Jadual 7.

🎜🎜🎜Sila lihat kertas asal untuk butiran lanjut. 🎜🎜

Atas ialah kandungan terperinci Video komposit 3D berkualiti 4K tidak lagi membeku dalam tayangan slaid, dan kaedah baharu itu meningkatkan kelajuan pemaparan lebih daripada 30 kali ganda. Untuk maklumat lanjut, sila ikut artikel berkaitan lain di laman web China PHP!

架构 github 算法 https ar vr

Kenyataan：

Artikel ini dikembalikan pada:51cto.com. Jika ada pelanggaran, sila hubungi admin@php.cn Padam

Artikel sebelumnya：vLex menaik taraf Vincent AI dan mengeluarkan satu set alat kecerdasan buatan yang inovatifArtikel seterusnya：vLex menaik taraf Vincent AI dan mengeluarkan satu set alat kecerdasan buatan yang inovatif

Artikel berkaitan

Lihat lagi