Rumah > Artikel > Peranti teknologi > Video komposit 3D berkualiti 4K tidak lagi membeku dalam tayangan slaid, dan kaedah baharu itu meningkatkan kelajuan pemaparan lebih daripada 30 kali ganda
Walaupun kualiti 4K, video 60 bingkai hanya boleh ditonton oleh ahli pada beberapa APP, penyelidik AI telah pun mencapai video sintesis dinamik 3D tahap 4K, dan gambarnya agak lancar.
Dalam kehidupan sebenar, kebanyakan video yang kami hubungi adalah 2D. Apabila menonton video jenis ini, kami tidak mempunyai cara untuk memilih sudut tontonan, seperti berjalan di kalangan pelakon atau berjalan ke sudut ruang. Kemunculan peranti VR dan AR telah menggantikan kelemahan ini. Video 3D yang mereka sediakan membolehkan kami mengubah perspektif kami dan juga bergerak sesuka hati, dengan banyaknya meningkatkan rendaman kami.
Walau bagaimanapun, sintesis adegan dinamik 3D seperti ini sentiasa menjadi kesukaran, baik dari segi kualiti imej dan kelancaran.
Baru-baru ini, penyelidik dari Universiti Zhejiang, Teknologi Xiangyan dan Kumpulan Semut telah mencabar masalah ini. Dalam kertas kerja bertajuk "4K4D: Sintesis Paparan 4D Masa Nyata pada Resolusi 4K", mereka mencadangkan kaedah perwakilan awan titik yang dipanggil 4K4D, yang meningkatkan kelajuan pemaparan sintesis pemandangan dinamik 3D resolusi tinggi. Khususnya, menggunakan GPU RTX 4090, kaedah mereka boleh menghasilkan pada resolusi 4K pada kadar bingkai sehingga 80 FPS dan pada resolusi 1080p pada kadar bingkai sehingga 400 FPS. Secara keseluruhan, ia lebih daripada 30 kali lebih pantas daripada kaedah sebelumnya, dan kualiti pemaparan mencapai SOTA.
Berikut ialah pengenalan kertas kerja.
https://z ju3dv. github .io/4k4d/
Pengarang menyatakan bahawa inovasi teras mereka terletak pada perwakilan awan titik 4D dan model penampilan hibrid. Khususnya, untuk adegan dinamik, mereka menggunakan algoritma ukiran ruang untuk mendapatkan jujukan awan titik kasar dan memodelkan kedudukan setiap titik sebagai vektor yang boleh dipelajari. Mereka juga memperkenalkan grid ciri 4D untuk menetapkan vektor ciri kepada setiap titik dan memasukkannya ke dalam rangkaian MLP untuk meramalkan jejari, ketumpatan dan pekali harmonik sfera (SH) titik. Jerat ciri 4D secara semula jadi menggunakan penyelarasan spatial pada awan titik, menjadikan pengoptimuman lebih mantap. Berdasarkan 4K4D, penyelidik membangunkan algoritma pengelupasan kedalaman yang boleh dibezakan yang menggunakan rasterisasi perkakasan untuk mencapai kelajuan pemaparan yang tidak pernah berlaku sebelum ini.
Penyelidik mendapati model SH berasaskan MLP sukar untuk mewakili penampilan adegan dinamik. Bagi mengurangkan masalah ini, mereka turut memperkenalkan model campuran imej untuk digabungkan dengan model SH bagi mewakili penampilan adegan. Reka bentuk yang penting ialah mereka menjadikan rangkaian pengadunan imej bebas daripada arah tontonan, jadi ia boleh diprakira selepas latihan untuk meningkatkan kelajuan pemaparan. Sebagai pedang bermata dua, strategi ini menjadikan model campuran imej diskret sepanjang arah tontonan. Masalah ini boleh diatasi menggunakan model SH berterusan. Berbanding dengan 3D Gaussian Splatting yang hanya menggunakan model SH, model penampilan hibrid yang dicadangkan oleh penyelidik menggunakan sepenuhnya maklumat yang ditangkap oleh imej input, dengan itu meningkatkan kualiti rendering dengan berkesan.
Untuk mengesahkan keberkesanan kaedah baharu, penyelidik menilai 4K4D pada berbilang set data sintesis paparan baharu dinamik berbilang paparan yang digunakan secara meluas, termasuk NHR, ENeRF-Outdoo, DNA-Rendering dan Neural3DV. Eksperimen yang meluas menunjukkan bahawa 4K4D bukan sahaja tertib magnitud lebih pantas dalam kelajuan pemaparan, tetapi juga jauh lebih baik daripada teknologi SOTA dari segi kualiti pemaparan. Menggunakan GPU RTX 4090, kaedah baharu ini mencapai 400 FPS pada set data Rendering DNA pada resolusi 1080p dan 80 FPS pada set data ENeRF-Outdoor pada resolusi 4k.
Memandangkan video berbilang tontonan yang menangkap pemandangan 3D dinamik, kertas kerja ini bertujuan untuk membina semula adegan sasaran dan melaksanakan sintesis paparan dalam masa nyata. Gambar rajah seni bina model ditunjukkan dalam Rajah 2:
Kemudian artikel itu memperkenalkan pengetahuan berkaitan menggunakan awan titik untuk memodelkan pemandangan dinamik ia bermula dari perspektif pembenaman 4D, model geometri dan model penampilan.
Pembenaman 4D: Memandangkan awan titik kasar bagi pemandangan sasaran, makalah ini menggunakan rangkaian saraf dan jerat ciri untuk mewakili geometri dan rupa dinamiknya. Khususnya, artikel ini mula-mula mentakrifkan enam pesawat ciri θ_xy, θ_xz, θ_yz, θ_tx, θ_ty dan θ_tz, dan mengguna pakai strategi K-Planes untuk menggunakan enam pesawat ini untuk memodelkan medan ciri 4D Θ(x, t):
Model geometri: Berdasarkan awan titik kasar, geometri pemandangan dinamik diwakili dengan mempelajari tiga atribut (entri) pada setiap titik, iaitu kedudukan p ∈ R^3 , jejari r ∈ R dan Ketumpatan σ ∈ R. Kemudian dengan bantuan titik-titik ini, ketumpatan isipadu titik x dalam ruang dikira. Kedudukan titik p dimodelkan sebagai vektor yang boleh dioptimumkan. Jejari r dan ketumpatan σ diramalkan dengan memasukkan vektor ciri f dalam Pers.(1) ke dalam rangkaian MLP.
Model rupa: Seperti yang ditunjukkan dalam Rajah 2c, kertas kerja ini menggunakan teknologi pengadunan imej dan model fungsi harmonik sfera (SH) untuk membina model rupa hibrid, di mana teknologi pengadunan imej mewakili rupa paparan diskret c_ibr, dan model SH mewakili rupa yang bergantung pada pandangan berterusan Kemunculan c_sh. Untuk titik x pada bingkai ke-t, warnanya dalam arah pandangan d ialah:
pengelupasan kedalaman yang boleh dibezakan
Dicadangkan dalam perwakilan adegan dinamik ini bantuan algoritma pengelupasan kedalaman ke dalam imej.
Para penyelidik membangunkan pelorek tersuai untuk melaksanakan algoritma pengelupasan kedalaman yang terdiri daripada pas rendering K. Iaitu, untuk piksel u tertentu, penyelidik melakukan pemprosesan berbilang langkah Akhirnya, selepas pemaparan K, piksel u memperoleh satu set titik isihan {x_k|k = 1, ..., K}.
Berdasarkan titik ini {x_k|k = 1, ..., K}, warna piksel u dalam pemaparan volum dinyatakan sebagai:
Semasa proses latihan, memandangkan warna piksel yang diberikan C (u), kertas ini membandingkannya dengan warna piksel sebenar C_gt (u) dan mengoptimumkan model secara hujung ke hujung menggunakan fungsi kehilangan berikut:
Selain itu, artikel ini juga menggunakan kehilangan persepsi:
dan kehilangan topeng:
ditakrifkan sebagai fungsi akhir
Eksperimen dan keputusan
Kertas ini menilai kaedah 4K4D pada dataset DNA-Rendering, ENeRF-Outdoor, NHR dan Neural3DV. Keputusan
pada dataset Rendering DNA ditunjukkan dalam Jadual 1. Keputusan menunjukkan bahawa kelajuan pemaparan 4K4D adalah lebih daripada 30 kali lebih pantas daripada ENeRF dengan prestasi SOTA, dan kualiti pemaparan adalah lebih baik.Hasil kualitatif pada dataset Rendering DNA ditunjukkan dalam Rajah 5. Kplanes tidak dapat memulihkan penampilan terperinci dan geometri adegan dinamik 4D, manakala kaedah berasaskan imej lain menghasilkan Penampilan berkualiti tinggi. Walau bagaimanapun, kaedah ini cenderung untuk menghasilkan hasil yang kabur di sekitar oklusi dan tepi, mengakibatkan kualiti visual berkurangan, manakala 4K4D boleh menghasilkan pemaparan ketepatan yang lebih tinggi pada lebih 200 FPS.
Seterusnya, eksperimen menunjukkan hasil kualitatif dan kuantitatif kaedah berbeza pada set data ENeRFOutdoor. Seperti yang ditunjukkan dalam Jadual 2, 4K4D masih mencapai hasil yang jauh lebih baik apabila memaparkan pada lebih 140 FPS.
Sementara kaedah lain, seperti ENeRF, menghasilkan hasil rendering IBRNet mengandungi artifak hitam di sekeliling tepi imej, seperti yang ditunjukkan dalam Rajah 3; .
Jadual 6 menunjukkan keberkesanan algoritma pengelupasan kedalaman boleh dibezakan, dengan 4K4D adalah lebih daripada 7 kali lebih pantas daripada kaedah berasaskan CUDA.
Artikel ini juga melaporkan kelajuan pemaparan 4K4D pada perkakasan berbeza (RTX 3060, 3090 dan 4090) pada peleraian berbeza dalam Jadual 7.
🎜🎜🎜Sila lihat kertas asal untuk butiran lanjut. 🎜🎜
Atas ialah kandungan terperinci Video komposit 3D berkualiti 4K tidak lagi membeku dalam tayangan slaid, dan kaedah baharu itu meningkatkan kelajuan pemaparan lebih daripada 30 kali ganda. Untuk maklumat lanjut, sila ikut artikel berkaitan lain di laman web China PHP!