Rumah > Artikel > Peranti teknologi > Adakah ia dijangka menggantikan Deepfake? Mendedahkan betapa hebatnya teknologi NeRF yang paling popular tahun ini
Apa, anda belum tahu NeRF lagi?
Sebagai teknologi AI terhangat dalam bidang penglihatan komputer tahun ini, NeRF digunakan secara meluas dan mempunyai masa depan yang cerah.
Orang-orang di tapak B telah meletakkan teknologi ini dalam cara baharu.
Jadi, apakah sebenarnya NeRF itu?
NeRF (Neural Radiance Fields) ialah konsep yang pertama kali dicadangkan dalam kertas kerja terbaik pada persidangan ECCV 2020 Ia mendorong ekspresi tersirat ke tahap baharu, hanya menggunakan imej pose 2D sebagai penyeliaan , yang boleh mewakili tiga-kompleks. adegan dimensi.
Satu batu membangkitkan seribu gelombang Sejak itu, NeRF telah berkembang pesat dan digunakan pada banyak arah teknikal, seperti "sintesis sudut pandang baharu, pembinaan semula tiga dimensi", dsb.
NeRF menggunakan imej berbilang sudut input jarang dengan pose untuk melatih bagi mendapatkan model medan sinaran saraf Menurut model ini, foto yang jelas dari mana-mana sudut tontonan boleh dipaparkan, seperti yang ditunjukkan dalam rajah di bawah. Ia juga boleh diringkaskan secara ringkas sebagai menggunakan MLP untuk mempelajari adegan tiga dimensi secara tersirat.
Netizen secara semula jadi akan membandingkan NeRF dengan Deepfake yang sama popular.
Artikel terbaru yang diterbitkan oleh MetaPhysics mengambil kira sejarah evolusi, cabaran dan kelebihan NeRF, dan meramalkan bahawa NeRF akhirnya akan menggantikan Deepfake.
Kebanyakan topik yang menarik perhatian tentang teknologi deepfake merujuk kepada dua pakej perisian sumber terbuka yang telah menjadi popular sejak deepfakes memasuki kesedaran awam pada 2017: DeepFaceLab (DFL) dan FaceSwap.
Walaupun kedua-dua pakej mempunyai pangkalan pengguna yang luas dan komuniti pembangun yang aktif, kedua-dua projek tidak menyimpang dengan ketara daripada kod GitHub.
Sudah tentu, pembangun DFL dan FaceSwap tidak melahu: kini boleh melatih model deepfake menggunakan imej input yang lebih besar, walaupun ini memerlukan GPU yang lebih mahal.
Tetapi sebenarnya, dalam tempoh tiga tahun lalu, peningkatan kualiti imej deepfake yang dipromosikan oleh media adalah terutamanya disebabkan oleh pengguna akhir.
Mereka telah mengumpul pengalaman penjimatan masa dan jarang berlaku dalam pengumpulan data, cara terbaik untuk melatih model (kadangkala satu percubaan boleh mengambil masa berminggu-minggu) dan mempelajari cara memanfaatkan dan melanjutkan kod asal 2017 Had paling luar .
Sesetengah dalam komuniti penyelidikan VFX dan ML cuba menembusi "had keras" pakej deepfake yang popular dengan memanjangkan seni bina supaya model pembelajaran mesin boleh dilatih pada imej sehingga 1024×1024.
Pikselnya adalah dua kali ganda julat sebenar semasa DeepFaceLab atau FaceSwap, lebih hampir kepada resolusi yang berguna dalam pengeluaran filem dan televisyen.
Mari kita belajar tentang NeRF bersama-sama~
NeRF (Neural Radiance Fields), yang muncul pada tahun 2020, ialah sejenis kaedah saraf untuk membina semula objek dan persekitaran dengan menyambung foto dari pelbagai sudut pandangan dalam rangkaian.
Ia mencapai hasil terbaik untuk mensintesis paparan pemandangan yang kompleks dengan mengoptimumkan fungsi adegan isipadu berterusan yang mendasari menggunakan set pandangan input yang jarang.
Algoritma juga menggunakan rangkaian dalam yang disambungkan sepenuhnya untuk mewakili pemandangan, inputnya ialah koordinat 5D berterusan tunggal (kedudukan spatial (x, y, z) dan arah tontonan (θ, φ)), dan output ialah Ketumpatan isipadu pada lokasi spatial dan kecerahan amplitud pelepasan yang berkaitan.
Sintesiskan paparan dengan menanyakan koordinat 5D di sepanjang sinar kamera dan tayangkan warna dan ketumpatan output ke dalam imej menggunakan teknik pemaparan volum klasik.
Proses pelaksanaan:
Pertama, adegan berterusan diwakili sebagai fungsi bernilai vektor 5D, yang inputnya ialah kedudukan 3D dan arah tontonan 2D, sepadan dengan Keluaran ialah warna pelepasan c dan ketumpatan isipadu σ.
Dalam amalan, vektor unit Cartesian 3D d digunakan untuk mewakili arah. Perwakilan pemandangan 5D berterusan ini dianggarkan dengan rangkaian MLP dan pemberatnya dioptimumkan.
Tambahan pula, perwakilan digalakkan untuk konsisten merentas berbilang paparan dengan mengehadkan rangkaian untuk meramalkan ketumpatan volum σ sebagai fungsi kedudukan x, sementara juga membenarkan warna RGB c diramalkan sebagai fungsi kedudukan dan arah tontonan .
Untuk mencapai matlamat ini, MLP mula-mula memproses input koordinat 3D x dengan 8 lapisan bersambung sepenuhnya (menggunakan pengaktifan ReLU dan 256 saluran setiap lapisan), dan mengeluarkan vektor ciri σ dan 256 dimensi.
Vektor ciri ini kemudiannya digabungkan dengan arah tontonan sinar kamera dan dihantar ke lapisan tambahan bersambung penuh yang mengeluarkan warna RGB bergantung pada paparan.
Selain itu, NeRF juga memperkenalkan dua penambahbaikan untuk mencapai perwakilan adegan kompleks resolusi tinggi. Yang pertama ialah pengekodan kedudukan untuk membantu MLP mewakili fungsi frekuensi tinggi, dan yang kedua ialah proses pensampelan berstrata untuk membolehkannya menyampel perwakilan frekuensi tinggi dengan cekap.
Seperti yang kita sedia maklum, pengekodan kedudukan dalam seni bina Transformer boleh memberikan kedudukan diskret penanda dalam jujukan sebagai input bagi keseluruhan seni bina. NeRF menggunakan pengekodan kedudukan untuk memetakan koordinat input berterusan ke ruang dimensi yang lebih tinggi, menjadikannya lebih mudah bagi MLP untuk menganggarkan fungsi frekuensi yang lebih tinggi.
Seperti yang dapat diperhatikan daripada rajah, mengalih keluar pengekodan kedudukan akan mengurangkan keupayaan model untuk mewakili geometri dan tekstur frekuensi tinggi, akhirnya membawa kepada penampilan yang terlalu licin.
Memandangkan strategi pemaparan menilai secara padat rangkaian medan sinaran saraf pada titik pertanyaan N di sepanjang setiap sinar kamera adalah sangat tidak cekap, akhirnya NeRF menggunakan perwakilan hierarki, dengan membahagikan kesan yang dijangkakan daripada pemaparan akhir Peruntukkan sampel untuk dipertingkatkan. kecekapan rendering.
Ringkasnya, NeRF tidak lagi menggunakan hanya satu rangkaian untuk mewakili pemandangan, tetapi mengoptimumkan dua rangkaian pada masa yang sama, rangkaian "berbutir kasar" dan rangkaian "berbutir halus".
NeRF menyelesaikan kekurangan masa lalu, iaitu, menggunakan MLP untuk mewakili objek dan pemandangan sebagai fungsi berterusan. Berbanding dengan kaedah sebelumnya, NeRF boleh menghasilkan kesan pemaparan yang lebih baik.
Walau bagaimanapun, NeRF juga menghadapi banyak kesesakan teknikal Contohnya, pemecut NeRF akan mengorbankan fungsi lain yang agak berguna (seperti fleksibiliti) untuk mencapai kependaman rendah, persekitaran yang lebih interaktif dan kurang masa latihan.
Jadi, walaupun NeRF merupakan satu kejayaan penting, ia masih mengambil masa tertentu untuk mencapai hasil yang sempurna.
Teknologi bertambah baik dan masa depan masih menjanjikan!
Atas ialah kandungan terperinci Adakah ia dijangka menggantikan Deepfake? Mendedahkan betapa hebatnya teknologi NeRF yang paling popular tahun ini. Untuk maklumat lanjut, sila ikut artikel berkaitan lain di laman web China PHP!