Rumah > Artikel > Peranti teknologi > Pembinaan semula terbesar dalam sejarah 25km²! NeRF-XL: Penggunaan latihan bersama berbilang kad yang sangat berkesan!
Tajuk asal: NeRF-XL: Menskalakan NeRF dengan Berbilang GPU
Pautan kertas: https://research.nvidia.com/labs/toronto-ai/nerfxl/assets/nerfxl.pdf
Pautan projek: https:/ //research.nvidia.com/labs/toronto-ai/nerfxl/
Gabungan pengarang: NVIDIA University of California, Berkeley
Kertas kerja ini mencadangkan prinsip NeRF-XL, iaitu kaedah untuk mengedarkan medan sinar saraf (NeRF) merentas berbilang unit pemprosesan grafik (GPU), dengan itu membolehkan latihan dan pemaparan NeRF dengan kapasiti yang besar secara sewenang-wenangnya. Kertas kerja ini mula-mula mengkaji beberapa kaedah GPU sedia ada yang menguraikan pemandangan besar kepada beberapa NeRF terlatih secara bebas [9, 15, 17] dan mengenal pasti beberapa isu asas dengan kaedah ini yang bermasalah apabila menggunakan sumber Pengkomputeran (GPU) tambahan untuk latihan menghalang penambahbaikan pembinaan semula kualiti. NeRF-XL menyelesaikan masalah ini dan membenarkan NeRF dengan sebarang bilangan parameter dilatih dan diberikan dengan hanya menggunakan lebih banyak perkakasan. Teras pendekatan kami ialah rumusan latihan dan pemaparan yang diedarkan baru, yang secara matematik setara dengan kes GPU tunggal klasik dan meminimumkan komunikasi antara GPU. Dengan membuka kunci NeRF dengan bilangan parameter yang besar secara sewenang-wenangnya, kaedah kami ialah yang pertama mendedahkan undang-undang penskalaan GPU NeRF, menunjukkan kualiti pembinaan semula yang lebih baik apabila bilangan parameter meningkat, dan apabila lebih banyak GPU digunakan Kelajuan meningkat dengan peningkatan. Kertas kerja ini menunjukkan keberkesanan NeRF-XL pada pelbagai set data, termasuk MatrixCity [5], yang mengandungi kira-kira 258K imej dan meliputi kawasan bandar seluas 25 kilometer persegi.
Kemajuan terkini dalam sintesis perspektif baharu telah meningkatkan keupayaan kami untuk menangkap medan sinaran saraf (NeRF), menjadikan proses lebih mudah diakses. Kemajuan ini membolehkan kami membina semula adegan yang lebih besar dan butiran yang lebih halus di dalamnya. Sama ada dengan meningkatkan skala spatial (cth., menangkap kilometer landskap bandar) atau meningkatkan tahap perincian (cth., mengimbas bilah rumput di padang), meluaskan skop pemandangan yang ditangkap melibatkan memasukkan lebih banyak maklumat ke dalam NeRF untuk Mencapai pembinaan semula yang tepat. Oleh itu, untuk adegan yang kaya dengan maklumat, bilangan parameter boleh dilatih yang diperlukan untuk pembinaan semula mungkin melebihi kapasiti memori GPU tunggal.
Makalah ini mencadangkan NeRF-XL, algoritma berprinsip untuk pengedaran adegan jejari saraf (NeRF) yang cekap merentas berbilang GPU. Kaedah dalam artikel ini memungkinkan untuk menangkap adegan dengan kandungan maklumat tinggi (termasuk adegan dengan ciri berskala besar dan terperinci tinggi) dengan hanya meningkatkan sumber perkakasan. Teras NeRF-XL adalah untuk memperuntukkan parameter NeRF di antara satu set kawasan spatial yang terputus-putus dan melatihnya secara bersama merentas GPU. Tidak seperti proses latihan teragih tradisional yang menyegerakkan kecerunan dalam perambatan ke belakang, kaedah kami hanya perlu menyegerakkan maklumat dalam perambatan ke hadapan. Tambahan pula, dengan memberikan persamaan dan istilah kerugian yang berkaitan dengan teliti dalam tetapan teragih, kami mengurangkan pemindahan data yang diperlukan antara GPU dengan ketara. Penulisan semula novel ini meningkatkan kecekapan latihan dan penyajian. Fleksibiliti dan kebolehskalaan kaedah ini membolehkan artikel ini mengoptimumkan berbilang GPU dengan cekap dan menggunakan berbilang GPU untuk pengoptimuman prestasi yang cekap.
Kerja kami berbeza dengan pendekatan terkini yang telah menggunakan algoritma GPU untuk memodelkan adegan berskala besar dengan melatih satu set NeRF stereoskopik bebas [9, 15, 17]. Walaupun kaedah ini tidak memerlukan komunikasi antara GPU, setiap NeRF perlu memodelkan keseluruhan ruang, termasuk kawasan latar belakang. Ini mengakibatkan peningkatan lebihan dalam kapasiti model apabila bilangan GPU meningkat. Tambahan pula, kaedah ini memerlukan pengadunan NeRF semasa rendering, yang merendahkan kualiti visual dan memperkenalkan artifak di kawasan bertindih. Oleh itu, tidak seperti NeRF-XL, kaedah ini menggunakan lebih banyak parameter model dalam latihan (bersamaan dengan lebih banyak GPU) dan gagal mencapai peningkatan dalam kualiti visual.
Kertas kerja ini menunjukkan keberkesanan pendekatan kami melalui set kes tangkapan yang pelbagai, termasuk imbasan jalanan, jejambat dron dan video tertumpu objek. Kes tersebut terdiri daripada adegan kecil (10 meter persegi) ke seluruh bandar (25 kilometer persegi). Percubaan kami menunjukkan bahawa apabila kami memperuntukkan lebih banyak sumber pengkomputeran kepada proses pengoptimuman, NeRF-XL mula mencapai kualiti visual yang lebih baik (diukur oleh PSNR) dan kelajuan pemaparan. Oleh itu, NeRF-XL memungkinkan untuk melatih NeRF dengan kapasiti sewenang-wenangnya pada adegan dalam sebarang skala dan perincian spatial.
Rajah 1: Algoritma latihan teragih berbilang GPU berasaskan prinsip artikel ini boleh mengembangkan NeRF kepada sebarang skala besar.
Rajah 2: Latihan bebas dan latihan bersama multi-GPU. Melatih berbilang NeRF [9, 15, 18] secara bebas memerlukan setiap NeRF memodelkan kedua-dua kawasan fokus dan persekitaran sekelilingnya, yang membawa kepada redundansi dalam kapasiti model. Sebaliknya, kaedah latihan bersama kami menggunakan NeRF yang tidak bertindih dan oleh itu tidak mempunyai sebarang lebihan.
Rajah 3: Latihan bebas memerlukan gabungan apabila perspektif baharu disintesis. Sama ada pengadunan dilakukan dalam 2D [9, 15] atau 3D [18], kabur akan diperkenalkan dalam pemaparan.
Rajah 4: Latihan bebas membawa kepada pengoptimuman kamera yang berbeza. Dalam NeRF, pengoptimuman kamera boleh dicapai dengan mengubah kamera yang tidak tepat itu sendiri atau semua kamera lain serta pemandangan 3D yang mendasari. Oleh itu, melatih berbilang NeRF secara bebas bersama-sama dengan pengoptimuman kamera boleh menyebabkan ketidakkonsistenan dalam pembetulan kamera dan geometri pemandangan, yang membawa lebih banyak kesukaran kepada pemaparan hibrid.
Rajah 5: Artifak visual yang mungkin disebabkan oleh pengadunan 3D. Imej di sebelah kiri menunjukkan hasil MegaNeRF yang dilatih menggunakan 2 GPU. Pada pertindihan 0%, artifak muncul di sempadan kerana latihan bebas, manakala pada pertindihan 15%, artifak teruk muncul disebabkan pengadunan 3D. Imej di sebelah kanan menggambarkan punca artifak ini: manakala setiap NeRF yang dilatih secara bebas menghasilkan warna yang betul, NeRF yang dicampur tidak menjamin pemaparan warna yang betul.
Rajah 6: Proses latihan artikel ini. Kaedah kami bersama-sama melatih berbilang NeRF pada semua GPU, dengan setiap NeRF meliputi kawasan spatial yang tidak bersambung. Komunikasi antara GPU hanya berlaku dalam hantaran ke hadapan dan bukan dalam hantaran ke belakang (seperti yang ditunjukkan oleh anak panah kelabu). (a) Kertas kerja ini boleh dilaksanakan dengan menilai setiap NeRF untuk mendapatkan warna dan ketumpatan sampel, dan kemudian menyiarkan nilai ini kepada semua GPU lain untuk pemaparan volum global (lihat Bahagian 4.2). (b) Dengan menulis semula persamaan pemaparan volum, kertas ini boleh mengurangkan dengan ketara jumlah penghantaran data kepada satu nilai setiap sinar, sekali gus meningkatkan kecekapan (lihat Bahagian 4.3).
Rajah 7: Perbandingan kualitatif. Berbanding dengan kerja sebelumnya, kaedah kami secara berkesan memanfaatkan konfigurasi berbilang GPU dan meningkatkan prestasi pada semua jenis data.
Rajah 8: Perbandingan kuantitatif. Kerja sebelumnya berdasarkan latihan bebas gagal mencapai peningkatan prestasi dengan penambahan GPU tambahan, manakala kaedah kami menikmati peningkatan dalam kualiti dan kelajuan persembahan apabila sumber latihan meningkat.
Rajah 9: Kebolehskalaan kaedah dalam artikel ini. Lebih banyak GPU membenarkan lebih banyak parameter yang boleh dipelajari, yang menghasilkan kapasiti model yang lebih besar dan kualiti yang lebih baik.
Rajah 10: Lebih banyak hasil pemaparan pada tangkapan skala besar. Kertas kerja ini menguji keteguhan kaedah kami pada set data yang ditangkap lebih besar menggunakan lebih banyak GPU. Sila lihat halaman web artikel ini untuk lawatan video data ini.
Rajah 11: Perbandingan dengan PyTorch DDP pada dataset Universiti4. PyTorch Distributed Data Parallel (DDP) direka untuk mempercepatkan pemaparan dengan mengedarkan cahaya ke seluruh GPU. Sebaliknya, kaedah kami mengedarkan parameter merentas GPU, menembusi had memori GPU tunggal dalam kluster dan dapat mengembangkan kapasiti model untuk kualiti yang lebih baik.
Rajah 12: Kos penyegerakan pada Universiti4. Penyampaian volum berasaskan partition kami (lihat Bahagian 4.3) membenarkan komunikasi berasaskan jubin, yang jauh lebih murah daripada komunikasi berasaskan sampel asal (lihat Bahagian 4.2) dan oleh itu membolehkan pemaparan lebih pantas.
Ringkasnya, kertas kerja ini meninjau semula kaedah sedia ada untuk menguraikan pemandangan berskala besar ke dalam NeRF (Medan Sinaran Neural) yang dilatih secara bebas dan menemui halangan penting yang menghalang penggunaan berkesan sumber pengkomputeran tambahan (GPU). yang bercanggah dengan matlamat teras untuk memanfaatkan persediaan berbilang GPU untuk meningkatkan prestasi NeRF berskala besar. Oleh itu, kertas kerja ini memperkenalkan NeRF-XL, algoritma berprinsip yang mampu memanfaatkan persediaan berbilang GPU dengan cekap dan meningkatkan prestasi NeRF pada sebarang skala dengan melatih bersama berbilang NeRF tidak bertindih. Yang penting, kaedah kami tidak bergantung pada mana-mana peraturan heuristik dan mengikut undang-undang penskalaan NeRF dalam tetapan berbilang GPU dan boleh digunakan pada pelbagai jenis data.
@misc{li2024nerfxl,title={NeRF-XL: Scaling NeRFs with Multiple GPUs}, author={Ruilong Li and Sanja Fidler and Angjoo Kanazawa and Francis Williams},year={2024},eprint={2404.16221},archivePrefix={arXiv},primaryClass={cs.CV}}
Atas ialah kandungan terperinci Pembinaan semula terbesar dalam sejarah 25km²! NeRF-XL: Penggunaan latihan bersama berbilang kad yang sangat berkesan!. Untuk maklumat lanjut, sila ikut artikel berkaitan lain di laman web China PHP!