Rumah >Peranti teknologi >AI >CVPR 2024 |. Rangka kerja baharu CustomNeRF mengedit pemandangan 3D dengan hanya teks atau gesaan imej

CVPR 2024 |. Rangka kerja baharu CustomNeRF mengedit pemandangan 3D dengan hanya teks atau gesaan imej

WBOYke hadapan: 2024-04-15 10:13:19711semak imbas

Institut Penyelidikan Pengimejan Meitu (MT Lab), bersama-sama dengan Institut Kejuruteraan Maklumat Akademi Sains China, Universiti Aeronautik dan Astronautik Beijing, dan Universiti Sun Yat-sen, bersama-sama mencadangkan kaedah penyuntingan pemandangan 3D - CustomNeRF. Hasil penyelidikan telah diterima oleh CVPR 2024. CustomNeRF bukan sahaja menyokong penerangan teks dan gambar rujukan sebagai petua penyuntingan untuk pemandangan 3D, tetapi juga menjana pemandangan 3D berkualiti tinggi berdasarkan maklumat yang diberikan oleh pengguna.

Neural Radiance Field (NeRF) Sejak Neural Radiance Field (NeRF) dicadangkan pada tahun 2020, ia telah mendorong ekspresi tersirat ke tahap yang baharu. Sebagai salah satu teknologi yang paling canggih pada masa ini, NeRF telah digeneralisasikan dengan pantas dan digunakan dalam bidang seperti penglihatan komputer, grafik komputer, realiti tambahan dan realiti maya, dan terus mendapat perhatian meluas. NeRF mendayakan sintesis imej berkualiti tinggi dengan memodelkan sinaran dan ketumpatan setiap titik dalam pemandangan, yang menjadikannya menarik secara meluas untuk aplikasi dalam bidang seperti penglihatan komputer, grafik komputer, realiti tambahan dan realiti maya. NeRF adalah unik dalam keupayaannya untuk menjana imej berkualiti tinggi daripada pemandangan input tanpa memerlukan imbasan 3D yang kompleks atau imej perspektif yang padat. Ciri ini menjadikan NeRF mempunyai prospek aplikasi yang luas dalam banyak bidang, termasuk penglihatan komputer, grafik komputer, realiti tambahan dan realiti maya, dan terus mendapat perhatian meluas. NeRF membolehkan sintesis imej berkualiti tinggi dengan memodelkan sinaran dan ketumpatan setiap titik dalam pemandangan. NeRF juga boleh digunakan untuk menjana pemaparan 3D berkualiti tinggi, yang menjadikannya sangat menjanjikan untuk aplikasi dalam bidang seperti realiti maya dan realiti tambahan. Pembangunan pesat dan aplikasi meluas NeRF akan terus mendapat perhatian meluas, dan dijangka lebih banyak inovasi dan aplikasi berdasarkan NeRF akan muncul pada masa hadapan.

NeRF (Medan Sinaran Neural) ialah ciri untuk pengoptimuman dan perwakilan berterusan yang mempunyai banyak aplikasi dalam pembinaan semula pemandangan 3D. Ia juga telah memacu penyelidikan dalam bidang pengeditan pemandangan 3D, seperti lukisan semula tekstur dan penggayaan objek atau pemandangan 3D. Untuk meningkatkan lagi fleksibiliti pengeditan pemandangan 3D, kaedah pengeditan NeRF berdasarkan model pra-latihan juga sedang diterokai secara meluas baru-baru ini Disebabkan oleh perwakilan tersirat NeRF dan ciri geometri adegan 3D, hasil pengeditan yang mematuhi gesaan teks. boleh diperolehi Ini adalah Sesuatu yang sangat mudah untuk dilaksanakan.

Untuk membolehkan penyuntingan adegan 3D dipacu teks mencapai kawalan yang tepat, Institut Penyelidikan Pengimejan Meitu (MT Lab), Institut Kejuruteraan Maklumat Akademi Sains China, Universiti Beihang dan Universiti Sun Yat-sen bersama-sama mencadangkan kaedah yang menggabungkan penerangan teks dan rujukan Penyatuan Imej menyediakan rangka kerja CustomNeRF untuk penyuntingan. Rangka kerja ini mempunyai subjek khusus perspektif terbina dalam V∗, yang dibenamkan ke dalam perwakilan hibrid untuk memenuhi keperluan pengeditan pemandangan 3D umum dan tersuai. Hasil penyelidikan telah direkodkan dalam CVPR 2024 dan kod tersebut adalah sumber terbuka.

CVPR 2024 | 仅需文本或图像提示，新框架CustomNeRF精准编辑3D场景

Pautan kertas: https://arxiv.org/abs/2312.01663
Pautan kod: https://github.com/hrz2000/CustomNeRF

CVPR 2024 | 仅需文本或图像提示，新框架CustomNeRF精准编辑3D场景

^{. : The kesan penyuntingan CustomNeRF dalam dipacu teks (kiri) dan dipacu imej (kanan)}

Dua cabaran utama yang diselesaikan oleh CustomNeRF

Pada masa ini, kaedah arus perdana untuk penyuntingan pemandangan 3D berdasarkan model resapan yang telah dilatih terutamanya terbahagi kepada dua kategori.

Salah satunya ialah menggunakan model penyuntingan imej untuk mengemas kini imej secara berulang dalam set data Walau bagaimanapun, disebabkan keupayaan model penyuntingan imej yang terhad, ia akan gagal dalam beberapa situasi penyuntingan. Kedua, kehilangan pensampelan penyulingan pecahan (SDS) digunakan untuk mengedit adegan Walau bagaimanapun, disebabkan masalah penjajaran antara teks dan adegan, kaedah ini tidak boleh disesuaikan secara langsung dalam adegan sebenar dan akan menyebabkan herotan yang tidak perlu dalam adegan yang tidak. kawasan penyuntingan. Pengubahsuaian selalunya memerlukan ungkapan perantaraan yang jelas seperti mesh atau voxel.

Selain itu, dua jenis kaedah semasa memfokuskan pada tugasan pengeditan pemandangan 3D dipacu teks selalunya sukar untuk menyatakan keperluan pengeditan pengguna dengan tepat dan tidak boleh menyesuaikan konsep tertentu dalam imej ke dalam pemandangan 3D Pemandangan 3D asal biasanya disunting, jadi sukar untuk mendapatkan hasil pengeditan yang diharapkan oleh pengguna.

Malah, kunci untuk mendapatkan hasil pengeditan yang diingini adalah dengan mengenal pasti dengan tepat kawasan latar depan imej, yang boleh mempromosikan pengeditan latar depan imej yang konsisten secara geometri sambil mengekalkan latar belakang imej.

Oleh itu, untuk mencapai pengeditan tepat hanya kawasan latar depan imej, kertas kerja mencadangkan skim latihan penyuntingan lelaran tempatan-global (LGIE) yang berselang-seli antara penyuntingan kawasan latar depan dan penyuntingan imej penuh. Penyelesaian ini boleh mengesan kawasan latar depan imej dengan tepat dan hanya beroperasi pada latar depan imej sambil mengekalkan latar belakang imej.

Selain itu, dalam pengeditan pemandangan 3D dipacu imej, terdapat masalah ketidakkonsistenan geometri dalam hasil pengeditan yang disebabkan oleh model resapan yang diperhalusi yang terlalu sesuai dengan perspektif imej rujukan. Dalam hal ini, makalah itu mereka bentuk penyelarasan berpandukan kelas, menggunakan hanya perkataan kelas untuk mewakili subjek imej rujukan dalam peringkat penyuntingan tempatan, dan memanfaatkan kelas umum sebelum ini dalam model resapan terlatih untuk mempromosikan penyuntingan yang konsisten dari segi geometri.

Proses keseluruhan CustomNeRF

Seperti yang ditunjukkan dalam Rajah 2, CustomNeRF menggunakan 3 langkah untuk mencapai matlamat mengedit dan membina semula adegan 3D dengan tepat di bawah bimbingan gesaan teks atau imej rujukan.

CVPR 2024 | 仅需文本或图像提示，新框架CustomNeRF精准编辑3D场景

^{Rajah 2 Carta aliran keseluruhan CustomNerf}

Pertama, apabila membina semula adegan 3D asal, CustomNerf memperkenalkan medan topeng tambahan untuk menganggarkan kebarangkalian edit melebihi ketumpatan. Seperti yang ditunjukkan dalam Rajah 2(a), untuk set imej yang perlu membina semula pemandangan 3D, kertas pertama menggunakan SAM Beralur untuk mengekstrak topeng kawasan penyuntingan imej daripada perihalan bahasa semula jadi dan menggabungkan set imej asal kepada melatih NeRF yang sedar latar depan. Selepas pembinaan semula NeRF, kebarangkalian pengeditan digunakan untuk membezakan kawasan imej yang akan diedit (iaitu, kawasan latar depan imej) daripada kawasan imej yang tidak berkaitan (iaitu, kawasan latar belakang imej) untuk memudahkan pemaparan dipisahkan semasa latihan penyuntingan imej.

Kedua, untuk menyatukan tugas pengeditan pemandangan 3D dipacu imej dan dipacu teks, seperti yang ditunjukkan dalam Rajah 2(b), kertas kerja menggunakan kaedah Resapan Tersuai untuk memperhalusi imej rujukan di bawah keadaan dipacu imej untuk belajar Ciri Utama khusus subjek. Selepas latihan, perkataan khas V* boleh digunakan sebagai tag perkataan biasa untuk menyatakan konsep subjek dalam imej rujukan, sekali gus membentuk kiu hibrid, seperti "foto anjing V*". Dengan cara ini, CustomNeRF membolehkan pengeditan yang konsisten dan cekap bagi jenis data adaptif, termasuk imej atau teks.

Dalam peringkat penyuntingan akhir, disebabkan oleh ekspresi tersirat NeRF, mengoptimumkan keseluruhan kawasan 3D menggunakan kehilangan SDS akan membawa kepada perubahan ketara dalam kawasan latar belakang, yang sepatutnya konsisten dengan pemandangan asal selepas penyuntingan. Seperti yang ditunjukkan dalam Rajah 2(c), kertas itu mencadangkan skema penyuntingan lelaran tempatan-global (LGIE) untuk latihan SDS yang dipisahkan, membolehkannya mengekalkan kandungan latar belakang semasa mengedit kawasan susun atur.

Secara khusus, kertas kerja ini membahagikan proses latihan penyuntingan NeRF kepada cara yang lebih terperinci. Dengan NeRF yang sedar latar depan, CustomNeRF boleh mengawal proses pemaparan NeRF secara fleksibel semasa latihan, iaitu, di bawah perspektif kamera tetap, ia boleh memilih untuk memaparkan latar depan, latar belakang dan imej biasa yang mengandungi latar depan dan latar belakang. Semasa proses latihan, adegan NeRF semasa boleh diedit pada tahap yang berbeza menggunakan kehilangan SDS dengan secara berulang-ulang memaparkan latar depan dan latar belakang, digabungkan dengan latar depan atau latar belakang yang sepadan. Antaranya, latihan latar depan tempatan membolehkan anda memberi tumpuan hanya pada kawasan yang perlu diedit semasa proses penyuntingan, memudahkan kesukaran tugasan menyunting dalam adegan yang kompleks manakala latihan global mengambil kira keseluruhan adegan dan boleh mengekalkan penyelarasan latar depan dan latar belakang. Untuk terus mengekalkan kawasan yang tidak disunting tidak berubah, makalah itu juga menggunakan latar belakang yang baru diberikan semasa proses latihan penyeliaan latar belakang sebelum latihan menyunting untuk mengekalkan ketekalan piksel latar belakang.

Selain itu, terdapat ketidakkonsistenan geometri yang memburukkan lagi dalam penyuntingan pemandangan 3D dipacu imej. Oleh kerana model resapan yang telah diperhalusi dengan imej rujukan cenderung untuk menghasilkan imej dengan perspektif yang serupa dengan imej rujukan semasa proses inferens, menyebabkan pelbagai perspektif pemandangan 3D yang diedit menjadi masalah geometri pandangan hadapan. Untuk tujuan ini, kertas kerja mereka bentuk strategi penyusunan berpandukan kelas, menggunakan deskriptor khas V* dalam isyarat global dan hanya kata kelas dalam isyarat tempatan untuk memanfaatkan keutamaan kelas yang disertakan dalam model resapan terlatih, menggunakan lebih banyak konsep baharu Inject ke tempat kejadian dengan cara yang konsisten secara geometri.

Hasil eksperimen

Rajah 3 dan Rajah 4 menunjukkan perbandingan hasil pembinaan semula pemandangan 3D CustomNeRF dan kaedah garis dasar Dalam kedua-dua tugas penyuntingan pemandangan 3D yang dipacu imej rujukan dan, CustomNeRF telah mencapai hasil pengeditan yang baik, bukan. hanya Penjajaran yang baik dengan petua penyuntingan dicapai dan kawasan latar belakang kekal konsisten dengan pemandangan asal. Selain itu, Jadual 1 dan Jadual 2 menunjukkan perbandingan kuantitatif CustomNeRF dengan kaedah garis dasar apabila didorong oleh imej dan teks Keputusan menunjukkan bahawa CustomNeRF mengatasi kaedah garis dasar dalam metrik penjajaran teks, metrik penjajaran imej dan penilaian manusia.

CVPR 2024 | 仅需文本或图像提示，新框架CustomNeRF精准编辑3D场景

^{Perbandingan kuantitatif dengan garis dasar di bawah pengeditan yang didorong oleh imej}

^{Perbandingan kuantitatif dengan garis dasar di bawah penyuntingan}

Summary

ini kertas inovatif mencadangkan model customnerf, sambil menyokong pengeditan gesaan untuk perihalan teks atau imej rujukan, dan menyelesaikan dua cabaran utama - tepat sahaja Pengeditan latar depan dan ketekalan merentas berbilang paparan apabila menggunakan imej rujukan satu paparan. Skim ini termasuk skim latihan penyuntingan lelaran tempatan (LGIE), yang membolehkan operasi penyuntingan menumpukan pada latar depan sambil mengekalkan latar belakang tidak berubah dan penyelarasan berpandukan kelas, yang mengurangkan ketidakkonsistenan paparan dalam pengeditan dipacu imej, dan telah disahkan; melalui eksperimen yang meluas CustomNeRF membolehkan pengeditan tepat bagi adegan 3D yang didorong oleh penerangan teks dan imej rujukan dalam pelbagai senario dunia sebenar.

Atas ialah kandungan terperinci CVPR 2024 |. Rangka kerja baharu CustomNeRF mengedit pemandangan 3D dengan hanya teks atau gesaan imej. Untuk maklumat lanjut, sila ikut artikel berkaitan lain di laman web China PHP!

github https

Kenyataan：

Artikel ini dikembalikan pada:jiqizhixin.com. Jika ada pelanggaran, sila hubungi admin@php.cn Padam

Artikel sebelumnya：Cabaran RNN yang diubah suai secara ajaib Transformer, RWKV adalah baharu: melancarkan dua model seni bina baharuArtikel seterusnya：Cabaran RNN yang diubah suai secara ajaib Transformer, RWKV adalah baharu: melancarkan dua model seni bina baharu

Artikel berkaitan

Lihat lagi