Rumah >Peranti teknologi >AI >LidaRF: Mengkaji Data LiDAR untuk Medan Sinaran Neural Paparan Jalan (CVPR\'24)
Simulasi realistik ringan memainkan peranan penting dalam aplikasi seperti pemanduan autonomi, di mana kemajuan dalam medan sinaran rangkaian saraf (NeRF) mungkin membolehkan kebolehskalaan yang lebih baik dengan mencipta aset 3D digital secara automatik. Walau bagaimanapun, kualiti pembinaan semula pemandangan jalanan terjejas disebabkan oleh keselarasan gerakan kamera yang tinggi di jalanan dan persampelan yang jarang pada kelajuan tinggi. Sebaliknya, aplikasi sering memerlukan pemaparan daripada perspektif kamera yang menyimpang daripada perspektif input untuk mensimulasikan gelagat seperti perubahan lorong dengan tepat. LidaRF membentangkan beberapa cerapan yang membenarkan penggunaan data lidar yang lebih baik untuk meningkatkan kualiti NeRF dalam paparan jalan. Pertama, rangka kerja mempelajari perwakilan pemandangan geometri daripada data LiDAR, yang digabungkan dengan penyahkod berasaskan mesh tersirat untuk memberikan maklumat geometri yang lebih kukuh yang disediakan oleh awan titik yang dipaparkan. Kedua, strategi latihan yang diselia kedalaman sedar oklusi yang mantap dicadangkan, membolehkan untuk meningkatkan kualiti pembinaan semula NeRF dalam pemandangan jalanan dengan mengumpul maklumat kukuh menggunakan awan titik LiDAR yang padat. Ketiga, pandangan latihan yang dipertingkatkan dijana berdasarkan keamatan mata lidar untuk menambah baik lagi peningkatan ketara yang diperoleh dalam sintesis pandangan baharu di bawah senario pemanduan sebenar. Dengan cara ini, dengan perwakilan pemandangan geometri yang lebih tepat yang dipelajari oleh rangka kerja daripada data lidar, kaedah ini boleh dipertingkatkan dalam satu langkah dan memperoleh peningkatan ketara yang lebih baik dalam senario pemanduan sebenar.
Sumbangan LidaRF terutamanya dicerminkan dalam tiga aspek:
(i) Mencampurkan pengekodan lidar dan ciri grid untuk meningkatkan perwakilan pemandangan. Walaupun lidar telah digunakan sebagai sumber pemantauan kedalaman semula jadi, menggabungkan lidar ke dalam input NeRF menawarkan potensi besar untuk aruhan geometri, tetapi tidak mudah untuk dilaksanakan. Untuk tujuan ini, perwakilan berasaskan grid dipinjam, tetapi ciri yang dipelajari daripada awan titik digabungkan ke dalam grid untuk mewarisi kelebihan perwakilan awan titik eksplisit. Melalui kejayaan pelancaran rangka kerja persepsi 3D, rangkaian konvolusi 3D jarang digunakan sebagai struktur yang berkesan dan cekap untuk mengekstrak ciri geometri daripada konteks tempatan dan global awan titik lidar.
(ii) Pengawasan kedalaman sedar oklusi yang teguh. Sama seperti kerja sedia ada, lidar juga digunakan di sini sebagai sumber pengawasan yang mendalam, tetapi lebih mendalam. Memandangkan jarang mata lidar mengehadkan keberkesanannya, terutamanya di kawasan bertekstur rendah, peta kedalaman yang lebih padat dijana dengan mengagregatkan titik lidar merentasi bingkai jiran. Walau bagaimanapun, peta kedalaman yang diperolehi tidak mengambil kira oklusi, mengakibatkan penyeliaan kedalaman yang salah. Oleh itu, skim penyeliaan mendalam yang teguh dicadangkan, meminjam kaedah pembelajaran kelas - menyelia kedalaman secara beransur-ansur dari medan dekat ke medan jauh, dan secara beransur-ansur menapis kedalaman yang salah semasa proses latihan NeRF, supaya dapat mengekstrak dengan lebih berkesan. kedalaman daripada lidar.
(iii) Peningkatan paparan berasaskan LiDAR. Tambahan pula, memandangkan kesederhanaan pandangan dan liputan terhad dalam senario pemanduan, lidar digunakan untuk mengetatkan pandangan latihan. Iaitu, mata lidar terkumpul diunjurkan ke dalam pandangan latihan baharu ambil perhatian bahawa pandangan ini mungkin agak menyimpang daripada trajektori pemanduan. Pandangan yang diunjurkan daripada lidar ini ditambahkan pada set data latihan dan ia tidak mengambil kira isu oklusi. Walau bagaimanapun, kami menggunakan skim penyeliaan yang dinyatakan sebelum ini untuk menyelesaikan masalah oklusi, sekali gus meningkatkan prestasi. Walaupun kaedah kami juga boleh digunakan untuk adegan umum, dalam kerja ini kami lebih menumpukan pada penilaian pemandangan jalanan dan mencapai peningkatan yang ketara berbanding teknik sedia ada, secara kuantitatif dan kualitatif.
LidaRF juga telah menunjukkan kelebihan dalam aplikasi menarik yang memerlukan sisihan yang lebih besar daripada paparan input, meningkatkan kualiti NeRF dengan ketara dalam aplikasi pemandangan jalanan yang mencabar.
LidaRF ialah kaedah untuk memasukkan dan mengeluarkan ketumpatan dan warna yang sepadan. Ia menggunakan UNet untuk menggabungkan pengekodan Huff dan pengekodan lidar. Tambahan pula, data latihan yang dipertingkatkan dijana melalui unjuran lidar untuk melatih ramalan geometri menggunakan cadangan skim pengawasan mendalam yang mantap.
Awan titik lidar mempunyai potensi bimbingan geometri yang kuat, yang sangat berharga untuk NeRF (Neural Rendering Field). Walau bagaimanapun, bergantung semata-mata pada ciri lidar untuk perwakilan pemandangan menghasilkan pemaparan resolusi rendah disebabkan sifat titik lidar yang jarang (walaupun terkumpul sementara). Selain itu, kerana lidar mempunyai medan pandangan yang terhad, contohnya ia tidak dapat menangkap permukaan bangunan di atas ketinggian tertentu, pemaparan kosong berlaku di kawasan ini. Sebaliknya, rangka kerja kami menggabungkan ciri lidar dan ciri grid spatial resolusi tinggi untuk mengeksploitasi kelebihan kedua-duanya dan belajar bersama untuk mencapai pemaparan pemandangan yang berkualiti tinggi dan lengkap.
Pengekstrakan ciri Lidar. Proses pengekstrakan ciri geometri untuk setiap titik lidar diterangkan secara terperinci di sini Merujuk kepada Rajah 2, awan titik lidar semua bingkai keseluruhan jujukan diagregatkan untuk membina koleksi awan titik yang lebih padat. Awan titik kemudian disuarakan ke dalam grid voxel, di mana kedudukan spatial titik dalam setiap unit voxel dipuratakan untuk menjana ciri 3D bagi setiap unit voxel. Diilhamkan oleh kejayaan meluas rangka kerja persepsi 3D, ciri geometri pemandangan dikodkan menggunakan UNet jarang 3D pada grid voxel, yang membolehkan pembelajaran daripada konteks global geometri pemandangan. UNet jarang 3D mengambil grid voxel dan ciri 3 dimensinya sebagai input dan mengeluarkan ciri volumetrik saraf Setiap voxel yang diduduki terdiri daripada ciri n-dimensi.
Pertanyaan ciri Lidar. Untuk setiap titik sampel x di sepanjang sinar yang akan diberikan, jika terdapat sekurang-kurangnya K titik lidar berdekatan dalam jejari carian R, ciri lidarnya disoal sebaliknya, ciri lidarnya ditetapkan kepada nol (iaitu semua sifar). Secara khusus, kaedah Jiran Terdekat Jejari Tetap (FRNN) digunakan untuk mencari set indeks titik lidar K terdekat yang berkaitan dengan x, dilambangkan sebagai . Berbeza daripada kaedah dalam [9] yang menentukan titik pensampelan sinar sebelum memulakan proses latihan, kaedah kami adalah masa nyata apabila melakukan carian FRNN, kerana apabila latihan NeRF bertumpu, pengedaran titik sampel daripada rangkaian rantau akan cenderung secara dinamik. untuk Fokus pada permukaan. Mengikuti pendekatan Point-NeRF, kaedah kami menggunakan multilayer perceptron (MLP) F untuk memetakan ciri lidar setiap titik ke dalam penerangan adegan saraf. Untuk titik jiran ke-i bagi kaedah pemberat jarak Songsang untuk mengagregatkan perihalan pemandangan saraf bagi titik jiran Knya
Penyatuan ciri untuk penyahkodan sinaran. Kod lidar ϕL digabungkan dengan kod cincang ϕh, dan perceptron Fα berbilang lapisan digunakan untuk meramalkan ketumpatan α dan pembenaman ketumpatan h setiap sampel. Akhir sekali, melalui satu lagi perceptron Fc berbilang lapisan, warna c yang sepadan diramalkan berdasarkan pengekodan harmonik sfera SH dan pembenaman ketumpatan h dalam arah tontonan d.
2) Pengawasan kedalaman yang mantapSelain pengekodan ciri, pengawasan kedalaman diperoleh daripada titik lidar dengan menayangkannya pada satah imej. Walau bagaimanapun, disebabkan oleh kekurangan mata lidar, faedah yang terhasil adalah terhad dan tidak mencukupi untuk membina semula kawasan bertekstur rendah seperti turapan. Di sini, kami mencadangkan untuk mengumpul bingkai lidar bersebelahan untuk meningkatkan ketumpatan. Walaupun titik 3D dapat menangkap struktur pemandangan dengan tepat, oklusi antara titik perlu dipertimbangkan semasa menayangkannya ke satah imej untuk pengawasan kedalaman. Oklusi terhasil daripada peningkatan anjakan antara kamera dan lidar serta bingkai bersebelahannya, mengakibatkan penyeliaan kedalaman palsu, seperti yang ditunjukkan dalam Rajah 3. Disebabkan sifat lidar yang jarang walaupun selepas terkumpul, menangani masalah ini adalah sangat sukar, menjadikan teknik grafik asas seperti z-buffering tidak boleh digunakan. Dalam kerja ini, skim penyeliaan yang teguh dicadangkan untuk menapis penyeliaan mendalam palsu secara automatik semasa melatih NeRF.
Ingat bahawa disebabkan oleh gerakan ke hadapan kamera on-board, imej latihan yang dihasilkannya adalah jarang dan mempunyai liputan bidang pandangan yang terhad, yang menimbulkan cabaran kepada pembinaan semula NeRF, terutamanya apabila pandangan baharu menyimpang daripada trajektori kenderaan. Di sini, kami mencadangkan untuk memanfaatkan LiDAR untuk menambah data latihan. Mula-mula, kami mewarnai setiap awan titik bingkai lidar dengan menayangkannya pada kamera yang disegerakkan dan menginterpolasi nilai RGB. Awan titik berwarna terkumpul dan diunjurkan pada satu set pandangan yang dipertingkatkan secara sintetik, menghasilkan imej sintetik dan peta kedalaman yang ditunjukkan dalam Rajah 2.
Analisis perbandingan eksperimen
Atas ialah kandungan terperinci LidaRF: Mengkaji Data LiDAR untuk Medan Sinaran Neural Paparan Jalan (CVPR\'24). Untuk maklumat lanjut, sila ikut artikel berkaitan lain di laman web China PHP!