Rumah >Peranti teknologi >AI >CVPR 2024 |. Model penyebaran Lidar untuk penjanaan pemandangan fotorealistik

CVPR 2024 |. Model penyebaran Lidar untuk penjanaan pemandangan fotorealistik

PHPzke hadapan: 2024-04-24 16:28:01980semak imbas

Tajuk asal: Ke Arah Penjanaan Adegan Realistik dengan Model Resapan LiDAR

Pautan kertas: https://hancyran.github.io/assets/paper/lidar_diffusion.pdf

Pautan kod: https://lidar-diffusion.github. io

Gabungan pengarang: CMU Toyota Research Institute University of Southern California

CVPR 2024 | 面向真实感场景生成的激光雷达扩散模型

Idea tesis:

Model resapan (DM) cemerlang dalam sintesis imej fotorealistik, tetapi menyesuaikannya dengan cabaran utama kewujudan lidar menghadapi generasi. Ini terutamanya kerana DM yang beroperasi dalam ruang titik mengalami kesukaran mengekalkan gaya lengkung dan ciri tiga dimensi adegan lidar, yang menggunakan kebanyakan keupayaan perwakilannya. Makalah ini mencadangkan Model Penyebaran LiDAR (LiDM), yang mensimulasikan senario LiDAR dunia sebenar dengan memasukkan pemampatan geometri ke dalam proses pembelajaran. Makalah ini memperkenalkan pemampatan lengkung untuk mensimulasikan corak lidar dunia sebenar dan pengekodan tampalan untuk mendapatkan konteks objek 3D yang lengkap. Dengan tiga reka bentuk teras ini, kertas kerja ini mewujudkan SOTA baharu dalam senario penjanaan lidar tanpa syarat sambil mengekalkan kecekapan tinggi (sehingga 107 kali lebih pantas) berbanding DM berasaskan titik. Tambahan pula, dengan memampatkan adegan lidar ke dalam ruang terpendam, kertas ini membolehkan DM mengawal dalam pelbagai keadaan, seperti peta semantik, paparan kamera dan gesaan teks.

Sumbangan utama:

Kertas kerja ini mencadangkan model Laser Dart Diffusion Model (LiDM), model generatif yang mampu menghasilkan adegan lidar yang realistik berdasarkan keadaan input sewenang-wenangnya. Untuk pengetahuan terbaik kami, ini adalah kaedah pertama yang mampu menjana adegan lidar daripada keadaan pelbagai mod.

Artikel ini memperkenalkan pemampatan peringkat lengkung untuk mengekalkan corak laser yang realistik, penyeliaan koordinat peringkat titik untuk menyeragamkan model geometri peringkat pemandangan dan pengekodan peringkat blok untuk menangkap konteks objek 3D sepenuhnya.

Artikel ini memperkenalkan tiga penunjuk untuk menilai secara menyeluruh dan kuantitatif kualiti pemandangan laser yang dijana dalam ruang persepsi, membandingkan pelbagai perwakilan termasuk imej julat, volum jarang dan awan titik.

Kaedah dalam artikel ini mencapai tahap terkini dalam sintesis adegan tanpa syarat menggunakan adegan lidar 64 baris, dan mencapai peningkatan kelajuan sehingga 107 kali ganda berbanding model resapan berasaskan titik.

Reka Bentuk Web:

Tahun-tahun kebelakangan ini telah menyaksikan perkembangan pesat model generatif bersyarat yang mampu menghasilkan imej yang menarik secara visual dan sangat realistik. Di antara model ini, model penyebaran (DM) telah menjadi salah satu kaedah yang paling popular kerana prestasinya yang sempurna. Untuk mencapai penjanaan dalam keadaan sewenang-wenangnya, model resapan terpendam (LDM) [51] menggabungkan mekanisme perhatian silang dan pengekod auto konvolusi untuk menjana imej resolusi tinggi. Sambungan berikutnya (cth., Stable Diffusion [2], Midjourney [1], ControlNet [72]) meningkatkan lagi potensinya untuk sintesis imej bersyarat.

Kejayaan ini mencetuskan pemikiran artikel ini: Bolehkah kita menggunakan model resapan boleh dikawal (DM) pada penjanaan pemandangan lidar dalam pemanduan dan robotik autonomi? Contohnya, memandangkan satu set kotak pembatas, bolehkah model ini mensintesis adegan lidar yang sepadan, dengan itu menukar kotak pembatas ini kepada data anotasi yang berkualiti tinggi dan mahal? Sebagai alternatif, adakah mungkin untuk menjana pemandangan 3D daripada hanya satu set imej? Lebih bercita-cita tinggi, bolehkah kita mereka bentuk penjana lidar dipacu bahasa untuk simulasi terkawal? Untuk menjawab soalan yang saling berkaitan ini, matlamat kertas ini adalah untuk mereka bentuk model resapan yang boleh menggabungkan berbilang keadaan (cth., reka letak, paparan kamera, teks) untuk menjana adegan lidar yang realistik.

Untuk tujuan ini, kertas kerja ini memperoleh beberapa cerapan daripada kerja terbaru mengenai model resapan (DM) dalam bidang pemanduan autonomi. Dalam [75], model resapan berasaskan titik (iaitu, LiDARGen) diperkenalkan untuk penjanaan pemandangan lidar tanpa syarat. Walau bagaimanapun, model ini sering menghasilkan latar belakang yang bising (cth. jalan raya, dinding) dan objek kabur (cth. kereta), menghasilkan adegan lidar yang dijana jauh dari realiti (lihat Rajah 1). Selain itu, penyebaran titik tanpa sebarang pemampatan menjadikan proses inferens secara pengiraan lebih perlahan. Selain itu, secara langsung menggunakan model resapan berasaskan tampalan (iaitu, Resapan Terpendam [51]) kepada penjanaan pemandangan lidar gagal mencapai prestasi yang memuaskan, secara kualitatif dan kuantitatif (lihat Rajah 1).

Untuk mencapai penjanaan adegan lidar realistik bersyarat, kertas kerja ini mencadangkan penjana berasaskan lengkung yang dipanggil model penyebaran lidar (LiDM) untuk menjawab soalan di atas dan menangani kelemahan dalam kerja baru-baru ini. LiDM dapat mengendalikan keadaan sewenang-wenangnya seperti kotak sempadan, imej kamera dan peta semantik. LiDM menggunakan imej julat sebagai perwakilan pemandangan LiDAR, yang sangat biasa dalam pelbagai tugas hiliran seperti pengesanan [34, 43], segmentasi semantik [44, 66] dan penjanaan [75]. Pilihan ini adalah berdasarkan penukaran boleh balik dan tanpa kehilangan antara imej julat dan awan titik, serta kelebihan ketara yang diperoleh daripada operasi konvolusi 2D yang sangat dioptimumkan. Untuk memahami intipati semantik dan konseptual adegan lidar semasa proses resapan, kaedah kami menukar titik pengekodan adegan lidar kepada ruang pendam yang setara dengan persepsi sebelum proses resapan.

Untuk meningkatkan lagi simulasi realistik data lidar dunia sebenar, artikel ini memfokuskan pada tiga komponen utama: ketulenan corak, ketulenan geometri dan ketulenan objek. Pertama, kertas ini menggunakan pemampatan lengkung untuk mengekalkan corak lengkung titik semasa pengekodan automatik, yang diilhamkan oleh [59]. Kedua, untuk mencapai keaslian geometri, kertas kerja ini memperkenalkan penyeliaan koordinat peringkat titik untuk mengajar pengekod auto kami memahami struktur geometri peringkat pemandangan. Akhir sekali, kami mengembangkan medan penerimaan dengan menambahkan strategi pensampelan rendah peringkat blok tambahan untuk menangkap konteks lengkap objek yang lebih besar secara visual. Dipertingkatkan oleh modul yang dicadangkan ini, ruang persepsi yang terhasil membolehkan model resapan mensintesis adegan lidar berkualiti tinggi dengan cekap (lihat Rajah 1), sambil juga menunjukkan prestasi yang baik dari segi kelajuan berbanding model resapan berasaskan titik 107x (dinilai pada NVIDIA RTX 3090) dan menyokong sebarang jenis keadaan berasaskan imej dan berasaskan token.

CVPR 2024 | 面向真实感场景生成的激光雷达扩散模型

Rajah 1. Kaedah kami (LiDM) mewujudkan SOTA baharu dalam penjanaan pemandangan realistik LiDAR tanpa syarat dan menandakan peristiwa penting ke arah menjana adegan LiDAR bersyarat daripada modaliti input yang berbeza.

CVPR 2024 | 面向真实感场景生成的激光雷达扩散模型

Rajah 2. Gambaran keseluruhan LiDM pada data 64 baris, termasuk tiga bahagian: pemampatan LiDAR (lihat Bahagian 3.3 dan 3.5), syarat multimodal (lihat Bahagian 3.4) dan penyebaran LiDAR (Lihat Bahagian 3.5).

Hasil eksperimen:

CVPR 2024 | 面向真实感场景生成的激光雷达扩散模型

Rajah 3. Contoh LiDM daripada LiDARGen [75], Latent Diffusion [51] dan kertas ini dalam senario 64 baris.

CVPR 2024 | 面向真实感场景生成的激光雷达扩散模型

Rajah 4. Contoh LiDM daripada artikel ini dalam senario 32 baris.

CVPR 2024 | 面向真实感场景生成的激光雷达扩散模型

Rajah 5. Contoh LiDM artikel ini untuk penjanaan peta-ke-lidar semantik pada set data SemanticKITTI [5].

CVPR 2024 | 面向真实感场景生成的激光雷达扩散模型

Rajah 6. Contoh LiDM untuk penjanaan kamera-ke-lidar bersyarat pada set data KITTI-360 [37]. Kotak oren menunjukkan kawasan yang diliputi oleh imej input. Untuk setiap adegan, KITTI-360 menyediakan perspektif yang merangkumi hanya sebahagian daripada adegan. Oleh itu, LiDM melakukan penjanaan bersyarat pada kawasan yang diliputi oleh kamera dan penjanaan tanpa syarat pada kawasan yang tidak diperhatikan.

CVPR 2024 | 面向真实感场景生成的激光雷达扩散模型

Rajah 7. Contoh LiDM untuk penjanaan teks-ke-lidar tangkapan sifar dalam senario 64 baris. Kawasan yang dibingkai oleh garis putus-putus oren mewakili kawasan yang terjejas oleh keadaan dan kotak hijau menyerlahkan objek yang mungkin dikaitkan dengan perkataan kiu.

CVPR 2024 | 面向真实感场景生成的激光雷达扩散模型

Rajah 8. Faktor penskalaan keseluruhan ( ) berbanding kualiti pensampelan (FRID dan FSVD). Makalah ini membandingkan pengekodan peringkat lengkung (Curve), pengekodan peringkat blok (Patch) dan lengkung dengan satu (C+1P) atau dua (C+2P) peringkat pengekodan peringkat blok pada skala berbeza pada KITTI-360 [ 37] pengekodan tahap.

CVPR 2024 | 面向真实感场景生成的激光雷达扩散模型

Rajah 9. Contoh LiDM dengan dan tanpa pengawasan peringkat titik, seperti yang dicadangkan dalam Bahagian 3.3.

CVPR 2024 | 面向真实感场景生成的激光雷达扩散模型

Ringkasan:

Kertas kerja ini mencadangkan LiDAR Diffusion Models (LiDMs), rangka kerja syarat umum untuk penjanaan pemandangan LiDAR. Reka bentuk artikel ini memfokuskan pada mengekalkan corak melengkung dan struktur geometri tahap pemandangan dan tahap objek, dan mereka bentuk ruang terpendam yang cekap untuk model resapan untuk mencapai penjanaan lidar yang realistik. Reka bentuk ini membolehkan LiDM dalam kertas kerja ini mencapai prestasi kompetitif dalam penjanaan tanpa syarat dalam senario 64 baris, dan mencapai tahap terkini dalam penjanaan bersyarat boleh dikawal menggunakan pelbagai keadaan, termasuk peta semantik , Paparan kamera dan gesaan teks. Untuk pengetahuan terbaik kami, kaedah kami adalah yang pertama berjaya memperkenalkan keadaan ke dalam penjanaan lidar.

Petikan:

@inproceedings{ran2024towards,
title={Towards Realistic Scene Generation with LiDAR Diffusion Models},
author={Ran, Haoxi and Guizilini, Vitors Persidangan IEEE/CVF tentang Penglihatan Komputer dan Pengecaman Corak},
year={2024}
}

Atas ialah kandungan terperinci CVPR 2024 |. Model penyebaran Lidar untuk penjanaan pemandangan fotorealistik. Untuk maklumat lanjut, sila ikut artikel berkaitan lain di laman web China PHP!

Token github stable diffusion https midjourney

Kenyataan：

Artikel ini dikembalikan pada:51cto.com. Jika ada pelanggaran, sila hubungi admin@php.cn Padam

Artikel sebelumnya：Ledakan pelaburan GenAI memacu perbelanjaan IT, tetapi pulangan masih menjadi persoalanArtikel seterusnya：Ledakan pelaburan GenAI memacu perbelanjaan IT, tetapi pulangan masih menjadi persoalan

Artikel berkaitan

Lihat lagi