Rumah >Peranti teknologi >AI >Tsinghua yang terbaru! RoadBEV: Bagaimana untuk mencapai pembinaan semula permukaan jalan di bawah BEV?

Tsinghua yang terbaru! RoadBEV: Bagaimana untuk mencapai pembinaan semula permukaan jalan di bawah BEV?

WBOY
WBOYke hadapan
2024-04-16 19:55:24627semak imbas

Tajuk asal: RoadBEV: Pembinaan Semula Permukaan Jalan dalam Pandangan Mata Burung

Pautan kertas: https://arxiv.org/pdf/2404.06605.pdf

Pautan kod: https://github.com/ztsrxh/RoadBEV

Gabungan pengarang: Universiti Tsinghua, Universiti California, Berkeley

Tsinghua yang terbaru! RoadBEV: Bagaimana untuk mencapai pembinaan semula permukaan jalan di bawah BEV?

Idea tesis:

Keadaan permukaan jalan, terutamanya kontur geometri, sangat mempengaruhi keupayaan pemanduan kenderaan autonomi. Pembinaan semula jalan dalam talian berasaskan wawasan dijangka dapat menangkap maklumat jalan raya terlebih dahulu. Penyelesaian sedia ada seperti anggaran kedalaman monokular dan anggaran penglihatan stereo mempunyai hadnya. Teknologi persepsi pandangan mata burung (BEV) terkini memberikan motivasi yang luar biasa untuk pembinaan semula yang lebih dipercayai dan tepat. Kertas kerja ini secara seragam mencadangkan dua model pembinaan semula ketinggian jalan BEV yang berkesan, masing-masing dinamakan RoadBEV-mono dan RoadBEV-stereo, yang berbeza daripada penggunaan imej monokular dan binokular untuk anggaran ketinggian jalan. Yang pertama menganggarkan ketinggian jalan terus daripada satu imej, manakala yang terakhir menganggarkan ketinggian jalan menggunakan pandangan isipadu kiri dan kanan. Analisis mendalam mendedahkan konsistensi dan perbezaannya dengan perspektif. Eksperimen pada set data dunia sebenar menunjukkan keberkesanan dan keunggulan model. Ralat ketinggian RoadBEV-mono dan RoadBEV-stereo masing-masing ialah 1.83 meter dan 0.56 meter. Prestasi anggaran BEV berdasarkan imej monokular dipertingkatkan sebanyak 50%. Model dalam artikel ini dijangka memberikan rujukan yang berharga dalam teknologi pemanduan autonomi berasaskan penglihatan.

Sumbangan utama:

Kertas kerja ini buat pertama kalinya menunjukkan keperluan dan keunggulan pembinaan semula permukaan jalan dari pandangan mata dari kedua-dua aspek teori dan eksperimen.

Artikel ini memperkenalkan dua model, dinamakan RoadBEV-mono dan RoadBEV-stereo. Untuk skim berasaskan monokular dan stereo, artikel ini menerangkan mekanismenya secara terperinci.

Artikel ini secara komprehensif menguji dan menganalisis prestasi model yang dicadangkan, memberikan pandangan dan prospek yang berharga untuk penyelidikan masa depan.

Reka Bentuk Rangkaian:

Dalam beberapa tahun kebelakangan ini, perkembangan pesat kenderaan darat tanpa pemandu (UGV) telah mengemukakan keperluan yang lebih tinggi untuk sistem penderiaan on-board. Pemahaman masa nyata tentang persekitaran dan keadaan pemanduan adalah penting untuk perancangan dan kawalan pergerakan yang tepat [1]-[3]. Bagi kenderaan, jalan raya adalah satu-satunya medium hubungan dengan dunia fizikal. Keadaan permukaan jalan menentukan banyak ciri kenderaan dan kebolehmanduan [4]. Seperti yang ditunjukkan dalam Rajah 1(a), penyelewengan jalan, seperti bonggol dan jalan berlubang, akan memburukkan lagi pengalaman menunggang kenderaan, yang boleh dilihat secara intuitif. Persepsi keadaan permukaan jalan masa nyata, terutamanya ketinggian geometri, sangat membantu meningkatkan keselesaan perjalanan [5], [6].

Berbanding dengan tugas persepsi lain dalam kenderaan darat tanpa pemandu (UGV) seperti segmentasi dan pengesanan, pembinaan semula permukaan jalan (RSR) ialah teknologi baru muncul yang mendapat perhatian yang semakin meningkat baru-baru ini. Sama seperti proses persepsi sedia ada, RSR biasanya menggunakan LiDAR dan penderia kamera atas kapal untuk mengekalkan maklumat permukaan jalan. Lidar secara langsung mengimbas kontur jalan dan memperoleh awan titik [7], [8]. Ketinggian jalan pada trajektori kenderaan boleh diekstrak terus tanpa algoritma yang kompleks. Walau bagaimanapun, kos penderia lidar yang tinggi mengehadkan penggunaannya dalam kenderaan jimat pengeluaran besar-besaran. Tidak seperti objek lalu lintas yang lebih besar seperti kenderaan dan pejalan kaki, penyelewengan jalan biasanya lebih kecil dalam magnitud, jadi ketepatan awan titik adalah kritikal. Pampasan gerakan dan penapisan diperlukan pada pengimbasan jalan masa nyata, yang seterusnya memerlukan kedudukan ketepatan tinggi pada paras sentimeter.

Pembinaan semula permukaan jalan (RSR) berasaskan imej, sebagai tugas penglihatan tiga dimensi, lebih menjanjikan daripada LiDAR dari segi ketepatan dan resolusi. Ia juga mengekalkan tekstur permukaan jalan, menjadikan persepsi jalan lebih menyeluruh. Pembinaan semula ketinggian jalan berasaskan penglihatan sebenarnya merupakan masalah anggaran kedalaman. Untuk kamera monokular, anggaran kedalaman monokular boleh dilaksanakan berdasarkan imej tunggal, atau stereo berbilang pandangan (MVS) boleh dilaksanakan berdasarkan urutan untuk menganggarkan kedalaman secara langsung [9]. Untuk kamera binokular, pemadanan binokular regresi peta perbezaan, yang boleh ditukar kepada kedalaman [10], [11]. Memandangkan parameter kamera, awan titik jalan dalam sistem koordinat kamera boleh dipulihkan. Melalui proses pasca pemprosesan awal, struktur jalan raya dan maklumat ketinggian akhirnya diperolehi. Di bawah bimbingan label ground-truth (GT), RSR berketepatan tinggi dan boleh dipercayai boleh dicapai.

Walau bagaimanapun, pembinaan semula permukaan jalan berperspektif imej (RSR) mempunyai kelemahan yang wujud. Anggaran kedalaman untuk piksel tertentu sebenarnya adalah untuk mencari tong optimum sepanjang arah yang berserenjang dengan satah imej (ditunjukkan sebagai titik oren dalam Rajah 1(b)). Terdapat sisihan sudut tertentu antara arah kedalaman dan permukaan jalan. Perubahan dan arah aliran dalam ciri profil jalan adalah tidak konsisten dengan perubahan dan arah aliran dalam arah carian. Petunjuk maklumat tentang perubahan ketinggian jalan adalah jarang dalam pandangan mendalam. Tambahan pula, julat carian kedalaman adalah sama untuk setiap piksel, menyebabkan model menangkap hierarki geometri global dan bukannya struktur permukaan tempatan. Disebabkan carian kedalaman global tetapi kasar, maklumat ketinggian jalan yang halus dimusnahkan. Oleh kerana kertas kerja ini memfokuskan pada ketinggian dalam arah menegak, usaha dalam arah kedalaman adalah sia-sia. Dalam pandangan perspektif, butiran tekstur pada jarak jauh hilang, yang seterusnya menimbulkan cabaran untuk regresi kedalaman yang cekap melainkan kekangan priori selanjutnya diperkenalkan [12].

Menganggar ketinggian jalan dari pandangan atas (iaitu pandangan mata burung, BEV) ialah idea semula jadi kerana ketinggian pada dasarnya menggambarkan getaran dalam arah menegak. Pandangan mata burung adalah paradigma yang berkesan untuk mewakili data multi-modal dan multi-view dalam koordinat bersatu [13], [14]. Prestasi terkini pada pengesanan objek dan tugasan pembahagian 3D telah dicapai melalui pendekatan berdasarkan pandangan mata burung [15], berbanding pandangan perspektif, yang dilakukan dengan memperkenalkan anggaran kepala pada ciri imej yang diubah suai pandangan. Rajah 1 menggambarkan motivasi untuk kertas ini. Daripada memfokuskan pada struktur global dalam paparan imej, pembinaan semula dalam pandangan mata burung secara langsung mengenal pasti ciri jalan dalam julat kecil tertentu dalam arah menegak. Ciri-ciri jalan raya yang diunjurkan dalam pandangan mata burung padat mencerminkan perubahan struktur dan kontur, memudahkan carian yang cekap dan halus. Pengaruh kesan perspektif juga ditindas kerana jalan raya diwakili secara seragam pada satah berserenjang dengan sudut pandangan. Pembinaan semula jalan raya berdasarkan ciri pandangan mata burung dijangka mencapai prestasi yang lebih tinggi.

Kertas ini membina semula permukaan jalan di bawah BEV untuk menyelesaikan masalah yang dikenal pasti di atas. Secara khususnya, kertas kerja ini memfokuskan kepada geometri jalan iaitu ketinggian. Untuk menggunakan imej monokular dan binokular dan menunjukkan kebolehlaksanaan luas persepsi pandangan mata burung, kertas kerja ini mencadangkan dua submodel bernama RoadBEV-mono dan RoadBEV-stereo. Mengikuti paradigma pandangan mata, kertas kerja ini mentakrifkan voxel yang diminati meliputi potensi pelepasan jalan. Ciri piksel pertanyaan voxel ini melalui unjuran 3D-2D. Untuk RoadBEV-mono, kertas kerja ini memperkenalkan kepala anggaran ketinggian pada ciri voxel yang dibentuk semula. Struktur RoadBEV-stereo adalah konsisten dengan pemadanan binokular dalam paparan imej. Berdasarkan ciri voxel kiri dan kanan, voxel kos 4D dibina dalam pandangan mata burung, yang diagregatkan melalui konvolusi 3D. Regresi ketinggian dianggap sebagai klasifikasi tong sampah yang telah ditetapkan untuk membolehkan pembelajaran model yang lebih cekap. Makalah ini mengesahkan model ini pada set data dunia sebenar yang diterbitkan oleh pengarang sebelum ini, menunjukkan bahawa mereka mempunyai kelebihan besar berbanding anggaran kedalaman monokular tradisional dan kaedah pemadanan stereo.

Tsinghua yang terbaru! RoadBEV: Bagaimana untuk mencapai pembinaan semula permukaan jalan di bawah BEV?

Rajah 1. Motivasi artikel ini. (a) Tanpa mengira konfigurasi monokular atau binokular, kaedah pembinaan semula kami dalam pandangan mata burung (BEV) mengatasi kaedah dalam paparan imej. (b) Apabila melakukan anggaran kedalaman dalam paparan imej, arah carian dipincang dari arah ketinggian jalan. Pada pandangan mendalam, ciri rangka jalan adalah jarang. Lubang tidak mudah dikenalpasti. (c) Dalam pandangan mata burung, getaran kontur seperti jalan berlubang, tangga tepi jalan dan juga alur boleh ditangkap dengan tepat. Ciri ketinggian jalan dalam arah menegak adalah lebih padat dan lebih mudah dikenal pasti.

Tsinghua yang terbaru! RoadBEV: Bagaimana untuk mencapai pembinaan semula permukaan jalan di bawah BEV?

Rajah 2. Selaraskan perwakilan dan penjanaan label ketinggian ground-truth (GT). (a) Koordinat (b) Wilayah kepentingan (ROI) dalam paparan imej (c) Wilayah minat (ROI) dalam pandangan mata burung (d) Menjana label kebenaran tanah (GT) dalam grid

Tsinghua yang terbaru! RoadBEV: Bagaimana untuk mencapai pembinaan semula permukaan jalan di bawah BEV?

Gamb. Contoh imej jalan raya dan peta ketinggian ground truth (GT).

Tsinghua yang terbaru! RoadBEV: Bagaimana untuk mencapai pembinaan semula permukaan jalan di bawah BEV?

Rajah 4. Ciri voxel yang diminati dalam paparan imej. Pusat voxel bertindan yang terletak pada kedudukan mendatar yang sama diunjurkan kepada piksel pada segmen garis merah.

Tsinghua yang terbaru! RoadBEV: Bagaimana untuk mencapai pembinaan semula permukaan jalan di bawah BEV?

Rajah 5. Senibina RoadBEV-mono. Kertas ini menggunakan unjuran 3D hingga 2D untuk menanyakan ciri piksel. Kepala anggaran ketinggian menggunakan lilitan 2D untuk mengekstrak ciri pada ciri Pandangan Mata Burung (BEV) yang dibentuk semula.

Tsinghua yang terbaru! RoadBEV: Bagaimana untuk mencapai pembinaan semula permukaan jalan di bawah BEV?

Rajah 6. Mekanisme RoadBEV-mono. Voxel ditunjukkan dalam pandangan sisi.

Tsinghua yang terbaru! RoadBEV: Bagaimana untuk mencapai pembinaan semula permukaan jalan di bawah BEV?

Rajah 7. Seni bina RoadBEV-stereo. Voksel yang ditakrifkan dalam sistem koordinat kamera kiri menanyakan ciri piksel peta ciri kiri dan kanan. Kertas kerja ini membina isipadu perbezaan dalam Pandangan Mata Burung (BEV) melalui penolakan antara ciri voxel kiri dan kanan. Kemudian, belitan 3D mengagregatkan volum 4D dalam pandangan mata burung.

Tsinghua yang terbaru! RoadBEV: Bagaimana untuk mencapai pembinaan semula permukaan jalan di bawah BEV?

Rajah 8. Mekanisme RoadBEV-stereo.

Hasil eksperimen:

Tsinghua yang terbaru! RoadBEV: Bagaimana untuk mencapai pembinaan semula permukaan jalan di bawah BEV?

Rajah 9. Kehilangan latihan (a) RoadBEV-mono dan (b) RoadBEV-stereo.

Tsinghua yang terbaru! RoadBEV: Bagaimana untuk mencapai pembinaan semula permukaan jalan di bawah BEV?

Rajah 10. Perbandingan ralat ketinggian dalam arah jarak dengan model SOTA berdasarkan monokular dan binokular.

Tsinghua yang terbaru! RoadBEV: Bagaimana untuk mencapai pembinaan semula permukaan jalan di bawah BEV?

Rajah 11. Visualisasi permukaan jalan dibina semula oleh RoadBEV-mono.

Tsinghua yang terbaru! RoadBEV: Bagaimana untuk mencapai pembinaan semula permukaan jalan di bawah BEV?

Rajah 12. Visualisasi permukaan jalan dibina semula oleh RoadBEV-stereo.

Tsinghua yang terbaru! RoadBEV: Bagaimana untuk mencapai pembinaan semula permukaan jalan di bawah BEV?

Tsinghua yang terbaru! RoadBEV: Bagaimana untuk mencapai pembinaan semula permukaan jalan di bawah BEV?

Tsinghua yang terbaru! RoadBEV: Bagaimana untuk mencapai pembinaan semula permukaan jalan di bawah BEV?

Tsinghua yang terbaru! RoadBEV: Bagaimana untuk mencapai pembinaan semula permukaan jalan di bawah BEV?

Ringkasan:

Artikel ini membina semula ketinggian permukaan jalan untuk pandangan mata pertama kali. Kertas kerja ini mencadangkan dan menganalisis dua model berdasarkan imej monokular dan binokular, masing-masing dinamakan RoadBEV-mono dan RoadBEV-stereo. Makalah ini mendapati bahawa anggaran monokular dan pemadanan binokular dalam BEV adalah mekanisme yang sama seperti dalam pandangan perspektif, yang dipertingkatkan dengan mengecilkan julat carian dan ciri perlombongan secara langsung dalam arah ketinggian. Percubaan komprehensif pada set data dunia nyata mengesahkan kebolehlaksanaan dan keunggulan tetapan volum BEV, kepala anggaran dan parameter yang dicadangkan. Untuk kamera monokular, prestasi pembinaan semula dalam BEV dipertingkatkan sebanyak 50% berbanding paparan perspektif. Pada masa yang sama, dalam BEV, prestasi menggunakan kamera binokular adalah tiga kali ganda berbanding kamera monokular. Artikel ini menyediakan analisis dan panduan yang mendalam tentang model. Penerokaan terobosan artikel ini juga menyediakan rujukan berharga untuk penyelidikan lanjut dan aplikasi yang berkaitan dengan persepsi BEV, pembinaan semula 3D dan pengesanan 3D.

Atas ialah kandungan terperinci Tsinghua yang terbaru! RoadBEV: Bagaimana untuk mencapai pembinaan semula permukaan jalan di bawah BEV?. Untuk maklumat lanjut, sila ikut artikel berkaitan lain di laman web China PHP!

Kenyataan:
Artikel ini dikembalikan pada:51cto.com. Jika ada pelanggaran, sila hubungi admin@php.cn Padam