Rumah > Artikel > Peranti teknologi > ICLR'24 idea baharu tanpa gambar! LaneSegNet: pembelajaran peta berdasarkan kesedaran pembahagian lorong
Sebagai maklumat penting untuk aplikasi hiliran sistem pemanduan autonomi, peta biasanya diwakili oleh lorong atau garisan tengah. Walau bagaimanapun, kesusasteraan pembelajaran peta sedia ada tertumpu terutamanya pada pengesanan hubungan topologi berasaskan geometri bagi lorong atau penderiaan garis tengah. Kedua-dua kaedah mengabaikan hubungan yang wujud antara garisan lorong dan garisan tengah, iaitu garisan lorong mengikat garisan tengah. Walaupun hanya meramalkan dua jenis lorong dalam satu model adalah saling eksklusif dalam matlamat pembelajaran, kertas kerja ini mencadangkan pembahagian lorong sebagai perwakilan baharu yang menggabungkan maklumat geometri dan topologi dengan lancar, sekali gus mencadangkan LaneSegNet. Ini adalah rangkaian pemetaan hujung ke hujung pertama yang menjana segmen lorong untuk mendapatkan gambaran lengkap struktur jalan. LaneSegNet mempunyai dua pengubahsuaian utama Satu ialah modul perhatian lorong, yang digunakan untuk menangkap butiran kawasan utama dalam ruang ciri jarak jauh. Yang lain ialah strategi permulaan yang sama bagi titik rujukan, yang meningkatkan pembelajaran lokasi awal untuk perhatian lorong. Pada set data OpenLane-V2, LaneSegNet mempunyai kelebihan ketara berbanding produk sebelumnya yang serupa dalam tiga tugasan, iaitu pengesanan elemen peta (+4.8 mAP), persepsi garis tengah lorong (+6.9 DETl) dan kesedaran Segmen lorong yang baru ditakrifkan (+5.6 mAP). Selain itu, ia mencapai kelajuan inferens masa nyata 14.7FPS.
Pautan sumber terbuka: https://github.com/OpenDriveLab/LaneSegNet
Ringkasnya, sumbangan utama artikel ini adalah seperti berikut:
Kesedaran Garis Tengah: Kesedaran garis tengah daripada data sensor yang dipasang pada kenderaan (sama seperti pembelajaran peta lorong dalam kertas ini) telah menarik perhatian yang ketara baru-baru ini. STSU mencadangkan rangkaian seperti DETR untuk mengesan garis tengah, diikuti dengan modul multilayer perceptron (MLP) untuk menentukan ketersambungan mereka. Berdasarkan STSU, Can et al memperkenalkan pertanyaan gelung minimum tambahan untuk memastikan susunan baris bertindih yang betul. CenterLineDet memperlakukan garis tengah sebagai bucu dan mereka bentuk model kemas kini graf yang dilatih melalui pembelajaran tiruan. Perlu diingat bahawa Tesla mencadangkan konsep "bahasa lorong" untuk menyatakan peta lorong sebagai ayat. Model berasaskan perhatian mereka secara rekursif meramalkan tanda lorong dan ketersambungan mereka. Selain kaedah pembahagian ini, LaneGAP juga memperkenalkan kaedah laluan yang menggunakan algoritma transformasi tambahan untuk memulihkan peta lorong. TopoNet menyasarkan graf pemandangan pemanduan yang lengkap dan pelbagai, secara eksplisit memodelkan ketersambungan garis tengah dalam rangkaian, dan menggabungkan elemen trafik ke dalam tugas. Dalam kerja ini, kami menggunakan kaedah segmen untuk membina graf lorong. Walau bagaimanapun, kami berbeza daripada kaedah sebelumnya dalam memodelkan Segmen Lorong dan bukannya mengambil garis tengah sebagai puncak graf lorong, yang membolehkan penyepaduan mudah bagi maklumat geometri dan semantik peringkat segmen.
Pengesanan elemen peta: Dalam kerja sebelum ini, perhatian telah diberikan kepada pengangkatan pengesanan elemen peta dari satah kamera ke ruang 3D untuk mengatasi ralat unjuran. Dengan aliran popular penderiaan BEV, kerja baru-baru ini memfokuskan pada pembelajaran peta HD menggunakan kaedah pembahagian dan pemvektoran. Pembahagian peta meramalkan semantik setiap grid BEV tulen, seperti lorong, lintasan pejalan kaki dan kawasan boleh dipandu. Kerja-kerja ini terutamanya berbeza dalam paparan perspektif (PV) kepada modul penukaran BEV. Walau bagaimanapun, peta bersegmen tidak dapat memberikan maklumat langsung yang digunakan oleh modul hiliran. HDMapNet menangani masalah ini dengan mengumpulkan dan mengvektorkan peta segmentasi dengan pemprosesan pasca yang kompleks.
Walaupun pembahagian padat memberikan maklumat tahap piksel, ia masih tidak boleh menyentuh hubungan kompleks elemen bertindih. VectorMapNet bercadang untuk mewakili setiap elemen peta secara langsung sebagai jujukan titik, menggunakan titik kekunci kasar untuk menyahkod lokasi lorong secara berurutan. MapTR meneroka pendekatan pemodelan jujukan titik berasaskan pilih atur bersatu untuk menghapuskan kekaburan pemodelan dan meningkatkan prestasi dan kecekapan. PivotNet selanjutnya memodelkan elemen peta menggunakan perwakilan berasaskan pangsi dalam rangka kerja ramalan ensemble untuk mengurangkan lebihan dan meningkatkan ketepatan. StreamMapNet menggunakan perhatian berbilang titik dan maklumat temporal untuk meningkatkan kestabilan pengesanan unsur peta jauh. Malah, memandangkan vektorisasi juga memperkaya maklumat arah lorong, kaedah berasaskan vektorisasi boleh dengan mudah disesuaikan dengan kesedaran garis tengah melalui penyeliaan berselang-seli. Dalam kerja ini, kami mencadangkan perwakilan bersatu dan mudah dipelajari—pembahagian lorong—untuk semua elemen peta HD di jalan.
Instance Segmen Lorong mengandungi aspek geometri dan semantik jalan. Bagi geometri, ia boleh diwakili sebagai segmen garisan yang terdiri daripada garis tengah bervektor dan sempadan lorong yang sepadan: . Setiap baris ditakrifkan sebagai koleksi mata tersusun dalam ruang 3D. Sebagai alternatif, geometri boleh digambarkan sebagai poligon tertutup yang mentakrifkan kawasan boleh dipandu dalam lorong tersebut.
Dari segi semantik, ia termasuk kategori Segmen Lorong C (cth., Segmen Lorong, lintasan pejalan kaki) dan gaya garisan sempadan lorong kiri/kanan (cth., tidak kelihatan, pepejal, garisan putus-putus): {}. Butiran ini menyediakan kenderaan autonomi dengan cerapan penting tentang keperluan nyahpecutan dan kemungkinan perubahan lorong.
Selain itu, maklumat topologi memainkan peranan penting dalam perancangan laluan. Untuk mewakili maklumat ini, graf lorong dibina untuk Segmen Lorong, diwakili sebagai G = (V, E). Setiap Segmen Lorong ialah nod dalam graf, diwakili oleh set V, dan tepi dalam set E menerangkan ketersambungan antara Segmen Lorong. Kami menggunakan matriks bersebelahan untuk menyimpan graf lorong ini, dengan elemen matriks (i, j) ditetapkan kepada 1 hanya apabila Segmen Lorong ke-j mengikuti Segmen Lorong ke-i, sebaliknya, ia kekal 0.
Rangka kerja keseluruhan LaneSegNet ditunjukkan dalam Rajah 2. LaneSegNet mengambil imej sekeliling sebagai input untuk melihat Segmen Lorong dalam julat BEV tertentu. Dalam bahagian ini, kami mula-mula memperkenalkan secara ringkas pengekod LaneSeg yang digunakan untuk menjana ciri BEV. Kemudian, kami memperkenalkan penyahkod segmentasi lorong dan perhatian lorong. Akhir sekali, kami mencadangkan peramal pembahagian lorong bersama-sama dengan kehilangan latihan.
Pengekod LaneSeg
Pengekod menukar imej sekeliling kepada ciri BEV untuk pengekstrakan Segmen Lorong. Kami menggunakan tulang belakang ResNet-50 standard untuk mendapatkan peta ciri daripada imej mentah. Modul pengekod PV kepada BEV menggunakan BEVFormer kemudiannya digunakan untuk penukaran paparan.
Penyahkod LaneSeg
Kaedah pengesanan berasaskan transformer menggunakan penyahkod untuk mengumpul ciri daripada ciri BEV dan mengemas kini pertanyaan penyahkod melalui berbilang lapisan. Setiap lapisan penyahkod menggunakan perhatian kendiri, mekanisme merentas perhatian dan rangkaian suapan ke hadapan untuk mengemas kini pertanyaan. Selain itu, pertanyaan lokasi yang boleh dipelajari digunakan. Pertanyaan yang dikemas kini kemudiannya dikeluarkan dan disalurkan ke peringkat seterusnya.
Disebabkan geometri peta yang kompleks dan memanjang, mengumpul ciri BEV jarak jauh adalah penting untuk tugasan pemetaan dalam talian. Kerja sebelumnya menggunakan pertanyaan penyahkod hierarki (titik contoh) dan perhatian boleh ubah bentuk untuk mengekstrak ciri setempat bagi setiap pertanyaan titik. Walaupun pendekatan ini mengelak daripada menangkap maklumat jarak jauh, ia datang dengan kos pengiraan yang tinggi disebabkan oleh peningkatan bilangan pertanyaan.
Segmen Lorong, sebagai perwakilan contoh lorong untuk membina graf pemandangan, mempunyai ciri unggul pada peringkat contoh. Matlamat kami bukan untuk menggunakan pertanyaan berbilang titik, tetapi menggunakan pertanyaan contoh tunggal untuk mewakili Segmen Lorong. Oleh itu, cabaran teras ialah cara menggunakan pertanyaan contoh tunggal untuk memfokus silang pada ciri BEV global.
Perhatian Lorong: Dalam pengesanan sasaran, perhatian boleh ubah bentuk menggunakan kedudukan sebelum sasaran dan hanya memfokuskan pada sebahagian kecil nilai perhatian berhampiran titik rujukan sasaran sebagai pra-penapis, yang sangat mempercepatkan penumpuan. Semasa lelaran lapisan, titik rujukan diletakkan di tengah sasaran ramalan untuk memperhalusi lokasi pensampelan nilai perhatian, yang tersebar di sekitar titik rujukan melalui offset pensampelan yang boleh dipelajari. Permulaan yang disengajakan bagi ofset pensampelan termasuk geometri di hadapan sasaran 2D. Dengan berbuat demikian, mekanisme berbilang cawangan boleh menangkap ciri setiap arah dengan baik, seperti yang ditunjukkan dalam Rajah 3a.
Dalam konteks pembelajaran peta, Li et al menggunakan perhatian boleh ubah bentuk naif untuk meramal garis tengah. Walau bagaimanapun, seperti yang ditunjukkan dalam Rajah 3b, disebabkan penempatan titik rujukan yang naif, ia mungkin tidak dapat memperoleh perhatian julat tunggal. Tambahan pula, disebabkan bentuk sasaran yang memanjang dan isyarat visual yang kompleks (cth., meramalkan titik putus dengan tepat antara garisan pepejal dan garis putus-putus), proses ini memerlukan reka bentuk penyesuaian tambahan untuk tugas kami. Memandangkan semua ciri ini, rangkaian perlu mempunyai keupayaan untuk bukan sahaja menumpukan pada maklumat kontekstual jarak jauh tetapi juga mengekstrak butiran tempatan dengan tepat. Oleh itu, adalah disyorkan untuk mengedarkan lokasi persampelan ke kawasan yang luas untuk melihat maklumat jarak jauh dengan berkesan. Sebaliknya, butiran tempatan harus mudah dibezakan untuk mengenal pasti perkara utama. Perlu diingat bahawa walaupun terdapat hubungan kompetitif antara ciri nilai dalam satu kepala perhatian, ciri nilai antara kepala yang berbeza boleh dikekalkan semasa proses Perhatian. Oleh itu, ia berjanji untuk mengeksploitasi harta ini secara eksplisit untuk mempromosikan perhatian kepada ciri tempatan bagi wilayah tertentu.
Untuk tujuan ini, artikel ini mencadangkan untuk mewujudkan mekanisme kepala ke wilayah. Kami mula-mula mengedarkan berbilang titik rujukan secara sama rata dalam kawasan Segmen Lorong. Lokasi pensampelan kemudiannya dimulakan di sekitar setiap titik rujukan di kawasan tempatan. Untuk mengekalkan butiran tempatan yang kompleks, kami menggunakan mekanisme berbilang cawangan, di mana setiap kepala memfokuskan pada set lokasi pensampelan tertentu dalam kawasan setempat, seperti yang ditunjukkan dalam Rajah 3c.
Penerangan matematik modul perhatian lorong kini disediakan. Memandangkan ciri BEV, ciri pertanyaan Segmen Lorong ke-i qi dan satu set titik rujukan pi sebagai input, perhatian lorong dikira seperti berikut:
Permulaan titik rujukan yang sama: Kedudukan titik rujukan ialah perhatian lorong fungsi modul Faktor penentu. Untuk menjajarkan kawasan minat setiap pertanyaan contoh dengan geometri dan lokasi sebenar, titik rujukan p dalam setiap pertanyaan contoh diedarkan berdasarkan ramalan Segmen Lorong lapisan sebelumnya, seperti ditunjukkan dalam Rajah 3c. dan memperhalusi ramalan secara berulang.
Kerja sebelumnya berpendapat bahawa titik rujukan yang diberikan kepada lapisan pertama harus dimulakan secara individu dengan pendahuluan yang boleh dipelajari yang diperoleh daripada pembenaman pertanyaan kedudukan. Walau bagaimanapun, oleh kerana pertanyaan lokasi adalah bebas daripada imej input, kaedah permulaan ini seterusnya boleh mengehadkan keupayaan model untuk mengingat geometri dan lokasi awal, dan lokasi permulaan yang dijana secara salah juga boleh menimbulkan halangan kepada latihan.
Oleh itu, untuk lapisan pertama penyahkod Segmen Lorong, kami mencadangkan strategi permulaan yang sama. Dalam lapisan pertama, setiap kepala mengambil titik rujukan yang sama yang dijana oleh pertanyaan kedudukan. Berbanding dengan pemulaan teragih titik rujukan dalam kaedah tradisional (iaitu, memulakan berbilang titik rujukan untuk setiap pertanyaan), permulaan yang sama akan menjadikan pembelajaran keutamaan kedudukan lebih stabil dengan menapis gangguan geometri kompleks. Ambil perhatian bahawa pemulaan yang sama mungkin kelihatan kontra-intuitif, tetapi telah diperhatikan untuk berfungsi.
LaneSeg Predictor
Kami menggunakan MLP dalam berbilang cawangan ramalan untuk menjana ramalan akhir Segmen Lorong daripada pertanyaan Segmen Lorong, dengan mengambil kira aspek geometri, semantik dan topologi.
Untuk geometri, kami mula-mula mereka bentuk cawangan regresi garis tengah untuk mengundur kedudukan titik vektor garis tengah dalam koordinat tiga dimensi. Format output ialah. Disebabkan oleh simetri sempadan lorong kiri dan kanan, kami memperkenalkan cawangan ofset untuk meramalkan offset, yang formatnya. Oleh itu, koordinat sempadan lorong kiri dan kanan boleh dikira menggunakan
Dengan mengandaikan bahawa segmen lorong boleh dikonsepkan sebagai kawasan boleh dipandu, kami menyepadukan cawangan pembahagian contoh ke dalam peramal. Dari segi semantik, tiga cabang klasifikasi meramalkan skor klasifikasi C, dan skor C secara selari. Cawangan topologi mengambil ciri pertanyaan yang dikemas kini sebagai input dan mengeluarkan matriks bersebelahan wajaran graf lorong G menggunakan MLP.
Kehilangan Latihan
LaneSegNet mengamalkan paradigma seperti DETR, menggunakan algoritma Hungary untuk mengira peruntukan optimum satu sama satu dengan cekap antara ramalan dan kebenaran asas. Kerugian latihan kemudiannya dikira berdasarkan hasil pengedaran. Fungsi kehilangan terdiri daripada empat bahagian: kehilangan geometri, kehilangan klasifikasi, kehilangan klasifikasi garis lorong dan kehilangan topologi.
Kehilangan geometri menyelia geometri setiap Segmen Lorong yang diramalkan. Mengikut keputusan padanan binari, Segmen Lorong GT diperuntukkan kepada setiap Segmen Lorong vektor yang diramalkan. Kehilangan geometri tervektor ditakrifkan sebagai jarak Manhattan yang dikira antara pasangan Segmen Lorong yang ditetapkan.
Persepsi Segmen Lorong: Dalam Jadual 1, kami membandingkan LaneSegNet dengan beberapa kaedah terkini MapTR, MapTRv2. Latih semula model mereka dengan label Segmen Lorong kami. LaneSegNet mengatasi kaedah lain sehingga 9.6% dalam mAP, dan ralat jarak purata secara relatifnya berkurangan sebanyak 12.5%. LaneSegNet-mini juga mengatasi kaedah sebelumnya dengan FPS yang lebih tinggi sebanyak 16.2.
Hasil kualitatif ditunjukkan dalam Rajah 4:
Pengesanan elemen peta: Untuk perbandingan yang lebih adil dengan kaedah pengesanan elemen peta, kami menguraikan Segmen Lorong yang diramalkan menjadi lorongSegmen kemudiannya berbanding dengan kaedah terkini menggunakan metrik pengesanan unsur peta. Kami memasukkan label garisan lorong dan lintasan yang telah dibuka kepada beberapa kaedah terkini untuk latihan semula. Keputusan eksperimen ditunjukkan dalam Jadual 2, menunjukkan bahawa LaneSegNet sentiasa mengatasi kaedah lain dalam tugas pengesanan elemen peta. Pada perbandingan yang adil, LaneSegNet memulihkan geometri jalan dengan lebih baik dengan pengawasan tambahan. Ini menunjukkan bahawa perwakilan pembelajaran Segmen Lorong adalah baik dalam menangkap maklumat geometri jalan.
Kesedaran Pusat: Kami juga membandingkan LaneSegNet dengan kaedah kesedaran garis tengah terkini dalam Jadual 3. Untuk konsistensi, garisan tengah juga diekstrak daripada Segmen Lorong untuk latihan semula. Dapat disimpulkan bahawa prestasi LaneSegNet dalam tugas persepsi peta lorong jauh lebih tinggi daripada kaedah lain. Dengan pemantauan geografi tambahan, LaneSegNet juga menunjukkan keupayaan penaakulan topologi yang unggul. Dibuktikan bahawa keupayaan penaakulan berkait rapat dengan keupayaan kedudukan dan pengesanan yang kuat.
Formula Segmen Lorong: Dalam Jadual 4, kami menyediakan ablasi untuk mengesahkan kelebihan reka bentuk dan kecekapan latihan formula pembelajaran Segmen Lorong kami yang dicadangkan. Berbanding dengan model yang dilatih secara berasingan dalam dua baris pertama, latihan bersama garis tengah dan elemen peta membawa peningkatan purata keseluruhan sebanyak 1.3 pada dua metrik utama, seperti yang ditunjukkan dalam baris 4, menunjukkan kebolehlaksanaan latihan berbilang tugas. Walau bagaimanapun, pendekatan biasa garis tengah latihan dan elemen peta dalam satu cawangan dengan menambahkan kategori tambahan membawa kepada kemerosotan prestasi yang ketara. Berbanding dengan kaedah cawangan tunggal yang naif di atas, model kami yang dilatih dengan label Segmen Lorong memperoleh peningkatan prestasi yang ketara (+7.2 pada OLS dan +4.4 pada mAP untuk perbandingan antara baris 3 dan 5), Ini mengesahkan interaksi positif antara pelbagai maklumat jalan dalam rumusan pembelajaran peta kami. Model kami malah mengungguli kaedah berbilang cawangan, terutamanya dalam kesedaran garis tengah (OLS sebanyak +4.8). Ini menunjukkan bahawa geometri boleh membimbing penaakulan topologi dalam rumusan pembelajaran peta kami, di mana model berbilang cawangan hanya sedikit mengatasi model CL sahaja (+0.6 OLS antara baris 1 dan 4). Bagi penurunan kecil, ia datang daripada proses pembentukan semula keputusan ramalan kami, yang disebabkan oleh ralat pengelasan garis,
Modul Perhatian Lorong: Ablasi modul perhatian yang kami tunjukkan ditunjukkan dalam Jadual 5. Untuk memudahkan perbandingan yang adil, kami menggantikan modul perhatian lorong dalam rangka kerja dengan reka bentuk perhatian alternatif. Dengan reka bentuk kami yang teliti, LaneSegNet dengan perhatian lorong dengan ketara mengatasi kaedah ini, menunjukkan peningkatan yang ketara (mAP meningkat sebanyak 3.9 dan TOPll meningkat sebanyak 1.2 berbanding Baris 1). Tambahan pula, kependaman penyahkod boleh dikurangkan lagi (daripada 23.45ms kepada 20.96ms) disebabkan oleh pengurangan bilangan pertanyaan berbanding reka bentuk pertanyaan hierarki.
Kertas kerja ini mencadangkan kesedaran Segmen Lorong sebagai formula pembelajaran peta baharu dan mencadangkan LaneSegNet, rangkaian hujung ke hujung yang disasarkan khusus untuk masalah ini. Selain rangkaian, dua peningkatan inovatif dicadangkan, termasuk modul perhatian lorong yang menggunakan mekanisme kepala ke wilayah untuk menangkap perhatian jarak jauh, dan strategi permulaan yang sama bagi titik rujukan untuk meningkatkan lokasi perhatian lorong Sebelum ini pembelajaran. Keputusan percubaan pada dataset OpenLane-V2 menunjukkan keberkesanan reka bentuk kami.
Keterbatasan dan kerja masa depan. Disebabkan oleh had pengiraan, kami tidak memanjangkan LaneSegNet yang dicadangkan kepada lebih banyak tulang belakang tambahan. Perumusan kesedaran Segmen Lorong dan LaneSegNet boleh memanfaatkan tugas hiliran dan patut diterokai pada masa hadapan.
Atas ialah kandungan terperinci ICLR'24 idea baharu tanpa gambar! LaneSegNet: pembelajaran peta berdasarkan kesedaran pembahagian lorong. Untuk maklumat lanjut, sila ikut artikel berkaitan lain di laman web China PHP!