Rumah >Peranti teknologi >AI >CLRNet: Algoritma rangkaian yang diperhalusi secara hierarki untuk pengesanan lorong pemanduan autonomi
Dalam sistem navigasi visual, pengesanan lorong adalah fungsi penting. Ia bukan sahaja memberi impak yang ketara pada aplikasi seperti pemanduan autonomi dan sistem bantuan pemandu lanjutan (ADAS), tetapi juga memainkan peranan penting dalam kedudukan diri dan pemanduan selamat kenderaan pintar. Oleh itu, pembangunan teknologi pengesanan lorong adalah sangat penting untuk meningkatkan kecerdasan dan keselamatan sistem lalu lintas.
Walau bagaimanapun, pengesanan lorong mempunyai corak setempat yang unik, memerlukan ramalan tepat maklumat lorong dalam imej rangkaian dan bergantung pada ciri peringkat rendah yang terperinci untuk mencapai penyetempatan yang tepat. Oleh itu, pengesanan lorong boleh dianggap sebagai tugas yang penting dan mencabar dalam penglihatan komputer.
Menggunakan tahap ciri yang berbeza adalah sangat penting untuk pengesanan lorong yang tepat, tetapi kerja pendiskaunan masih dalam peringkat penerokaan. Kertas kerja ini memperkenalkan rangkaian penghalusan rentas lapisan (CLRNet), yang bertujuan untuk mengeksploitasi sepenuhnya ciri peringkat tinggi dan rendah dalam pengesanan lorong. Pertama, dengan mengesan lorong dengan ciri semantik peringkat tinggi, dan kemudian menapis berdasarkan ciri peringkat rendah. Pendekatan ini boleh menggunakan lebih banyak maklumat kontekstual untuk mengesan lorong sambil menggunakan ciri lorong terperinci tempatan untuk meningkatkan ketepatan kedudukan. Di samping itu, perwakilan ciri lorong boleh dipertingkatkan lagi dengan mengumpul konteks global melalui ROIGather. Selain mereka bentuk rangkaian baharu sepenuhnya, satu kehilangan IoU talian juga diperkenalkan, yang mengundur garisan lorong secara keseluruhan unit untuk meningkatkan ketepatan kedudukan.
Seperti yang dinyatakan sebelum ini, memandangkan Lane mempunyai semantik peringkat tinggi, tetapi ia mempunyai corak tempatan yang khusus, ciri peringkat rendah yang terperinci diperlukan untuk mengesannya dengan tepat. Cara menggunakan tahap ciri yang berbeza dalam CNN dengan berkesan masih menjadi masalah. Seperti yang ditunjukkan dalam Rajah 1(a) di bawah, tanda tempat dan garisan lorong mempunyai semantik yang berbeza, tetapi mereka berkongsi ciri yang serupa (cth., garis putih panjang). Tanpa semantik peringkat tinggi dan konteks global, sukar untuk membezakan antara mereka. Sebaliknya, kedaerahan juga penting, lorong-lorongnya panjang dan nipis, dan corak tempatannya ringkas.
menunjukkan hasil pengesanan ciri tahap tinggi dalam Rajah 1(b) Walaupun lorong berjaya dikesan, ketepatannya perlu dipertingkatkan. Oleh itu, menggabungkan maklumat peringkat rendah dan peringkat tinggi boleh saling melengkapi, menghasilkan pengesanan lorong yang lebih tepat.
Satu lagi masalah biasa dalam pengesanan lorong ialah kekurangan maklumat visual kehadiran lorong. Dalam sesetengah kes, lorong mungkin diduduki oleh kenderaan lain, menyukarkan pengesanan lorong. Selain itu, pengecaman lorong boleh menjadi sukar di bawah keadaan pencahayaan yang melampau.
Kerja sebelumnya sama ada memodelkan geometri tempatan lorong dan menyepadukannya ke dalam hasil global, atau membina lapisan bersambung sepenuhnya dengan ciri global untuk meramal lorong. Pengesan ini telah menunjukkan kepentingan ciri tempatan atau global untuk pengesanan lorong, tetapi tidak mengeksploitasi kedua-dua ciri secara serentak, sekali gus berpotensi menghasilkan prestasi pengesanan yang tidak tepat. Sebagai contoh, SCNN dan RESA mencadangkan mekanisme penghantaran mesej untuk mengumpul konteks global, tetapi kaedah ini melaksanakan ramalan tahap piksel dan tidak merawat lorong sebagai keseluruhan unit. Akibatnya, prestasi mereka ketinggalan berbanding banyak pengesan terkini.
Untuk pengesanan lorong, ciri aras rendah dan tinggi adalah pelengkap Berdasarkan ini, kertas kerja ini mencadangkan seni bina rangkaian baru (CLRNet) untuk menggunakan sepenuhnya ciri aras rendah dan tinggi untuk pengesanan lorong. Pertama, konteks global dikumpul melalui ROIGather untuk meningkatkan lagi perwakilan ciri lorong, yang juga boleh dimasukkan ke dalam rangkaian lain. Kedua, kehilangan Line over Union (LIoU) yang disesuaikan untuk pengesanan lorong dicadangkan untuk mengundur lorong secara keseluruhan unit dan meningkatkan prestasi dengan ketara. Untuk membandingkan ketepatan kedudukan pengesan yang berbeza dengan lebih baik, penunjuk mF1 baharu juga digunakan.
Pengesanan lorong berasaskan CNN pada masa ini terbahagi kepada tiga kaedah: kaedah berasaskan segmentasi, kaedah berasaskan sauh dan kaedah berasaskan parameter Kaedah ini mengenal pasti berdasarkan perwakilan lorong.
1. Kaedah berasaskan segmentasi
Algoritma jenis ini biasanya menggunakan formula ramalan piksel demi piksel, iaitu pengesanan lorong dianggap sebagai tugas pembahagian semantik. SCNN mencadangkan mekanisme penghantaran mesej untuk menyelesaikan masalah objek yang tidak dapat dikesan secara visual, yang menangkap hubungan spatial yang kukuh yang terdapat dalam lorong. SCNN meningkatkan prestasi pengesanan lorong dengan ketara, tetapi kaedahnya perlahan untuk aplikasi masa nyata. RESA mencadangkan modul pengagregatan ciri masa nyata yang membolehkan rangkaian mengumpul ciri global dan meningkatkan prestasi. Dalam CurveLane-NAS, Carian Seni Bina Neural (NAS) digunakan untuk mencari rangkaian yang lebih baik yang menangkap maklumat yang tepat untuk memudahkan pengesanan lorong lengkung. Walau bagaimanapun, NAS sangat mahal dari segi pengiraan dan memerlukan banyak masa GPU. Kaedah berasaskan segmentasi ini tidak cekap dan memakan masa kerana ia melakukan ramalan tahap piksel pada keseluruhan imej dan tidak menganggap lorong sebagai keseluruhan unit.
2. Kaedah berasaskan sauh
Kaedah berasaskan sauh dalam pengesanan lorong boleh dibahagikan kepada dua kategori, seperti kaedah berasaskan sauh garis dan kaedah berasaskan sauh garis. Kaedah berasaskan sauh garis menggunakan sauh talian yang telah ditetapkan sebagai rujukan untuk mengundur lorong yang tepat. Line-CNN ialah kerja perintis menggunakan garisan dan kord dalam pengesanan lorong. LaneATT mencadangkan mekanisme perhatian berasaskan sauh baru yang boleh mengagregatkan maklumat global. Ia mencapai keputusan terkini dan menunjukkan keberkesanan dan kecekapan yang tinggi. SGNet memperkenalkan penjana sauh berpandukan titik lenyap baru dan menambah berbilang panduan struktur untuk meningkatkan prestasi. Untuk kaedah berasaskan sauh baris, ia meramalkan kemungkinan sel untuk setiap baris yang dipratentukan pada imej. UFLD mula-mula mencadangkan kaedah pengesanan lorong berasaskan sauh dan menggunakan rangkaian tulang belakang yang ringan untuk mencapai kelajuan inferens yang tinggi. Walaupun ringkas dan pantas, prestasi keseluruhannya tidak baik. CondLaneNet memperkenalkan strategi pengesanan lorong bersyarat berdasarkan konvolusi bersyarat dan formula berasaskan sauh baris, iaitu, mula-mula mengesan titik permulaan garisan lorong dan kemudian melakukan pengesanan lorong berasaskan sauh baris. Walau bagaimanapun, dalam beberapa senario yang kompleks, titik permulaan sukar dikenal pasti, menyebabkan prestasi yang agak lemah.
3. Kaedah berasaskan parameter
Berbeza daripada regresi titik, kaedah berasaskan parameter menggunakan parameter untuk memodelkan lengkung lorong dan mengundurkan parameter ini untuk mengesan lorong. PolyLaneNet menggunakan masalah regresi polinomial dan mencapai kecekapan tinggi. LSTR mengambil kira struktur jalan dan pose kamera untuk memodelkan bentuk lorong, dan kemudian memperkenalkan Transformer ke dalam tugas pengesanan lorong untuk mendapatkan ciri global.
Kaedah berasaskan parameter memerlukan lebih sedikit parameter untuk mundur, tetapi sensitif kepada parameter ramalan Contohnya, ramalan pekali tertib tinggi yang salah boleh menyebabkan perubahan dalam bentuk lorong. Walaupun kaedah berasaskan parameter mempunyai kelajuan inferens yang cepat, mereka masih berjuang untuk mencapai prestasi yang lebih tinggi.
Dalam artikel ini, rangka kerja baharu - Rangkaian Penapisan Merentas Lapisan (CLRNet) diperkenalkan, yang menggunakan sepenuhnya ciri peringkat rendah dan peringkat tinggi untuk pengesanan pengesanan lorong. Khususnya, ciri semantik tinggi mula-mula dikesan untuk mengesan lorong secara kasar. Kemudian perhalusi kedudukan lorong dan pengekstrakan ciri secara beransur-ansur berdasarkan ciri terperinci untuk mendapatkan hasil pengesanan ketepatan tinggi (iaitu, kedudukan yang lebih tepat). Untuk menyelesaikan masalah kawasan buta di lorong yang tidak dapat dikesan secara visual, pengumpul ROI diperkenalkan untuk menangkap lebih banyak maklumat konteks global dengan mewujudkan hubungan antara ciri lorong ROI dan keseluruhan peta ciri. Di samping itu, nisbah persilangan atas kesatuan IoU garis lorong juga ditakrifkan, dan kehilangan Talian IoU (LIoU) dicadangkan untuk mengundur lorong secara keseluruhan unit, meningkatkan prestasi dengan ketara berbanding kehilangan standard (iaitu, licin -l1 kerugian).
Rajah 2. Gambaran keseluruhan CLRNet
Rajah di atas menunjukkan keseluruhan rangkaian bahagian hadapan untuk pemprosesan IoU barisan lorong menggunakan algoritma CLRNet yang diperkenalkan dalam artikel ini. Antaranya, rangkaian dalam Rajah (a) menjana peta ciri daripada struktur FPN. Selepas itu, setiap lorong sebelumnya akan diperhalusi daripada ciri peringkat tinggi kepada ciri peringkat rendah. Rajah (b) menunjukkan bahawa setiap kepala akan menggunakan lebih banyak maklumat kontekstual untuk mendapatkan ciri-ciri terdahulu bagi lorong tersebut. Rajah (c) menunjukkan klasifikasi dan regresi sebelumnya lorong. Kehilangan Line IoU yang dicadangkan dalam artikel ini membantu meningkatkan lagi prestasi regresi.
Berikut akan menerangkan proses kerja algoritma yang diperkenalkan dalam artikel ini dengan lebih terperinci.
1. Perwakilan rangkaian lorong
Seperti yang kita semua tahu, lorong di jalan sebenar adalah nipis dan panjang Perwakilan ciri ini mempunyai maklumat terdahulu bentuk yang kukuh, jadi lorong yang dipratentukan sebelumnya boleh membantu rangkaian mencari lorong dengan lebih baik. Dalam pengesanan objek konvensional, objek diwakili oleh kotak segi empat tepat. Walau bagaimanapun, sebarang jenis kotak segi empat tepat tidak sesuai untuk mewakili garis panjang. Di sini, titik 2D yang sama jarak digunakan sebagai perwakilan lorong. Secara khusus, lorong diwakili sebagai jujukan titik, iaitu, P = {(x1, y1), ···,(xN , yN )}. Koordinat-y titik diambil secara seragam dalam arah menegak imej, iaitu , dengan H ialah ketinggian imej. Oleh itu, koordinat-x dikaitkan dengan yang sepadan, dan perwakilan ini dipanggil Lane-first di sini. Setiap lorong sebelumnya akan diramalkan oleh rangkaian dan terdiri daripada empat bahagian:
(1) Kebarangkalian latar depan dan latar belakang.
(2) Panjang lorong diutamakan.
(3) Sudut antara titik permulaan garis lorong dan paksi-x lorong terdahulu (dipanggil x, y dan θ).
(4) N offset, iaitu jarak mendatar antara ramalan dan nilai sebenar.
2. Motivasi penghalusan rentas lapisan
Dalam rangkaian saraf, ciri tahap tinggi yang mendalam menunjukkan maklum balas yang lebih kukuh kepada sasaran jalan dengan lebih banyak ciri semantik, manakala ciri peringkat rendah cetek mempunyai Lebih banyak maklumat kontekstual setempat. Algoritma yang membenarkan objek lorong mengakses ciri peringkat tinggi boleh membantu memanfaatkan maklumat kontekstual yang lebih berguna, seperti membezakan garisan lorong atau tanda tempat. Pada masa yang sama, ciri perincian halus membantu mengesan lorong dengan ketepatan kedudukan yang tinggi. Dalam pengesanan objek, ia membina piramid ciri untuk mengeksploitasi bentuk piramid hierarki ciri ConvNet dan memperuntukkan objek dengan skala yang berbeza kepada tahap piramid yang berbeza. Walau bagaimanapun, adalah sukar untuk menetapkan lorong secara langsung kepada satu aras sahaja, kerana kedua-dua fungsi aras tinggi dan rendah adalah kritikal kepada lorong tersebut. Diilhamkan oleh Cascade RCNN, objek lorong boleh diperuntukkan kepada semua peringkat dan lorong individu dikesan secara berurutan.
Khususnya, lorong dengan ciri canggih boleh dikesan untuk mengesan lorong secara kasar. Berdasarkan lorong yang diketahui yang dikesan, ciri yang lebih terperinci boleh digunakan untuk memperhalusinya. . -semantik peringkat. Rangkaian sisa ResNet digunakan sebagai tulang belakang, dan {L0, L1, L2} digunakan untuk mewakili tahap ciri yang dijana oleh FPN.
Seperti yang ditunjukkan dalam Rajah 2, penghalusan rentas lapisan bermula dari tahap tertinggi L0 dan secara beransur-ansur menghampiri L2. Penghalusan yang sepadan diwakili dengan menggunakan {R0,R1,R2}. Anda kemudiannya boleh meneruskan untuk membina satu siri struktur halus:
di mana t = 1, · · · , T, T ialah jumlah bilangan penapisan.
Keseluruhan kaedah melakukan pengesanan dari lapisan tertinggi dengan semantik tinggi, Pt ialah parameter lorong sebelumnya (koordinat titik permulaan x, y dan sudut θ), yang diilhamkan dan pembelajaran kendiri. Untuk lapisan pertama L0, P0 diedarkan secara seragam pada satah imej, penipisan Rt mengambil Pt sebagai input untuk mendapatkan ciri lorong ROI, dan kemudian melakukan dua lapisan FC untuk mendapatkan parameter penipisan Pt. Memperhalusi maklumat terdahulu lorong secara beransur-ansur dan pengekstrakan maklumat ciri adalah sangat penting untuk penghalusan rentas lapisan. Ambil perhatian bahawa kaedah ini tidak terhad kepada struktur FPN, hanya menggunakan ResNet atau menerima pakai PAFPN juga sesuai.
4. Koleksi ROI
Selepas memberikan maklumat awal lorong kepada setiap peta ciri, modul Jajaran ROI boleh digunakan untuk mendapatkan ciri laluan sebelumnya. Walau bagaimanapun, maklumat kontekstual ciri ini masih tidak mencukupi. Dalam sesetengah kes, kejadian lorong mungkin diduduki atau dikaburkan di bawah keadaan pencahayaan yang melampau. Dalam kes ini, mungkin tiada data penjejakan masa nyata visual tempatan untuk menunjukkan kehadiran lorong. Untuk menentukan sama ada piksel tergolong dalam lorong, seseorang perlu melihat ciri berdekatan. Beberapa penyelidikan baru-baru ini juga menunjukkan bahawa prestasi boleh dipertingkatkan jika kebergantungan jauh dieksploitasi sepenuhnya. Oleh itu, maklumat kontekstual yang lebih berguna boleh dikumpul untuk mempelajari ciri lorong dengan lebih baik.
Untuk melakukan ini, pengiraan belitan dilakukan terlebih dahulu di sepanjang lorong, supaya setiap piksel dalam lorong sebelumnya boleh mengumpul maklumat daripada piksel berdekatan dan bahagian yang diduduki boleh dipertingkatkan berdasarkan maklumat ini. Di samping itu, perhubungan antara ciri terdahulu lorong dan keseluruhan peta ciri diwujudkan. Oleh itu, lebih banyak maklumat kontekstual boleh dieksploitasi untuk mempelajari perwakilan ciri yang lebih baik.
Keseluruhan struktur modul pengumpulan ROI adalah ringan dan mudah untuk dilaksanakan. Oleh kerana, ia mengambil peta ciri dan pendahuluan lorong sebagai input, setiap lorong sebelumnya mempunyai N mata. Berbeza daripada Jajaran ROI kotak sempadan, untuk setiap pengumpulan maklumat terdahulu lorong, perlu terlebih dahulu mendapatkan ciri ROI sebelumnya lorong (Xp ∈ RC×Np) mengikut Jajaran ROI. Sampel titik Np secara seragam dari lorong sebelumnya dan gunakan interpolasi dwilinear untuk mengira nilai tepat ciri input di lokasi ini. Untuk ciri ROI L1 dan L2, perwakilan ciri boleh dipertingkatkan dengan menyambungkan ciri ROI lapisan sebelumnya. Ciri berdekatan setiap piksel lorong boleh dikumpulkan dengan menggabungkan ciri ROI yang diekstrak. Untuk menjimatkan memori, disambungkan sepenuhnya digunakan di sini untuk mengekstrak ciri sebelumnya lorong lagi (Xp ∈ RC×1), di mana saiz peta ciri dilaraskan kepada Ia boleh terus diratakan kepada Xf∈ RC×HW. Untuk mengumpul maklumat konteks global lorong dengan ciri terdahulu, adalah perlu untuk mengira matriks perhatian W antara ciri terdahulu lorong ROI (Xp) dan peta ciri global (Xf) dahulu, yang ditulis sebagai:
di mana f ialah fungsi normalisasi maks lembut. Ciri agregat boleh ditulis sebagai:
Output G mencerminkan nilai superposisi Xf pada Xp , yang dipilih daripada semua kedudukan Xf . Akhirnya, output ditambah kepada input asal Xp.
Untuk menunjukkan lagi cara ROIGather berfungsi dalam rangkaian, analisis ROIGather bagi peta perhatian digambarkan dalam Rajah 3. Ia menunjukkan perhatian antara ciri ROI lorong sebelumnya dan keseluruhan peta ciri. Garis oren ialah lorong sepadan sebelumnya, dan kawasan merah sepadan dengan skor tinggi berat perhatian.
Rajah 3. Ilustrasi pemberat perhatian dalam ROIGather
Rajah di atas menunjukkan pemberat perhatian antara ciri ROI lorong terdahulu (garisan oren) dan keseluruhan peta ciri. Lebih cerah warna, lebih besar nilai beratnya. Terutamanya, ROIGather yang dicadangkan boleh mengumpul konteks global secara berkesan dengan maklumat semantik yang kaya dan menangkap ciri lorong latar depan walaupun di bawah oklusi.
5. Persimpangan garis lorong dan nisbah penyatuan IoU loss
Seperti yang dinyatakan di atas, lorong sebelumnya terdiri daripada titik diskret yang perlu diregres kepada kebenaran asasnya. Kehilangan jarak biasa seperti smooth-l1 boleh digunakan untuk mengundur titik ini. Walau bagaimanapun, kerugian ini menganggap mata sebagai pembolehubah berasingan, yang merupakan andaian yang terlalu dipermudahkan dan menghasilkan regresi yang kurang tepat.
Berbeza dengan kehilangan jarak, Persimpangan atas Kesatuan (IoU) boleh mengundur lorong lebih awal sebagai keseluruhan unit, dan ia disesuaikan dengan metrik penilaian. Algoritma yang mudah dan cekap diperoleh di sini untuk mengira kerugian Line over Union (LIoU).Seperti yang ditunjukkan dalam rajah di bawah, persilangan garisan dan nisbah kesatuan IoU boleh dikira dengan menyepadukan IoU segmen lanjutan mengikut kedudukan xi sampel. . interaksi antara dua segmen garis dan Nisbah kesatuan. Untuk setiap titik dalam lorong yang diramalkan seperti yang ditunjukkan dalam Rajah 4, mula-mula panjangkannya (x
pi
) ke dalam segmen garisan dengan jejari e. Kemudian, IoU antara segmen garis lanjutan dan kebenaran asasnya boleh dikira, ditulis sebagai:
di mana xpi - e, xpi + e ialah titik pengembangan bagi xpi i + e ialah titik groundtruth yang sepadan. Ambil perhatian bahawa d0i boleh menjadi negatif, yang membolehkan pengoptimuman maklumat yang cekap dalam kes segmen garisan tidak bertindih. Maka LIoU boleh dianggap sebagai gabungan titik garis tak terhingga. Untuk memudahkan ungkapan dan memudahkan pengiraan, tukarkannya ke dalam bentuk diskret,
Kemudian, kehilangan LIoU ditakrifkan sebagai:
di mana ∤1U di mana ∤1U
bertindih dengan sempurna , maka LIoU = 1. Apabila dua garisan berjauhan, LIoU menumpu kepada -1.Mengira korelasi garis lorong melalui kehilangan Talian IoU mempunyai dua kelebihan: (1) Ia mudah dan boleh dibezakan, dan mudah untuk melaksanakan pengkomputeran selari. (2) Ia meramalkan lorong secara keseluruhan, yang membantu meningkatkan prestasi keseluruhan.
6. Butiran latihan dan inferens
Pertama, pemilihan sampel hadapan dilakukan.
Semasa proses latihan, setiap lorong kebenaran darat secara dinamik diberikan satu atau lebih lorong yang diramalkan sebagai sampel positif. Khususnya, lorong ramalan diisih mengikut kos peruntukan, yang ditakrifkan sebagai:
di mana Ccls ialah kos fokus antara ramalan dan label. Csim ialah kos persamaan antara lorong yang diramalkan dan lorong sebenar. Ia terdiri daripada tiga bahagian Cdis mewakili jarak piksel purata semua titik lorong yang sah, Cxy mewakili jarak koordinat titik permulaan, dan Ctheta mewakili perbezaan dalam sudut theta. wcls dan wsim ialah pekali berat bagi setiap komponen yang ditentukan. Setiap lorong kebenaran darat diberikan nombor dinamik (atas-k) lorong yang diramalkan mengikut Cassign.
Kedua, ada kehilangan latihan.
Kehilangan latihan termasuk kehilangan klasifikasi dan kehilangan regresi, di mana kerugian regresi dikira hanya untuk sampel tertentu. Fungsi kehilangan keseluruhan ditakrifkan sebagai:
Lcls ialah kehilangan fokus antara ramalan dan label, Lxytl ialah kehilangan licin-l1 untuk regresi koordinat titik permulaan, sudut theta dan panjang lorong, LLIoU adalah antara lorong ramalan dan kebenaran asas kehilangan IoU talian. Dengan menambah kehilangan segmentasi tambahan, ia hanya digunakan semasa latihan dan tidak mempunyai kos inferens.
Akhir sekali, ini mengenai penaakulan dengan berkesan. Tapis lorong latar belakang (lorong skor rendah sebelumnya) dengan menetapkan ambang dengan skor klasifikasi dan gunakan nms untuk mengalih keluar lorong bertindih tinggi selepas itu. Ini juga boleh bebas nms jika menggunakan peruntukan satu sama satu, iaitu tetapan atas-k = 1.
Ringkasan
Atas ialah kandungan terperinci CLRNet: Algoritma rangkaian yang diperhalusi secara hierarki untuk pengesanan lorong pemanduan autonomi. Untuk maklumat lanjut, sila ikut artikel berkaitan lain di laman web China PHP!