Rumah >Peranti teknologi >AI >Di luar ORB-SLAM3! SL-SLAM: Adegan bertekstur lemah ringan, kegelisahan teruk dan lemah semuanya dikendalikan

Di luar ORB-SLAM3! SL-SLAM: Adegan bertekstur lemah ringan, kegelisahan teruk dan lemah semuanya dikendalikan

WBOY
WBOYasal
2024-05-30 09:35:24683semak imbas

Ditulis sebelum ini

Hari ini kita membincangkan bagaimana teknologi pembelajaran mendalam boleh meningkatkan prestasi SLAM berasaskan penglihatan (penyetempatan dan pemetaan serentak) dalam persekitaran yang kompleks. Dengan menggabungkan kaedah pengekstrakan ciri dalam dan pemadanan kedalaman, di sini kami memperkenalkan sistem SLAM visual hibrid serba boleh yang direka untuk meningkatkan penyesuaian dalam senario yang mencabar seperti keadaan cahaya malap, pencahayaan dinamik, kawasan bertekstur lemah dan seks yang teruk. Sistem kami menyokong berbilang mod, termasuk konfigurasi monokular, stereo, monokular-inersia dan stereo-inersia lanjutan. Selain itu, ia juga menganalisis cara menggabungkan SLAM visual dengan kaedah pembelajaran mendalam untuk memberi inspirasi kepada penyelidikan lain. Melalui percubaan yang meluas pada set data awam dan data sampel sendiri, kami menunjukkan bahawa SL-SLAM mengatasi prestasi algoritma SLAM yang terkini dari segi ketepatan kedudukan dan keteguhan penjejakan.

Pautan projek: https://github.com/zzzzxxxx111/SLslam.

(Leret ibu jari anda ke atas, klik pada kad atas untuk mengikuti saya, Seluruh operasi hanya akan mengambil masa 1.328 saat, dan kemudian mengambil masa jauhkan masa depan , semua, maklumat kering percuma, sekiranya sebarang kandungan membantu anda~)

Pengenalan kepada latar belakang aplikasi SLAM semasa

SLAM (pembentuk kedudukan serentak dan pembinaan peta) ialah teknologi dalam robotik, pemanduan autonomi dan pembinaan semula 3D Teknologi utama ialah ia secara serentak menentukan kedudukan sensor (penyetempatan) dan membina peta persekitaran. Penderia penglihatan dan inersia ialah peranti penderiaan yang paling biasa digunakan, dan penyelesaian yang berkaitan telah dibincangkan dan diterokai secara mendalam. Selepas beberapa dekad pembangunan, rangka kerja pemprosesan visual (inertial) SLAM telah membentuk rangka kerja asas, termasuk pengesanan, pembinaan peta dan pengesanan gelung. Dalam algoritma SLAM, modul penjejakan bertanggungjawab untuk menganggar trajektori robot, modul pembinaan peta digunakan untuk menjana dan mengemas kini peta persekitaran, dan pengesanan gelung digunakan untuk mengenal pasti lokasi yang dilawati. Modul ini bekerjasama antara satu sama lain untuk mencapai kesedaran tentang keadaan dan persekitaran robot. Algoritma yang biasa digunakan dalam SLAM visual termasuk kaedah titik ciri, kaedah langsung dan kaedah separa langsung. Dalam kaedah titik ciri, pose kamera dan awan titik tiga dimensi dianggarkan dengan mengekstrak dan memadankan titik ciri secara langsung menganggarkan pose kamera dan awan titik tiga dimensi dengan meminimumkan perbezaan skala kelabu imej Dalam beberapa tahun kebelakangan ini, berkaitan penyelidikan telah memberi tumpuan kepada meningkatkan kekukuhan dalam keadaan yang melampau dan kebolehsuaian. Disebabkan oleh sejarah panjang pembangunan teknologi SLAM, terdapat banyak karya SLAM yang mewakili berdasarkan kaedah geometri tradisional, seperti ORB-SLAM, VINS-Mono, DVO, MSCKF, dll. Walau bagaimanapun, beberapa soalan yang tidak dapat diselesaikan masih kekal. Dalam persekitaran yang mencabar seperti cahaya malap atau pencahayaan dinamik, kegelisahan teruk dan kawasan tekstur yang lemah, kerana algoritma pengekstrakan ciri tradisional hanya mempertimbangkan maklumat setempat imej tanpa mengambil kira maklumat struktur dan semantik imej, apabila menghadapi situasi di atas, sedia ada. pengesanan sistem SLAM mungkin menjadi tidak stabil dan tidak berkesan. Oleh itu, dalam keadaan ini, pengesanan sistem SLAM mungkin menjadi tidak stabil dan tidak berkesan.

Perkembangan pesat pembelajaran mendalam telah membawa perubahan revolusioner kepada bidang penglihatan komputer. Dengan menggunakan sejumlah besar data untuk latihan, model pembelajaran mendalam boleh mensimulasikan struktur adegan kompleks dan maklumat semantik, dengan itu meningkatkan keupayaan sistem SLAM untuk memahami dan menyatakan adegan. Kaedah ini terutamanya dibahagikan kepada dua pendekatan. Yang pertama ialah algoritma hujung ke hujung berdasarkan pembelajaran mendalam, seperti Droid-slam, NICE-SLAM dan DVI-SLAM. Walau bagaimanapun, kaedah ini memerlukan sejumlah besar data untuk latihan, sumber pengkomputeran yang tinggi dan ruang storan, menjadikannya sukar untuk mencapai penjejakan masa nyata. Pendekatan kedua dipanggil SLAM hibrid, yang memanfaatkan pembelajaran mendalam untuk meningkatkan modul tertentu dalam SLAM. SLAM Hibrid memanfaatkan sepenuhnya kaedah geometri tradisional dan kaedah pembelajaran mendalam, dan boleh mencari keseimbangan antara hampir semua kekangan dan pemahaman semantik. Walaupun terdapat beberapa kajian dalam bidang ini, cara untuk mengintegrasikan teknologi pembelajaran mendalam secara berkesan masih merupakan hala tuju yang layak untuk penyelidikan lanjut.

Pada masa ini, SLAM hibrid sedia ada mempunyai beberapa batasan. DXNet hanya menggantikan titik ciri ORB dengan titik ciri mendalam, tetapi terus menggunakan kaedah tradisional untuk menjejaki ciri ini. Oleh itu, ini boleh menyebabkan ketidakselarasan dalam maklumat ciri yang mendalam. SP-Loop hanya memperkenalkan titik ciri pembelajaran mendalam ke dalam modul gelung tertutup, sambil mengekalkan kaedah pengekstrakan titik ciri tradisional di tempat lain. Oleh itu, kaedah SLAM hibrid ini tidak menggabungkan teknologi pembelajaran mendalam secara berkesan dan menyeluruh, mengakibatkan penurunan kesan penjejakan dan pemetaan dalam beberapa adegan yang kompleks.

Untuk menyelesaikan masalah ini, sistem SLAM pelbagai fungsi berdasarkan pembelajaran mendalam dicadangkan di sini. Integrasikan modul pengekstrakan titik ciri Superpoint ke dalam sistem dan gunakannya sebagai satu-satunya bentuk ungkapan di seluruh. Tambahan pula, dalam persekitaran yang kompleks, kaedah pemadanan ciri tradisional sering menunjukkan ketidakstabilan, yang membawa kepada penurunan kualiti penjejakan dan pemetaan. Walau bagaimanapun, kemajuan terkini dalam kaedah pemadanan ciri berasaskan pembelajaran mendalam telah menunjukkan potensi untuk mencapai prestasi pemadanan yang lebih baik dalam persekitaran yang kompleks. Kaedah ini mengeksploitasi maklumat terdahulu dan butiran struktur tempat kejadian untuk meningkatkan keberkesanan pemadanan. Sebagai kaedah pemadanan SOTA (teknologi terkini), Lightglue mempunyai kelebihan untuk sistem SLAM yang memerlukan prestasi masa nyata yang tinggi kerana ciri-cirinya yang cekap dan ringan. Oleh itu, kami telah menggantikan kaedah pemadanan ciri dalam keseluruhan sistem SLAM dengan Lightglue, yang meningkatkan keteguhan dan ketepatan berbanding kaedah tradisional.

Apabila memproses deskriptor titik ciri Superpoint, kami memprosesnya terlebih dahulu agar konsisten dengan latihan beg perkataan visual yang sepadan. Apabila digabungkan dengan Lightglue, pendekatan ini mencapai pengecaman pemandangan yang tepat. Pada masa yang sama, untuk mengekalkan keseimbangan antara ketepatan dan kecekapan, strategi pemilihan titik ciri direka bentuk. Memandangkan kebolehskalaan, mudah alih dan prestasi masa nyata, kami menggunakan perpustakaan ONNX+Rtime untuk menggunakan model pembelajaran mendalam ini. Akhir sekali, satu siri eksperimen direka bentuk untuk membuktikan bahawa kaedah itu meningkatkan ketepatan ramalan trajektori dan keteguhan pengesanan algoritma SLAM dalam pelbagai senario yang mencabar, seperti yang ditunjukkan dalam Rajah 8.

Di luar ORB-SLAM3! SL-SLAM: Adegan bertekstur lemah ringan, kegelisahan teruk dan lemah semuanya dikendalikan

Rangka kerja sistem SL-SLAM

Struktur sistem SL-SLAM ditunjukkan dalam Rajah 2. Sistem ini terutamanya mempunyai empat konfigurasi sensor, iaitu monokular, inersia monokular, binokular dan inersia binokular. Sistem ini berdasarkan ORB-SLAM3 sebagai garis dasar dan mengandungi tiga modul utama: penjejakan, pemetaan setempat dan pengesanan gelung. Untuk menyepadukan model pembelajaran mendalam ke dalam sistem, rangka kerja penggunaan pembelajaran mendalam ONNX Runtime digunakan, menggabungkan model SuperPoint dan LightGlue.

Untuk setiap imej input, sistem terlebih dahulu memasukkannya ke dalam rangkaian SuperPoint untuk mendapatkan tensor kebarangkalian dan tensor deskriptor bagi titik ciri. Sistem kemudiannya memulakan dengan dua bingkai dan melakukan penjejakan kasar pada setiap bingkai berikutnya. Ia memperhalusi lagi anggaran pose dengan menjejaki peta tempatan. Sekiranya berlaku kegagalan penjejakan, sistem sama ada menggunakan bingkai rujukan untuk penjejakan atau melakukan penempatan semula untuk mendapatkan semula pose. Sila ambil perhatian bahawa LightGlue digunakan untuk pemadanan ciri semasa penjejakan kasar, permulaan, penjejakan bingkai rujukan dan penempatan semula. Ini memastikan perhubungan padanan yang tepat dan teguh, dengan itu meningkatkan keberkesanan penjejakan.

Di luar ORB-SLAM3! SL-SLAM: Adegan bertekstur lemah ringan, kegelisahan teruk dan lemah semuanya dikendalikan

Dalam algoritma garis dasar, peranan utama utas pemetaan tempatan adalah untuk membina peta tempatan secara dinamik dalam masa nyata, termasuk titik peta dan bingkai utama. Ia menggunakan peta tempatan untuk melaksanakan pengoptimuman pelarasan berkas, dengan itu mengurangkan ralat penjejakan dan meningkatkan konsistensi. Benang pemetaan tempatan menggunakan output bingkai utama oleh utas penjejakan, triangulasi berasaskan LightGlue dan pengoptimuman pelarasan berkas tempatan (BA) adaptif untuk membina semula titik peta yang tepat. Titik peta berlebihan dan bingkai utama kemudiannya dibezakan dan dialih keluar.

Benang pembetulan gelung tertutup menggunakan pangkalan data kerangka kunci dan model beg-of-words yang dilatih pada deskriptor SuperPoint untuk mendapatkan bingkai kunci yang serupa. Tingkatkan kecekapan perolehan semula dengan memperduakan deskriptor SuperPoint. Bingkai utama yang dipilih dipadankan ciri menggunakan LightGlue untuk pengesahan geometri paparan biasa, mengurangkan kemungkinan ketidakpadanan. Akhir sekali, gabungan gelung tertutup dan BA global (Pelarasan Himpunan) dilakukan untuk mengoptimumkan postur keseluruhan.

1) Pengekstrakan Ciri

Struktur rangkaian SuperPoint: Seni bina rangkaian SuperPoint terutamanya terdiri daripada tiga bahagian: pengekod dikongsi, penyahkod pengesanan ciri dan penyahkod deskriptor. Pengekod ialah rangkaian gaya VGG yang mampu mengurangkan dimensi imej dan mengekstrak ciri. Tugas penyahkod pengesanan ciri adalah untuk mengira kebarangkalian setiap piksel dalam imej untuk menentukan kemungkinannya menjadi titik ciri. Rangkaian penyahkodan deskriptor menggunakan lilitan sub-piksel untuk mengurangkan kerumitan pengiraan proses penyahkodan. Rangkaian kemudiannya mengeluarkan deskriptor separa tumpat, dan algoritma interpolasi bikubik digunakan untuk mendapatkan deskriptor lengkap. Selepas memperoleh tensor titik ciri dan output tensor deskriptor oleh rangkaian, untuk meningkatkan keteguhan pengekstrakan ciri, kami menggunakan strategi pemilihan ambang penyesuaian untuk menapis titik ciri dan melakukan operasi pasca pemprosesan untuk mendapatkan titik ciri dan deskriptornya. . Struktur khusus modul pengekstrakan ciri ditunjukkan dalam Rajah 3.

Di luar ORB-SLAM3! SL-SLAM: Adegan bertekstur lemah ringan, kegelisahan teruk dan lemah semuanya dikendalikan

Pemilihan ciri penyesuaian: Pertama, setiap imej, berlabel I(W × H), ditukarkan kepada kelabu sebelum diubah saiznya supaya sepadan dengan dimensi imej input (W′ × H′) bagi imej darjah rangkaian SuperPoint. Imej yang terlalu kecil boleh menghalang pengekstrakan ciri, dengan itu mengurangkan prestasi penjejakan, manakala imej yang terlalu besar boleh mengakibatkan keperluan pengiraan dan penggunaan memori yang berlebihan. Oleh itu, untuk mengimbangi ketepatan dan kecekapan pengekstrakan ciri, artikel ini memilih W′ = 400 dan H′ = 300. Selepas itu, tensor bersaiz W′ × H′ dimasukkan ke dalam rangkaian, menghasilkan dua tensor output: tensor skor S, dan tensor deskriptor D. Setelah tensor skor titik ciri dan deskriptor ciri diperoleh, langkah seterusnya ialah menetapkan threshold untuk menapis titik ciri.

Dalam senario yang mencabar, keyakinan setiap titik ciri akan dikurangkan, yang mungkin mengakibatkan pengurangan bilangan ciri yang diekstrak jika ambang keyakinan tetap diterima pakai. Untuk menyelesaikan masalah ini, kami memperkenalkan strategi tetapan ambang SuperPoint adaptif. Kaedah penyesuaian ini secara dinamik melaraskan ambang pengekstrakan ciri mengikut adegan, dengan itu mencapai pengekstrakan ciri yang lebih mantap dalam adegan yang mencabar. Mekanisme ambang penyesuaian mengambil kira dua faktor: hubungan antara ciri dan hubungan ciri antara bingkai.

Dalam senario yang mencabar, keyakinan setiap titik ciri akan dikurangkan, yang mungkin mengakibatkan pengurangan bilangan ciri yang diekstrak jika ambang keyakinan tetap diterima pakai. Untuk menyelesaikan masalah ini, strategi tetapan ambang SuperPoint adaptif diperkenalkan. Kaedah penyesuaian ini secara dinamik melaraskan ambang pengekstrakan ciri mengikut adegan, dengan itu mencapai pengekstrakan ciri yang lebih mantap dalam adegan yang mencabar. Mekanisme ambang penyesuaian mengambil kira dua faktor: hubungan antara ciri dan hubungan ciri antara bingkai.

2) Padanan ciri dan bahagian hadapan

Struktur rangkaian LightGlue: Model LightGlue terdiri daripada berbilang lapisan yang sama yang memproses dua set ciri secara bersama. Setiap lapisan mengandungi unit perhatian diri dan perhatian silang untuk mengemas kini perwakilan mata. Pengelas dalam setiap lapisan menentukan tempat untuk menghentikan inferens, mengelakkan pengiraan yang tidak perlu. Akhir sekali, pengepala ringan mengira markah padanan separa. Kedalaman rangkaian dilaraskan secara dinamik berdasarkan kerumitan imej input. Jika pasangan imej mudah dipadankan, penamatan awal boleh dicapai kerana keyakinan tinggi tag. Akibatnya, LightGlue mempunyai masa jalan yang lebih pendek dan penggunaan memori yang lebih rendah, menjadikannya sesuai untuk penyepaduan ke dalam tugas yang memerlukan prestasi masa nyata.

Selang masa antara bingkai bersebelahan biasanya hanya puluhan milisaat ORB-SLAM3 mengandaikan bahawa kamera bergerak pada kelajuan tetap dalam tempoh masa yang singkat ini. Ia menggunakan pose dan halaju bingkai sebelumnya untuk menganggarkan pose bingkai semasa dan menggunakan pose anggaran ini untuk padanan unjuran. Ia kemudian mencari titik padanan dalam julat tertentu dan memperhalusi pose dengan sewajarnya. Walau bagaimanapun, pada hakikatnya, pergerakan kamera mungkin tidak selalu seragam. Pecutan, nyahpecutan atau putaran secara tiba-tiba boleh menjejaskan keberkesanan kaedah ini. Lightglue boleh menyelesaikan masalah ini dengan berkesan dengan memadankan ciri secara langsung antara bingkai semasa dan bingkai sebelumnya. Ia kemudian menggunakan ciri yang dipadankan ini untuk memperhalusi anggaran pose awal, dengan itu mengurangkan kesan negatif pecutan atau putaran mengejut.

Dalam kes di mana penjejakan imej gagal dalam bingkai sebelumnya, sama ada disebabkan pergerakan kamera secara tiba-tiba atau faktor lain, rangka kekunci rujukan perlu digunakan untuk menjejak atau meletakkan semula. Algoritma garis dasar menggunakan kaedah Bag-of-Words (BoW) untuk mempercepatkan padanan ciri antara bingkai semasa dan bingkai rujukan. Walau bagaimanapun, kaedah BoW menukar maklumat spatial kepada maklumat statistik berdasarkan perbendaharaan kata visual, yang mungkin kehilangan hubungan spatial yang tepat antara titik ciri. Tambahan pula, jika perbendaharaan kata visual yang digunakan dalam model BoW tidak mencukupi atau tidak cukup mewakili, ia mungkin tidak menangkap ciri-ciri yang kaya pada adegan, yang membawa kepada ketidaktepatan dalam proses pemadanan.

Digabungkan dengan penjejakan Lightglue: Memandangkan selang masa antara bingkai bersebelahan adalah sangat singkat, biasanya hanya berpuluh-puluh milisaat, ORB-SLAM3 mengandaikan bahawa kamera bergerak pada kelajuan seragam dalam tempoh ini. Ia menggunakan pose dan halaju bingkai sebelumnya untuk menganggarkan pose bingkai semasa dan menggunakan pose anggaran ini untuk padanan unjuran. Ia kemudian mencari titik padanan dalam julat tertentu dan memperhalusi pose dengan sewajarnya. Walau bagaimanapun, pada hakikatnya, pergerakan kamera mungkin tidak selalu seragam. Pecutan, nyahpecutan atau putaran secara tiba-tiba boleh menjejaskan keberkesanan kaedah ini. Lightglue boleh menyelesaikan masalah ini dengan berkesan dengan memadankan ciri secara langsung antara bingkai semasa dan bingkai sebelumnya. Ia kemudian menggunakan ciri yang dipadankan ini untuk memperhalusi anggaran pose awal, dengan itu mengurangkan kesan negatif pecutan atau putaran mengejut.

Dalam kes di mana penjejakan imej gagal dalam bingkai sebelumnya, sama ada disebabkan pergerakan kamera secara tiba-tiba atau faktor lain, rangka kekunci rujukan perlu digunakan untuk menjejak atau meletakkan semula. Algoritma garis dasar menggunakan kaedah Bag-of-Words (BoW) untuk mempercepatkan padanan ciri antara bingkai semasa dan bingkai rujukan. Walau bagaimanapun, kaedah BoW menukar maklumat spatial kepada maklumat statistik berdasarkan perbendaharaan kata visual, yang mungkin kehilangan hubungan spatial yang tepat antara titik ciri. Tambahan pula, jika perbendaharaan kata visual yang digunakan dalam model BoW tidak mencukupi atau tidak cukup mewakili, ia mungkin tidak menangkap ciri-ciri yang kaya pada adegan, yang membawa kepada ketidaktepatan dalam proses pemadanan.

Di luar ORB-SLAM3! SL-SLAM: Adegan bertekstur lemah ringan, kegelisahan teruk dan lemah semuanya dikendalikan

Untuk menyelesaikan masalah ini, kaedah BoW telah digantikan dengan Lightglue di seluruh sistem. Perubahan ini meningkatkan dengan ketara kebarangkalian penjejakan dan penempatan semula yang berjaya di bawah transformasi berskala besar, sekali gus meningkatkan ketepatan dan keteguhan proses penjejakan kami. Rajah 4 menunjukkan keberkesanan kaedah pemadanan yang berbeza. Dapat diperhatikan bahawa kaedah padanan berdasarkan Lightglue menunjukkan prestasi padanan yang lebih baik daripada kaedah padanan berdasarkan unjuran atau Bag-of-Words yang digunakan dalam ORB-SLAM3. Oleh itu, semasa operasi SLAM, ia menjadikan pengesanan titik peta lebih seragam dan stabil, seperti yang ditunjukkan dalam Rajah 6.

Di luar ORB-SLAM3! SL-SLAM: Adegan bertekstur lemah ringan, kegelisahan teruk dan lemah semuanya dikendalikan

Digabungkan dengan pemetaan tempatan Lightglue: Dalam urutan pemetaan tempatan, triangulasi titik peta baharu diselesaikan melalui bingkai utama semasa dan bingkai utama bersebelahan dengannya. Untuk mendapatkan titik peta yang lebih tepat, anda perlu padankan dengan bingkai utama dengan garis dasar yang lebih besar. Walau bagaimanapun, ORB-SLAM3 menggunakan padanan Bag-of-Words (BoW) untuk mencapai ini, tetapi prestasi padanan ciri BoW berkurangan apabila garis dasar besar. Sebaliknya, algoritma Lightglue sangat sesuai untuk dipadankan dengan garis dasar yang besar dan disepadukan dengan lancar ke dalam sistem. Dengan menggunakan Lightglue untuk pemadanan ciri dan titik padanan triangulasi, titik peta yang lebih komprehensif dan berkualiti tinggi boleh dipulihkan.

Ini meningkatkan keupayaan pemetaan tempatan dengan mewujudkan lebih banyak sambungan antara bingkai utama dan menstabilkan penjejakan dengan mengoptimumkan secara bersama pose bingkai utama yang boleh dilihat bersama dan titik peta. Kesan triangulasi titik peta ditunjukkan dalam Rajah 6. Dapat diperhatikan bahawa berbanding dengan ORB-SLAM3, titik peta yang dibina oleh kaedah kami dapat mencerminkan maklumat struktur tempat kejadian dengan lebih baik. Tambahan pula, mereka lebih sekata dan diedarkan secara meluas di angkasa.

3) Penutupan gelung

Deskriptor kedalaman beg perkataan: Kaedah beg perkataan yang digunakan dalam pengesanan penutupan gelung ialah kaedah berdasarkan kosa kata visual, yang menggunakan konsep beg perkataan dalam pemprosesan bahasa semula jadi. Ia mula-mula melaksanakan latihan luar talian kamus. Pada mulanya, algoritma K-means digunakan untuk mengelompokkan deskriptor ciri yang dikesan dalam set imej latihan ke dalam set k, membentuk peringkat pertama pepohon kamus. Selepas itu, operasi rekursif dilakukan dalam setiap set, dan akhirnya pepohon kamus terakhir dengan kedalaman L dan beberapa cabang diperoleh, dan perbendaharaan kata visual diwujudkan. Setiap nod daun dianggap sebagai perbendaharaan kata.

Setelah latihan kamus selesai, vektor beg-of-word dan vektor ciri dijana dalam talian daripada semua titik ciri imej semasa semasa pelaksanaan algoritma. Rangka kerja SLAM arus perdana cenderung menggunakan deskriptor binari yang ditetapkan secara manual kerana jejak memorinya yang kecil dan kaedah perbandingan yang mudah. Bagi meningkatkan lagi kecekapan kaedah, SP-Loop menggunakan taburan Gaussian dengan nilai jangkaan 0 dan sisihan piawai 0.07 untuk mewakili nilai deskriptor titik super. Oleh itu, deskriptor titik terapung 256 dimensi superpoint boleh dikodkan binari untuk meningkatkan kelajuan pertanyaan pengecaman lokasi visual. Pengekodan binari ditunjukkan dalam Persamaan 4.

Di luar ORB-SLAM3! SL-SLAM: Adegan bertekstur lemah ringan, kegelisahan teruk dan lemah semuanya dikendalikan

Proses asas: Pengesanan penutupan gelung dalam SLAM biasanya melibatkan tiga peringkat utama: mencari kerangka kunci calon penutupan gelung awal, mengesahkan rangka kunci calon penutupan gelung, dan melakukan pembetulan penutupan gelung dan pelarasan berkas global (Pelarasan Himpunan, BA).

Langkah pertama dalam proses permulaan ialah mengenal pasti kerangka kunci calon penutupan gelung awal. Ini dicapai dengan memanfaatkan model beg-of-words DBoW3 yang dilatih sebelum ini. Bingkai utama yang berkongsi perbendaharaan kata dengan bingkai semasa Ka dikenal pasti, tetapi bingkai utama yang boleh dilihat bersama dengan Ka dikecualikan. Kira jumlah skor bingkai kunci yang boleh dilihat bersama berkaitan dengan bingkai kunci calon ini. Daripada kumpulan N teratas dengan markah tertinggi antara bingkai kunci calon gelung tertutup, pilih bingkai utama dengan skor tertinggi. Kerangka kunci yang dipilih ini dinyatakan sebagai Km.

Seterusnya, anda perlu menentukan transformasi postur relatif Tam dari Km kepada rangka kunci semasa Ka. Dalam ORB-SLAM3, kaedah pemadanan ciri berasaskan beg-of-words digunakan untuk memadankan bingkai kunci semasa dengan bingkai kunci calon Km dan bingkai kunci Kco yang boleh dilihat bersama. Perlu diingat bahawa oleh kerana algoritma gam cahaya meningkatkan kecekapan pemadanan, pemadanan bingkai semasa dengan bingkai calon Km akan menghasilkan surat-menyurat titik peta berkualiti tinggi. Kemudian, algoritma RANSAC digunakan untuk menghapuskan outlier dan transformasi Sim(3) diselesaikan untuk menentukan sikap relatif awal Tam. Untuk mengelakkan pengecaman kedudukan yang salah, bingkai kunci calon akan disahkan secara geometri dan langkah seterusnya adalah serupa dengan ORB-SLAM3.

Analisis perbandingan eksperimen

Di luar ORB-SLAM3! SL-SLAM: Adegan bertekstur lemah ringan, kegelisahan teruk dan lemah semuanya dikendalikanDi luar ORB-SLAM3! SL-SLAM: Adegan bertekstur lemah ringan, kegelisahan teruk dan lemah semuanya dikendalikanDi luar ORB-SLAM3! SL-SLAM: Adegan bertekstur lemah ringan, kegelisahan teruk dan lemah semuanya dikendalikanDi luar ORB-SLAM3! SL-SLAM: Adegan bertekstur lemah ringan, kegelisahan teruk dan lemah semuanya dikendalikanDi luar ORB-SLAM3! SL-SLAM: Adegan bertekstur lemah ringan, kegelisahan teruk dan lemah semuanya dikendalikan

Di luar ORB-SLAM3! SL-SLAM: Adegan bertekstur lemah ringan, kegelisahan teruk dan lemah semuanya dikendalikan

Atas ialah kandungan terperinci Di luar ORB-SLAM3! SL-SLAM: Adegan bertekstur lemah ringan, kegelisahan teruk dan lemah semuanya dikendalikan. Untuk maklumat lanjut, sila ikut artikel berkaitan lain di laman web China PHP!

Kenyataan:
Kandungan artikel ini disumbangkan secara sukarela oleh netizen, dan hak cipta adalah milik pengarang asal. Laman web ini tidak memikul tanggungjawab undang-undang yang sepadan. Jika anda menemui sebarang kandungan yang disyaki plagiarisme atau pelanggaran, sila hubungi admin@php.cn