Rumah >Peranti teknologi >AI >Anggaran kedalaman SOTA! Gabungan penyesuaian kedalaman monokular dan sekeliling untuk pemanduan autonomi

Anggaran kedalaman SOTA! Gabungan penyesuaian kedalaman monokular dan sekeliling untuk pemanduan autonomi

PHPzke hadapan: 2024-03-23 13:06:021408semak imbas

Ditulis sebelum & pemahaman peribadi

Anggaran kedalaman berbilang paparan telah mencapai prestasi tinggi dalam pelbagai ujian penanda aras. Walau bagaimanapun, hampir semua sistem berbilang paparan semasa bergantung pada pose kamera ideal yang diberikan, yang tidak tersedia dalam banyak senario dunia sebenar, seperti pemanduan autonomi. Kerja ini mencadangkan penanda aras kekukuhan baharu untuk menilai sistem anggaran kedalaman di bawah pelbagai tetapan pose bising. Yang menghairankan, didapati kaedah anggaran kedalaman berbilang paparan semasa atau kaedah gabungan pandangan tunggal dan berbilang pandangan gagal apabila diberikan tetapan pose bising. Untuk menangani cabaran ini, di sini kami mencadangkan AFNet, sistem anggaran kedalaman bercantum satu pandangan dan berbilang paparan yang menyepadukan secara adaptif hasil berbilang pandangan dan pandangan tunggal berkeyakinan tinggi untuk mencapai anggaran kedalaman yang mantap dan tepat. Modul gabungan adaptif melakukan gabungan dengan memilih kawasan berkeyakinan tinggi secara dinamik antara kedua-dua cawangan berdasarkan peta keyakinan bungkusan. Oleh itu, apabila berhadapan dengan pemandangan tanpa tekstur, penentukuran yang tidak tepat, objek dinamik dan keadaan lain yang terdegradasi atau mencabar, sistem cenderung untuk memilih cawangan yang lebih dipercayai. Di bawah ujian kekukuhan, kaedah ini mengatasi kaedah berbilang pandangan dan gabungan terkini. Selain itu, prestasi tercanggih dicapai pada penanda aras yang mencabar (KITTI dan DDAD).

Pautan kertas: https://arxiv.org/pdf/2403.07535.pdf

Nama kertas: Gabungan Suaian Kedalaman Pandangan Tunggal dan Pelbagai Pandangan untuk Pemanduan Autonomi

Latar belakang medan

sentiasa ada estimasi imej

telah Satu cabaran dalam bidang penglihatan komputer dengan pelbagai aplikasi. Untuk sistem pemanduan autonomi berasaskan penglihatan, persepsi kedalaman adalah kunci, membantu memahami objek di jalan raya dan membina peta 3D persekitaran. Dengan aplikasi rangkaian neural dalam dalam pelbagai masalah visual, kaedah berdasarkan rangkaian neural konvolusi (CNN) telah menjadi arus utama tugas anggaran kedalaman.

Mengikut format input, ia terbahagi terutamanya kepada anggaran kedalaman berbilang pandangan dan anggaran kedalaman pandangan tunggal. Andaian di sebalik kaedah berbilang paparan untuk menganggarkan kedalaman ialah, memandangkan kedalaman yang betul, penentukuran kamera dan pose kamera, piksel merentas paparan sepatutnya serupa. Mereka bergantung pada geometri epipolar untuk menyegitiga ukuran kedalaman berkualiti tinggi. Walau bagaimanapun, ketepatan dan keteguhan kaedah berbilang paparan sangat bergantung pada konfigurasi geometri kamera dan padanan yang sepadan antara pandangan. Pertama, kamera perlu menterjemah cukup untuk membenarkan triangulasi. Dalam senario pandu sendiri, kenderaan sendiri mungkin berhenti di lampu isyarat atau membelok tanpa bergerak ke hadapan, yang boleh menyebabkan triangulasi gagal. Selain itu, kaedah berbilang paparan mengalami masalah sasaran dinamik dan kawasan tanpa tekstur, yang lazim dalam senario pemanduan autonomi. Masalah lain ialah pengoptimuman sikap SLAM pada kenderaan bergerak. Dalam kaedah SLAM sedia ada, bunyi bising tidak dapat dielakkan, apatah lagi situasi yang mencabar dan tidak dapat dielakkan. Sebagai contoh, robot atau kereta pandu sendiri boleh digunakan selama bertahun-tahun tanpa penentukuran semula, menghasilkan pose yang bising. Sebaliknya, memandangkan kaedah pandangan tunggal bergantung pada pemahaman semantik adegan dan isyarat unjuran perspektif, kaedah tersebut lebih teguh kepada kawasan tanpa tekstur, objek dinamik dan tidak bergantung pada pose kamera. Walau bagaimanapun, disebabkan oleh kekaburan skala, prestasinya masih jauh di belakang kaedah berbilang paparan. Di sini, kami cenderung untuk mempertimbangkan sama ada kelebihan kedua-dua kaedah ini boleh digabungkan dengan baik untuk anggaran kedalaman video monokular yang mantap dan tepat dalam senario pemanduan autonomi.

Struktur rangkaian AFNet

Struktur AFNet ditunjukkan di bawah Ia terdiri daripada tiga bahagian: cawangan satu pandangan, cawangan berbilang pandangan dan modul gabungan adaptif (AF). Kedua-dua cawangan berkongsi rangkaian pengekstrakan ciri dan mempunyai ramalan dan peta keyakinan mereka sendiri, iaitu, , , dan , dan kemudian digabungkan oleh modul AF untuk mendapatkan ramalan akhir yang tepat dan mantap Latar belakang hijau dalam modul AF mewakili tunggal -lihat cawangan dan Keluaran cawangan berbilang paparan.