Rumah  >  Artikel  >  Peranti teknologi  >  Amaran! Penderiaan LiDAR jarak jauh

Amaran! Penderiaan LiDAR jarak jauh

WBOY
WBOYke hadapan
2024-02-02 11:33:311075semak imbas

1. Pengenalan

Selepas Hari Tucson AI diadakan tahun lepas, saya sentiasa mempunyai idea untuk meringkaskan kerja kami dalam persepsi jarak jauh dalam bentuk teks. Saya kebetulan mempunyai sedikit masa baru-baru ini, jadi saya memutuskan untuk menulis artikel untuk merekodkan proses penyelidikan dalam beberapa tahun kebelakangan ini. Kandungan yang diliputi dalam artikel ini boleh didapati dalam video Tucson AI Day [0] dan kertas kerja kami yang diterbitkan secara terbuka, tetapi ia tidak mengandungi butiran kejuruteraan khusus atau rahsia teknikal.

Seperti yang kita sedia maklum, Tucson memfokuskan pada teknologi pemanduan trak autonomi. Trak mempunyai jarak brek yang lebih panjang dan pertukaran lorong lebih panjang daripada kereta. Hasilnya, Tucson mempunyai kelebihan unik dalam bersaing dengan syarikat pemanduan autonomi lain. Sebagai ahli Tucson, saya bertanggungjawab untuk teknologi penderiaan LiDAR, dan kini saya akan memperkenalkan secara terperinci kandungan berkaitan menggunakan LiDAR untuk penderiaan jarak jauh.

Apabila syarikat mula-mula menyertainya, penyelesaian penderiaan LiDAR arus perdana biasanya ialah penyelesaian BEV (Pandangan Mata Burung). Walau bagaimanapun, BEV di sini bukanlah singkatan bagi Kenderaan Elektrik Bateri yang terkenal, tetapi merujuk kepada penyelesaian yang menayangkan awan titik LiDAR ke dalam ruang BEV dan menggabungkan konvolusi 2D dan kepala pengesanan 2D untuk pengesanan sasaran. Saya secara peribadi berpendapat bahawa teknologi penderiaan LiDAR yang digunakan oleh Tesla harus dipanggil "teknologi gabungan kamera berbilang pandangan dalam ruang BEV." Setakat yang saya tahu, rekod terawal penyelesaian BEV ialah kertas "MV3D" yang diterbitkan oleh Baidu pada persidangan CVPR17 [1]. Banyak kerja penyelidikan seterusnya, termasuk penyelesaian yang sebenarnya digunakan oleh banyak syarikat yang saya tahu, mengguna pakai kaedah menayangkan awan titik LiDAR ke dalam ruang BEV untuk pengesanan sasaran, dan boleh diklasifikasikan sebagai penyelesaian BEV. Penyelesaian ini digunakan secara meluas dalam aplikasi praktikal. Untuk meringkaskan, apabila saya mula-mula menyertai syarikat itu, penyelesaian penderiaan LiDAR arus perdana biasanya menayangkan awan titik LiDAR ke dalam ruang BEV, dan kemudian menggabungkan kepala lilitan 2D dan pengesanan 2D untuk pengesanan sasaran. Teknologi penderiaan LiDAR yang digunakan oleh Tesla boleh dipanggil "teknologi gabungan kamera berbilang pandangan dalam ruang BEV." Kertas kerja "MV3D" yang diterbitkan oleh Baidu pada persidangan CVPR17 adalah rekod awal penyelesaian BEV Selepas itu, banyak syarikat juga menggunakan penyelesaian yang sama untuk pengesanan sasaran.

Amaran! Penderiaan LiDAR jarak jauhCiri perspektif BEV yang digunakan oleh MV3D[1]

Faedah utama penyelesaian BEV ialah ia boleh menggunakan pengesan 2D matang secara langsung, tetapi ia juga mempunyai kelemahan yang membawa maut: ia mengehadkan julat penderiaan. Seperti yang anda boleh lihat dari gambar di atas, kerana pengesan 2D akan digunakan, ia mesti membentuk peta ciri 2D Pada masa ini, ambang jarak mesti ditetapkan untuknya, sebenarnya masih terdapat titik LiDAR di luar julat daripada gambar di atas, tetapi telah dibuang oleh operasi pemotongan ini. Adakah mungkin untuk meningkatkan ambang jarak sehingga lokasi diliputi? Tidak mustahil untuk melakukan ini, tetapi LiDAR mempunyai sedikit awan titik di kejauhan kerana masalah seperti mod pengimbasan, keamatan pantulan (pelemahan dengan jarak ke kuasa keempat), oklusi, dsb., jadi ia tidak kos efektif.

Komuniti akademik tidak begitu memberi perhatian kepada isu skim BEV ini, terutamanya disebabkan oleh keterbatasan set data. Julat anotasi set data arus perdana biasanya kurang daripada 80 meter (seperti 50 meter nuScenes, 70 meter KITTI dan 80 meter Waymo dalam julat jarak ini, saiz peta ciri BEV tidak perlu besar). Walau bagaimanapun, dalam industri, LiDAR jarak pertengahan yang digunakan secara amnya boleh mencapai julat pengimbasan 200 meter, dan dalam beberapa tahun kebelakangan ini, beberapa LiDAR jarak jauh telah dikeluarkan, yang boleh mencapai julat pengimbasan 500 meter. Perlu diingatkan bahawa kawasan dan jumlah pengiraan peta ciri meningkat secara kuadratik apabila jarak bertambah. Di bawah skim BEV, jumlah pengiraan yang diperlukan untuk mengendalikan jarak 200 meter sudah cukup besar, apatah lagi jarak 500 meter. Oleh itu, masalah ini memerlukan lebih perhatian dan penyelesaian dalam industri.

Amaran! Penderiaan LiDAR jarak jauh

Julat pengimbasan lidar dalam set data awam. KITTI (titik merah, 70m) lwn. Argoverse 2 (titik biru, 200m)

Selepas mengenali batasan penyelesaian BEV, akhirnya kami menemui alternatif yang boleh dilaksanakan selepas penyelidikan bertahun-tahun. Proses penyelidikan tidak mudah dan kami mengalami banyak halangan. Umumnya, kertas kerja dan laporan hanya menekankan kejayaan dan tidak menyebut kegagalan, tetapi pengalaman kegagalan juga sangat berharga. Oleh itu, kami memutuskan untuk berkongsi perjalanan penyelidikan kami melalui blog. Seterusnya, saya akan menerangkannya langkah demi langkah mengikut garis masa.

2. Penyelesaian berasaskan titik

Di CVPR19, Cina Hong Kong menerbitkan pengesan awan titik yang dipanggil PointRCNN [2]. Tidak seperti kaedah tradisional, PointRCNN melakukan pengiraan terus pada data awan titik tanpa menukarnya kepada bentuk BEV (pandangan mata burung). Oleh itu, penyelesaian berasaskan awan titik ini secara teorinya boleh mencapai penderiaan jarak jauh.

Amaran! Penderiaan LiDAR jarak jauh

Tetapi kami menemui masalah selepas mencubanya. Bilangan awan titik dalam satu bingkai KITTI boleh diturunkan sampel kepada 16,000 mata untuk pengesanan tanpa kehilangan mata yang banyak Namun, gabungan LiDAR kami mempunyai lebih daripada 100,000 mata dalam satu bingkai. 10 kali jelas ketepatan pengesanan akan sangat terjejas. Jika pensampelan rendah tidak dilakukan, terdapat operasi O(n^2) dalam tulang belakang PointRCNN Akibatnya, walaupun ia tidak mengambil masa, jumlah pengiraan masih tidak dapat ditanggung. Operasi yang memakan masa ini terutamanya disebabkan oleh sifat awan titik itu sendiri yang tidak teratur, yang bermaksud bahawa semua titik mesti dilalui sama ada pensampelan rendah atau pengambilan semula kejiranan. Memandangkan terdapat banyak op yang terlibat dan semuanya adalah op standard yang belum dioptimumkan, tiada harapan untuk mengoptimumkan kepada masa nyata dalam jangka pendek, jadi laluan ini telah ditinggalkan.

Namun, kajian ini tidak sia-sia Walaupun jumlah pengiraan tulang belakang terlalu besar, peringkat kedua hanya dilakukan di latar depan, jadi jumlah pengiraan masih agak kecil. Selepas menggunakan peringkat kedua PointRCNN secara langsung pada pengesan peringkat pertama skema BEV, ketepatan bingkai pengesanan akan dipertingkatkan dengan banyak. Semasa proses permohonan, kami juga menemui masalah kecil dengannya. Selepas menyelesaikannya, kami merumuskannya dan menerbitkannya dalam artikel [3] yang diterbitkan di CVPR21 Anda juga boleh menyemaknya di blog ini:

Wang Feng: LiDAR R- CNN: Pengesan 3D dua peringkat yang pantas dan serba boleh

3. Penyelesaian Range-View

Selepas kegagalan penyelesaian berasaskan Point, kami mengalihkan perhatian kami kepada Range View ketika itu semuanya mekanikal yang berputar Contohnya, lidar 64 baris akan mengimbas 64 baris awan titik dengan sudut pic yang berbeza Contohnya, jika setiap baris mengimbas 2048 mata, imej julat 64*2048 boleh dibentuk.

Amaran! Penderiaan LiDAR jarak jauhPerbandingan RV, BEV dan PV

Dalam Pandangan Julat, awan titik tidak lagi jarang tetapi tersusun padat bersama Sasaran yang jauh hanya lebih kecil pada imej julat, tetapi ia tidak akan dibuang, jadi ia secara teorinya boleh dikesan.

Mungkin kerana ia lebih mirip dengan imej, kajian tentang RV sebenarnya lebih awal daripada BEV Rekod paling awal yang saya dapati juga dari kertas Baidu [4]. ialah RV Aplikasi terawal BEV datang daripada Baidu.

Jadi saya mencubanya pada masa itu Berbanding dengan kaedah BEV, AP RV turun sebanyak 30-40 mata... Saya dapati pengesanan pada imej julat 2D sebenarnya OK, tetapi output 3D. kesan bingkai sangat lemah. Pada masa itu, apabila kami menganalisis ciri RV, kami merasakan bahawa ia mempunyai semua kelemahan imej: skala objek tidak seragam, ciri latar depan dan latar belakang bercampur, dan ciri sasaran jarak jauh yang tidak jelas kelebihan ciri semantik yang kaya dalam imej, jadi saya agak pesimis tentang penyelesaian ini pada masa itu.

Oleh kerana pekerja formal masih perlu membuat kerja pelaksanaan lagipun, lebih baik soalan penerokaan sebegitu diserahkan kepada pelatih. Kemudian, saya mengambil dua pelatih untuk mengkaji masalah ini bersama-sama Apabila saya mencubanya pada set data awam, saya juga kehilangan 30 mata beberapa butiran kertas, mata telah dibawa ke tahap yang serupa dengan kaedah BEV arus perdana, dan kertas akhir diterbitkan pada ICCV21 [5].

Walaupun point dah dinaikkan, masalah belum selesai sepenuhnya Masa tu dah jadi konsensus lidar perlukan multi-frame fusion untuk perbaiki signal-to-noise ratio -sasaran jarak perlu menyusun bingkai untuk meningkatkan jumlah maklumat. Dalam penyelesaian BEV, gabungan berbilang bingkai adalah sangat mudah. ​​Hanya tambahkan cap waktu pada awan titik input dan kemudian pasangkan berbilang bingkai Seluruh rangkaian boleh meningkatkan mata tanpa mengubahnya tiada apa yang telah dicapai kesan yang sama.

Dan pada masa ini, LiDAR juga telah beralih daripada putaran mekanikal kepada keadaan pepejal/separa pepejal dari segi penyelesaian teknikal perkakasan LiDAR pepejal/separuh pepejal tidak lagi boleh membentuk imej julat Membina imej julat secara paksa kehilangan maklumat , jadi laluan ini akhirnya ditinggalkan.

4. Skim Voxel Jarang

Seperti yang dinyatakan sebelum ini, masalah dengan skema berasaskan Titik ialah susunan awan titik yang tidak teratur menyebabkan masalah pensampelan rendah dan pengambilan kejiranan memerlukan merentasi semua awan titik, mengakibatkan pengiraan yang berlebihan, dan Skim BEV Data disusun tetapi terdapat terlalu banyak kawasan kosong, mengakibatkan pengiraan yang berlebihan. Menggabungkan kedua-duanya, melakukan vokselisasi dalam kawasan bertitik untuk menjadikannya tetap, dan tidak menyatakan dalam kawasan tidak bertitik untuk mengelakkan pengiraan tidak sah nampaknya merupakan jalan yang boleh dilaksanakan. Ini adalah penyelesaian voxel yang jarang.

Disebabkan Yan Yan, pengarang SECOND[6], menyertai Tucson, kami mencuba tulang belakang conv jarang pada hari-hari awal Namun, kerana spconv bukan op standard, spconv yang dilaksanakan oleh kami sendiri masih terlalu perlahan dan tidak mencukupi . Pengesanan dilakukan dalam masa nyata, kadangkala lebih perlahan daripada penukaran padat, jadi ia ditangguhkan buat sementara waktu.

Kemudian, LiDAR pertama yang mampu mengimbas 500m: Livox Tele15 tiba, dan algoritma penderiaan LiDAR jarak jauh akan segera saya cuba penyelesaian BEV tetapi ia terlalu mahal, jadi saya mencuba penyelesaian spconv sekali lagi kerana Tele15 The fov adalah. agak sempit, dan awan titik di kejauhan juga sangat jarang, jadi spconv hampir tidak dapat mencapai prestasi masa nyata.

Tetapi jika anda tidak mengambil bev, kepala pengesan tidak boleh menggunakan sauh atau penugasan pusat yang lebih matang dalam pengesanan 2D Ini terutamanya kerana lidar mengimbas permukaan objek dan kedudukan tengah tidak semestinya titik (sebagaimana. ditunjukkan dalam rajah di bawah), tanpa titik, adalah mustahil untuk menetapkan sasaran latar depan. Sebenarnya, kami telah mencuba banyak kaedah tugasan secara dalaman. Kami tidak akan menerangkan secara terperinci tentang kaedah sebenar yang digunakan oleh syarikat di sini.

明月不谙愿: Pengesan objek 3D yang jarang sepenuhnya

Amaran! Penderiaan LiDAR jarak jauh

Tetapi jika anda ingin menggunakan algoritma ini pada gabungan LiDAR 500m ke hadapan, 150m ke belakang dan kiri dan kanan, ia masih tidak mencukupi. Kebetulan pelatih itu menggunakan idea Swin Transformer dan menulis artikel mengenai Sparse Transformer sebelum mengejar populariti [8]. Ia juga mengambil banyak usaha untuk meningkatkan lebih daripada 20 mata sedikit demi sedikit (terima kasih kepada intern kerana membimbing saya, tql ). Pada masa itu, saya merasakan kaedah Transformer masih sangat sesuai untuk data awan titik yang tidak teratur, jadi saya juga mencubanya pada set data syarikat.

Malangnya, kaedah ini selalu gagal mengalahkan kaedah BEV pada set data syarikat, dan bezanya hampir 5 mata jika dilihat kembali sekarang, mungkin ada beberapa helah atau kemahiran latihan yang saya belum kuasai sebab keupayaan ekspresif Transformer ialah Ia tidak lebih lemah daripada penukaran, tetapi saya tidak mencuba lagi kemudian. Walau bagaimanapun, pada masa ini, kaedah tetapkan telah dioptimumkan dan mengurangkan banyak pengiraan, jadi saya ingin mencuba spconv sekali lagi Keputusan yang mengejutkan ialah menggantikan Transformer secara langsung dengan spconv boleh mencapai ketepatan yang sama seperti kaedah BEV pada jarak dekat. . Agak, dan ia juga boleh mengesan sasaran jarak jauh.

Pada masa inilah Yan Yan membuat versi kedua spconv[9]. Kelajuan telah dipertingkatkan dengan ketara, jadi kelewatan pengkomputeran tidak lagi menjadi halangan Akhirnya, persepsi LiDAR jarak jauh melepasi semua halangan dan dapat melakukannya Kereta mula berjalan dalam masa nyata.

Kemudian kami mengemas kini susunan LiDAR dan meningkatkan julat imbasan kepada 500m ke hadapan, 300m ke belakang, dan 150m ke kiri dan kanan Algoritma ini juga berjalan dengan baik, saya percaya bahawa apabila kuasa pengkomputeran terus meningkat pada masa hadapan, kelewatan pengiraan akan berkurangan . Ia semakin kurang menjadi masalah.

Kesan pengesanan jarak jauh terakhir ditunjukkan di bawah Anda juga boleh melihat kedudukan sekitar 01:08:30 video Tucson AI Day untuk melihat kesan pengesanan dinamik:

Amaran! Penderiaan LiDAR jarak jauh

Walaupun ia adalah gabungan terakhir. hasil , tetapi kerana keterlihatan imej adalah sangat rendah disebabkan oleh kabus pada hari ini, keputusan pada dasarnya datang daripada persepsi LiDAR.

V. Postscript

Dari kaedah berasaskan titik, kepada kaedah imej julat, kepada Transformer dan kaedah penukaran jarang berdasarkan voxel jarang, penerokaan persepsi jarak jauh tidak boleh dikatakan lancar, ia hanyalah jalan yang penuh duri. Pada akhirnya, sebenarnya dengan peningkatan berterusan kuasa pengkomputeran dan usaha berterusan ramai rakan sekerja kami mencapai langkah ini. Saya ingin mengucapkan terima kasih kepada Ketua Saintis Tucson Wang Naiyan dan semua rakan sekerja dan pelatih di Tucson Kebanyakan idea dan pelaksanaan kejuruteraan tidak saya lakukan. Saya sangat malu.

Sudah lama saya tidak menulis artikel yang begitu panjang ia ditulis seperti akaun yang sedang berjalan tanpa membentuk cerita yang menyentuh hati. Dalam tahun-tahun kebelakangan ini, semakin sedikit rakan sekerja berkeras untuk melakukan L4, dan rakan sekerja L2 secara beransur-ansur beralih kepada penyelidikan visual semata-mata secara beransur-ansur dipinggirkan dengan mata kasar, walaupun saya masih percaya bahawa satu lagi penderia jarak langsung adalah lebih baik , tetapi orang dalam industri nampaknya semakin tidak bersetuju. Memandangkan saya melihat semakin banyak BEV dan Occupancy pada resume darah segar, saya tertanya-tanya berapa lama penderiaan LiDAR boleh diteruskan, dan berapa lama saya boleh terus menulis artikel sedemikian juga boleh menjadi peringatan.

Saya menangis lewat malam, saya tidak faham apa yang saya cakapkan, maaf.

Atas ialah kandungan terperinci Amaran! Penderiaan LiDAR jarak jauh. Untuk maklumat lanjut, sila ikut artikel berkaitan lain di laman web China PHP!

Kenyataan:
Artikel ini dikembalikan pada:51cto.com. Jika ada pelanggaran, sila hubungi admin@php.cn Padam