Rumah >Peranti teknologi >AI >Kajian semula kaedah visual untuk ramalan trajektori
Kertas ulasan baru-baru ini "Ramalan Trajektori Dengan Visi: Satu Tinjauan" datang daripada syarikat Hyundai dan Aptiv, Motional, bagaimanapun, merujuk kepada artikel ulasan "Niat Berasaskan Visi dan Ramalan Trajektori dalam Kenderaan Autonomi: Satu Tinjauan" oleh Oxford; Universiti".
Tugas ramalan pada asasnya dibahagikan kepada dua bahagian: 1) Niat, iaitu tugas klasifikasi yang pra-reka set kelas niat untuk ejen ia biasanya dianggap sebagai masalah pembelajaran yang diselia, dan ia adalah perlu untuk melabelkan kemungkinan niat Pengelasan ejen; 2) Trajektori, yang memerlukan meramalkan satu set kemungkinan kedudukan ejen dalam bingkai masa hadapan yang berikutnya, yang dipanggil titik laluan; ini membentuk interaksi antara ejen dan antara ejen dan jalan.
Model ramalan tingkah laku sebelum ini boleh dibahagikan kepada tiga kategori: model berasaskan fizik, berasaskan manuver dan persepsi interaksi. Ayat ini boleh ditulis semula sebagai: Menggunakan persamaan dinamik model fizikal, pergerakan yang boleh dikawal secara buatan direka bentuk untuk pelbagai jenis agen. Kaedah ini tidak boleh memodelkan keadaan potensi keseluruhan situasi, tetapi biasanya hanya memfokuskan pada ejen tertentu. Walau bagaimanapun, pada era sebelum pembelajaran mendalam, trend ini pernah menjadi SOTA. Model berasaskan manuver ialah model berdasarkan jenis pergerakan yang diharapkan oleh ejen. Model sedar interaksi biasanya sistem berasaskan pembelajaran mesin yang melakukan inferens berpasangan untuk setiap ejen dalam adegan dan menjana ramalan sedar interaksi untuk semua ejen dinamik. Terdapat tahap korelasi yang tinggi antara sasaran ejen berdekatan yang berbeza di tempat kejadian. Memodelkan modul perhatian trajektori ejen kompleks boleh membawa kepada generalisasi yang lebih baik.
Meramalkan tindakan atau peristiwa masa depan boleh menjadi tersirat, atau trajektori masa depannya boleh menjadi eksplisit. Niat ejen mungkin dipengaruhi oleh: a) kepercayaan atau kehendak ejen sendiri (yang sering tidak dipatuhi dan oleh itu sukar untuk dimodelkan b) interaksi sosial, yang boleh dimodelkan dengan cara yang berbeza, cth , dsb.; c) kekangan persekitaran, seperti susun atur jalan, yang boleh dikodkan melalui peta definisi tinggi (HD) d) maklumat latar belakang dalam bentuk bingkai imej RGB, awan titik lidar, aliran optik, Rajah segmentasi dsb. Ramalan trajektori, sebaliknya, adalah masalah yang lebih mencabar kerana ia melibatkan regresi (berterusan) dan bukannya masalah klasifikasi, tidak seperti mengiktiraf niat.
Trajektori dan niat perlu bermula dari kesedaran interaksi. Andaian yang munasabah ialah apabila cuba memandu secara agresif ke lebuh raya dengan trafik yang sesak, kenderaan yang lalu lalang mungkin membrek dengan kuat. Permodelan. Adalah lebih baik untuk membuat model dalam ruang BEV, yang membolehkan ramalan trajektori, tetapi juga dalam paparan imej (juga dipanggil perspektif). Ayat ini boleh ditulis semula sebagai: "Ini kerana kawasan kepentingan (RoI) boleh ditetapkan dalam bentuk grid kepada julat jarak khusus.". Walau bagaimanapun, disebabkan garisan yang hilang dalam perspektif, perspektif imej secara teorinya boleh mengembangkan RoI tanpa had. Ruang BEV lebih sesuai untuk pemodelan oklusi kerana ia memodelkan pergerakan secara lebih linear. Dengan melakukan anggaran sikap (terjemahan dan pusingan kenderaan sendiri), pampasan gerakan sendiri boleh dilakukan dengan mudah. Di samping itu, ruang ini mengekalkan gerakan dan skala ejen, iaitu, kenderaan di sekeliling akan menduduki bilangan piksel BEV yang sama tanpa mengira jaraknya dari kenderaan sendiri tetapi ini tidak berlaku dengan perspektif imej. Untuk meramal masa depan, seseorang perlu mempunyai pemahaman tentang masa lalu. Ini biasanya boleh dilakukan melalui penjejakan, atau ia boleh dilakukan dengan ciri BEV agregat sejarah.
Rajah berikut ialah gambar rajah blok beberapa komponen dan aliran data model ramalan:
Jadual berikut ialah ringkasan model ramalan:
Berikut pada asasnya membincangkan model ramalan dari perspektif input/output:
1) Tracklet: Modul persepsi meramalkan status semasa semua dinamik ejen. Keadaan ini termasuk pusat 3-D, dimensi, halaju, pecutan dan atribut lain. Penjejak boleh memanfaatkan data ini dan mewujudkan persatuan sementara supaya setiap penjejak boleh mengekalkan sejarah keadaan semua ejen. Kini, setiap tracklet mewakili pergerakan masa lalu ejen. Bentuk model ramalan ini adalah yang paling mudah kerana inputnya hanya terdiri daripada trajektori yang jarang. Penjejak yang baik dapat menjejaki ejen walaupun ia tersekat dalam bingkai semasa. Memandangkan penjejak tradisional adalah berdasarkan rangkaian pembelajaran bukan mesin, ia menjadi sangat sukar untuk melaksanakan model hujung ke hujung.
2) Data penderia mentah: Ini ialah kaedah hujung ke hujung Model memperoleh maklumat data penderia mentah dan meramalkan ramalan trajektori setiap ejen di tempat kejadian. Kaedah ini mungkin mempunyai output tambahan atau tidak dan kerugiannya untuk menyelia latihan yang kompleks. Kelemahan pendekatan jenis ini ialah input adalah intensif maklumat dan mahal dari segi pengiraan. Ini disebabkan oleh penggabungan tiga masalah persepsi, pengesanan dan ramalan, menjadikan model sukar dibangunkan dan lebih sukar untuk mencapai penumpuan.
3) Camera-vs-BEV: Kaedah BEV memproses data daripada peta paparan atas, dan algoritma ramalan kamera melihat dunia dari perspektif kenderaan sendiri biasanya lebih mencabar daripada yang pertama pelbagai sebab; pertama, dari persepsi BEV boleh mendapatkan medan pandangan yang lebih luas dan maklumat ramalan yang lebih kaya Selain itu, kamera lebih cenderung untuk disekat, jadi ia berbeza daripada kamera berdasarkan Berbanding dengan kaedah kamera, kaedah BEV tertakluk kepada lebih sedikit cabaran "separa pemerhatian" kedua, melainkan data lidar tersedia, penglihatan bermata sukar bagi algoritma untuk menyimpulkan kedalaman ejen yang dipersoalkan, yang merupakan petunjuk penting untuk meramalkan kelakuannya ; Akhirnya, kamera bergerak, yang memerlukan pemprosesan pergerakan ejen dan kenderaan sendiri, yang berbeza daripada BEV statik; Satu kata berhati-hati: Sebagai kelemahan, kaedah perwakilan BEV masih mempunyai masalah ralat terkumpul walaupun ia sedang memproses pandangan kamera Terdapat cabaran yang wujud, tetapi ia masih lebih praktikal daripada BEV, dan kereta jarang mempunyai akses kepada kamera yang menunjukkan lokasi BEV dan ejen berkenaan di jalan raya. Kesimpulannya ialah sistem ramalan seharusnya dapat melihat dunia dari perspektif kenderaan sendiri, termasuk lidar dan/atau kamera stereo, yang datanya mungkin berfaedah untuk melihat dunia dalam 3D satu lagi perkara penting yang berkaitan; masa jika perhatian mesti disertakan Apabila meramalkan kedudukan ejen, lebih baik menggunakan kedudukan kotak sempadan daripada titik tengah tulen, kerana koordinat bekas menunjukkan perubahan dalam jarak relatif antara kenderaan dan pejalan kaki juga sebagai gerakan kendiri kamera; dengan kata lain, sebagai ejen Apabila badan menghampiri kenderaan sendiri, kotak sempadan menjadi lebih besar, memberikan anggaran kedalaman tambahan (walaupun awal).
4) Ramalan gerakan diri: Modelkan gerakan kenderaan sendiri untuk menjana trajektori yang lebih tepat. Pendekatan lain menggunakan rangkaian dalam atau model dinamik untuk memodelkan gerakan ejen yang diminati, memanfaatkan kuantiti tambahan yang dikira daripada input set data, seperti pose, aliran optik, peta semantik dan peta haba.
5) Pengekodan domain masa: Memandangkan persekitaran pemanduan adalah dinamik dan terdapat banyak ejen aktif, adalah perlu untuk mengekod dalam dimensi masa ejen untuk membina sistem ramalan yang lebih baik yang membandingkan apa yang berlaku pada masa lalu dengan The masa depan disambungkan dengan apa yang berlaku sekarang; mengetahui dari mana ejen itu berasal membantu meneka ke mana ejen mungkin pergi seterusnya struktur.
6) Pengekodan sosial: Untuk menangani cabaran "berbilang ejen", kebanyakan algoritma berprestasi terbaik menggunakan pelbagai jenis rangkaian saraf graf (GNN) untuk mengekod interaksi sosial antara ejen kebanyakan Kaedah mengekod temporal dan dimensi sosial secara berasingan—sama ada bermula dengan dimensi temporal dan kemudian mempertimbangkan dimensi sosial, atau dalam susunan terbalik terdapat model berasaskan Transformer yang mengekod kedua-dua dimensi secara serentak.
7) Ramalan berdasarkan matlamat yang dijangkakan: Ramalan niat tingkah laku, seperti konteks adegan, biasanya dipengaruhi oleh matlamat jangkaan yang berbeza dan harus disimpulkan melalui penjelasan untuk ramalan masa depan yang dikondisikan pada matlamat yang dijangkakan, matlamat ini akan dimodelkan sebagai keadaan masa depan (ditakrifkan sebagai koordinat destinasi) atau jenis pergerakan yang dijangka oleh ejen dalam bidang neurosains dan penglihatan komputer menunjukkan bahawa orang biasanya ejen berorientasikan matlamat sebagai tambahan, semasa membuat keputusan, orang Mengikuti satu siri peringkat berturut-turut; penaakulan, akhirnya merumuskan rancangan jangka pendek atau panjang berdasarkan ini, soalan boleh dibahagikan kepada dua kategori: yang pertama adalah kognitif, menjawab soalan ke mana ejen itu pergi; bagaimana ejen ini mencapai matlamat yang dimaksudkan.
8) Ramalan pelbagai mod: Memandangkan persekitaran jalan raya adalah stokastik, trajektori sebelumnya boleh membentangkan trajektori masa depan yang berbeza, oleh itu, sistem ramalan praktikal yang menyelesaikan cabaran "stochasticity" akan memberi impak yang besar kepada masalah itu .
Atas ialah kandungan terperinci Kajian semula kaedah visual untuk ramalan trajektori. Untuk maklumat lanjut, sila ikut artikel berkaitan lain di laman web China PHP!