Rumah >Peranti teknologi >AI >VectorFlow: Menggabungkan imej dan vektor untuk penghunian trafik dan ramalan aliran
kertas arXiv "VectorFlow: Menggabungkan Imej dan Vektor untuk Penghuni Trafik dan Ramalan Aliran", 9 Ogos 2022, bekerja di Universiti Tsinghua.
Meramalkan tingkah laku ejen jalan raya pada masa hadapan ialah tugas utama dalam pemanduan autonomi. Walaupun model sedia ada telah mencapai kejayaan besar dalam meramalkan tingkah laku ejen masa depan, meramalkan gelagat berbilang ejen secara berkesan masih menjadi cabaran. Baru-baru ini, seseorang mencadangkan perwakilan medan aliran penghunian (OFF) , yang mewakili keadaan masa depan bersama ejen jalan melalui gabungan grid dan aliran penghunian, menyokong ramalan konsisten bersama.
Kerja ini mencadangkan peramal medan aliran penghunian baharu, pengekod imej yang mempelajari ciri daripada imej trafik raster dan pengekod vektor yang menangkap trajektori ejen berterusan dan maklumat keadaan peta, kedua-duanya Digabungkan untuk menjana ramalan penghunian dan aliran yang tepat . Kedua-dua ciri pengekodan digabungkan oleh pelbagai modul perhatian sebelum menjana ramalan akhir. Model ini menduduki tempat ketiga dalam Cabaran Penghunian Set Data Terbuka dan Ramalan Aliran Waymo dan mencapai prestasi terbaik dalam tugasan ramalan aliran dan penghunian tertutup.
Perwakilan OFF ("Medan Aliran Penghuni untuk Ramalan Pergerakan dalam Pemanduan Autonomi", arXiv 2203.03875, 3, 2022) ialah grid ruang masa di mana setiap sel grid termasuk i) Kebarangkalian bahawa mana-mana ejen menduduki unit dan ii) mewakili aliran pergerakan ejen yang menduduki unit itu. Ia memberikan kecekapan dan kebolehskalaan yang lebih baik kerana kerumitan pengiraan untuk meramal medan aliran penghunian adalah bebas daripada bilangan ejen jalan di tempat kejadian.
Gambar menunjukkan gambar rajah bingkai OFF. Struktur pengekod adalah seperti berikut. Peringkat pertama menerima ketiga-tiga jenis titik input dan memprosesnya dengan pengekod terinspirasi PointPillars. Lampu isyarat dan titik jalan diletakkan terus pada grid. Pengekodan keadaan ejen pada setiap langkah masa input t adalah untuk menyampel grid titik bersaiz tetap secara seragam daripada setiap kotak BEV ejen, dan menggabungkan titik ini dengan atribut keadaan ejen yang berkaitan (termasuk pengekodan satu panas masa t ) diletakkan pada grid. Setiap tiang mengeluarkan benam untuk semua titik yang terkandung di dalamnya. Struktur penyahkod adalah seperti berikut. Tahap kedua menerima setiap pembenaman tiang sebagai input dan menjana setiap penghunian sel grid dan ramalan aliran. Rangkaian penyahkod adalah berdasarkan EfficientNet, menggunakan EfficientNet sebagai tulang belakang untuk memproses setiap pembenaman tiang untuk mendapatkan peta ciri (P2,...P7), di mana Pi diturunkan sampel 2^i daripada input. Rangkaian BiFPN kemudiannya digunakan untuk menggabungkan ciri berbilang skala ini dalam cara dua arah. Kemudian, peta ciri peleraian tertinggi P2 digunakan untuk mengundur ramalan penghunian dan aliran untuk semua kelas ejen K pada setiap langkah masa. Khususnya, penyahkod mengeluarkan vektor untuk setiap sel grid sambil meramalkan penghunian dan aliran.
Untuk artikel ini, buat tetapan masalah berikut: memandangkan sejarah 1 saat dan konteks adegan ejen trafik di tempat kejadian, seperti koordinat peta, matlamatnya ialah untuk meramalkan i) penghunian pemerhatian masa hadapan, ii) penghunian oklusi masa hadapan, dan iii) aliran masa depan semua kenderaan pada 8 titik laluan masa hadapan dalam sesuatu kejadian, di mana setiap titik laluan meliputi selang 1 saat.
Proses input menjadi imej raster dan set vektor. Untuk mendapatkan imej, grid raster dicipta pada setiap langkah masa lalu berbanding koordinat tempatan kereta pandu sendiri (SDC), memandangkan trajektori ejen pemerhati dan data peta. Untuk mendapatkan input vektor yang konsisten dengan imej raster, transformasi yang sama diikuti, memutar dan menggerakkan ejen input dan koordinat peta berbanding dengan paparan tempatan SDC.
Pengekod terdiri daripada dua bahagian: model VGG-16 yang mengekod perwakilan raster dan model VectorNe yang mengekod perwakilan vektor. Ciri vektor digabungkan dengan ciri dua langkah terakhir VGG-16 melalui modul perhatian silang. Melalui rangkaian gaya FPN, ciri yang dicantumkan dicontohi kepada resolusi asal dan digunakan sebagai ciri rasterisasi input.
Penyahkod ialah lapisan konvolusi 2D tunggal yang memetakan output pengekod kepada ramalan medan aliran penghunian, yang terdiri daripada satu siri 8 peta grid yang mewakili setiap kali dalam 8 saat Langkah seterusnya penghunian dan ramalan aliran.
Seperti yang ditunjukkan dalam gambar:
Gunakan model VGG-16 standard torchvision sebagai pengekod rasterisasi dan ikuti VectorNet (kod https://github.com/Tsinghua -Pelaksanaan MAR S-Lab/DenseTNT). Input kepada VectorNet terdiri daripada i) set vektor elemen jalan berbentuk B×Nr×9, di mana B ialah saiz kelompok, Nr=10000 ialah bilangan maksimum vektor elemen jalan, dan dimensi terakhir 9 mewakili setiap vektor dan ID vektor Kedudukan (x, y) dan arah (cosθ, sinθ) bagi dua titik akhir; ii) satu set vektor ejen dengan bentuk B×1280×9, termasuk vektor sehingga 128 ejen di tempat kejadian, di mana setiap ejen Dengan 10 vektor dari kedudukan pemerhatian.
Mengikuti VectorNet, mula-mula jalankan peta setempat mengikut ID setiap elemen trafik, dan kemudian jalankan peta global pada semua ciri tempatan untuk mendapatkan ciri vektor bentuk B×128×N, dengan N ialah trafik Jumlah elemen, termasuk elemen laluan dan kecerdasan. Saiz ciri ditambah lagi empat kali melalui lapisan MLP untuk mendapatkan ciri vektor terakhir V, yang bentuknya ialah B × 512 × N, dan saiz cirinya konsisten dengan saiz saluran ciri imej.
Ciri output setiap tahap VGG diwakili sebagai {C1, C2, C3, C4, C5}, berbanding imej input dan 512 dimensi tersembunyi, langkahnya ialah {1, 2, 4, 8 , 16} piksel. Ciri vektor V digabungkan dengan ciri imej raster C5 bentuk B×512×16×16 melalui modul perhatian silang untuk mendapatkan F5 bentuk yang sama. Item pertanyaan perhatian silang ialah ciri imej C5, yang diratakan menjadi bentuk B×512×256 dengan 256 token, dan item Kunci dan Nilai ialah ciri vektor V dengan token N.
Kemudian sambungkan F5 dan C5 pada dimensi saluran, dan lalui dua lapisan konvolusi 3×3 untuk mendapatkan P5 dengan bentuk B×512×16×16. P5 ditingkatkan melalui modul pensampelan 2×2 gaya FPN dan disambungkan kepada C4 (B×512×32x32) untuk menjana U4 dengan bentuk yang sama seperti C4. Satu lagi pusingan gabungan kemudiannya dilakukan antara V dan U4, mengikut prosedur yang sama, termasuk perhatian silang, untuk mendapatkan P4 (B × 512 × 32 × 32). Akhir sekali, P4 ditingkatkan sampel secara beransur-ansur oleh rangkaian gaya FPN dan disambungkan dengan {C3, C2, C1} untuk menjana EP1 dengan bentuk B×512×256×256. Lulus P1 melalui dua lapisan konvolusi 3×3 untuk mendapatkan ciri keluaran akhir dengan bentuk B×128×256.
Penyahkod ialah lapisan konvolusi 2D tunggal dengan saiz saluran input 128 dan saiz saluran output 32 (8 titik laluan × 4 dimensi output).
Keputusannya adalah seperti berikut:
Atas ialah kandungan terperinci VectorFlow: Menggabungkan imej dan vektor untuk penghunian trafik dan ramalan aliran. Untuk maklumat lanjut, sila ikut artikel berkaitan lain di laman web China PHP!