RV融合性能拉爆！ RCBEVDet：Radar也有春天，最新SOTA！-人工智慧-PHP中文網

首頁

科技週邊

人工智慧

RV融合性能拉爆！ RCBEVDet：Radar也有春天，最新SOTA！

WBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWB

Apr 02, 2024 am 11:49 AM

自動駕駛雷達

寫在前面&筆者的個人理解

這篇討論文關注的主要問題是3D目標偵測技術在自動駕駛進程中的應用。儘管環境視覺相機技術的發展為3D目標檢測提供了高分辨率的語義訊息，但這種方法因無法精確捕獲深度資訊和在惡劣天氣或低光照條件下的表現不佳等問題而受限。針對這一問題，討論提出了一種結合環視相機和經濟型毫米波雷達感測器的多模式3D目標檢測新方法—RCBEVDet。該方法透過綜合使用多感測器的信息，提供了更豐富的語義資訊以及在惡劣天氣或低光照條件下的表現不佳等問題的解決方案。針對這一問題，討論提出了一種結合環視相機和經濟型毫米波雷達感測器的多模式3D目標檢測新方法—RCBEVDet。透過綜合使用多模感測器的信息，RCBEVDet能夠提供高解析度的語義訊息，並在惡劣天氣或低光照條件下表現出良好的性能。此方法的提出對於改善自動

RCBEVDet的核心在於兩個關鍵設計：RadarBEVNet和Cross-Attention Multi-layer Fusion Module（CAMF）。 RadarBEVNet旨在有效提取雷達特徵，它包括雙流雷達主幹網路RCS（雷達截面積）感知的BEV（鳥瞰圖）編碼器。這樣的設計利用了點雲基和變換器基編碼器處理雷達點，透過交互更新雷達點特徵，同時將雷達特定的RCS特性作為目標大小的先驗資訊來優化BEV空間的點特徵分佈。 CAMF模組透過多模態交叉注意力機制解決了雷達點的方位誤差問題，實現了雷達和相機的BEV特徵圖的動態對齊以及透過通道和空間融合的多模態特徵自適應融合。在實作中，透過互動更新雷達點特徵，同時將雷達特定的RCS特性作為目標大小的先驗資訊來優化BEV空間的點特徵分佈。 CAMF模組透過多模態交叉注意力機制解決了雷達點的方位誤差問題，實現了雷達和相機的BEV特徵圖的動態對齊以及透過通道和空間融合的多模態特徵自適應融合。

RV融合性能拉爆！ RCBEVDet：Radar也有春天，最新SOTA！

論文提出的新方法透過以下幾點實現對現有問題的解決：

高效的雷達特徵提取器：透過雙流雷達主幹和RCS感知的BEV編碼器設計，專門針對雷達資料的特性進行最佳化，解決了使用為光達設計的編碼器處理雷達資料的不足。
強大的雷達-相機特徵融合模組：採用變形的交叉注意力機制，有效處理環視圖像和雷達輸入之間的空間不對齊問題，提高融合效果。

論文的主要貢獻如下：

提出了一種新穎的雷達-相機多模態3D目標偵測器RCBEVDet，實現了高精度、高效率和強魯棒性的3D目標偵測。
設計了雷達資料的高效能特徵提取器RadarBEVNet，透過雙流雷達主幹和RCS感知BEV編碼器，提高了特徵提取的效率和準確性。
引入了Cross-Attention Multi-layer Fusion模組，透過變形交叉注意力機制實現了雷達和相機特徵的精確對齊和高效融合。
在nuScenes和VoD資料集上達到了雷達-相機多模態3D目標偵測的新的最佳性能，同時在精度和速度之間實現了最佳平衡，並展示了在感測器失效情況下的良好魯棒性。

詳解RCBEVDet

RV融合性能拉爆！ RCBEVDet：Radar也有春天，最新SOTA！

RadarBEVNet

RadarBEVNet是這篇論文提出的有效雷輛BEV（鳥現圖）特徵提取的網路架構，主要包括兩個核心組成部分：雙流雷達主幹網路和RCS（雷達截面積）感知的BEV編碼器。雙流雷達主幹網路用於從多通道雷達資料中提取豐富的特徵表示。它基於深度卷積神經網路（CNN）構建，在嵌套的捲積和池化層之間交替進行特徵提取和降維操作，以逐漸獲得抽

Dual-stream radar backbone

雙流雷達主幹網路由點基主幹幹和變換器基底主幹組成。點基主幹網路透過多層感知機（MLP）和最大池化操作學習部雷達特徵，其過程可以簡化為以下公式：

在這裡的表示雷達點特徵，透過MLP增加特徵維度後，再透過最大池化操作提取全局資訊並與高維特徵連接。

變換器基於幹擾量塊，引入了距離調製的注意力機制（DMSA），透過考慮雷達點之間的距離訊息，優化模型聚集鄰近資訊的能力，促進模型的收斂。 DMSA機制的自註意力可表示為：

RCS-aware BEV encoder

為了解決傳統雷達BEV編碼器產生的BEV特徵稀疏性問題，提出了RCS感知的BEV編碼器。它利用RCS作為目標大小的先驗訊息，將雷達點特徵散佈到BEV空間中的多個像素上，而不是單一像素，以增加BEV特徵的密度。該過程透過以下公式實現：

其中，為基於RCS的高斯式BEV權重圖，透過最大化所有雷達點的權重圖來最佳化。最終，將RCS散佈得到的特徵與連接並透過MLP處理，得到最終的RCS感知BEV特徵。

整體而言，RadarBEVNet透過結合雙流雷達主幹網路和RCS感知的BEV編碼器，高效地提取雷達資料的特徵，並透過RCS作為目標大小的先驗，優化了BEV空間的特徵分佈，為之後的多模態融合提供了強大的基礎。

RV融合性能拉爆！ RCBEVDet：Radar也有春天，最新SOTA！

Cross-Attention Multi-layer Fusion Module

Cross-Attention Multi-layer Fusion Module (CAMF)是一種用於動態對齊和融合多模態特徵的高階網路結構，特別針對雷達和相機產生的鳥瞰圖（BEV）特徵的動態對齊和融合設計。這個模組主要解決了由於雷達點雲的方位誤差導致的特徵不對齊問題，透過變形的交叉注意力機制（Deformable Cross-Attention），有效地捕捉雷達點的微小偏差，並減少了標準交叉注意力的計算複雜度。

CAMF利用變形交叉注意力機制來對齊相機和雷達的BEV特徵。給定相機和雷達的BEV特徵和，首先給和添加可學習的位置嵌入，然後將轉換為查詢和參考點，作為鍵和值。多頭變形交叉注意力的計算可以表示為：

其中表示注意力頭的索引，表示取樣鍵的索引，是總的取樣鍵數。表示採樣偏移，是由和計算得到的注意力權重。

RV融合性能拉爆！ RCBEVDet：Radar也有春天，最新SOTA！

在透過交叉注意力對齊相機和雷達的BEV特徵之後，CAMF使用通道和空間融合層來聚合多模態BEV特徵。具體地，首先將兩個BEV特徵串聯為，然後將送入CBR（卷積-批歸一化-激活函數）區塊並透過殘差連接獲得融合特徵。 CBR塊依序由一個的捲積層、一個批歸一化層和一個ReLU激活函數組成。之後，連續應用三個CBR塊以進一步融合多模態特徵。

透過上述過程，CAMF有效地實現了雷達和相機BEV特徵的精確對齊和高效融合，為3D目標檢測提供了豐富而準確的特徵信息，從而提高了檢測性能。

讨论

论文提出的RadarBEVNet方法通过融合相机和雷达的多模态数据，有效地提升了3D目标检测的准确性和鲁棒性，尤其在复杂的自动驾驶场景中表现出色。通过引入RadarBEVNet和Cross-Attention Multi-layer Fusion Module（CAMF），RadarBEVNet不仅优化了雷达数据的特征提取过程，还实现了雷达和相机数据之间精准的特征对齐和融合，从而克服了单一传感器数据使用中的局限性，如雷达的方位误差和相机在低光照或恶劣天气条件下的性能下降。

优点方面，RadarBEVNet的主要贡献在于其能够有效处理并利用多模态数据之间的互补信息，提高了检测的准确度和系统的鲁棒性。RadarBEVNet的引入使得雷达数据的处理更为高效，而CAMF模块确保了不同传感器数据之间的有效融合，弥补了各自的不足。此外，RadarBEVNet在实验中展现了在多个数据集上的优异性能，尤其是在自动驾驶中至关重要的兴趣区域内，显示了其在实际应用场景中的潜力。

缺点方面，尽管RadarBEVNet在多模态3D目标检测领域取得了显著成果，但其实现的复杂性也相应增加，可能需要更多的计算资源和处理时间，这在一定程度上限制了其在实时应用场景中的部署。此外，虽然RadarBEVNet在骑行者检测和综合性能上表现优秀，但在特定类别上（如汽车和行人）的性能仍有提升空间，这可能需要进一步的算法优化或更高效的特征融合策略来解决。

总之，RadarBEVNet通过其创新的多模态融合策略，在3D目标检测领域展现了显著的性能优势。尽管存在一些局限性，如计算复杂度较高和在特定检测类别上的性能提升空间，但其在提高自动驾驶系统准确性和鲁棒性方面的潜力不容忽视。未来的工作可以聚焦于优化算法的计算效率和进一步提高其在各类目标检测上的表现，以推动RadarBEVNet在实际自动驾驶应用中的广泛部署。

结论

论文通过融合相机和雷达数据，引入了RadarBEVNet和Cross-Attention Multi-layer Fusion Module（CAMF），在3D目标检测领域展现出显著的性能提升，特别是在自动驾驶的关键场景中表现优异。它有效地利用了多模态数据之间的互补信息，提高了检测准确性和系统的鲁棒性。尽管存在计算复杂度高和在某些类别上性能提升空间的挑战，\ours在推动自动驾驶技术发展，尤其是在提升自动驾驶系统的感知能力方面，展现了巨大的潜力和价值。未来工作可以关注于优化算法效率和进一步提升检测性能，以便更好地适应实时自动驾驶应用的需求。

以上是RV融合性能拉爆！ RCBEVDet：Radar也有春天，最新SOTA！的詳細內容。更多資訊請關注PHP中文網其他相關文章！

陳述

本文轉載於：51CTO.COM。如有侵權，請聯絡admin@php.cn刪除

在 CARLA自动驾驶模拟器中添加真实智体行为Apr 08, 2023 pm 02:11 PM

arXiv论文“Insertion of real agents behaviors in CARLA autonomous driving simulator“，22年6月，西班牙。由于需要快速prototyping和广泛测试，仿真在自动驾驶中的作用变得越来越重要。基于物理的模拟具有多种优势和益处，成本合理，同时消除了prototyping、驾驶员和弱势道路使用者（VRU）的风险。然而，主要有两个局限性。首先，众所周知的现实差距是指现实和模拟之间的差异，阻碍模拟自主驾驶体验去实现有效的现实世界

特斯拉自动驾驶算法和模型解读Apr 11, 2023 pm 12:04 PM

特斯拉是一个典型的AI公司，过去一年训练了75000个神经网络，意味着每8分钟就要出一个新的模型，共有281个模型用到了特斯拉的车上。接下来我们分几个方面来解读特斯拉FSD的算法和模型进展。01 感知 Occupancy Network特斯拉今年在感知方面的一个重点技术是Occupancy Network (占据网络)。研究机器人技术的同学肯定对occupancy grid不会陌生，occupancy表示空间中每个3D体素（voxel）是否被占据，可以是0/1二元表示，也可以是[0, 1]之间的

一文通览自动驾驶三大主流芯片架构Apr 12, 2023 pm 12:07 PM

当前主流的AI芯片主要分为三类，GPU、FPGA、ASIC。GPU、FPGA均是前期较为成熟的芯片架构，属于通用型芯片。ASIC属于为AI特定场景定制的芯片。行业内已经确认CPU不适用于AI计算，但是在AI应用领域也是必不可少。 GPU方案GPU与CPU的架构对比CPU遵循的是冯·诺依曼架构，其核心是存储程序/数据、串行顺序执行。因此CPU的架构中需要大量的空间去放置存储单元（Cache）和控制单元（Control），相比之下计算单元（ALU）只占据了很小的一部分，所以CPU在进行大规模并行计算

自动驾驶汽车激光雷达如何做到与GPS时间同步?Mar 31, 2023 pm 10:40 PM

gPTP定义的五条报文中，Sync和Follow_UP为一组报文，周期发送，主要用来测量时钟偏差。 01 同步方案激光雷达与GPS时间同步主要有三种方案，即PPS+GPRMC、PTP、gPTPPPS+GPRMCGNSS输出两条信息，一条是时间周期为1s的同步脉冲信号PPS，脉冲宽度5ms~100ms；一条是通过标准串口输出GPRMC标准的时间同步报文。同步脉冲前沿时刻与GPRMC报文的发送在同一时刻，误差为ns级别，误差可以忽略。GPRMC是一条包含UTC时间（精确到秒），经纬度定位数据的标准格

特斯拉自动驾驶硬件 4.0 实物拆解：增加雷达，提供更多摄像头Apr 08, 2023 pm 12:11 PM

2 月 16 日消息，特斯拉的新自动驾驶计算机，即硬件 4.0（HW4）已经泄露，该公司似乎已经在制造一些带有新系统的汽车。我们已经知道，特斯拉准备升级其自动驾驶硬件已有一段时间了。特斯拉此前向联邦通信委员会申请在其车辆上增加一个新的雷达，并称计划在 1 月份开始销售，新的雷达将意味着特斯拉计划更新其 Autopilot 和 FSD 的传感器套件。硬件变化对特斯拉车主来说是一种压力，因为该汽车制造商一直承诺，其自 2016 年以来制造的所有车辆都具备通过软件更新实现自动驾驶所需的所有硬件。事实证

端到端自动驾驶中轨迹引导的控制预测：一个简单有力的基线方法TCPApr 10, 2023 am 09:01 AM

arXiv论文“Trajectory-guided Control Prediction for End-to-end Autonomous Driving: A Simple yet Strong Baseline“， 2022年6月，上海AI实验室和上海交大。当前的端到端自主驾驶方法要么基于规划轨迹运行控制器，要么直接执行控制预测，这跨越了两个研究领域。鉴于二者之间潜在的互利，本文主动探索两个的结合，称为TCP (Trajectory-guided Control Prediction)。具

一文聊聊SLAM技术在自动驾驶的应用Apr 09, 2023 pm 01:11 PM

定位在自动驾驶中占据着不可替代的地位，而且未来有着可期的发展。目前自动驾驶中的定位都是依赖RTK配合高精地图，这给自动驾驶的落地增加了不少成本与难度。试想一下人类开车，并非需要知道自己的全局高精定位及周围的详细环境，有一条全局导航路径并配合车辆在该路径上的位置，也就足够了，而这里牵涉到的，便是SLAM领域的关键技术。什么是SLAMSLAM (Simultaneous Localization and Mapping)，也称为CML (Concurrent Mapping and Localiza

一文聊聊自动驾驶中交通标志识别系统Apr 12, 2023 pm 12:34 PM

什么是交通标志识别系统？汽车安全系统的交通标志识别系统，英文翻译为：Traffic Sign Recognition，简称TSR，是利用前置摄像头结合模式，可以识别常见的交通标志《限速、停车、掉头等）。这一功能会提醒驾驶员注意前面的交通标志，以便驾驶员遵守这些标志。TSR 功能降低了驾驶员不遵守停车标志等交通法规的可能，避免了违法左转或者无意的其他交通违法行为，从而提高了安全性。这些系统需要灵活的软件平台来增强探测算法，根据不同地区的交通标志来进行调整。交通标志识别原理交通标志识别又称为TS

See all articles