搜尋
首頁科技週邊人工智慧從論文到程式碼、從前沿研究到工業落地,全面了解BEV感知

從論文到程式碼、從前沿研究到工業落地,全面了解BEV感知

BEV 感知到底是什麼?自動駕駛的學術界和工業界又都在關注 BEV 感知的什麼內容?本文將會為你揭曉答案。

在自動駕駛領域中,讓感知模型學習強大的鳥瞰圖(BEV)表徵是一種趨勢,並且已經引起了工業界和學術界的廣泛關注。相較於先前自動駕駛領域中的大多數基於在前視圖或透視圖中執行檢測、分割、追蹤等任務的模型,鳥瞰圖(BEV)表徵能夠讓模型更好地識別被遮擋的車輛,並且有利於後續模組(例如規劃、控制)的開發和部署。

可以看出,BEV 感知研究對自動駕駛領域具有巨大的潛在影響,值得學術界和產業界長期關注並投入大量精力,那麼 BEV 感知到底是什麼?自動駕駛的學術界和工業界大佬又都在關注 BEV 感知的什麼內容?本文將會透過 BEVPerception Survey 為你揭露答案。

BEVPerception Survey 是上海人工智慧實驗室自動駕駛OpenDriveLab 團隊商湯研究院 合作論文《Delving into the Devils of Bird's-eye-view Perception: A Review, Evaluation and Recipe》 的實用化工具呈現方式,分為基於BEVPercption 的最新文獻研究和基於PyTorch 的開源BEV 感知工具箱兩大板塊

從論文到程式碼、從前沿研究到工業落地,全面了解BEV感知

  • #論文網址:https://arxiv.org/abs/2209.05324
  • 專案網址:https://github.com/OpenPerceptionX/BEVPerception-Survey-Recipe

#概要解讀、技術解讀

BEVPerception Survey 最新文獻回顧研究主要包含三個部分—BEV 相機、BEV 雷射雷達和BEV 融合#。 BEV 相機表示僅有視覺或以視覺為中心的演算法,用於從多個周圍攝影機進行三維目標檢測或分割;BEV 雷射雷達描述了點雲輸入的檢測或分割任務;BEV 融合描述了來自多個感測器輸入的融合機制,例如攝影機、雷射雷達、全球導航系統、里程計、高清地圖、CAN 總線等。

BEV 感知工具箱#是為基於BEV 相機的3D 物件偵測提供平台,並在Waymo 數據集上提供實驗平台,可以進行手動教學和小規模資料集的實驗。

從論文到程式碼、從前沿研究到工業落地,全面了解BEV感知

圖1:BEVPerception Survey 框架

具體來說,BEV相機表示用於從多個周圍相機進行3D 物件偵測或分割的演算法;BEV 雷射雷達表示以點雲作為輸入來完成偵測或分割任務;BEV 融合則是使用多個感測器的輸出作為輸入,例如相機、 LiDAR、GNSS、里程計、HD-Map、CAN-bus 等。

BEVPercption 文獻綜述研究

BEV 相機

BEV 相機感知包含2D 特徵擷取器、視圖變換和3D 解碼器三部分。下圖展示了 BEV 相機感知流程圖,在視圖變換中,有兩種​​方式對 3D 資訊進行編碼 —— 一種是從 2D 特徵預測深度資訊;另一種是從 3D 空間中取樣 2D 特徵。


從論文到程式碼、從前沿研究到工業落地,全面了解BEV感知

圖2:BEV 相機感知流程圖

#對於 2D 特徵擷取器, 2D 感知任務中存在大量可以在3D 感知任務中藉鏡的經驗,例如主幹預訓練的形式。 

視圖轉換模組#是與 2D 感知系統非常不同的其中一方面。如上圖所示,一般有兩種方式進行視圖變換:一種是從3D 空間到2D 空間的變換,另一種是從2D 空間到3D 空間的變換,這兩種轉換方法要么是利用在3D 空間中的物理先驗知識或利用額外的3D 資訊監督。值得注意的是並非所有 3D 感知方法都有視圖變換模組,例如有些方法直接從 2D 空間中的特徵檢測 3D 空間中的物件。

3D 解碼器#接收 2D/3D 空間中的特徵並輸出 3D 感知結果。大多數 3D 解碼器的設計來自基於 LiDAR 的感知模型。這些方法在 BEV 空間中執行檢測,但仍有一些 3D 解碼器利用 2D 空間中的特徵並直接回歸 3D 物件的定位。

BEV 光達

#BEV 光達感知的普通流程主要是將兩個分支將點雲數據轉換為BEV 表示。下圖為 BEV 雷射雷達感知流程圖,上分支擷取 3D 空間中的點雲特徵,提供更精確的偵測結果。下分支提取 2D 空間中的 BEV 特徵,提供更有效率的網路。除了基於點的方法能在原始點雲上進行處理外,基於體素的方法還將點體素化為離散網格,透過離散化連續的 3D 座標提供更高效的表示。基於離散體素表示,3D 卷積或 3D 稀疏卷積可用於提取點雲特徵。

從論文到程式碼、從前沿研究到工業落地,全面了解BEV感知

#圖3:BEV 雷射雷達感知流程圖

BEV 融合

BEV 感知融合演算法有PV 感知和BEV 感知兩種方式,適用於學術界和工業界。下圖展示了 PV 感知與 BEV 感知流程圖的對比,兩者的主要差異在於 2D 到 3D 的轉換和融合模組。在 PV 感知流程圖中,不同演算法的結果首先被轉換到 3D 空間中,然後使用一些先驗知識或手動設計的規則進行整合。而在 BEV 感知流程圖中,PV 特徵圖會被轉換到 BEV 視角下,然後進行 BEV 空間下的融合從而得到最終的結果,因而能夠最大化保留原始特徵信息,避免過多的手工設計。

從論文到程式碼、從前沿研究到工業落地,全面了解BEV感知

#圖4:PV 感知(左)與BEV 感知(右)流程圖

從論文到程式碼、從前沿研究到工業落地,全面了解BEV感知

適用於BEV 感知模型的資料集

針對BEV 感知任務存在著許多的資料集。通常資料集由各種場景組成,並且每個場景在不同資料集中的長度不同。下表總結了目前學界常用的資料集。我們可以從中看到 Waymo 資料集相比其他資料集有著更多樣的場景以及更豐富的 3D 偵測框的標註。

###表1:BEV 感知資料集一覽###############然而目前學界並沒有針對Waymo 開發的BEV 感知任務的軟體公開。因此我們選擇基於 Waymo 資料集進行開發,希望可以推動 BEV 感知任務在 Waymo 資料集上的發展。 ######

Toolbox - BEV 感知工具箱

BEVFormer 是一种常用的 BEV 感知方法,它采用时空变换器将主干网络从多视图输入提取的特征转换为 BEV 特征,然后将 BEV 特征输入检测头中得到最后的检测结果。BEVFormer 有两个特点,它具有从 2D 图像特征到 3D 特征的精确转换,并可以把它提取的 BEV 特征适用于不同的检测头。我们通过一系列的方式进一步提升了 BEVFormer 的视图转换质量以及最终的检测性能。

在凭借 BEVFormer 取得 CVPR 2022 Waymo Challenge 第一名后,我们推出了 Toolbox - BEV 感知工具箱,通过提供一整套易于上手的 Waymo Open Dataset 的数据处理工具,从而集成一系列能够显著提高模型性能的方法(包括但不限于数据增强,检测头,损失函数,模型集成等),并且能够与领域内广泛使用的开源框架,如 mmdetection3d 以及 detectron2 兼容。与基础的 Waymo 数据集相比,BEV 感知工具箱将使用技巧加以优化改进以便不同类型研发人员使用。下图展示的是基于 Waymo 数据集的 BEV 感知工具箱使用示例。

從論文到程式碼、從前沿研究到工業落地,全面了解BEV感知

图 5:基于 Waymo 数据集的 Toolbox 使用示例

总结

  • BEVPerception Survey 总结了近年来 BEV 感知技术研究的总体情况,包括高层次的理念阐述和更为深入的详细讨论。对 BEV 感知相关文献的综合分析,涵盖了深度估计、视图变换、传感器融合、域自适应等核心问题,并对 BEV 感知在工业系统中的应用进行了较为深入的阐述。
  • 除理论贡献外,BEVPerception Survey 还提供了一套对于提高基于相机的 3D 鸟瞰图(BEV)物体检测性能十分实用的工具箱,包括一系列的训练数据增强策略、高效的编码器设计、损失函数设计、测试数据增强和模型集成策略等,以及这些技巧在 Waymo 数据集上的实现。希望可以帮助更多的研究人员实现 “随用随取”,为自动驾驶行业研发人员提供更多的便利。

我们希望 BEVPerception Survey 不仅能帮助使用者方便地使用高性能的 BEV 感知模型,同时也能成为新手入门 BEV 感知模型的良好起点。我们着力于突破自动驾驶领域的研发界限,期待与学界分享观点并交流讨论进而不断发掘自动驾驶相关研究在现实世界中的应用潜力。

以上是從論文到程式碼、從前沿研究到工業落地,全面了解BEV感知的詳細內容。更多資訊請關注PHP中文網其他相關文章!

陳述
本文轉載於:51CTO.COM。如有侵權,請聯絡admin@php.cn刪除
在 CARLA自动驾驶模拟器中添加真实智体行为在 CARLA自动驾驶模拟器中添加真实智体行为Apr 08, 2023 pm 02:11 PM

arXiv论文“Insertion of real agents behaviors in CARLA autonomous driving simulator“,22年6月,西班牙。由于需要快速prototyping和广泛测试,仿真在自动驾驶中的作用变得越来越重要。基于物理的模拟具有多种优势和益处,成本合理,同时消除了prototyping、驾驶员和弱势道路使用者(VRU)的风险。然而,主要有两个局限性。首先,众所周知的现实差距是指现实和模拟之间的差异,阻碍模拟自主驾驶体验去实现有效的现实世界

特斯拉自动驾驶算法和模型解读特斯拉自动驾驶算法和模型解读Apr 11, 2023 pm 12:04 PM

特斯拉是一个典型的AI公司,过去一年训练了75000个神经网络,意味着每8分钟就要出一个新的模型,共有281个模型用到了特斯拉的车上。接下来我们分几个方面来解读特斯拉FSD的算法和模型进展。01 感知 Occupancy Network特斯拉今年在感知方面的一个重点技术是Occupancy Network (占据网络)。研究机器人技术的同学肯定对occupancy grid不会陌生,occupancy表示空间中每个3D体素(voxel)是否被占据,可以是0/1二元表示,也可以是[0, 1]之间的

一文通览自动驾驶三大主流芯片架构一文通览自动驾驶三大主流芯片架构Apr 12, 2023 pm 12:07 PM

当前主流的AI芯片主要分为三类,GPU、FPGA、ASIC。GPU、FPGA均是前期较为成熟的芯片架构,属于通用型芯片。ASIC属于为AI特定场景定制的芯片。行业内已经确认CPU不适用于AI计算,但是在AI应用领域也是必不可少。 GPU方案GPU与CPU的架构对比CPU遵循的是冯·诺依曼架构,其核心是存储程序/数据、串行顺序执行。因此CPU的架构中需要大量的空间去放置存储单元(Cache)和控制单元(Control),相比之下计算单元(ALU)只占据了很小的一部分,所以CPU在进行大规模并行计算

自动驾驶汽车激光雷达如何做到与GPS时间同步?自动驾驶汽车激光雷达如何做到与GPS时间同步?Mar 31, 2023 pm 10:40 PM

gPTP定义的五条报文中,Sync和Follow_UP为一组报文,周期发送,主要用来测量时钟偏差。 01 同步方案激光雷达与GPS时间同步主要有三种方案,即PPS+GPRMC、PTP、gPTPPPS+GPRMCGNSS输出两条信息,一条是时间周期为1s的同步脉冲信号PPS,脉冲宽度5ms~100ms;一条是通过标准串口输出GPRMC标准的时间同步报文。同步脉冲前沿时刻与GPRMC报文的发送在同一时刻,误差为ns级别,误差可以忽略。GPRMC是一条包含UTC时间(精确到秒),经纬度定位数据的标准格

特斯拉自动驾驶硬件 4.0 实物拆解:增加雷达,提供更多摄像头特斯拉自动驾驶硬件 4.0 实物拆解:增加雷达,提供更多摄像头Apr 08, 2023 pm 12:11 PM

2 月 16 日消息,特斯拉的新自动驾驶计算机,即硬件 4.0(HW4)已经泄露,该公司似乎已经在制造一些带有新系统的汽车。我们已经知道,特斯拉准备升级其自动驾驶硬件已有一段时间了。特斯拉此前向联邦通信委员会申请在其车辆上增加一个新的雷达,并称计划在 1 月份开始销售,新的雷达将意味着特斯拉计划更新其 Autopilot 和 FSD 的传感器套件。硬件变化对特斯拉车主来说是一种压力,因为该汽车制造商一直承诺,其自 2016 年以来制造的所有车辆都具备通过软件更新实现自动驾驶所需的所有硬件。事实证

端到端自动驾驶中轨迹引导的控制预测:一个简单有力的基线方法TCP端到端自动驾驶中轨迹引导的控制预测:一个简单有力的基线方法TCPApr 10, 2023 am 09:01 AM

arXiv论文“Trajectory-guided Control Prediction for End-to-end Autonomous Driving: A Simple yet Strong Baseline“, 2022年6月,上海AI实验室和上海交大。当前的端到端自主驾驶方法要么基于规划轨迹运行控制器,要么直接执行控制预测,这跨越了两个研究领域。鉴于二者之间潜在的互利,本文主动探索两个的结合,称为TCP (Trajectory-guided Control Prediction)。具

一文聊聊自动驾驶中交通标志识别系统一文聊聊自动驾驶中交通标志识别系统Apr 12, 2023 pm 12:34 PM

什么是交通标志识别系统?汽车安全系统的交通标志识别系统,英文翻译为:Traffic Sign Recognition,简称TSR,是利用前置摄像头结合模式,可以识别常见的交通标志 《 限速、停车、掉头等)。这一功能会提醒驾驶员注意前面的交通标志,以便驾驶员遵守这些标志。TSR 功能降低了驾驶员不遵守停车标志等交通法规的可能,避免了违法左转或者无意的其他交通违法行为,从而提高了安全性。这些系统需要灵活的软件平台来增强探测算法,根据不同地区的交通标志来进行调整。交通标志识别原理交通标志识别又称为TS

一文聊聊SLAM技术在自动驾驶的应用一文聊聊SLAM技术在自动驾驶的应用Apr 09, 2023 pm 01:11 PM

定位在自动驾驶中占据着不可替代的地位,而且未来有着可期的发展。目前自动驾驶中的定位都是依赖RTK配合高精地图,这给自动驾驶的落地增加了不少成本与难度。试想一下人类开车,并非需要知道自己的全局高精定位及周围的详细环境,有一条全局导航路径并配合车辆在该路径上的位置,也就足够了,而这里牵涉到的,便是SLAM领域的关键技术。什么是SLAMSLAM (Simultaneous Localization and Mapping),也称为CML (Concurrent Mapping and Localiza

See all articles

熱AI工具

Undresser.AI Undress

Undresser.AI Undress

人工智慧驅動的應用程序,用於創建逼真的裸體照片

AI Clothes Remover

AI Clothes Remover

用於從照片中去除衣服的線上人工智慧工具。

Undress AI Tool

Undress AI Tool

免費脫衣圖片

Clothoff.io

Clothoff.io

AI脫衣器

AI Hentai Generator

AI Hentai Generator

免費產生 AI 無盡。

熱門文章

R.E.P.O.能量晶體解釋及其做什麼(黃色晶體)
2 週前By尊渡假赌尊渡假赌尊渡假赌
倉庫:如何復興隊友
4 週前By尊渡假赌尊渡假赌尊渡假赌
Hello Kitty Island冒險:如何獲得巨型種子
3 週前By尊渡假赌尊渡假赌尊渡假赌

熱工具

ZendStudio 13.5.1 Mac

ZendStudio 13.5.1 Mac

強大的PHP整合開發環境

SAP NetWeaver Server Adapter for Eclipse

SAP NetWeaver Server Adapter for Eclipse

將Eclipse與SAP NetWeaver應用伺服器整合。

EditPlus 中文破解版

EditPlus 中文破解版

體積小,語法高亮,不支援程式碼提示功能

DVWA

DVWA

Damn Vulnerable Web App (DVWA) 是一個PHP/MySQL的Web應用程序,非常容易受到攻擊。它的主要目標是成為安全專業人員在合法環境中測試自己的技能和工具的輔助工具,幫助Web開發人員更好地理解保護網路應用程式的過程,並幫助教師/學生在課堂環境中教授/學習Web應用程式安全性。 DVWA的目標是透過簡單直接的介面練習一些最常見的Web漏洞,難度各不相同。請注意,該軟體中

Atom編輯器mac版下載

Atom編輯器mac版下載

最受歡迎的的開源編輯器