协同感知技术在解决自动驾驶车辆感知问题方面具有重要意义。然而,现有研究往往忽视了智能体之间可能存在的异构性,即传感器和感知模型的多样性。实际应用中,智能体之间的模态和模型可能会存在显著的差异,这导致了域差异的出现,使得协同感知变得困难。因此,未来的研究需要考虑如何有效地处理智能体之间的异构性,以实现更加有效的协作感知。这将需要开发新的方法和算法,以适应不同智能体之间的差异性,并确保它们能够协同工作,实现更高效的自动驾驶系统。
为了解决这一实际挑战,ICLR 2024的最新研究文章 《An Extensible Framework for Open Heterogeneous Collaborative Perception》定义了开放异构协作感知问题(Open Heterogeneous Collaborative Perception):如何将不断出现的新异构智能体类型加入已有协作感知系统,同时确保高感知性能和低加入成本?来自上海交通大学、南加州大学和上海人工智能实验室的研究者们在本文中提出了HEAL(HEterogeneous ALliance):一种可扩展的异构智能体协作框架,有效解决了开放异构协作感知问题的两大痛点。
他们创建了一个包含多个协作感知数据集、多个协作感知算法以及支持多模态的代码框架,目前已完全开源。作者认为这是目前最完善的协作感知代码框架,有望帮助更多人轻松进入多模态、异构的协作感知研究领域。
近年来,自动驾驶技术备受学术界和工业界关注。然而,实际道路条件复杂多变,而单一车辆的传感器可能会受到其他车辆的遮挡,给自动驾驶系统的感知能力带来挑战。为了解决这些问题,多智能体之间的协作感知成为一种解决方案。随着通信技术的进步,智能体之间可以共享感知信息,结合自身传感器数据和其他智能体的信息,从而提高对周围环境的感知能力。通过协作,每个智能体能够获取自身视野之外的信息,这有助于提升感知和决策能力。
图 1. 视线遮挡造成的“鬼探头”问题,单车感知受限
在当前研究领域中,大部分工作都基于一个可能过于简化的假设:所有智能体必须具有相同的结构;也就是说,它们的感知系统都使用相同的传感器,并且共享相同的检测模型。然而,在现实世界中,不同智能体的模式和模型可能是不同的,而且新的模式和模型可能会不断涌现。由于传感器技术和算法的快速发展,最初就确定所有协作智能体的种类(包括模式和模型)是不现实的。当一个从未出现在训练集中的异构智能体希望加入协作时,它必然会遇到与现有智能体之间的领域差异。这种差异会限制其与现有智能体进行特征融合的能力,从而显著限制了协作感知的可扩展性。
因此,开放异构协作感知问题随之而生:如何将不断出现的新智能体类型加入到现有的协作感知系统,同时确保高感知性能和低集成成本?
图 2. (a) 同构协作感知 (b) 异构协作感知 (c) 考虑新异构智能体加入的开放异构协作感知 (d) HEAL在使用最少训练成本的同时达到了最佳的协作感知性能
為了解決這個問題,一個可行的解決方案是後融合。透過融合每個智能體的感知輸出(如3D包圍框),後融合繞過了新智能體和現有智能體之間的異構性,且訓練只需要發生在單智能體類別。然而,後融合的性能並不理想,並被證明特別容易受到定位噪音和通訊延遲等乾擾因素等影響。另一種潛在的方法是完全集體培訓,它匯總了協作中的所有智能體類型進行協作訓練,以克服領域差異。然而,每次引入新的智能體類型時,這種方法都需要重新訓練所有模型。隨著新異質智能體的不斷出現,訓練的代價急遽上升。 HEAL提出了一個全新的開放異質協作框架,同時具有完全集體訓練的高性能和後融合的低訓練成本。
開放異質協作感知問題考慮以下情境:將具有先前未出現的模態或模型的異質智能體類別加入到已有的協作系統中。不失一般性的,我們考慮場景初始由個同構的智能體組成,他們配備了相同類別的感測器、部署了相同的檢測模型,並且都具有相互通信的能力。這些同構的智能體構成了一個既有的協作系統。隨後,在場景中從未出現過的模態或感知模型的異構智能體加入協作系統當中。這種動態特性是在現實世界中部署協作感知的一個顯著特徵:智能體類別不會在開始時被完全確定,其類型數量可能會隨著時間的推移而增加。它與先前的異質協作感知問題(其中異質的類別是事先確定好且固定的)也截然不同。
本文提出的開放異質協作感知框架HEAL(HEterogeneous ALliance),設計了兩階段的方法來將新的異構智能體加入到協作中,以實現不斷增長的異質聯盟:i)協作基類訓練,令初始智能體訓練一個特徵融合協作網絡並創建統一的特徵空間;ii)新智能體訓練,將新智能體的特徵與先前建立的統一特徵空間對齊,從而允許新智能體和已有智能體進行特徵層面的協作。
對於每個新智能體類型加入協作,只需要第二階段的訓練。值得注意的是,第二階段的訓練可以由智能體擁有者獨立進行,不涉及與已有智能體的集體訓練。這允許新智能體的加入有較低的訓練成本,同時也能保護新智能體的模型細節不被揭露。
圖3. HEAL的整體框架
我們將場景中一開始存在的個同構智能體作為協作基類,並且訓練一個基於特徵融合的協作感知網絡。我們提出一個新穎的金字塔融合網絡來提取並融合多智能體的特徵,具體在於:對於每個同構智能體的編碼器編碼出來的BEV特徵,我們讓他經過多層不同尺度的ResNeXt網絡,以提取粗粒度和細粒度的特徵資訊。對於不同尺度的特徵圖,我們都對其應用前景預測器網絡,估計BEV每個特徵位置存在車輛等前景的機率。在協作者之間,前景的機率圖會被歸一化,作為將特徵圖逐像素加權融合的權重分佈。獲得不同尺度下的融合特徵圖以後,我們利用一系列上取樣網絡,將其轉換到相同的特徵圖尺寸,並且得到最終融合的特徵圖。
圖 4. 金字塔融合網路
融合後的特徵圖會經過一個偵測頭,轉為最終的協作偵測結果。協作檢測結果和前景的機率圖都受到ground-truth的監督。經過訓練後,協作網絡(金字塔融合網絡)的參數保存了協作基類的相關特徵信息,構建了一個共享的特徵空間,用於後續新異構智能體的對齊。
我們考慮加入一個新的異質智能體類型。我們提出一種新穎的後向對齊方法。核心想法是利用上一階段的金字塔融合網路和偵測頭作為新智慧體的偵測器後端,並僅更新前端編碼器相關的參數。
值得注意的是,我们对新的异构类别的单个智能体进行单体训练,不涉及智能体之间的协作。因此,金字塔融合网络的输入是单张特征图,而不是一阶段中的多智能体特征图。随着预训练的金字塔融合模块和检测头被确立为后端和固定,训练过程演变为让前端编码器适应后端的参数,从而使新智能体编码的特征与统一特征空间保持一致。由于特征和已有智能体的特征对齐,他们能实现高性能的特征层面的协作。
后向对齐还显示了一个独特的优势:训练仅在新的单个智能体上进行。这大大降低了每次新智能体加入的训练成本和时空同步的数据采集成本。此外,它防止新代理的模型细节暴露给他人,并允许新智能体的所有者使用自己的传感器数据训练模型。这将显著解决汽车公司在部署车辆协作感知技术(V2V)时可能存在的许多顾虑。
本文在OPV2V数据集的基础上,提出了一个更加数据异构的OPV2V-H数据集,补充了每辆车辆16线和32线的激光雷达数据,以及4个深度摄像头的数据。在OPV2V-H数据集和真实数据集DAIR-V2X上的实验结果表明,HEAL显著地降低了异构智能体加入协作的一系列训练成本(训练参数,FLOPs,训练时间等等),还保持了极高的协作检测性能。
图 5. HEAL同时拥有高性能和低训练成本
存在定位噪声和特征压缩的情况下,HEAL依然保持了最佳的检测性能,展示了在更加接近现实的设定下,HEAL是目前最有效的协作感知算法。
以上是‘拯救’開放異質場景 | HEAL:最新可擴展協作感知框架的詳細內容。更多資訊請關注PHP中文網其他相關文章!