看完這篇文章,會有一種無圖感知到頭了的錯覺? ? ?剛出爐的MapEX,迫不及待的吸取了一波文章精華,順便分享給大家。 MapEX的核心是利用歷史儲存的地圖訊息,優化當前局部高精地圖的構建,歷史地圖可以是只有一些簡單的地圖元素(例如道路邊界)、也可是帶噪音的地圖(例如每個地圖元素偏移5m)、也可以是舊的地圖(例如只有一小部分地圖元素能與當前場景對齊)。顯而易見,這些歷史的地圖資訊對當下的局部高精地圖建構都是有用的,因此也引出了本文的核心,即如何使用? ? ?具體來說,MapEX基於MapTRv2構建,這些歷史地圖資訊可以編碼為一系列的query和原始的query拼接起來,進一步由解碼器輸出預測結果。文章還是非常有趣的~
感測器產生的線上高精地圖(HDMap)被認為是傳統手動取得HDMap的低成本替代方案,因此有望降低對於依賴HDMap的自動駕駛系統的成本,也有可能將其應用於新系統。
本文提出了一種改進線上HDMap估計的方法,透過考慮現有地圖來進行最佳化。在研究中,作者確定了三種合理類型的現有地圖,包括簡單地圖、帶有噪音的地圖和老舊地圖。此外,本文也介紹了一個名為MapEX的新型線上HDMap建構框架,用於感知現有地圖。 MapEX透過將地圖元素編碼為查詢,並改進了經典的基於查詢的地圖估計模型的匹配演算法來實現這一目標。
文章最後展示了MapEX對nuScenes資料集的顯著改進。例如,相較於MapTRv2檢測,MapEX(給定有雜訊的地圖)提高了38%,比目前的SOTA提高了16%。
總之,MapEX的主要貢獻可以概括如下:
在這裡,我們簡要概述了關於自動駕駛中高精度地圖(HDMaps)的一些內容。首先,我們探討了HDMap在軌跡預測中的運用,接著我們談論如何取得這些地圖資料。最後,我們討論了線上HDMap建構的過程。
用於軌跡預測的HDMaps:自動駕駛通常需要大量關於車輛導航世界的資訊。這些資訊通常嵌入到豐富的HDMaps中,作為修改神經網路的輸入。 HDMaps已被證明對軌跡預測的效能至關重要。特別是在軌跡預測中,有些方法明確地基於HDMap的表示,因此絕對需要存取HDMap。
HDMap取得與維護:傳統HDMap的取得和維護成本高。雖然預測中使用的HDMaps只是一個簡化版本,包含地圖元素(車道分隔符號、道路邊界等),並在完整的HDMaps中提供了許多複雜信息,但它們仍然需要非常精確的測量。因此,許多公司一直在朝著不那麼嚴格的中清晰度地圖(MDMaps)標準發展,甚至朝著導航地圖(Google地圖、SDMaps)發展。至關重要的是,具有幾米精度的MDMap將是現有地圖的一個很好的例子,為線上HDMap生成過程提供有價值的資訊。我們的地圖場景2a探討了這種情況的近似情況。
感測器的線上HDMap建構:因此線上HDMap建置已成為輕圖/無圖感知的核心。雖然一些工作專注於預測虛擬地圖元素,即車道中心線,但也有一些工作專注於更具視覺識別性的地圖元素:車道分隔符號、道路邊界和人行橫道。可能是因為視覺元素更容易被感測器偵測到,後者在過去一年中取得了快速進展。有趣的是,最新的這種方法—Map-TRv2確實為偵測實際車道中心線提供了一個輔助設定。這表明向更複雜的方案收斂,包括大量額外的地圖元素(紅綠燈等)。
本文的工作與通常研究的變化檢測問題相似,這些問題旨在檢測地圖中的變化(例如交叉點)。 MapEX的目標是在現有的(可能非常不同的)地圖的幫助下產生準確的線上HDMap,這是為當下線上HDMap建立問題而實現的。因此,我們不僅糾正了地圖中的小錯誤,而且提出了一個更具表現力的框架,以適應任何變化(例如扭曲的線條、非常嘈雜的元素)。
我們的核心主張是,利用現有地圖將有利於線上HDMaps建構。我們認為,在許多合理的情況下,不完美的地圖可能會出現。
我們採用了感測器在線上產生HDMaps的標準格式:我們認為HDMaps由3種類型的多段線、道路邊界、車道分隔帶和人行橫道組成,顏色分別與之前的綠色、石灰色和藍色相同,如圖2a所示。
雖然真正的HDMaps要複雜得多,並且已經提出了更複雜的表示,但這項工作的目的是研究如何解釋現有的地圖資訊。因此,我們使用研究最多的範式。本文的工作將直接適用於更多地圖元素、較細的polylines或柵格化目標的預測。
由於標準地圖收集既昂貴又耗時,我們從現有的HDMaps中綜合生成了不精確的地圖。
為此我們開發了MapModEX,一個獨立的地圖修改函式庫。它獲取nuScenes地圖檔案和樣本記錄,並為每個樣本輸出ego車輛周圍給定補丁中的人行道、邊界和人行橫道的多段線座標。重要的是,MapModEX提供了修改這些多段線以反映各種修改的能力:刪除地圖元素、添加、移動人行橫道、向點坐標添加雜訊、地圖移動、地圖旋轉和地圖扭曲。 MapModEX將在發布後提供,以便於進一步重新搜索,將現有地圖納入感測器的線上HDMap採集中。
我們使用MapModEX套件實現了三個具有挑戰性的場景,如下所述,為每個樣本產生場景2和3的10個變體(場景1只允許一個變體)。我們選擇使用一組固定的修改地圖,以降低訓練期間的成本,並反映可能只有有限數量的地圖變體可用的真實情況。
第一種情況是只有一個粗糙的HDMap(沒有分隔帶和行人穿越道)可用,如圖2b所示。道路邊界通常與3D物理地標(如人行道邊緣)相關,而人行道和人行橫道通常由更容易錯過的平面標記表示。此外,行人穿越道和車道分隔帶通常因建築工程或道路偏差而被丟棄,甚至部分被輪胎軌道隱藏。
因此,使用只有邊界的HDMaps是合理的。這樣做的好處是,只要要求標註道路約束,就可以降低標註的成本。此外,只定位道路邊界可能需要較少的精確設備和更新。實作從實際的角度來看,場景1的實作很簡單:我們從可用的HDMaps中刪除了分隔帶和行人穿越道。
第二種可能的情況是,我們只有非常吵雜的地圖,如圖2c所示。現有HDMaps的一個弱點是需要高精度(大約幾公分),這給它們的獲取和維護帶來了巨大的壓力[11]。事實上,HDMaps和新興的MDMaps標準之間的一個關鍵區別在於較低的精確度(幾公分和幾公尺)。
因此,我們建議使用吵雜的HDMaps來模擬不太精確的地圖可能是由於更便宜的獲取過程或改用MDMaps標準而導致的情況。更有趣的是,這些不太精確的地圖可以從感測器數據中自動獲得。儘管像MapTRv2這樣的方法已經達到了非常令人印象深刻的效能,但它們還不是完全精確的:即使有非常靈活的檢索閾值,預測的精度也遠低於80%。
實作:我們提出了這些有雜訊的HDMaps的兩種可能的實作方式,以反映我們可能缺乏精度的各種條件。在第一個場景2a中,我們提出了一個偏移噪聲設置,其中對於每個地圖元素定位,我們添加來自高斯分佈的噪聲,其標準偏差為1米。這具有對每個地圖元素(分隔符號、邊界、人行橫道)應用統一平移的效果。這樣的設定應該可以很好地近似於人工標註從雜訊資料中快速提供不精確標註的情況。我們選擇了1米的標準差來反映精確到幾米的MDMaps標準。
然後,我們用一個極具挑戰性的逐點噪音場景2b來測試我們的方法:對於每個地面實況點——記住,一個地圖元素由20個這樣的點組成——我們從標準偏差為5米的高斯分佈中採樣噪聲,並將其添加到點坐標中。這提供了地圖自動獲取或提供非常不精確定位的情況的最壞情況近似。
我們考慮的最後一種情況是,我們可以存取過去準確的舊地圖(見圖2d)。人行橫道等油漆標記不時發生位移是相當常見的。此外,城市對一些有問題的十字路口進行實質改造或翻新區域,以適應新景點帶來的交通量增加。
因此,使用HDMaps是很有趣的,它們本身是有效的,但在很大程度上與實際的HDMaps不同。當HDMaps只由維護人員每隔幾年更新一次以降低成本時,這些地圖應該經常出現。在這種情況下,現有地圖仍將提供一些關於世界的信息,但可能不會反映暫時或最近的變化。
實作:我們透過在場景3a中對現有HDMaps進行強而有力的變更來近似這一點。我們刪除了地圖中50%的人行橫道和車道分隔線,並添加了一些人行橫道(剩餘人行橫道的一半),最後對地圖應用了一個小的扭曲變形。
然而,重要的是要注意,隨著時間的推移,全球地圖的很大一部分將保持不變。在我們的場景3b中,我們對此進行了計數,其中我們研究了隨機選擇(機率p=0.5)來考慮真實HDMap而不是擾動版本的影響。
為此我們提出了MapEX(見圖3),這是線上HDMap建構的新框架。它遵循標準的基於查詢的線上HDMap建立範式,並透過兩個關鍵模組處理現有地圖資訊:地圖查詢編碼模組和預測及GT的預歸因方案。本文基於MapTRv2建置baseline。
基於查詢的核心透過圖3中的灰色元素顯示。它首先獲取感測器輸入(相機或光達),並將其編碼為鳥瞰圖(BEV)表示,作為感測器特徵。使用類似DETR的偵測方案來偵測地圖元素(最多N個)來取得地圖本身。這是透過將N×L個學習的查詢令牌(N是偵測到的元素的最大數量,L是為元素預測的點數)傳遞到Transformer解碼器中來實現的,該Transformer解碼器使用與BEV特徵的交叉注意力將感測器資訊饋送到查詢令牌。然後,透過線性層將解編碼的查詢與類別預測(包括額外的背景類別)一起轉換為地圖元素座標,使得L個查詢組表示地圖元素的L個點(本文中L=20)。訓練是透過使用匈牙利演算法的一些變體匹配預測地圖元素和GT地圖元素來完成的。一旦匹配,使用回歸(對於坐標)和分類(對於元素類別)損失,對模型進行優化,以使預測的地圖元素與其響應的GT相匹配。
但是這個框架無法解釋現有的地圖,這需要在兩個關鍵層級引入新的模組。在查詢級別,我們將地圖元素編碼為不可學習的EX查詢。在匹配級別,我們預先將查詢屬性為它們所代表的GT地圖元素。
完整的MapEX框架(如圖3所示)將現有的地圖元素轉換為不可學習的地圖查詢,並加入可學習的查詢,以達到一定數量的查詢N×L。然後,將這組完整的查詢傳遞給Transformer解碼器,並像往常一樣透過線性層轉換為預測。在訓練時,我們的歸因模型將一些預測與GT進行預先匹配,其餘預測則使用匈牙利匹配進行正常匹配。在測試時,解碼的非背景查詢產生HDMap表示。
目前的線上HDMap建構框架中沒有機制來解釋現有的地圖資訊。因此,我們需要設計一個新的方案,可以將現有的地圖翻譯成標準的基於查詢的線上HDMap建構框架可以理解的形式。我們使用MapEX提出了一個簡單的方法,將現有的地圖元素編碼為解碼器的EX查詢,如圖4所示。
對於給定的地圖元素,我們提取L個等距點,其中L是我們為任何地圖元素尋求預測的點的數量。對於每個點,我們製作一個EX查詢,該查詢在前2個維度中編碼其地圖座標(x,y),在接下來的3個維度中對地圖元素類別(分隔符號、交叉點或邊界)進行一次性編碼。 EX查詢的其餘部分以0填充,以達到解碼器架構所使用的標準查詢大小。
雖然這種查詢設計非常簡單,但它提供了直接編碼感興趣的資訊(點座標和元素類)和最大限度地減少與已學習查詢的衝突的關鍵好處(得益於豐富的0填充)。
一旦我們有了L個查詢的集合(對於現有地圖中的地圖元素),可以從標準可學習查詢池中檢索()個L個分類可學習查詢集合。然後,按照本文的方法,將產生的N×L個查詢提供給解碼器:在MapTR中,N×L查詢被視為獨立查詢,而MapTRv2使用更有效的解耦注意力方案,將相同地圖元素的查詢分組在一起。在從查詢中預測地圖元素後,可以直接在測試時使用,也可以將它們與訓練的GT相匹配。
雖然EX查詢引入了一種解釋現有地圖資訊的方法,但沒有什麼能確保模型正確使用這些查詢來估計對應的元素。事實上,如果單獨使用,網路甚至無法識別完全準確的EX查詢。因此,我們在訓練中使用傳統的匈牙利匹配之前引入了預測和GT元素的預歸因,如圖3所示。
簡單地說,我們追蹤修改後的地圖中的每個地圖元素,它們對應於哪個GT地圖元素:如果地圖元素未修改、偏移或扭曲,我們可以將其與真實地圖中的原始地圖元素連結起來。為了確保模型學會只使用有用的信息,我們只在修改後的地圖元素和真實地圖元素之間的平均逐點位移得分時保持匹配:
給定GT和預先預測的地圖元素之間的對應關係,我們可以從要匹配的元素池中移除預先歸因的地圖元素。然後,按照慣例,使用匈牙利演算法的一些變體來匹配剩餘的地圖元素(預測和GT)。因此,匈牙利匹配步驟只需要識別哪些EX查詢對應於不存在的添加地圖元素,並找到適合真實地圖中不存在的一些真實地圖元素的標準學習查詢(由於刪除或強烈擾動)。
減少匈牙利演算法必須處理的元素數量很重要,因為即使是最有效的變體也具有立方複雜度()[8]。這並不是目前大多數線上HDMap取得方法的主要弱點,因為預測的地圖很小(30m×60m),並且只預測了三種類型的地圖元素。然而,隨著線上地圖生成的進一步發展,隨著預測地圖變得更大和更完整,有必要容納越來越多的地圖元素。
設定:我們在nuScenes資料集上評估了MapEX框架,因為它是線上HDMap估計的標準評估資料集。我們基於MapTRv2框架和官方程式碼庫。按照通常的做法,我們報告了三種地圖元素類型(divider, boundary, crossing)在不同檢索閾值(0.5米、1.0米和1.5米的倒角距離)下的平均精度,以及三個類別的mAP。
對於每個實驗,使用三個固定的隨機種子進行3次實驗。重要的是,對於給定的種子和地圖場景組合,在驗證期間提供的現有地圖資料是固定的,以便於比較。為了保持一致性,我們將結果報告為平均值±標準差,即使標準差超過該精度,也可以精確到小數點。
我們在表2中提供了相關方法的比較,以及MapEX的效能:沒有lane divider或行人穿越道的地圖(S1)、有噪音的地圖(S2a用於偏移的地圖元素,S2b用於強逐點噪音)和大幅度變化的地圖(S3a僅包含這些地圖,S3b包含混合的真實地圖)。我們將MapEX的效能與現有線上HDMap在可比設定(相機輸入、CNN主幹)上的評估進行了詳盡的比較,並與目前最先進的技術(使用了更多的資源)進行了比較。
首先,从表2中可以清楚地看出,任何类型的现有地图信息都会使MapEX在可比设置方面显著优于现有文献,而不考虑所考虑的场景。在除一种情况外的所有情况下,现有的地图信息甚至允许MapEX比当前最先进的MapTRv2模型执行得更好,该模型使用在广泛的深度估计数据集上预训练的大型ViT主干在四倍多的时期内训练。即使是具有不精确地图元素定位的相当保守的S2a场景也会得到11.4mAP分数的提高(即16%)。
在所有场景中,我们都观察到在所有4个指标上对基本MapTRv2模型的一致改进。可以理解,场景3b(一半时间使用准确的现有地图)在很大程度上产生了最佳的整体性能,从而展示了识别和利用完全准确的现有图的强大能力。场景2a(具有偏移的地图元素)和场景3a(具有“过时”的地图元素”)都提供了非常强大的整体性能,所有三种类型的地图元素都具有良好的性能。场景1中只有道路边界可用,由于其(预期的)非常强大的边界检索,显示出巨大的mAP收益。即使在极具挑战性的场景2b中,将标准偏差为5米的高斯噪声应用于每个地图元素点,也会在基本模型上获得显著的增益,并且对分隔符和边界具有特别好的检索性能。
我们现在更具体地关注现有地图信息给MapEX带来的改进。作为参考,我们将MapEX增益与其他附加信息来源带来的增益进行了比较:具有全局学习特征图的Neural Map Prior、地图,以及使用地理本地化SDMaps的P-MapNet。重要的是,MapModEX依赖于比这些方法更强的基础模型。虽然这使得在基础模型的基础上更难改进,但也更容易获得高分。为了避免拥有不公平的优势,表3中提供了绝对得分。
我们从表3中看到,使用MapEX的任何类型的现有地图都会导致比任何其他额外信息来源(包括更复杂的P-MapNet设置)更大的整体mAP增益。我们观察到该模型在车道分隔器和道路边界上的检测性能都有很大的改进。一个轻微的例子是场景1(只能访问道路边界),其中模型成功地保留了边界上的地图信息,但只在没有先前信息的两个地图元素上提供了与以前方法相当的改进。人行横道似乎需要从现有地图中获得更精确的信息,因为场景1和场景2b(对每个地图点施加极具破坏性的噪声)只能提供与现有技术相当的改进。场景2a(元素发生了变化)和场景3a(地图“过时”)导致人行横道的检测得分很高,这可能是因为这两个场景包含了更精确的人行横街信息。
表4显示了不同类型的输入(现有地图、地图元素对应关系和传感器输入)如何影响MapEX。现有地图大大提高了性能。
表5显示,学习后的EX查询比我们简单的不可学习的EX查询执行得差得多。有趣的是,用不可学习的值初始化可学习的EX查询可能会带来非常小的改进,无法证明增加的复杂性是合理的。
由于预先确定地图元素的属性对于充分使用现有地图信息很重要,因此可能很容易对所有相应的地图元素进行预先确定属性,而不是像在MapEX中那样对其进行过滤。表6显示,当现有地图元素差异太大时,丢弃对应关系确实会比不加区分的归因带来更强的性能。本质上,这表明当现有地图元素与基本事实相差太大时,MapEX最好使用可学习的查询,而不是EX查询。
本文建议利用现有地图来改进在线HDMap构建。为了研究这一点,作者概述了现有(简单地图、带噪或过时)地图可用的三种现实场景,并引入了一个新的MapEX框架来利用这些地图。由于当前框架中没有考虑现有地图的机制,我们开发了两个新模块:一个将地图元素编码到EX查询中,另一个确保模型利用这些查询。
实验结果表明,现有地图代表了在线HDMap构建的关键信息,无论在何种情况下,MapEX都显著改进了可比较的方法。事实上,就mAP而言——具有随机移动地图元素的场景2a——在基本MapTRv2模型的基础上改进了38%,在当前最先进的基础上提高了16%。
我们希望这项工作将引导新的在线HDMap构建方法来解释现有信息。现有的地图,无论好坏,都可以广泛使用。忽略它们就是放弃了在搜索可靠的在线HDMap构建时的一个关键工具。
原文链接:https://mp.weixin.qq.com/s/FMosLZ2VJVRyeCOzKl-GLw
以上是超越SOTA的MapEX:令人驚嘆的效能提升與無圖感知技術的詳細內容。更多資訊請關注PHP中文網其他相關文章!