地图作为自动驾驶系统下游应用的关键信息,通常以车道或中心线表示。然而,现有的地图学习文献主要集中在检测基于几何的车道或感知中心线的拓扑关系。这两种方法都忽略了车道线与中心线的内在关系,即车道线绑定中心线。虽然在一个模型中简单地预测两种类型的车道在学习目标中是互斥的,但本文提出将lane segment作为一种无缝结合几何和拓扑信息的新表示,因此提出了LaneSegNet。这是第一个生成lane segment以获得道路结构完整表示的端到端建图网络。LaneSegNet有两个关键的修改,一个是车道注意力模块,用于捕捉长距离特征空间内的关键区域细节。另一个是参考点的相同初始化策略,它增强了车道注意力的位置先验的学习。在OpenLane-V2数据集上,LaneSegNet在三项任务上都比以前的同类产品有显著的优势,即地图元素检测( 4.8 mAP)、车道中心线感知( 6.9 DETl)和新定义的lane segment感知( 5.6 mAP)。此外,它还获得了14.7FPS的实时推理速度。
开源链接:https://github.com/OpenDriveLab/LaneSegNet
总结来说,本文的主要贡献如下:
中心线感知:来自车载传感器数据的中心线感知(与本文中的车道图学习相同)最近引起了极大的关注。STSU提出了一种类似DETR的网络来检测中心线,然后是多层感知器(MLP)模块来确定它们的连接性。在STSU的基础上,Can等人引入了额外的最小循环查询,以确保重叠行的正确顺序。CenterLineDet将中心线视为顶点,设计了通过模仿学习训练的图更新模型。值得注意的是,特斯拉提出了“车道语言”的概念,将车道图表示为一个句子。他们基于注意力的模型递归地预测车道标记及其连通性。除了这些分段方法外,LaneGAP还引入了一种使用额外转换算法恢复车道图的路径方法。TopoNet针对完整多样的驾驶场景图,对网络内中心线的连通性进行了显式建模,并将交通元素纳入任务中。在这项工作中,我们采用segment方法来构建车道图。然而,我们在建模Lane Segment而不是将中心线作为车道图的顶点方面与以往的方法不同,这允许方便地集成段级几何和语义信息。
地图元素检测:在先前的工作中,人们关注将地图元素检测从相机平面提升到3D空间,以克服投影误差。随着BEV感知的流行趋势,最近的工作专注于使用分割和矢量化方法学习高清地图。地图分割预测每个纯BEV网格的语义,如车道、人行横道和可驾驶区域。这些工作主要在透视图(PV)到BEV转换模块方面有所区别。然而,分割的地图不能提供下游模块所使用的直接信息。HDMapNet通过对具有复杂后处理的分割地图进行分组和矢量化来处理该问题。
尽管密集分割提供了像素级的信息,但它仍然无法触及重叠元素的复杂关系。VectorMapNet提出将每个地图元素直接表示为点序列,使用粗略的关键点来顺序解码车道位置。MapTR探索了一种统一的基于排列的点序列建模方法,以消除建模歧义,提高性能和效率。PivotNet进一步在集合预测框架中使用基于枢轴的表示对地图元素进行建模,以减少冗余并提高准确性。StreamMapNet利用多点注意力和时间信息来提高远程地图元素检测的稳定性。事实上,由于矢量化也丰富了车道的方向信息,因此基于矢量化的方法可以通过交替监督来容易地适应中心线感知。在这项工作中,我们为道路上的所有高清地图元素提出了一种统一的、便于学习的表示方式——车道分段。
Lane Segment的實例包含道路的幾何和語意麵向。至於幾何,它可以表示為由向量化的中心線及其對應的車道邊界所組成的線段:。每條線都被定義為3D空間中個點的有序集合。此外,幾何體也可以被描述為定義該車道內的可駕駛區域的閉合多邊形。
在語意方面,它包括Lane Segment類別C(例如,Lane Segment、行人交叉)和左/右車道邊界的線型(例如,不可見、實心、虛線):{}。這些細節為自動駕駛汽車提供了關於減速要求和變換車道可行性的重要見解。
此外,拓樸資訊在路徑規劃中扮演至關重要的角色。為了表示這一訊息,為Lane Segment建構了一個車道圖,表示為G=(V,E)。每個Lane Segment都是該圖中的一個節點,由集合V表示,而集合E中的邊描述了Lane Segment之間的連通性。我們使用鄰接矩陣來儲存該車道圖,其中只有當第j個Lane Segment跟隨第i個Lane Segment時,矩陣元素(i,j)才設為1;否則,它保持為0。
LaneSegNet的整體架構如圖2所示。 LaneSegNet將環視圖像作為輸入,以感知特定BEV範圍內的Lane Segment。在本節中,我們首先簡要介紹用於產生BEV特徵的LaneSeg編碼器。然後,我們介紹了車道分段解碼器和車道注意力。最後,我們提出了車道分段預測器以及訓練損失。
LaneSeg Encoder
編碼器將環視圖像轉換為BEV特徵,用於Lane Segment擷取。我們利用標準的ResNet-50主幹從原始影像中匯出特徵圖。隨後使用BEVFormer的PV到BEV編碼器模組被用於視圖轉換。
LaneSeg Decoder
基於Transformer的偵測方法利用解碼器從BEV特徵中收集特徵,並透過多層更新解碼器查詢。每個解碼器層利用自註意力、交叉注意力機制和前饋網路來更新查詢。此外,也採用了可學習的位置查詢。更新後的查詢隨後被輸出並饋送到下一階段。
由於複雜且細長的地圖幾何形狀,收集長距離BEV特徵對於線上地圖任務至關重要。先前的工作利用分層(實例點)解碼器查詢和可變形注意力來提取每個點查詢的局部特徵。雖然這種方法避免了捕獲長距離信息,但由於查詢數量的增加,隨之而來的是高昂的計算成本。
Lane Segment作為建構場景圖的車道實例表示,在實例層面上具有優越的特性。我們的目標不是使用多點查詢,而是採用單一實例查詢來表示Lane Segment。因此,核心挑戰在於如何使用單一實例查詢來交叉關注全域BEV特性。
Lane Attention:在目標偵測中,可變形注意力利用目標的位置先驗,只關注目標參考點附近的一小部分注意力值作為預濾波器,大大加速了收斂。在層迭代期間,參考點被放置在預測目標的中心,以細化注意力值的採樣位置,注意力值透過可學習的採樣偏移分散在參考點周圍。採樣偏移的有意初始化包含了二維目標之前的幾何體。透過這樣做,多分支機制可以很好地捕捉每個方向的特徵,如圖3a所示。
在地圖學習的脈絡下,李等人使用樸素的可變形注意力來預測中心線。然而如圖3b所示,由於參考點的樸素放置,它可能無法獲得lone range注意力。此外,由於目標的細長形狀和複雜的視覺線索(例如,精確預測實線和虛線之間的斷點),這個過程需要為我們的任務進行額外的自適應設計。考慮到所有這些特徵,網路有必要擁有不僅關注長範圍上下文信息,而且準確提取局部細節的能力。因此,建議將採樣位置分佈在大的區域中,以有效地感知長距離資訊。另一方面,局部細節應易於區分,以識別關鍵點。值得注意的是,雖然在單一注意力頭內的value特徵之間是競爭關係,但不同頭部之間的value特徵可以在Attention過程中保留。因此,明確利用這一屬性來促進對特定區域局部特徵的關注是有希望的。
為此,本文提出建立一個heads-to-regions機制。我們首先在Lane Segment區域內均勻分佈多個參考點。然後圍繞局部區域中的每個參考點對採樣位置進行初始化。為了保留複雜的局部細節,我們使用了多分支機制,其中每個頭都專注於局部區域內的一組特定採樣位置,如圖3c所示。
現在提供車道注意力模組的數學描述。給定BEV特徵,第i個Lane Segment查詢特徵qi和一組參考點pi作為輸入,車道注意力計算如下:
##參考點的相同初始化:參考點的位置是車道注意力模組功能的決定因素。為了使每個實例查詢的關注區域與其實際幾何結構和位置對齊,基於前一層的Lane Segment預測來分佈每個實例查詢中的參考點p,如圖3c所示。並迭代細化預測。 先前的工作認為,提供給第一層的參考點應該用從位置查詢嵌入推導出的可學習先驗來單獨初始化。然而,由於位置查詢與輸入影像無關,因此這種初始化方法可能會反過來限制模型記憶幾何先驗和位置先驗的能力,而錯誤生成的初始化位置也會對訓練構成障礙。 因此,對於Lane Segment解碼器的第一層,我們提出了相同的初始化策略。在第一層中,每個頭部採用由位置查詢產生的相同參考點。與傳統方法中的參考點分散式初始化(即為每個查詢初始化多個參考點)相比,相同的初始化將透過過濾掉複雜幾何形狀的干擾,使位置先驗的學習更加穩定。需要注意的是,相同的初始化似乎是反直覺的,但被觀察到是有效的。LaneSeg Predictor
我們在多個預測分支中使用MLP,從Lane Segment查詢中產生最終預測的Lane Segment,同時考慮幾何、語義和拓撲方面。 對於幾何,我們首先設計了一個中心線迴歸分支來回歸中心線在三維座標中的向量化點位置。輸出的格式為。由於左右車道邊界的對稱性,我們引入了一個偏移分支來預測偏移,其格式為。因此,可以使用和來計算左右車道邊界座標。 假設車道分段可以概念化為可駕駛區域,我們將實例分段分支整合到預測器中。在語意方面,三個分類分支並行預測C的分類得分,和的得分。拓樸分支將更新的查詢特徵作為輸入,並使用MLP輸出車道圖G的加權相鄰矩陣。訓練損失
LaneSegNet採用類似DETR的範式,使用匈牙利演算法有效地計算預測和地面實況之間的一對一最優分配。然後根據分配結果計算訓練損失。損失函數由四個部分組成:幾何損失、分類損失、laneline型分類損失和拓樸損失。 幾何損失監督每個預測Lane Segment的幾何結構。根據二分匹配結果,為每個預測的向量化Lane Segment分配一個GT Lane Segment。向量化幾何損失定義為分配的Lane Segment對之間計算的曼哈頓距離。Lane Segment感知:表1中,我們在新引入的Lane Segment感知基準上,將LaneSegNet與幾種最先進的方法MapTR、MapTRv2和TopoNet進行了比較。用我們的Lane Segment標籤重新訓練他們的模型。 LaneSegNet在mAP上的表現優於其他方法高達9.6%,平均距離誤差相對降低了12.5%。 LaneSegNet-mini也超過了先前的方法,FPS更高,為16.2。
定性結果如圖4所示:#地圖元素偵測:為了與地圖元素偵測方法進行更公平的比較,我們將LaneSegNet的預測Lane Segment分解為成對的車道,然後使用地圖元素偵測指標將其與最先進的方法進行比較。我們將拆下的車道線和行人穿越道標籤輸入到幾種最先進的方法中進行再訓練。實驗結果如表2所示,顯示LaneSegNet在地圖元素偵測任務方面始終優於其他方法。在公平的比較下,LaneSegNet可以在額外的監督下更好地恢復道路幾何形狀。這顯示Lane Segment學習表示善於捕捉道路幾何資訊。
中心線感知:我們也在表3中將LaneSegNet與最先進的中心線感知方法進行了比較。為了保持一致性,也從Lane Segment中提取中心線以進行重新訓練。可以得出結論,LaneSegNet在車道圖感知任務中的表現明顯高於其他方法。透過額外的地理監控,LaneSegNet也展現了卓越的拓樸推理能力。證明了推理能力與較強的定位和檢測能力密切相關。
Lane Segment公式:在表4中,我們提供消融來驗證我們提出的Lane Segment學習公式的設計優點和訓練效率。與前兩行的單獨訓練模型相比,中心線和地圖元素的聯合訓練對兩個主要指標帶來了全面的平均1.3的改進,如第4行所示,證明了多任務訓練的可行性。然而,透過添加額外的類別在單一分支中訓練中心線和地圖元素的普通方法會導致明顯的表現下降。與上述樸素單分支方法相比,我們使用Lane Segment標籤訓練的模型獲得了顯著的性能增強(對於第3行和第5行之間的比較,OLS上的7.2和mAP上的4.4),這驗證了我們的地圖學習公式中各種道路資訊之間的正交互作用。我們的模型甚至超過了多分支方法,特別是在中心線感知方面(OLS為 4.8)。這表明幾何學可以在我們的地圖學習公式中指導拓撲推理,其中多分支模型僅略微優於僅CL模型(第1行和第4行之間 0.6 OLS)。至於的小幅下降,它來自於我們預測結果的重塑過程,是由線型分類的錯誤引起的,
車道注意力模組:我們展示的注意力模組消融如表5所示。為了便於進行公平的比較,我們用替代注意力設計取代了框架中的車道注意力模組。在我們精心設計的情況下,具有車道注意力的LaneSegNet顯著優於這些方法,顯示出顯著的改進(與第1行相比,mAP提高了3.9,TOPll提高了1.2)。此外,與分層查詢設計相比,由於查詢數量的減少,解碼器延遲可以進一步減少(從23.45ms減少到20.96ms)。
本文提出了Lane Segment感知作為一種新的地圖學習公式,並提出了LaneSegNet,一種專門針對這一問題的端到端網路。除了網路之外,還提出了兩個創新的增強功能,包括車道注意力模組,該模組採用頭到區域機制來捕捉長距離注意力,以及參考點的相同初始化策略,以增強車道注意力的位置先驗學習。在OpenLane-V2資料集上的實驗結果證明了我們設計的有效性。
限制和未來工作。由於計算限制,我們沒有將所提出的LaneSegNet擴展到更多的額外主幹。 Lane Segment感知和LaneSegNet的發展可能有利於下游任務,值得未來探索。
以上是ICLR'24無圖新想法! LaneSegNet:基於車道分段感知的地圖學習的詳細內容。更多資訊請關注PHP中文網其他相關文章!