實時根據感測器資料建立向量化高精地圖對於預測和規劃等下游任務至關重要,可以有效彌補離線高精地圖即時性差的缺點。隨著深度學習的發展,線上向量化高精地圖建構逐漸興起,代表性的工作如HDMapNet,MapTR等相繼湧現。然而,現有的線上向量化高精地圖建構方法缺乏對地圖元素幾何性質(包括元素的形狀,垂直、平行等幾何關係)的探索。
向量化高精地圖對道路上的元素進行了高度抽象,將每個地圖元素表示為二維點序列。而城市道路的設計具有特定的規範,例如,人行橫道在多數情況下表現為方正的矩形或平行四邊形;在不涉及分流合流的路段,相鄰的兩條車道互相平行。高精地圖中不同元素也具有許多類似的特點,這些常識性的規律,抽象化為高精地圖的幾何性質,包括地圖元素的形狀(矩形、平行四邊形、直線等),或不同地圖元素之間的關聯(平行、垂直等)。幾何性質強而有力地約束地圖元素的表現形式,在線建構模型如果充分理解了幾何性質,就能得到更精確的結果。
儘管理論上現有模型仍可能學到地圖元素的幾何性質,然而,幾何性質的特點決定了至少在傳統的設計下,模型並不容易學到。
中心車輛在道路上直線行駛,變換車道,或轉彎時,(在車輛座標系下)地圖元素的絕對座標不斷改變。而行人穿越道、車道、道路邊界等的形狀並不會隨之改變;類似的,車道之間平行關係也不會改變。地圖元素的幾何性質是客觀的,它的一個重要特徵就是不變性。更具體的,是剛性不變性(對旋轉、平移變換不變)。以往的工作,不論是使用樸素的折線表示,還是使用帶控制點的多項式曲線(比如貝塞爾曲線、分段貝塞爾曲線),都基於絕對坐標,並在絕對坐標基礎上端對端優化。 基於絕對座標的最佳化目標本身不具備剛性不變性,因此很難期待模型陷入的局部最佳解包含對幾何性質的理解。因此,一種能充分刻畫幾何性質且具有一定不變性的表示是必要的。
圖1. 幾何不變性的範例。
車輛右轉時,絕對座標會發生明顯的變化。右圖展示了一個對應的真實場景。
此外,儘管具有強烈的先驗知識,道路的幾何性質仍然是多樣的。這些多樣的幾何性質大致上可以分為兩大類,一類是關於單一地圖元素的幾何形狀,一類是關於不同地圖元素的幾何關聯。由於幾何性質的多樣性,窮舉並人工地將幾何性質轉變為約束是不可能的,因此我們更希望模型能夠端到端地自主學習多樣的幾何性質。
幾何表示
針對上述兩個問題,我們先改進表示方法。我們希望在傳統的基於絕對座標的表示之外,引入一種良好的幾何表示,它需要滿足:
為保證平移不變性,我們使用了相對量,即點之間的偏移向量;為進一步保證旋轉不變性,我們選擇了偏移向量的長度,以及不同偏移向量之間的夾角。這二者──長度和夾角──構成了我們提出的幾何表示的基礎。此外,為了更好地區分並刻畫形狀、關聯兩類不同的幾何性質,我們還按照從簡的原則進一步細化了設計:
為刻畫形狀,我們計算單一地圖元素中相鄰點之間的偏移向量,並計算偏移向量長度、相鄰偏移向量之間的夾角。此表示法能夠唯一確定任意的折線/多邊形。兩個形象的例子如下圖:
請看圖2,它展示了幾何形狀的表示方式
對於一個矩形,使用一個直角和兩對相等的邊就可以描述;對於一條直線,所有的夾角均為0度或180。
為刻畫關聯,類似地,我們首先考慮了任兩點之間的距離。然而,如果對所有點對點的偏移向量兩兩計算夾角,表示的複雜度過高,且計算代價不可承受。具體地,假設一共有個地圖元素,每個元素使用個個點來表示,那麼所有夾角的資料量將達到(取1000時,假設每一個角度資料都是32位浮點數,這樣的表示僅佔據的空間將達到TB等級)。事實上,對於一般的垂直、平行等關係來說這並不是必要的。因此,我們先計算元素內部的偏移,然後僅對這些偏移計算兩兩之間的夾角作為幾何表示的一部分。這種簡化的關聯表示保留了對平行、垂直等關係的描述能力,同時所對應的資料量僅為(前述條件下,大致4MB)。為了方便理解,我們同樣提供了一些例子:
圖3. 幾何關聯表示。
平行關係和垂直關係的表示方式是偏移向量的夾角為0度或90度;從兩點之間的距離可以一定程度上反映車道的寬度資訊
#為優化幾何形狀和關聯的表示,我們採用最樸素的做法,直接計算預測和標籤的幾何表示,然後用範數作為優化目標:
這裡和分別表示根據標籤計算得到的長度和夾角,和則表示根據預測計算得到的長度和夾角。在處理夾角時使用了一個技巧:直接計算角度涉及到不連續的arctan函數,在優化時會遇到困難(在±90度附近存在梯度消失的問題),因此我們實際上比較的是夾角的餘弦和正弦值:
幾何的基礎是角度和距離,因此我們常用「歐幾裡得損失」來形象化對應的幾何損失,這也代表了該損失對旋轉和平移變換的魯棒性
幾何解耦注意力
一種被MapTR,PivotNet等採用的架構將地圖元素上的每一個點對應到Transformer的一個查詢。這項架構的問題在於:對兩大類的幾何性質不加以區分。
在自註意力中,所有查詢(也就是「點」)之間都平等地互動。然而,地圖元素的形狀對應著一組一組的查詢。這些組之間的交互,在感知元素形狀時就成為了累贅。反之在感知元素之間關聯的時候,形狀也成為了冗餘因素。這意味著將形狀、關聯的感知解耦,可能帶來更好的結果。
為了將幾何形狀和關聯處理解耦,我們採用了自註意力的兩個步驟:
幾何解耦的注意力可以透過下圖更形象化地表示。我們的實作方法相對簡單,直接使用遮罩來控制注意力的範圍。由於這兩種類型的注意力是互補的,因此透過合理的實現,時間複雜度有可能等同於進行單次自註意力
圖4. 幾何解耦注意力。
左側為單一元素內部進行的形狀注意力,右側為元素之間進行的關聯注意力。
我們在nuScenes和Argoverse 2兩個資料集上進行了大量實驗。二者都是常用的大規模自動駕駛資料集,且都提供了地圖示註。
主要結果
#我們在nuScenes上進行了三組實驗。首先,我們使用了一種較為純粹的目標函數組合,僅包括幾何損失和其他必要的損失(如點到點距離、邊的方向、分類),這種組合旨在突顯我們提出的幾何性質的重要值,而不過度追求SOTA的結果。結果顯示,在這種情況下,與MapTR相比,我們的方法在mAP上有所提升。為了探索GeMap的極限,我們也加入了一些輔助目標,包括分割和深度估計。在這種情況下,我們也得到了SOTA的結果(mAP提升)。值得注意的是,要實現這樣的提升並不需要犧牲太多的推理速度。最後,我們也嘗試了引入額外的LiDAR模態輸入,在額外模態輸入的幫助下,GeMap的效能進一步提升
同樣,在Argoverse 2資料集上,我們的方法也取得了非常突出的效果。
重寫的內容是:消融實驗
在nuScenes上進一步的重寫的內容是:消融實驗證明了幾何損失和幾何解耦注意力的價值。有趣的是,正如我們所預料的,直接使用幾何損失反而會帶來模型表現的下降。我們認為這是因為結構上的對形狀和關聯處理的耦合,導致模型很難優化幾何表示;而在與幾何解耦注意力結合之後,幾何損失就發揮了應有的作用(從” Euclidean Loss“到”Full“)。
更多結果
除此之外,我們也對nuScenes進行了視覺化分析。透過視覺化結果可以看出,GeMap不僅在處理旋轉和平移方面具有穩健性,而且在解決遮蔽問題方面也表現出了一定的優勢,如下圖所示。挑戰性的地圖元素在圖中以橘色方框標示
圖5. 視覺化對比結果。
在下雨天的實驗結果中,我們也對遮蔽的穩健性進行了定量驗證(見下表)。這是因為雨水會自然地對相機造成遮擋
這可以解釋為模型學習到了幾何性質,因此即使有遮擋,也能更好地猜測地圖元素。例如,模型理解了車道線的形狀,那麼只需要"看到"一部分,就能夠估計剩下的部分;模型理解了車道線之間的平行關係,或者車道的寬度特點,因此即使其中一條被遮擋,也能根據平行關係和寬度因素猜測被遮蔽的部分
我們指出了地圖元素所具有的幾何性質,以及其對於在線向量化高精地圖建構的價值。基於此,我們提出了一個強而有力的方法,初步對此價值進行了驗證。此外,GeMap表現出的對遮蔽的穩健性,或許預示著在其它自動駕駛任務(例如檢測、佔有預測等)中利用幾何性質處理遮擋的思路——因為車輛和道路都具有相對規範的幾何性質。當然,我們的方法本身也有很多可以進一步探索的地方。例如不同複雜度的幾何元素是否可以適應性地使用不同的點來描述?是否能從機率的角度出發理解幾何表示,讓其對噪音更具穩健性?因為我們對於元素關聯進行了簡化,那麼是否存在更好的幾何關聯的表示方法?這些都是進一步優化的方向。
需要重寫的內容是:https://mp.weixin.qq.com/s/BoxlskT68Kjb07mfwQ7Swg 的連結
以上是首次超過70% mAP! GeMap:局部高精地圖SOTA再次刷新的詳細內容。更多資訊請關注PHP中文網其他相關文章!