搜尋
首頁科技週邊人工智慧首次超過70% mAP! GeMap:局部高精地圖SOTA再次刷新

寫在前面&筆者的個人理解

實時根據感測器資料建立向量化高精地圖對於預測和規劃等下游任務至關重要,可以有效彌補離線高精地圖即時性差的缺點。隨著深度學習的發展,線上向量化高精地圖建構逐漸興起,代表性的工作如HDMapNet,MapTR等相繼湧現。然而,現有的線上向量化高精地圖建構方法缺乏對地圖元素幾何性質(包括元素的形狀,垂直、平行等幾何關係)的探索。

向量化高精地圖的幾何性質

向量化高精地圖對道路上的元素進行了高度抽象,將每個地圖元素表示為二維點序列。而城市道路的設計具有特定的規範,例如,人行橫道在多數情況下表現為方正的矩形平行四邊形;在不涉及分流合流的路段,相鄰的兩條車道互相平行。高精地圖中不同元素也具有許多類似的特點,這些常識性的規律,抽象化為高精地圖的幾何性質,包括地圖元素的形狀(矩形、平行四邊形、直線等),或不同地圖元素之間的關聯(平行、垂直等)。幾何性質強而有力地約束地圖元素的表現形式,在線建構模型如果充分理解了幾何性質,就能得到更精確的結果。

提出針對高精地圖的幾何表示的重要性

儘管理論上現有模型仍可能學到地圖元素的幾何性質,然而,幾何性質的特點決定了至少在傳統的設計下,模型並不容易學到。

  • 幾何性質的不變性

中心車輛在道路上直線行駛,變換車道,或轉彎時,(在車輛座標系下)地圖元素的絕對座標不斷改變。而行人穿越道、車道、道路邊界等的形狀並不會隨之改變;類似的,車道之間平行關係也不會改變。地圖元素的幾何性質是客觀的,它的一個重要特徵就是不變性。更具體的,是剛性不變性(對旋轉、平移變換不變)。以往的工作,不論是使用樸素的折線表示,還是使用帶控制點的多項式曲線(比如貝塞爾曲線、分段貝塞爾曲線),都基於絕對坐標,並在絕對坐標基礎上端對端優化。 基於絕對座標的最佳化目標本身不具備剛性不變性,因此很難期待模型陷入的局部最佳解包含對幾何性質的理解。因此,一種能充分刻畫幾何性質且具有一定不變性的表示是必要的。

首次超过70% mAP!GeMap:局部高精地图SOTA再次刷新圖1. 幾何不變性的範例。

車輛右轉時,絕對座標會發生明顯的變化。右圖展示了一個對應的真實場景。

  • 幾何性質的多樣性

此外,儘管具有強烈的先驗知識,道路的幾何性質仍然是多樣的。這些多樣的幾何性質大致上可以分為兩大類,一類是關於單一地圖元素的幾何形狀,一類是關於不同地圖元素的幾何關聯。由於幾何性質的多樣性,窮舉並人工地將幾何性質轉變為約束是不可能的,因此我們更希望模型能夠端到端地自主學習多樣的幾何性質。

GeMap的設計

幾何表示

針對上述兩個問題,我們先改進表示方法。我們希望在傳統的基於絕對座標的表示之外,引入一種良好的幾何表示,它需要滿足:

  • #能刻畫地圖元素的形狀
  • 能刻畫地圖元素之間的關聯
  • 剛性不變性

為保證平移不變性,我們使用了相對量,即點之間的偏移向量;為進一步保證旋轉不變性,我們選擇了偏移向量的長度,以及不同偏移向量之間的夾角。這二者──長度和夾角──構成了我們提出的幾何表示的基礎。此外,為了更好地區分並刻畫形狀、關聯兩類不同的幾何性質,我們還按照從簡的原則進一步細化了設計:

為刻畫形狀,我們計算單一地圖元素中相鄰點之間的偏移向量,並計算偏移向量長度、相鄰偏移向量之間的夾角。此表示法能夠唯一確定任意的折線/多邊形。兩個形象的例子如下圖:

首次超过70% mAP!GeMap:局部高精地图SOTA再次刷新

請看圖2,它展示了幾何形狀的表示方式

對於一個矩形,使用一個直角和兩對相等的邊就可以描述;對於一條直線,所有的夾角均為0度或180。

為刻畫關聯,類似地,我們首先考慮了任兩點之間的距離。然而,如果對所有點對點的偏移向量兩兩計算夾角,表示的複雜度過高,且計算代價不可承受。具體地,假設一共有個地圖元素,每個元素使用個個點來表示,那麼所有夾角的資料量將達到(取1000時,假設每一個角度資料都是32位浮點數,這樣的表示僅佔據的空間將達到TB等級)。事實上,對於一般的垂直、平行等關係來說這並不是必要的。因此,我們先計算元素內部的偏移,然後僅對這些偏移計算兩兩之間的夾角作為幾何表示的一部分。這種簡化的關聯表示保留了對平行、垂直等關係的描述能力,同時所對應的資料量僅為(前述條件下,大致4MB)。為了方便理解,我們同樣提供了一些例子:

首次超过70% mAP!GeMap:局部高精地图SOTA再次刷新

圖3. 幾何關聯表示。

平行關係和垂直關係的表示方式是偏移向量的夾角為0度或90度;從兩點之間的距離可以一定程度上反映車道的寬度資訊

#為優化幾何形狀和關聯的表示,我們採用最樸素的做法,直接計算預測和標籤的幾何表示,然後用範數作為優化目標

首次超过70% mAP!GeMap:局部高精地图SOTA再次刷新

這裡和分別表示根據標籤計算得到的長度和夾角,和則表示根據預測計算得到的長度和夾角。在處理夾角時使用了一個技巧:直接計算角度涉及到不連續的arctan函數,在優化時會遇到困難(在±90度附近存在梯度消失的問題),因此我們實際上比較的是夾角的餘弦和正弦值:

首次超过70% mAP!GeMap:局部高精地图SOTA再次刷新

幾何的基礎是角度和距離,因此我們常用「歐幾裡得損失」來形象化對應的幾何損失,這也代表了該損失對旋轉和平移變換的魯棒性

幾何解耦注意力

一種被MapTR,PivotNet等採用的架構將地圖元素上的每一個點對應到Transformer的一個查詢。這項架構的問題在於:對兩大類的幾何性質不加以區分。

在自註意力中,所有查詢(也就是「點」)之間都平等地互動。然而,地圖元素的形狀對應著一組一組的查詢。這些組之間的交互,在感知元素形狀時就成為了累贅。反之在感知元素之間關聯的時候,形狀也成為了冗餘因素。這意味著將形狀、關​​聯的感知解耦,可能帶來更好的結果

為了將幾何形狀和關聯處理解耦,我們採用了自註意力的兩個步驟:

  • 每個地圖元素包括個查詢,在這個查詢內部進行注意力,用以處理幾何形狀
  • 補充跨元素的注意力關係,用以處理幾何關聯

幾何解耦的注意力可以透過下圖更形象化地表示。我們的實作方法相對簡單,直接使用遮罩來控制注意力的範圍。由於這兩種類型的注意力是互補的,因此透過合理的實現,時間複雜度有可能等同於進行單次自註意力

首次超过70% mAP!GeMap:局部高精地图SOTA再次刷新

圖4. 幾何解耦注意力。

左側為單一元素內部進行的形狀注意力,右側為元素之間進行的關聯注意力。

實驗結果

我們在nuScenes和Argoverse 2兩個資料集上進行了大量實驗。二者都是常用的大規模自動駕駛資料集,且都提供了地圖示註。

主要結果

#

我們在nuScenes上進行了三組實驗。首先,我們使用了一種較為純粹的目標函數組合,僅包括幾何損失和其他必要的損失(如點到點距離、邊的方向、分類),這種組合旨在突顯我們提出的幾何性質的重要值,而不過度追求SOTA的結果。結果顯示,在這種情況下,與MapTR相比,我們的方法在mAP上有所提升。為了探索GeMap的極限,我們也加入了一些輔助目標,包括分割和深度估計。在這種情況下,我們也得到了SOTA的結果(mAP提升)。值得注意的是,要實現這樣的提升並不需要犧牲太多的推理速度。最後,我們也嘗試了引入額外的LiDAR模態輸入,在額外模態輸入的幫助下,GeMap的效能進一步提升

首次超过70% mAP!GeMap:局部高精地图SOTA再次刷新

同樣,在Argoverse 2資料集上,我們的方法也取得了非常突出的效果。

首次超过70% mAP!GeMap:局部高精地图SOTA再次刷新

重寫的內容是:消融實驗

在nuScenes上進一步的重寫的內容是:消融實驗證明了幾何損失和幾何解耦注意力的價值。有趣的是,正如我們所預料的,直接使用幾何損失反而會帶來模型表現的下降。我們認為這是因為結構上的對形狀和關聯處理的耦合,導致模型很難優化幾何表示;而在與幾何解耦注意力結合之後,幾何損失就發揮了應有的作用(從” Euclidean Loss“到”Full“)。

首次超过70% mAP!GeMap:局部高精地图SOTA再次刷新

更多結果

除此之外,我們也對nuScenes進行了視覺化分析。透過視覺化結果可以看出,GeMap不僅在處理旋轉和平移方面具有穩健性,而且在解決遮蔽問題方面也表現出了一定的優勢,如下圖所示。挑戰性的地圖元素在圖中以橘色方框標示

首次超过70% mAP!GeMap:局部高精地图SOTA再次刷新

圖5. 視覺化對比結果。

在下雨天的實驗結果中,我們也對遮蔽的穩健性進行了定量驗證(見下表)。這是因為雨水會自然地對相機造成遮擋

首次超过70% mAP!GeMap:局部高精地图SOTA再次刷新

這可以解釋為模型學習到了幾何性質,因此即使有遮擋,也能更好地猜測地圖元素。例如,模型理解了車道線的形狀,那麼只需要"看到"一部分,就能夠估計剩下的部分;模型理解了車道線之間的平行關係,或者車道的寬度特點,因此即使其中一條被遮擋,也能根據平行關係和寬度因素猜測被遮蔽的部分

總結

我們指出了地圖元素所具有的幾何性質,以及其對於在線向量化高精地圖建構的價值。基於此,我們提出了一個強而有力的方法,初步對此價值進行了驗證。此外,GeMap表現出的對遮蔽的穩健性,或許預示著在其它自動駕駛任務(例如檢測、佔有預測等)中利用幾何性質處理遮擋的思路——因為車輛和道路都具有相對規範的幾何性質。當然,我們的方法本身也有很多可以進一​​步探索的地方。例如不同複雜度的幾何元素是否可以適應性地使用不同的點來描述?是否能從機率的角度出發理解幾何表示,讓其對噪音更具穩健性?因為我們對於元素關聯進行了簡化,那麼是否存在更好的幾何關聯的表示方法?這些都是進一步優化的方向。

首次超过70% mAP!GeMap:局部高精地图SOTA再次刷新

需要重寫的內容是:https://mp.weixin.qq.com/s/BoxlskT68Kjb07mfwQ7Swg 的連結

以上是首次超過70% mAP! GeMap:局部高精地圖SOTA再次刷新的詳細內容。更多資訊請關注PHP中文網其他相關文章!

陳述
本文轉載於:51CTO.COM。如有侵權,請聯絡admin@php.cn刪除
讓我們跳舞:結構化運動以微調我們的人類神經網讓我們跳舞:結構化運動以微調我們的人類神經網Apr 27, 2025 am 11:09 AM

科學家已經廣泛研究了人類和更簡單的神經網絡(如秀麗隱桿線蟲中的神經網絡),以了解其功能。 但是,出現了一個關鍵問題:我們如何使自己的神經網絡與新穎的AI一起有效地工作

新的Google洩漏揭示了雙子AI的訂閱更改新的Google洩漏揭示了雙子AI的訂閱更改Apr 27, 2025 am 11:08 AM

Google的雙子座高級:新的訂閱層即將到來 目前,訪問Gemini Advanced需要$ 19.99/月Google One AI高級計劃。 但是,Android Authority報告暗示了即將發生的變化。 最新的Google P中的代碼

數據分析加速度如何求解AI的隱藏瓶頸數據分析加速度如何求解AI的隱藏瓶頸Apr 27, 2025 am 11:07 AM

儘管圍繞高級AI功能炒作,但企業AI部署中潛伏的巨大挑戰:數據處理瓶頸。首席執行官慶祝AI的進步時,工程師努力應對緩慢的查詢時間,管道超載,一個

Markitdown MCP可以將任何文檔轉換為Markdowns!Markitdown MCP可以將任何文檔轉換為Markdowns!Apr 27, 2025 am 09:47 AM

處理文檔不再只是在您的AI項目中打開文件,而是將混亂變成清晰度。諸如PDF,PowerPoints和Word之類的文檔以各種形狀和大小淹沒了我們的工作流程。檢索結構化

如何使用Google ADK進行建築代理? - 分析Vidhya如何使用Google ADK進行建築代理? - 分析VidhyaApr 27, 2025 am 09:42 AM

利用Google的代理開發套件(ADK)的力量創建具有現實世界功能的智能代理!該教程通過使用ADK來構建對話代理,並支持Gemini和GPT等各種語言模型。 w

在LLM上使用SLM進行有效解決問題-Analytics Vidhya在LLM上使用SLM進行有效解決問題-Analytics VidhyaApr 27, 2025 am 09:27 AM

摘要: 小型語言模型 (SLM) 專為效率而設計。在資源匱乏、實時性和隱私敏感的環境中,它們比大型語言模型 (LLM) 更勝一籌。 最適合專注型任務,尤其是在領域特異性、控制性和可解釋性比通用知識或創造力更重要的情況下。 SLM 並非 LLMs 的替代品,但在精度、速度和成本效益至關重要時,它們是理想之選。 技術幫助我們用更少的資源取得更多成就。它一直是推動者,而非驅動者。從蒸汽機時代到互聯網泡沫時期,技術的威力在於它幫助我們解決問題的程度。人工智能 (AI) 以及最近的生成式 AI 也不例

如何將Google Gemini模型用於計算機視覺任務? - 分析Vidhya如何將Google Gemini模型用於計算機視覺任務? - 分析VidhyaApr 27, 2025 am 09:26 AM

利用Google雙子座的力量用於計算機視覺:綜合指南 領先的AI聊天機器人Google Gemini擴展了其功能,超越了對話,以涵蓋強大的計算機視覺功能。 本指南詳細說明瞭如何利用

Gemini 2.0 Flash vs O4-Mini:Google可以比OpenAI更好嗎?Gemini 2.0 Flash vs O4-Mini:Google可以比OpenAI更好嗎?Apr 27, 2025 am 09:20 AM

2025年的AI景觀正在充滿活力,而Google的Gemini 2.0 Flash和Openai的O4-Mini的到來。 這些尖端的車型分開了幾週,具有可比的高級功能和令人印象深刻的基準分數。這個深入的比較

See all articles

熱AI工具

Undresser.AI Undress

Undresser.AI Undress

人工智慧驅動的應用程序,用於創建逼真的裸體照片

AI Clothes Remover

AI Clothes Remover

用於從照片中去除衣服的線上人工智慧工具。

Undress AI Tool

Undress AI Tool

免費脫衣圖片

Clothoff.io

Clothoff.io

AI脫衣器

Video Face Swap

Video Face Swap

使用我們完全免費的人工智慧換臉工具,輕鬆在任何影片中換臉!

熱工具

Dreamweaver Mac版

Dreamweaver Mac版

視覺化網頁開發工具

SecLists

SecLists

SecLists是最終安全測試人員的伙伴。它是一個包含各種類型清單的集合,這些清單在安全評估過程中經常使用,而且都在一個地方。 SecLists透過方便地提供安全測試人員可能需要的所有列表,幫助提高安全測試的效率和生產力。清單類型包括使用者名稱、密碼、URL、模糊測試有效載荷、敏感資料模式、Web shell等等。測試人員只需將此儲存庫拉到新的測試機上,他就可以存取所需的每種類型的清單。

mPDF

mPDF

mPDF是一個PHP庫,可以從UTF-8編碼的HTML產生PDF檔案。原作者Ian Back編寫mPDF以從他的網站上「即時」輸出PDF文件,並處理不同的語言。與原始腳本如HTML2FPDF相比,它的速度較慢,並且在使用Unicode字體時產生的檔案較大,但支援CSS樣式等,並進行了大量增強。支援幾乎所有語言,包括RTL(阿拉伯語和希伯來語)和CJK(中日韓)。支援嵌套的區塊級元素(如P、DIV),

SublimeText3 英文版

SublimeText3 英文版

推薦:為Win版本,支援程式碼提示!

VSCode Windows 64位元 下載

VSCode Windows 64位元 下載

微軟推出的免費、功能強大的一款IDE編輯器