下一代自動駕駛技術期望依賴於智能感知、預測、規劃和低級別控制之間的專門集成和交互。自動駕駛演算法效能的上限一直存在著巨大的瓶頸,學術界和業界一致認為,克服瓶頸的關鍵在於以數據為中心的自動駕駛技術。 AD模擬、閉迴路模型訓練和AD大數據引擎近期已經獲得了一些寶貴的經驗。然而,對於如何建立高效的以數據為中心的AD技術來實現AD演算法的自進化和更好的AD大數據積累,缺乏系統的知識和深刻的理解。為了填補這一研究空白,這裡將密切關注最新的數據驅動自動駕駛技術,重點是自動駕駛數據集的全面分類,主要包括里程碑、關鍵特徵、數據採集設定等。此外我們從產業前沿對現有的基準閉環AD大數據pipeline進行了系統性的回顧,包括閉環框架的過程、關鍵技術和實證研究。最後討論了未來的發展方向、潛在應用、限制和關注點,以引起學術界和工業界的共同努力,推動自動駕駛的進一步發展。
總結來說,主要貢獻如下:
自動駕駛資料集的演變反映了該領域的技術進步和日益增長的雄心。 20世紀末的早期進展院的AVT研究和加州大學柏克萊分校的PATH計劃,為基本的感測器數據奠定了基礎,但受到時代技術水平的限制。在過去的二十年裡,在感測器技術、運算能力和複雜的機器學習演算法的進步的推動下,出現了重大的飛躍。 2014年,美國汽車工程師學會(SAE)向大眾公佈了一個系統化的六級(L0-L5)自動駕駛系統,該系統得到了自動駕駛研發進展的廣泛認可。在深度學習的推動下,基於電腦視覺的方法已經主導了智慧感知。深度強化學習及其變體為智慧規劃和決策提供了至關重要的改進。最近,大型語言模型(LLM)和視覺語言模型(VLM)展示了它們強大的場景理解、駕駛行為推理和預測以及智慧決策能力,為自動駕駛的未來發展開闢了新的可能性。
圖2按照時間順序展示了開源自動駕駛資料集的里程碑式開發。顯著的進步導致主流數據集被分為三代,其特點是數據集的複雜性、數量、場景多樣性和標註粒度都有了顯著的飛躍,將該領域推向了技術成熟的新前沿。具體而言,橫軸表示開發時間軸。每行的側頭包括資料集名稱、感測器模態、適當的任務、資料收集地點和相關挑戰。為了進一步比較不同世代的資料集,我們使用不同顏色的長條圖來視覺化感知和預測/規劃資料集規模。早期階段,即2012年開始的第一代,由KITTI和Cityscapes牽頭,為感知任務提供了高解析度影像,是視覺演算法基準進度的基礎。推進到第二代,NuScenes、Waymo、Argoverse 1等數據集引入了一種多感測器方法,將車載攝影機、高精地圖(HD Map)、雷射雷達、雷達、GPS、IMU、軌跡、周圍物體的數據整合在一起,這對於全面的駕駛環境建模和決策過程至關重要。最近,NuPlan、Argoverse 2和Lyft L5顯著提高了影響標準,提供了前所未有的數據規模,並培育了一個有利於尖端研究的生態系統。這些資料集以其龐大的規模和多模態感測器集成為特點,在開發感知、預測和規劃任務的演算法方面發揮了重要作用,為先進的End2End或混合式自動駕駛模型鋪平了道路。 2024年,我們迎來了第三代自動駕駛資料集。在VLM、LLM和其他第三代人工智慧技術的支援下,第三代資料集強調了業界致力於應對自動駕駛日益複雜的挑戰,例如資料長尾分佈問題、分佈外檢測、角點案例分析等。
表1總結了具有高度影響力的感知資料集的資料收集和標註設置,包括駕駛場景、感測器套件和標註,我們報告了資料集場景下天氣/時間/駕駛條件類別的總數,其中天氣通常包括晴天/多雲/霧天/下雨/雪/其他(極端條件);一天中的時間通常包括上午、下午和晚上;駕駛條件通常包括城市街道、主要道路、小街、鄉村、高速公路、隧道、停車場等。場景越多樣化,資料集就越強大。我們也報告了資料集收集的區域,表示為as(亞洲)、EU(歐洲)、NA(北美)、SA(南美洲)、AU(澳洲)、AF(非洲)。值得注意的是,Mapillary是透過AS/EU/NA/SA/AF/AF收集的,DAWN是從Google和必應影像搜尋引擎收集的。對於感測器套件,我們研究了相機、光達、GPS和IMU等。表1中的FV和SV分別是前視圖相機和街景相機的縮寫。 360°全景攝影機設置,通常由多個前視圖攝影機、罕見視圖攝影機和側視圖攝影機組成。我們可以觀察到,隨著AD技術的發展,資料集中包含的感測器類型和數量正在增加,資料模式也越來越多樣化。關於資料集標註,早期的資料集通常採用手動標註方法,而最近的NuPlan、Argoverse 2和DriveLM對AD大數據採用了自動標註技術。我們認為,從傳統的手動標註到自動標註的轉變是未來以數據為中心的自動駕駛的一大趨勢。
對於預測和規劃任務,我們在表2中總結了主流資料集的輸入/輸出分量、感測器套件、場景長度和預測長度。對於運動預測/預測任務,輸入組件通常包括自車歷史軌跡、周圍代理歷史軌跡、高精地圖和交通狀態資訊(即交通號誌狀態、道路ID、停車標誌等)。目標輸出是自車和/或周圍主體在短時間內的幾個最可能的軌跡(例如前5或前10軌跡)。運動預測任務通常採用滑動時間視窗設置,將整個場景劃分為幾個較短的時間視窗。例如,NuScenes採用過去2秒的GT據和高精地圖來預測下一個6秒的軌跡,而Argoverse 2採用歷史5秒的地面真相和高精地圖預測未來6秒的軌道。 NuPlan、CARLA和ApoloScape是最受歡迎的規劃任務資料集。輸入組件包括自我/周圍車輛歷史軌跡、自我車輛運動狀態和駕駛場景表示。雖然NuPlan和ApoloScape是在現實世界中獲得的,但CARLA是一個模擬資料集。 CARLA包含在不同城鎮的模擬駕駛過程中拍攝的道路影像。每個道路圖像都帶有一個轉向角,它表示保持車輛正常行駛所需的調整。規劃的預測長度可以根據不同演算法的要求而改變。
我們現在正從以前的軟體和演算法定義的自動駕駛時代轉向新的鼓舞人心的大數據驅動和智慧模型協同自動駕駛時代。閉環資料驅動系統旨在彌合AD演算法訓練與其現實世界應用/部署之間的差距。與傳統的開環方法不同,在傳統開環方法中,模型是在從人類客戶駕駛或道路測試中收集的資料集上被動訓練的,閉環系統與真實環境動態互動。這種方法解決了分佈變化的挑戰——從靜態資料集學習的行為可能無法轉化為真實世界駕駛場景的動態性質。閉環系統允許AV從互動中學習並適應新的情況,透過行動和回饋的迭代循環進行改進。
然而,由於幾個關鍵問題,建構現實世界中以資料為中心的閉環AD系統仍然具有挑戰性:第一個問題與AD資料收集有關。在現實世界的資料收集中,大多數資料樣本是常見/正常駕駛場景,而彎道和異常駕駛場景的資料幾乎無法收集。其次,需要進一步努力探索準確且有效率的AD數據自動標註方法。第三,為了緩解AD模型在城市環境中某些場景中表現不佳的問題,應該強調場景資料探勘和場景理解。
自動駕駛產業正在積極建立整合的大數據平台,以應對大量AD數據累積帶來的挑戰。這可以被恰當地稱為數據驅動自動駕駛時代的新基礎設施。在我們對頂級AD公司/研究機構開發的數據驅動閉環系統的調查中,我們發現了幾個共通點:
NVIDIA MagLev AV平台圖3(左))遵循「收集→ 選擇→ 標籤→ 馴龍」作為程序,它是一個可複製的工作流程,可以實現SDC的主動學習,並在循環中進行智慧標註。 MagLev主要包括兩條閉環pipeline。第一個循環是以自動駕駛資料為中心,從資料攝取和智慧選擇開始,透過標註和標註,然後是模型搜尋和訓練。然後對經過訓練的模型進行評估、調試,並最終部署到現實世界中。第二個閉環是平台的基礎設施支援系統,包括資料中心骨幹和硬體基礎設施。此循環包括安全的資料處理、可擴展的DNN和系統KPI、用於追蹤和調試的儀表板。它支援AV開發的全週期,確保在開發過程中不斷改進和整合真實世界的數據和模擬回饋。
特斯拉自動駕駛資料平台(圖3(右))是另一個具有代表性的AD平台,它強調使用大數據驅動的閉環 pipeline來顯著提高自動駕駛車型的性能。 pipeline從來源資料收集開始,通常來自特斯拉的車隊學習、事件觸發車端資料收集和陰影模式。收集到的數據將由數據平台演算法或人類專家進行儲存、管理和檢查。無論何時發現角落案例/不準確性,資料引擎將從現有資料庫中檢索並匹配與角落案例/不準確事件高度相似的資料樣本。同時,將開發單元測試,以複製場景並嚴格測試系統的反應。之後,檢索到的資料樣本將由自動標註演算法或人類專家進行標註。然後,標註良好的資料將回饋給AD資料庫,資料庫將更新以產生用於AD感知/預測/規劃/控制模型的新版本的訓練資料集。經過模型訓練、驗證、模擬和真實世界測試,具有更高效能的新AD模型將發布並部署。
從真實世界採集的大多數AD數據樣本都是常見/正常駕駛場景,其中我們在資料庫中已經有大量類似的樣本。然而,要從真實世界的採集中收集某種類型的AD數據樣本,我們需要駕駛指數級的長時間,這在工業應用中是不可行的。因此,高保真自動駕駛資料產生和模擬方法引起了學術界的極大關注。 CARLA是一款用於自動駕駛研究的開源模擬器,能夠在使用者指定的各種設定下產生自動駕駛資料。 CARLA的優勢在於其靈活性,允許使用者創建不同的道路條件、交通場景和天氣動態,這有助於全面的模型訓練和測試。然而,作為模擬器,其主要缺點在於領域差距。 CARLA產生的AD數據無法完全模擬真實世界的物理和視覺效果;真實駕駛環境的動態和複雜特徵也沒有被表現出來。
最近,世界模型以其更先進的內在概念和更有前景的性能,已被用於高保真度AD數據生成。世界模型可以被定義為一個人工智慧系統,它建構其感知的環境的內部表示,並使用學習到的表示來模擬環境中的數據或事件。一般世界模型的目標是表示和模擬各種情況和互動,就像成熟的人類在現實世界中遇到的一樣。在自動駕駛領域,GAIA-1和DriveDreamer是基於世界模型的資料產生的代表作。 GAIA-1是一個生成型人工智慧模型,透過將原始圖像/影片以及文字和動作提示作為輸入,實現圖像/影片到圖像/影片的生成。 GAIA-1的輸入模態被編碼成統一的令牌序列。這些標註由世界模型內的自回歸變換器處理,以預測後續的圖像標註。然後,視訊解碼器將這些標註重建為具有增強的時間解析度的連貫視訊輸出,從而實現動態和上下文豐富的視覺內容生成。 DriveDreamer在其架構中創新地採用了擴散模型,專注於捕捉現實世界駕駛環境的複雜性。它的兩階段訓練pipeline首先使模型能夠學習結構化的交通約束,然後預測未來的狀態,確保為自動駕駛應用程式量身定制的強大的環境理解。
高品質的資料標註成功和可靠性是必不可少的。到目前為止,數據標註pipeline可以分為三種類型,從傳統的手工標註到半自動標註,再到最先進的全自動標註方法,如圖4所示AD數據標註通常被視為特定於任務/模型。工作流程從仔細準備標註任務和原始資料集的需求開始。然後,下一步是使用人工專家、自動標註演算法或End2End大型模型產生初始標註結果。之後,標註品質將由人工專家或自動品質檢查演算法根據預先定義的要求進行檢查。如果本輪標註結果未能通過品質檢查,它們將再次發送回標註循環並重複此標註作業,直到它們滿足預先定義的要求。最後,我們可以獲得現成的標註AD資料集。
自動標註方法是閉環自動駕駛大數據平台緩解人工標註勞動密集、提高AD數據閉環循環效率、降低相關成本的關鍵。經典的自動標記任務包括場景分類和理解。最近,隨著BEV方法的普及,AD數據標註的行業標準也不斷提高,自動標註任務也變得更加複雜。在現今工業前沿的場景中,3D動態目標自動標註和3D靜態場景自動標註是兩種常用的高階自動標註任務。
場景分類和理解是自動駕駛大數據平台的基礎,系統將視訊畫面分類為預先定義的場景,如駕駛場所(街道、高速公路、城市立交橋、主幹道等)和場景天氣(晴天、雨天、雪天、霧天、雷雨天等)。基於CNN的方法通常用於情境分類,包括預訓練 微調CNN模型、多視圖和多層CNN模型,以及用於改進場景表示的各種基於CNN的模型。場景理解超越了單純的分類。它涉及解釋場景中的動態元素,如周圍的車輛代理、行人和紅綠燈。除了基於影像的場景理解外,基於光達的資料來源,如SemanticKITTI,也因其提供的細粒度幾何資訊而被廣泛採用。
三維動態物件自動標註和三維靜態場景自動標註的出現是為了滿足廣泛採用的純電動車感知技術的要求。 Waymo提出了一種基於雷射雷達點雲序列資料的3D自動標記管線,該管線使用3D偵測器逐幀定位目標。然後,透過多目標追蹤器連結跨幀的已識別目標的邊界框。為每個目標提取目標軌跡資料(每個幀處的對應點雲 3D邊界框),並使用分治架構進行以目標為中心的自動標記,以產生最終細化的3D邊界框作為標籤。優步提出的Auto4D pipeline首次探討了時空尺度下的AD感知標記。在自動駕駛領域中,空間尺度內的3D目標邊界框標記以及時間尺度內的1D對應時間戳記標記稱為4D標記。 Auto4D pipeline從連續的雷射雷達點雲開始,以建立初始物體軌跡。此軌跡由目標大小分支進行細化,該分支使用目標觀測值對目標大小進行編碼和解碼。同時,運動路徑分支對路徑觀測和運動進行編碼,允許路徑解碼器以恆定的目標大小細化軌跡。
3D靜態場景自動標記可視為HDMap生成,車道、道路邊界、行人穿越道、紅綠燈和駕駛場景中的其他相關元素應進行標註。在這一主題下,有幾項有吸引力的研究工作:基於視覺的方法,如MVMap,NeMO;基於雷射雷達的方法,如VMA;預訓練3D場景重建方法,如OccBEV,OccNet/ADPT,ALO 。 VMA是最近提出的一項用於3D靜態場景自動標記的工作。 VMA框架利用眾包、多行程聚合的光達點雲來重建靜態場景,並將其分割成單元進行處理。基於MapTR的單元標註器透過查詢和解碼將原始輸入編碼為特徵圖,產生語意類型的點序列。 VMA的輸出是向量化地圖,將透過閉環標註和人工驗證對其進行細化,從而為自動駕駛提供滿意的高精地圖。
我們提供了一個實證研究,以便更好地說明本文中提到的先進的閉環AD資料平台。整個過程圖如圖5所示。在這種情況下,研究人員的目標是開發一個基於Generative AI和各種基於深度學習的演算法的AD大數據閉環pipeline,從而在自動駕駛演算法研發階段和OTA升級階段(在現實世界部署後)實現資料閉環。具體而言,產生人工智慧模型用於(1)基於工程師提供的文字提示產生特定場景的高保真度AD資料。 (2) AD大數據自動標註,有效準備地面實況標籤。
圖中顯示了兩個閉環。其中較大的一個階段是自動駕駛演算法研發階段,該階段從產生人工智慧模型的合成自動駕駛數據和從真實世界駕駛中獲取的數據樣本的數據收集開始。這兩種資料來源被集成為一個自動駕駛資料集,在雲端進行挖掘,以獲得有價值的見解。之後,資料集進入了雙重標記路徑:基於深度學習的自動標記或手動手工標記,確保了標註的速度和精確度。然後,標記的數據被用於在高容量自動駕駛超級運算平台上訓練模型。這些模型經過模擬和真實世界的道路測試,以評估其功效,從而發布自動駕駛模型並進行後續部署。較小的一個是針對真實世界部署後的OTA升級階段,該階段涉及大規模雲端模擬和真實世界測試,以收集AD演算法的不準確/角落情況。所識別的不準確性/角點情況用於通知模型測試和更新的下一次迭代。例如,假設我們發現我們的AD演算法在隧道駕駛場景中表現不佳。已識別的隧道駕駛彎道情況將立即向環路公佈,並在下一次迭代中更新。生成型人工智慧模型將以隧道駕駛場景相關描述作為文字提示,產生大規模的隧道駕駛資料樣本。產生的數據和原始數據集將輸入模擬、測試和模型更新。這些過程的迭代性質對於優化模型以適應具有挑戰性的環境和新數據,保持自動駕駛功能的高精度和可靠性至關重要。
第三代及以後的新型自動駕駛資料集。儘管LLM/VLM等基礎模型在語言理解和電腦視覺方面取得了成功,但將其直接應用於自動駕駛仍然具有挑戰性。原因有兩個面向:一方面,這些LLM/VLM必須具有全面整合和理解多源AD大數據(如FOV影像/視訊、雷射雷達雲點、高清地圖、GPS/IMU資料等)的能力,這比理解我們在日常生活中看到的圖像更難。另一方面,自動駕駛領域現有的資料規模和品質與其他領域(如金融和醫療)不可比,難以支援更大容量LLM/VLM的訓練和最佳化。由於法規、隱私問題和成本的原因,目前自動駕駛大數據的規模和品質有限。我們相信,在各方共同努力的情況下,下一代AD大數據在規模和品質上都會有顯著提升。
自動駕駛演算法的硬體支援。目前的硬體平台已經取得了重大進展,特別是隨著GPU和TPU等專門處理器的出現,這些處理器提供了對深度學習任務至關重要的大量平行運算能力。車載和雲端基礎設施中的高效能運算資源對於即時處理車輛感測器產生的大量資料流至關重要。儘管取得了這些進步,但在處理自動駕駛演算法日益複雜的問題時,在可擴展性、能源效率和處理速度方面仍然存在局限性。 VLM/LLM引導的使用者-車輛互動是一個非常有前景的應用案例。基於該應用程式可以收集用戶特定的行為大數據。然而,VLM/LLM在車端的設備將要求高標準的硬體運算資源,並且互動式應用程式預計具有低延遲。因此,未來可能會有一些重量輕的大型自動駕駛車型,或者LLM/VLM的壓縮技術將會進一步研究。
基於使用者行為數據的個人化自動駕駛推薦。智慧汽車,已經從簡單的交通工具發展到智慧終端場景的最新應用擴展。因此,人們對配備先進自動駕駛功能的車輛的期望是,它們能夠從歷史駕駛數據記錄中學習駕駛員的行為偏好,例如駕駛風格和行駛路線偏好。這將使智慧汽車在未來幫助駕駛員進行車輛控制、駕駛決策和路線規劃時能夠更好地與使用者喜愛的車輛保持一致。我們將上述概念稱為個人化自動駕駛推薦演算法。推薦系統已廣泛應用於電子商務、線上購物、送餐、社群媒體和直播平台。然而,在自動駕駛領域,個人化推薦仍處於起步階段。我們相信,在不久的將來,將設計一個更合適的數據系統和數據採集機制,在用戶允許並遵守相關規定的情況下,收集用戶駕駛行為偏好的大數據,從而為用戶實現定制的自動駕駛推薦系統。
資料安全和值得信賴的自動駕駛。海量的自動駕駛大數據對資料安全和使用者隱私保護提出了重大挑戰。隨著連網自動駕駛汽車(CAV)和車聯網(IoV)技術的發展,車輛的連接越來越緊密,從駕駛習慣到頻繁路線的詳細用戶資料的收集引發了人們對個人資訊潛在濫用的擔憂。我們建議在收集的資料類型、保留策略和第三方共享方面具有透明度的必要性。它強調了用戶同意和控制的重要性,包括尊重「不追蹤」請求和提供刪除個人資料的選項。對於自動駕駛行業來說,在促進創新的同時保護這些數據需要嚴格遵守這些準則,確保用戶信任並遵守不斷發展的隱私立法。
除了資料安全和隱私,另一個問題是如何實現值得信賴的自動駕駛。隨著AD技術的巨大發展,智慧演算法和生成人工智慧模型(如LLM、VLM)將在執行越來越複雜的駕駛決策和任務時「充當驅動因素」。在這個領域下,一個自然的問題出現了:人類能信任自動駕駛模型嗎?在我們看來,值得信賴的關鍵在於自動駕駛模型的可解釋性。他們應該能夠向人類駕駛員解釋做出決定的原因,而不僅僅是執行駕駛動作。 LLM/VLM有望透過即時提供高級推理和可理解的解釋來增強可信賴的自動駕駛。
這項調查首次系統回顧了自動駕駛中以資料為中心的演化,包括大數據系統、資料探勘和閉環技術。在這項調查中,我們首先制定了按里程碑代分類的資料集分類法,回顧了AD資料集在整個歷史時間線上的發展,介紹了資料集的獲取、設定和關鍵功能。此外,我們從學術和工業兩個角度闡述了閉環資料驅動的自動駕駛系統。詳細討論了以資料為中心的閉環系統中的工作流程pipeline、流程和關鍵技術。透過實證研究,展示了以資料為中心的閉環AD平台在演算法研發和OTA升級的使用率和優勢。最後,對現有數據驅動自動駕駛技術的優缺點以及未來的研究方向進行了全面的討論。重點是第三代之後的新資料集、硬體支援、個人化AD推薦、可解釋的自動駕駛。我們也表達了對Generative AI模型、資料安全和自動駕駛未來發展中值得信賴的擔憂。
原文連結:https://mp.weixin.qq.com/s/YEjWSvKk6f-TDAR91Ow2rA
以上是數據為王!如何透過數據一步步建立高效的自動駕駛演算法?的詳細內容。更多資訊請關注PHP中文網其他相關文章!