在自動駕駛技術不斷迭代的當下,車輛的行為和軌跡預測對高效率、安全駕駛有著極為重要的意義。動力學模型推演、可及性分析等傳統的軌跡預測的方法雖然有著形式明晰、可解釋性強的優點,但在複雜的交通環境中,其對於環境和物體交互的建模能力較為有限。因此,近年來大量研究和應用都基於各種深度學習方法(例如LSTM、CNN、Transformer、GNN 等),各類資料集例如BDD100K、nuScenes、Stanford Drone、ETH/UCY、INTERACTION、ApolloScape 等也紛紛湧現,為訓練和評估深度神經網路模型提供了強力支持,不少SOTA 模型例如GroupNet、Trajectron 、MultiPath 等都表現出了良好的性能。
以上模型和資料集都集中在正常的道路行駛場景下,並充分利用車道線、交通燈等基礎設施和特徵輔助預測過程;由於交通法規的限制,絕大多數車輛的運動方式也較為明確。然而,在自動駕駛的「最後一公里」— 自動停車場景下,我們將面對不少新的困難:
在2022 年10 月剛結束的第25 屆IEEE 智慧交通系統國際會議(IEEE ITSC 2022) 中,來自#加州大學柏克萊分校的研究者發布了首個針對停車場景的高清視頻& 軌跡數據集,並在此數據集的基礎上,利用CNN 和Transformer 架構提出了名為“ParkPredict ” 的軌跡預測模型 。
資料集由無人機進行採集,總時長為3.5 小時,視訊分辨率為4K,取樣率25Hz。視野範圍涵蓋了約 140m x 80m 的停車場區域,共約 400 個停車位。資料集經過精確標註,共採集到 1216 輛機動車、3904 輛自行車和 3904 位行人的軌跡。
經過重新處理後,軌跡資料可以JSON 的形式讀取,並載入為連接圖(Graph)的資料結構:
資料集提供兩種下載格式:
僅JSON(建議):JSON 檔案包含所有個體的類型、形狀、軌跡等訊息,可以透過開源的Python API 直接讀取、預覽、並產生語意影像(Semantic Images)。如果研究目標僅為軌跡和行為預測,JSON 格式可以滿足所有的需求。
原始影片與標註:如果研究是基於相機原影像(Raw Image)的目標偵測、分隔、追蹤等機器視覺領域主題,那麼可能會需要下載原始影片和標註。如有此需要,需要在資料集申請中明確描述該研究需求。另外,標註文件需自行解析。
作為應用範例,在IEEE ITSC 2022 的論文《ParkPredict : Multimodal Intent and Motion Prediction for Vehicles in Parking Lots with CNN and Transformer》中,研究團隊利用此資料集,基於CNN 和Transformer 架構實現了在停車場場景下車輛的意圖(Intent)和軌跡(Trajectory)預測。
團隊利用 CNN 模型,透過建構語意影像(Semantic Images),實現了對於車輛意圖(Intent)分佈機率的預測 。該模型僅需要建立車輛局部的環境訊息,且可根據當前環境,不斷變化可供選擇的意圖數量。
團隊透過改進Transformer 模型,將意圖(Intent)預測結果、車輛的運動歷史、週邊環境的語意圖作為輸入提供,實現了多模態(Multi-modal)的意圖和行為預測。
#以上是柏克萊開源首個泊車場景下的高清資料集和預測模型,支援目標辨識、軌跡預測的詳細內容。更多資訊請關注PHP中文網其他相關文章!