首頁  >  文章  >  科技週邊  >  柏克萊開源首個泊車場景下的高清資料集和預測模型,支援目標辨識、軌跡預測

柏克萊開源首個泊車場景下的高清資料集和預測模型,支援目標辨識、軌跡預測

WBOY
WBOY轉載
2023-04-12 23:40:011733瀏覽

在自動駕駛技術不斷迭代的當下,車輛的行為和軌跡預測對高效率、安全駕駛有著極為重要的意義。動力學模型推演、可及性分析等傳統的軌跡預測的方法雖然有著形式明晰、可解釋性強的優點,但在複雜的交通環境中,其對於環境和物體交互的建模能力較為有限。因此,近年來大量研究和應用都基於各種深度學習方法(例如LSTM、CNN、Transformer、GNN 等),各類資料集例如BDD100K、nuScenes、Stanford Drone、ETH/UCY、INTERACTION、ApolloScape 等也紛紛湧現,為訓練和評估深度神經網路模型提供了強力支持,不少SOTA 模型例如GroupNet、Trajectron 、MultiPath 等都表現出了良好的性能。

以上模型和資料集都集中在正常的道路行駛場景下,並充分利用車道線、交通燈等基礎設施和特徵輔助預測過程;由於交通法規的限制,絕大多數車輛的運動方式也較為明確。然而,在自動駕駛的「最後一公里」— 自動停車場景下,我們將面對不少新的困難:

  • 停車場內的交通規則和車道線要求並不嚴格,車輛也經常隨意行駛「抄近路」
  • 為了完成泊車任務,車輛需要完成較為複雜的泊車動作,包括頻繁的倒車、停車、轉向等。在駕駛經驗不足的情況下,泊車可能成為一個漫長的過程
  • 停車場內障礙物較多且雜亂,車間距離較近,稍不留神就可能導致碰撞和剮蹭
  • 停車場內行人往往隨意穿行,車輛需要更多的避讓動作
    在這樣的場景下,簡單套用現有的軌跡預測模型難以達到理想的效果,而重新訓練模型又缺乏對應資料的支持。當下基於停車場景的資料集例如 CNRPark EXT 和 CARPK 等,都僅為空閒停車位偵測而設計,圖片來自提供監控相機第一人稱視角、取樣率低、且遮擋較多,無法用於軌跡預測。

在2022 年10 月剛結束的第25 屆IEEE 智慧交通系統國際會議(IEEE ITSC 2022) 中,來自#加州大學柏克萊分校的研究者發布了首個針對停車場景的高清視頻& 軌跡數據集,並在此數據集的基礎上,利用CNN 和Transformer 架構提出了名為“ParkPredict ” 的軌跡預測模型

柏克萊開源首個泊車場景下的高清資料集和預測模型,支援目標辨識、軌跡預測

柏克萊開源首個泊車場景下的高清資料集和預測模型,支援目標辨識、軌跡預測

  • #論文連結:https://arxiv.org/abs/2204.10777
  • 資料集主頁、試用和下載申請:https://sites.google.com/berkeley.edu/dlp-dataset (如無法訪問,可嘗試備用頁面https://www.php.cn/link/966eaa9527eb956f0dc8788132986707 )
  • 數據集Python API:https://github.com/MPC- Berkeley/dlp-dataset

資料集資訊

資料集由無人機進行採集,總時長為3.5 小時,視訊分辨率為4K,取樣率25Hz。視野範圍涵蓋了約 140m x 80m 的停車場區域,共約 400 個停車位。資料集經過精確標註,共採集到 1216 輛機動車、3904 輛自行車和 3904 位行人的軌跡。

經過重新處理後,軌跡資料可以JSON 的形式讀取,並載入為連接圖(Graph)的資料結構:

  • 個體(Agent):每個個體(Agent)即為一個在當前場景(Scene)下運動的物體,具備幾何形狀、類型等屬性,其運動軌跡被儲存為一個包含實例(Instance)的鍊錶(Linked List)
  • 實例(Instance):每個實例(Instance)即為一個個體(Agent)在一幀(Frame)中的狀態,包含其位置、轉角、速度和加速度。每個實例都包含指向該個體在前一幀和後一幀下實例的指標
  • #幀(Frame):每一幀(Frame)即為一個採樣點,其包含目前時間下所有可見的實例(Instance),和指向前一幀和後一幀的指針
  • 障礙物(Obstacle):障礙物即為在此次記錄中完全沒有移動的物體,包含各個物體的位置、轉角和幾何尺寸
  • 場景(Scene):每個場景(Scene)對應於一個錄製的視頻文件,其包含指針,指向該錄製的首幀和尾幀、所有個體(Agent)和所有障礙物(Obstacle)

柏克萊開源首個泊車場景下的高清資料集和預測模型,支援目標辨識、軌跡預測

資料集提供兩種下載格式:

僅JSON(建議):JSON 檔案包含所有個體的類型、形狀、軌跡等訊息,可以透過開源的Python API 直接讀取、預覽、並產生語意影像(Semantic Images)。如果研究目標僅為軌跡和行為預測,JSON 格式可以滿足所有的需求。

柏克萊開源首個泊車場景下的高清資料集和預測模型,支援目標辨識、軌跡預測

原始影片與標註:如果研究是基於相機原影像(Raw Image)的目標偵測、分隔、追蹤等機器視覺領域主題,那麼可能會需要下載原始影片和標註。如有此需要,需要在資料集申請中明確描述該研究需求。另外,標註文件需自行解析。

行為與軌跡預測模型:ParkPredict

作為應用範例,在IEEE ITSC 2022 的論文《ParkPredict : Multimodal Intent and Motion Prediction for Vehicles in Parking Lots with CNN and Transformer》中,研究團隊利用此資料集,基於CNN 和Transformer 架構實現了在停車場場景下車輛的意圖(Intent)和軌跡(Trajectory)預測。

柏克萊開源首個泊車場景下的高清資料集和預測模型,支援目標辨識、軌跡預測

團隊利用 CNN 模型,透過建構語意影像(Semantic Images),實現了對於車輛意圖(Intent)分佈機率的預測 。該模型僅需要建立車輛局部的環境訊息,且可根據當前環境,不斷變化可供選擇的意圖數量。

柏克萊開源首個泊車場景下的高清資料集和預測模型,支援目標辨識、軌跡預測

團隊透過改進Transformer 模型,將意圖(Intent)預測結果、車輛的運動歷史、週邊環境的語意圖作為輸入提供,實現了多模態(Multi-modal)的意圖和行為預測。

柏克萊開源首個泊車場景下的高清資料集和預測模型,支援目標辨識、軌跡預測

#

總結

  • 作為首個針對泊車場景的高精度資料集,Dragon Lake Parking (DLP) 資料集可為該場景下大規模目標識別和追蹤、空閒車位偵測、車輛和行人的行為和軌跡預測、模仿學習等研究提供數據和API 支援
  • 透過使用CNN 和Transformer 架構,ParkPredict 模型在泊車場景下的行為和軌跡預測中展現除了良好的能力
  • Dragon Lake Parking (DLP) 資料集已開放試用和申請,可透過存取資料集主頁https://sites.google.com/ berkeley.edu/dlp-dataset 了解詳細資訊(如無法訪問,可嘗試備用頁面 #https://www.php.cn/link/966eaa9527eb956f0dc8788132986707 )
#

以上是柏克萊開源首個泊車場景下的高清資料集和預測模型,支援目標辨識、軌跡預測的詳細內容。更多資訊請關注PHP中文網其他相關文章!

陳述:
本文轉載於:51cto.com。如有侵權,請聯絡admin@php.cn刪除