arXiv論文“Wayformer: Motion Forecasting via Simple & Efficient Attention Networks“,2022年7月上傳,是GoogleWaymo的工作。
自動駕駛的運動預測是一項具有挑戰性的任務,因為複雜的駕駛場景會導致靜態和動態輸入的各種混合形式。如何最好地表示和融合有關道路幾何形狀、車道連通性、時變交通信號燈狀態以及智體的動態集及其交互的歷史信息,並將其轉換為有效的編碼,這是一個尚未解決的問題。為了對這組多樣輸入特徵進行建模,有許多方法設計具有不同特定模態模組集的同樣複雜系統。這導致系統難以擴展、規模化或以嚴格方式在品質和效率之間權衡。
本文的Wayformer,是一系列簡單且同類的基於注意力運動預測架構。 Wayformer提供了一個緊湊的模型描述,由基於注意力的場景編碼器和解碼器組成。在場景編碼器中,研究了輸入模式的前融合、後融合和分層融合的選擇。對於每種融合類型,探索透過分解注意力或潛在query注意力來權衡效率和品質的策略。前融合結構簡單,不僅模態不可知,而且在Waymo開放運動資料集(WOMD)和Argoverse排行榜上都實現了最先進的結果。
駕駛場景由多模態資料組成,例如道路資訊、紅綠燈狀態、智體歷史和互動。對於模態,有一個上下文第4維,表示每個建模智體的「一組上下文目標」(即其他道路使用者的表示)。
智體歷史包含一系列過去的智體狀態以及當前狀態。對於每個時間步,考慮定義智體狀態的特徵,例如x、y、速度、加速、邊框等,還有一個上下文維度。
交互張量表示智體之間的關係。對於每個建模的智體,考慮建模智體周圍的固定數量最鄰近上下文。這些上下文智體表示影響建模智體行為的智體。
道路圖包含智體周圍的道路特徵。道路圖線段表示為多段線,由其端點指定並以類型資訊註釋的線段集合,可近似道路形狀。採用最接近建模智體的道路圖線段。請注意,道路特徵沒有時間維度,可加入時間維度1。
對於每個智體,交通燈資訊包含最接近該智體的交通號誌狀態。每個交通號誌點具有描述號誌位置和置信度的特徵。
Wayformer模型系列,由兩個主要元件組成:場景編碼器和解碼器。場景編碼器主要由一個或多個注意力編碼器組成,用於總結駕駛場景。解碼器是一個或多個標準transformer交叉注意模組,其輸入學習的初始query,然後與場景編碼交叉注意產生軌跡。
如圖顯示Wayformer模型處理多模態輸入產生場景編碼:此場景編碼用作解碼器的上下文,產生覆蓋輸出空間多模態的k條可能軌跡。
場景編碼器的輸入多樣性使這種整合變成一項不平凡的任務。模態可能不會以相同的抽象層級或尺度來表示:{像素pixels vs 目標 objects}。因此,某些模態可能需要比其他模態更多的計算。模態之間計算分解是取決於應用的,對工程師來說非常重要。這裡提出三個融合層次來簡化這個過程:{後,前,分級},如圖所示:
後融合是運動預測模型最常用的方法,其中每個模態都有自己的專用編碼器。將這些編碼器的寬度設定相等,避免在輸出中引入額外的投影層。此外,在所有編碼器中共享相同深度,探索空間縮小到可管理的範圍。只允許在軌跡解碼器的交叉注意層跨模態傳輸訊息。
前融合不是將自註意編碼器專用於每個模態,而是減少特定模態的參數到投影層。圖中場景編碼器由單一自註意編碼器(「跨模態編碼器」)組成,網路在跨模態分配重要性時具有最大的彈性,同時具有最小的歸納偏差。
分層融合作為前兩個極端之間的折衷,體積以層次化的方式在模態特定的自註意編碼器和跨模態編碼器之間分解。正如在後融合所做的那樣,寬度和深度在註意編碼器和跨模態編碼器中共享。這有效地將場景編碼器的深度在模態特定編碼器和跨模態編碼器之間分攤。
由於以下兩個因素,Transformer網路無法很好地擴展到大型多維序列:
在下面討論加速方法,(S為空間維度,T為時域維度),其框架如圖所示:
多軸注意(Multi-Axis Attention):這是指預設的transformer設置,同時在空間和時間維度上應用自註意,預計是計算成本最高的。具有多軸注意的前、後和分層融合的計算複雜度為O(Sm2×T2)。
分解注意 (Factorized attention):自註意的計算複雜度是輸入序列長度的二次方。這在多維序列中變得更加明顯,因為每個額外維度都會透過乘法因子增加輸入的大小。例如,有些輸入模態有時間和空間維度,因此計算成本規模為O(Sm2×T2)。為了緩解這種情況,請考慮沿著兩個維度分解注意。此方法利用輸入序列的多維結構,透過在每個維度單獨應用自註意,將自註意子網路的成本從O(S2×T2)降低到O(S2) O(T2)。
雖然與多軸注意相比,分解注意有可能減少計算量,但將自註意應用到每個維度的順序時引入複雜性。這裡比較兩種分解注意範式:
潛查詢注意(Latent query attention):解決大輸入序列計算成本的另一種方法是在第一個編碼器區塊中使用潛查詢,其中輸入映射到潛空間。這些潛變數由一系列編碼器區塊做進一步處理,這些編碼器區塊接收然後返回該潛空間。這樣可以完全自由地設定潛空間分辨率,減少每個區塊中自註意分量和位置前饋網路的運算成本。將縮減量(R=Lout/Lin)設定為輸入序列長度的百分比。在後融合和分層融合中,所有註意編碼器的折減因子R保持不變。
Wayformer預測器輸出高斯混合,表示智體可能採取的軌跡。為了產生預測,用Transformer解碼器,輸入一組k個學習的初始query(Si)並與編碼器的場景嵌入做交叉注意,為高斯混合的每個分量產生嵌入。
給定混合中一個特定成分的嵌入,一個線性投影層產生該成分的非規範對數似然,估計整個混合似然。為了產生軌跡,用另一個線性層投影,輸出4個時間序列,對應每個時間步預測高斯的平均值和對數標準差。
在訓練期間,將損失分解為各自分類和回歸損失。假設k個預測高斯,訓練混合似然,最大化真實軌跡的對數機率。
如果預測器輸出具有多個模式的混合高斯,則很難進行推理,基準測度通常會限制所考慮的軌跡數。因此,在評估過程中,應用軌跡聚合,減少所考慮的模態數量,同時仍保持原始輸出混合的多樣性。
實驗結果如下:
#注意
#「
以上是Wayformer: 一個實現運動預測簡單有效的注意力網絡的詳細內容。更多資訊請關注PHP中文網其他相關文章!