arXiv論文“Wayformer: Motion Forecasting via Simple & Efficient Attention Networks“,2022年7月上傳,是GoogleWaymo的工作。
自動駕駛的運動預測是一項具有挑戰性的任務,因為複雜的駕駛場景會導致靜態和動態輸入的各種混合形式。如何最好地表示和融合有關道路幾何形狀、車道連通性、時變交通信號燈狀態以及智體的動態集及其交互的歷史信息,並將其轉換為有效的編碼,這是一個尚未解決的問題。為了對這組多樣輸入特徵進行建模,有許多方法設計具有不同特定模態模組集的同樣複雜系統。這導致系統難以擴展、規模化或以嚴格方式在品質和效率之間權衡。
本文的Wayformer,是一系列簡單且同類的基於注意力運動預測架構。 Wayformer提供了一個緊湊的模型描述,由基於注意力的場景編碼器和解碼器組成。在場景編碼器中,研究了輸入模式的前融合、後融合和分層融合的選擇。對於每種融合類型,探索透過分解注意力或潛在query注意力來權衡效率和品質的策略。前融合結構簡單,不僅模態不可知,而且在Waymo開放運動資料集(WOMD)和Argoverse排行榜上都實現了最先進的結果。
駕駛場景由多模態資料組成,例如道路資訊、紅綠燈狀態、智體歷史和互動。對於模態,有一個上下文第4維,表示每個建模智體的「一組上下文目標」(即其他道路使用者的表示)。
智體歷史包含一系列過去的智體狀態以及當前狀態。對於每個時間步,考慮定義智體狀態的特徵,例如x、y、速度、加速、邊框等,還有一個上下文維度。
交互張量表示智體之間的關係。對於每個建模的智體,考慮建模智體周圍的固定數量最鄰近上下文。這些上下文智體表示影響建模智體行為的智體。
道路圖包含智體周圍的道路特徵。道路圖線段表示為多段線,由其端點指定並以類型資訊註釋的線段集合,可近似道路形狀。採用最接近建模智體的道路圖線段。請注意,道路特徵沒有時間維度,可加入時間維度1。
對於每個智體,交通燈資訊包含最接近該智體的交通號誌狀態。每個交通號誌點具有描述號誌位置和置信度的特徵。
Wayformer模型系列,由兩個主要元件組成:場景編碼器和解碼器。場景編碼器主要由一個或多個注意力編碼器組成,用於總結駕駛場景。解碼器是一個或多個標準transformer交叉注意模組,其輸入學習的初始query,然後與場景編碼交叉注意產生軌跡。
如圖顯示Wayformer模型處理多模態輸入產生場景編碼:此場景編碼用作解碼器的上下文,產生覆蓋輸出空間多模態的k條可能軌跡。
場景編碼器的輸入多樣性使這種整合變成一項不平凡的任務。模態可能不會以相同的抽象層級或尺度來表示:{像素pixels vs 目標 objects}。因此,某些模態可能需要比其他模態更多的計算。模態之間計算分解是取決於應用的,對工程師來說非常重要。這裡提出三個融合層次來簡化這個過程:{後,前,分級},如圖所示:
後融合是運動預測模型最常用的方法,其中每個模態都有自己的專用編碼器。將這些編碼器的寬度設定相等,避免在輸出中引入額外的投影層。此外,在所有編碼器中共享相同深度,探索空間縮小到可管理的範圍。只允許在軌跡解碼器的交叉注意層跨模態傳輸訊息。
前融合不是將自註意編碼器專用於每個模態,而是減少特定模態的參數到投影層。圖中場景編碼器由單一自註意編碼器(「跨模態編碼器」)組成,網路在跨模態分配重要性時具有最大的彈性,同時具有最小的歸納偏差。
分層融合作為前兩個極端之間的折衷,體積以層次化的方式在模態特定的自註意編碼器和跨模態編碼器之間分解。正如在後融合所做的那樣,寬度和深度在註意編碼器和跨模態編碼器中共享。這有效地將場景編碼器的深度在模態特定編碼器和跨模態編碼器之間分攤。
由於以下兩個因素,Transformer網路無法很好地擴展到大型多維序列:
- (a)自註意對輸入序列長度是二次方。
- (b) 位置前饋網路是昂貴的子網路。
在下面討論加速方法,(S為空間維度,T為時域維度),其框架如圖所示:
多軸注意(Multi-Axis Attention):這是指預設的transformer設置,同時在空間和時間維度上應用自註意,預計是計算成本最高的。具有多軸注意的前、後和分層融合的計算複雜度為O(Sm2×T2)。
分解注意 (Factorized attention):自註意的計算複雜度是輸入序列長度的二次方。這在多維序列中變得更加明顯,因為每個額外維度都會透過乘法因子增加輸入的大小。例如,有些輸入模態有時間和空間維度,因此計算成本規模為O(Sm2×T2)。為了緩解這種情況,請考慮沿著兩個維度分解注意。此方法利用輸入序列的多維結構,透過在每個維度單獨應用自註意,將自註意子網路的成本從O(S2×T2)降低到O(S2) O(T2)。
雖然與多軸注意相比,分解注意有可能減少計算量,但將自註意應用到每個維度的順序時引入複雜性。這裡比較兩種分解注意範式:
- 順序注意(sequential attention):一個N層編碼器由N/2個時間編碼器區塊和另一個N/2個空間編碼器區塊組成。
- 交錯注意(Interleaved attention):N層編碼器由時間和空間編碼器區塊交替N/2次組成。
潛查詢注意(Latent query attention):解決大輸入序列計算成本的另一種方法是在第一個編碼器區塊中使用潛查詢,其中輸入映射到潛空間。這些潛變數由一系列編碼器區塊做進一步處理,這些編碼器區塊接收然後返回該潛空間。這樣可以完全自由地設定潛空間分辨率,減少每個區塊中自註意分量和位置前饋網路的運算成本。將縮減量(R=Lout/Lin)設定為輸入序列長度的百分比。在後融合和分層融合中,所有註意編碼器的折減因子R保持不變。
Wayformer預測器輸出高斯混合,表示智體可能採取的軌跡。為了產生預測,用Transformer解碼器,輸入一組k個學習的初始query(Si)並與編碼器的場景嵌入做交叉注意,為高斯混合的每個分量產生嵌入。
給定混合中一個特定成分的嵌入,一個線性投影層產生該成分的非規範對數似然,估計整個混合似然。為了產生軌跡,用另一個線性層投影,輸出4個時間序列,對應每個時間步預測高斯的平均值和對數標準差。
在訓練期間,將損失分解為各自分類和回歸損失。假設k個預測高斯,訓練混合似然,最大化真實軌跡的對數機率。
如果預測器輸出具有多個模式的混合高斯,則很難進行推理,基準測度通常會限制所考慮的軌跡數。因此,在評估過程中,應用軌跡聚合,減少所考慮的模態數量,同時仍保持原始輸出混合的多樣性。
實驗結果如下:
#注意
#「
以上是Wayformer: 一個實現運動預測簡單有效的注意力網絡的詳細內容。更多資訊請關注PHP中文網其他相關文章!

軟AI(被定義為AI系統,旨在使用近似推理,模式識別和靈活的決策執行特定的狹窄任務 - 試圖通過擁抱歧義來模仿類似人類的思維。 但是這對業務意味著什麼

答案很明確 - 只是雲計算需要向雲本地安全工具轉變,AI需要專門為AI獨特需求而設計的新型安全解決方案。 雲計算和安全課程的興起 在

企業家,並使用AI和Generative AI來改善其業務。同時,重要的是要記住生成的AI,就像所有技術一樣,都是一個放大器 - 使得偉大和平庸,更糟。嚴格的2024研究O

解鎖嵌入模型的力量:深入研究安德魯·NG的新課程 想像一個未來,機器可以完全準確地理解和回答您的問題。 這不是科幻小說;多虧了AI的進步,它已成為R

大型語言模型(LLM)和不可避免的幻覺問題 您可能使用了諸如Chatgpt,Claude和Gemini之類的AI模型。 這些都是大型語言模型(LLM)的示例,在大規模文本數據集上訓練的功能強大的AI系統

最近的研究表明,根據行業和搜索類型,AI概述可能導致有機交通下降15-64%。這種根本性的變化導致營銷人員重新考慮其在數字可見性方面的整個策略。 新的

埃隆大學(Elon University)想像的數字未來中心的最新報告對近300名全球技術專家進行了調查。由此產生的報告“ 2035年成為人類”,得出的結論是,大多數人擔心AI系統加深的採用


熱AI工具

Undresser.AI Undress
人工智慧驅動的應用程序,用於創建逼真的裸體照片

AI Clothes Remover
用於從照片中去除衣服的線上人工智慧工具。

Undress AI Tool
免費脫衣圖片

Clothoff.io
AI脫衣器

AI Hentai Generator
免費產生 AI 無盡。

熱門文章

熱工具

DVWA
Damn Vulnerable Web App (DVWA) 是一個PHP/MySQL的Web應用程序,非常容易受到攻擊。它的主要目標是成為安全專業人員在合法環境中測試自己的技能和工具的輔助工具,幫助Web開發人員更好地理解保護網路應用程式的過程,並幫助教師/學生在課堂環境中教授/學習Web應用程式安全性。 DVWA的目標是透過簡單直接的介面練習一些最常見的Web漏洞,難度各不相同。請注意,該軟體中

SublimeText3漢化版
中文版,非常好用

MantisBT
Mantis是一個易於部署的基於Web的缺陷追蹤工具,用於幫助產品缺陷追蹤。它需要PHP、MySQL和一個Web伺服器。請查看我們的演示和託管服務。

SublimeText3 英文版
推薦:為Win版本,支援程式碼提示!

mPDF
mPDF是一個PHP庫,可以從UTF-8編碼的HTML產生PDF檔案。原作者Ian Back編寫mPDF以從他的網站上「即時」輸出PDF文件,並處理不同的語言。與原始腳本如HTML2FPDF相比,它的速度較慢,並且在使用Unicode字體時產生的檔案較大,但支援CSS樣式等,並進行了大量增強。支援幾乎所有語言,包括RTL(阿拉伯語和希伯來語)和CJK(中日韓)。支援嵌套的區塊級元素(如P、DIV),