ST-P3：端到端時空特徵學習的自動駕駛視覺方法-人工智慧-PHP中文網

首頁

科技週邊

人工智慧

ST-P3：端到端時空特徵學習的自動駕駛視覺方法

王林

Apr 09, 2023 pm 06:11 PM

科技自動駕駛

arXiv論文“ST-P3: End-to-end Vision-based Autonomous Driving via Spatial-Temporal Feature Learning“，22年7月，作者來自上海交大、上海AI實驗室、加州聖地亞哥分校和京東公司的北京研究院。

ST-P3：端到端時空特徵學習的自動駕駛視覺方法

提出一種時空特徵學習方案，可以同時為感知、預測和規劃任務提供一組更具代表性的特徵，稱為ST-P3。具體而言，提出一種以自車為中心對齊（egocentric-aligned）的累積技術，在感知BEV轉換之前保留3-D空間中的幾何信息；作者設計一種雙路（dual pathway ）模型，將過去的運動變化考慮在內，用於未來的預測；引入一個基於時域的細化單元，補償為規劃的基於視覺元素識別。原始碼、模型和協定詳細資料開源https://github.com/OpenPerceptionX/ST-P3.

開創性的LSS方法從多視圖攝影機中提取透視特徵，透過深度估計將其提升到3D，並融合到BEV空間。兩個視圖之間的特徵轉換，其潛深度預測至關重要。

將二維平面資訊提升到三維需要附加維度，也就是適合三維幾何自主駕駛任務的深度。為了進一步改進特徵表示，自然要將時域資訊合併到框架中，因為大多數場景的任務是視訊來源。

如圖描述ST- P3整體框架：具體來說，給定一組周圍的攝影機視頻，將其輸入主幹生成初步的前視圖特徵。執行輔助深度估計將2D特徵轉換到3D空間。以自車為中心對齊累積方案，首先將過去的特徵對齊到目前視圖座標系。然後在三維空間中聚合當前和過去的特徵，在轉換到BEV表示之前保留幾何資訊。除了常用的預測時域模型外，透過建構第二條路徑來解釋過去的運動變化，表現也進一步提升。這種雙路徑建模確保了更強的特徵表示，推斷未來的語義結果。為了實現軌跡規劃的最終目標，整合網路早期的特徵先驗知識。設計了一個細化模組，在不存在高清地圖的情況下，借助高級命令產生最終軌跡。

ST-P3：端到端時空特徵學習的自動駕駛視覺方法

如圖是感知的以自我為中心對齊累計方法。（a）利用深度估計將當前時間戳處的特徵提升到3D，並在對齊後合併到BEV特徵；（b-c）將先前幀的3D特徵與當前幀視圖對齊，並與所有過去和當前狀態融合，從而增強特徵表示。

ST-P3：端到端時空特徵學習的自動駕駛視覺方法

如圖是用於預測的雙路模型：（i）潛碼是來自特徵圖的分佈；（ii iii）路a結合了不確定性分佈，指示未來的多模態，而路b從過去的變化中學習，有助於路a的資訊進行補償。

ST-P3：端到端時空特徵學習的自動駕駛視覺方法

作為最終目標，需要規劃一條安全舒適的軌跡，到達目標點。這個運動規劃器對一組不同的軌跡進行取樣，並選擇一個最小化學習成本函數的軌跡。然而，透過一個時域模型來整合目標（target）點和交通燈的信息，加上額外的最佳化步驟。

如圖是為規劃的先驗知識整合與細化：總體成本圖包含兩個子成本。使用前視特徵進一步重新定義最小成本軌跡，從攝影機輸入中聚合基於視覺的資訊。

ST-P3：端到端時空特徵學習的自動駕駛視覺方法

懲罰具有較大橫向加速度、急動或曲率的軌跡。希望這條軌跡能夠有效地到達目的地，因此向前推進的軌跡將會獎勵。然而，上述成本項不包含通常由路線地圖提供的目標（target）資訊。採用進階命令，包括前進、左轉和右轉，並且只根據相應的命令評估軌跡。

此外，交通號誌對SDV至關重要，透過GRU網路優化軌跡。以編碼器模組的前攝影機特徵初始化隱藏狀態，並以成本項的每個取樣點作為輸入。

實驗結果如下：

ST-P3：端到端時空特徵學習的自動駕駛視覺方法

###########################

以上是ST-P3：端到端時空特徵學習的自動駕駛視覺方法的詳細內容。更多資訊請關注PHP中文網其他相關文章！

陳述

本文轉載於：51CTO.COM。如有侵權，請聯絡admin@php.cn刪除

AI內部部署的隱藏危險：治理差距和災難性風險Apr 28, 2025 am 11:12 AM

Apollo Research的一份新報告顯示，先進的AI系統的不受檢查的內部部署構成了重大風險。在大型人工智能公司中缺乏監督，普遍存在，允許潛在的災難性結果

構建AI測謊儀Apr 28, 2025 am 11:11 AM

傳統測謊儀已經過時了。依靠腕帶連接的指針，打印出受試者生命體徵和身體反應的測謊儀，在識破謊言方面並不精確。這就是為什麼測謊結果通常不被法庭採納的原因，儘管它曾導致許多無辜者入獄。相比之下，人工智能是一個強大的數據引擎，其工作原理是全方位觀察。這意味著科學家可以通過多種途徑將人工智能應用於尋求真相的應用中。一種方法是像測謊儀一樣分析被審問者的生命體徵反應，但採用更詳細、更精確的比較分析。另一種方法是利用語言標記來分析人們實際所說的話，並運用邏輯和推理。俗話說，一個謊言會滋生另一個謊言，最終

AI是否已清除航空航天行業的起飛？Apr 28, 2025 am 11:10 AM

航空航天業是創新的先驅，它利用AI應對其最複雜的挑戰。現代航空的越來越複雜性需要AI的自動化和實時智能功能，以提高安全性，降低操作

觀看北京的春季機器人比賽Apr 28, 2025 am 11:09 AM

機器人技術的飛速發展為我們帶來了一個引人入勝的案例研究。來自Noetix的N2機器人重達40多磅，身高3英尺，據說可以後空翻。 Unitree公司推出的G1機器人重量約為N2的兩倍，身高約4英尺。比賽中還有許多體型更小的類人機器人參賽，甚至還有一款由風扇驅動前進的機器人。數據解讀這場半程馬拉松吸引了超過12,000名觀眾，但只有21台類人機器人參賽。儘管政府指出參賽機器人賽前進行了“強化訓練”，但並非所有機器人均完成了全程比賽。冠軍——由北京類人機器人創新中心研發的Tiangong Ult

鏡子陷阱：人工智能倫理和人類想像力的崩潰Apr 28, 2025 am 11:08 AM

人工智能以目前的形式並不是真正智能的。它擅長模仿和完善現有數據。我們不是在創造人工智能，而是人工推斷 - 處理信息的機器，而人類則

新的Google洩漏揭示了方便的Google照片功能更新Apr 28, 2025 am 11:07 AM

一份報告發現，在谷歌相冊Android版7.26版本的代碼中隱藏了一個更新的界面，每次查看照片時，都會在屏幕底部顯示一行新檢測到的面孔縮略圖。新的面部縮略圖缺少姓名標籤，所以我懷疑您需要單獨點擊它們才能查看有關每個檢測到的人員的更多信息。就目前而言，此功能除了谷歌相冊已在您的圖像中找到這些人之外，不提供任何其他信息。此功能尚未上線，因此我們不知道谷歌將如何準確地使用它。谷歌可以使用縮略圖來加快查找所選人員的更多照片的速度，或者可能用於其他目的，例如選擇要編輯的個人。我們拭目以待。就目前而言