搜尋
首頁科技週邊人工智慧Sparse4D v3來了!推進端到端3D偵測與追蹤

新標題:Sparse4D v3:推進端到端的3D偵測與追蹤技術

論文連結:https://arxiv.org/pdf/2311.11722.pdf

需要重寫的內容為:程式碼連結:https://github.com/linxuewu/Sparse4D

重新寫的內容:作者所屬單位為地平線公司

Sparse4D v3来了!推进端到端3D检测和跟踪

論文想法:

在自動駕駛感知系統中,3D偵測與追蹤是兩項基本任務。本文基於 Sparse4D 框架更深入地研究了這個領域。本文引入了兩個輔助訓練任務(時序實例去噪-Temporal Instance Denoising和質量估計-Quality Estimation),並提出解耦注意力(decoupled attention)來進行結構改進,從而顯著提高檢測性能。此外,本文使用簡單的方法將偵測器擴展到追蹤器,該方法在推理過程中分配實例 ID,進一步突顯了 query-based 演算法的優勢。在 nuScenes 基準上進行的大量實驗驗證了所提出的改進的有效性。以ResNet50為骨幹,mAP、NDS和AMOTA分別增加了3.0%、2.2%和7.6%,分別達到46.9%、56.1%和49.0%。本文最好的模型在nuScenes 測試集上實現了71.9% NDS 和67.7% AMOTA

主要貢獻:

Sparse4D-v3 是一個強大的3D 感知框架,它提出了三種有效的策略:時序實例去噪、品質估計和解耦注意力

本文將Sparse4D 擴展為端對端追蹤模型。

本文展示了 nuScenes 改進的有效性,在偵測和追蹤任務中實現了最先進的效能。

網路設計:

首先,觀察到與稠密演算法相比,稀疏演算法在收斂方面面臨更大的挑戰,從而影響了最終性能。這個問題已經在2D檢測領域中得到了充分研究[17,48,53],主要原因是稀疏演算法使用了一對一的正樣本匹配。這種匹配方式在訓練初期不穩定,而且與一對多匹配相比,正樣本數量有限,從而降低了解碼器訓練的效率。此外,Sparse4D使用稀疏特徵採樣而不是全域交叉注意力,由於正樣本稀缺,這進一步阻礙了編碼器的收斂。在Sparse4Dv2中,引入了密集深度監督來部分緩解影像編碼器面臨的這些收斂問題。本文的主要目標是透過關註解碼器訓練的穩定性來增強模型效能。本文將去噪任務作為輔助監督,並將去噪技術從2D單幀檢測擴展到3D時序檢測。這不僅保證了穩定的正樣本匹配,而且顯著增加了正樣本的數量。此外,本文也引入了品質評估任務作為輔助監督。這使得輸出的置信度分數更加合理,並提高了檢測結果排名的準確性,從而獲得更高的評估指標。此外,本文改進了Sparse4D中實例自註意力和時序交叉注意力模組的結構,引入了一種解耦注意力機制,旨在減少注意力權重計算過程中的特徵幹擾。透過將錨點嵌入和實例特徵作為注意力計算的輸入,可以減少注意力權重中存在異常值的實例。這樣可以更準確地反映目標特徵之間的相互關聯,從而實現正確的特徵聚合。本文使用連接而不是注意力機制來顯著減少這種錯誤。這種增強方法與條件DETR有相似之處,但關鍵差異在於本文強調查詢之間的注意力,而條件DETR則專注於查詢和影像特徵之間的交叉注意力。此外,本文也涉及獨特的編碼方法

為了提高感知系統的端到端能力,本文研究了將3D多目標追蹤任務整合到Sparse4D框架中的方法,以直接輸出目標的運動軌跡。與基於檢測的追蹤方法不同,本文透過消除資料關聯和過濾的需求,將所有追蹤功能整合到偵測器中。此外,與現有的聯合檢測和追蹤方法不同,本文的追蹤器在訓練過程中無需進行修改或調整損失函數。它不需要提供ground truth IDs,而是實現了預先定義的實例到追蹤的回歸。本文的追蹤實現充分融合了偵測器和追蹤器,無需修改偵測器的訓練過程,也無需額外微調

Sparse4D v3来了!推进端到端3D检测和跟踪

這是一個關於Sparse4D框架概述的圖1 ,輸入是多視圖視頻,輸出是所有幀的感知結果

Sparse4D v3来了!推进端到端3D检测和跟踪

圖2:不同演算法的nuScenes 驗證資料集上的推理效率(FPS) - 感知性能( mAP)。

Sparse4D v3来了!推进端到端3D检测和跟踪

圖3:實例自註意力中的注意力權重的可視化:1)第一行顯示了普通自註意力中的注意力權重,其中紅色圓圈中的行人顯示出與目標車輛(綠色框)的意外相關性。 2)第二行顯示了解耦注意力中的注意力權重,有效解決了這個問題。

Sparse4D v3来了!推进端到端3D检测和跟踪

第四張圖展示了時序實例去噪的範例。在訓練階段,實例包括兩個部分:可學習的和噪音的。噪音實例由時間和非時間元素組成。本文採用預匹配方法來分配正樣本和負樣本,即將 anchors 與 ground truth 進行匹配,而可學習實例則與預測和 ground truth 進行匹配。在測試階段,只保留綠色塊。為防止特徵在groups 之間傳播,採用了Attention mask,灰色表示queries 和keys 之間沒有註意力,綠色表示相反

Sparse4D v3来了!推进端到端3D检测和跟踪

請看圖5:錨點編碼器和注意力的架構。本文獨立地對錨點的多個組件進行了高維特徵編碼,然後將它們連接起來。與原始的Sparse4D相比,這種方法可以減少計算和參數的開銷。 E和F分別表示錨點嵌入和實例特徵

Sparse4D v3来了!推进端到端3D检测和跟踪

實驗結果:

Sparse4D v3来了!推进端到端3D检测和跟踪Sparse4D v3来了!推进端到端3D检测和跟踪Sparse4D v3来了!推进端到端3D检测和跟踪Sparse4D v3来了!推进端到端3D检测和跟踪Sparse4D v3来了!推进端到端3D检测和跟踪Sparse4D v3来了!推进端到端3D检测和跟踪Sparse4D v3来了!推进端到端3D检测和跟踪

##總結:

#本文首先提出了增強Sparse4D 偵測效能的方法。這項增強主要包括三個面向:時序實例去雜訊、品質估計和解耦注意力。隨後,本文說明了將 Sparse4D 擴展為端到端追蹤模型的過程。本文在 nuScenes 上的實驗表明,這些增強功能顯著提高了性能,使 Sparse4Dv3 處於該領域的前沿。

引用:

Lin, X., Pei, Z., Lin, T., Huang, L., & Su, Z. (2023). Sparse4D v3: Advancing End-to-End 3D Detection and Tracking.

 ###ArXiv. /abs/2311.11722###

以上是Sparse4D v3來了!推進端到端3D偵測與追蹤的詳細內容。更多資訊請關注PHP中文網其他相關文章!

陳述
本文轉載於:51CTO.COM。如有侵權,請聯絡admin@php.cn刪除
您必須在無知的面紗後面建立工作場所您必須在無知的面紗後面建立工作場所Apr 29, 2025 am 11:15 AM

在約翰·羅爾斯1971年具有開創性的著作《正義論》中,他提出了一種思想實驗,我們應該將其作為當今人工智能設計和使用決策的核心:無知的面紗。這一理念為理解公平提供了一個簡單的工具,也為領導者如何利用這種理解來公平地設計和實施人工智能提供了一個藍圖。 設想一下,您正在為一個新的社會制定規則。但有一個前提:您事先不知道自己在這個社會中將扮演什麼角色。您最終可能富有或貧窮,健康或殘疾,屬於多數派或邊緣少數群體。在這種“無知的面紗”下運作,可以防止規則制定者做出有利於自身的決策。相反,人們會更有動力製定公

決策,決策……實用應用AI的下一步決策,決策……實用應用AI的下一步Apr 29, 2025 am 11:14 AM

許多公司專門從事機器人流程自動化(RPA),提供機器人以使重複的任務自動化 - UIPATH,在任何地方自動化,藍色棱鏡等。 同時,過程採礦,編排和智能文檔處理專業

代理人來了 - 更多關於我們將在AI合作夥伴旁邊做什麼代理人來了 - 更多關於我們將在AI合作夥伴旁邊做什麼Apr 29, 2025 am 11:13 AM

AI的未來超越了簡單的單詞預測和對話模擬。 AI代理人正在出現,能夠獨立行動和任務完成。 這種轉變已經在諸如Anthropic的Claude之類的工具中很明顯。 AI代理:研究

為什麼同情在AI驅動的未來中比控制者更重要為什麼同情在AI驅動的未來中比控制者更重要Apr 29, 2025 am 11:12 AM

快速的技術進步需要對工作未來的前瞻性觀點。 當AI超越生產力並開始塑造我們的社會結構時,會發生什麼? Topher McDougal即將出版的書Gaia Wakes:

用於產品分類的AI:機器可以總稅法嗎?用於產品分類的AI:機器可以總稅法嗎?Apr 29, 2025 am 11:11 AM

產品分類通常涉及復雜的代碼,例如諸如統一系統(HS)等系統的“ HS 8471.30”,對於國際貿易和國內銷售至關重要。 這些代碼確保正確的稅收申請,影響每個INV

數據中心的需求會引發氣候技術反彈嗎?數據中心的需求會引發氣候技術反彈嗎?Apr 29, 2025 am 11:10 AM

數據中心能源消耗與氣候科技投資的未來 本文探討了人工智能驅動的數據中心能源消耗激增及其對氣候變化的影響,並分析了應對這一挑戰的創新解決方案和政策建議。 能源需求的挑戰: 大型超大規模數據中心耗電量巨大,堪比數十萬個普通北美家庭的總和,而新興的AI超大規模中心耗電量更是數十倍於此。 2024年前八個月,微軟、Meta、谷歌和亞馬遜在AI數據中心建設和運營方面的投資已達約1250億美元(摩根大通,2024)(表1)。 不斷增長的能源需求既是挑戰也是機遇。據Canary Media報導,迫在眉睫的電

AI和好萊塢的下一個黃金時代AI和好萊塢的下一個黃金時代Apr 29, 2025 am 11:09 AM

生成式AI正在徹底改變影視製作。 Luma的Ray 2模型,以及Runway的Gen-4、OpenAI的Sora、Google的Veo等眾多新模型,正在以前所未有的速度提升生成視頻的質量。這些模型能夠輕鬆製作出複雜的特效和逼真的場景,甚至連短視頻剪輯和具有攝像機感知的運動效果也已實現。雖然這些工具的操控性和一致性仍有待提高,但其進步速度令人驚嘆。 生成式視頻正在成為一種獨立的媒介形式。一些模型擅長動畫製作,另一些則擅長真人影像。值得注意的是,Adobe的Firefly和Moonvalley的Ma

Chatgpt是否會慢慢成為AI最大的Yes-Man?Chatgpt是否會慢慢成為AI最大的Yes-Man?Apr 29, 2025 am 11:08 AM

ChatGPT用户体验下降:是模型退化还是用户期望? 近期,大量ChatGPT付费用户抱怨其性能下降,引发广泛关注。 用户报告称模型响应速度变慢,答案更简短、缺乏帮助,甚至出现更多幻觉。一些用户在社交媒体上表达了不满,指出ChatGPT变得“过于讨好”,倾向于验证用户观点而非提供批判性反馈。 这不仅影响用户体验,也给企业客户带来实际损失,例如生产力下降和计算资源浪费。 性能下降的证据 许多用户报告了ChatGPT性能的显著退化,尤其是在GPT-4(即将于本月底停止服务)等旧版模型中。 这

See all articles

熱AI工具

Undresser.AI Undress

Undresser.AI Undress

人工智慧驅動的應用程序,用於創建逼真的裸體照片

AI Clothes Remover

AI Clothes Remover

用於從照片中去除衣服的線上人工智慧工具。

Undress AI Tool

Undress AI Tool

免費脫衣圖片

Clothoff.io

Clothoff.io

AI脫衣器

Video Face Swap

Video Face Swap

使用我們完全免費的人工智慧換臉工具,輕鬆在任何影片中換臉!

熱工具

記事本++7.3.1

記事本++7.3.1

好用且免費的程式碼編輯器

SublimeText3 Linux新版

SublimeText3 Linux新版

SublimeText3 Linux最新版

WebStorm Mac版

WebStorm Mac版

好用的JavaScript開發工具

MinGW - Minimalist GNU for Windows

MinGW - Minimalist GNU for Windows

這個專案正在遷移到osdn.net/projects/mingw的過程中,你可以繼續在那裡關注我們。 MinGW:GNU編譯器集合(GCC)的本機Windows移植版本,可自由分發的導入函式庫和用於建置本機Windows應用程式的頭檔;包括對MSVC執行時間的擴展,以支援C99功能。 MinGW的所有軟體都可以在64位元Windows平台上運作。

PhpStorm Mac 版本

PhpStorm Mac 版本

最新(2018.2.1 )專業的PHP整合開發工具