搜尋
首頁科技週邊人工智慧Graph-DETR3D: 在多視角3D目標偵測中對重疊區域再思考

arXiv論文“Graph-DETR3D: Rethinking Overlapping Regions for Multi-View 3D Object Detection“,22年6月,中科大、哈工大和商湯科技的工作。

Graph-DETR3D: 在多視角3D目標偵測中對重疊區域再思考

從多個影像視圖中偵測3-D目標是視覺場景理解的一項基本而富有挑戰性的任務。由於其低成本和高效率,多視圖3-D目標偵測顯示出了廣泛的應用前景。然而,由於缺乏深度訊息,透過3-D空間中的透視圖去精確檢測目標,極為困難。最近,DETR3D引入一種新的3D-2D query範式,用於聚合多視圖影像以進行3D目標檢測,並實現了最先進的性能。

本文透過密集的引導性實驗,量化了位於不同區域的目標,並發現「截斷實例」(即每個影像的邊界區域)是阻礙DETR3D效能的主要瓶頸。儘管在重疊區域中合併來自兩個相鄰視圖的多個特徵,但DETR3D仍然存在特徵聚合不足的問題,因此錯過了充分提高檢測性能的機會。

為了解決這個問題,提出Graph-DETR3D,透過圖結構學習(GSL)自動聚合多視圖影像資訊。在每個目標查詢和2-D特徵圖之間建立動態3D圖,以增強目標表示,尤其是在邊界區域。此外,Graph-DETR3D得益於一種新的深度不變(depth-invariant)多尺度訓練策略,其透過同時縮放影像大小和目標深度來保持視覺深度的一致性。

Graph-DETR3D的差異在於兩點,如圖所示:(1)動態圖特徵的聚合模組;(2)深度不變的多尺度訓練策略。它遵循DETR3D的基本結構,由三個組件組成:影像編碼器、transformer解碼器和目標預測頭。給定一組影像I={I1,I2,…,IK}(由N個週視攝影機捕捉),Graph-DETR3D旨在預測感興趣邊框的定位和類別。首先用影像編碼器(包括ResNet和FPN)將這些影像變成一組相對L個特徵圖級的特徵F。然後,建立一個動態3-D圖,透過動態圖特徵聚合(dynamic graph feature aggregation,DGFA)模組廣泛聚合2-D信息,優化目標查詢的表示。最後,利用增強的目標查詢輸出最終預測。

Graph-DETR3D: 在多視角3D目標偵測中對重疊區域再思考

如圖顯示動態圖特徵聚合(DFGA)流程:首先為每個目標查詢建構一個可學習的3-D圖,然後從2-D影像平面採樣特徵。最後,透過圖連接(graph connections)增強了目標查詢的表示。這種相互連接的訊息傳播(message propagation)方案支援對圖結構構造和特徵增強的迭代細化方案。

Graph-DETR3D: 在多視角3D目標偵測中對重疊區域再思考

多尺度訓練是2D和3D目標偵測任務中常用的資料增強策略,經證明有效且推理成本低。然而,它很少出現在基於視覺的3-D檢測方法中。考慮到不同輸入影像大小可以提高模型的穩健性,同時調整影像大小和修改攝影機內參來實現普通多尺度訓練策略。

一個有趣的現像是,最終的效能急劇下降。透過仔細分析輸入數據,發現簡單地重新縮放影像會導致透視-多義問題:當目標調整到較大/較小的比例時,其絕對屬性(即目標的大小、到ego point的距離)不會改變。

作為一個具體範例,如圖顯示這個多義問題:儘管(a)和(b)中所選區域的絕對3D位置相同,但影像像素的數量不同。深度預測網路傾向於基於影像的佔用面積來估計深度。因此,圖中的這種訓練模式可能會讓深度預測模型糊塗,並進一步惡化最終表現。

Graph-DETR3D: 在多視角3D目標偵測中對重疊區域再思考

為此從像素透視重新計算深度。演算法偽代碼如下:

Graph-DETR3D: 在多視角3D目標偵測中對重疊區域再思考

如下是解碼運算:

Graph-DETR3D: 在多視角3D目標偵測中對重疊區域再思考

重新計算的像素大小是:

Graph-DETR3D: 在多視角3D目標偵測中對重疊區域再思考

假設尺度因子r = rx = ry,則簡化得到:

Graph-DETR3D: 在多視角3D目標偵測中對重疊區域再思考

實驗結果如下:

Graph-DETR3D: 在多視角3D目標偵測中對重疊區域再思考

Graph-DETR3D: 在多視角3D目標偵測中對重疊區域再思考

Graph-DETR3D: 在多視角3D目標偵測中對重疊區域再思考

Graph-DETR3D: 在多視角3D目標偵測中對重疊區域再思考

註:DI = Depth-Invariant

#

以上是Graph-DETR3D: 在多視角3D目標偵測中對重疊區域再思考的詳細內容。更多資訊請關注PHP中文網其他相關文章!

陳述
本文轉載於:51CTO.COM。如有侵權,請聯絡admin@php.cn刪除
AI太空公司誕生了AI太空公司誕生了May 12, 2025 am 11:07 AM

本文展示了AI如何以Tomorrow.io為典型的例子來徹底改變空間行業。 與像SpaceX這樣的建立太空公司不同,SpaceX並非沒有AI的核心,明天是AI本地公司。 讓我們探索

印度的10個機器學習實習(2025)印度的10個機器學習實習(2025)May 12, 2025 am 10:47 AM

在印度(2025)登陸您夢想中的機器學習實習! 對於學生和早期職業專業人員來說,機器學習實習是一個有意義的職業的完美髮射台。 跨不同部門的印度公司 - 尖端的基因

嘗試Fellou AI並向Google和Chatgpt說再見嘗試Fellou AI並向Google和Chatgpt說再見May 12, 2025 am 10:26 AM

在過去的一年中,在線瀏覽的景觀經歷了重大轉變。 這種轉變始於增強,個性化的搜索結果,例如困惑和副駕駛等平台,並隨著Chatgpt的整合而加速了

個人黑客將是一隻非常兇猛的熊個人黑客將是一隻非常兇猛的熊May 11, 2025 am 11:09 AM

網絡攻擊正在發展。 通用網絡釣魚電子郵件的日子已經一去不復返了。 網絡犯罪的未來是超個性化的,利用了容易獲得的在線數據和AI來製作高度針對性的攻擊。 想像一個知道您的工作的騙子

教皇獅子座XIV揭示了AI如何影響他的名字選擇教皇獅子座XIV揭示了AI如何影響他的名字選擇May 11, 2025 am 11:07 AM

新當選的教皇獅子座(Leo Xiv)在對紅衣主教學院的就職演講中,討論了他的同名人物教皇里奧XIII的影響,他的教皇(1878-1903)與汽車和汽車和汽車公司的黎明相吻合

Fastapi -MCP初學者和專家教程-Analytics VidhyaFastapi -MCP初學者和專家教程-Analytics VidhyaMay 11, 2025 am 10:56 AM

本教程演示瞭如何使用模型上下文協議(MCP)和FastAPI將大型語言模型(LLM)與外部工具集成在一起。 我們將使用FastAPI構建一個簡單的Web應用程序,並將其轉換為MCP服務器,使您的L

dia-1.6b tts:最佳文本到二元格生成模型 - 分析vidhyadia-1.6b tts:最佳文本到二元格生成模型 - 分析vidhyaMay 11, 2025 am 10:27 AM

探索DIA-1.6B:由兩個本科生開發的開創性的文本對語音模型,零資金! 這個16億個參數模型產生了非常現實的語音,包括諸如笑聲和打噴嚏之類的非語言提示。本文指南

AI可以使指導比以往任何時候都更有意義AI可以使指導比以往任何時候都更有意義May 10, 2025 am 11:17 AM

我完全同意。 我的成功與導師的指導密不可分。 他們的見解,尤其是關於業務管理,構成了我的信念和實踐的基石。 這種經驗強調了我對導師的承諾

See all articles

熱AI工具

Undresser.AI Undress

Undresser.AI Undress

人工智慧驅動的應用程序,用於創建逼真的裸體照片

AI Clothes Remover

AI Clothes Remover

用於從照片中去除衣服的線上人工智慧工具。

Undress AI Tool

Undress AI Tool

免費脫衣圖片

Clothoff.io

Clothoff.io

AI脫衣器

Video Face Swap

Video Face Swap

使用我們完全免費的人工智慧換臉工具,輕鬆在任何影片中換臉!

熱門文章

熱工具

SublimeText3 Linux新版

SublimeText3 Linux新版

SublimeText3 Linux最新版

ZendStudio 13.5.1 Mac

ZendStudio 13.5.1 Mac

強大的PHP整合開發環境

EditPlus 中文破解版

EditPlus 中文破解版

體積小,語法高亮,不支援程式碼提示功能

SAP NetWeaver Server Adapter for Eclipse

SAP NetWeaver Server Adapter for Eclipse

將Eclipse與SAP NetWeaver應用伺服器整合。

MantisBT

MantisBT

Mantis是一個易於部署的基於Web的缺陷追蹤工具,用於幫助產品缺陷追蹤。它需要PHP、MySQL和一個Web伺服器。請查看我們的演示和託管服務。