深度估計SOTA！自動駕駛單眼與環視深度的自適應融合-人工智慧-PHP中文網

首頁

科技週邊

人工智慧

深度估計SOTA！自動駕駛單眼與環視深度的自適應融合

PHPz

Mar 23, 2024 pm 01:06 PM

系統評估

寫在前面&個人理解

多視圖深度估計在各種基準測試中都取得了較高性能。然而，目前幾乎所有的多視圖系統都依賴給定的理想相機姿態，而這在許多現實世界的場景中是不可用的，例如自動駕駛。本工作提出了一種新的穩健性基準來評估各種噪音姿態設定下的深度估計系統。令人驚訝的是，發現當前的多視圖深度估計方法或單視圖和多視圖融合方法在給定有雜訊的姿態設定時會失敗。為了應對這一挑戰，這裡提出了一種單視圖和多視圖融合的深度估計系統AFNet，該系統自適應地整合了高置信度的多視圖和單視圖結果，以實現穩健和準確的深度估計。自適應融合模組透過基於包裹置信度圖在兩個分支之間動態選擇高置信度區域來執行融合。因此，當面對無紋理場景、不準確的校準、動態物件和其他退化或具有挑戰性的條件時，系統傾向於選擇更可靠的分支。在穩健性測試下，方法優於最先進的多視圖和融合方法。此外，在具有挑戰性的基準測試中實現了最先進的性能（KITTI和DDAD）。

論文連結：https://arxiv.org/pdf/2403.07535.pdf

論文名稱：Adaptive Fusion of Single-View and Multi-View Depth for Autonomous Driving

領域背景

影像深度估計一直是電腦視覺領域的挑戰，具有廣泛的應用。對於基於視覺的自動駕駛系統，深度感知是關鍵，它有助於理解道路上的物體並建立3D環境地圖。隨著深度神經網路在各種視覺問題中的應用，基於卷積神經網路（CNN）的方法已成為深度估計任務的主流。

根據輸入格式，主要分為多視角深度估計和單視角深度估計。多視圖方法估計深度的假設是，給定正確的深度、相機標定和相機姿態，各個視圖的像素應該相似。他們依靠極線幾何來三角測量高品質的深度。然而，多視圖方法的準確性和穩健性在很大程度上取決於相機的幾何配置和視圖之間的對應匹配。首先，攝影機需要進行足夠的平移以進行三角測量。在自動駕駛場景中，自車可能會在紅綠燈處停車或在不向前移動的情況下轉彎，這會導致三角測量失敗。此外，多視圖方法存在動態目標和無紋理區域的問題，這些問題在自動駕駛場景中普遍存在。另一個問題是運動車輛上的SLAM姿態優化。在現有的SLAM方法中，噪音是不可避免的，更不用說具有挑戰性和不可避免的情況了。例如，一個機器人或自動駕駛汽車可以在不重新校準的情況下部署數年，從而導致姿勢嘈雜。相較之下，由於單一視圖方法依賴對場景的語義理解和透視投影線索，因此它們對無紋理區域、動態物件更具穩健性，而不依賴相機姿勢。然而，由於尺度的模糊性，其效能與多視圖方法相比仍有很大差距。在這裡，我們傾向於考慮是否可以很好地結合這兩種方法的優勢，在自動駕駛場景中進行穩健和準確的單目視訊深度估計。

AFNet網路結構

AFNet結構如下所示，它由三個部分組成：單一視圖分支、多視圖分支和自適應融合（AF）模組。兩個分支共享特徵提取網絡，並具有自己的預測和置信度圖，即、，和，然後由AF模組進行融合，以獲得最終準確和穩健的預測，AF模組中的綠色背景表示單視圖分支和多重視圖分支的輸出。

深度估計SOTA！自動駕駛單眼與環視深度的自適應融合

損失函數：

深度估計SOTA！自動駕駛單眼與環視深度的自適應融合

#單一視圖與多視圖深度模組

#為了合併主幹特徵並獲得深度特徵Ds，AFNet建構了一個多尺度解碼器。在這個過程中，對Ds的前256個通道進行softmax操作，得到深度機率體積Ps。而深度特徵中的最後一個通道則被用作單視圖深度的置信圖Ms。最後，透過軟加權的方式來計算單視圖深度。

深度估計SOTA！自動駕駛單眼與環視深度的自適應融合

多重視圖分支

多重視圖分支與單一視圖分支共用主幹，以擷取參考影像和來源影像的特徵。我們採用去卷積將低分辨率特徵去卷積為四分之一分辨率，並將它們與用於構建cost volume的初始四分之一特徵相結合。透過將來源特徵wrap到參考相機跟隨的假設平面中，形成特徵volume。用於不需要太多的魯棒匹配信息，在計算中保留了特徵的通道維度並構建了4D cost volume，然後通過兩個3D卷積層將通道數量減少到1。

深度假設的取樣方法與單視圖分支一致，但取樣數量僅為128，然後使用堆疊的2D沙漏網路進行正規化，以獲得最終的多視圖cost volume。為了補充單視圖特徵的豐富語義資訊和由於成本正則化而丟失的細節，使用殘差結構來組合單視圖深度特徵Ds和cost volume，以獲得融合深度特徵，如下所示：

深度估計SOTA！自動駕駛單眼與環視深度的自適應融合

自適應融合模組

為了獲得最終準確和穩健的預測，設計了AF模組，以自適應地選擇兩個分支之間最準確的深度作為最終輸出，如圖2所示。透過三個confidence進行融合映射，其中兩個是由兩個分支分別產生的置信圖Ms和Mm，最關鍵的一個是透過前向wrapping產生的置信度圖Mw，以判斷多視圖分支的預測是否可靠。

實驗結果

DDAD（自動駕駛的密集深度）是一種新的自動駕駛基準，用於在具有挑戰性和多樣化的城市條件下進行密集深度估計。它由6台同步相機拍攝，並包含高密度雷射雷達產生的準確的地GT深度（整個360度視場）。它在單一相機視圖中有12650個訓練樣本和3950個驗證樣本，其中解析度為1936×1216。來自6台攝影機的全部資料用於訓練和測試。 KITTI資料集，提供運動車輛上拍攝的戶外場景的立體影像和相應的3D雷射scan，解析度約為1241×376。

深度估計SOTA！自動駕駛單眼與環視深度的自適應融合

DDAD和KITTI上的評測結果比較。請注意，* 標記了使用其開源程式碼複製的結果，其他報告的數字來自相應的原始論文。

深度估計SOTA！自動駕駛單眼與環視深度的自適應融合

DDAD上方法中每種策略的消融實驗結果。 Single表示單一視圖分支預測的結果，Multi-表示多視圖分支預測結果，Fuse表示融合結果dfuse。

深度估計SOTA！自動駕駛單眼與環視深度的自適應融合

消融結果的特徵提取網路參數共享和提取匹配資訊的方法。

深度估計SOTA！自動駕駛單眼與環視深度的自適應融合

以上是深度估計SOTA！自動駕駛單眼與環視深度的自適應融合的詳細內容。更多資訊請關注PHP中文網其他相關文章！

陳述

本文轉載於：51CTO.COM。如有侵權，請聯絡admin@php.cn刪除

META的新AI助手：生產力助推器還是時間下沉？May 01, 2025 am 11:18 AM

Meta攜手Nvidia、IBM和Dell等合作夥伴，拓展了Llama Stack的企業級部署整合。在安全方面，Meta推出了Llama Guard 4、LlamaFirewall和CyberSecEval 4等新工具，並啟動了Llama Defenders計劃，以增強AI安全性。此外，Meta還向10個全球機構（包括致力於改善公共服務、醫療保健和教育的初創企業）發放了總額150萬美元的Llama Impact Grants。由Llama 4驅動的全新Meta AI應用，被設想為Meta AI

80％的Zers將嫁給AI：研究May 01, 2025 am 11:17 AM

公司開創性的人類互動公司Joi AI介紹了“ AI-Iatsionship”一詞來描述這些不斷發展的關係。 Joi AI的關係治療師Jaime Bronstein澄清說，這並不是要取代人類C

AI使互聯網的機器人問題變得更糟。這家耗資20億美元的創業公司在前線May 01, 2025 am 11:16 AM

在線欺詐和機器人攻擊對企業構成了重大挑戰。零售商與機器人ho積產品，銀行戰斗帳戶接管以及社交媒體平台與模仿者鬥爭。 AI的興起加劇了這個問題，Rende

賣給機器人：將創造或破壞業務的營銷革命May 01, 2025 am 11:15 AM

AI代理人有望徹底改變營銷，並可能超過以前技術轉變的影響。這些代理代表了生成AI的重大進步，不僅是處理諸如chatgpt之類的處理信息，而且還採取了Actio

計算機視覺技術如何改變NBA季后賽主持人May 01, 2025 am 11:14 AM

人工智能對關鍵NBA遊戲4決策的影響兩場關鍵遊戲4 NBA對決展示了AI在主持儀式中改變遊戲規則的角色。首先，丹佛的尼古拉·喬基奇（Nikola Jokic）錯過了三分球，導致亞倫·戈登（Aaron Gordon）的最後一秒鐘。索尼的鷹

AI如何加速再生醫學的未來May 01, 2025 am 11:13 AM

傳統上，擴大重生醫學專業知識在全球範圍內要求廣泛的旅行，動手培訓和多年指導。現在，AI正在改變這一景觀，克服地理局限性並通過EN加速進步

Intel Foundry Direct Connect 2025的關鍵要點May 01, 2025 am 11:12 AM

英特爾正努力使其製造工藝重回領先地位，同時努力吸引無晶圓廠半導體客戶在其晶圓廠製造芯片。為此，英特爾必須在業界建立更多信任，不僅要證明其工藝的競爭力，還要證明合作夥伴能夠以熟悉且成熟的工作流程、一致且高可靠性地製造芯片。今天我聽到的一切都讓我相信英特爾正在朝著這個目標前進。新任首席執行官譚立柏的主題演講拉開了當天的序幕。譚立柏直率而簡潔。他概述了英特爾代工服務的若干挑戰，以及公司為應對這些挑戰、為英特爾代工服務的未來規劃成功路線而採取的措施。譚立柏談到了英特爾代工服務正在實施的流程，以更以客