寫在前面&筆者的個人總結
近年來,自動駕駛領域的3D佔據預測任務因其獨特的優勢受到學術界和工業界的廣泛關注。該任務透過重建周圍環境的3D結構,為自動駕駛的規劃和導航提供詳細資訊。然而,目前主流的方法大多依賴基於雷射雷達(LiDAR)點雲產生的標籤來監督網路訓練。 在最近的OccNeRF研究中,作者提出了一種自我監督的多相機佔據預測方法,名為參數化佔據場(Parameterized Occupancy Fields)。此方法解決了室外場景中無邊界的問題,並重新組織了採樣策略。然後,透過體渲染(Volume Rendering)技術,將佔據場轉換為多相機深度圖,並透過多幀光度一致性(Photometric Error)進行監督。 此外,該方法還利用預先訓練的開放詞彙語意分割模型來產生2D語意標籤,以賦予佔據場語意資訊。這種開放詞彙語意分割模型能夠對場景中的不同物體進行分割,並為每個物體分配語意標籤。透過將這些語義標籤與佔據場結合,模型能夠更好地理解環境並做出更準確的預測。 總之,OccNeRF方法透過參數化佔據場、體渲染和多幀光度一致性的組合使用,以及與開放詞彙語意分割模型的結合,實現了自動駕駛場景中的高精度佔據預測。這種方法為自動駕駛系統提供了更多的環境信息,有望提高自動駕駛的安全性和可靠性。
- 論文連結:https://arxiv.org/pdf/2312.09243.pdf
- 程式碼連結:https://github.com /LinShan-Bin/OccNeRF
OccNeRF問題背景
#近年來,隨著人工智慧技術的快速發展,自動駕駛領域也取得了巨大進展。 3D 感知是實現自動駕駛的基礎,為後續的規劃決策提供必要資訊。在傳統方法中,光達能直接捕捉精確的 3D 數據,但感測器成本高且掃描點稀疏,限制了其落地應用。相較之下,基於影像的 3D 感知方法成本低且有效,受到越來越多的關注。多相機 3D 目標偵測在一段時間內是3D 場景理解任務的主流,但它無法應對現實世界中無限的類別,並受到資料長尾分佈的影響。
3D 佔據預測能很好地彌補這些缺點,它透過多重視角輸入直接重建周圍場景的幾何結構。大多數現有方法專注於模型設計與效能最佳化,依賴 LiDAR 點雲產生的標籤來監督網路訓練,這在基於影像的系統中是不可用的。換言之,我們仍需要利用昂貴的數據採集車來收集訓練數據,並浪費大量沒有 LiDAR 點雲輔助標註的真實數據,這一定程度上限制了 3D 佔據預測的發展。因此探索自監督 3D 佔據預測是一個非常有價值的方向。
詳解OccNeRF演算法
下圖展示了 OccNeRF 方法的基本流程。模型以多相機影像 作為輸入,首先使用2D backbone 擷取N 個圖片的特徵 ,接著直接透過簡單的投影與雙線性內插獲3D 特徵(在參數化空間下),最後透過3D CNN 網路優化3D 特徵並輸出預測結果。為了訓練模型,OccNeRF 方法透過體渲染產生目前影格的深度圖,並引入前後影格來計算光度損失。為了引入更多的時序訊息,OccNeRF 會使用一個佔據場渲染多幀深度圖並計算損失函數。同時,OccNeRF 也同時渲染 2D 語意圖,並透過開放詞彙語意分割模型進行監督。
Parameterized Occupancy Fields
#Parameterized Occupancy Fields 的提出是為了解決相機與佔據網格之間存在感知範圍差距這一問題。理論上來講,相機可以拍攝到無限遠處的物體,而以往的佔據預測模型都只考慮較近的空間(例如 40 m 範圍內)。在有監督方法中,模型可以根據監督訊號學會忽略遠處的物體;而在無監督方法中,若仍只考慮近處的空間,則影像中存在的大量超出範圍的物體將對最佳化過程產生負面影響。基於此,OccNeRF 採用了 Parameterized Occupancy Fields 來建模範圍無限的室外場景。
OccNeRF 中的參數化空間分為內部和外部。內部空間是原始座標的線性映射,保持了較高的分辨率;而外部空間表示了無限大的範圍。具體來說,OccNeRF 分別對3D 空間中點的 座標做以下變化:
其中 為 座標,, 是可調節的參數,表示內部空間對應的邊界值, #也是可調節的參數,表示內部空間佔據的比例。在生成 parameterized occupancy fields 時,OccNeRF 先在參數化空間中採樣,透過逆變換得到原始座標,然後將原始座標投影到影像平面上,最後透過採樣和三維卷積得到佔據場。
Multi-frame Depth Estimation
為了實現訓練 occupancy 網絡,OccNeRF選擇利用體渲染將 occupancy 轉換為深度圖,並透過光度損失函數來監督。渲染深度圖時採樣策略很重要。在參數化空間中,若直接根據深度或視差均勻取樣,都會造成採樣點在內部或外部空間分佈不均勻,進而影響最佳化過程。因此,OccNeRF 提出在相機中心離原點較近的前提下,可直接在參數化空間中均勻取樣。此外,OccNeRF 在訓練時會渲染並監督多幀深度圖。
下圖直觀地展示了使用參數化空間表示所佔據的優勢。 (其中第三行使用了參數化空間,第二行沒有使用。)
#Semantic Label Generation
OccNeRF 使用預訓練的GroundedSAM (Grounding DINO SAM) 產生2D 語意標籤。為了產生高品質的標籤,OccNeRF 採用了兩個策略,一是提示詞優化,用精確的描述替換掉 nuScenes 中模糊的類別。 OccNeRF中使用了三種策略優化提示詞:歧義詞替換(car 替換為 sedan)、單字變多詞(manmade 替換為 building, billboard and bridge)和額外資訊引入(bicycle 替換為 bicycle, bicyclist)。二是根據 Grounding DINO 中偵測框的置信度而不是 SAM 給出的逐像素置信度來決定類別。 OccNeRF 產生的語意標籤效果如下:
OccNeRF實驗結果
OccNeRF 在nuScenes 上進行實驗,並主要完成了多視角自監督深度估計和3D 佔據預測任務。
多視角自監督深度估計
OccNeRF 在 nuScenes 上多視角自監督深度估計表現如下表所示。可以看到基於 3D 建模的 OccNeRF 顯著超過了 2D 方法,也超過了 SimpleOcc,很大程度上是由於 OccNeRF 針對室外場景建模了無限的空間範圍。
論文中的部分視覺化效果如下:
3D 佔據預測
OccNeRF 在nuScenes上3D 佔據預測性能如下表所示。由於 OccNeRF 完全不使用標註數據,其性能與監督方法仍有差距。但部分類別(如 drivable surface 與 manmade)已達到與有監督方法可比的性能。
文字中的部分視覺化效果如下:
總結
在許多汽車廠商都嘗試去除LiDAR 感測器的當下,如何利用成千上萬無標註的影像數據,是個重要的課題。而 OccNeRF 為我們帶來了一個很有價值的嘗試。
原文連結:https://mp.weixin.qq.com/s/UiYEeauAGVtT0c5SB2tHEA
以上是OccNeRF:完全無需雷射雷達資料監督的詳細內容。更多資訊請關注PHP中文網其他相關文章!

軟AI(被定義為AI系統,旨在使用近似推理,模式識別和靈活的決策執行特定的狹窄任務 - 試圖通過擁抱歧義來模仿類似人類的思維。 但是這對業務意味著什麼

答案很明確 - 只是雲計算需要向雲本地安全工具轉變,AI需要專門為AI獨特需求而設計的新型安全解決方案。 雲計算和安全課程的興起 在

企業家,並使用AI和Generative AI來改善其業務。同時,重要的是要記住生成的AI,就像所有技術一樣,都是一個放大器 - 使得偉大和平庸,更糟。嚴格的2024研究O

解鎖嵌入模型的力量:深入研究安德魯·NG的新課程 想像一個未來,機器可以完全準確地理解和回答您的問題。 這不是科幻小說;多虧了AI的進步,它已成為R

大型語言模型(LLM)和不可避免的幻覺問題 您可能使用了諸如Chatgpt,Claude和Gemini之類的AI模型。 這些都是大型語言模型(LLM)的示例,在大規模文本數據集上訓練的功能強大的AI系統

最近的研究表明,根據行業和搜索類型,AI概述可能導致有機交通下降15-64%。這種根本性的變化導致營銷人員重新考慮其在數字可見性方面的整個策略。 新的

埃隆大學(Elon University)想像的數字未來中心的最新報告對近300名全球技術專家進行了調查。由此產生的報告“ 2035年成為人類”,得出的結論是,大多數人擔心AI系統加深的採用


熱AI工具

Undresser.AI Undress
人工智慧驅動的應用程序,用於創建逼真的裸體照片

AI Clothes Remover
用於從照片中去除衣服的線上人工智慧工具。

Undress AI Tool
免費脫衣圖片

Clothoff.io
AI脫衣器

AI Hentai Generator
免費產生 AI 無盡。

熱門文章

熱工具

SublimeText3漢化版
中文版,非常好用

SAP NetWeaver Server Adapter for Eclipse
將Eclipse與SAP NetWeaver應用伺服器整合。

Dreamweaver Mac版
視覺化網頁開發工具

Safe Exam Browser
Safe Exam Browser是一個安全的瀏覽器環境,安全地進行線上考試。該軟體將任何電腦變成一個安全的工作站。它控制對任何實用工具的訪問,並防止學生使用未經授權的資源。

MinGW - Minimalist GNU for Windows
這個專案正在遷移到osdn.net/projects/mingw的過程中,你可以繼續在那裡關注我們。 MinGW:GNU編譯器集合(GCC)的本機Windows移植版本,可自由分發的導入函式庫和用於建置本機Windows應用程式的頭檔;包括對MSVC執行時間的擴展,以支援C99功能。 MinGW的所有軟體都可以在64位元Windows平台上運作。