在這個工作中,我們透過多幀點雲建構了稠密佔據柵格資料集,並設計了基於transformer的2D-3D Unet結構的三維佔據柵格網路。很榮幸地,我們的文章被ICCV 2023收錄,目前專案代碼已開源,歡迎大家試用。
arXiv:https://arxiv.org/pdf/2303.09551.pdf
程式碼:https://github.com/weiyithu/SurroundOcc
主頁連結:https://weiyithu.github.io/SurroundOcc/
最近一直在瘋狂找工作,沒有閒下來寫,正好最近提交了camera-ready,作為一個工作的收尾覺得還是寫個知乎總結下。其實文章部分的介紹各個公眾號寫的已經很好了,也感謝他們的宣傳,大家可以直接參考自動駕駛之心的自動駕駛之心:nuScenes SOTA! SurroundOcc:面向自動駕駛的純視覺3D佔據預測網(清華&天大)。總的來說,contribution分為兩塊,一部分是如何利用多幀的lidar點雲來建構稠密occupancy資料集,另一部分是如何設計occupancy預測的網路。其實兩部分的內容都比較直接易懂,大家有哪塊不懂的也可以隨時問我。那麼這篇文章我想講點論文以外的事情,一個是如何改進當前方案使其更易於部署,另一個是未來的發展方向。
部署
#一個網路是否容易部署,主要看其中有沒有比較難在板端實現的算子,SurroundOcc這個方法比較難搞的兩個算子是transformer層以及3D卷積。
transformer的主要作用是將2D feature轉換到3D空間,那麼其實這部分也可以用LSS,Homography甚至mlp來實現,所以可以根據已實現的方案去修改這部分的網絡。但據我所知,transformer的方案在幾個方案裡對calibration不敏感且效能也比較好,建議有能力實現transformer部署的還是利用原有方案。
對於3D卷積來說,可以將其替換成2D卷積,這裡需要將原來(C, H, W, Z) 的3D feature reshape成(C* Z, H, W)的2D feature,然後就可以用2D卷積進行特徵提取了,在最後occupancy預測那步再把它reshape回(C, H, W, Z),並進行監督。另一方面,skip connection由於解析度比較大所以比較吃顯存,部署的時候可以去掉只留最小解析度那一層。我們實驗發現3D卷積中的這兩個操作在nuscenes上都會有些許掉點,但業界資料集規模要遠大於nuscenes,有時候有些結論也會改變,掉點應該會少甚至不掉。
在資料集建置方面,最耗時的一步就是泊松重建。我們使用的是nuscenes資料集,其中採用了32線雷射雷達進行採集。即使使用了多幀拼接技術,我們發現拼接後的點雲仍然存在許多洞。因此,我們採用了泊松重建來填補這些洞。然而,目前業界使用的許多光達點雲都比較密集,例如M1、RS128等。因此,在這種情況下,可以省略泊松重建這一步,以加快資料集建構的速度
另一方面,SurroundOcc裡是利用nuscenes中標註好的三維目標偵測框將靜態場景和動態物體分離的。但在實際應用過程中,可以利用autolabel,也就是三維目標偵測&追蹤大模型去得到每個物體在整個sequence中的偵測框。相較於人工標註的label,利用大模型跑出來的結果一定會存在一些誤差,最直接的體現就是多幀的物體拼接後會有重影的現象。但其實occupancy對於物體形狀的要求沒有那麼高,只要偵測框位置比較準就能滿足需求。
未來方向
目前方法還是比較依賴lidar提供occupancy的監督訊號的,但很多車上,尤其是一些低階輔助駕駛的車上沒有lidar,這些車透過shadow模式可以傳回大量的RGB數據,那麼一個未來方向就是能不能只利用RGB進行自我監督學習。一個自然的解決想法就是利用NeRF來監督,具體來說,前面backbone部分不變,得到一個occupancy的預測,然後利用體素渲染得到每個相機視角下的RGB,和訓練集中的真值RGB做loss形成監督訊號。但可惜的是這套straightforward的方法我們試了試並不是很work,可能的原因是戶外場景range太大,nerf可能hold不住,但也可能我們沒有調好,大家也可以再試。
另一個方向是時序&occupancy flow。其實occupancy flow對於下游任務的用途遠比單幀occupancy大。 ICCV的時候來不及整occupancy flow的資料集,發paper的話還要對比很多flow的baseline,所以當時就沒搞這塊。時序網路可以參考BEVFormer和BEVDet4D的方案,比較簡單有效。困難的地方還是flow資料集這一部分,一般的物體可以用sequence的三維目標偵測框算出來,但異型物體例如小動物塑膠袋等,可能需要藉助場景流的方法來標註。
需要進行改寫的內容是:原文連結:https://mp.weixin.qq.com/s/_crun60B_lOz6_maR0Wyug
以上是SurroundOcc:環視三維佔據柵格新SOTA!的詳細內容。更多資訊請關注PHP中文網其他相關文章!

軟AI(被定義為AI系統,旨在使用近似推理,模式識別和靈活的決策執行特定的狹窄任務 - 試圖通過擁抱歧義來模仿類似人類的思維。 但是這對業務意味著什麼

答案很明確 - 只是雲計算需要向雲本地安全工具轉變,AI需要專門為AI獨特需求而設計的新型安全解決方案。 雲計算和安全課程的興起 在

企業家,並使用AI和Generative AI來改善其業務。同時,重要的是要記住生成的AI,就像所有技術一樣,都是一個放大器 - 使得偉大和平庸,更糟。嚴格的2024研究O

解鎖嵌入模型的力量:深入研究安德魯·NG的新課程 想像一個未來,機器可以完全準確地理解和回答您的問題。 這不是科幻小說;多虧了AI的進步,它已成為R

大型語言模型(LLM)和不可避免的幻覺問題 您可能使用了諸如Chatgpt,Claude和Gemini之類的AI模型。 這些都是大型語言模型(LLM)的示例,在大規模文本數據集上訓練的功能強大的AI系統

最近的研究表明,根據行業和搜索類型,AI概述可能導致有機交通下降15-64%。這種根本性的變化導致營銷人員重新考慮其在數字可見性方面的整個策略。 新的

埃隆大學(Elon University)想像的數字未來中心的最新報告對近300名全球技術專家進行了調查。由此產生的報告“ 2035年成為人類”,得出的結論是,大多數人擔心AI系統加深的採用


熱AI工具

Undresser.AI Undress
人工智慧驅動的應用程序,用於創建逼真的裸體照片

AI Clothes Remover
用於從照片中去除衣服的線上人工智慧工具。

Undress AI Tool
免費脫衣圖片

Clothoff.io
AI脫衣器

AI Hentai Generator
免費產生 AI 無盡。

熱門文章

熱工具

SecLists
SecLists是最終安全測試人員的伙伴。它是一個包含各種類型清單的集合,這些清單在安全評估過程中經常使用,而且都在一個地方。 SecLists透過方便地提供安全測試人員可能需要的所有列表,幫助提高安全測試的效率和生產力。清單類型包括使用者名稱、密碼、URL、模糊測試有效載荷、敏感資料模式、Web shell等等。測試人員只需將此儲存庫拉到新的測試機上,他就可以存取所需的每種類型的清單。

Atom編輯器mac版下載
最受歡迎的的開源編輯器

DVWA
Damn Vulnerable Web App (DVWA) 是一個PHP/MySQL的Web應用程序,非常容易受到攻擊。它的主要目標是成為安全專業人員在合法環境中測試自己的技能和工具的輔助工具,幫助Web開發人員更好地理解保護網路應用程式的過程,並幫助教師/學生在課堂環境中教授/學習Web應用程式安全性。 DVWA的目標是透過簡單直接的介面練習一些最常見的Web漏洞,難度各不相同。請注意,該軟體中

mPDF
mPDF是一個PHP庫,可以從UTF-8編碼的HTML產生PDF檔案。原作者Ian Back編寫mPDF以從他的網站上「即時」輸出PDF文件,並處理不同的語言。與原始腳本如HTML2FPDF相比,它的速度較慢,並且在使用Unicode字體時產生的檔案較大,但支援CSS樣式等,並進行了大量增強。支援幾乎所有語言,包括RTL(阿拉伯語和希伯來語)和CJK(中日韓)。支援嵌套的區塊級元素(如P、DIV),

SAP NetWeaver Server Adapter for Eclipse
將Eclipse與SAP NetWeaver應用伺服器整合。