搜尋
首頁科技週邊人工智慧UniPAD:通用自動駕駛預訓練模式!各類感知任務都可支持

最近,新論文推陳出新的速度著實太快有點讀不來的感覺。可以看到的是,語言視覺多模態大模型融合已經是業界共識了,UniPad 這篇文章就比較有代表性,多模態的輸入,類世界模型的預訓練基座模型,同時又方便擴展到多個傳統視覺應用。並且也解決了將大語言模型的預訓練方法用到 3D 場景的問題,所以給統一的感知基座大模型提供了可能。

UniPAD 是一種基於 MAE 和 3D 渲染的自監督學習方法,可以訓練一個表現優異的基座模型,進而在該模型上微調訓練下游任務,如深度估計、目標偵測和分割。研究設計了一個統一的3D 空間表示方法,使其能夠輕鬆融入2D 和3D 框架,展現了較大的靈活性,符合基座模型的定位

閱讀時的思考與疑問點:

遮罩自編碼技術和3D 可微分渲染技術的關係是什麼?簡單說:掩碼自編碼是為了利用 Autoencoder 的自監督訓練能力,渲染技術是為了產生圖片後和原始圖片之間進行損失函數計算並進行監督訓練。所以邏輯還是很清晰的。

這篇文章在使用基座模型預先訓練的方法,再微調下游的偵測方法和分割方法。這個方法也可以幫助理解當下的大模型與下游任務的配合方法。

看起來是沒有結合時序訊息的。畢竟純視覺 50.2 的 NuScenes NDS 目前在帶時序的檢測方法(StreamPETR、Sparse4D 等)比較中還是弱了一些。所以 4D 的 MAE 方法,也是值得一試的,其實 GAIA-1 已經提到了類似的想法。

請問運算量和記憶體使用量如何?

具體方法:

UniPAD 隱性地編碼了3D 空間訊息,這裡主要受到了掩碼自編碼(MAE、VoxelMAE 等)的啟發,本文利用了生成式的mask 來完成體素特徵的加強,用來重建場景中連續的3D 形狀結構以及它們在2D 平面上的複雜外觀特徵。

我們的實驗結果充分證明了UniPAD的優越性。與傳統的雷射雷達、攝影機以及雷射雷達-攝影機融合基線相比,UniPAD的NDS分別提高了9.1、7.7和6.9。值得注意的是,在nuScenes驗證集上,我們的預訓練流程實現了73.2的NDS,同時在3D語義分割任務上獲得了79.4的mIoU分數,與以前的方法相比,取得了最佳成績

整體架構:

UniPAD:通用自動駕駛預訓練模式!各類感知任務都可支持

整體架構。該框架 LiDar 和多鏡頭圖片作為輸入,這些多模態資料會透過掩蔽生成器(Mask Generator)被填充為零。被遮罩遮蔽的 embedding 會被轉換到體素空間,在這樣的 3D 空間中透過渲染技術產生RGB或深度預測結果。這時沒有被遮罩遮蔽的原始影像就可以做為生成資料進行監督學習了。

Mask Generator

Masked AutoEncoder中的mask是透過Mask Generator產生的。可以將其理解為透過增加訓練難度的方式來提高模型的表示能力和泛化能力。引入了一個Mask生成器,透過選擇性地遮蔽某些區域來區分點雲資料和影像資料。在點雲數據中,採用了分塊遮罩的策略;對於影像數據,採用了稀疏卷積的方法,只在可見區域進行計算。當輸入資料被遮罩後,後續的編碼特徵在對應的被遮罩區域會被設定為0,在模型的處理中被忽略,同時也為後續的監督學習提供了可以用來預測目標和對應的groundtruth的資訊

統一的表示形式

為了讓預訓練方法適用於各種不同的資料模態,尋找一個統一的表示形式就很重要。過往的BEV和OCC等方法都在尋找一個統一的標識形式,將3D點投影到影像平面中會導致深度資訊的遺失,而將它們合併到BEV鳥瞰圖中則會遺漏與高度相關的細節。因此,本文提出將兩種模態都轉換為3D體積空間,也就是類似OCC的3D體素空間

#渲染方法:

##可微分渲染技術應該是作者認為論文最大的亮點了,本文透過類似NERF 的取樣射線穿過多視圖影像或點雲,透過神經網路結構預測每個3D 點的顏色或深度,最後再透過射線穿過的路徑取得2D的映射。這樣可以更好地利用影像中的幾何或紋理線索,提高模型的學習能力和應用範圍。

我們將場景表示為SDF(implicit signed distance function field),當輸入是採樣點的3D 座標P(沿射線的相應深度D)與F(the feature embedding can be extracted from the volumetric representation by trilinear interpolation )時,SDF 可以看做一個MLP ,來預測取樣點的SDF 值。這裡 F 可以理解為 P 點所在的 encode 編碼。繼而得到輸出:N(condition the color field on the surface normal)和H(geometry feature vector),這時就可以透過一個以P、D、F、N、H 為輸入的MLP 取得到3D 採樣點的RGB值和深度值,再透過射線疊加3D 採樣點到2D 空間就得到了渲染結果。而這裡射線 Ray 的採用方法,和 Nerf 的方法基本上都一樣。

渲染方法還需要進行記憶體開支的最佳化工作,這裡先按下不表。不過這個問題是比較關鍵的落地問題。

Mask 與渲染方法的本質在於訓練一個預訓練模型,預訓練模型可以根據預測的遮罩進行訓練,甚至可以沒有後續分支。預訓練模型的後續工作透過不同的分支分別產生RGB 和深度預測,結合目標偵測/語意分割等任務進行微調,實現了即插即用的能力

Loss 損失函數:

Loss 函數並不複雜。

UniPAD:通用自動駕駛預訓練模式!各類感知任務都可支持

實驗結果:

UniPAD:通用自動駕駛預訓練模式!各類感知任務都可支持

UniPAD:通用自動駕駛預訓練模式!各類感知任務都可支持

和近期其他工作對比:

其實GAIA-1 已經在用時序上的Mask AutoEncoder 思路,只不過作為監督數據的是不同時刻的一整幀數據,但是UniPAD 則是在3D 空間中去隨機摳出一部分mask 來監督預測。倒是蠻期待能看到兩者結合的方法的。

另外,UniPAD 完全可以看成是一種多模態大模型的嘗試,也可以看做是一種世界模型。雖然文章中沒有非常強調這些。

總結:

本文應該算是 3D 領域較為新穎的 Masked Autoencoder 方法了。因為MAE 方法是用在了基座模型預訓練階段,所以支持了多個不同模態的信息,所以自然而然的可以擴展到微調下游很多任務,這和LLM 的設計思路非常的接近,都注重於在預訓練階段捕捉多模態訊息,為各種任務提供統一的基礎。這種方法為3D領域的研究提供了新的思路和可能性。

該方法不僅在3D領域具有潛力,還可以擴展到4D 時序領域,以及優化其內存與計算量等方面還可以產生很多新的工作,為未來的研究提供了新的思路和可能性。

UniPAD:通用自動駕駛預訓練模式!各類感知任務都可支持

原文連結:https://mp.weixin.qq.com/s/e_reCS-Lwr-KVF80z56_ow

以上是UniPAD:通用自動駕駛預訓練模式!各類感知任務都可支持的詳細內容。更多資訊請關注PHP中文網其他相關文章!

陳述
本文轉載於:51CTO.COM。如有侵權,請聯絡admin@php.cn刪除
及時工程中的思想圖是什麼及時工程中的思想圖是什麼Apr 13, 2025 am 11:53 AM

介紹 在迅速的工程中,“思想圖”是指使用圖理論來構建和指導AI的推理過程的新方法。與通常涉及線性S的傳統方法不同

優化您的組織與Genai代理商的電子郵件營銷優化您的組織與Genai代理商的電子郵件營銷Apr 13, 2025 am 11:44 AM

介紹 恭喜!您經營一家成功的業務。通過您的網頁,社交媒體活動,網絡研討會,會議,免費資源和其他來源,您每天收集5000個電子郵件ID。下一個明顯的步驟是

Apache Pinot實時應用程序性能監視Apache Pinot實時應用程序性能監視Apr 13, 2025 am 11:40 AM

介紹 在當今快節奏的軟件開發環境中,確保最佳應用程序性能至關重要。監視實時指標,例如響應時間,錯誤率和資源利用率可以幫助MAIN

Chatgpt擊中了10億用戶? Openai首席執行官說:'短短幾週內翻了一番Chatgpt擊中了10億用戶? Openai首席執行官說:'短短幾週內翻了一番Apr 13, 2025 am 11:23 AM

“您有幾個用戶?”他扮演。 阿爾特曼回答說:“我認為我們上次說的是每週5億個活躍者,而且它正在迅速增長。” “你告訴我,就像在短短幾週內翻了一番,”安德森繼續說道。 “我說那個私人

pixtral -12b:Mistral AI'第一個多模型模型 - 分析Vidhyapixtral -12b:Mistral AI'第一個多模型模型 - 分析VidhyaApr 13, 2025 am 11:20 AM

介紹 Mistral發布了其第一個多模式模型,即Pixtral-12b-2409。該模型建立在Mistral的120億參數Nemo 12B之上。是什麼設置了該模型?現在可以拍攝圖像和Tex

生成AI應用的代理框架 - 分析Vidhya生成AI應用的代理框架 - 分析VidhyaApr 13, 2025 am 11:13 AM

想像一下,擁有一個由AI驅動的助手,不僅可以響應您的查詢,還可以自主收集信息,執行任務甚至處理多種類型的數據(TEXT,圖像和代碼)。聽起來有未來派?在這個a

生成AI在金融部門的應用生成AI在金融部門的應用Apr 13, 2025 am 11:12 AM

介紹 金融業是任何國家發展的基石,因為它通過促進有效的交易和信貸可用性來推動經濟增長。交易的便利和信貸

在線學習和被動攻擊算法指南在線學習和被動攻擊算法指南Apr 13, 2025 am 11:09 AM

介紹 數據是從社交媒體,金融交易和電子商務平台等來源的前所未有的速度生成的。處理這種連續的信息流是一個挑戰,但它提供了

See all articles

熱AI工具

Undresser.AI Undress

Undresser.AI Undress

人工智慧驅動的應用程序,用於創建逼真的裸體照片

AI Clothes Remover

AI Clothes Remover

用於從照片中去除衣服的線上人工智慧工具。

Undress AI Tool

Undress AI Tool

免費脫衣圖片

Clothoff.io

Clothoff.io

AI脫衣器

AI Hentai Generator

AI Hentai Generator

免費產生 AI 無盡。

熱門文章

R.E.P.O.能量晶體解釋及其做什麼(黃色晶體)
3 週前By尊渡假赌尊渡假赌尊渡假赌
R.E.P.O.最佳圖形設置
3 週前By尊渡假赌尊渡假赌尊渡假赌
R.E.P.O.如果您聽不到任何人,如何修復音頻
3 週前By尊渡假赌尊渡假赌尊渡假赌
WWE 2K25:如何解鎖Myrise中的所有內容
4 週前By尊渡假赌尊渡假赌尊渡假赌

熱工具

WebStorm Mac版

WebStorm Mac版

好用的JavaScript開發工具

禪工作室 13.0.1

禪工作室 13.0.1

強大的PHP整合開發環境

DVWA

DVWA

Damn Vulnerable Web App (DVWA) 是一個PHP/MySQL的Web應用程序,非常容易受到攻擊。它的主要目標是成為安全專業人員在合法環境中測試自己的技能和工具的輔助工具,幫助Web開發人員更好地理解保護網路應用程式的過程,並幫助教師/學生在課堂環境中教授/學習Web應用程式安全性。 DVWA的目標是透過簡單直接的介面練習一些最常見的Web漏洞,難度各不相同。請注意,該軟體中

Atom編輯器mac版下載

Atom編輯器mac版下載

最受歡迎的的開源編輯器

Dreamweaver CS6

Dreamweaver CS6

視覺化網頁開發工具