搜尋
首頁科技週邊人工智慧A100實現無需3D卷積的3D重建方法,每幀重建僅需70ms

從姿態影像重建 3D 室內場景通常分為兩個階段:影像深度估計,然後是深度合併(depth merging)和表面重建(surface reconstruction)。最近,多項研究提出了一系列直接在最終 3D 體積特徵空間中執行重建的方法。雖然這些方法已經獲得出令人印象深刻的重建結果,但它們依賴昂貴的 3D 卷積層,限制其在資源受限環境中的應用。

現在,來自Niantic 和UCL 等機構的研究者嘗試重新使用傳統方法,並專注於高品質的多視圖深度預測,最終使用簡單現成的深度融合方法實現了高精度的3D 重建。

A100實現無需3D卷積的3D重建方法,每幀重建僅需70ms

  • #論文網址:https://nianticlabs.github .io/simplerecon/resources/SimpleRecon.pdf
  • #GitHub 網址:https://github.com/nianticlabs/simplerecon
  • #論文首頁:https://nianticlabs.github.io/simplerecon/

本研究利用強大的圖像先驗以及平面掃描特徵量和幾何損失,精心設計了一個2D CNN。所提方法 SimpleRecon 在深度估計方面取得了顯著領先的結果,並且允許在線實時低內存重建。

如下圖所示,SimpleRecon 的重建速度非常快,每幀僅用約 70ms。

A100實現無需3D卷積的3D重建方法,每幀重建僅需70ms

SimpleRecon 和其他方法的比較結果如下:

A100實現無需3D卷積的3D重建方法,每幀重建僅需70ms

A100實現無需3D卷積的3D重建方法,每幀重建僅需70ms

方法

深度估計模型位於單目深度估計與平面掃描MVS 的交點,研究者用cost volume(代價體積)來增加深度預測編碼器- 解碼器架構,如圖2 所示。影像編碼器從參考影像和來源影像中提取匹配特徵,以輸入到 cost volume。使用 2D 卷積編碼器 - 解碼器網路來處理 cost volume 的輸出,此外研究者還使用單獨的預訓練圖像編碼器提取的圖像級特徵進行增強。

A100實現無需3D卷積的3D重建方法,每幀重建僅需70ms

該研究的關鍵是將現有的元資料與典型的深度影像特徵一起注入到cost volume 中,以允許網路存取有用的訊息,如幾何和相對相機姿態資訊。圖 3 詳細地顯示了 feature volume 構造。透過整合這些先前未開發的信息,該研究的模型能夠在深度預測方面顯著優於先前的方法,而無需昂貴的 4D cost volume 成本、複雜的時間融合以及高斯過程。

A100實現無需3D卷積的3D重建方法,每幀重建僅需70ms

該研究使用PyTorch 來實現,並使用EfficientNetV2 S 作為主幹,其具有類似於UNet 的解碼器,此外,他們還使用ResNet18的前2 個區塊進行匹配特徵提取,優化器為AdamW ,在兩塊40GB A100 GPU 上耗時36 小時完成。 

網路架構設計

網路是基於 2D 捲積編碼器 - 解碼器架構實現的。在建構這種網路時,研究發現有一些重要的設計選擇可以顯著提高深度預測準確率,主要包括:

基線cost volume 融合:雖然基於RNN 的時間融合方法經常被使用,但它們顯著增加了系統的複雜性。相反,該研究使得 cost volume 融合盡可能簡單,並發現簡單地將參考視圖和每個來源視圖之間的點積匹配成本相加,可以獲得與 SOTA 深度估計相競爭的結果。

影像編碼器和特徵匹配編碼器:先前研究表明,影像編碼器對深度估計非常重要,無論是在單目和多視圖估計中。例如 DeepVideoMVS 使用 MnasNet 作為影像編碼器,其具有相對較低的延遲。研究建議使用很小但更強大的 EfficientNetv2 S 編碼器,雖然這樣做的代價是增加了參數量,並降低了 10% 的執行速度,但它大大提高了深度估計的準確率。

融合多尺度影像特徵到 cost volume 編碼器:在基於 2D CNN 的深度立體和多視角立體中,影像特徵通常與單尺度上的 cost volume 輸出結合。最近,DeepVideoMVS 提出在多尺度上拼接深度影像特徵,在所有解析度上增加影像編碼器和 cost volume 編碼器之間的跳躍連接。這對基於 LSTM 的融合網路很有幫助,該研究發現這對他們的架構也同樣重要。

實驗

該研究在 3D 場景重建資料集 ScanNetv2 上訓練和評估了所提方法。下表 1 使用 Eigen 等人 (2014) 提出的指標來評估幾個網路模型的深度預測效能。

A100實現無需3D卷積的3D重建方法,每幀重建僅需70ms

令人驚訝的是,研究所提模型不使用 3D 卷積,在深度預測指標上卻優於所有基準模型。此外,不使用元資料編碼的基線模型也比以前的方法表現更好,這表明精心設計和訓練的 2D 網路足以進行高品質的深度估計。下圖 4 和圖 5 顯示了深度和法線的定性結果。

A100實現無需3D卷積的3D重建方法,每幀重建僅需70ms

A100實現無需3D卷積的3D重建方法,每幀重建僅需70ms

該研究使用TransformerFusion 建立的標準​​協定進行3D 重建評估,結果如下表2 所示。

A100實現無需3D卷積的3D重建方法,每幀重建僅需70ms

對於線上和互動式 3D 重建應用,減少感測器延遲是至關重要的。下表 3 展示了給定一個新的 RGB 幀,各個模型對每個幀的整合計算時間。

A100實現無需3D卷積的3D重建方法,每幀重建僅需70ms

為了驗證本研究所提方法中各個組件的有效性,研究者進行了消融實驗,結果如下表 4 所示。

A100實現無需3D卷積的3D重建方法,每幀重建僅需70ms

有興趣的讀者可以閱讀論文原文,了解更多研究細節。

以上是A100實現無需3D卷積的3D重建方法,每幀重建僅需70ms的詳細內容。更多資訊請關注PHP中文網其他相關文章!

陳述
本文轉載於:51CTO.COM。如有侵權,請聯絡admin@php.cn刪除
10個生成AI編碼擴展,在VS代碼中,您必須探索10個生成AI編碼擴展,在VS代碼中,您必須探索Apr 13, 2025 am 01:14 AM

嘿,編碼忍者!您當天計劃哪些與編碼有關的任務?在您進一步研究此博客之前,我希望您考慮所有與編碼相關的困境,這是將其列出的。 完畢? - 讓&#8217

烹飪創新:人工智能如何改變食品服務烹飪創新:人工智能如何改變食品服務Apr 12, 2025 pm 12:09 PM

AI增強食物準備 在新生的使用中,AI系統越來越多地用於食品製備中。 AI驅動的機器人在廚房中用於自動化食物準備任務,例如翻轉漢堡,製作披薩或組裝SA

Python名稱空間和可變範圍的綜合指南Python名稱空間和可變範圍的綜合指南Apr 12, 2025 pm 12:00 PM

介紹 了解Python函數中變量的名稱空間,範圍和行為對於有效編寫和避免運行時錯誤或異常至關重要。在本文中,我們將研究各種ASP

視覺語言模型(VLMS)的綜合指南視覺語言模型(VLMS)的綜合指南Apr 12, 2025 am 11:58 AM

介紹 想像一下,穿過​​美術館,周圍是生動的繪畫和雕塑。現在,如果您可以向每一部分提出一個問題並獲得有意義的答案,該怎麼辦?您可能會問:“您在講什麼故事?

聯發科技與kompanio Ultra和Dimenty 9400增強優質陣容聯發科技與kompanio Ultra和Dimenty 9400增強優質陣容Apr 12, 2025 am 11:52 AM

繼續使用產品節奏,本月,Mediatek發表了一系列公告,包括新的Kompanio Ultra和Dimenty 9400。這些產品填補了Mediatek業務中更傳統的部分,其中包括智能手機的芯片

本週在AI:沃爾瑪在時尚趨勢之前設定了時尚趨勢本週在AI:沃爾瑪在時尚趨勢之前設定了時尚趨勢Apr 12, 2025 am 11:51 AM

#1 Google推出了Agent2Agent 故事:現在是星期一早上。作為AI驅動的招聘人員,您更聰明,而不是更努力。您在手機上登錄公司的儀表板。它告訴您三個關鍵角色已被採購,審查和計劃的FO

生成的AI遇到心理摩托車生成的AI遇到心理摩托車Apr 12, 2025 am 11:50 AM

我猜你一定是。 我們似乎都知道,心理障礙由各種chat不休,這些chat不休,這些chat不休,混合了各種心理術語,並且常常是難以理解的或完全荒謬的。您需要做的一切才能噴出fo

原型:科學家將紙變成塑料原型:科學家將紙變成塑料Apr 12, 2025 am 11:49 AM

根據本週發表的一項新研究,只有在2022年製造的塑料中,只有9.5%的塑料是由回收材料製成的。同時,塑料在垃圾填埋場和生態系統中繼續堆積。 但是有幫助。一支恩金團隊

See all articles

熱AI工具

Undresser.AI Undress

Undresser.AI Undress

人工智慧驅動的應用程序,用於創建逼真的裸體照片

AI Clothes Remover

AI Clothes Remover

用於從照片中去除衣服的線上人工智慧工具。

Undress AI Tool

Undress AI Tool

免費脫衣圖片

Clothoff.io

Clothoff.io

AI脫衣器

AI Hentai Generator

AI Hentai Generator

免費產生 AI 無盡。

熱門文章

R.E.P.O.能量晶體解釋及其做什麼(黃色晶體)
3 週前By尊渡假赌尊渡假赌尊渡假赌
R.E.P.O.最佳圖形設置
3 週前By尊渡假赌尊渡假赌尊渡假赌
R.E.P.O.如果您聽不到任何人,如何修復音頻
3 週前By尊渡假赌尊渡假赌尊渡假赌
WWE 2K25:如何解鎖Myrise中的所有內容
4 週前By尊渡假赌尊渡假赌尊渡假赌

熱工具

MantisBT

MantisBT

Mantis是一個易於部署的基於Web的缺陷追蹤工具,用於幫助產品缺陷追蹤。它需要PHP、MySQL和一個Web伺服器。請查看我們的演示和託管服務。

MinGW - Minimalist GNU for Windows

MinGW - Minimalist GNU for Windows

這個專案正在遷移到osdn.net/projects/mingw的過程中,你可以繼續在那裡關注我們。 MinGW:GNU編譯器集合(GCC)的本機Windows移植版本,可自由分發的導入函式庫和用於建置本機Windows應用程式的頭檔;包括對MSVC執行時間的擴展,以支援C99功能。 MinGW的所有軟體都可以在64位元Windows平台上運作。

ZendStudio 13.5.1 Mac

ZendStudio 13.5.1 Mac

強大的PHP整合開發環境

EditPlus 中文破解版

EditPlus 中文破解版

體積小,語法高亮,不支援程式碼提示功能

禪工作室 13.0.1

禪工作室 13.0.1

強大的PHP整合開發環境