從姿態影像重建 3D 室內場景通常分為兩個階段:影像深度估計,然後是深度合併(depth merging)和表面重建(surface reconstruction)。最近,多項研究提出了一系列直接在最終 3D 體積特徵空間中執行重建的方法。雖然這些方法已經獲得出令人印象深刻的重建結果,但它們依賴昂貴的 3D 卷積層,限制其在資源受限環境中的應用。
現在,來自Niantic 和UCL 等機構的研究者嘗試重新使用傳統方法,並專注於高品質的多視圖深度預測,最終使用簡單現成的深度融合方法實現了高精度的3D 重建。
- #論文網址:https://nianticlabs.github .io/simplerecon/resources/SimpleRecon.pdf
- #GitHub 網址:https://github.com/nianticlabs/simplerecon
- #論文首頁:https://nianticlabs.github.io/simplerecon/
本研究利用強大的圖像先驗以及平面掃描特徵量和幾何損失,精心設計了一個2D CNN。所提方法 SimpleRecon 在深度估計方面取得了顯著領先的結果,並且允許在線實時低內存重建。
如下圖所示,SimpleRecon 的重建速度非常快,每幀僅用約 70ms。
SimpleRecon 和其他方法的比較結果如下:
方法
深度估計模型位於單目深度估計與平面掃描MVS 的交點,研究者用cost volume(代價體積)來增加深度預測編碼器- 解碼器架構,如圖2 所示。影像編碼器從參考影像和來源影像中提取匹配特徵,以輸入到 cost volume。使用 2D 卷積編碼器 - 解碼器網路來處理 cost volume 的輸出,此外研究者還使用單獨的預訓練圖像編碼器提取的圖像級特徵進行增強。
該研究的關鍵是將現有的元資料與典型的深度影像特徵一起注入到cost volume 中,以允許網路存取有用的訊息,如幾何和相對相機姿態資訊。圖 3 詳細地顯示了 feature volume 構造。透過整合這些先前未開發的信息,該研究的模型能夠在深度預測方面顯著優於先前的方法,而無需昂貴的 4D cost volume 成本、複雜的時間融合以及高斯過程。
該研究使用PyTorch 來實現,並使用EfficientNetV2 S 作為主幹,其具有類似於UNet 的解碼器,此外,他們還使用ResNet18的前2 個區塊進行匹配特徵提取,優化器為AdamW ,在兩塊40GB A100 GPU 上耗時36 小時完成。
網路架構設計
網路是基於 2D 捲積編碼器 - 解碼器架構實現的。在建構這種網路時,研究發現有一些重要的設計選擇可以顯著提高深度預測準確率,主要包括:
基線cost volume 融合:雖然基於RNN 的時間融合方法經常被使用,但它們顯著增加了系統的複雜性。相反,該研究使得 cost volume 融合盡可能簡單,並發現簡單地將參考視圖和每個來源視圖之間的點積匹配成本相加,可以獲得與 SOTA 深度估計相競爭的結果。
影像編碼器和特徵匹配編碼器:先前研究表明,影像編碼器對深度估計非常重要,無論是在單目和多視圖估計中。例如 DeepVideoMVS 使用 MnasNet 作為影像編碼器,其具有相對較低的延遲。研究建議使用很小但更強大的 EfficientNetv2 S 編碼器,雖然這樣做的代價是增加了參數量,並降低了 10% 的執行速度,但它大大提高了深度估計的準確率。
融合多尺度影像特徵到 cost volume 編碼器:在基於 2D CNN 的深度立體和多視角立體中,影像特徵通常與單尺度上的 cost volume 輸出結合。最近,DeepVideoMVS 提出在多尺度上拼接深度影像特徵,在所有解析度上增加影像編碼器和 cost volume 編碼器之間的跳躍連接。這對基於 LSTM 的融合網路很有幫助,該研究發現這對他們的架構也同樣重要。
實驗
該研究在 3D 場景重建資料集 ScanNetv2 上訓練和評估了所提方法。下表 1 使用 Eigen 等人 (2014) 提出的指標來評估幾個網路模型的深度預測效能。
令人驚訝的是,研究所提模型不使用 3D 卷積,在深度預測指標上卻優於所有基準模型。此外,不使用元資料編碼的基線模型也比以前的方法表現更好,這表明精心設計和訓練的 2D 網路足以進行高品質的深度估計。下圖 4 和圖 5 顯示了深度和法線的定性結果。
該研究使用TransformerFusion 建立的標準協定進行3D 重建評估,結果如下表2 所示。
對於線上和互動式 3D 重建應用,減少感測器延遲是至關重要的。下表 3 展示了給定一個新的 RGB 幀,各個模型對每個幀的整合計算時間。
為了驗證本研究所提方法中各個組件的有效性,研究者進行了消融實驗,結果如下表 4 所示。
有興趣的讀者可以閱讀論文原文,了解更多研究細節。
以上是A100實現無需3D卷積的3D重建方法,每幀重建僅需70ms的詳細內容。更多資訊請關注PHP中文網其他相關文章!

在約翰·羅爾斯1971年具有開創性的著作《正義論》中,他提出了一種思想實驗,我們應該將其作為當今人工智能設計和使用決策的核心:無知的面紗。這一理念為理解公平提供了一個簡單的工具,也為領導者如何利用這種理解來公平地設計和實施人工智能提供了一個藍圖。 設想一下,您正在為一個新的社會制定規則。但有一個前提:您事先不知道自己在這個社會中將扮演什麼角色。您最終可能富有或貧窮,健康或殘疾,屬於多數派或邊緣少數群體。在這種“無知的面紗”下運作,可以防止規則制定者做出有利於自身的決策。相反,人們會更有動力製定公

許多公司專門從事機器人流程自動化(RPA),提供機器人以使重複的任務自動化 - UIPATH,在任何地方自動化,藍色棱鏡等。 同時,過程採礦,編排和智能文檔處理專業

AI的未來超越了簡單的單詞預測和對話模擬。 AI代理人正在出現,能夠獨立行動和任務完成。 這種轉變已經在諸如Anthropic的Claude之類的工具中很明顯。 AI代理:研究

快速的技術進步需要對工作未來的前瞻性觀點。 當AI超越生產力並開始塑造我們的社會結構時,會發生什麼? Topher McDougal即將出版的書Gaia Wakes:

產品分類通常涉及復雜的代碼,例如諸如統一系統(HS)等系統的“ HS 8471.30”,對於國際貿易和國內銷售至關重要。 這些代碼確保正確的稅收申請,影響每個INV

數據中心能源消耗與氣候科技投資的未來 本文探討了人工智能驅動的數據中心能源消耗激增及其對氣候變化的影響,並分析了應對這一挑戰的創新解決方案和政策建議。 能源需求的挑戰: 大型超大規模數據中心耗電量巨大,堪比數十萬個普通北美家庭的總和,而新興的AI超大規模中心耗電量更是數十倍於此。 2024年前八個月,微軟、Meta、谷歌和亞馬遜在AI數據中心建設和運營方面的投資已達約1250億美元(摩根大通,2024)(表1)。 不斷增長的能源需求既是挑戰也是機遇。據Canary Media報導,迫在眉睫的電

生成式AI正在徹底改變影視製作。 Luma的Ray 2模型,以及Runway的Gen-4、OpenAI的Sora、Google的Veo等眾多新模型,正在以前所未有的速度提升生成視頻的質量。這些模型能夠輕鬆製作出複雜的特效和逼真的場景,甚至連短視頻剪輯和具有攝像機感知的運動效果也已實現。雖然這些工具的操控性和一致性仍有待提高,但其進步速度令人驚嘆。 生成式視頻正在成為一種獨立的媒介形式。一些模型擅長動畫製作,另一些則擅長真人影像。值得注意的是,Adobe的Firefly和Moonvalley的Ma

ChatGPT用户体验下降:是模型退化还是用户期望? 近期,大量ChatGPT付费用户抱怨其性能下降,引发广泛关注。 用户报告称模型响应速度变慢,答案更简短、缺乏帮助,甚至出现更多幻觉。一些用户在社交媒体上表达了不满,指出ChatGPT变得“过于讨好”,倾向于验证用户观点而非提供批判性反馈。 这不仅影响用户体验,也给企业客户带来实际损失,例如生产力下降和计算资源浪费。 性能下降的证据 许多用户报告了ChatGPT性能的显著退化,尤其是在GPT-4(即将于本月底停止服务)等旧版模型中。 这


熱AI工具

Undresser.AI Undress
人工智慧驅動的應用程序,用於創建逼真的裸體照片

AI Clothes Remover
用於從照片中去除衣服的線上人工智慧工具。

Undress AI Tool
免費脫衣圖片

Clothoff.io
AI脫衣器

Video Face Swap
使用我們完全免費的人工智慧換臉工具,輕鬆在任何影片中換臉!

熱門文章

熱工具

Dreamweaver Mac版
視覺化網頁開發工具

mPDF
mPDF是一個PHP庫,可以從UTF-8編碼的HTML產生PDF檔案。原作者Ian Back編寫mPDF以從他的網站上「即時」輸出PDF文件,並處理不同的語言。與原始腳本如HTML2FPDF相比,它的速度較慢,並且在使用Unicode字體時產生的檔案較大,但支援CSS樣式等,並進行了大量增強。支援幾乎所有語言,包括RTL(阿拉伯語和希伯來語)和CJK(中日韓)。支援嵌套的區塊級元素(如P、DIV),

SublimeText3 Linux新版
SublimeText3 Linux最新版

Atom編輯器mac版下載
最受歡迎的的開源編輯器

PhpStorm Mac 版本
最新(2018.2.1 )專業的PHP整合開發工具