搜尋
首頁科技週邊人工智慧利用全景圖視覺自註意力模型進行室內框架估計的方法

利用全景圖視覺自註意力模型進行室內框架估計的方法

一、研究背景

此方法主要關注室內框架估計(indoor estimation layout estimation)任務,任務輸入2D圖片,輸出圖片所描述場景的三維模型。考慮到直接輸出三維模型的複雜性,該任務一般被拆解為輸出2D圖像中的牆線、天花板線、地線三種線的信息,再根據線的信息通過後處理操作重建房間的三維模型。此三維模型可在後期進一步用於室內場景複刻、VR看房等特定應用場景。區別於深度估計方法,該方法基於對室內牆線的估計來恢復空間幾何結構,優勢在於可使牆面的幾何結構較為平整;劣勢則在於無法恢復室內場景沙發、椅子等細節物品的幾何資訊。

根據輸入影像的不同,可以分為基於透視圖和基於全景圖的方法。與透視圖相比,全景圖具有更大的視角和更豐富的影像資訊。隨著全景採集設備的普及,全景資料越來越豐富,因此目前有許多關於基於全景圖進行室內框架估計的演算法被廣泛研究

利用全景圖視覺自註意力模型進行室內框架估計的方法

相關演算法主要包括LayoutNet、Horizo​​nNet、HohoNet及Led2-Net等,這些方法大多基於卷積神經網絡,在結構複雜的位置牆線預測效果較差,如有噪音幹擾、自遮擋等位置會出現牆線不連續、牆線位置錯誤等預測結果。在牆線位置估計任務中,僅關注局部特徵資訊會導致該類別錯誤的發生,需利用全景圖中的全域資訊考慮整條牆線的位置分佈來估計。 CNN方法在提取局部特徵任務中表現更優,Transformer方法更擅長捕捉全局訊息,因此可將Transformer方法應用於室內框架估計任務以提升任務表現。

利用全景圖視覺自註意力模型進行室內框架估計的方法

由於訓練資料依賴性,單獨應用基於透視圖預訓練的Transformer估計全景圖室內框架效果並不理想。 PanoViT模型預先將全景圖映射到的特徵空間,使用Transformer學習全景圖在特徵空間的全局信息,同時考慮全景圖的​​表觀結構信息完成室內框架估計任務。

利用全景圖視覺自註意力模型進行室內框架估計的方法

二、方法介紹與結果展示

1、PanoViT

網絡結構框架包含4個模組,分別是Backbone,vision transformer解碼器,框架預測模組,邊界增強模組。 Backbone模組將全景圖映射至特徵空間,vison transformer編碼器在特徵空間中學習全局關聯,框架預測模組將特徵轉化為牆線、天花板線、地線信息,後處理可進一步得到房間的三維模型,邊界增強模組突顯全景圖中邊界資訊對於室內框架估計的作用。

利用全景圖視覺自註意力模型進行室內框架估計的方法

① Backbone模組

#由於直接使用transformer提取全景圖特徵效果不佳,已經證明了基於CNN的方法的有效性,即CNN特徵可用於預測房屋框架。因此,我們採用了CNN的backbone來擷取全景圖不同尺度的特徵圖,並在特徵圖中學習全景影像的全局資訊。實驗結果表明,在特徵空間中使用transformer的效果明顯優於直接在全景圖上應用

利用全景圖視覺自註意力模型進行室內框架估計的方法

② Vision transformer encoder模組

Transformer主體架構可主要分為三個模組,包括patch sampling、patch embedding和transformer的multi-head attention。輸入同時考慮全景影像特徵圖與原始影像並針對不同輸入採用不同patch sampling方法。原圖使用均勻取樣方法,特徵圖採用水平取樣方法。來自Horizo​​​​nNet的結論認為在牆線估計任務中水平方向特徵具有更高重要性,參考此結論,embedding過程中對於特徵圖特徵進行垂直方向壓縮。採用Recurrent PE方法組合不同尺度的特徵並在multi-head attention的transformer模型中進行學習,得到與原圖水平方向等長的特徵向量,透過不同的decoder head可獲得對應的牆線分佈。

利用全景圖視覺自註意力模型進行室內框架估計的方法

隨機循環位置編碼(Recurrent Position Embedding)考慮到全景圖沿水平方向位移不改變影像視覺資訊的特徵,因此每次訓練時沿著水平軸方向隨機選取初始位置,使得訓練過程更關注不同patch之間的相對位置而非絕對位置。

利用全景圖視覺自註意力模型進行室內框架估計的方法

③ 全景圖的幾何資訊

全景圖中幾何資訊的充分利用可有助於室內框架估計任務表現的提升。 PanoViT模型中的邊界增強模組強調如何使用全景圖中的邊界訊息,3D Loss則有助於減少全景圖畸變影響。

邊界增強模組考慮到牆線偵測任務中牆線的線狀特徵,影像中的線條資訊重要性突出,因此需要突出邊界資訊使得網路了解影像中線的分佈。使用頻域中邊界增強方法突出全景圖邊界信息,基於快速傅立葉變換得到圖像頻域表示,使用掩膜在頻域空間中進行採樣,基於傅裡葉反變換變換回邊界信息被突出的圖像。模組核心在於掩膜設計,考慮到邊界對應高頻訊息,掩膜首先選用高通濾波器;並根據不同線的不同走向方向採樣不同的頻域方向。此方法相對傳統LSD方法實施簡單且效率更高。 利用全景圖視覺自註意力模型進行室內框架估計的方法

先前工作在全景圖上計算像素距離作為估計誤差,由於全景圖畸變,圖片上的像素距離並不正比於3D世界的真實距離。 PanoViT使用3D損失函數,直接在3D空間計算估計誤差。

利用全景圖視覺自註意力模型進行室內框架估計的方法

2、模型結果

使用Martroport3D、PanoContext公共資料集進行實驗,採用2DIoU和3DIoU作為評估指標,並與SOTA方法進行比較。結果顯示PanoViT在兩個資料集上的模型評估指標基本上達到最優,僅在特定指標上略遜於LED2。透過與Hohonet進行模型視覺化結果的比較,可以發現PanoViT能夠準確地辨識複雜場景中的牆線走向。透過消融實驗中比較Recurrent PE、邊界增強和3D Loss模組,可以驗證這些模組的有效性

利用全景圖視覺自註意力模型進行室內框架估計的方法

利用全景圖視覺自註意力模型進行室內框架估計的方法

利用全景圖視覺自註意力模型進行室內框架估計的方法

為了達到更好的模型資料集,收集十萬多張室內全景影像自建全景影像資料集,包含各類複雜室內場景,並基於自定規則進行標註,從中選取5053張圖像作為測試資料集。在自建資料集上測試PanoViT模型與SOTA模型方法表現,發現隨著資料量增加,PanoViT模型效能提升顯著。

利用全景圖視覺自註意力模型進行室內框架估計的方法

三、如何在M​​odelScope中使用

  • #開啟modelscope官網:https://modelscope.cn/home。
  • 搜尋「全景圖室內框架估計」。
  • 點選快速使用-線上環境使用-快速體驗,開啟notebook。
  • 輸入主頁範例程式碼,上傳1024*512的全景圖片,修改圖片載入路徑,執行輸出牆線預測結果。

利用全景圖視覺自註意力模型進行室內框架估計的方法

以上是利用全景圖視覺自註意力模型進行室內框架估計的方法的詳細內容。更多資訊請關注PHP中文網其他相關文章!

陳述
本文轉載於:51CTO.COM。如有侵權,請聯絡admin@php.cn刪除
烹飪創新:人工智能如何改變食品服務烹飪創新:人工智能如何改變食品服務Apr 12, 2025 pm 12:09 PM

AI增強食物準備 在新生的使用中,AI系統越來越多地用於食品製備中。 AI驅動的機器人在廚房中用於自動化食物準備任務,例如翻轉漢堡,製作披薩或組裝SA

Python名稱空間和可變範圍的綜合指南Python名稱空間和可變範圍的綜合指南Apr 12, 2025 pm 12:00 PM

介紹 了解Python函數中變量的名稱空間,範圍和行為對於有效編寫和避免運行時錯誤或異常至關重要。在本文中,我們將研究各種ASP

視覺語言模型(VLMS)的綜合指南視覺語言模型(VLMS)的綜合指南Apr 12, 2025 am 11:58 AM

介紹 想像一下,穿過​​美術館,周圍是生動的繪畫和雕塑。現在,如果您可以向每一部分提出一個問題並獲得有意義的答案,該怎麼辦?您可能會問:“您在講什麼故事?

聯發科技與kompanio Ultra和Dimenty 9400增強優質陣容聯發科技與kompanio Ultra和Dimenty 9400增強優質陣容Apr 12, 2025 am 11:52 AM

繼續使用產品節奏,本月,Mediatek發表了一系列公告,包括新的Kompanio Ultra和Dimenty 9400。這些產品填補了Mediatek業務中更傳統的部分,其中包括智能手機的芯片

本週在AI:沃爾瑪在時尚趨勢之前設定了時尚趨勢本週在AI:沃爾瑪在時尚趨勢之前設定了時尚趨勢Apr 12, 2025 am 11:51 AM

#1 Google推出了Agent2Agent 故事:現在是星期一早上。作為AI驅動的招聘人員,您更聰明,而不是更努力。您在手機上登錄公司的儀表板。它告訴您三個關鍵角色已被採購,審查和計劃的FO

生成的AI遇到心理摩托車生成的AI遇到心理摩托車Apr 12, 2025 am 11:50 AM

我猜你一定是。 我們似乎都知道,心理障礙由各種chat不休,這些chat不休,這些chat不休,混合了各種心理術語,並且常常是難以理解的或完全荒謬的。您需要做的一切才能噴出fo

原型:科學家將紙變成塑料原型:科學家將紙變成塑料Apr 12, 2025 am 11:49 AM

根據本週發表的一項新研究,只有在2022年製造的塑料中,只有9.5%的塑料是由回收材料製成的。同時,塑料在垃圾填埋場和生態系統中繼續堆積。 但是有幫助。一支恩金團隊

AI分析師的崛起:為什麼這可能是AI革命中最重要的工作AI分析師的崛起:為什麼這可能是AI革命中最重要的工作Apr 12, 2025 am 11:41 AM

我最近與領先的企業分析平台Alteryx首席執行官安迪·麥克米倫(Andy Macmillan)的對話強調了這一在AI革命中的關鍵但不足的作用。正如Macmillan所解釋的那樣,原始業務數據與AI-Ready Informat之間的差距

See all articles

熱AI工具

Undresser.AI Undress

Undresser.AI Undress

人工智慧驅動的應用程序,用於創建逼真的裸體照片

AI Clothes Remover

AI Clothes Remover

用於從照片中去除衣服的線上人工智慧工具。

Undress AI Tool

Undress AI Tool

免費脫衣圖片

Clothoff.io

Clothoff.io

AI脫衣器

AI Hentai Generator

AI Hentai Generator

免費產生 AI 無盡。

熱門文章

R.E.P.O.能量晶體解釋及其做什麼(黃色晶體)
3 週前By尊渡假赌尊渡假赌尊渡假赌
R.E.P.O.最佳圖形設置
3 週前By尊渡假赌尊渡假赌尊渡假赌
R.E.P.O.如果您聽不到任何人,如何修復音頻
3 週前By尊渡假赌尊渡假赌尊渡假赌
WWE 2K25:如何解鎖Myrise中的所有內容
4 週前By尊渡假赌尊渡假赌尊渡假赌

熱工具

Atom編輯器mac版下載

Atom編輯器mac版下載

最受歡迎的的開源編輯器

ZendStudio 13.5.1 Mac

ZendStudio 13.5.1 Mac

強大的PHP整合開發環境

DVWA

DVWA

Damn Vulnerable Web App (DVWA) 是一個PHP/MySQL的Web應用程序,非常容易受到攻擊。它的主要目標是成為安全專業人員在合法環境中測試自己的技能和工具的輔助工具,幫助Web開發人員更好地理解保護網路應用程式的過程,並幫助教師/學生在課堂環境中教授/學習Web應用程式安全性。 DVWA的目標是透過簡單直接的介面練習一些最常見的Web漏洞,難度各不相同。請注意,該軟體中

WebStorm Mac版

WebStorm Mac版

好用的JavaScript開發工具

Safe Exam Browser

Safe Exam Browser

Safe Exam Browser是一個安全的瀏覽器環境,安全地進行線上考試。該軟體將任何電腦變成一個安全的工作站。它控制對任何實用工具的訪問,並防止學生使用未經授權的資源。