利用全景圖視覺自註意力模型進行室內框架估計的方法-人工智慧-PHP中文網

首頁

科技週邊

人工智慧

利用全景圖視覺自註意力模型進行室內框架估計的方法

WBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWB

Oct 07, 2023 am 09:37 AM

演算法注意力模型

利用全景圖視覺自註意力模型進行室內框架估計的方法

一、研究背景

此方法主要關注室內框架估計（indoor estimation layout estimation）任務，任務輸入2D圖片，輸出圖片所描述場景的三維模型。考慮到直接輸出三維模型的複雜性，該任務一般被拆解為輸出2D圖像中的牆線、天花板線、地線三種線的信息，再根據線的信息通過後處理操作重建房間的三維模型。此三維模型可在後期進一步用於室內場景複刻、VR看房等特定應用場景。區別於深度估計方法，該方法基於對室內牆線的估計來恢復空間幾何結構，優勢在於可使牆面的幾何結構較為平整；劣勢則在於無法恢復室內場景沙發、椅子等細節物品的幾何資訊。

根據輸入影像的不同，可以分為基於透視圖和基於全景圖的方法。與透視圖相比，全景圖具有更大的視角和更豐富的影像資訊。隨著全景採集設備的普及，全景資料越來越豐富，因此目前有許多關於基於全景圖進行室內框架估計的演算法被廣泛研究

利用全景圖視覺自註意力模型進行室內框架估計的方法

相關演算法主要包括LayoutNet、HorizonNet、HohoNet及Led2-Net等，這些方法大多基於卷積神經網絡，在結構複雜的位置牆線預測效果較差，如有噪音幹擾、自遮擋等位置會出現牆線不連續、牆線位置錯誤等預測結果。在牆線位置估計任務中，僅關注局部特徵資訊會導致該類別錯誤的發生，需利用全景圖中的全域資訊考慮整條牆線的位置分佈來估計。 CNN方法在提取局部特徵任務中表現更優，Transformer方法更擅長捕捉全局訊息，因此可將Transformer方法應用於室內框架估計任務以提升任務表現。

利用全景圖視覺自註意力模型進行室內框架估計的方法

由於訓練資料依賴性，單獨應用基於透視圖預訓練的Transformer估計全景圖室內框架效果並不理想。 PanoViT模型預先將全景圖映射到的特徵空間，使用Transformer學習全景圖在特徵空間的全局信息，同時考慮全景圖的表觀結構信息完成室內框架估計任務。

利用全景圖視覺自註意力模型進行室內框架估計的方法

二、方法介紹與結果展示

1、PanoViT

網絡結構框架包含4個模組，分別是Backbone，vision transformer解碼器，框架預測模組，邊界增強模組。 Backbone模組將全景圖映射至特徵空間，vison transformer編碼器在特徵空間中學習全局關聯，框架預測模組將特徵轉化為牆線、天花板線、地線信息，後處理可進一步得到房間的三維模型，邊界增強模組突顯全景圖中邊界資訊對於室內框架估計的作用。

利用全景圖視覺自註意力模型進行室內框架估計的方法

① Backbone模組

#由於直接使用transformer提取全景圖特徵效果不佳，已經證明了基於CNN的方法的有效性，即CNN特徵可用於預測房屋框架。因此，我們採用了CNN的backbone來擷取全景圖不同尺度的特徵圖，並在特徵圖中學習全景影像的全局資訊。實驗結果表明，在特徵空間中使用transformer的效果明顯優於直接在全景圖上應用

利用全景圖視覺自註意力模型進行室內框架估計的方法

② Vision transformer encoder模組

Transformer主體架構可主要分為三個模組，包括patch sampling、patch embedding和transformer的multi-head attention。輸入同時考慮全景影像特徵圖與原始影像並針對不同輸入採用不同patch sampling方法。原圖使用均勻取樣方法，特徵圖採用水平取樣方法。來自HorizonNet的結論認為在牆線估計任務中水平方向特徵具有更高重要性，參考此結論，embedding過程中對於特徵圖特徵進行垂直方向壓縮。採用Recurrent PE方法組合不同尺度的特徵並在multi-head attention的transformer模型中進行學習，得到與原圖水平方向等長的特徵向量，透過不同的decoder head可獲得對應的牆線分佈。

利用全景圖視覺自註意力模型進行室內框架估計的方法

隨機循環位置編碼（Recurrent Position Embedding）考慮到全景圖沿水平方向位移不改變影像視覺資訊的特徵，因此每次訓練時沿著水平軸方向隨機選取初始位置，使得訓練過程更關注不同patch之間的相對位置而非絕對位置。

利用全景圖視覺自註意力模型進行室內框架估計的方法

③ 全景圖的幾何資訊

全景圖中幾何資訊的充分利用可有助於室內框架估計任務表現的提升。 PanoViT模型中的邊界增強模組強調如何使用全景圖中的邊界訊息，3D Loss則有助於減少全景圖畸變影響。

邊界增強模組考慮到牆線偵測任務中牆線的線狀特徵，影像中的線條資訊重要性突出，因此需要突出邊界資訊使得網路了解影像中線的分佈。使用頻域中邊界增強方法突出全景圖邊界信息，基於快速傅立葉變換得到圖像頻域表示，使用掩膜在頻域空間中進行採樣，基於傅裡葉反變換變換回邊界信息被突出的圖像。模組核心在於掩膜設計，考慮到邊界對應高頻訊息，掩膜首先選用高通濾波器；並根據不同線的不同走向方向採樣不同的頻域方向。此方法相對傳統LSD方法實施簡單且效率更高。利用全景圖視覺自註意力模型進行室內框架估計的方法

先前工作在全景圖上計算像素距離作為估計誤差，由於全景圖畸變，圖片上的像素距離並不正比於3D世界的真實距離。 PanoViT使用3D損失函數，直接在3D空間計算估計誤差。

利用全景圖視覺自註意力模型進行室內框架估計的方法

2、模型結果

使用Martroport3D、PanoContext公共資料集進行實驗，採用2DIoU和3DIoU作為評估指標，並與SOTA方法進行比較。結果顯示PanoViT在兩個資料集上的模型評估指標基本上達到最優，僅在特定指標上略遜於LED2。透過與Hohonet進行模型視覺化結果的比較，可以發現PanoViT能夠準確地辨識複雜場景中的牆線走向。透過消融實驗中比較Recurrent PE、邊界增強和3D Loss模組，可以驗證這些模組的有效性

利用全景圖視覺自註意力模型進行室內框架估計的方法