首頁 >科技週邊 >人工智慧 >牛津大學最新! Mickey:3D中的2D影像匹配SOTA! (CVPR\'24)

牛津大學最新! Mickey:3D中的2D影像匹配SOTA! (CVPR\'24)

WBOY
WBOY轉載
2024-04-23 13:20:21690瀏覽

寫在前面

專案連結:https://nianticlabs.github.io/mickey/

給定兩張圖片,可以透過建立圖片之間的對應關係來估計它們之間的相機姿態。通常,這些對應關係是二維到二維的,而我們估計的姿態在尺度上是不確定的。一些應用,例如隨時隨地實現即時增強現實,需要尺度度量的姿態估計,因此它們依賴外部的深度估計器來恢復尺度。

本文提出了MicKey,這是一個關鍵點匹配流程,能夠足夠預測三維相機空間中的度量對應關係。透過學習跨影像的三維座標匹配,我們能夠在沒有深度測試的情況下推斷度量相對姿態。訓練過程中也不需要深度測試,也不需要場景重建或影像重疊資訊。 MicKey僅透過影像對及其相對姿態進行監督。 MicKey在無需地圖的重新定位基準測試中取得了最先進的性能,同時所需的監督少於其他競爭方法。

牛津大學最新! Mickey:3D中的2D影像匹配SOTA! (CVPR\24)

「Metric Keypoints(MicKey)是一個特徵檢測流程,解決了兩個問題。首先,MicKey回歸相機空間中的關鍵點位置,這允許透過描述符配對建立度量量對應關係。進行監督。 ,因此,透過SFM獲得的資訊(如影像重疊)是不需要的。

在無需地圖的重新定位基準測試中,MicKey名稱前茅,超越了最近最先進的方法。 MicKey提供了可靠的尺度度量姿態估計,即使在由特定針對稀疏特徵匹配的深度預測所支持的極端視角變化下也是如此。這種精度支援的極端視角變化下的變化下的變形匹配,使MicKey成為支援由特定針對稀疏特徵匹配的深度預測所支援的深度估計匹配所必需的深度估計的理想選擇。

主要貢獻如下:

MicKey是一個神經網絡,它可以從單張圖片中預測關鍵點,並對它們進行描述。這種描述符可以允許在圖像之間估計度量相對姿態。

這種訓練策略只需要相對姿態監控即可,無需深度測量,也不需要關於影像對重疊的知識。

MicKey介紹

MicKey預測相機空間中關鍵點的三維座標。網路還預測關鍵點的選擇機率(關鍵點分佈)和描述符,這些描述符引導匹配的機率(匹配分佈)。將這兩種分佈結合起來,得到了在中兩個關鍵點成為對應點的機率,並優化網絡,使得對應點更有可能出現。在一個可微分的RANSAC迴圈中,產生多個相對姿態假設,並計算它們相對於真實變換的損失。透過REINFORCE生成梯度來訓練對應機率。由於我們的姿態求解器和損失函數是可微分的,反向傳播也為訓練三維關鍵點座標提供了直接訊號。

牛津大學最新! Mickey:3D中的2D影像匹配SOTA! (CVPR\24)

1)度量pose監督的學習

給定兩張圖像,計算它們的度量相對姿態,以及關鍵點得分、匹配機率和姿態置信度(以軟內點計數形式)。我們的目標是以端到端的方式訓練所有相對姿態估計模組。在訓練過程中,我們假設訓練資料為,其中是真實變換,K/K'是相機內參。整個系統的示意圖如圖2所示。

為了學習三維關鍵點的座標、置信度和描述符,我們需要係統是完全可微分的。然而,由於pipeline中的一些元素不是可微分的,例如關鍵點採樣或內點計數,重新定義了相對姿態估計管道為機率性的。這意味著我們將網路的輸出視為潛在匹配的機率,在訓練過程中,網路優化其輸出以產生機率,使得正確的匹配更有可能被選中。

2)網路結構

MicKey遵循具有共享編碼器的多頭網路架構,該編碼器可推斷3D度量關鍵點以及來自輸入圖像的描述符,如圖3所示。

牛津大學最新! Mickey:3D中的2D影像匹配SOTA! (CVPR\24)

編碼器。採用預先訓練的DINOv2模型作為特徵提取器,並在不進行進一步訓練或微調的情況下直接使用其特徵。 DINOv2將輸入影像分割為大小為14×14的區塊,並為每個區塊提供一個特徵向量。最終的特徵圖F具有(1024, w, h)的分辨率,其中w = W/14,h = H/14。

關鍵點Head。這裡定義了四個並行Head,它們處理特徵圖F併計算xy偏移量(U)、深度(Z)、置信度(C)和描述符(D)映射;其中映射的每個條目對應於輸入影像中的一個14×14的block。 MicKey具有一個罕見的特性,即預測關鍵點作為稀疏規則網格的相對偏移量。獲得絕對2D座標如下:

牛津大學最新! Mickey:3D中的2D影像匹配SOTA! (CVPR\24)

實驗對比

在無地圖資料集上的相對姿態評估。報告了在90像素閾值下的VCRE指標的曲線下面積(AUC)和精度(Prec.)值,MicKey的兩個版本都獲得了最高結果。此外,還報告了中位數誤差,雖然MicKey在VCRE誤差方面獲得了最低值,但其他方法,例如RoMa,提供了更低的姿態誤差。為了計算中位數誤差,基準僅使用每種方法產生的有效姿態,因此,我們報告了估計的總姿勢數。最後,報告了配對時間,並發現MicKey與LoFTR和LighGlue相當,同時顯著減少了RoMa的時間,RoMa是VCRE指標最接近MicKey的競爭對手。匹配方法使用DPT 來恢復尺度。

牛津大學最新! Mickey:3D中的2D影像匹配SOTA! (CVPR\24)

MicKey產生的對應點、分數和深度圖的範例。 MicKey即使在大規模變化或寬基線的情況下也能找到有效的對應點。請注意,由於我們的特徵編碼器,深度圖的解析度比輸入影像小14倍。我們遵循DPT 中使用的深度圖視覺化方法,其中較亮的顏色表示較近的距離。

牛津大學最新! Mickey:3D中的2D影像匹配SOTA! (CVPR\24)

在ScanNet資料集上的相對姿態評估。所有特徵匹配方法都與PlaneRCNN 結合使用,以恢復度量尺度。我們標示了每種方法的訓練訊號:深度(D)、重疊分數(O)和姿態(P)。

牛津大學最新! Mickey:3D中的2D影像匹配SOTA! (CVPR\24)

牛津大學最新! Mickey:3D中的2D影像匹配SOTA! (CVPR\24)

牛津大學最新! Mickey:3D中的2D影像匹配SOTA! (CVPR\24)

#

以上是牛津大學最新! Mickey:3D中的2D影像匹配SOTA! (CVPR\'24)的詳細內容。更多資訊請關注PHP中文網其他相關文章!

陳述:
本文轉載於:51cto.com。如有侵權,請聯絡admin@php.cn刪除