寫在前面
專案連結:https://nianticlabs.github.io/mickey/
給定兩張圖片,可以透過建立圖片之間的對應關係來估計它們之間的相機姿態。通常,這些對應關係是二維到二維的,而我們估計的姿態在尺度上是不確定的。一些應用,例如隨時隨地實現即時增強現實,需要尺度度量的姿態估計,因此它們依賴外部的深度估計器來恢復尺度。
本文提出了MicKey,這是一個關鍵點匹配流程,能夠足夠預測三維相機空間中的度量對應關係。透過學習跨影像的三維座標匹配,我們能夠在沒有深度測試的情況下推斷度量相對姿態。訓練過程中也不需要深度測試,也不需要場景重建或影像重疊資訊。 MicKey僅透過影像對及其相對姿態進行監督。 MicKey在無需地圖的重新定位基準測試中取得了最先進的性能,同時所需的監督少於其他競爭方法。
「Metric Keypoints(MicKey)是一個特徵檢測流程,解決了兩個問題。首先,MicKey回歸相機空間中的關鍵點位置,這允許透過描述符配對建立度量量對應關係。進行監督。 ,因此,透過SFM獲得的資訊(如影像重疊)是不需要的。
在無需地圖的重新定位基準測試中,MicKey名稱前茅,超越了最近最先進的方法。 MicKey提供了可靠的尺度度量姿態估計,即使在由特定針對稀疏特徵匹配的深度預測所支持的極端視角變化下也是如此。這種精度支援的極端視角變化下的變化下的變形匹配,使MicKey成為支援由特定針對稀疏特徵匹配的深度預測所支援的深度估計匹配所必需的深度估計的理想選擇。
主要貢獻如下:
MicKey是一個神經網絡,它可以從單張圖片中預測關鍵點,並對它們進行描述。這種描述符可以允許在圖像之間估計度量相對姿態。
這種訓練策略只需要相對姿態監控即可,無需深度測量,也不需要關於影像對重疊的知識。
MicKey介紹
MicKey預測相機空間中關鍵點的三維座標。網路還預測關鍵點的選擇機率(關鍵點分佈)和描述符,這些描述符引導匹配的機率(匹配分佈)。將這兩種分佈結合起來,得到了在中兩個關鍵點成為對應點的機率,並優化網絡,使得對應點更有可能出現。在一個可微分的RANSAC迴圈中,產生多個相對姿態假設,並計算它們相對於真實變換的損失。透過REINFORCE生成梯度來訓練對應機率。由於我們的姿態求解器和損失函數是可微分的,反向傳播也為訓練三維關鍵點座標提供了直接訊號。
1)度量pose監督的學習
給定兩張圖像,計算它們的度量相對姿態,以及關鍵點得分、匹配機率和姿態置信度(以軟內點計數形式)。我們的目標是以端到端的方式訓練所有相對姿態估計模組。在訓練過程中,我們假設訓練資料為,其中是真實變換,K/K'是相機內參。整個系統的示意圖如圖2所示。
為了學習三維關鍵點的座標、置信度和描述符,我們需要係統是完全可微分的。然而,由於pipeline中的一些元素不是可微分的,例如關鍵點採樣或內點計數,重新定義了相對姿態估計管道為機率性的。這意味著我們將網路的輸出視為潛在匹配的機率,在訓練過程中,網路優化其輸出以產生機率,使得正確的匹配更有可能被選中。
2)網路結構
MicKey遵循具有共享編碼器的多頭網路架構,該編碼器可推斷3D度量關鍵點以及來自輸入圖像的描述符,如圖3所示。
編碼器。採用預先訓練的DINOv2模型作為特徵提取器,並在不進行進一步訓練或微調的情況下直接使用其特徵。 DINOv2將輸入影像分割為大小為14×14的區塊,並為每個區塊提供一個特徵向量。最終的特徵圖F具有(1024, w, h)的分辨率,其中w = W/14,h = H/14。
關鍵點Head。這裡定義了四個並行Head,它們處理特徵圖F併計算xy偏移量(U)、深度(Z)、置信度(C)和描述符(D)映射;其中映射的每個條目對應於輸入影像中的一個14×14的block。 MicKey具有一個罕見的特性,即預測關鍵點作為稀疏規則網格的相對偏移量。獲得絕對2D座標如下:
實驗對比
在無地圖資料集上的相對姿態評估。報告了在90像素閾值下的VCRE指標的曲線下面積(AUC)和精度(Prec.)值,MicKey的兩個版本都獲得了最高結果。此外,還報告了中位數誤差,雖然MicKey在VCRE誤差方面獲得了最低值,但其他方法,例如RoMa,提供了更低的姿態誤差。為了計算中位數誤差,基準僅使用每種方法產生的有效姿態,因此,我們報告了估計的總姿勢數。最後,報告了配對時間,並發現MicKey與LoFTR和LighGlue相當,同時顯著減少了RoMa的時間,RoMa是VCRE指標最接近MicKey的競爭對手。匹配方法使用DPT 來恢復尺度。
MicKey產生的對應點、分數和深度圖的範例。 MicKey即使在大規模變化或寬基線的情況下也能找到有效的對應點。請注意,由於我們的特徵編碼器,深度圖的解析度比輸入影像小14倍。我們遵循DPT 中使用的深度圖視覺化方法,其中較亮的顏色表示較近的距離。
在ScanNet資料集上的相對姿態評估。所有特徵匹配方法都與PlaneRCNN 結合使用,以恢復度量尺度。我們標示了每種方法的訓練訊號:深度(D)、重疊分數(O)和姿態(P)。
以上是牛津大學最新! Mickey:3D中的2D影像匹配SOTA! (CVPR\'24)的詳細內容。更多資訊請關注PHP中文網其他相關文章!

用Microsoft Power BI圖來利用數據可視化的功能 在當今數據驅動的世界中,有效地將復雜信息傳達給非技術觀眾至關重要。 數據可視化橋接此差距,轉換原始數據i

專家系統:深入研究AI的決策能力 想像一下,從醫療診斷到財務計劃,都可以訪問任何事情的專家建議。 這就是人工智能專家系統的力量。 這些系統模仿Pro

首先,很明顯,這種情況正在迅速發生。各種公司都在談論AI目前撰寫的代碼的比例,並且這些代碼的比例正在迅速地增加。已經有很多工作流離失所

從數字營銷到社交媒體的所有創意領域,電影業都站在技術十字路口。隨著人工智能開始重塑視覺講故事的各個方面並改變娛樂的景觀

ISRO的免費AI/ML在線課程:通向地理空間技術創新的門戶 印度太空研究組織(ISRO)通過其印度遙感研究所(IIR)為學生和專業人士提供了絕佳的機會

本地搜索算法:綜合指南 規劃大規模活動需要有效的工作量分佈。 當傳統方法失敗時,本地搜索算法提供了強大的解決方案。 本文探討了爬山和模擬

該版本包括三種不同的型號,GPT-4.1,GPT-4.1 MINI和GPT-4.1 NANO,標誌著向大語言模型景觀內的特定任務優化邁進。這些模型並未立即替換諸如

Chip Giant Nvidia週一表示,它將開始製造AI超級計算機(可以處理大量數據並運行複雜算法的機器),完全是在美國首次在美國境內。這一消息是在特朗普總統SI之後發布的


熱AI工具

Undresser.AI Undress
人工智慧驅動的應用程序,用於創建逼真的裸體照片

AI Clothes Remover
用於從照片中去除衣服的線上人工智慧工具。

Undress AI Tool
免費脫衣圖片

Clothoff.io
AI脫衣器

AI Hentai Generator
免費產生 AI 無盡。

熱門文章

熱工具

Atom編輯器mac版下載
最受歡迎的的開源編輯器

PhpStorm Mac 版本
最新(2018.2.1 )專業的PHP整合開發工具

禪工作室 13.0.1
強大的PHP整合開發環境

WebStorm Mac版
好用的JavaScript開發工具

SublimeText3 Mac版
神級程式碼編輯軟體(SublimeText3)