프로젝트 링크: https://nianticlabs.github.io/mickey/
두 개의 이미지가 주어졌을 때, 이미지 간의 대응 관계를 설정하여 두 이미지 사이의 카메라 포즈를 추정할 수 있습니다. 일반적으로 이러한 대응은 2D에서 2D로 이루어지며 추정된 포즈는 규모에 따라 결정되지 않습니다. 언제 어디서나 즉각적인 증강 현실과 같은 일부 애플리케이션은 규모 측정항목의 포즈 추정이 필요하므로 규모를 복구하기 위해 외부 깊이 추정기에 의존합니다.
이 기사에서는 3차원 카메라 공간에서 미터법 대응을 예측할 수 있는 핵심 포인트 매칭 프로세스인 MicKey를 제안합니다. 이미지 전반에 걸쳐 3D 좌표 매칭을 학습함으로써 깊이 테스트 없이 미터법 상대 자세를 추론할 수 있습니다. 훈련 중에 깊이 테스트, 장면 재구성 또는 이미지 중첩 정보도 필요하지 않습니다. MicKey는 이미지 쌍과 상대적인 포즈에 의해서만 감독됩니다. MicKey는 다른 경쟁 방법보다 감독이 덜 필요하면서도 지도 없는 재지역화 벤치마크에서 최첨단 성능을 달성합니다.
"Metric+Keypoints(MicKey)는 두 가지 문제를 해결하는 특징 탐지 프로세스입니다. 첫째, MicKey는 카메라 공간의 키포인트 위치를 회귀하여 설명자 일치를 통해 메트릭 대응을 설정할 수 있습니다. 메트릭에서 대응에서 메트릭 상대 그림 1과 같이 포즈를 복구할 수 있습니다. 둘째, 엔드투엔드 훈련을 위해 미분 가능한 포즈 최적화를 사용함으로써 MicKey는 훈련 과정에서 감독 없이 이미지 쌍과 실제 상대 포즈만 필요합니다. 암시적으로 그리고 정확하게 발견된 특징 영역에 대해서만 우리의 훈련 프로세스는 알 수 없는 시각적 중첩이 있는 이미지 쌍에 대해 강력하므로 SFM에서 얻은 정보(예: 이미지 중첩)는 MicKey를 매우 쉽게 접근할 수 있게 만들고 새로운 도메인에서 훈련하는 데에는 포즈를 제외한 추가 정보가 필요하지 않기 때문에 매력적입니다.”
지도가 없는 지역화 벤치마크에서 MicKey가 최근의 최첨단 방법을 능가하며 1위를 차지했습니다. MicKey는 특히 희소 특징 매칭을 목표로 하는 깊이 예측을 통해 지원되는 극심한 시야각 변화에서도 안정적인 스케일 메트릭 포즈 추정을 제공합니다. 이 정확도로 지원되는 극단적인 시야각 변화에 따른 변형 매칭을 통해 MicKey는 특히 희소 특징 매칭을 위한 깊이 예측으로 지원되는 깊이 추정 매칭에 필요한 깊이 추정을 지원하는 데 이상적입니다.
주된 기여는 다음과 같습니다.
MicKey는 단일 이미지에서 핵심 포인트를 예측하고 설명할 수 있는 신경망입니다. 이러한 설명자를 사용하면 이미지 간의 미터법 상대 포즈를 추정할 수 있습니다.
이 훈련 전략에는 상대 자세 모니터링만 필요하고 깊이 측정은 필요하지 않으며 이미지 쌍 중첩에 대한 지식이 필요하지 않습니다.
MicKey는 카메라 공간의 주요 지점의 3차원 좌표를 예측합니다. 네트워크는 또한 키포인트 선택 확률(키포인트 분포)과 일치 확률(일치 분포)을 안내하는 설명자를 예측합니다. 이 두 가지 분포를 결합하면 두 개의 핵심 포인트가 대응 포인트가 될 확률을 얻고 대응 포인트가 더 많이 나타날 수 있도록 네트워크를 최적화합니다. 미분 가능한 RANSAC 루프에서는 여러 상대 포즈 가설이 생성되고 실제 변환과 관련된 손실이 계산됩니다. REINFORCE를 통해 기울기를 생성하여 해당 확률을 학습합니다. 포즈 솔버와 손실 함수는 미분 가능하므로 역전파는 3D 키포인트 좌표 교육을 위한 직접적인 신호도 제공합니다.
두 개의 이미지가 주어지면 측정 기준 상대 포즈와 키포인트 점수, 일치 확률 및 포즈 신뢰도(소프트 인라이어 카운트 형식)를 계산합니다. 우리의 목표는 모든 상대 포즈 추정 모듈을 엔드투엔드 방식으로 훈련시키는 것입니다. 훈련 과정에서 우리는 훈련 데이터가 실제 변환이고 K/K'가 카메라 고유 매개변수라고 가정합니다. 전체 시스템의 개략도는 그림 2에 나와 있습니다.
3D 핵심 포인트의 좌표, 신뢰도 및 설명자를 학습하려면 시스템이 완전히 미분 가능해야 합니다. 그러나 파이프라인의 일부 요소(예: 키포인트 샘플링 또는 인라이어 계산)는 미분 불가능하므로 상대 포즈 추정 파이프라인은 확률론적으로 재정의됩니다. 이는 네트워크의 출력을 잠재적 일치 확률로 처리하고 훈련 중에 네트워크가 출력을 최적화하여 올바른 일치 항목이 선택될 가능성이 더 높은 확률을 생성한다는 것을 의미합니다.
MicKey는 그림 3과 같이 입력 이미지에서 3D 메트릭 키포인트와 설명자를 추론하는 공유 인코더가 있는 다중 헤드 네트워크 아키텍처를 따릅니다.
인코더. 사전 학습된 DINOv2 모델을 기능 추출기로 채택하고 추가 교육이나 미세 조정 없이 해당 기능을 직접 사용하세요. DINOv2는 입력 이미지를 14×14 크기의 블록으로 나누고 각 블록에 대한 특징 벡터를 제공합니다. 최종 특징 맵 F는 (1024, w, h)의 해상도를 가지며, 여기서 w = W/14이고 h = H/14입니다.
핵심은 헤드입니다. 여기에는 특징 맵 F를 처리하고 xy 오프셋(U), 깊이(Z), 신뢰도(C) 및 설명자(D) 맵을 계산하는 4개의 병렬 헤드가 정의되어 있습니다. 여기서 맵의 각 항목은 입력 A14에 해당합니다. 이미지의 ×14 블록. MicKey는 희박한 일반 그리드의 상대적 오프셋으로 키포인트를 예측하는 드문 속성을 가지고 있습니다. 절대 2D 좌표는 다음과 같이 얻습니다.
지도가 없는 데이터 세트에 대한 상대 포즈 평가. 90픽셀 임계값에서 VCRE 측정항목에 대한 곡선 아래 면적(AUC) 및 정밀도(Prec.) 값이 보고되며 두 버전의 MicKey가 가장 높은 결과를 달성했습니다. 또한 중앙값 오류도 보고되며 MicKey는 VCRE 오류 측면에서 가장 낮은 값을 얻는 반면 RoMa와 같은 다른 방법은 낮은 포즈 오류를 제공합니다. 중앙값 오류를 계산하기 위해 기준선은 각 방법으로 생성된 유효한 포즈만 사용하므로 추정된 총 포즈 수를 보고합니다. 마지막으로 매칭 시간이 보고되었으며 MicKey는 LoFTR 및 LighGlue와 비교할 수 있는 동시에 VCRE 측정 항목 측면에서 MicKey와 가장 가까운 경쟁자인 RoMa의 시간을 크게 줄이는 것으로 나타났습니다. 매칭 방법은 스케일을 복구하기 위해 DPT를 사용합니다.
MicKey가 생성한 해당 포인트, 점수 및 깊이 맵의 예입니다. MicKey는 대규모 변경이나 폭넓은 기준선이 있는 경우에도 효과적인 대응점을 찾습니다. 기능 인코더로 인해 깊이 맵의 해상도는 입력 이미지보다 14배 작습니다. 우리는 DPT에서 사용되는 깊이 맵 시각화 방법을 따르며, 밝은 색상이 더 가까운 거리를 나타냅니다.
ScanNet 데이터세트에 대한 상대 포즈 평가. 모든 기능 일치 방법은 PlaneRCNN과 함께 사용되어 메트릭 척도를 복구합니다. 깊이(D), 중첩 점수(O), 포즈(P) 등 각 방법에 대한 훈련 신호를 나타냅니다.
위 내용은 옥스포드 대학의 최신 소식! 미키: 3D SOTA로 2D 이미지 매칭! (CVPR\'24)의 상세 내용입니다. 자세한 내용은 PHP 중국어 웹사이트의 기타 관련 기사를 참조하세요!