이 기사에서는 CVPR 2022 최우수 학생 논문상을 수상한 "EPro-PnP: 일반화된 단안 개체 포즈 추정을 위한 일반화된 엔드투엔드 확률적 관점-n-포인트" 작업에 대해 설명합니다. 본 논문에서 연구하는 문제는 단일 이미지를 기반으로 3차원 공간에서 물체의 자세를 추정하는 것이다. 기존 방법 중 PnP 기하학적 최적화를 기반으로 한 포즈 추정 방법은 딥 네트워크를 통해 2D-3D 관련 점을 추출하는 경우가 많습니다. 그러나 포즈의 최적 솔루션은 역전파 동안 미분 가능하지 않기 때문에 손실이 안정적으로 수행되므로 포즈 오류를 사용하기가 어렵습니다. 2D-3D 상관 지점이 다른 에이전트 손실의 감독에 의존하는 경우 네트워크의 엔드투엔드 훈련은 자세 추정을 위한 최적의 훈련 목표가 아닙니다.
이 문제를 해결하기 위해 포즈의 단일 최적 솔루션 대신 포즈의 확률 밀도 분포를 출력하여 미분 불가능한 최적 포즈를 대체하는 이론 기반 EPro-PnP 모듈을 제안했습니다. 차별화 가능한 확률 밀도, 안정적인 end-to-end 훈련이 달성됩니다. EPro-PnP는 매우 다재다능하며 다양한 특정 작업 및 데이터에 적합합니다. 기존 PnP 기반 자세 추정 방법을 개선하는 데 사용할 수도 있고 유연성을 사용하여 새로운 네트워크를 훈련할 수도 있습니다. 보다 일반적인 의미에서 EPro-PnP는 기본적으로 공통 분류 소프트맥스를 연속 영역으로 가져오며 이론적으로는 중첩된 최적화 레이어를 사용하여 일반 모델을 학습하도록 확장할 수 있습니다.
문서 링크: https://arxiv.org/abs/2203.13254
코드 링크: https://github.com/tjiiv-cprg/EPro-PnP
우리는 3D 비전의 고전적인 문제인 단일 RGB 이미지를 기반으로 3D 개체를 찾는 방법을 연구합니다. 특히, 3D 객체의 투영이 포함된 이미지가 주어지면 우리의 목표는 객체 좌표계에서 카메라 좌표계로의 강체 변환을 결정하는 것입니다. 이 강체 변환은 y로 표시되는 객체의 포즈라고 하며 두 부분으로 구성됩니다. 1) 3x1 변위 벡터 t로 표현될 수 있는 위치 구성 요소, 2) 3x3 회전으로 표현될 수 있는 방향 구성 요소 행렬 R은 다음을 의미합니다.
이 문제를 해결하기 위해 기존 방법을 명시적 방법과 암시적 방법의 두 가지 범주로 나눌 수 있습니다. 명시적 방법은 직접 포즈 예측이라고도 할 수 있습니다. 즉, FFN(피드포워드 신경망)을 사용하여 개체 포즈의 각 구성 요소를 직접 출력합니다. 일반적으로 1) 개체의 깊이를 예측하고, 2) 찾기 물체의 중심 이미지 상의 점의 2D 투영 위치, 3) 물체의 방향을 예측합니다(구체적인 방향 처리 방법은 더 복잡할 수 있습니다). 객체의 실제 자세가 표시된 이미지 데이터를 사용하여 자세 예측 결과를 직접 감독하도록 손실 함수를 설계하여 네트워크의 종단 간 훈련을 쉽게 달성할 수 있습니다. 그러나 이러한 네트워크는 해석성이 부족하고 작은 데이터세트에 과적합되기 쉽습니다. 3D 객체 감지 작업에서는 명시적인 방법이 지배적이며, 특히 대규모 데이터 세트(예: nuScenes)의 경우 더욱 그렇습니다.
암시적 방법은 기하학적 최적화를 기반으로 한 포즈 추정 방법이며 가장 대표적인 것이 PnP 기반의 포즈 추정 방법입니다. 이 유형의 방법에서는 먼저 이미지 좌표계에서 N개의 2D 점을 찾아야 하며(i번째 점의 2D 좌표는 로 표시됨) 동시에 이와 연관된 N개의 3D 점을 찾아야 합니다. 객체 좌표계(i번째 점)에서 점 i의 3차원 좌표는 로 표시되며 때로는 각 점 쌍의 연관 가중치(i-의 연관 가중치)를 구해야 합니다. 두 번째 포인트 쌍은 로 표시됩니다. 원근 투영 제약 조건에 따라 이러한 N 쌍의 2D-3D 가중치 관련 점은 객체의 최적 포즈를 암시적으로 정의합니다. 구체적으로, 재투영 오류를 최소화하는 객체 포즈 를 찾을 수 있습니다.
여기서 는 포즈의 함수인 가중치 재투영 오류를 나타냅니다. 은 내부 매개변수를 포함하는 카메라 프로젝션 기능을 나타내고, 은 요소제품을 나타냅니다. PnP 방법은 객체 형상이 알려진 6-DOF 포즈 추정 작업에 일반적으로 사용됩니다.
PnP 기반 방법에는 2D-3D 관련 포인트 세트를 예측하기 위한 피드포워드 네트워크도 필요합니다. 직접 자세 예측과 비교하면 전통적인 기하학적 비전 알고리즘과 결합된 이 딥 러닝 모델은 해석성이 매우 좋고 일반화 성능이 상대적으로 안정적입니다. 그러나 이전 작업의 모델 훈련 방법에는 결함이 있습니다. 많은 방법은 포즈에 대한 최적의 목표가 아닌 중간 결과 X를 감독하기 위해 프록시 손실 함수를 구성합니다. 예를 들어, 객체의 모양을 알고 있는 경우 객체의 3D 키 포인트를 미리 선택한 다음 네트워크를 학습하여 해당 2D 투영 지점 위치를 찾을 수 있습니다. 이는 또한 대리 손실이 X의 변수 중 일부만 학습할 수 있으므로 충분히 유연하지 않다는 것을 의미합니다. 훈련 세트에 있는 객체의 모양을 모르고 X의 모든 것을 처음부터 배워야 한다면 어떻게 될까요?
명시적 방법과 암시적 방법의 장점은 상호보완적입니다. PnP에서 출력된 포즈 결과를 감독하여 관련 포인트 세트 X를 학습하도록 네트워크를 엔드투엔드로 훈련할 수 있다면 두 가지 장점을 결합할 수 있습니다. 이 목표를 달성하기 위해 최근 일부 연구에서는 암시적 함수 파생을 사용하여 PnP 계층의 역전파를 구현했습니다. 그러나 PnP의 argmin 함수는 특정 지점에서 불연속적이고 미분 불가능하므로 역전파가 불안정하고 직접 훈련이 수렴되기 어렵습니다.
안정적인 end-to-end 학습을 위해 end-to-end 확률적 PnP)을 제안했습니다. EPro-PnP. 기본 아이디어는 암시적 포즈를 확률 분포로 간주하고 확률 밀도 가 X에 대해 미분 가능하다는 것입니다. 먼저 포즈의 우도 함수는 재투영 오류를 기반으로 정의됩니다.
정보가 없는 사전을 사용하는 경우 포즈의 사후 확률 밀도는 우도 함수의 정규화된 결과입니다.
위 공식은 일반적으로 사용되는 분류 소프트맥스 공식과 매우 유사하다는 것을 알 수 있습니다. 실제로 EPro-PnP의 핵심은 소프트맥스를 이산 임계값에서 연속 임계값으로 이동하고 교체하는 것입니다. 합 과 적분 .
모델을 훈련하는 과정에서 물체의 실제 자세가 알려지면 목표 자세 분포를 정의할 수 있습니다. 이때 KL divergence 는 네트워크 학습에 사용되는 손실 함수로 계산할 수 있습니다(는 고정되어 있으므로 교차 엔트로피 손실 함수로도 이해할 수 있습니다). 목표 가 Dirac 함수에 접근하면 KL 발산을 기반으로 한 손실 함수는 다음 형식으로 단순화될 수 있습니다. 손실 함수가 두 항목으로 구성되어 있음을 알 수 있습니다. 첫 번째 항(으로 표시)은 포즈의 실제 값에 대한 재투영 오류를 줄이려고 시도하고, 두 번째 항(으로 표시)은 다음과 같습니다. ) 포즈 의 모든 곳에서 예측 재투영 오류를 늘리려고 시도합니다. 두 방향은 서로 반대이며, 그 효과는 아래 그림(왼쪽)과 같습니다. 비유하자면 오른쪽은 분류 네트워크를 훈련할 때 일반적으로 사용하는 범주형 교차 엔트로피 손실입니다. 3. 몬테카를로 포즈 손실 의 두 번째 항에는 적분이 포함되어 있지 않으므로 수치적 방법으로 근사해야 합니다. 다양성, 정확성 및 계산 효율성을 고려하여 Monte Carlo 방법을 사용하여 샘플링을 통해 포즈 분포를 시뮬레이션합니다. 특히 중요도 샘플링 알고리즘인 AMIS(Adaptive Multiple Importance Sampling)를 사용하여 가중치 를 사용하여 K 포즈 샘플 을 계산합니다. 이 프로세스를 Monte Carlo PnP라고 합니다. 이에 따르면 두 번째 항 은 가중치 의 함수로 근사화될 수 있으며 은 역전파될 수 있습니다. 포즈 샘플링의 시각화 효과가 표시됩니다. 아래 그림에서:
몬테카를로 PnP 손실을 사용하여 고품질 포즈 분포를 얻기 위해 네트워크를 훈련할 수 있지만 추론 단계에서는 여전히 PnP 최적화 솔버 자세를 통해 최적의 위치를 얻는 것이 필요합니다. 솔루션. 일반적으로 사용되는 Gauss-Newton 알고리즘과 그 미분은 반복 최적화를 통해 을 해결하고, 그 반복 증가분은 비용 함수 의 1차 및 2차 미분에 의해 결정됩니다. PnP의 솔루션을 실제 가치에 더 가깝게 만들기 위해 비용 함수의 미분을 정규화할 수 있습니다. 정규화 손실 함수는 다음과 같이 설계되었습니다. 여기서 는 Gauss-Newton 반복 증분이며, 이는 비용 함수의 1차 및 2차 도함수와 관련되며 역전파될 수 있습니다. , 은 거리 측정법을 나타냅니다. 위치에는 부드러운 L1을 사용하고 방향에는 코사인 유사성을 사용합니다. 가 일치하지 않는 경우 이 손실 함수는 반복 증분 이 실제 참값을 가리키도록 강제합니다. 우리는 6자유도 자세 추정과 3D 타겟 탐지의 두 가지 하위 작업에 서로 다른 네트워크를 사용합니다. 그중 6자유도 포즈 추정을 위해 ICCV 2019의 CDPN 네트워크를 기반으로 약간 수정하고 EPro-PnP로 교육하여 3D 타겟 감지를 위한 절제 연구를 수행하고 FCOS3D를 기반으로 새로운 네트워크를 설계했습니다. of ICCVW 2021. EPro-PnP가 객체 형태에 대한 지식 없이 모든 2D-3D 점과 연관 가중치를 직접 학습하도록 네트워크를 훈련할 수 있음을 증명하는 변형 가능한 대응 감지 헤드를 통해 애플리케이션에서 EPro-PnP의 유연성을 입증합니다. 네트워크 구조는 위 그림과 같지만 출력 레이어는 원본 CDPN을 기반으로 수정되었습니다. 원본 CDPN은 감지된 객체 2D 상자를 사용하여 지역 이미지를 잘라내고 이를 ResNet34 백본에 입력합니다. 원래 CDPN은 위치와 방향을 두 개의 분기로 분리합니다. 위치 분기는 직접 예측이라는 명시적 방법을 사용하는 반면 방향 분기는 밀집 연관 및 PnP의 암시적 방법을 사용합니다. EPro-PnP를 연구하기 위해 수정된 네트워크는 출력이 3채널 3D 좌표 맵인 조밀한 상관 분기와 상관 가중치가 공간 소프트맥스 및 전역 가중치 스케일링을 거친 2채널 상관 가중치만 유지합니다. 공간 소프트맥스를 추가하는 목적은 가중치를 정규화하여 어텐션 맵과 유사한 속성을 갖고 상대적으로 중요한 영역에 집중할 수 있도록 하는 것입니다. 실험을 통해 가중치 정규화도 안정적인 수렴의 핵심이라는 것이 입증되었습니다. 전역 가중치 스케일링은 포즈 분포의 집중도를 반영합니다 . 네트워크는 EPro-PnP의 Monte Carlo 포즈 손실과 객체 모양이 알려진 경우 파생 정규화 및 추가 3D 좌표 회귀 손실을 추가하여 훈련할 수 있습니다. 네트워크 구조는 위 그림과 같습니다. 일반적으로 FCOS3D 검출기를 기반으로 하며 변형 가능한 DETR로 설계된 네트워크 구조를 나타냅니다. FCOS3D를 기반으로 중심성 및 분류 레이어는 유지되며 원래 포즈 예측 레이어는 객체 쿼리 생성을 위한 객체 임베딩 및 참조 포인트 레이어로 대체됩니다. 변형 가능한 DETR을 참조하여 기준점을 기준으로 오프셋을 예측하여 2D 샘플링 위치를 얻습니다(따라서 를 얻습니다). 샘플링된 특징은 객체 수준 결과(3D 점수, 체중 척도, 3D 상자 크기 등)를 예측하는 데 사용되는 주의 작업을 통해 객체 특징으로 집계됩니다. 또한, 샘플링 후 객체 임베딩을 통해 각 포인트의 특징을 추가하고 Self Attention으로 처리하여 각 포인트에 해당하는 3D 좌표 및 관련 가중치를 출력합니다. 모든 예측된 은 EPro-PnP의 Monte Carlo 포즈 손실로 훈련될 수 있으며, 이는 추가적인 정규화 없이 수렴하고 높은 정확도를 달성할 수 있습니다. 이를 바탕으로 미분 정규화 손실과 보조 손실을 추가하여 정확도를 더욱 향상시킬 수 있습니다. LineMOD 데이터 세트 실험을 사용하고 이를 CDPN 기준선과 엄격히 비교한 결과는 다음과 같습니다. 엔드투엔드 훈련에 EPro-PnP 손실을 추가하면 정확도가 크게 향상되는 것을 볼 수 있습니다(+12.70). 미분 정규화 손실을 계속 증가시키면 정확도가 더욱 향상됩니다. 이를 바탕으로 원래 CDPN의 훈련 결과를 사용하여 에포크를 초기화하고 늘리는 것(원래 CDPN의 전체 3단계 훈련과 일치하는 총 에포크 수 유지)은 사전 정확도의 일부를 향상시킬 수 있습니다. CDPN 교육은 CDPN 마스크 감독에 대한 추가 교육에서 비롯됩니다. 위 그림은 EPro-PnP를 다양한 선도 방식과 비교한 것입니다. CDPN을 개선한 EPro-PnP는 정확도가 SOTA에 가깝고, EPro-PnP의 아키텍처는 포즈 추정을 위해 완전히 PnP를 기반으로 하며 추가적인 명시적 깊이 추정이나 포즈 개선이 필요하지 않습니다. 따라서 효율성 측면에서도 장점이 있습니다. nuScenes 데이터셋 실험을 이용하여 다른 방법들과 비교한 결과는 위 그림과 같습니다. EPro-PnP는 FCOS3D에 비해 크게 개선되었을 뿐만 아니라 당시 SOTA 및 FCOS3D의 또 다른 개선 버전인 PGD를 능가합니다. 더 중요한 것은 EPro-PnP가 현재 기하학적 최적화 방법을 사용하여 nuScenes 데이터세트의 포즈를 추정하는 유일한 방법이라는 것입니다. NuScenes 데이터 세트의 대규모로 인해 종단 간 훈련된 직접 포즈 추정 네트워크는 이미 좋은 성능을 가지고 있으며, 우리의 결과는 기하학적 최적화를 기반으로 한 모델의 종단 간 훈련이 더 나은 성능을 달성할 수 있음을 보여줍니다. 대용량 데이터 세트. 뛰어난 성능. 위 그림은 EPro-PnP로 학습된 Dense Association Network의 예측 결과를 보여줍니다. 그중 상관관계 가중치 맵 은 주의 메커니즘과 유사하게 이미지의 중요한 영역을 강조합니다. 손실 함수 분석을 통해 하이라이트 영역은 재투영 불확실성이 낮고 포즈 변화에 더 민감한 영역에 해당함을 알 수 있습니다. 3D 타겟 감지 결과는 위 그림과 같습니다. 왼쪽 위 뷰는 변형 상관 네트워크에 의해 샘플링된 2D 포인트 위치를 보여줍니다. 빨간색은 수평 X 구성 요소가 더 높은 포인트를 나타내고 녹색은 수직 Y 구성 요소가 더 높은 포인트를 나타냅니다. 녹색 점은 일반적으로 물체의 상단과 하단에 위치하며, 주요 기능은 물체의 높이를 통해 물체의 거리를 계산하는 것입니다. 이 기능은 인위적으로 지정되지 않으며 전적으로 자유 훈련의 결과입니다. 오른쪽 그림은 감지 결과를 평면도에서 보여줍니다. 파란색 구름 이미지는 물체 위치의 불확실성을 반영하여 물체 중심점의 분포 밀도를 나타냅니다. 일반적으로 멀리 있는 물체의 위치 불확실성은 가까운 물체의 위치 불확실성보다 큽니다. EPro-PnP의 또 다른 중요한 장점은 복잡한 다중 모드 분포를 예측하여 방향 모호성을 표현하는 기능입니다. 위 그림에서 볼 수 있듯이 Barrier는 물체 자체의 회전 대칭으로 인해 180°의 차이가 있는 두 개의 피크를 갖는 경우가 많습니다. Cone 자체에는 특정 방향이 없으므로 예측 결과가 모든 방향으로 분산되지 않습니다. 대칭이지만 이미지로 인해 명확하지 않고 앞뒤를 구분하기 어렵고 봉우리가 두 개 있는 경우도 있습니다. 이러한 확률적 특성으로 인해 EPro-PnP는 대칭 개체에 대한 손실 함수에 대해 특별한 처리가 필요하지 않습니다. 5. 요약 EPro-PnP는 원래의 미분 가능한 최적 포즈를 미분 가능한 포즈 확률 밀도로 변환하므로 PnP 기하학적 최적화에 기반한 포즈 추정 네트워크는 안정적이고 유연한 엔드투엔드 열차를 달성할 수 있습니다. EPro-PnP는 일반적인 3D 객체 포즈 추정 문제에 적용할 수 있습니다. 3D 객체의 기하학적 형상을 알 수 없는 경우에도 end-to-end 학습을 통해 객체의 2D-3D 관련 지점을 학습할 수 있습니다. 따라서 EPro-PnP는 이전에는 훈련이 불가능했던 제안된 변형 상관 네트워크와 같은 네트워크 설계의 가능성을 넓힙니다. 또한 EPro-PnP는 기존 PnP 기반 자세 추정 방법을 개선하는 데 직접 사용될 수도 있으며, 엔드투엔드 훈련을 통해 기존 네트워크의 잠재력을 활용하고 자세 추정 정확도를 향상시킬 수도 있습니다. 보다 일반적인 의미에서 EPro-PnP는 기본적으로 공통 분류 소프트맥스를 연속 영역으로 가져옵니다. 이는 기하학적 최적화를 기반으로 하는 다른 3D 비전 문제에 사용될 수 있을 뿐만 아니라 이론적으로 일반 중첩 최적화 모델을 학습하도록 확장될 수도 있습니다. . KL 손실
4. PnP 솔버를 위한 파생 정규화
3. EPro-PnP 기반의 자세 추정 네트워크
1. 6-DOF 포즈 추정을 위한 조밀한 상관 네트워크
2. 3D 타겟 탐지를 위한 변형 상관 네트워크
IV. 실험 결과
1. 6-DOF 포즈 추정 작업
2. 3D 타겟 탐지 작업
3. 시각적 분석
위 내용은 Tongji와 Alibaba의 CVPR 2022 최우수 학생 논문상은 무엇을 연구했나요? 이것은 한 작품의 해석이다.의 상세 내용입니다. 자세한 내용은 PHP 중국어 웹사이트의 기타 관련 기사를 참조하세요!