집 >기술 주변기기 >일체 포함 >깊이 추정 SOTA! 자율 주행을 위한 단안 및 서라운드 깊이의 적응형 융합

깊이 추정 SOTA! 자율 주행을 위한 단안 및 서라운드 깊이의 적응형 융합

PHPz앞으로: 2024-03-23 13:06:021415검색

이전 작성 및 개인적 이해

다중 시점 깊이 추정은 다양한 벤치마크 테스트에서 높은 성능을 달성했습니다. 그러나 현재의 거의 모든 멀티뷰 시스템은 주어진 이상적인 카메라 포즈에 의존하는데, 이는 자율 주행과 같은 많은 실제 시나리오에서는 사용할 수 없습니다. 이 연구는 다양한 노이즈 포즈 설정에서 깊이 추정 시스템을 평가하기 위한 새로운 견고성 벤치마크를 제안합니다. 놀랍게도 현재의 다중 시점 깊이 추정 방법이나 단일 시점 및 다중 시점 융합 방법은 잡음이 있는 포즈 설정이 주어지면 실패하는 것으로 나타났습니다. 이러한 과제를 해결하기 위해 여기서는 강력하고 정확한 깊이 추정을 달성하기 위해 신뢰도가 높은 다중 뷰 및 단일 뷰 결과를 적응적으로 통합하는 단일 뷰 및 다중 뷰 융합 깊이 추정 시스템인 AFNet을 제안합니다. 적응형 융합 모듈은 소포 신뢰도 맵을 기반으로 두 가지 사이의 신뢰도가 높은 영역을 동적으로 선택하여 융합을 수행합니다. 따라서 질감이 없는 장면, 부정확한 보정, 동적 개체 및 기타 성능이 저하되거나 까다로운 조건에 직면할 때 시스템은 보다 안정적인 분기를 선택하는 경향이 있습니다. 견고성 테스트에서 이 방법은 최첨단 다중 뷰 및 융합 방법보다 성능이 뛰어납니다. 또한 까다로운 벤치마크(KITTI 및 DDAD)에서도 최첨단 성능을 달성했습니다.

논문 링크: https://arxiv.org/pdf/2403.07535.pdf

논문 이름: Adaptive Fusion of Single-View and Multi-View Depth for Autonomous Driving

Field background

이미지 깊이 추정은 항상 광범위한 응용 분야를 갖춘 컴퓨터 비전 분야의 도전이었습니다. 비전 기반 자율 주행 시스템의 경우 도로 위의 물체를 이해하고 환경의 3D 지도를 구축하는 데 도움이 되는 깊이 인식이 핵심입니다. 다양한 시각 문제에 심층 신경망을 적용하면서 CNN(Convolutional Neural Network) 기반 방법이 깊이 추정 작업의 주류가 되었습니다.

입력 형식에 따라 크게 다중 시점 깊이 추정과 단일 시점 깊이 추정으로 나누어집니다. 깊이를 추정하기 위한 다중 뷰 방법의 기본 가정은 올바른 깊이, 카메라 보정 및 카메라 자세가 주어지면 뷰 전체의 픽셀이 유사해야 한다는 것입니다. 그들은 고품질 깊이 측정을 삼각 측량하기 위해 에피폴라 기하학을 사용합니다. 그러나 다중 뷰 방법의 정확성과 견고성은 카메라의 기하학적 구성과 뷰 간의 해당 일치에 크게 좌우됩니다. 첫째, 카메라는 삼각 측량이 가능하도록 충분히 이동해야 합니다. 자율주행 시나리오에서 자율주행차는 신호등에 정지하거나 전진하지 않고 회전할 수 있으며, 이로 인해 삼각 측량이 실패할 수 있습니다. 또한, 멀티뷰 방식은 자율주행 시나리오에서 흔히 나타나는 동적 대상과 질감이 없는 영역의 문제로 어려움을 겪고 있습니다. 또 다른 문제는 움직이는 차량에 대한 SLAM 자세 최적화입니다. 기존 SLAM 방식에서는 어렵고 피할 수 없는 상황은 말할 것도 없고 소음도 불가피합니다. 예를 들어, 로봇이나 자율주행차는 재보정 없이 수년간 배치되어 시끄러운 자세를 초래할 수 있습니다. 대조적으로, 단일 뷰 방법은 장면의 의미론적 이해와 원근 투영 큐에 의존하기 때문에 텍스처가 없는 영역, 동적 객체에 더 강력하고 카메라 포즈에 의존하지 않습니다. 그러나 규모의 모호성으로 인해 성능은 여전히 멀티뷰 방식에 크게 뒤떨어집니다. 여기서 우리는 자율 주행 시나리오에서 강력하고 정확한 단안 비디오 깊이 추정을 위해 이 두 가지 방법의 장점을 잘 결합할 수 있는지 고려하는 경향이 있습니다.

AFNet 네트워크 구조

AFNet 구조는 다음과 같습니다. 단일 뷰 분기, 다중 뷰 분기 및 AF(적응형 융합) 모듈의 세 부분으로 구성됩니다. 두 가지 분기는 특징 추출 네트워크를 공유하고 자체 예측 및 신뢰도 맵(즉, , 및 )을 가지며 AF 모듈에 의해 융합되어 최종 정확하고 강력한 예측을 얻습니다. AF 모듈의 녹색 배경은 단일을 나타냅니다. -view 분기 및 다중 보기 분기의 출력입니다.