라이다 카메라 융합 기반의 3D 감지는 자율주행의 핵심 과제입니다. 최근 몇 년 동안 많은 LiDAR 카메라 융합 방법이 등장하여 좋은 성능을 얻었지만 이러한 방법에는 항상 잘 설계되고 효과적으로 감독되는 융합 프로세스가 부족합니다.
이 문서에서는 레이저 레이더-카메라 융합을 제공하는 SupFusion이라는 새로운 훈련 전략을 소개합니다. 보조 기능 수준 감독을 통해 탐지 성능을 크게 향상시킵니다. 이 방법에는 희소 대상을 암호화하고 보조 모델을 훈련하여 감독을 위한 고품질 기능을 생성하기 위한 Polar Sampling 데이터 증대 방법이 포함됩니다. 이러한 기능은 LiDAR 카메라 융합 모델을 훈련하고 융합된 기능을 최적화하여 고품질 기능 생성을 시뮬레이션하는 데 사용됩니다. 또한 SupFusion 전략을 사용하는 이전 융합 방법에 비해 지속적으로 우수한 성능을 달성하는 간단하면서도 효과적인 심층 융합 모듈을 제안합니다. 본 논문의 방법에는 다음과 같은 장점이 있습니다. 첫째, SupFusion은 추가 추론 비용을 늘리지 않고도 LiDAR 카메라의 감지 성능을 향상시킬 수 있는 보조 기능 수준 감독을 도입합니다. 둘째, 제안된 심층 융합은 탐지기의 성능을 지속적으로 향상시킬 수 있습니다. 제안된 SupFusion 및 심층 융합 모듈은 플러그 앤 플레이 방식이며, 본 논문에서는 광범위한 실험을 통해 그 효과를 입증합니다. 여러 LiDAR 카메라를 기반으로 한 3D 감지에 대한 KITTI 벤치마크에서 약 2%의 3D mAP 개선이 달성되었습니다!
그림 1: 상단, 이전 LiDAR 카메라 3D 감지 모델, 융합 모듈은 감지 손실을 통해 최적화되었습니다. 하단: 본 글에서 제안하는 SupFusion은 보조 모델이 제공하는 고품질 기능을 통해 보조 감독을 도입합니다.
LiDAR 카메라 융합을 기반으로 한 3D 감지는 자율 주행 및 로봇 공학에서 중요하고 어려운 작업입니다. 이전 방법에서는 항상 카메라 입력을 내부 및 외부 매개변수를 통해 LiDAR BEV 또는 복셀 공간에 투영하여 LiDAR와 카메라 기능을 정렬합니다. 그런 다음 최종 탐지를 위한 융합된 특징을 얻기 위해 간단한 연결 또는 합산이 사용됩니다. 또한 일부 딥러닝 기반 융합 방법은 유망한 성능을 달성했습니다. 그러나 이전 융합 방법은 감지 손실을 통해 항상 3D/2D 특징 추출 및 융합 모듈을 직접 최적화하므로 특징 수준에서 신중한 설계와 효과적인 감독이 부족하여 성능이 제한됩니다.
최근 몇 년 동안 증류 방법은 3D 감지를 위한 기능 수준 감독에서 큰 개선을 보였습니다. 일부 방법은 카메라 입력을 기반으로 깊이 정보를 추정하기 위해 2D 백본을 안내하는 LiDAR 기능을 제공합니다. 또한 일부 방법은 LiDAR 백본을 감독하여 LiDAR 입력에서 전역 및 상황별 표현을 학습하는 LiDAR 카메라 융합 기능을 제공합니다. 보다 강력하고 고품질 기능을 시뮬레이션하여 기능 수준의 보조 감독을 도입함으로써 감지기는 한계 개선을 촉진할 수 있습니다. 이에 영감을 받아 LiDAR 카메라 기능 융합을 처리하는 자연스러운 솔루션은 더 강력하고 고품질의 기능을 제공하고 LiDAR 카메라 3D 감지를 위한 보조 감독을 도입하는 것입니다!
LiDAR 카메라 기반 융합 3D 감지 성능을 향상시키기 위해 이 기사에서는 SupFusion이라는 감독 LiDAR 카메라 융합 방법을 제안합니다. 이 방법은 고품질 기능을 생성하고 융합 및 기능 추출 프로세스에 대한 효과적인 감독을 제공함으로써 이를 달성합니다. 먼저, 고품질 기능을 제공하기 위해 보조 모델을 훈련합니다. 더 큰 모델이나 추가 데이터를 활용하는 이전 방법과 달리 Polar Sampling이라는 새로운 데이터 증대 방법을 제안합니다. Polar Sampling은 희박한 LiDAR 데이터에서 대상의 밀도를 동적으로 향상시켜 대상을 더 쉽게 감지하고 정확한 감지 결과와 같은 특징 품질을 향상시킵니다. 그런 다음 LiDAR 카메라 융합을 기반으로 탐지기를 훈련하고 보조 기능 수준 감독을 도입합니다. 이 단계에서는 원시 LiDAR 및 카메라 입력을 3D/2D 백본 및 융합 모듈에 공급하여 융합된 기능을 얻습니다. 융합된 특징은 최종 예측을 위해 감지 헤드에 공급되는 반면, 보조 감독은 융합된 특징을 고품질 특징으로 모델링합니다. 이러한 기능은 사전 훈련된 보조 모델과 향상된 LiDAR 데이터를 통해 획득됩니다. 이러한 방식으로 제안된 기능 수준 감독을 통해 융합 모듈은 보다 강력한 기능을 생성하고 감지 성능을 더욱 향상시킬 수 있습니다. LiDAR와 카메라의 기능을 보다 효과적으로 융합하기 위해 적층된 MLP 블록과 동적 융합 블록으로 구성된 간단하고 효과적인 딥 퓨전 모듈을 제안합니다. SupFusion은 심층 융합 모듈의 기능을 완전히 활용하고 감지 정확도를 지속적으로 향상시킬 수 있습니다!
이 기사의 주요 기여:
고품질 특징 생성 과정은 아래 그림과 같습니다. 주어진 LiDAR 샘플에 대해 희소 대상은 Polar Pasting으로 암호화되고 Polar Pasting은 추출할 방향과 회전을 계산합니다. 데이터베이스에서 밀도가 높은 대상을 쿼리하고 붙여넣어 희박한 대상에 대한 추가 포인트를 추가합니다. 이 논문에서는 먼저 향상된 데이터로 보조 모델을 훈련하고 강화된 LiDAR 데이터를 보조 모델에 공급하여 수렴 후 고품질 기능 f*를 생성합니다.
SupFusion에서 기능 수준 감독을 제공하기 위해 그림 3과 같이 증강 데이터에서 고품질 기능을 캡처하는 보조 모델이 채택되었습니다. 첫째, 보조 모델은 고품질 기능을 제공하도록 훈련됩니다. D의 모든 샘플에 대해 희소 라이더 데이터는 극성 그룹화에서 생성된 점 세트를 추가하여 대체 대상을 암호화하는 극성 붙여넣기를 통해 향상된 데이터를 얻기 위해 증가됩니다. 그런 다음 보조 모델이 수렴된 후 강화된 샘플을 최적화된 보조 모델에 입력하여 LiDAR 카메라 3D 감지 모델 훈련을 위한 고품질 기능을 캡처합니다. 주어진 LiDAR 카메라 감지기에 더 잘 적용하고 구현을 더 쉽게 만들기 위해 여기서는 LiDAR 분기 감지기를 보조 모델로 채택하기만 하면 됩니다!
특정 LiDAR 카메라 감지기의 경우 모델은 기능 수준에서 제안된 보조 감독을 사용하여 학습됩니다. 샘플, 이 주어지면 LiDAR와 카메라가 먼저 3D 및 2D 인코더에 입력되어 해당 특징을 캡처하고 이러한 특징은 융합 모델에 입력되어 융합된 특징을 생성하고 감지로의 흐름에서 최종 예측을 합니다. 너의 머리. 또한 제안된 보조 감독은 사전 훈련된 보조 모델과 향상된 LiDAR 데이터에서 생성된 고품질 기능을 사용하여 융합된 기능을 시뮬레이션하는 데 사용됩니다. 위 프로세스는 다음과 같이 공식화될 수 있습니다.
본 논문에서는 희소 문제를 해결하기 위해 제안된 SupFusion에 Polar Sampling이라는 새로운 데이터 향상 방법을 도입합니다. 문제로 인해 감지 오류가 발생하는 경우가 많습니다. 이를 위해 우리는 밀집된 타겟을 처리하는 방법과 유사하게 LiDAR 데이터에서 희소 타겟에 대한 밀집 처리를 수행합니다. 극좌표 샘플링은 극좌표 그룹화와 극좌표 붙여넣기의 두 부분으로 구성됩니다. 극좌표 그룹핑에서는 희박한 타겟을 더 조밀하게 만들기 위해 극좌표 붙여넣기에 사용되는 밀집된 타겟을 저장하는 데이터베이스를 주로 구축합니다
라이다 센서의 특성을 고려하면 수집된 포인트 클라우드 데이터에는 자연스럽게 특정한 특징이 있습니다. 밀도 분포. 예를 들어, 물체의 표면에는 LiDAR 센서를 향한 더 많은 지점이 있고 반대편에는 더 적은 지점이 있습니다. 밀도 분포는 주로 방향과 회전의 영향을 받는 반면 점의 밀도는 주로 거리에 따라 달라집니다. LiDAR 센서에 더 가까운 물체일수록 점 밀도가 더 높습니다. 이에 착안하여 본 논문의 목표는 희소 표적의 방향과 회전에 따라 장거리 희소 표적과 단거리 밀집 표적을 조밀화하여 밀도 분포를 유지하는 것이다. 장면의 중심과 특정 타겟을 기준으로 전체 장면과 타겟에 대한 극좌표계를 구축하고, 라이더 센서의 양의 방향을 0도로 정의하여 해당 방향과 회전을 측정합니다. 그런 다음 유사한 밀도 분포(예: 비슷한 방향 및 회전)를 가진 타겟을 수집하고 극성 그룹의 각 그룹에 대해 조밀한 타겟을 생성하고 이를 극성 페이스트에서 밀도가 낮은 스파스 타겟에 사용합니다.
그림 4에 표시된 대로 , 여기에는 Polar Grouping의 방향과 회전에 따라 생성된 밀집 물체 점 집합 l을 저장하기 위한 데이터베이스 B가 구축되며, 이는 그림 4에서 α와 β로 기록됩니다!
먼저 전체 데이터 세트를 검색하고 위치별로 모든 대상의 극각을 계산하고 벤치마크에서 회전을 제공합니다. 둘째, 극각을 기준으로 대상을 그룹으로 나눕니다. 방향과 회전을 N개의 그룹으로 수동으로 나누고, 임의의 목표점 세트 l에 대해 인덱스에 따라 해당 그룹에 넣을 수 있습니다.
그림 2에서 볼 수 있듯이 Polar Pasting은 희소 라이더 데이터를 향상하여 보조 모델을 훈련하고 고품질 기능을 생성하는 데 사용됩니다. LiDAR 샘플 ,,,,에 대상이 포함되어 있으면 모든 대상에 대해 그룹화 프로세스와 동일한 방향 및 회전이 계산될 수 있으며 밀도가 높은 대상은 E.q에서 얻을 수 있는 레이블 및 인덱스에 따라 B에서 쿼리됩니다. 향상된 샘플의 경우 6개 모든 대상이 강화된 통계를 얻습니다.
향상된 LiDAR 데이터로 생성된 고품질 특징을 시뮬레이션하기 위해 융합 모델은 카메라 입력의 풍부한 색상과 상황별 특징에서 희소 대상의 누락된 정보를 추출하도록 설계되었습니다. 이를 위해 본 논문에서는 이미지 특징을 활용하고 LiDAR 시연을 완료하기 위한 심층 융합 모듈을 제안합니다. 제안된 딥퓨전은 크게 3D 학습기와 2D-3D 학습기로 구성된다. 3D 학습자는 3D 렌더링을 2D 공간으로 전송하는 데 사용되는 간단한 컨벌루션 레이어입니다. 그런 다음 2D 기능과 3D 렌더링(예: 2D 공간)을 연결하기 위해 2D-3D 학습자를 사용하여 LiDAR 카메라 기능을 융합합니다. 마지막으로, 융합된 기능은 MLP 및 활성화 기능에 의해 가중치가 부여되며, 이는 딥 퓨전 모듈의 출력으로 원래 LiDAR 기능에 다시 추가됩니다. 2D-3D 학습자는 깊이 K의 누적된 MLP 블록으로 구성되며 카메라 기능을 활용하여 희소 대상의 LiDAR 표현을 완성하여 밀도가 높은 LiDAR 대상의 고품질 기능을 시뮬레이션하는 방법을 학습합니다.
실험 결과(mAP@R40%). 여기에는 쉬움, 중간(모드), 하드 케이스의 세 가지 범주와 전반적인 성능이 나열되어 있습니다. 여기서 L, LC, LC*는 해당 LiDAR 감지기, LiDAR 카메라 융합 감지기 및 본 논문 제안의 결과를 나타냅니다. Δ는 개선을 나타냅니다. 최상의 결과는 굵게 표시되며, 여기서 L은 보조 모델이 될 것으로 예상되며 증강 검증 세트에서 테스트됩니다. MVXNet은 mmDetection3d를 기반으로 다시 구현되었습니다. PV-RCNN-LC와 Voxel RCNN LC는 VFF의 오픈소스 코드를 기반으로 재구현되었습니다.
재작성된 내용: 전반적인 성능. Table 1의 비교 결과에 따르면, 3개의 디텍터를 기반으로 한 3DmAP@R40의 비교는 각 카테고리와 난이도별 전반적인 성능을 보여준다. 추가 카메라 입력을 도입함으로써 LiDAR 카메라 방식(LC)이 LiDAR 기반 감지기(L)보다 성능이 더 우수하다는 것을 명확하게 관찰할 수 있습니다. 극성 샘플링을 도입함으로써 보조 모델(L†)은 향상된 검증 세트(예: 90% 이상의 mAP)에서 뛰어난 성능을 보여줍니다. 고품질 기능을 갖춘 보조 감시와 제안된 심층 융합 모듈을 통해 우리 제안은 감지 정확도를 지속적으로 향상시킵니다. 예를 들어, 기준(LC) 모델과 비교하여 우리 제안은 중간 타겟과 하드 타겟에서 각각 +1.54% 및 +1.24% 3D mAP 개선을 달성합니다. 또한 SECOND-LC를 기반으로 nuScenes 벤치마크 실험도 진행했는데, Table 2에서 볼 수 있듯이 NDS와 mAP가 각각 +2.01%, +1.38%
클래스 인식 개선 분석을 했습니다. 기본 모델과 비교하여 SupFusion 및 심층 융합은 전체 성능을 향상시킬 뿐만 아니라 보행자를 포함한 각 범주의 감지 성능도 향상시킵니다. 세 가지 범주(예: 중간 사례)의 평균 향상을 비교하면 다음과 같은 관찰이 가능합니다. 가장 큰 개선폭(+2.41%)을 보였으며, 보행자와 자동차는 각각 +1.35%, +0.86%의 개선을 보였습니다. 그 이유는 분명합니다. (1) 자동차는 보행자나 자전거 타는 사람보다 쉽게 발견하고 최상의 결과를 얻을 수 있으므로 개선하기가 더 어렵습니다. (2) 자전거 운전자는 보행자에 비해 더 많은 개선 효과를 얻습니다. 보행자는 그리드가 아니고 자전거 운전자보다 밀도가 낮은 목표물을 생성하므로 성능 개선 효과가 낮기 때문입니다!
원본 콘텐츠를 보려면 다음 링크를 클릭하세요: https://mp.weixin.qq.com/s/vWew2p9TrnzK256y-A4UFw
위 내용은 SupFusion: Lidar-Camera 융합 3D 감지 네트워크를 효과적으로 감독하는 방법을 찾고 계십니까?의 상세 내용입니다. 자세한 내용은 PHP 중국어 웹사이트의 기타 관련 기사를 참조하세요!