자율주행의 기본 업무 중 하나는 3차원 타겟 탐지이며, 현재는 다중 센서 융합 방식을 기반으로 많은 방식이 구현되고 있습니다. 그렇다면 다중 센서 융합이 필요한 이유는 무엇입니까? 라이더와 카메라 융합이든, 밀리미터파 레이더와 카메라 융합이든, 주요 목적은 포인트 클라우드와 이미지 간의 상호 보완적인 연결을 사용하여 표적 탐지의 정확도를 높이는 것입니다. 컴퓨터 비전 분야에서 Transformer 아키텍처가 지속적으로 적용됨에 따라 주의 메커니즘 기반 방법은 여러 센서 간의 융합 정확도를 향상시켰습니다. 공유된 두 논문은 이러한 아키텍처를 기반으로 하며 각 양식의 유용한 정보를 더 많이 활용하고 더 나은 융합을 달성하기 위한 새로운 융합 방법을 제안합니다.
Lidar와 카메라는 자율 주행에서 중요한 두 가지 3차원 표적 감지 센서입니다. 그러나 센서 융합에서는 불량한 이미지 스트라이프로 인해 감지 정확도가 낮다는 문제에 주로 직면합니다. 조건. 포인트 기반 융합 방법은 하드 연관을 통해 LiDAR와 카메라를 융합하는 것으로, 이는 몇 가지 문제를 야기합니다. a) 단순히 포인트 클라우드와 이미지 특징을 접합하는 것만으로는 품질이 낮은 이미지 특징이 있는 경우 감지 성능이 심각하게 저하됩니다. ;b) 희박한 포인트 클라우드와 이미지 사이의 강한 상관관계를 찾는 것은 고품질 이미지 특징을 낭비하고 정렬하기 어렵습니다. 이 문제를 해결하기 위해 소프트 연관 방법이 제안되었습니다. 이 방법은 LiDAR와 카메라를 두 개의 독립적인 감지기로 사용하여 서로 협력하고 두 감지기의 장점을 최대한 활용합니다. 먼저, 전통적인 객체 검출기를 사용하여 객체를 감지하고 바운딩 박스를 생성한 다음 바운딩 박스와 포인트 클라우드를 일치시켜 각 포인트가 연결된 바운딩 박스에 대한 점수를 얻습니다. 마지막으로 가장자리 상자에 해당하는 이미지 특징은 포인트 클라우드에서 생성된 특징과 융합됩니다. 이 방법은 열악한 이미지 스트라이프 조건으로 인해 발생하는 감지 정확도 저하를 효과적으로 방지할 수 있습니다. 동시에 본 논문에서는 두 센서 간의 상관 문제를 해결하기 위해 LiDAR와 카메라의 융합 프레임워크인 TransFusion을 소개합니다. 주요 기여는 다음과 같습니다.
낮은 이미지 품질과 센서 오정렬에 대한 뛰어난 견고성을 보여주는 LiDAR와 카메라의 변환기 기반 3D 감지 융합 모델을 제안합니다.그림 1 TransFusion의 전체 프레임워크
위에서 언급한 서로 다른 센서 간의 이미지 입력 차이와 상관 문제를 해결하기 위해 Transformer 기반 융합 프레임워크인 TransFusion을 제안합니다. . 이 모델은 표준 3D 및 2D 백본 네트워크를 사용하여 LiDAR BEV 기능과 이미지 기능을 추출한 다음 두 개의 Transformer 디코더 레이어로 구성됩니다. 첫 번째 레이어 디코더는 희소 포인트 클라우드를 사용하여 초기 경계 상자를 생성하고 두 번째 레이어 디코더는 첫 번째 레이어를 변환합니다. 레이어 객체 쿼리는 이미지 특징 쿼리와 결합되어 더 나은 탐지 결과를 얻습니다. 감지 정확도를 높이기 위해 SMCA(Spatial Modulation Attention Mechanism) 및 이미지 유도 쿼리 전략도 도입되었습니다. 이 모델의 감지를 통해 더 나은 이미지 특징과 감지 정확도를 얻을 수 있습니다.
쿼리 초기화가 설계되었습니다. 체중 교차주의.
이미지 기반 쿼리 초기화(이미지 기반 쿼리 초기화)그림 2 이미지 기반 쿼리 모듈
이 모듈은 이미지 기능과 LiDAR BEV 기능을 교차 주의 메커니즘 네트워크로 전송하고 이를 BEV 평면에 투영하고 융합된 BEV 기능을 생성함으로써 LiDAR 및 이미지 정보를 동시에 개체 쿼리로 사용합니다. 그림 2와 같이 다시점 이미지 특징은 먼저 교차 주의 메커니즘 네트워크의 핵심 값으로 높이 축을 따라 접혀지고 LiDAR BEV 특징은 융합된 BEV 특징을 얻기 위한 쿼리로 주의 네트워크에 전송됩니다. 이는 히트 맵 예측에 사용되며 LiDAR 전용 히트 맵으로 평균화되어 최종 히트 맵을 얻습니다. Ŝ 대상 쿼리를 선택하고 초기화합니다. 이러한 작업을 통해 모델은 LiDAR 포인트 클라우드에서 감지하기 어려운 대상을 감지할 수 있습니다.
nuScenes 데이터세트는 훈련, 검증 및 테스트를 위한 700, 150, 150개의 장면을 포함하는 3D 감지 및 추적을 위한 대규모 자율 주행 데이터세트입니다. 각 프레임에는 LiDAR 포인트 클라우드와 360도 수평 시야를 포괄하는 6개의 보정 이미지가 포함되어 있습니다. 3D 감지의 주요 측정항목은 평균 정밀도(mAP)와 NuScenes 감지 점수(NDS)입니다. mAP는 3D IoU가 아닌 BEV 중심 거리로 정의되며, 최종 mAP는 10개 범주에 대해 0.5m, 1m, 2m, 4m의 거리 임계값을 평균하여 계산됩니다. NDS는 mAP 및 변환, 크기, 방향, 속도 및 기타 상자 속성을 포함한 기타 속성 측정에 대한 포괄적인 측정입니다. .
Waymo 데이터 세트에는 훈련용 장면 798개와 검증용 장면 202개가 포함되어 있습니다. 공식 지표는 mAP와 mAPH(방향 정확도에 따라 가중치가 부여된 mAP)입니다. mAP 및 mAPH는 3D IoU 임계값을 기반으로 정의되며, 이는 차량의 경우 0.7, 보행자 및 자전거 이용자의 경우 0.5입니다. 이러한 측정항목은 LiDAR 지점이 5개 이상인 경계 상자의 경우 LEVEL1, LiDAR 지점이 1개 이상인 경계 상자의 경우 LEVEL2라는 두 가지 난이도로 더 세분화됩니다. NuScenes의 360도 카메라와 달리 Waymo의 카메라는 수평으로 약 250도만 커버합니다.
Training nuScenes 데이터세트에서 DLA34를 이미지의 2D 백본 네트워크로 사용하고 해당 가중치를 고정하고 이미지 크기를 448×800으로 설정합니다. Lidar의 3D 백본 네트워크로 VoxelNet을 선택합니다. 학습 프로세스는 두 단계로 나뉩니다. 첫 번째 단계에서는 LiDAR 데이터만 입력으로 사용하고, 첫 번째 계층 디코더와 FFN 피드포워드 네트워크를 사용하여 3D 백본을 20회 학습하여 초기 3D 경계 상자 예측을 생성합니다. 두 번째 단계에서는 LiDAR을 학습합니다. -카메라 융합 및 이미지 기반 쿼리 초기화 모듈을 6회 학습합니다. 왼쪽 이미지는 초기 경계 상자 예측에 사용되는 변환기 디코더 계층 아키텍처이고, 오른쪽 이미지는 LiDAR-카메라 융합에 사용되는 변환기 디코더 계층 아키텍처입니다.
그림 3 디코더 레이어 설계
먼저 3D 객체 감지 작업에서 TransFusion과 기타 SOTA 방법의 성능을 비교합니다. 아래 표 1은 결과를 보여줍니다. nuScenes 테스트 세트를 보면 이 방법이 당시 최고의 성능에 도달했음을 알 수 있습니다(mAP는 68.9%, NDS는 71.7%). TransFusion-L은 감지를 위해 LiDAR만 사용하며, 감지 성능은 이전 단일 모드 감지 방법보다 훨씬 뛰어나며 일부 다중 모드 방법을 능가합니다. 이는 주로 새로운 연관 메커니즘과 쿼리 초기화 전략 때문입니다. 표 2는 Waymo 검증 세트의 LEVEL 2 mAPH 결과를 보여줍니다. nuscenes 테스트에서 SOTA 방법과의 비교 1 waymo waymo 검증 설정에서 2 level 2 maph에서 벤치 마크로 수혈 L을 사용하여 다른 퓨전 프레임 워크는 다음과 같습니다. 견고성을 검증하도록 설계되었습니다. 세 가지 융합 프레임워크는 라이더와 이미지 특징(CC)의 포인트별 스플라이싱 및 융합, 포인트 향상 융합 전략(PA) 및 TransFusion입니다. 표 3에서 볼 수 있듯이, nuScenes 데이터 세트를 낮과 밤으로 나누어 TransFusion 방식을 사용하면 밤에 더 큰 성능 향상을 가져올 수 있습니다. 추론 과정에서 이미지의 특징은 각 프레임에서 여러 이미지를 무작위로 삭제하는 효과를 얻기 위해 0으로 설정됩니다. 표 4에서 볼 수 있듯이 추론 과정에서 일부 이미지를 사용할 수 없으면 감지 성능이 저하됩니다. CC와 PA의 mAP는 각각 23.8%와 17.2% 감소한 반면 TransFusion은 61.7%를 유지했습니다. 보정되지 않은 센서는 3D 타겟 감지 성능에도 큰 영향을 미칩니다. 실험 설정은 그림 4와 같이 카메라에서 LiDAR로의 변환 매트릭스에 무작위로 변환 오프셋을 추가합니다. 두 센서가 1m만큼 오프셋되면 mAP TransFusion의 경우 0.49% 감소에 그쳤으나 PA와 CC의 mAP는 각각 2.33%, 2.85% 감소했습니다.
낮과 밤 동안의 표 3 mAP
서로 다른 이미지 수의 표 4 mAP
센서 오정렬 하의 그림 4 mAP
표 5 d)-f) 쿼리 초기화를 하지 않으면 탐지 성능이 많이 저하된다는 결과를 보면 훈련 라운드 수와 디코더 레이어 수를 늘리면 성능이 향상될 수 있지만 여전히 이상적인 효과를 얻을 수 없다는 것이 입증되었습니다. 제안된 초기화 쿼리 전략은 네트워크 계층 수를 줄일 수 있다는 측면에서. 표 6에서 볼 수 있듯이 이미지 특징 융합과 이미지 기반 쿼리 초기화는 각각 4.8%와 1.6%의 mAP 이득을 가져옵니다. 표 7에서는 다양한 범위의 정확도 비교를 통해 LiDAR 단독 감지에 비해 감지하기 어려운 물체나 원격 지역에서 TransFusion의 감지 성능이 향상되었습니다.
표 5 쿼리 초기화 모듈의 절제 실험
표 6 융합 부분의 절제 실험
표 7 객체 중심과 자아 차량 사이의 거리(미터)
효과적이고 강력한 Transformer 기반 LiDAR 카메라 3D 감지 프레임워크는 이미지에서 얻어야 하는 위치와 정보를 적응적으로 결정할 수 있는 소프트 상관 메커니즘으로 설계되었습니다. TransFusion은 nuScenes 감지 및 추적 리더보드에서 최첨단 결과를 달성하고 Waymo 감지 벤치마크에서 경쟁력 있는 결과를 보여줍니다. 광범위한 절제 실험은 열악한 이미지 조건에 대한 이 방법의 견고성을 보여줍니다.
해결된 주요 문제는 기존 다중 모드 융합 전략이 양식별 유용한 정보를 무시하여 궁극적으로 모델 성능을 방해한다는 것입니다. 포인트 클라우드는 저해상도에서 필요한 위치 지정 및 기하학적 정보를 제공하고 이미지는 고해상도에서 풍부한 외관 정보를 제공하므로 교차 모달 정보 융합은 3D 타겟 탐지 성능을 향상시키는 데 특히 중요합니다. 그림 1(a)에 표시된 기존 융합 모듈은 두 가지 양식의 정보를 통합된 네트워크 공간으로 통합합니다. 그러나 이렇게 하면 일부 정보가 통합된 표현으로 통합되지 않아 특정 정보 중 일부가 줄어듭니다. 양식의 대표적인 장점. 위의 한계를 극복하기 위해 이 기사에서는 새로운 모달 상호 작용 모듈을 제안합니다(그림 1(b)). 핵심 아이디어는 두 가지 모달리티별 표현을 학습하고 유지하여 모달리티 간의 상호 작용을 달성하는 것입니다. 주요 기여는 다음과 같습니다:
그림 1 다양한 융합 전략
다중 모드 표현 대화형 인코더 인코더를 MIMO(다중 입력 다중 출력) 구조로 맞춤 설정: 라이더와 카메라 백본 분리 추출된 2개의 모달리티별 장면 정보를 입력으로 사용하고 2개의 향상된 특징 정보를 생성합니다. 인코더의 각 계층에는 i) MMRI(다중 모드 기능 상호 작용), ii) 모드 내 기능 학습, iii) 표현 통합이 포함됩니다.
그림 2 다중 모드 표현 상호 작용 모듈
그림 3 다중 모드 예측 대화형 모듈
데이터 세트 및 표시기는 TransFusion의 nuScenes 데이터 세트 부분과 동일합니다.
실험 세부사항 이미지의 백본 네트워크는 ResNet50입니다. 컴퓨팅 비용을 절약하기 위해 네트워크에 들어가기 전에 입력 이미지의 크기를 원래 크기의 1/2로 조정하고 도중에 이미지 분기의 가중치를 고정합니다. 훈련. 복셀 크기는 (0.075m, 0.075m, 0.2m)로 설정하고, 감지 범위는 X축과 Y축은 [-54m, 54m], Z축은 [-5m, 3m]로 설정합니다. 축 2개의 인코더 레이어와 5개의 캐스케이드 디코더 레이어를 설계합니다. 또한 TTA(테스트 시간 증가)와 모델 통합이라는 두 가지 온라인 제출 테스트 모델이 설정되어 있으며 두 설정을 각각 DeepInteraction-large 및 DeepInteraction-e라고 합니다. 그 중 DeepInteraction-large는 Swin-Tiny를 이미지 백본 네트워크로 사용하며, LiDAR 백본 네트워크에서 컨볼루션 블록의 채널 수를 두 배로 늘리고 복셀 크기를 [0.5m, 0.5m, 0.2m]로 설정합니다. 양방향 뒤집기와 요 각도[0°, ±6.25°, ±12.5°]를 회전시켜 테스트 시간을 늘립니다. DeepInteraction-e는 여러 DeepInteraction 대형 모델을 통합하며 입력 LiDAR BEV 그리드 크기는 [0.5m, 0.5m] 및 [1.5m, 1.5m]입니다.
TransFusion 구성에 따른 데이터 증대: [-π/4,π/4] 범위의 무작위 회전, 무작위 스케일링 계수 [0.9,1.1], 3축 무작위 변환 및 표준 편차 0.5의 무작위 수평 뒤집기 사용 , 또한 CBGS의 클래스 균형 리샘플링을 사용하여 nuScene의 클래스 분포 균형을 맞춥니다. TransFusion-L을 LiDAR 전용 교육의 기준으로 사용하는 TransFusion과 동일한 2단계 교육 방법이 사용됩니다. Adam 최적화 프로그램은 최대 학습률 1×10−3, 가중치 감쇠 0.01, 운동량 0.85 ~ 0.95의 단일 주기 학습률 전략을 사용하며 CBGS를 따릅니다. LiDAR 기본 훈련은 20라운드, LiDAR 이미지 융합은 6라운드, 배치 크기는 16이며 훈련에는 8개의 NVIDIA V100 GPU가 사용됩니다.
표 1 nuScenes 테스트 세트의 최신 방법과 비교
표 1에서 볼 수 있듯이 DeepInteraction은 모든 설정에서 최고의 성능을 발휘합니다. 표 2는 NVIDIA V100, A6000 및 A100에서 각각 테스트된 추론 속도를 비교합니다. 높은 성능을 달성하면서도 여전히 높은 추론 속도가 유지되는 것을 볼 수 있으며, 이는 이 방법이 탐지 성능과 추론 속도 간의 우수한 균형을 달성한다는 것을 입증합니다.
표 2 추론 속도 비교
디코더의 Ablation 실험
표 3(a) 설계의 다중 모드 대화형 예측 디코더와 DETR 디코더 레이어 비교 및 용도 하이브리드 설계: 일반 DETR 디코더 계층은 LiDAR 표현의 특징을 집계하는 데 사용되며 다중 모달 대화형 예측 디코더(MMPI)는 이미지 표현의 특징을 집계하는 데 사용됩니다(두 번째 행). MMPI는 설계 조합 유연성으로 1.3% mAP 및 1.0% NDS를 개선하여 DETR보다 훨씬 우수합니다. 표 3(c)는 다양한 디코더 레이어가 감지 성능에 미치는 영향을 자세히 조사한 것으로, 5개의 디코더 레이어를 추가하면 성능이 계속 향상된다는 것을 알 수 있습니다. 마지막으로 훈련과 테스트에 사용된 쿼리 수의 다양한 조합을 비교했는데, 다양한 선택에서 성능은 안정적이었지만 훈련/테스트에는 200/300이 최적의 설정으로 사용되었습니다.
표 3 디코더의 절제 실험
표 4(a)에서 볼 수 있습니다. (1) IML과 비교하여 MMRI(Multi-Modal Representation Interactive Encoder)는 다음을 수행할 수 있습니다. (2) MMRI와 IML은 함께 잘 작동하여 성능을 더욱 향상시킬 수 있습니다. 표 4(b)에서 볼 수 있듯이 반복적인 MMRI를 위해 인코더 레이어를 스태킹하는 것이 좋습니다.
표 4 인코더의 절제 실험
두 가지 LiDAR 백본 네트워크인 PointPillar와 VoxelNet을 사용하여 프레임워크의 일반성을 확인합니다. PointPillars의 경우 복셀 크기를 (0.2m, 0.2m)로 설정하고 나머지 설정은 DeepInteraction-base와 동일하게 유지합니다. 제안된 다중 모드 상호 작용 전략으로 인해 DeepInteraction은 백본(복셀 기반 백본의 경우 5.5% mAP, 기둥 기반 백본의 경우 4.4% mAP)을 사용할 때 라이더 전용 기준에 비해 일관된 개선을 보여줍니다. 이는 다양한 포인트 클라우드 인코더 간의 DeepInteraction의 다양성을 반영합니다.
표 5 다양한 LiDAR 백본 평가
이 연구에서는 고유한 다중 모드 보완 속성을 탐색하기 위해 새로운 3D 객체 감지 방법 DeepInteraction을 제안합니다. 핵심 아이디어는 두 가지 양식별 표현을 유지하고 표현 학습 및 예측 디코딩을 위해 이들 간의 상호 작용을 설정하는 것입니다. 이 전략은 기존 일방적 융합 방법의 근본적인 한계, 즉 보조 소스 문자 처리로 인해 이미지 표현의 활용도가 낮다는 문제를 해결하기 위해 특별히 설계되었습니다.
위 두 논문은 모두 LiDAR와 카메라 융합을 기반으로 한 3차원 표적 탐지이며 TransFusion의 추가 작업을 활용한 DeepInteraction에서도 볼 수 있습니다. 이 두 논문에서 우리는 다중 센서 융합의 한 방향이 다양한 양식의 보다 효과적인 정보에 초점을 맞추기 위해 보다 효율적인 동적 융합 방법을 탐색하는 것이라고 결론 내릴 수 있습니다. 물론 이 모든 것은 두 가지 방식 모두에서 고품질 정보를 기반으로 합니다. 다중 모드 융합은 자율 주행 및 지능형 로봇과 같은 미래 분야에서 매우 중요한 응용 분야를 갖게 될 것입니다. 다양한 모드에서 추출된 정보가 점차 풍부해지면 우리가 사용할 수 있는 정보도 점점 더 많아질 것입니다. 따라서 이러한 데이터를 어떻게 더 효율적으로 결합할 것인지도 중요합니다. 생각해 볼 가치가 있는 질문이다.
위 내용은 LiDAR-밀리미터파 레이더-시각적 기능을 효과적으로 상호 연관시키기 위해 변환기를 사용하는 방법은 무엇입니까?의 상세 내용입니다. 자세한 내용은 PHP 중국어 웹사이트의 기타 관련 기사를 참조하세요!