3D 포인트 클라우드 객체 감지는 자율 주행 인식에 중요합니다. 희소 포인트 클라우드 데이터에서 특징 표현을 효율적으로 학습하는 방법은 3D 포인트 클라우드 객체 감지 분야의 핵심 과제입니다. . 이번 글에서는 NeurIPS 2023에서 팀이 공개한 HEDNet과 CVPR 2024에서 SAFDNet을 소개하겠습니다. HEDNet은 기존 희소 합성곱 신경망이 장거리 기능 간의 종속성을 포착하기 어려운 문제를 해결하는 데 중점을 두는 반면, SAFDNet은 구축됩니다. HEDNet을 기반으로 하는 순수 희소 포인트 클라우드 탐지기입니다. 포인트 클라우드 객체 감지에서 기존 방법은 종종 손으로 디자인한 특징 추출기에 의존하는데, 이는 희소 포인트 클라우드 데이터를 처리할 때 효율성이 제한적입니다. 최근 몇 년 동안 딥러닝 기반 방법이 이 분야에서 상당한 진전을 이루었습니다. HEDNet은 컨볼루션 신경망을 사용하여 희소 포인트 클라우드 데이터에서 특징을 추출하고, 장거리 특징 간의 종속성을 캡처하는 등 특정 네트워크 구조를 통해 희소 포인트 클라우드 데이터의 주요 문제를 해결합니다. 이 방법은 NeurIPS 2023의 논문에 있습니다
주류 방법은 일반적으로 구조화되지 않은 포인트 클라우드를 일반 요소로 변환하고 희소 컨벌루션 신경망 또는 Transformer를 사용하여 특징을 추출합니다. 대부분의 기존 희소 컨볼루션 신경망은 주로 SSR(Submanifold Manifold Residual) 모듈을 쌓아서 구축됩니다. 각 SSR 모듈에는 소형 컨볼루션 커널(Submanifold Sparse, SS) 컨볼루션을 사용하는 두 개의 서브다양체 컨볼루션이 포함되어 있습니다. 그러나 하위 다양체 컨볼루션에서는 입력 및 출력 특성 맵의 희소성이 일정하게 유지되어야 하며, 이는 모델이 멀리 있는 특성 간의 종속성을 캡처하는 것을 방해합니다. 한 가지 가능한 해결책은 SSR 모듈의 하위 다양체 컨볼루션을 일반 희소(RS) 컨볼루션으로 바꾸는 것입니다. 그러나 네트워크 깊이가 증가함에 따라 낮은 특징 맵이 희박해지고 결과적으로 계산 비용이 크게 증가합니다. 일부 연구에서는 장거리 특성 간의 종속성을 포착하기 위해 희소 컨벌루션 신경망이나 대규모 컨볼루션 커널을 기반으로 하는 Transformer를 사용하려고 시도하지만 이러한 방법은 정확도를 향상시키지 못하거나 더 높은 계산 비용을 필요로 합니다. 요약하자면, 멀리 있는 기능 간의 종속성을 효율적으로 캡처할 수 있는 방법이 여전히 부족합니다.
기존의 대부분의 3D 포인트 클라우드 객체 검출기는 모델 효율성을 높이기 위해 희소 컨볼루션을 사용하여 특징을 추출합니다. 희소 컨볼루션에는 주로 RS 컨볼루션과 SS 컨볼루션이 포함됩니다. RS 컨볼루션은 계산 프로세스 중에 희소 기능을 인접한 영역으로 확산시켜 기능 맵의 희소성을 줄입니다. 대조적으로, SS 컨볼루션은 입력 및 출력 특징 맵의 희소성을 변경하지 않고 유지합니다. 특징 맵의 희소성을 줄여 RS 컨볼루션을 수행하는 데 드는 계산 비용으로 인해 RS 컨볼루션은 일반적으로 기존 방법에서 기능 맵 다운샘플링에만 사용됩니다. 반면, 대부분의 요소 기반 방법은 포인트 클라우드 특징을 추출하기 위해 SSR 모듈을 쌓아 희소 컨벌루션 신경망을 구축합니다. 각 SSR 모듈에는 2개의 SS 컨볼루션과 입력 및 출력 기능을 융합하는 스킵 연결이 포함되어 있습니다.
그림 1(a)는 단일 SSR 모듈의 구조를 보여줍니다. 그림의 유효한 특징은 0이 아닌 특징을 참조하는 반면, 빈 특징의 값은 0입니다. 이는 해당 위치에 원래 포인트 클라우드가 포함되어 있지 않음을 의미합니다. 우리는 특징 맵의 sparsity를 특징 맵의 전체 면적에 대한 빈 특징이 차지하는 면적의 비율로 정의합니다. SSR 모듈에서는 두 개의 SS convolution을 통해 입력 특성 맵을 변환하여 출력 특성 맵을 얻습니다. 동시에 입력 특성 맵의 정보는 Skip 연결(Skip conn.)을 통해 출력 특성 맵에 직접 통합됩니다. . SS 컨볼루션은 SSR 모듈의 출력 기능 맵이 입력 기능 맵과 동일한 희소성을 갖도록 유효한 기능만 처리합니다. 그러나 이러한 설계는 단절된 기능 간의 정보 상호 작용을 방해합니다. 예를 들어, 상단 기능 맵에서 별표로 표시된 특징점은 하단 기능 맵의 빨간색 점선 상자 외부에 빨간색 삼각형으로 표시된 3개의 특징점으로부터 정보를 받을 수 없으므로 장거리 기능 간의 종속성을 모델링하는 모델의 능력이 제한됩니다. . 능력.
그림 1 SSR, RSR 및 SED 모듈의 구조 비교
위의 문제를 고려할 때 가능한 해결책은 SSR 모듈의 SS 컨볼루션을 RS 컨볼루션으로 대체하여 장거리 기능 간의 종속성을 포착하는 것입니다. 이 수정된 모듈을 RSR(Regular Sparse Residual) 모듈이라고 부르며 그 구조는 그림 1(b)에 나와 있습니다. 그림에서 확장된 특징은 유효한 특징 근처에 있는 빈 특징입니다. RS 컨볼루션은 효과적인 특징과 확산될 특징을 모두 처리하며, 컨볼루션 커널 중심이 이러한 특징 영역을 통과합니다. 이 설계로 인해 출력 특징 이미지의 희소성이 낮아집니다. Stacked RS Convolution은 특징 맵의 희소성을 더 빠르게 줄여 모델 효율성을 크게 감소시킵니다. 이는 기존 방법이 일반적으로 특징 다운샘플링을 위해 RS 컨볼루션을 사용하는 이유이기도 합니다. 여기서는 확장된 기능을 확산되는 기능으로 변환하는 것이 더 적절합니다.
SED 모듈의 설계 목표는 SSR 모듈의 한계를 극복하는 것입니다. SED 모듈은 특징 다운샘플링을 통해 멀리 있는 특징 간의 공간적 거리를 단축하는 동시에 다중 규모 특징 융합을 통해 손실된 세부 정보를 복원합니다. 그림 1(c)는 두 가지 기능 척도가 있는 SED 모듈의 예를 보여줍니다. 이 모듈은 먼저 기능 다운샘플링(Down)을 위해 스트라이드가 3인 3x3 RS 컨볼루션을 사용합니다. 특징 다운샘플링 후 하단 특징 맵에서 연결이 끊긴 유효 특징은 중간 특징 맵과 인접한 유효 특징에 통합됩니다. 그런 다음 SSR 모듈을 사용하여 중간 기능 맵에서 기능을 추출하여 효과적인 기능 간의 상호 작용을 수행합니다. 마지막으로 중간 기능 맵은 입력 기능 맵의 해상도와 일치하도록 업샘플링(UP)됩니다. 여기서는 샘플 기능만 입력 기능 맵의 유효한 기능에 해당하는 영역으로 업샘플링된다는 점에 주목할 가치가 있습니다. 따라서 SED 모듈은 특징 맵의 희소성을 유지할 수 있습니다. SED 모듈의 설계 목표는 SSR 모듈의 한계를 극복하는 것입니다. SED 모듈은 특징 다운샘플링을 통해 멀리 있는 특징 간의 공간적 거리를 단축하는 동시에 다중 규모 특징 융합을 통해 손실된 세부 정보를 복원합니다. 그림 1(c)는 두 가지 기능 척도가 있는 SED 모듈의 예를 보여줍니다. 이 모듈은 먼저 기능 다운샘플링(Down)을 위해 스트라이드가 3인 3x3 RS 컨볼루션을 사용합니다. 특징 다운샘플링 후 하단 특징 맵에서 연결이 끊긴 유효 특징은 중간 특징 맵과 인접한 유효 특징에 통합됩니다. 그런 다음 SSR 모듈을 사용하여 중간 기능 맵에서 기능을 추출하여 효과적인 기능 간의 상호 작용을 수행합니다. 마지막으로 중간 기능 맵은 입력 기능 맵의 해상도와 일치하도록 업샘플링(UP)됩니다. 여기서는 샘플 기능만 입력 기능 맵의 유효한 기능에 해당하는 영역으로 업샘플링된다는 점에 주목할 가치가 있습니다. 따라서 SED 모듈은 특징 맵의 희소성을 유지할 수 있습니다. SED 모듈의 설계 목표는 SSR 모듈의 한계를 극복하는 것입니다. SED 모듈은 세 가지 특징적인 규모로 SED 모듈의 구체적인 구현을 보여줍니다. 괄호 안의 숫자는 입력 특징 맵의 해상도에 대한 해당 특징 맵의 해상도 비율을 나타냅니다. SED 모듈은 인코더를 사용하여 다중 스케일 특징을 추출하고 추출된 다중 스케일 특징을 디코더를 통해 점진적으로 융합하는 비대칭 코덱 구조를 채택합니다. SED 모듈은 RS 컨볼루션을 기능 다운샘플링 계층으로 사용하고 희소 디컨볼루션을 기능 업샘플링 계층으로 사용합니다. SED 모듈은 인코더-디코더 구조를 사용하여 공간에서 단절된 기능 간의 정보 상호 작용을 촉진함으로써 모델이 멀리 있는 기능 간의 종속성을 캡처할 수 있도록 합니다.
그림 2 SED 및 DED 모듈 구조한편, 현재 주류인 3D 포인트 클라우드 검출기는 예측을 위해 객체 중심 특징에 주로 의존하지만 희소 컨볼루셔널 네트워크로 추출된 특징 맵에서는 객체 중심 영역이 특히 큰 물체에는 구멍이 있습니다. 이 문제를 해결하기 위해 그림 2(b)와 같은 구조의 DED 모듈을 제안합니다. DED 모듈은 SED 모듈과 구조가 동일하며, SED 모듈의 SSR 모듈을 Dense Residual(DR) 모듈로 대체하고, 기능 다운샘플링에 사용되는 RS 컨볼루션을 스트라이드 2 모듈의 DR로 대체하고 Sparse 모듈을 대체합니다. 조밀한 디컨볼루션을 통한 기능 업샘플링을 위한 디컨볼루션. 이러한 설계를 통해 DED 모듈은 희박한 특징을 물체의 중앙 영역을 향해 효과적으로 확산시킬 수 있습니다.
HEDNet그림 4 Waymo Open 데이터 세트의 종합적인 성능 비교
Voxel 기반 방법은 일반적으로 희소 복셀 특징을 조밀한 특징 맵으로 변환한 다음 Dense convolutional Neural을 통과합니다. 네트워크는 예측을 위한 특징을 추출합니다. 우리는 이러한 유형의 검출기를 하이브리드 검출기라고 부르며, 그 구조는 그림 5(a)에 나와 있습니다. 이러한 유형의 방법은 작은 범위(<75미터) 감지 시나리오에서 잘 수행되지만 감지 범위가 확장됨에 따라 조밀한 특징 맵을 사용하는 데 드는 계산 비용이 급격히 증가하여 넓은 범위(>200미터)에서의 사용이 제한됩니다. 탐지 시나리오. 가능한 해결책은 기존 하이브리드 감지기에서 밀집된 특징 맵을 제거하여 순수한 희소 감지기를 구축하는 것입니다. 그러나 이는 현재 대부분의 하이브리드 감지기가 객체 중심에 의존하기 때문에 모델의 감지 성능이 크게 저하됩니다. 예측에 사용됩니다. 특징을 추출하기 위해 순수 희소 검출기를 사용할 때 큰 객체의 중앙 영역은 일반적으로 비어 있습니다. 이것이 missing object center feature 문제입니다. 따라서 적절한 객체 표현을 학습하는 것은 순수하게 희소한 검출기를 구축하는 데 중요합니다.
그림 5 하이브리드 검출기, FSDv1 및 SAFDNet의 구조 비교
객체 중심 특징 누락 문제를 해결하기 위해 FSDv1(그림 5(b))은 먼저 원본 포인트 클라우드를 전경 점과 배경 점으로 나눕니다. 그런 다음 중심점 투표 메커니즘을 통해 전경 지점을 클러스터링하고 초기 예측을 위해 각 클러스터에서 인스턴스 특징을 추출하며 이는 그룹 수정 헤드를 통해 더욱 구체화됩니다. 인스턴스 기능의 수동 추출로 인해 발생하는 유도적 편향을 줄이기 위해 FSDv2는 가상 복셀화 모듈을 사용하여 FSDv1의 인스턴스 클러스터링 작업을 대체합니다. FSD 일련의 방법은 CenterPoint와 같이 널리 사용되는 감지 프레임워크와 상당히 다르며, 많은 수의 하이퍼 매개변수를 도입하므로 실제 시나리오에서 이러한 방법을 배포하기가 어렵습니다. FSD 시리즈 방법과 달리 VoxelNeXt는 물체의 중심에 가장 가까운 복셀 특징을 기반으로 직접 예측하지만 감지 정확도가 희생됩니다.
그렇다면 우리가 원하는 순수 희소 포인트 클라우드 검출기는 어떤 모습일까요? 첫째, 실용적인 응용 프로그램에 직접 배포할 수 있도록 구조가 단순해야 합니다. 둘째, 현재 널리 사용되는 하이브리드 검출기 아키텍처를 기반으로 순수 희소 검출기를 구축하는 것이 직관적인 아이디어입니다. 성능 적어도 현재의 주요 하이브리드 탐지기와 일치해야 하며 다양한 범위의 탐지 시나리오에 적용 가능해야 합니다.
위의 두 가지 요구 사항을 바탕으로 우리는 HEDNet 기반의 순수 희소 3D 포인트 클라우드 개체 탐지기 SAFDNet을 구축했으며, 그 매크로 구조는 그림 5(c)에 나와 있습니다. SAFDNet은 먼저 희소 복셀 특징 추출기를 사용하여 희소 포인트 클라우드 특징을 추출한 다음 AFD(Adaptive Feature Diffusion) 전략과 2D 희소 컨볼루션 신경망을 사용하여 희소 특징을 객체의 중앙 영역으로 확산시켜 문제를 해결합니다. 객체 중심의 문제, 누락된 특징 문제, 마지막으로 희소 복셀 특징을 기반으로 한 예측입니다. SAFDNet은 희소 기능만 사용하여 효율적인 계산을 수행할 수 있으며, 구조 설계 및 하이퍼파라미터의 대부분이 기본 하이브리드 탐지기와 일치하므로 기존 하이브리드 탐지기를 대체하기 위한 실제 응용 시나리오에 쉽게 적응할 수 있습니다. SAFDNet의 구체적인 구조는 아래와 같습니다.
그림 6은 SAFDNet의 전체 프레임워크를 보여줍니다. 기존 하이브리드 탐지기와 유사하게 SAFDNet은 주로 3D 희소 백본 네트워크, 2D 희소 백본 네트워크 및 희소 탐지 헤드의 세 부분으로 구성됩니다. 3D 희소 백본 네트워크는 3D 희소 복셀 특징을 추출하고 이러한 특징을 2D 희소 BEV 특징으로 변환하는 데 사용됩니다. 3D 희소 백본 네트워크는 3D-EDB 모듈을 사용하여 장거리 기능 간의 정보 상호 작용을 촉진합니다(3D-EDB 모듈은 3D 희소 컨볼루션을 기반으로 구축된 SED 모듈이며 아래의 2D-EDB 모듈도 유사합니다). 2D 희소 백본 네트워크는 3D 희소 백본 네트워크에서 출력된 희소 BEV 특징을 입력으로 받습니다. 먼저 각 복셀을 분류하여 각 복셀의 기하학적 중심이 특정 카테고리의 객체 경계 상자에 속하는지 여부를 결정합니다. 그런 다음 AFD 연산과 2D-EDB 모듈을 통해 희소한 특징을 물체의 중앙 영역으로 확산시킵니다. 이 부분이 SAFDNet의 핵심 구성요소입니다. 희소 검출 헤드는 2D 희소 백본 네트워크에서 출력된 희소 BEV 특성을 기반으로 예측을 수행합니다. SAFDNet은 CenterPoint에서 제안한 감지 헤드 디자인을 채택했으며, 희소 기능에 맞게 일부 조정을 수행했습니다. 자세한 내용은 문서를 참조하세요.
그림 6 SAFDNet 전체 프레임워크
LiDAR에서 생성된 포인트 클라우드는 주로 물체의 표면에 분포하기 때문에 순수 희소 검출기를 사용하여 예측을 위한 특징을 추출하면 객체 중심 특징이 누락되는 문제에 직면하게 됩니다. 그렇다면 검출기는 특징 희소성을 최대한 유지하면서 물체의 중심에 더 가깝거나 중심에 위치한 특징을 추출할 수 있습니까? 직관적인 아이디어는 희소한 특징을 인접한 복셀로 확산시키는 것입니다. 그림 6(a)는 희소 특징 맵의 예를 보여줍니다. 그림의 빨간색 점은 객체의 중심을 나타냅니다. 어두운 주황색 사각형은 기하학적 중심이 경계 상자 내에 있는 비어 있지 않은 복셀을 나타냅니다. 진한 파란색 사각형은 기하학적 중심이 개체의 경계 상자 외부에 있는 비어 있지 않은 복셀이고 흰색 사각형은 빈 복셀입니다. 비어 있지 않은 각 복셀은 비어 있지 않은 특징에 해당합니다. 그림 7(b)는 그림 7(a)의 비어 있지 않은 특징을 KxK(K는 5) 부근으로 균일하게 확산시켜 얻은 것입니다. 확산된 비어 있지 않은 복셀은 연한 주황색 또는 연한 파란색으로 표시됩니다.
그림 7 균일 특징 확산과 적응형 특징 확산의 도식 다이어그램
3D 희소 백본 네트워크에서 출력된 희소 특징 맵을 분석하여 다음을 관찰합니다. (a) 복셀의 10% 미만이 경계 상자 내에 속합니다. (b) 작은 물체는 일반적으로 중앙 복셀 근처나 그 위에 null이 아닌 특징을 가지고 있습니다. 이러한 관찰은 null이 아닌 모든 특징을 동일한 크기의 도메인으로 분산시키는 것이 불필요할 수 있음을 시사합니다. 특히 작은 개체 경계 상자 및 배경 영역 내의 복셀의 경우 더욱 그렇습니다. 따라서 우리는 복셀 특징의 위치에 따라 확산 범위를 동적으로 조정하는 적응형 특징 확산 전략을 제안합니다. 그림 7(c)에서 볼 수 있듯이 이 전략은 이러한 특징에 더 큰 확산 범위를 할당하는 동시에 큰 객체의 경계 상자 내에 복셀 특징을 할당함으로써 객체 중심에 더 가까운 큰 객체의 경계 상자 내의 복셀 특징을 가져옵니다. 작은 개체 및 배경 영역에서는 가능한 한 특징 희소성을 유지하기 위해 Voxel 기능에 더 작은 확산 범위가 할당됩니다. 이 전략을 구현하려면 비어 있지 않은 복셀의 기하학적 중심이 특정 객체 범주의 경계 상자 내에 있는지 또는 배경 영역에 속하는지 여부를 결정하는 복셀 분류(Voxel classification)가 필요합니다. 복셀 분류에 대한 자세한 내용은 논문을 참조하세요. 적응형 특징 확산 전략을 사용함으로써 검출기는 특징 희소성을 최대한 유지할 수 있으므로 희소 특징을 효율적으로 계산하는 이점을 얻을 수 있습니다.
SAFDNet의 종합적인 성능을 이전 최상의 방법과 비교했으며 그 결과는 그림 8에 나와 있습니다. 감지 범위가 더 작은 Waymo Open 데이터세트에서 SAFDNet은 이전 최고의 순수 희소 감지기 FSDv2 및 제안된 하이브리드 감지기 HEDNet과 비슷한 감지 정확도를 달성했지만 SAFDNet의 추론 속도는 FSDv2의 2배, HEDNet의 1.2배였습니다. 넓은 검출 범위를 갖는 Argoverse2 데이터 세트에서 SAFDNet은 순수 희소 검출기 FSDv2에 비해 지표 mAP를 2.1% 향상시켰고, 하이브리드 검출기 HEDNet에 비해 추론 속도는 1.3배에 도달했습니다. mAP는 2.6% 증가했고, 추론 속도는 HEDNet보다 2.1배 향상됐다. 또한 탐지 범위가 클 경우 하이브리드 탐지기 HEDNet의 메모리 소비는 순수 희소 탐지기보다 훨씬 더 큽니다. 요약하자면, SAFDNet은 다양한 범위의 탐지 시나리오에 적합하며 뛰어난 성능을 가지고 있습니다.
그림 8 주요 실험 결과
SAFDNet은 순수 희소 포인트 클라우드 검출기 솔루션인데 문제가 있나요? 사실, SAFDNet은 순수한 희소 검출기 아이디어의 중간 산물일 뿐입니다. 저자는 이것이 너무 폭력적이고 간결하고 우아하지 않다고 생각합니다. 후속 작업도 기대해주세요!
HEDNet 및 SAFDNet의 코드는 오픈 소스이며 누구나 사용할 수 있습니다. 링크는 다음과 같습니다: https://github.com/zhanggang001/HEDNet
위 내용은 CVPR\'24 Oral | 순수 희소 포인트 클라우드 탐지기 SAFDNet의 과거와 현재를 살펴보세요!의 상세 내용입니다. 자세한 내용은 PHP 중국어 웹사이트의 기타 관련 기사를 참조하세요!