자율주행 시스템은 다양한 센서(예: 카메라, 라이더, 레이더 등)를 사용하여 주변 환경을 인식하는 첨단 인식, 의사결정 및 제어 기술에 의존합니다. .) 실시간 분석 및 의사결정을 위해 알고리즘과 모델을 활용합니다. 이를 통해 차량은 도로 표지판을 인식하고, 다른 차량을 감지 및 추적하며, 보행자 행동을 예측하는 등 복잡한 교통 환경에 안전하게 작동하고 적응할 수 있게 되므로 현재 널리 주목받고 있으며 미래 교통의 중요한 발전 분야로 간주됩니다. . 하나. 하지만 자율주행을 어렵게 만드는 것은 자동차가 주변에서 일어나는 일을 어떻게 이해할 수 있는지 알아내는 것입니다. 이를 위해서는 위치, 모양, 크기 및 카테고리를 포함하여 주변 환경에서 객체를 정확하게 인식하고 설명할 수 있는 자율 주행 시스템의 3D 객체 감지 알고리즘이 필요합니다. 이러한 포괄적인 환경 인식은 자율 주행 시스템이 운전 환경을 더 잘 이해하고 보다 정확한 결정을 내리는 데 도움이 됩니다.
자율주행 분야의 3D 객체 감지 알고리즘에 대해 견고성을 중심으로 종합적인 평가를 진행했습니다. 평가에서는 세 가지 핵심 요소, 즉 환경 가변성, 센서 소음, 정렬 불량이 확인되었습니다. 이러한 요소는 현실 세계의 변화하는 조건에서 탐지 알고리즘의 성능에 중요합니다.
또한 성능 평가의 세 가지 주요 영역인 정확성, 대기 시간 및 견고성에 대해 알아봅니다.
이 논문은 안전 인식에서 다중 모드 3D 감지 방법의 중요한 이점을 지적합니다. 다양한 센서의 데이터를 융합하여 보다 풍부하고 다양한 인식 기능을 제공하여 자율 주행 시스템의 안전성을 향상시킵니다.
위에서는 자율주행 시스템에 사용되는 3D 객체 감지 데이터 세트를 간략하게 소개하고, 주로 다양한 센서 모드의 장점과 한계, 그리고 공개 데이터 세트의 특성을 평가했습니다. .
먼저 표에는 카메라, 포인트 클라우드, 멀티모달(카메라 및 LiDAR)의 세 가지 유형의 센서가 나와 있습니다. 각 유형에 대해 하드웨어 비용, 장점 및 제한 사항이 나열되어 있습니다. 카메라 데이터의 장점은 풍부한 색상과 질감 정보를 제공한다는 점이지만, 깊이 정보가 부족하고 빛과 날씨 영향에 민감하다는 한계가 있습니다. LiDAR는 정확한 깊이 정보를 제공할 수 있지만 가격이 비싸고 색상 정보가 없습니다.
다음으로 자율 주행에서 3D 객체 감지에 사용할 수 있는 다른 공개 데이터세트가 있습니다. 이러한 데이터 세트에는 KITTI, nuScenes, Waymo 등이 포함됩니다. 이러한 데이터세트의 세부정보는 다음과 같습니다. - KITTI 데이터 세트에는 다양한 유형의 센서를 사용하여 수년간 발표된 데이터가 포함되어 있습니다. 수많은 프레임과 주석은 물론 장면 번호와 카테고리를 포함한 다양한 장면과 낮, 맑음, 밤, 비오는 등 다양한 장면 유형을 제공합니다. - NuScenes 데이터세트도 중요한 데이터세트인데, 여기에는 수년에 걸쳐 발표되는 데이터도 포함되어 있습니다. 이 데이터세트는 다양한 센서를 사용하며 수많은 프레임과 주석을 제공합니다. 다양한 장면 번호와 범주는 물론 다양한 장면 유형을 포함한 다양한 시나리오를 다룹니다. - Waymo 데이터세트는 다년간의 데이터를 보유한 자율주행을 위한 또 다른 데이터세트입니다. 이 데이터 세트는 다양한 유형의 센서를 사용하며 풍부한 수의 프레임과 주석을 제공합니다. 다양한 분야를 다루고 있어요
또한 "깨끗한" 자율 주행 데이터 세트에 대한 연구가 언급되고 시끄러운 시나리오에서 모델 견고성을 평가하는 것의 중요성이 강조됩니다. 일부 연구는 열악한 조건에서 카메라 단일 양식 방법에 중점을 두는 반면, 다른 다중 모드 데이터 세트는 소음 문제에 중점을 둡니다. 예를 들어, GROUNDED 데이터 세트는 다양한 기상 조건에서 지상을 관통하는 레이더 위치 지정에 초점을 맞춘 반면, ApolloScape 공개 데이터 세트에는 다양한 날씨 및 조명 조건을 다루는 LiDAR, 카메라 및 GPS 데이터가 포함되어 있습니다.
실제 세계에서 대규모의 시끄러운 데이터를 수집하는 데는 엄청난 비용이 들기 때문에 많은 연구에서 합성 데이터 세트를 사용합니다. 예를 들어 ImageNet-C는 이미지 분류 모델의 일반적인 섭동을 해결하기 위한 벤치마크 연구입니다. 이 연구 방향은 이후 자율 주행의 3D 물체 감지에 맞춰진 강력한 데이터 세트로 확장되었습니다.
이 부분에서는 단안 3D 객체 감지의 개념과 세 가지 주요 방법을 논의합니다. 3D 객체 감지, 카메라 전용 단안 3D 객체 감지, 깊이 보조 단안 3D 객체 감지.
이 방법은 이미지에 숨겨진 개체 모양 및 장면 기하학에 대한 사전 지식을 활용하여 단안 3D 개체 감지 문제를 해결합니다. 사전 훈련된 하위 네트워크 또는 보조 작업을 도입함으로써 사전 지식은 3D 객체를 정확하게 찾는 데 도움이 되는 추가 정보나 제약 조건을 제공하고 감지의 정확성과 견고성을 향상시킬 수 있습니다. 일반적인 사전 지식에는 물체 모양, 기하학적 일관성, 시간적 제약 및 분할 정보가 포함됩니다. 예를 들어 Mono3D 알고리즘은 먼저 3D 개체가 고정된 지면에 있다고 가정한 다음 개체의 이전 3D 모양을 사용하여 3D 공간에서 경계 상자를 재구성합니다.
이 방법은 단일 카메라로 캡처한 이미지만 사용하여 3D 객체를 감지하고 찾습니다. CNN(컨벌루션 신경망)을 사용하여 이미지에서 3D 경계 상자 매개변수를 직접 회귀하여 3차원 공간에서 객체의 크기와 자세를 추정합니다. 이 직접 회귀 방법은 엔드투엔드 방식으로 훈련될 수 있어 3D 객체의 전반적인 학습과 추론을 촉진합니다. 예를 들어 Smoke 알고리즘은 2D 경계 상자의 회귀를 포기하고 개별 키포인트 추정과 3D 변수의 회귀를 결합하여 감지된 각 객체의 3D 상자를 예측합니다.
깊이 추정은 깊이 보조 단안 3D 물체 감지에서 중요한 역할을 합니다. 보다 정확한 단안 감지 결과를 얻기 위해 많은 연구에서 사전 훈련된 보조 깊이 추정 네트워크를 활용합니다. 이 프로세스는 MonoDepth와 같은 사전 학습된 깊이 추정기를 사용하여 단안 이미지를 깊이 이미지로 변환하는 것부터 시작됩니다. 그런 다음 깊이 이미지와 단안 이미지를 처리하기 위해 두 가지 주요 방법이 채택됩니다. 예를 들어, Pseudo-LiDAR 검출기는 사전 훈련된 깊이 추정 네트워크를 사용하여 Pseudo-LiDAR 표현을 생성하지만, Pseudo-LiDAR 기반 검출기와 이미지-LiDAR 생성 오류로 인해 성능 차이가 큽니다.
이러한 방법의 탐구와 적용을 통해 단안 3D 물체 감지는 컴퓨터 비전 및 지능형 시스템 분야에서 상당한 발전을 이루었으며 이러한 분야에 획기적인 발전과 기회를 가져왔습니다.
이 부분에서는 스테레오 비전 기반의 3D 객체 감지 기술에 대해 논의합니다. 스테레오 비전 3D 개체 감지는 한 쌍의 입체 이미지를 활용하여 3D 개체를 식별하고 찾습니다. 스테레오 카메라로 캡처한 듀얼 뷰를 활용함으로써 이러한 방법은 단안 카메라 설정과 차별화되는 특징인 스테레오 매칭 및 보정을 통해 고정밀 깊이 정보를 얻는 데 탁월합니다. 이러한 장점에도 불구하고 스테레오 비전 방법은 LiDAR 기반 방법에 비해 여전히 상당한 성능 격차를 겪고 있습니다. 더욱이, 스테레오 이미지에서 3D 객체 감지 영역은 상대적으로 거의 연구되지 않았으며 이 영역에 대한 연구 노력도 제한적입니다.
최근 다중 뷰 3D 객체 감지는 앞서 언급한 단안 및 스테레오 비전 3D 객체 감지 방법에 비해 정확성과 견고성에서 우월함을 보여주었습니다. LiDAR 기반 3D 객체 감지와 달리 최신 파노라마 조감도(BEV) 방식을 사용하면 고정밀 지도가 필요 없으며 감지가 2D에서 3D로 향상됩니다. 이러한 발전으로 인해 다중 뷰 3D 객체 감지 분야가 크게 발전했습니다. 다중 카메라 3D 객체 감지에서 핵심 과제는 다양한 이미지에서 동일한 객체를 식별하고 여러 시야각 입력에서 신체 특징을 집계하는 것입니다. 현재 방법에는 여러 뷰를 BEV(Bird's Eye View) 공간에 균일하게 매핑하는 작업이 포함되며 이는 일반적인 관행입니다.
2D에서 BEV 공간으로 직접 변환하는 것은 중요한 과제입니다. LSS는 3차원 공간을 매개체로 활용하는 깊이 기반 방식을 최초로 제안한 것이다. 이 방법은 먼저 2D 특징의 그리드 깊이 분포를 예측한 다음 이러한 특징을 복셀 공간으로 들어 올립니다. 이러한 접근 방식은 2D에서 BEV 공간으로 보다 효율적으로 전환할 수 있다는 희망을 제공합니다. LSS에 이어 CaDDN도 유사한 심층 표현 방법을 채택합니다. 복셀 공간 특징을 BEV 공간으로 압축하여 최종 3D 감지를 수행합니다. CaDDN이 다중 뷰 3D 객체 감지의 일부가 아니라 단일 뷰 3D 객체 감지에 포함된다는 점은 후속 심층 연구에 영향을 미쳤다는 점에 주목할 가치가 있습니다. LSS와 CaDDN의 주요 차이점은 CaDDN이 실제 실측 깊이 값을 사용하여 분류 깊이 분포 예측을 감독함으로써 2D 공간에서 3D 정보를 보다 정확하게 추출할 수 있는 우수한 심층 네트워크를 생성한다는 것입니다.
Transformer 기술의 영향을 받아 쿼리 기반 다중 뷰 방법은 3D 공간에서 2D 공간 특징을 검색합니다. DETR3D는 다중 뷰 기능의 집계 문제를 해결하기 위해 3D 객체 쿼리를 도입합니다. 다양한 시점에서 이미지 특징을 잘라내고 학습된 3D 참조점을 사용하여 2D 공간에 투영하여 BEV(조감도) 공간에서 이미지 특징을 얻습니다. 질의 기반 다시점 방식은 깊이 기반 다시점 방식과 달리 역질의 기술을 이용하여 희소한 BEV 특징을 획득하는데, 이는 후속 질의 기반 개발에 근본적으로 영향을 미친다. 그러나 명시적인 3D 참조점과 관련된 잠재적인 부정확성으로 인해 PETR은 BEV 공간을 구성하기 위해 암시적 위치 인코딩 방법을 채택했으며 이는 후속 작업에 영향을 미쳤습니다.
현재 BEV(조감도) 인식을 기반으로 하는 3D 객체 감지 솔루션이 빠르게 발전하고 있습니다. 많은 리뷰 논문이 있음에도 불구하고 이 분야에 대한 포괄적인 리뷰는 아직 부족합니다. Shanghai AI Lab과 SenseTime Research Institute는 BEV 솔루션의 기술 로드맵에 대한 심층적인 검토를 제공합니다. 하지만 기존 검토와 달리 자율주행 안전성 인식 등 핵심적인 측면을 고려한다. 카메라 기반 솔루션의 기술 로드맵과 개발현황을 분석한 후 '정확성, 지연성, 견고성'이라는 기본 원칙을 바탕으로 논의하고자 합니다. 자율주행에 있어서 안전의식의 실질적인 구현을 안내하기 위해 안전의식의 관점을 통합할 것입니다.
복셀 기반 3D 객체 감지 방법은 희소 포인트 클라우드를 규칙적인 복셀로 분할하고 분포하여 조밀한 데이터 표현을 형성하는 것을 제안합니다. 뷰 기반 방법과 비교하여 복셀 기반 방법은 공간 컨볼루션을 사용하여 3차원 공간 정보를 효과적으로 인식하고 더 높은 감지 정확도를 달성하며 이는 자율 주행의 안전 인식에 중요합니다. 그러나 이러한 방법은 여전히 다음과 같은 과제에 직면해 있습니다.
이러한 과제를 극복하려면 데이터 표현의 한계를 해결하고, 네트워크 기능과 대상 위치 정확도를 향상하고, 복잡한 장면에 대한 알고리즘의 이해를 강화해야 합니다. 최적화 전략은 다양하지만 일반적으로 데이터 표현과 모델 구조를 모두 최적화하는 것을 목표로 합니다.
PC의 딥 러닝 발전 덕분에 포인트 기반 3D 객체 감지는 많은 프레임워크를 상속하고 3D 객체 감지 전처리 없이 원래 지점에서 직접 시작할 것을 제안합니다. 복셀 기반 방법과 비교하여 원본 포인트 클라우드는 원본 정보를 최대한 유지하므로 세밀한 특징 획득에 유리하고 정확도가 높습니다. 동시에 PointNet에 대한 일련의 작업은 자연스럽게 포인트 기반 방법에 대한 강력한 기반을 제공합니다. 포인트 기반 3D 개체 감지기에는 포인트 클라우드 샘플링과 기능 학습이라는 두 가지 기본 구성 요소가 있습니다. 현재 포인트 기반 방법의 성능은 기능 학습에 채택된 컨텍스트 포인트 수와 컨텍스트 반경이라는 두 가지 요소의 영향을 받습니다. . 예를 들어 컨텍스트 포인트 수를 늘리면 더 자세한 3D 정보를 얻을 수 있지만 모델의 추론 시간이 크게 늘어납니다. 마찬가지로 컨텍스트 반경을 줄이면 동일한 효과를 얻을 수 있습니다. 따라서 이 두 요소에 대해 적절한 값을 선택하면 모델이 정확도와 속도 사이의 균형을 이룰 수 있습니다. 또한, 포인트 클라우드의 각 포인트를 계산해야 하기 때문에 포인트 클라우드 샘플링 과정은 포인트 기반 방법의 실시간 운영을 제한하는 주요 요소입니다. 구체적으로 위의 문제를 해결하기 위해 대부분의 기존 방법은 포인트 기반 3D 객체 감지기의 두 가지 기본 구성 요소인 1) 포인트 샘플링 2) 특징 학습
을 중심으로 최적화되었습니다. 포인트 기반 3D 객체 감지 방법은 많은 딥러닝 프레임워크를 상속하고 전처리 없이 원시 포인트 클라우드에서 직접 3D 객체를 감지하는 것을 제안합니다. 복셀 기반 방법에 비해 원본 포인트 클라우드는 원본 정보를 최대한 유지하므로 세밀한 특징 획득에 도움이 되어 높은 정확도를 달성합니다. 동시에 PointNet 작업 시리즈는 포인트 기반 방법에 대한 강력한 기반을 제공합니다. 그러나 지금까지 포인트 기반 방법의 성능은 기능 학습에 사용되는 컨텍스트 포인트 수와 컨텍스트 반경이라는 두 가지 요소의 영향을 받습니다. 예를 들어 컨텍스트 포인트 수를 늘리면 보다 자세한 3D 정보를 얻을 수 있지만 모델의 추론 시간이 크게 늘어납니다. 마찬가지로 컨텍스트 반경을 줄이면 동일한 효과를 얻을 수 있습니다. 따라서 이 두 가지 요소에 대해 적절한 값을 선택하면 모델이 정확도와 속도 사이의 균형을 이룰 수 있습니다. 또한, 포인트 클라우드 샘플링 프로세스는 포인트 클라우드의 각 포인트에 대해 계산을 수행해야 하기 때문에 포인트 기반 방법의 실시간 작동을 제한하는 주요 요인입니다. 이러한 문제를 해결하기 위해 기존 방법은 주로 포인트 기반 3D 물체 감지기의 두 가지 기본 구성 요소인 1) 포인트 클라우드 샘플링, 2) 특징 학습을 중심으로 최적화됩니다.
Farth Point Sampling(FPS)은 PointNet++에서 파생되었으며 포인트 기반 방법에서 널리 사용되는 포인트 클라우드 샘플링 방법입니다. 그 목표는 원본 포인트 클라우드에서 대표 포인트 세트를 선택하여 전체 포인트 클라우드의 공간 분포를 가장 잘 포괄할 수 있도록 이들 사이의 거리를 최대화하는 것입니다. PointRCNN은 PointNet++를 백본 네트워크로 사용하는 포인트 기반 방법의 획기적인 2단계 탐지기입니다. 첫 번째 단계에서는 포인트 클라우드로부터 상향식 방식으로 3D 제안을 생성합니다. 두 번째 단계에서는 의미론적 특징과 지역적 공간적 특징을 결합하여 제안을 개선합니다. 그러나 기존 FPS 기반 방법은 여전히 몇 가지 문제에 직면해 있습니다. 1) 감지와 관련 없는 포인트도 샘플링 프로세스에 참여하여 추가적인 계산 부담을 가져옵니다. 2) 포인트가 객체의 여러 부분에 고르지 않게 분포되어 차선의 샘플링 전략이 발생합니다. 이러한 문제를 해결하기 위해 후속 작업에서는 FPS와 유사한 설계 패러다임을 채택하고 분할에 따른 배경 포인트 필터링, 무작위 샘플링, 특징 공간 샘플링, 복셀 기반 샘플링, 광선 그룹화 기반 샘플링과 같은 개선을 수행했습니다.
포인트 기반 3D 객체 감지 방법의 특징 학습 단계는 희박한 포인트 클라우드 데이터에서 차별적인 특징 표현을 추출하는 것을 목표로 합니다. 특징 학습 단계에서 사용되는 신경망은 다음과 같은 특성을 가져야 합니다. 1) 불변성, 포인트 클라우드 백본 네트워크는 입력 포인트 클라우드의 순서에 민감하지 않아야 합니다. 2) 로컬 인식 기능을 갖고 로컬 영역을 감지하고 모델링할 수 있습니다. 3) 컨텍스트 정보를 통합하고 글로벌 및 로컬 컨텍스트 정보에서 기능을 추출하는 기능. 위의 특성을 기반으로 원시 포인트 클라우드를 처리하기 위해 많은 수의 감지기가 설계되었습니다. 대부분의 방법은 사용되는 핵심 연산자에 따라 나눌 수 있습니다: 1) PointNet 기반 방법, 2) 그래프 신경망 기반 방법, 3) Transformer 기반 방법.
PointNet 기반 방법은 원래 점의 대칭 불변성을 유지하면서 원래 점을 다운샘플링하고, 지역 정보를 집계하고, 상황에 맞는 정보를 통합하기 위해 주로 집합 추상화에 의존합니다. Point-RCNN은 포인트 기반 방법 중 최초의 2단계 작업으로 우수한 성능을 달성하지만 여전히 높은 계산 비용 문제에 직면해 있습니다. 후속 작업에서는 감지 프로세스에 추가 의미론적 분할 작업을 도입하여 감지에 최소한으로 기여하는 배경 지점을 필터링함으로써 이 문제를 해결했습니다.
GNN(그래프 신경망)은 적응형 구조, 동적 이웃, 로컬 및 전역 컨텍스트 관계 구축 기능, 불규칙 샘플링에 대한 견고성을 갖추고 있습니다. Point-GNN은 자동 등록 메커니즘, 병합 및 채점 작업을 통해 객체의 범주와 모양을 예측하기 위해 단일 단계 그래프 신경망을 설계하는 선구적인 작업으로 그래프 신경망을 3D 객체 감지를 위한 새로운 방법으로 사용하는 방법을 보여줍니다. 잠재적인.
최근에는 Transformers(Transformers)가 포인트 클라우드 분석에서 탐색되었으며 많은 작업에서 좋은 성능을 보였습니다. 예를 들어 Pointformer는 3D 포인트 클라우드를 처리하기 위해 로컬 및 글로벌 주의 모듈을 도입하고, 로컬 Transformer 모듈은 로컬 영역의 포인트 간의 상호 작용을 모델링하는 데 사용되며, 글로벌 Transformer는 장면 수준의 상황 인식 표현을 학습하는 것을 목표로 합니다. Group-free는 포인트 클라우드의 모든 포인트를 직접 활용하여 각 객체 후보의 특징을 계산하며, 각 포인트의 기여도는 자동으로 학습된 Attention 모듈에 의해 결정됩니다. 이러한 방법은 구조화되지 않고 정렬되지 않은 원시 포인트 클라우드를 처리하는 Transformer 기반 방법의 잠재력을 보여줍니다.
포인트 클라우드 기반 3D 객체 감지 방법은 고해상도를 제공하고 원본 데이터의 공간 구조를 보존하지만, 희소 데이터를 처리할 때 계산 복잡도가 높고 효율성이 낮다는 문제에 직면합니다. 대조적으로, 복셀 기반 방법은 구조화된 데이터 표현을 제공하고, 계산 효율성을 향상시키며, 전통적인 컨볼루션 신경망 기술의 적용을 용이하게 합니다. 그러나 이산화 과정으로 인해 미세한 공간 세부 정보가 손실되는 경우가 많습니다. 이러한 문제를 해결하기 위해 PV(Point-Voxel) 기반 방법이 개발되었습니다. 포인트-복셀 방법은 포인트 기반 방법의 세밀한 정보 캡처 기능과 복셀 기반 방법의 계산 효율성을 활용하는 것을 목표로 합니다. 이러한 방법을 통합함으로써 포인트-복셀 기반 방법은 포인트 클라우드 데이터를 더 자세히 처리하고 전체 구조와 미세 기하학적 세부 사항을 캡처할 수 있습니다. 자율주행 시스템의 의사결정 정확도는 고정밀 감지 결과에 좌우되기 때문에 이는 자율주행의 안전 인식에 매우 중요합니다.
점-복셀 방법의 주요 목표는 점-복셀 또는 복셀-점 변환을 통해 복셀과 점 간의 특징 상호 작용을 달성하는 것입니다. 많은 연구에서 백본 네트워크에서 포인트-복셀 기능 융합을 활용하는 아이디어를 탐구했습니다. 이러한 방법은 1) 초기 융합 2) 후기 융합의 두 가지 범주로 나눌 수 있습니다.
a) 초기 융합: 일부 방법에서는 복셀과 점 특징을 융합하기 위해 새로운 컨볼루션 연산자를 사용하는 방법을 모색했으며 PVCNN은 이 방향의 첫 번째 작업일 수 있습니다. 이 접근 방식에서 복셀 기반 분기는 먼저 점을 저해상도 복셀 그리드로 변환하고 컨볼루션을 통해 인접한 복셀 특징을 집계합니다. 그런 다음 복셀화라는 프로세스를 통해 복셀 수준 기능이 다시 포인트 수준 기능으로 변환되고 포인트 기반 분기에서 얻은 기능과 융합됩니다. 포인트 기반 브랜치는 개별 포인트별로 특징을 추출합니다. 이웃 정보를 집계하지 않으므로 이 방법은 더 빠른 속도로 실행될 수 있습니다. 이후 SPVCNN은 PVCNN 기반의 객체 탐지 분야로 확장됐다. 다른 방법은 보조 작업이나 다중 규모 기능 융합과 같은 다양한 관점에서 개선을 시도합니다.
b) Post-fusion: 이 일련의 방법은 주로 2단계 감지 프레임워크를 사용합니다. 첫째, 복셀 기반 접근 방식을 사용하여 예비 객체 제안이 생성됩니다. 그런 다음 포인트 수준의 특징을 사용하여 감지 프레임을 정확하게 분할합니다. Shi et al.이 제안한 PV-RCNN은 포인트 복셀 기반 방법의 이정표입니다. SECOND를 1단계 검출기로 사용하고 핵심 특징의 융합을 위해 RoI 그리드 풀링을 갖춘 2단계 개선 단계를 제안합니다. 후속 작업은 주로 위의 패러다임을 따르며 두 번째 단계 감지의 진행에 중점을 둡니다. 주목할만한 개발에는 주의 메커니즘, 규모 인식 풀링, 포인트 밀도 인식 개선 모듈이 포함됩니다.
포인트 복셀 기반 방법은 복셀 기반 방법의 계산 효율성과 세밀한 정보를 캡처하는 포인트 기반 방법의 기능을 모두 갖추고 있습니다. 그러나 점-복셀 또는 복셀-점 관계를 구성하고 복셀과 점의 기능 융합을 수행하면 추가적인 계산 오버헤드가 발생합니다. 따라서 포인트 복셀 기반 방법은 복셀 기반 방법에 비해 더 나은 탐지 정확도를 얻을 수 있지만 추론 시간이 길어집니다.
4. 멀티모달 3D 객체 감지비투영 기반 3D 객체 감지 방법은 특징 정렬에 의존하지 않고 융합을 달성하여 강력한 특징 표현을 생성합니다. 이는 종종 카메라 기능의 의미 밀도를 감소시키고 Focals Conv 및 PointPainting과 같은 기술의 효율성에 영향을 미치는 카메라-라이다 투영의 한계를 우회합니다. 비투영 방법은 일반적으로 교차 주의 메커니즘을 채택하거나 통합 공간을 구성하여 직접 특징 투영에 내재된 정렬 문제를 해결합니다. 이러한 방법은 크게 (1) 쿼리 학습 기반 방법과 (2) 통합 기능 기반 방법의 두 가지 범주로 나뉩니다. 쿼리 학습 기반 방법은 융합 프로세스 중에 정렬이 필요하지 않습니다. 대조적으로, 통합된 특징 기반 방법은 통합된 특징 공간을 구성하지만 투영을 완전히 피하지는 않습니다. 이는 일반적으로 단일 양식 컨텍스트에서 발생합니다. 예를 들어, BEVFusion은 카메라-BEV 투영을 위해 LSS를 활용합니다. 이 프로세스는 융합 전에 발생하며 기능이 잘못 정렬된 시나리오에서 상당한 견고성을 보여줍니다.
VirConv, MSMDFusion 및 SFD는 의사 포인트 클라우드를 통해 통합된 공간을 구축하고 특징 학습 전에 투영이 발생합니다. 직접 투영으로 인해 발생하는 문제는 후속 특성 학습을 통해 해결됩니다. 요약하면, 통합 기능 기반 3D 개체 감지 방법은 현재 매우 정확하고 강력한 솔루션을 나타냅니다. 투영 행렬이 포함되어 있지만 이 투영은 다중 모드 융합 간에 발생하지 않으므로 비투영 3D 객체 감지 방법으로 간주됩니다. 자동 투영 3D 객체 감지 방법과 달리 투영 오류 문제를 직접 해결하지는 않지만 통합 공간을 구성하고 다중 모드 3D 객체 감지의 다차원을 고려하여 매우 강력한 다중 모드 기능을 얻습니다.
3D 객체 감지는 자율주행 인식에 중요한 역할을 합니다. 최근 몇 년 동안 이 분야는 빠르게 발전하여 수많은 연구 논문을 발표했습니다. 센서에서 생성되는 다양한 데이터 형태에 따라 이러한 방법은 크게 이미지 기반, 포인트 클라우드 기반, 멀티모달의 세 가지 유형으로 구분됩니다. 이러한 방법의 주요 평가 지표는 높은 정확도와 낮은 대기 시간입니다. 많은 리뷰에서는 주로 '높은 정확성과 낮은 대기 시간'이라는 핵심 원칙에 초점을 맞춰 이러한 접근 방식을 요약하고 기술적인 궤적을 설명합니다.
그러나 자율주행 기술이 혁신에서 실용화로 나아가는 과정에서 기존의 검토들은 안전 인식을 핵심 초점으로 삼지 않고 있으며 안전 인식과 관련된 현재의 기술 경로를 다루지 못하고 있습니다. 예를 들어, 최근의 다중 모드 융합 방법은 종종 실험 단계에서 견고성에 대해 테스트되는데, 이는 현재 검토에서 완전히 고려되지 않은 측면입니다.
따라서 '정확도, 지연 시간 및 견고성'을 핵심 측면으로 초점을 맞춰 3D 객체 감지 알고리즘을 다시 검토하세요. 안전 인식 관점에서 재분류에 특히 중점을 두고 이전 검토를 재분류합니다. 이 연구가 단순히 높은 정확도의 한계를 탐색하는 것을 넘어 3D 객체 감지에 대한 향후 연구에 새로운 통찰력을 제공할 수 있기를 바랍니다.
위 내용은 카메라 또는 LiDAR를 선택하시겠습니까? 강력한 3D 객체 감지 달성에 대한 최근 검토의 상세 내용입니다. 자세한 내용은 PHP 중국어 웹사이트의 기타 관련 기사를 참조하세요!