>  기사  >  기술 주변기기  >  OCC와 자율주행의 과거와 현재를 살펴보세요! 첫 번째 검토에서는 기능 강화/양산 배포/효율적인 주석이라는 세 가지 주요 주제를 종합적으로 요약했습니다.

OCC와 자율주행의 과거와 현재를 살펴보세요! 첫 번째 검토에서는 기능 강화/양산 배포/효율적인 주석이라는 세 가지 주요 주제를 종합적으로 요약했습니다.

王林
王林앞으로
2024-05-08 11:40:01470검색

앞서 작성 및 저자의 개인적 이해

최근 자율주행은 운전자의 부담을 줄이고 운전 안전성을 향상시킬 수 있는 잠재력으로 인해 점점 더 주목받고 있습니다. 비전 기반 3차원 점유 예측은 자율 주행 안전에 대한 비용 효율적이고 포괄적인 조사에 적합한 새로운 인식 작업입니다. 많은 연구에서 객체 중심 인식 작업에 비해 3D 점유 예측 도구의 우수성을 입증했지만, 빠르게 발전하는 이 분야에 대한 리뷰는 여전히 남아 있습니다. 본 논문에서는 먼저 비전 기반 3D 점유 예측의 배경을 소개하고 이 작업에서 직면하는 과제에 대해 논의합니다. 다음으로, 기능 향상, 배포 친화성, 라벨링 효율성이라는 세 가지 측면에서 현재 3D 점유 예측 방법의 현황과 개발 동향을 종합적으로 논의합니다. 마지막으로 현재의 연구 동향을 요약하고 몇 가지 고무적인 미래 전망을 제시합니다.

오픈 소스 링크: https://github.com/zya3d/Awesome-3D-Occupancy-Prediction

요약하면 이 논문의 주요 기여는 다음과 같습니다.

  • 우리가 아는 한, 이 논문은 자율주행을 위한 비전 기반 3차원 탑승 예측 방법에 대한 종합적인 검토.
  • 이 글에서는 기능 향상, 계산 친화성, 라벨 효율성이라는 세 가지 관점에서 비전 기반 3차원 점유 예측 방법의 구조적 요약을 제공하고 다양한 범주의 방법에 대한 심층 분석 및 비교를 수행합니다.
  • 이 문서는 비전 기반 3D 점유 예측에 대한 고무적인 미래 전망을 제시하고 관련 문서, 데이터 세트 및 코드를 수집하기 위해 정기적으로 업데이트되는 Github 저장소를 제공합니다.

그림 3은 비전 기반 3D 점유 예측 방법의 시간적 개요를 보여주고, 그림 4는 해당 계층 구조 분류를 보여줍니다.

OCC와 자율주행의 과거와 현재를 살펴보세요! 첫 번째 검토에서는 기능 강화/양산 배포/효율적인 주석이라는 세 가지 주요 주제를 종합적으로 요약했습니다.

OCC와 자율주행의 과거와 현재를 살펴보세요! 첫 번째 검토에서는 기능 강화/양산 배포/효율적인 주석이라는 세 가지 주요 주제를 종합적으로 요약했습니다.

관련 배경

진정한 가치 생성

GT 라벨 생성은 3D 점유 예측을 위한 도전입니다. NuScenes 및 Waymo와 같은 많은 3D 인식 데이터 세트가 LiDAR 포인트 클라우드 분할 레이블을 제공하지만 이러한 레이블은 희박하고 조밀한 3D 점유 예측 작업을 감독하기 어렵습니다. GT 라벨로 밀집된 점유를 사용하는 것의 중요성은 Wei et al.에 의해 입증되었습니다. 최근의 일부 연구에서는 희소 LiDAR 포인트 클라우드 분할 주석을 사용하여 밀도가 높은 점유 라벨을 생성하는 데 중점을 두고 있으며 3D 점유 예측 작업에 유용한 데이터 세트 및 벤치마크를 제공합니다.

OCC와 자율주행의 과거와 현재를 살펴보세요! 첫 번째 검토에서는 기능 강화/양산 배포/효율적인 주석이라는 세 가지 주요 주제를 종합적으로 요약했습니다.

3D 점유 예측 작업의 GT 라벨은 3D 공간의 각 요소가 점유되었는지 여부와 점유된 요소의 의미 라벨을 나타냅니다. 3차원 공간에는 요소 수가 많기 때문에 각 요소에 수동으로 레이블을 지정하기가 어렵습니다. 일반적인 접근 방식은 기존 3D 포인트 클라우드 분할 작업의 Ground Truth를 복셀화한 다음 복셀 중간점의 의미 라벨을 기반으로 한 투표를 통해 3D 점유 예측을 위한 GT를 생성하는 것입니다. 그러나 이렇게 생성된 Ground Truth는 실제로 단순화되었습니다. 그림 1에서 볼 수 있듯이, 점유로 표시되지 않은 도로 등의 장소에는 여전히 점유된 요소가 많이 있습니다. 이렇게 단순화된 지형 현실을 갖춘 모델을 갖춘 감독 도구는 모델 성능을 저하시킵니다. 따라서 일부에서는 고품질의 조밀한 3D 점유 주석을 자동 또는 반자동으로 생성하는 방법을 연구합니다.

OCC와 자율주행의 과거와 현재를 살펴보세요! 첫 번째 검토에서는 기능 강화/양산 배포/효율적인 주석이라는 세 가지 주요 주제를 종합적으로 요약했습니다.

그림 2에 표시된 것처럼 조밀한 3D 점유 주석 생성에는 일반적으로 다음 4단계가 포함됩니다.

  • 연속 원시 LiDAR 프레임을 가져와 LiDAR 지점을 정적 배경과 동적 전경으로 분할합니다.
  • 정적인 배경에 연속 라이더 프레임을 중첩하고 위치 정보를 기반으로 동작 보상을 수행하여 다중 프레임 포인트 클라우드를 정렬하여 더 조밀한 포인트 클라우드를 얻습니다. 동적 전경에 연속적인 LiDAR 프레임이 겹쳐지고, 동적 전경의 포인트 클라우드가 타겟 프레임과 타겟 ID에 따라 정렬되어 밀도가 높아집니다. 포인트 클라우드는 상대적으로 밀도가 높지만 복셀화 후에도 추가 처리가 필요한 약간의 간격이 있습니다.
  • 전경 및 배경 포인트 클라우드를 병합한 다음 이를 복셀화하고 투표 메커니즘을 사용하여 복셀의 의미를 결정함으로써 비교적 조밀한 복셀 주석이 생성됩니다.
  • 이전 단계에서 얻은 복셀은 후처리를 통해 정제되어 GT로서 더 조밀하고 미세한 주석을 얻습니다.

Datasets

이 섹션에서는 3D 점유율 예측에 일반적으로 사용되는 일부 오픈 소스 대규모 데이터 세트를 소개하고 이들 간의 비교를 표 1에 제공합니다.

OCC와 자율주행의 과거와 현재를 살펴보세요! 첫 번째 검토에서는 기능 강화/양산 배포/효율적인 주석이라는 세 가지 주요 주제를 종합적으로 요약했습니다.

NUYv2 데이터 세트는 Microsoft Kinect의 RGB 및 Depth 카메라로 캡처한 다양한 실내 장면의 비디오 시퀀스로 구성됩니다. 여기에는 조밀하게 레이블이 지정된 정렬된 RGB 및 깊이 이미지 1449쌍과 3개 도시의 레이블이 없는 407024개의 프레임이 포함되어 있습니다. 주로 실내 사용을 위한 것이며 자율 주행 시나리오에는 적합하지 않지만 일부 연구에서는 이 데이터 세트를 3D 점유 예측에 사용했습니다.

SemanticKITTI는 KITTI 데이터세트의 22개 시퀀스와 43000개 이상의 프레임을 포함하여 3D 점유 예측에 널리 사용되는 데이터세트입니다. 미래 프레임을 오버레이하고, 복셀을 분할하고, 포인트 투표를 통해 라벨을 할당하여 조밀한 3D 점유 주석을 생성합니다. 또한 광선을 추적하여 센서에 보이는 복셀이 있는 자동차의 각 자세를 검사하고 훈련 및 평가 중에 보이지 않는 복셀을 무시합니다. 그러나 KITTI 데이터 세트를 기반으로 하기 때문에 전면 카메라의 이미지만 입력으로 사용하는 반면 후속 데이터 세트는 일반적으로 멀티뷰 이미지를 사용합니다. Table 2와 같이 SemanticKITTI 데이터셋을 대상으로 기존 방법의 평가 결과를 수집하였다.

NuScenes 점유는 실외 환경의 대규모 자율주행 데이터 세트인 NuScenes를 기반으로 한 3D 점유 예측 데이터 세트입니다. 이는 850개의 시퀀스, 200,000개의 프레임 및 17개의 의미 범주를 포함합니다. 데이터 세트는 처음에 AAP(Augmentation and Purification) 파이프라인을 사용하여 대략적인 3D 점유 라벨을 생성한 다음 수동 확대를 사용하여 라벨을 세분화합니다. 또한 고급 3D 점유 예측 방법을 평가하기 위해 주변 의미 점유 인식에 대한 최초의 벤치마크인 OpenOccupancy를 도입합니다.

이후 Tian et al.은 nuScenes 및 Waymo 자율 주행 데이터 세트를 기반으로 3D 점유 예측을 위한 Occ3D nuScenes 및 Occ3D Waymo 데이터 세트를 추가로 구축했습니다. 그들은 기존의 레이블이 지정된 3D 인식 데이터 세트를 활용하고 가시성을 기반으로 복셀 유형을 식별하는 반자동 레이블 생성 파이프라인을 도입합니다. 또한 다양한 방법의 평가 및 비교를 향상시키기 위해 대규모 3D 점유 예측을 위한 Occ3d 벤치마크를 구축했습니다. Table 2와 같이 Occ3D nuScenes 데이터세트에 대한 기존 방법의 평가 결과를 수집하였다.

OCC와 자율주행의 과거와 현재를 살펴보세요! 첫 번째 검토에서는 기능 강화/양산 배포/효율적인 주석이라는 세 가지 주요 주제를 종합적으로 요약했습니다.

또한 Occ3D 누드 및 누드 점유와 유사하게 OpenOcc도 누드 데이터 세트를 기반으로 하는 3D 점유 예측을 위해 구축된 데이터 세트입니다. 여기에는 850개의 시퀀스, 34149개의 프레임 및 16개의 클래스가 포함되어 있습니다. 이 데이터 세트는 모션 계획과 같은 다운스트림 작업에 도움이 되는 8개의 전경 개체에 대한 추가 주석을 제공합니다.

주요 과제

비전 기반 3D 점유 예측은 최근 몇 년간 상당한 발전을 이루었지만 여전히 특징 표현, 실제 적용 및 주석 비용 측면에서 한계에 직면해 있습니다. 이 작업에는 세 가지 주요 과제가 있습니다. (1) 2D 시각적 입력에서 완벽한 3D 기능을 얻는 것은 어렵습니다. 비전 기반 3D 점유 예측의 목표는 이미지 입력만으로 3D 장면을 자세히 인식하고 이해하는 것입니다. 그러나 이미지에 내재된 깊이와 기하학적 정보가 부족하여 3D 특징 표현을 직접 학습하는 데 큰 어려움이 있습니다. (2) 3차원 공간에서의 계산 부하가 크다. 3D 점유 예측은 일반적으로 환경 공간을 표현하기 위해 3D 복셀 기능을 사용해야 하며, 이는 필연적으로 기능 추출을 위한 3D 컨볼루션과 같은 작업을 포함하므로 계산 및 메모리 오버헤드가 크게 증가하고 실제 배포를 방해합니다. (3) 값비싼 세밀한 주석. 3D 점유 예측에는 고해상도 복셀의 점유 상태 및 의미 범주를 예측하는 작업이 포함되지만 이를 달성하려면 각 복셀에 대한 세밀한 의미론적 주석이 필요한 경우가 많으며 이는 시간과 비용이 많이 들고 이 작업에 병목 현상이 발생합니다.

이러한 주요 과제에 대응하여 자율 주행을 위한 비전 기반 3차원 점유 예측에 대한 연구 작업은 점차 기능 향상, 배포 친화성 및 라벨링 효율성의 세 가지 주요 라인을 형성했습니다. 특징 강화 방법은 네트워크의 특징 표현 기능을 최적화하여 3D 공간 출력과 2D 공간 입력 간의 차이를 완화합니다. 배포 친화적인 접근 방식은 간단하고 효율적인 네트워크 아키텍처를 설계하여 성능을 보장하는 동시에 리소스 소비를 크게 줄이는 것을 목표로 합니다. 효율적인 라벨링 방법은 주석이 부족하거나 전혀 없는 경우에도 만족스러운 성능을 얻을 것으로 기대됩니다. 다음으로, 이 세 가지 분야에 대한 현재 접근 방식에 대한 포괄적인 개요를 제공합니다.

Feature Enhancement Method

비전 기반 3D 점유 예측 작업은 2D 이미지 공간에서 3D 복셀 공간의 점유 상태 및 의미 정보를 예측하는 작업으로, 2D 시각적 입력에서 완벽한 3D 특징을 얻는 것이 핵심 과제입니다. 이 문제를 해결하기 위해 BEV(조감도), TPV(3차원 뷰) 및 3차원 복셀 표현 학습을 포함하여 기능 향상 관점에서 점유 예측을 개선하는 일부 방법이 있습니다.

BEV 기반 방법

점유도를 학습하는 효과적인 방법은 폐색에 민감하지 않고 특정 깊이의 기하학적 정보를 포함하는 기능을 제공하는 BEV(조감도)를 기반으로 합니다. 강력한 BEV 표현을 학습함으로써 강력한 3D 점유 장면 재구성을 달성할 수 있습니다. 먼저 2D 백본 네트워크를 사용하여 시각적 입력에서 이미지 특징을 추출한 다음 시점 변환을 통해 BEV 특징을 획득하고 마지막으로 BEV 특징 표현을 기반으로 3D 점유 예측을 완료합니다. BEV 기반 방법은 그림 5에 나와 있습니다.

OCC와 자율주행의 과거와 현재를 살펴보세요! 첫 번째 검토에서는 기능 강화/양산 배포/효율적인 주석이라는 세 가지 주요 주제를 종합적으로 요약했습니다.

간단한 접근 방식은 3D 객체 감지에서 BEVDet 및 BEVFormer와 같은 방법을 사용하는 등 다른 작업에서 BEV 학습을 활용하는 것입니다. 이러한 점유 학습 방법을 확장하기 위해 훈련 중에 점유 헤드를 추가하거나 교체하여 최종 결과를 얻을 수 있습니다. 이러한 적응을 통해 점유 추정을 기존 BEV 기반 프레임워크에 통합할 수 있어 장면에서 3D 점유를 동시에 감지하고 재구성할 수 있습니다. 강력한 기본 BEVFormer를 기반으로 OccTransformer는 데이터 확대를 사용하여 훈련 데이터의 다양성을 높여 모델 일반화 기능을 개선하고 강력한 이미지 백본을 활용하여 입력 데이터에서 더 많은 정보를 추출합니다. 또한 장면의 공간 정보를 더 잘 캡처하기 위한 3D Unet 헤드와 모델 최적화를 개선하기 위한 추가 손실 기능을 도입했습니다.

OCC와 자율주행의 과거와 현재를 살펴보세요! 첫 번째 검토에서는 기능 강화/양산 배포/효율적인 주석이라는 세 가지 주요 주제를 종합적으로 요약했습니다.

TPV 기반 방법

BEV 기반 표현은 기본적으로 3D 공간의 하향식 투영을 제공하므로 이미지에 비해 특정 이점이 있지만 본질적으로 단일 평면을 사용하여 공간을 설명하는 기능이 부족합니다. 장면의 세밀한 3D 구조. 세 가지 시야각(TPV)을 기반으로 하는 방법은 세 개의 직교 투영 평면을 활용하여 3D 환경을 모델링하고 점유 예측을 위한 시각적 특징의 표현 능력을 더욱 향상시킵니다. 먼저, 2D 백본 네트워크를 사용하여 시각적 입력에서 이미지 특징을 추출합니다. 이어서, 이러한 이미지 특징은 3개 시점 공간으로 승격되고, 마지막으로 3개 투영 시점의 특징 표현을 기반으로 3차원 점유 예측이 달성됩니다. BEV 기반 방법은 그림 7에 나와 있습니다.

OCC와 자율주행의 과거와 현재를 살펴보세요! 첫 번째 검토에서는 기능 강화/양산 배포/효율적인 주석이라는 세 가지 주요 주제를 종합적으로 요약했습니다.

BEV 기능 외에도 TPVFormer는 동일한 방식으로 전면 및 측면 뷰의 기능도 생성합니다. 각 평면은 서로 다른 관점에서 3D 환경을 모델링하며, 이들 평면의 조합은 전체 3D 구조에 대한 포괄적인 설명을 제공합니다. 구체적으로, 3차원 공간에서 점의 특징을 얻기 위해 먼저 이를 세 평면 각각에 투영하고 쌍선형 보간법을 사용하여 투영된 각 점의 특징을 얻습니다. 그런 다음 세 가지 투영 특징을 3D 점의 합성 특징으로 요약합니다. 따라서 TPV 표현은 임의의 해상도로 3D 장면을 설명하고 3D 공간의 다양한 지점에 대해 다양한 기능을 생성할 수 있습니다. 또한 2D 이미지에서 TPV 특징을 효율적으로 획득하고 TPV 그리드 쿼리와 해당 2D 이미지 특징 간의 이미지 교차 주의를 수행하여 2D 정보를 3D 공간으로 변환하는 변환기 기반 인코더(TPVFormer)를 제안합니다. 마지막으로, TPV 기능 간의 크로스뷰 하이브리드 어텐션은 세 평면 간의 상호 작용을 가능하게 합니다. TPVFormer의 전체 아키텍처는 그림 8에 나와 있습니다.

OCC와 자율주행의 과거와 현재를 살펴보세요! 첫 번째 검토에서는 기능 강화/양산 배포/효율적인 주석이라는 세 가지 주요 주제를 종합적으로 요약했습니다.

복셀 기반 방법

3D 공간을 투영된 관점(예: BEV 또는 TPV)으로 변환하는 것 외에도 3D 복셀 표현에서 직접 작동하는 방법도 있습니다. 이러한 방법의 주요 장점은 원본 3D 공간에서 직접 학습하여 정보 손실을 최소화할 수 있다는 것입니다. 원시 3차원 복셀 데이터를 활용함으로써 이러한 방법은 전체 공간 정보를 효과적으로 캡처하고 활용하여 점유를 보다 정확하고 포괄적으로 이해할 수 있습니다. 먼저 2D 백본 네트워크를 사용하여 이미지 특징을 추출한 다음 특별히 설계된 컨볼루션 기반 메커니즘을 사용하여 2D와 3D 표현을 연결하거나 쿼리 기반 접근 방식을 사용하여 3D 표현을 직접 얻습니다. 마지막으로, 3D 점유 헤드는 학습된 3D 표현을 기반으로 최종 예측을 완료하는 데 사용됩니다. 복셀 기반 방법은 그림 9에 나와 있습니다.

컨볼루션 기반 방법

한 가지 접근 방식은 특별히 설계된 컨벌루션 아키텍처를 활용하여 2D에서 3D로의 격차를 해소하고 3D 점유 표현을 학습하는 것입니다. 이 접근 방식의 대표적인 예는 기능 브리징의 캐리어로 U-Net 아키텍처를 채택하는 것입니다. U-Net 아키텍처는 업샘플링과 다운샘플링 경로 사이의 스킵 연결을 갖춘 인코더-디코더 구조를 채택하여 낮은 수준과 높은 수준의 특징 정보를 유지하여 정보 손실을 완화합니다. U-Net 구조는 다양한 깊이의 컨벌루션 레이어를 통해 다양한 규모의 특징을 추출할 수 있으며, 이를 통해 모델이 이미지의 로컬 세부 정보와 글로벌 컨텍스트 정보를 캡처할 수 있으므로 복잡한 장면에 대한 모델의 이해가 향상되고 효과적인 점유 예측을 수행할 수 있습니다.

Monoscene은 비전 기반 3D 점유 예측을 위해 U-net을 활용합니다. 특징 투시 투영을 사용하여 2차원 특징을 3차원 공간에 투영하고 2차원 특징을 기반으로 3차원 특징 공간을 계산하는 2차원 특징 시선 투영(FLoSP)이라는 메커니즘을 도입합니다. 3차원 특징 공간에서 특징을 샘플링하기 위한 각 점의 좌표와 이미징 원리. 이 방법은 2D 기능을 통합된 3D 기능 맵으로 승격시키고 2D와 3D U-net을 연결하는 핵심 구성 요소 역할을 합니다. Monoscene은 또한 3D UNet 병목 현상에 삽입된 3D CRP(3D Contextual Relation Prior) 레이어를 제안하며, 이는 n방향 복셀-복셀 의미론적 장면 관계 그래프를 학습합니다. 이는 네트워크에 전역 수용 필드를 제공하고 관계 발견 메커니즘으로 인해 공간 의미 인식을 향상시킵니다. Monoscene의 전체 아키텍처는 그림 10에 나와 있습니다.

OCC와 자율주행의 과거와 현재를 살펴보세요! 첫 번째 검토에서는 기능 강화/양산 배포/효율적인 주석이라는 세 가지 주요 주제를 종합적으로 요약했습니다.

쿼리 기반 방법

3D 공간에서 학습하는 또 다른 방법은 장면 표현을 캡처하기 위한 쿼리 세트를 생성하는 것입니다. 이 접근 방식에서는 쿼리 기반 기술을 사용하여 쿼리 제안을 생성한 다음 이를 사용하여 3D 장면의 포괄적인 표현을 학습합니다. 그 후, 이미지에 대한 교차 주의 및 자기 주의 메커니즘을 적용하여 학습된 표현을 개선하고 향상시킵니다. 이 접근 방식은 장면 이해를 향상시킬 뿐만 아니라 3D 공간에서 정확한 재구성 및 점유 예측을 가능하게 합니다. 또한 쿼리 기반 접근 방식은 다양한 데이터 소스와 쿼리 전략을 기반으로 조정하고 최적화할 수 있는 유연성을 제공하여 로컬 및 글로벌 상황 정보를 더 잘 캡처하여 3D 점유 예측 표현을 용이하게 합니다.

Depth는 Occupancy 쿼리를 선택하기 위한 중요한 사전 변수로 사용될 수 있습니다. Voxformer에서는 추정된 깊이가 Occupancy를 예측하고 관련 쿼리를 선택하기 위한 사전 변수로 사용됩니다. 변형 가능한 주의를 사용하여 이미지에서 정보를 수집하는 데는 점유된 쿼리만 사용됩니다. 그런 다음 업데이트된 쿼리 제안과 마스크된 토큰을 결합하여 복셀 기능을 재구성합니다. Voxformer는 RGB 이미지에서 2D 특징을 추출한 다음 희박한 3D 복셀 쿼리 세트를 활용하여 이러한 2D 특징을 인덱싱하고, 카메라 투영 매트릭스를 사용하여 3D 위치를 이미지 스트림에 연결합니다. 특히 복셀 쿼리는 Attention 메커니즘을 사용하여 이미지의 특징을 3D 볼륨으로 쿼리하도록 설계된 3D 메시 모양의 학습 가능한 매개변수입니다. 전체 프레임워크는 클래스에 구애받지 않는 제안과 클래스별 세분화로 구성된 2단계 캐스케이드입니다. 1단계에서는 클래스에 구애받지 않는 쿼리 제안을 생성하고, 2단계에서는 MAE와 유사한 아키텍처를 채택하여 모든 복셀에 정보를 전파합니다. 마지막으로 의미론적 분할을 위해 복셀 기능이 업샘플링됩니다. VoxFormer의 전체 아키텍처는 그림 11에 나와 있습니다.

OCC와 자율주행의 과거와 현재를 살펴보세요! 첫 번째 검토에서는 기능 강화/양산 배포/효율적인 주석이라는 세 가지 주요 주제를 종합적으로 요약했습니다.

Occ3D nuScenes 데이터세트에 대한 기능 향상 방법의 성능 비교는 표 3에 나와 있습니다. 결과는 복셀 표현을 직접 처리하는 방법이 계산 중에 상당한 정보 손실을 겪지 않기 때문에 종종 강력한 성능을 달성한다는 것을 보여줍니다. 또한 BEV 기반 방법에는 특징 표현을 위한 투영된 관점이 하나만 있지만 조감도에 포함된 풍부한 정보와 폐색 및 크기 변화에 대한 둔감성으로 인해 여전히 비슷한 성능을 달성할 수 있습니다. 또한, 여러 보완적 뷰에서 3D 정보를 재구성함으로써 3원시 뷰(TPV) 기반 방법은 잠재적인 기하학적 모호성을 완화하고 보다 포괄적인 장면 컨텍스트를 캡처할 수 있으므로 효과적인 3D 점유 예측이 가능합니다. 특히 FB-OCC는 전방 및 후방 뷰 변환 모듈을 모두 활용하여 서로를 향상시켜 보다 높은 품질의 순수 전기차 표현을 얻고 우수한 성능을 달성할 수 있습니다. 이는 BEV 기반 방법이 효과적인 기능 향상을 통해 3D 점유 예측을 향상시키는 데 큰 잠재력이 있음을 보여줍니다.

OCC와 자율주행의 과거와 현재를 살펴보세요! 첫 번째 검토에서는 기능 강화/양산 배포/효율적인 주석이라는 세 가지 주요 주제를 종합적으로 요약했습니다.

배포 친화적인 방법

3D 공간에서 직접 점유 표현을 학습하는 것은 광범위한 범위와 복잡한 데이터 특성으로 인해 매우 어렵습니다. 3D 복셀 표현과 관련된 높은 차원성과 집중적인 계산으로 인해 학습 프로세스에 리소스가 많이 필요하게 되어 실제 배포 애플리케이션에 도움이 되지 않습니다. 따라서 배포 친화적인 3D 표현을 설계하는 방법의 목표는 계산 비용을 줄이고 학습 효율성을 높이는 것입니다. 이 섹션에서는 전체 3D 공간을 직접 처리하는 대신 정확하고 효율적인 방법을 개발하는 데 중점을 두고 3D 장면 점유 추정의 계산 문제를 해결하는 방법을 제시합니다. 논의된 기술에는 3D 점유율 예측의 계산 효율성을 향상시키기 위한 최근 연구에서 입증된 원근 분해 및 대략적 미세 조정이 포함됩니다.

관점 분해 방법

3D 장면 특징에서 시점 정보를 분리하거나 이를 통합 표현 공간에 투영함으로써 계산 복잡성을 효과적으로 줄여 모델을 더욱 강력하고 일반화할 수 있습니다. 이 방법의 핵심 아이디어는 3차원 장면의 표현과 시점 정보를 분리함으로써 특징 학습 과정에서 고려해야 할 변수의 수를 줄이고 계산 복잡도를 줄이는 것입니다. 관점 정보를 분리하면 모델이 더 잘 일반화되고 전체 모델을 다시 학습할 필요 없이 다양한 관점 변환에 적응할 수 있습니다.

전체 3D 공간에서 학습하는 데 따른 계산 부담을 해결하기 위해 일반적인 접근 방식은 BEV(조감도) 및 TPV(삼중 뷰) 표현을 사용하는 것입니다. 3D 공간을 이러한 개별 뷰 표현으로 분해함으로써 점유 예측을 위한 필수 정보를 캡처하는 동시에 계산 복잡성이 크게 줄어듭니다. 핵심 아이디어는 먼저 BEV 및 TPV 관점에서 학습한 다음 이러한 다양한 관점에서 얻은 통찰력을 결합하여 완전한 3D 점유 정보를 복구하는 것입니다. 이 원근 분해 전략을 사용하면 전체 3D 공간에서 직접 학습하는 것보다 더 효율적이고 효과적인 점유 추정이 가능합니다.

OCC와 자율주행의 과거와 현재를 살펴보세요! 첫 번째 검토에서는 기능 강화/양산 배포/효율적인 주석이라는 세 가지 주요 주제를 종합적으로 요약했습니다.

대규모 3D 공간에서 직접 고해상도의 세밀한 전역 복셀 특징을 학습하는 것은 시간이 많이 걸리고 어려운 작업입니다. 따라서 일부 방법은 대략적인 특성 학습 패러다임을 탐색하기 시작했습니다. 구체적으로, 네트워크는 처음에 이미지에서 대략적인 표현을 학습한 다음 전체 장면의 세밀한 표현을 개선하고 복구합니다. 이 2단계 프로세스는 장면 점유를 보다 정확하고 효율적으로 예측하는 데 도움이 됩니다.

OpenOccupancy는 3D 공간에서 점유 표현을 학습하기 위해 2단계 접근 방식을 채택합니다. 그림 14와 같습니다.

3D 점유율을 예측하려면 상세한 기하학적 표현이 필요하며 모든 3D 복셀 마커를 활용하여 다중 뷰 이미지의 ROI와 상호 작용하면 상당한 계산 및 메모리 비용이 발생합니다. 그림 15에서 볼 수 있듯이 Occ3D는 교차 주의 계산 과정에서 전경 및 불확실한 복셀 토큰을 선택적으로 선택하여 효율적인 컴퓨팅을 희생하지 않고 적응을 달성하는 증분 토큰 선택 전략을 제안합니다. 특히, 각 피라미드 레이어의 시작 부분에서 각 복셀 레이블은 복셀이 비어 있는지 여부를 예측하기 위해 이진 분류기에 입력되고, 분류기를 훈련하기 위해 이진 지상 진실 점유 맵의 감독을 받습니다. PanoOcc는 3D 환경에 대한 보다 포괄적인 이해를 촉진하기 위해 공동 학습 프레임워크 내에서 객체 감지 및 의미론적 분할을 원활하게 통합할 것을 제안합니다. 이 방법은 복셀 쿼리를 활용하여 다중 프레임 및 다중 뷰 이미지에서 시공간 정보를 집계하고 특징 학습 및 장면 표현을 통합된 점유 표현으로 병합합니다. 또한 업샘플링 프로세스 중에 점유를 거친 것에서 미세한 것까지 점진적으로 희소화하여 저장 효율성을 크게 향상시키는 점유 희소성 모듈을 도입하여 3D 공간의 희소성을 탐색합니다. OCC와 자율주행의 과거와 현재를 살펴보세요! 첫 번째 검토에서는 기능 강화/양산 배포/효율적인 주석이라는 세 가지 주요 주제를 종합적으로 요약했습니다.

Occ3D nuScenes 데이터 세트에서 배포 친화적인 방법의 성능 비교는 표 4에 나와 있습니다. 결과는 백본, 이미지 크기 및 컴퓨팅 플랫폼의 차이가 있는 다양한 논문에서 수집되었으므로 일부 예비 결론만 도출할 수 있습니다. 일반적으로 유사한 실험 설정에서 대략적에서 정밀한 방법은 정보 손실이 적기 때문에 성능 측면에서 원근 분해 방법보다 성능이 뛰어난 반면, 원근 분해는 일반적으로 더 나은 실시간 성능과 더 낮은 메모리 사용량을 나타냅니다. 또한 백본이 더 무겁고 더 큰 이미지를 처리하는 모델은 정확도를 높일 수 있지만 실시간 성능도 저하됩니다. FlashOcc 및 FastOcc와 같은 경량 버전의 방법은 실제 배포 요구 사항에 가깝지만 정확도는 더욱 향상되어야 합니다. 배포 친화적인 방법의 경우 원근 분해 전략과 Coarse-to-Fine 전략 모두 3D 점유 예측의 정확성을 유지하면서 계산 부하를 지속적으로 줄이기 위해 노력합니다. OCC와 자율주행의 과거와 현재를 살펴보세요! 첫 번째 검토에서는 기능 강화/양산 배포/효율적인 주석이라는 세 가지 주요 주제를 종합적으로 요약했습니다.

OCC와 자율주행의 과거와 현재를 살펴보세요! 첫 번째 검토에서는 기능 강화/양산 배포/효율적인 주석이라는 세 가지 주요 주제를 종합적으로 요약했습니다.

라벨 효율적인 방법

정확한 점유 라벨을 생성하는 기존 방법 중에는 두 가지 기본 단계가 있습니다. 첫 번째는 다중 시점 이미지에 해당하는 LiDAR 포인트 클라우드를 수집하고 의미론적 분할을 위해 주석을 추가하는 것입니다. 다른 하나는 동적 객체의 추적 정보를 사용하여 복잡한 알고리즘을 통해 다중 프레임 포인트 클라우드를 융합하는 것입니다. 두 단계 모두 비용이 많이 들기 때문에 점유 네트워크가 자율 주행 시나리오에서 다수의 다중 뷰 이미지를 활용하는 능력이 제한됩니다. 최근에는 2차원 영상 렌더링에 신경방사선장(Nerf)이 널리 사용되고 있습니다. Nerf와 같은 방식으로 예측된 ​​3D 점유를 2D 지도에 플롯하고 세밀한 주석이나 LiDAR 포인트 클라우드를 사용하지 않고 점유 네트워크를 훈련하는 여러 가지 방법이 있으므로 데이터 주석 비용을 크게 줄일 수 있습니다.

주석이 없는 방법

SimpleOccupancy는 먼저 뷰 변환을 통해 이미지 특징에서 장면의 명시적인 3D 복셀 특징을 생성한 다음 이를 Nerf 스타일 방식으로 2D 깊이 맵으로 렌더링합니다. 2D 깊이 맵은 LiDAR 포인트 클라우드에서 생성된 희소 깊이 맵에 의해 감독됩니다. 깊이 맵은 자체 감독을 위해 서라운드 이미지를 합성하는 데에도 사용됩니다. UniOcc는 두 개의 별도 MLP를 사용하여 3D 복셀 로짓을 복셀 밀도와 복셀의 의미론적 로짓으로 변환합니다. 이후 UniOCC는 그림 17과 같이 일반 볼륨 렌더링을 따라 다중 뷰 깊이 맵과 의미 맵을 얻습니다. 이러한 2D 지도는 분할된 LiDAR 포인트 클라우드에서 생성된 레이블로 감독됩니다. RenderOcc는 다중 뷰 이미지에서 NeRF와 유사한 3D 체적 표현을 구축하고 2D 의미 및 깊이 레이블만 사용하여 직접적인 3D 감독을 제공할 수 있는 고급 체적 렌더링 기술을 사용하여 2D 렌더링을 생성합니다. 이 2D 렌더링 감독을 통해 모델은 다양한 카메라 절두체의 광선 교차점을 분석하여 다중 뷰 일관성을 학습하여 3D 공간의 기하학적 관계를 더 깊이 이해합니다. 또한, 인접한 프레임의 광선을 활용하여 현재 프레임의 다중 뷰 일관성 제약을 강화하는 보조 광선의 개념을 도입하고 잘못 정렬된 광선을 필터링하는 동적 샘플링 훈련 전략을 개발합니다. 동적 범주와 정적 범주 간의 불균형 문제를 해결하기 위해 OccFlowNet은 점유 흐름을 도입하여 3D 경계 상자를 기반으로 각 동적 복셀에 대한 장면 흐름을 예측합니다. 복셀 스트리밍을 사용하면 동적 복셀을 시간 프레임의 올바른 위치로 이동할 수 있으므로 렌더링 중에 동적 객체 필터링이 필요하지 않습니다. 훈련 중에 정확하게 예측된 복셀과 경계 상자 내의 복셀은 흐름을 사용하여 시간 프레임의 대상 위치에 맞춰 변환된 다음 거리 기반 가중 보간법을 사용하여 그리드 정렬을 수행합니다.

OCC와 자율주행의 과거와 현재를 살펴보세요! 첫 번째 검토에서는 기능 강화/양산 배포/효율적인 주석이라는 세 가지 주요 주제를 종합적으로 요약했습니다.

위의 접근 방식을 사용하면 명시적인 3D 점유 주석이 필요하지 않으므로 수동 주석의 부담이 크게 줄어듭니다. 그러나 렌더링된 지도를 감독하기 위한 깊이 또는 의미 라벨을 제공하기 위해 LiDAR 포인트 클라우드에 여전히 의존하고 있으며, 이는 아직 3D 점유 예측을 위한 완전한 자체 감독 프레임워크를 달성할 수 없습니다.

LiDAR가 없는 방법

OccNerf는 깊이와 의미 라벨을 제공하기 위해 LiDAR 포인트 클라우드를 활용하지 않습니다. 대신 그림 18과 같이 매개변수화된 점유 필드를 사용하여 무한한 실외 장면을 처리하고 샘플링 전략을 재구성하며 볼륨 렌더링을 사용하여 점유 필드를 다중 카메라 깊이 맵으로 변환하고 최종적으로 다중 프레임으로 감독합니다. 광도계 일관성. 또한 이 방법은 사전 훈련된 개방형 어휘 의미론적 분할 모델을 활용하여 2D 의미론적 레이블을 생성하고 모델이 점유된 필드에 의미론적 정보를 전달하도록 감독합니다. 장면 뒤에서 단일 뷰 이미지 시퀀스를 사용하여 운전 장면을 재구성합니다. 입력 이미지의 절두체 특징을 밀도 필드로 처리하고 다른 뷰의 합성을 렌더링합니다. 전체 모델은 특별히 고안된 이미지 재구성 손실로 훈련되었습니다. SelfOcc는 BEV 또는 TPV 기능의 부호 있는 거리 필드 값을 예측하여 2D 깊이 지도를 렌더링합니다. 또한 원본 색상 및 의미 맵도 다중 뷰 이미지 시퀀스에서 생성된 레이블을 통해 렌더링되고 감독됩니다.

OCC와 자율주행의 과거와 현재를 살펴보세요! 첫 번째 검토에서는 기능 강화/양산 배포/효율적인 주석이라는 세 가지 주요 주제를 종합적으로 요약했습니다.

이러한 방법은 라이더 포인트 클라우드의 깊이 또는 의미 라벨에 대한 필요성을 회피합니다. 대신 이미지 데이터나 사전 훈련된 모델을 활용하여 이러한 레이블을 획득함으로써 3D 점유 예측을 위한 진정한 자체 감독 프레임워크를 구현합니다. 이러한 방법은 실제 적용 경험과 가장 일치하는 훈련 패턴을 얻을 수 있지만 만족스러운 성능을 얻으려면 추가 탐색이 필요합니다.

OCC와 자율주행의 과거와 현재를 살펴보세요! 첫 번째 검토에서는 기능 강화/양산 배포/효율적인 주석이라는 세 가지 주요 주제를 종합적으로 요약했습니다.

표 5는 Occ3D nuScenes 데이터세트에 대한 레이블 효율적인 방법의 성능 비교를 보여줍니다. 대부분의 주석 없는 방법은 명시적인 3D 점유 감독을 보완하기 위해 2D 렌더링 감독을 사용하고 특정 성능 향상을 얻습니다. 그 중 UniOcc와 RadOcc는 모든 방법 중에서 각각 3위와 4위라는 우수한 순위를 얻었으며, 이는 주석 없는 메커니즘이 추가적인 가치 있는 정보 추출을 촉진할 수 있음을 충분히 입증합니다. 2D 렌더링 감독만 사용하는 경우에도 비슷한 정확도를 달성할 수 있으며 이는 명시적인 3D 점유 주석 비용을 절약할 수 있는 가능성을 보여줍니다. LiDAR가 없는 접근 방식은 3D 점유 예측을 위한 포괄적인 자체 감독 프레임워크를 구축하여 태그 및 LiDAR 데이터의 필요성을 더욱 제거합니다. 그러나 포인트 클라우드 자체에는 정확한 깊이와 기하학적 정보가 부족하여 성능이 크게 제한됩니다.

미래 전망

위의 접근 방식을 바탕으로 현재 동향을 요약하고 데이터, 방법 및 작업 측면에서 비전 기반 비전을 크게 발전시킬 수 있는 몇 가지 중요한 연구 방향을 제안합니다. 예측 필드.

데이터 수준

자율주행 인식 시스템의 전반적인 역량을 향상시키기 위해서는 충분한 실제 주행 데이터를 확보하는 것이 중요합니다. 데이터 생성은 취득 비용이 발생하지 않고 필요에 따라 데이터 다양성을 조작할 수 있는 유연성을 제공하므로 유망한 접근 방식입니다. 일부 방법은 텍스트 등의 단서를 활용하여 생성된 주행 데이터의 내용을 제어하지만 공간정보의 정확성을 보장할 수는 없습니다. 이와 대조적으로 3D Occupancy는 장면을 세밀하고 실행 가능한 표현으로 제공하여 포인트 클라우드, 다중 뷰 이미지 및 BEV 레이아웃에 비해 제어 가능한 데이터 생성 및 공간 정보 표시를 용이하게 합니다. WoVoGen은 3D 점유 상황을 사실적인 다중 뷰 이미지로 매핑할 수 있는 볼륨 인식 확산을 제안합니다. 나무를 추가하거나 자동차를 바꾸는 등 3D 점유를 수정한 후 확산 모델은 해당하는 새로운 운전 장면을 합성합니다. 수정된 3차원 점유는 3차원 위치 정보를 기록하여 합성 데이터의 신뢰성을 보장합니다.

OCC와 자율주행의 과거와 현재를 살펴보세요! 첫 번째 검토에서는 기능 강화/양산 배포/효율적인 주석이라는 세 가지 주요 주제를 종합적으로 요약했습니다.

자율 운전의 세계 모델은 점점 더 두각을 나타내고 있습니다. 환경 입력 관찰을 기반으로 전체 장면을 이해하고 적절한 동적 장면 진화 데이터를 직접 출력하는 모델의 능력을 향상시키는 간단하고 우아한 프레임워크를 제공합니다. 월드 모델에서 환경 관찰로 3D 점유를 활용하면 전체 운전 장면 데이터를 상세하게 전문적으로 표현할 수 있다는 점에서 분명한 이점이 있습니다. 그림 19에서 볼 수 있듯이 OccWorld는 세계 모델의 입력으로 3D 점유를 선택하고 GPT와 유사한 모듈을 사용하여 미래의 3D 점유 데이터가 어떻게 나타날지 예측합니다. UniWorld는 상용 BEV 기반 3D 점유 모델을 활용하지만 과거의 다중 뷰 이미지를 처리하여 미래의 3D 점유 데이터를 예측함으로써 세계 모델을 구축합니다. 그러나 메커니즘에 관계없이 생성된 데이터와 실제 데이터 사이에는 도메인 갭이 필연적으로 존재합니다. 이 문제를 해결하기 위해 가능한 한 가지 접근 방식은 3D 점유 예측과 최신 3D 인공 지능 생성 콘텐츠(3D AIGC) 방법을 결합하여 보다 사실적인 장면 데이터를 생성하는 것이고, 또 다른 접근 방식은 도메인 적응 방법을 결합하여 필드 격차를 줄이는 것입니다.

방법론적 수준

3D 점유 예측 방법과 관련하여 앞서 설명한 기능 향상 방법, 배포 친화적인 방법, 라벨 효율적인 방법 등 범주 내에서 추가 주의가 필요한 지속적인 과제가 있습니다. 컴퓨팅 자원의 소비를 제어 가능하게 유지하면서 성능을 크게 향상시키는 방향으로 기능 향상 방법을 개발해야 합니다. 성능 저하를 최소화하는 동시에 메모리 사용량과 대기 시간을 줄이려면 배포 친화적인 접근 방식을 염두에 두어야 합니다. 라벨 효율적인 방법은 만족스러운 성능을 달성하면서 값비싼 주석의 필요성을 줄이는 방향으로 개발되어야 합니다. 궁극적인 목표는 실제 자율 주행 애플리케이션의 기대치를 충족하기 위해 기능 향상, 배포 편의성 및 라벨링 효율성을 결합한 통합 프레임워크를 달성하는 것일 수 있습니다.

OCC와 자율주행의 과거와 현재를 살펴보세요! 첫 번째 검토에서는 기능 강화/양산 배포/효율적인 주석이라는 세 가지 주요 주제를 종합적으로 요약했습니다.

또한 기존 단일 에이전트 자율 주행 인식 시스템은 본질적으로 폐쇄에 대한 민감도, 장거리 감지 기능 부족, 시야 제한 등 주요 문제를 해결할 수 없어 포괄적인 환경 인식을 달성하기 어렵습니다. 단일 에이전트의 병목 현상을 극복하기 위해 다중 에이전트 협업 감지 방법은 새로운 차원을 열어 차량이 다른 교통 요소와 보완적인 정보를 공유하여 주변 환경에 대한 전반적인 인식을 얻을 수 있도록 합니다. 그림 20에서 볼 수 있듯이 다중 에이전트 협업 3D 점유 예측 방법은 3D 점유 예측을 위해 협업 감지 및 학습 기능을 활용하여 연결된 자동화 차량 간에 기능을 공유함으로써 3D 도로 환경에 대한 더 깊은 이해를 얻을 수 있습니다. CoHFF는 최초의 협업 비전 기반 의미론적 점유 예측 프레임워크로, 의미론적 및 점유 작업 기능의 하이브리드 융합을 통해 로컬 3D 의미론적 점유 예측을 개선하고 차량 간에 공유되는 압축된 직교 주의 기능을 크게 향상시켜 성능을 크게 향상시킵니다. 자전거 시스템. 그러나 이 방법은 여러 에이전트와 동시에 통신해야 하는 경우가 많아 정확도와 대역폭 사이의 모순에 직면합니다. 따라서 어떤 에이전트가 가장 조정이 필요한지 결정하고, 정확성과 속도 간의 최상의 균형을 달성하기 위해 협업이 가장 중요한 영역을 식별하는 것은 흥미로운 연구 방향입니다.

작업 수준

현재 3D 점유 벤치마크에서 일부 범주에는 "자동차", "보행자" 및 "트럭"과 같은 명확한 의미가 있습니다. 대조적으로, "인공" 및 "식물"과 같은 다른 범주의 의미는 모호하고 일반적인 경향이 있습니다. 이러한 범주에는 정의되지 않은 광범위한 의미 체계가 포함되어 있으며 운전 시나리오에 대한 자세한 설명을 제공하기 위해 보다 세분화된 범주로 세분화되어야 합니다. 더욱이, 이전에 한 번도 본 적이 없는 알려지지 않은 카테고리의 경우, 인간의 단서를 기반으로 한 새로운 카테고리 인식의 유연한 확장에 대한 일반적인 장벽으로 간주되는 경우가 많습니다. 이 문제에 대해 개방형 어휘 작업은 2D 이미지 인식에서 강력한 성능을 나타내며 3D 점유 예측 작업을 향상시키기 위해 확장될 수 있습니다. OVO는 개방형 어휘 3D 점유 예측을 지원하는 프레임워크를 제안합니다. 이는 고정된 2D 분할기와 텍스트 인코더를 활용하여 개방형 어휘에 대한 의미론적 참조를 얻습니다. 그런 다음 세 가지 다른 수준의 정렬을 사용하여 3D 점유 모델을 추출하여 개방형 단어 예측을 수행할 수 있습니다. POP-3D는 사전 훈련된 강력한 시각적 언어 모델의 도움으로 세 가지 양식을 결합한 자체 감독 프레임워크를 설계했습니다. 제로샷 점유 분할 및 텍스트 기반 3D 검색과 같은 개방형 어휘 작업을 용이하게 합니다.

주변 환경의 역동적인 변화를 감지하는 것은 자율 주행에서 후속 작업을 안전하고 안정적으로 실행하는 데 중요합니다. 3D 점유 예측은 현재 관측을 기반으로 대규모 장면의 조밀한 점유 표현을 제공할 수 있지만 대부분 현재 3D 공간을 나타내는 것으로 제한되며 타임라인을 따라 주변 객체의 미래 상태를 고려하지 않습니다. 최근에는 실제 자율주행 시나리오에서 보다 실용적인 시간적 정보를 추가로 고려하고 4차원 점유 예측 작업을 도입하기 위한 여러 가지 방법이 제안되었습니다. Cam4Occ는 처음으로 널리 사용되는 nuScenes 데이터 세트를 사용하여 4D 점유 예측을 위한 새로운 벤치마크를 확립했습니다. 벤치마크에는 일반 이동 물체(GMO)와 일반 고정 물체(GSO) 각각에 대한 점유 예측을 평가하기 위한 다양한 지표가 포함되어 있습니다. 또한 4D 점유 예측 프레임워크의 구성을 설명하기 위한 여러 기본 모델을 제공합니다. 개방형 어휘 3D 탑승 예측 작업과 4D 탑승 예측 작업은 서로 다른 관점에서 개방형 동적 환경에서 자율주행의 인식 능력을 향상시키는 것을 목표로 하지만 여전히 최적화를 위한 독립적인 작업으로 간주됩니다. 여러 모듈의 최적화 목표가 일치하지 않는 모듈식 작업 기반 패러다임은 정보 손실과 오류 누적으로 이어질 수 있습니다. 개방형 동적 점유 예측을 엔드투엔드 자율 주행 작업과 결합하고 원시 센서 데이터를 제어 신호에 직접 매핑하는 것은 유망한 연구 방향입니다.

위 내용은 OCC와 자율주행의 과거와 현재를 살펴보세요! 첫 번째 검토에서는 기능 강화/양산 배포/효율적인 주석이라는 세 가지 주요 주제를 종합적으로 요약했습니다.의 상세 내용입니다. 자세한 내용은 PHP 중국어 웹사이트의 기타 관련 기사를 참조하세요!

성명:
이 기사는 51cto.com에서 복제됩니다. 침해가 있는 경우 admin@php.cn으로 문의하시기 바랍니다. 삭제