>  기사  >  기술 주변기기  >  비교할 수 없는 UniVision: BEV 감지 및 Occ 공동 통합 프레임워크, 듀얼 SOTA!

비교할 수 없는 UniVision: BEV 감지 및 Occ 공동 통합 프레임워크, 듀얼 SOTA!

王林
王林앞으로
2024-03-04 15:55:02319검색

앞서 쓰기 & 개인적 이해

최근 자율주행 기술에서 비전 중심의 3D 인식이 급속도로 발전하고 있습니다. 다양한 3D 인식 모델은 구조적, 개념적 유사점이 많지만 기능 표현, 데이터 형식 및 목표에는 여전히 일부 차이가 있어 통합되고 효율적인 3D 인식 프레임워크를 설계하는 데 어려움이 있습니다. 따라서 연구자들은 보다 완전하고 효율적인 3D 인식 시스템을 구축하기 위해 다양한 모델 간의 차이점을 더 효과적으로 통합할 수 있는 솔루션을 찾기 위해 열심히 노력하고 있습니다. 이러한 노력은 자율주행 분야에 더욱 신뢰도 있고 앞선 기술을 접목해 복잡한 환경에서 더욱 강력해질 것으로 기대된다. 특히 BEV 하에서는 감지 작업과 탑승 작업의 경우 아직까지 합동 훈련이 어렵고 불안정하다. 통제할 수 없는 효과는 많은 응용 분야에서 골치 아픈 원인이 됩니다. UniVision은 비전 중심 3D 인식의 두 가지 주요 작업, 즉 점유 예측과 객체 감지를 통합하는 간단하고 효율적인 프레임워크입니다. 핵심은 보완적인 2D-3D 특징 변환을 위한 명시적-암시적 뷰 변환 모듈입니다. UniVision은 효율적이고 적응 가능한 복셀 및 BEV 특징 추출, 향상 및 상호 작용을 위한 로컬 및 전역 특징 추출 및 융합 모듈을 제안합니다.

데이터 향상 부분에서 UniVision은 다중 작업 프레임워크 훈련의 효율성과 안정성을 높이기 위해 공동 점유 감지 데이터 향상 전략과 점진적인 손실 가중치 조정 전략도 제안했습니다. Scene-Free LiDAR 분할, Scene-Free 감지, OpenOccupancy 및 Occ3D를 포함한 4가지 공개 벤치마크에서 다양한 인식 작업에 대한 광범위한 실험이 수행되었습니다. UniVision은 각 벤치마크에서 각각 +1.5mIoU, +1.8 NDS, +1.5mIoU, +1.8mIoU의 이득으로 SOTA를 달성했습니다. UniVision 프레임워크는 통합 비전 중심 3D 인식 작업을 위한 고성능 기준선 역할을 할 수 있습니다.

BEV 및 점유 작업에 익숙하지 않은 경우

BEV 인식 튜토리얼

점유 네트워크 튜토리얼을 더 자세히 연구하여 더 많은 기술 세부 사항을 알아볼 수 있습니다!

3D 인식 분야의 현황

3D 인식은 자율주행 시스템의 주요 임무입니다. 일련의 센서(라이다, 레이더, 카메라 등)에서 얻은 데이터를 활용하여 종합적으로 이해하는 것입니다. 후속 사용 계획 및 의사 결정을 위한 운전 장면. 과거에는 포인트 클라우드 데이터에서 파생된 정확한 3D 정보로 인해 3D 인식 분야가 LiDAR 기반 모델이 지배했습니다. 그러나 LiDAR 기반 시스템은 비용이 많이 들고 악천후에 취약하며 배포가 불편합니다. 반면 비전 기반 시스템은 저렴한 비용, 쉬운 배포, 우수한 확장성 등 많은 장점을 가지고 있습니다. 따라서 시각 중심의 3차원 인식은 연구자들로부터 폭넓은 주목을 받고 있다.

최근 특징 표현 변환, 시간적 융합, 지도 신호 설계를 통해 비전 기반 3D 감지가 크게 향상되어 LiDAR 기반 모델과의 격차를 지속적으로 좁혀가고 있습니다. 또한 최근 몇 년 동안 비전 기반 점유 작업이 빠르게 발전했습니다. 일부 객체를 표현하기 위해 3D 상자를 사용하는 것과 달리 점유는 운전 장면의 기하학적 구조와 의미를 보다 포괄적으로 설명할 수 있으며 객체의 모양과 범주에 덜 제한됩니다.

탐지 방법과 점유 방법은 많은 구조적, 개념적 유사성을 공유하지만 두 작업을 동시에 처리하고 상호 관계를 탐색하는 것은 잘 연구되지 않았습니다. 점유 모델과 탐지 모델은 종종 서로 다른 특징 표현을 추출합니다. 점유 예측 작업에는 다양한 공간 위치에서 철저한 의미론적 및 기하학적 판단이 필요하므로 복셀 표현은 세밀한 3D 정보를 보존하는 데 널리 사용됩니다. 탐지 작업에서는 BEV 표현이 선호됩니다. 왜냐하면 대부분의 물체가 더 작은 중첩으로 동일한 수평면에 있기 때문입니다.

BEV 표현에 비해 복셀 표현은 정교하지만 효율성이 떨어집니다. 또한 많은 고급 연산자는 주로 2D 기능에 맞게 설계 및 최적화되어 있어 3D 복셀 표현과의 통합이 그리 간단하지 않습니다. BEV 표현은 시간과 메모리 효율성이 더 높지만 높이 차원에서 구조적 정보를 잃기 때문에 조밀한 공간 예측에는 적합하지 않습니다. 특징 표현 외에도 다양한 인식 작업은 데이터 형식과 목표도 다릅니다. 따라서 다중 작업 3D 인식 프레임워크 교육의 균일성과 효율성을 보장하는 것은 큰 과제입니다.

UniVision 네트워크 구조

UniVision 프레임워크의 전체 구조는 그림 1에 나와 있습니다. 프레임워크는 N개의 주변 카메라로부터 다시점 이미지를 입력으로 받고, 이미지 특징 추출 네트워크를 통해 이미지 특징을 추출합니다. 다음으로, 2D 이미지 특징은 깊이 안내 명시적 특징 향상과 쿼리 안내 암시적 특징 샘플링을 결합한 Ex-Im 뷰 변환 모듈을 사용하여 3D 복셀 특징으로 업그레이드됩니다. 복셀 특징은 로컬 전역 특징 추출 및 융합 블록에 의해 처리되어 각각 로컬 상황 인식 복셀 특징과 전역 상황 인식 BEV 특징을 추출합니다. 그 후, 교차 표현 기능 상호 작용 모듈을 통해 다양한 다운스트림 인식 작업을 위해 복셀 기능과 BEV 기능 간에 정보가 교환됩니다. 훈련 단계에서 UniVision 프레임워크는 효과적인 훈련을 위해 Occ-Det 데이터 향상과 손실 가중치의 점진적인 조정을 결합한 전략을 채택합니다.

1) Ex-Im View Transform

심도 기반 명시적 기능 향상. LSS 접근 방식은 다음과 같습니다.

비교할 수 없는 UniVision: BEV 감지 및 Occ 공동 통합 프레임워크, 듀얼 SOTA!

2) 쿼리 기반 암시적 기능 샘플링. 그러나 3차원 정보를 표현하는 데에는 몇 가지 단점이 있습니다. 의 정확도는 추정 깊이 분포의 정확도와 높은 상관관계가 있습니다. 게다가 LSS에 의해 생성된 포인트는 고르게 분포되지 않습니다. 포인트는 카메라 근처에 촘촘하게 채워져 있고 멀리 있으면 희박합니다. 따라서 위의 단점을 보완하기 위해 쿼리 기반 기능 샘플링을 추가로 사용합니다.

비교할 수 없는 UniVision: BEV 감지 및 Occ 공동 통합 프레임워크, 듀얼 SOTA!

LSS에서 생성된 포인트와 비교하면 복셀 쿼리는 3D 공간에 균일하게 분포되어 있으며 LSS에서 사용되는 깊이 사전 정보와는 무관한 모든 훈련 샘플의 통계적 속성에서 학습됩니다. 따라서 서로 보완하고 이를 뷰 변환 모듈의 출력 기능으로 연결합니다.

비교할 수 없는 UniVision: BEV 감지 및 Occ 공동 통합 프레임워크, 듀얼 SOTA!

2) 로컬 전역 기능 추출 및 융합

입력 복셀 기능이 주어지면 먼저 Z-에 기능을 중첩합니다. 축을 사용하고 컨볼루션 레이어를 사용하여 채널을 줄여 BEV 기능을 얻습니다.

비교할 수 없는 UniVision: BEV 감지 및 Occ 공동 통합 프레임워크, 듀얼 SOTA!

그런 다음 모델은 기능 추출 및 향상을 위해 두 개의 병렬 분기로 나뉩니다. 로컬 특징 추출 + 전역 특징 추출, 그리고 최종 교차 표현 특징 상호 작용! 그림 1(b)와 같습니다.

3) 손실 기능 및 감지 헤드

비교할 수 없는 UniVision: BEV 감지 및 Occ 공동 통합 프레임워크, 듀얼 SOTA!

비교할 수 없는 UniVision: BEV 감지 및 Occ 공동 통합 프레임워크, 듀얼 SOTA!

비교할 수 없는 UniVision: BEV 감지 및 Occ 공동 통합 프레임워크, 듀얼 SOTA!

비교할 수 없는 UniVision: BEV 감지 및 Occ 공동 통합 프레임워크, 듀얼 SOTA!

점진적인 손실 가중치 조정 전략. 실제로 위의 손실을 직접 통합하면 훈련 프로세스가 실패하고 네트워크가 수렴하지 못하는 경우가 종종 있는 것으로 나타났습니다. 훈련의 초기 단계에서 복셀 특징 Fvoxel은 무작위로 분포되며 점유 헤드와 감지 헤드의 감독은 수렴의 다른 손실보다 덜 기여합니다. 동시에 탐지 작업의 분류 손실 Lcls와 같은 손실 항목이 매우 크고 훈련 과정을 지배하므로 모델 최적화가 어렵습니다. 이러한 문제를 극복하기 위해 손실 가중치를 동적으로 조정하는 점진적인 손실 가중치 조정 전략이 제안되었습니다. 구체적으로, 제어 매개변수 δ는 비이미지 레벨 손실(즉, 점유 손실 및 감지 손실)에 추가되어 다양한 훈련 에포크에서 손실 가중치를 조정합니다. 제어 가중치 δ는 처음에는 작은 값 Vmin으로 설정되고 N 훈련 에포크에서 점차적으로 Vmax로 증가합니다.

비교할 수 없는 UniVision: BEV 감지 및 Occ 공동 통합 프레임워크, 듀얼 SOTA!

4) 3D 탐지 작업에서 Joint Occ-Det 공간 데이터 증대

, 추가로 일반적인 이미지 수준 데이터 확대에 비해 공간 수준 데이터 확대는 모델 성능 향상에도 효과적입니다. 그러나 점유 작업에 공간 수준 향상을 적용하는 것은 간단하지 않습니다. 개별 점유 레이블에 데이터 확대(예: 무작위 크기 조정 및 회전)를 적용하면 결과 복셀 의미를 결정하기가 어렵습니다. 따라서 기존 방법은 점유 작업에서 무작위 뒤집기와 같은 단순한 공간 증대만을 적용합니다.

이 문제를 해결하기 위해 UniVision은 프레임워크에서 3D 감지 작업과 점유 작업을 동시에 향상할 수 있는 공동 Occ-Det 공간 데이터 증강을 제안합니다. 3D 박스 라벨은 연속적인 값이고 강화된 3D 박스는 훈련을 위해 직접 계산될 수 있으므로 탐지를 위해 BEVDet의 강화 방법을 따릅니다. 점유 레이블은 개별적이고 조작하기 어렵지만 복셀 특징은 연속적으로 처리될 수 있으며 샘플링 및 보간과 같은 작업을 통해 처리될 수 있습니다. 따라서 데이터 증대를 위해 점유 레이블에 직접 작업하는 대신 복셀 기능을 변환하는 것이 좋습니다.

구체적으로는 공간 데이터 증대가 먼저 샘플링되고 해당 3D 변환 행렬이 계산됩니다. 점유 라벨과 복셀 지수 의 경우 3차원 좌표를 계산합니다. 그런 다음 강화된 복셀 기능에서 복셀 인덱스를 얻기 위해 적용하고 정규화됩니다.:

비교할 수 없는 UniVision: BEV 감지 및 Occ 공동 통합 프레임워크, 듀얼 SOTA!

실험 결과 비교

검증을 위해 여러 데이터 세트 사용, NuScenes LiDAR Segmentation, NuScenes 3D 객체 감지, OpenOccupancy 및 Occ3D.

NuScenes LiDAR 분할: 최근 OccFormer 및 TPVFormer에 따르면 카메라 이미지는 LiDAR 분할 작업의 입력으로 사용되며 LiDAR 데이터는 출력 기능을 쿼리하기 위한 3D 위치를 제공하는 데만 사용됩니다. mIoU를 평가 지표로 사용합니다.

NuScenes 3D 객체 감지: 감지 작업의 경우 nuScenes의 공식 측정항목인 nuScene 감지 점수(NDS)를 사용합니다. 이는 평균 mAP와 ATE(평균 변환 오류), 평균 척도 오류( ASE) ), 평균 방향 오류(AOE), 평균 속도 오류(AVE) 및 평균 속성 오류(AAE).

OpenOccupancy: OpenOccupancy 벤치마크는 nuScenes 데이터세트를 기반으로 하며 512×512×40 해상도의 의미론적 점유 라벨을 제공합니다. 레이블이 지정된 클래스는 mIoU를 평가 지표로 사용하는 LiDAR 분할 작업의 클래스와 동일합니다!

Occ3D: Occ3D 벤치마크는 nuScenes 데이터세트를 기반으로 하며 200×200×16 해상도에서 의미론적 점유 라벨을 제공합니다. Occ3D는 교육 및 평가를 위한 가시적 마스크도 제공합니다. 레이블이 지정된 클래스는 mIoU를 평가 지표로 사용하는 LiDAR 분할 작업의 클래스와 동일합니다!

1) NuScenes LiDAR Segmentation

표 1은 nuScenes LiDAR Segmentation 벤치마크 결과를 나타냅니다. UniVision은 최첨단 비전 기반 방법인 OccFormer보다 1.5% mIoU 더 뛰어난 성능을 발휘하며 리더보드에서 비전 기반 모델에 대한 새로운 기록을 세웠습니다. 특히 UniVision은 PolarNe 및 DB-UNet과 같은 일부 LiDAR 기반 모델보다 성능이 뛰어납니다.

비교할 수 없는 UniVision: BEV 감지 및 Occ 공동 통합 프레임워크, 듀얼 SOTA!

2) NuScenes 3D 객체 감지 작업

표 2에서 볼 수 있듯이 UniVision은 공정한 비교를 위해 동일한 교육 설정을 사용할 때 다른 방법보다 우수한 성능을 보이는 것으로 나타났습니다. 512×1408 이미지 해상도의 BEVDepth와 비교했을 때 UniVision은 mAP와 NDS에서 각각 2.4%와 1.1%의 이득을 얻었습니다. 모델이 확장되고 UniVision이 시간 입력과 결합되면 SOTA 기반 시간 감지기보다 훨씬 더 뛰어난 성능을 발휘합니다. UniVision은 더 작은 입력 해상도로 이를 달성하며 CBGS를 사용하지 않습니다.

비교할 수 없는 UniVision: BEV 감지 및 Occ 공동 통합 프레임워크, 듀얼 SOTA!

3) OpenOccupancy 결과 비교

OpenOccupancy 벤치마크 테스트 결과는 표 3과 같습니다. UniVision은 mIoU 측면에서 MonoScene, TPVFormer, C-CONet을 포함한 최신 비전 기반 점유 방법을 각각 7.3%, 6.5%, 1.5% 능가합니다. 또한 UniVision은 LMSCNet 및 JS3C-Net과 같은 일부 LiDAR 기반 방법보다 성능이 뛰어납니다.

비교할 수 없는 UniVision: BEV 감지 및 Occ 공동 통합 프레임워크, 듀얼 SOTA!

4) Occ3D 실험 결과

표 4에는 Occ3D 벤치마크 결과가 나와 있습니다. UniVision은 다양한 입력 이미지 해상도에서 mIoU 측면에서 최근 비전 기반 방법을 각각 2.7% 및 1.8% 이상 크게 능가합니다. BEVFormer와 BEVDet-stereo는 미리 훈련된 가중치를 로드하고 추론에 시간적 입력을 사용하는 반면 UniVision은 이를 사용하지 않지만 여전히 더 나은 성능을 달성한다는 점은 주목할 가치가 있습니다.

비교할 수 없는 UniVision: BEV 감지 및 Occ 공동 통합 프레임워크, 듀얼 SOTA!

5) 탐지 작업에서 구성 요소의 효율성

탐지 작업에 대한 절제 연구는 표 5에 나와 있습니다. BEV 기반 전역 특징 추출 분기를 기준 모델에 삽입하면 성능이 mAP 1.7%, NDS 3.0% 향상됩니다. 복셀 기반 점유 작업이 감지기에 보조 작업으로 추가되면 모델의 mAP 게인이 1.6% 증가합니다. 복셀 기능에서 교차 표현 상호 작용이 명시적으로 도입되면 모델은 기준에 비해 mAP 및 NDS를 각각 3.5% 및 4.2% 향상하여 최고의 성능을 달성합니다.

비교할 수 없는 UniVision: BEV 감지 및 Occ 공동 통합 프레임워크, 듀얼 SOTA!

6) 작업 내 구성 요소 점유 효과

의 점유 작업에 대한 절제 연구에 대한 표 6에 나와 있습니다. 복셀 기반 로컬 특징 추출 네트워크는 기준 모델에 1.96% mIoU 향상을 가져옵니다. 보조 감시 신호로 탐지 작업을 도입하면 모델 성능이 0.4%mIoU 향상됩니다.

비교할 수 없는 UniVision: BEV 감지 및 Occ 공동 통합 프레임워크, 듀얼 SOTA!

7) 기타

표 5와 표 6은 UniVision 프레임워크에서 감지 작업과 점유 작업이 서로 보완적임을 보여줍니다. 감지 작업의 경우 점유 감독은 mAP 및 mATE 측정항목을 개선할 수 있으며, 이는 복셀 의미 학습이 감지기의 객체 형상(예: 중심성 및 규모)에 대한 인식을 효과적으로 향상한다는 것을 나타냅니다. 점유 작업의 경우 감지 감독은 전경 카테고리(즉, 감지 카테고리)의 성능을 크게 향상시켜 전반적인 개선을 가져옵니다.

비교할 수 없는 UniVision: BEV 감지 및 Occ 공동 통합 프레임워크, 듀얼 SOTA!

Occ-Det 공간 향상, Ex-Im 뷰 변환 모듈 및 점진적 손실 가중치 조정 전략을 결합한 효과를 표 7에 보여줍니다. 제안된 공간 확장 및 제안된 뷰 변환 모듈을 통해 mIoU, mAP 및 NDS 메트릭에 대한 감지 작업 및 점유 작업이 크게 향상되었습니다. 손실 가중치 조정 전략은 다중 작업 프레임워크를 효과적으로 훈련할 수 있습니다. 이것이 없으면 통합 프레임워크의 훈련이 수렴될 수 없으며 성능도 매우 낮습니다.

비교할 수 없는 UniVision: BEV 감지 및 Occ 공동 통합 프레임워크, 듀얼 SOTA!

Reference

논문 링크: https://arxiv.org/pdf/2401.06994.pdf

논문 이름: UniVision: A Unified Framework for Vision-Centric 3D Perception

위 내용은 비교할 수 없는 UniVision: BEV 감지 및 Occ 공동 통합 프레임워크, 듀얼 SOTA!의 상세 내용입니다. 자세한 내용은 PHP 중국어 웹사이트의 기타 관련 기사를 참조하세요!

성명:
이 기사는 51cto.com에서 복제됩니다. 침해가 있는 경우 admin@php.cn으로 문의하시기 바랍니다. 삭제