원제: FlashOcc: 채널 대 높이 플러그인을 통한 빠르고 메모리 효율적인 점유 예측
논문 링크: https://arxiv.org/pdf/2311.12058.pdf
저자 소속: Dalian University of Technology Houmo AI Ade Rider University
탑승 예측은 3D 객체 감지에서 흔히 발생하는 롱테일 결함과 복잡한 형상 누락을 완화하는 기능으로 인해 자율 주행 시스템의 핵심 구성 요소가 되었습니다. 그러나 3차원 복셀 수준 표현을 처리하면 필연적으로 메모리 및 계산 측면에서 상당한 오버헤드가 발생하여 현재까지 점유 예측 방법의 배포를 방해합니다. 모델을 더 크고 복잡하게 만드는 추세와는 반대로, 이 문서에서는 이상적인 프레임워크는 높은 정확도를 유지하면서 다양한 칩에 걸쳐 배포하기 쉬워야 한다고 주장합니다. 이를 위해 본 논문에서는 높은 정확도를 유지하면서 빠르고 메모리 효율적인 점유 예측을 통합하는 플러그 앤 플레이 패러다임인 FlashOCC를 제안합니다. 특히, 우리의 FlashOCC는 최신 복셀 수준 점유 예측 방법을 기반으로 두 가지 개선 사항을 적용했습니다. 첫째, 특징은 BEV에 보존되어 특징 추출을 위해 효율적인 2D 컨벌루션 레이어를 사용할 수 있습니다. 둘째, BEV의 출력 로짓을 3D 공간으로 촉진하기 위해 채널에서 높이로의 변환이 도입되었습니다. 이 문서에서는 까다로운 Occ3D-nuScenes 벤치마크의 다양한 점유 예측 기준에 FlashOCC를 적용하고 그 효과를 검증하기 위해 광범위한 실험을 수행합니다. 결과는 우리의 플러그 앤 플레이 패러다임이 정확성, 런타임 효율성 및 메모리 비용 측면에서 이전의 최첨단 방법보다 성능이 우수하다는 것을 확인하여 배포 잠재력을 보여줍니다. 코드를 사용할 수 있습니다.
하위 픽셀 컨볼루션 기술[26]에서 영감을 받아 이미지 업샘플링을 채널 재배열로 대체하여 채널 간 기능 변환을 달성합니다. 본 연구에서는 채널에서 높이로의 특징 변환을 효율적으로 달성하는 것을 목표로 합니다. BEV 표현의 각 픽셀에 높이 차원의 해당 기둥형 객체에 대한 정보가 포함된 BEV 인식 작업의 개발을 고려하여 직관적으로 채널-높이 변환을 활용하여 BEV 기능을 3D 복셀 수준 점유 로짓으로 평면화합니다. . 따라서 우리의 연구는 그림 1(a)에 표시된 것처럼 새로운 모델 아키텍처를 개발하기보다는 일반 및 플러그 앤 플레이 방식으로 기존 모델을 향상시키는 데 중점을 둡니다. 구체적으로, 우리는 현대 방법에서 3D 컨볼루션 대신 2D 컨볼루션을 직접 사용하고, 3D 컨볼루션 출력에서 파생된 점유 로짓을 2D 컨볼루션을 통해 얻은 BEV 수준 특징의 채널-높이 변환으로 대체합니다. 이 모델은 정확도와 시간 소모 사이에서 최상의 절충점을 달성할 뿐만 아니라 뛰어난 배포 호환성을 보여줍니다.
FlashOcc는 매우 높은 정확도로 실시간 둘러보기 3D 점유 예측을 성공적으로 완료하여 이 분야에서 최고의 획기적인 기여를 했습니다. 또한 뷰 변환기 또는 3D(변형 가능) 컨볼루션 연산자를 피할 수 있는 값비싼 복셀 수준 기능 처리가 필요하지 않으므로 다양한 차량 플랫폼에 배포할 수 있는 향상된 다양성을 보여줍니다. 그림 2에서 볼 수 있듯이 FlashOcc의 입력 데이터는 서라운드 이미지로 구성되어 있으며 출력은 조밀한 점유 예측 결과입니다. 이 기사의 FlashOcc는 다양한 플러그 앤 플레이 방식으로 기존 모델을 향상시키는 데 중점을 두고 있지만 여전히 5가지 기본 모듈로 나눌 수 있습니다. (1) 다중 카메라 이미지에서 이미지 특징을 추출하는 2D 이미지 인코더. (2) 2D 지각 뷰 이미지 특징을 3D BEV 표현으로 매핑하는 데 도움이 되는 뷰 변환 모듈입니다. (3) BEV 특징 정보 처리를 담당하는 BEV 인코더. (4) 예측 모듈을 점유하여 각 복셀의 분할 라벨을 예측합니다. (5) 성능 향상을 위해 과거 정보를 통합하도록 설계된 선택적 시간 융합 모듈입니다.
그림 1.(a)는 제안된 FlashOcc를 플러그 앤 플레이 방식으로 구현하는 방법을 보여줍니다. 현대적인 방법은 3D-Conv로 처리된 복셀 수준의 3D 기능을 사용하여 점유율을 예측합니다. 대조적으로, 우리의 플러그인 대체 모델은 (1) 3D-Conv를 2D-Conv로 대체하고 (2) 3D-Conv에서 파생된 점유 로짓을 빠르고 메모리 효율적인 채널 변환으로 대체하여 구현됩니다. 2D-Conv를 통해 얻은 BEV 수준 특징의 점유 예측. "Conv"라는 약어는 컨볼루션(Convolution)을 의미합니다. (b)는 정확성과 속도, 추론 메모리 소비, 훈련 기간과 같은 요인 간의 균형을 보여줍니다.
그림 2. 이 그림은 FlashOcc의 전체 아키텍처를 보여주며 확대/축소 기능이 있는 컬러로 가장 잘 보입니다. 점선 상자로 지정된 영역은 교체 가능한 모듈이 있음을 나타냅니다. 교체 가능한 각 모듈의 형상은 각각 2D 이미지, BEV 수준, 복셀 수준 기능을 나타내는 아이콘으로 표시됩니다. 연한 파란색 영역은 선택적 시간 융합 모듈에 해당하며, 이 모듈의 사용은 빨간색 스위치의 활성화에 따라 달라집니다.
그림 4는 3D 복셀 수준 표현 처리와 본 기사에서 제안한 플러그인 대체 간의 아키텍처 비교를 보여줍니다.
이 기사에서는 빠르고 메모리 효율적인 점유 예측을 달성하도록 설계된 FlashOCC라는 플러그 앤 플레이 방법을 소개합니다. 이 방법은 2D 컨볼루션을 사용하여 복셀 기반 점유 방법의 3D 컨볼루션을 직접 대체하고 채널-높이 변환을 결합하여 평면화된 BEV 기능을 점유 로짓으로 재구성합니다. FlashOCC는 다양한 복셀 수준 점유 예측 방법 전반에 걸쳐 효율성과 다양성을 입증했습니다. 광범위한 실험을 통해 이 방법이 정확성, 시간 소비, 메모리 효율성 및 배포 친화성 측면에서 이전의 최첨단 방법보다 뛰어난 것으로 나타났습니다. 우리가 아는 한, FlashOCC는 점유 작업에 하위 픽셀 패러다임(채널-높이)을 적용하는 첫 번째 방법입니다. 특히 BEV 수준 기능을 활용하고 계산 3D(변형 가능) 컨벌루션 또는 변환기의 사용을 완전히 피합니다. 모듈. 시각화 결과는 FlashOCC가 높이 정보를 성공적으로 유지한다는 것을 확실하게 보여줍니다. 향후 작업에서 이 방법은 효율적인 온칩 배포를 목표로 자율 주행의 인식 파이프라인에 통합될 것입니다.
Yu, Z., Shu, C., Deng, J. , Lu, K., Liu, Z., Yu, J., Yang, D., Li, H., & Chen, Y. (2023) FlashOcc: 채널 대 높이 플러그인을 통한 빠르고 메모리 효율적인 점유율 예측. . /abs/2311.12058
원본링크 : https://mp.weixin.qq.com/s/JDPlWj8FnZffJZc9PIsvXQ
위 내용은 FlashOcc: 점유 예측을 위한 새로운 아이디어, 정확성, 효율성 및 메모리 사용량의 새로운 SOTA!의 상세 내용입니다. 자세한 내용은 PHP 중국어 웹사이트의 기타 관련 기사를 참조하세요!