>  기사  >  기술 주변기기  >  FlashOcc: 점유 예측을 위한 새로운 아이디어, 정확성, 효율성 및 메모리 사용량의 새로운 SOTA!

FlashOcc: 점유 예측을 위한 새로운 아이디어, 정확성, 효율성 및 메모리 사용량의 새로운 SOTA!

WBOY
WBOY앞으로
2023-11-28 11:21:50923검색

원제: FlashOcc: 채널 대 높이 플러그인을 통한 빠르고 메모리 효율적인 점유 예측

논문 링크: https://arxiv.org/pdf/2311.12058.pdf

저자 소속: Dalian University of Technology Houmo AI Ade Rider University

FlashOcc: 점유 예측을 위한 새로운 아이디어, 정확성, 효율성 및 메모리 사용량의 새로운 SOTA!

제목 아이디어:

탑승 예측은 3D 객체 감지에서 흔히 발생하는 롱테일 결함과 복잡한 형상 누락을 완화하는 기능으로 인해 자율 주행 시스템의 핵심 구성 요소가 되었습니다. 그러나 3차원 복셀 수준 표현을 처리하면 필연적으로 메모리 및 계산 측면에서 상당한 오버헤드가 발생하여 현재까지 점유 예측 방법의 배포를 방해합니다. 모델을 더 크고 복잡하게 만드는 추세와는 반대로, 이 문서에서는 이상적인 프레임워크는 높은 정확도를 유지하면서 다양한 칩에 걸쳐 배포하기 쉬워야 한다고 주장합니다. 이를 위해 본 논문에서는 높은 정확도를 유지하면서 빠르고 메모리 효율적인 점유 예측을 통합하는 플러그 앤 플레이 패러다임인 FlashOCC를 제안합니다. 특히, 우리의 FlashOCC는 최신 복셀 수준 점유 예측 방법을 기반으로 두 가지 개선 사항을 적용했습니다. 첫째, 특징은 BEV에 보존되어 특징 추출을 위해 효율적인 2D 컨벌루션 레이어를 사용할 수 있습니다. 둘째, BEV의 출력 로짓을 3D 공간으로 촉진하기 위해 채널에서 높이로의 변환이 도입되었습니다. 이 문서에서는 까다로운 Occ3D-nuScenes 벤치마크의 다양한 점유 예측 기준에 FlashOCC를 적용하고 그 효과를 검증하기 위해 광범위한 실험을 수행합니다. 결과는 우리의 플러그 앤 플레이 패러다임이 정확성, 런타임 효율성 및 메모리 비용 측면에서 이전의 최첨단 방법보다 성능이 우수하다는 것을 확인하여 배포 잠재력을 보여줍니다. 코드를 사용할 수 있습니다.

네트워크 설계:

하위 픽셀 컨볼루션 기술[26]에서 영감을 받아 이미지 업샘플링을 채널 재배열로 대체하여 채널 간 기능 변환을 달성합니다. 본 연구에서는 채널에서 높이로의 특징 변환을 효율적으로 달성하는 것을 목표로 합니다. BEV 표현의 각 픽셀에 높이 차원의 해당 기둥형 객체에 대한 정보가 포함된 BEV 인식 작업의 개발을 고려하여 직관적으로 채널-높이 변환을 활용하여 BEV 기능을 3D 복셀 수준 점유 로짓으로 평면화합니다. . 따라서 우리의 연구는 그림 1(a)에 표시된 것처럼 새로운 모델 아키텍처를 개발하기보다는 일반 및 플러그 앤 플레이 방식으로 기존 모델을 향상시키는 데 중점을 둡니다. 구체적으로, 우리는 현대 방법에서 3D 컨볼루션 대신 2D 컨볼루션을 직접 사용하고, 3D 컨볼루션 출력에서 ​​파생된 점유 로짓을 2D 컨볼루션을 통해 얻은 BEV 수준 특징의 채널-높이 변환으로 대체합니다. 이 모델은 정확도와 시간 소모 사이에서 최상의 절충점을 달성할 뿐만 아니라 뛰어난 배포 호환성을 보여줍니다.

FlashOcc는 매우 높은 정확도로 실시간 둘러보기 3D 점유 예측을 성공적으로 완료하여 이 분야에서 최고의 획기적인 기여를 했습니다. 또한 뷰 변환기 또는 3D(변형 가능) 컨볼루션 연산자를 피할 수 있는 값비싼 복셀 수준 기능 처리가 필요하지 않으므로 다양한 차량 플랫폼에 배포할 수 있는 향상된 다양성을 보여줍니다. 그림 2에서 볼 수 있듯이 FlashOcc의 입력 데이터는 서라운드 이미지로 구성되어 있으며 출력은 조밀한 점유 예측 결과입니다. 이 기사의 FlashOcc는 다양한 플러그 앤 플레이 방식으로 기존 모델을 향상시키는 데 중점을 두고 있지만 여전히 5가지 기본 모듈로 나눌 수 있습니다. (1) 다중 카메라 이미지에서 이미지 특징을 추출하는 2D 이미지 인코더. (2) 2D 지각 뷰 이미지 특징을 3D BEV 표현으로 매핑하는 데 도움이 되는 뷰 변환 모듈입니다. (3) BEV 특징 정보 처리를 담당하는 BEV 인코더. (4) 예측 모듈을 점유하여 각 복셀의 분할 라벨을 예측합니다. (5) 성능 향상을 위해 과거 정보를 통합하도록 설계된 선택적 시간 융합 모듈입니다.

FlashOcc: 점유 예측을 위한 새로운 아이디어, 정확성, 효율성 및 메모리 사용량의 새로운 SOTA!

그림 1.(a)는 제안된 FlashOcc를 플러그 앤 플레이 방식으로 구현하는 방법을 보여줍니다. 현대적인 방법은 3D-Conv로 처리된 복셀 수준의 3D 기능을 사용하여 점유율을 예측합니다. 대조적으로, 우리의 플러그인 대체 ​​모델은 (1) 3D-Conv를 2D-Conv로 대체하고 (2) 3D-Conv에서 파생된 점유 로짓을 빠르고 메모리 효율적인 채널 변환으로 대체하여 구현됩니다. 2D-Conv를 통해 얻은 BEV 수준 특징의 점유 예측. "Conv"라는 약어는 컨볼루션(Convolution)을 의미합니다. (b)는 정확성과 속도, 추론 메모리 소비, 훈련 기간과 같은 요인 간의 균형을 보여줍니다.

FlashOcc: 점유 예측을 위한 새로운 아이디어, 정확성, 효율성 및 메모리 사용량의 새로운 SOTA!

그림 2. 이 그림은 FlashOcc의 전체 아키텍처를 보여주며 확대/축소 기능이 있는 컬러로 가장 잘 보입니다. 점선 상자로 지정된 영역은 교체 가능한 모듈이 있음을 나타냅니다. 교체 가능한 각 모듈의 형상은 각각 2D 이미지, BEV 수준, 복셀 수준 기능을 나타내는 아이콘으로 표시됩니다. 연한 파란색 영역은 선택적 시간 융합 모듈에 해당하며, 이 모듈의 사용은 빨간색 스위치의 활성화에 따라 달라집니다.

FlashOcc: 점유 예측을 위한 새로운 아이디어, 정확성, 효율성 및 메모리 사용량의 새로운 SOTA!

그림 4는 3D 복셀 수준 표현 처리와 본 기사에서 제안한 플러그인 대체 ​​간의 아키텍처 비교를 보여줍니다.

실험 결과:

FlashOcc: 점유 예측을 위한 새로운 아이디어, 정확성, 효율성 및 메모리 사용량의 새로운 SOTA!FlashOcc: 점유 예측을 위한 새로운 아이디어, 정확성, 효율성 및 메모리 사용량의 새로운 SOTA!FlashOcc: 점유 예측을 위한 새로운 아이디어, 정확성, 효율성 및 메모리 사용량의 새로운 SOTA!

FlashOcc: 점유 예측을 위한 새로운 아이디어, 정확성, 효율성 및 메모리 사용량의 새로운 SOTA!

FlashOcc: 점유 예측을 위한 새로운 아이디어, 정확성, 효율성 및 메모리 사용량의 새로운 SOTA!

FlashOcc: 점유 예측을 위한 새로운 아이디어, 정확성, 효율성 및 메모리 사용량의 새로운 SOTA!

FlashOcc: 점유 예측을 위한 새로운 아이디어, 정확성, 효율성 및 메모리 사용량의 새로운 SOTA!

요약:

이 기사에서는 빠르고 메모리 효율적인 점유 예측을 달성하도록 설계된 FlashOCC라는 플러그 앤 플레이 방법을 소개합니다. 이 방법은 2D 컨볼루션을 사용하여 복셀 기반 점유 방법의 3D 컨볼루션을 직접 대체하고 채널-높이 변환을 결합하여 평면화된 BEV 기능을 점유 로짓으로 재구성합니다. FlashOCC는 다양한 복셀 수준 점유 예측 방법 전반에 걸쳐 효율성과 다양성을 입증했습니다. 광범위한 실험을 통해 이 방법이 정확성, 시간 소비, 메모리 효율성 및 배포 친화성 측면에서 이전의 최첨단 방법보다 뛰어난 것으로 나타났습니다. 우리가 아는 한, FlashOCC는 점유 작업에 하위 픽셀 패러다임(채널-높이)을 적용하는 첫 번째 방법입니다. 특히 BEV 수준 기능을 활용하고 계산 3D(변형 가능) 컨벌루션 또는 변환기의 사용을 완전히 피합니다. 모듈. 시각화 결과는 FlashOCC가 높이 정보를 성공적으로 유지한다는 것을 확실하게 보여줍니다. 향후 작업에서 이 방법은 효율적인 온칩 배포를 목표로 자율 주행의 인식 파이프라인에 통합될 것입니다.

인용:

Yu, Z., Shu, C., Deng, J. , Lu, K., Liu, Z., Yu, J., Yang, D., Li, H., & Chen, Y. (2023) FlashOcc: 채널 대 높이 플러그인을 통한 빠르고 메모리 효율적인 점유율 예측. . /abs/2311.12058

FlashOcc: 점유 예측을 위한 새로운 아이디어, 정확성, 효율성 및 메모리 사용량의 새로운 SOTA!

원본링크 : https://mp.weixin.qq.com/s/JDPlWj8FnZffJZc9PIsvXQ

위 내용은 FlashOcc: 점유 예측을 위한 새로운 아이디어, 정확성, 효율성 및 메모리 사용량의 새로운 SOTA!의 상세 내용입니다. 자세한 내용은 PHP 중국어 웹사이트의 기타 관련 기사를 참조하세요!

성명:
이 기사는 51cto.com에서 복제됩니다. 침해가 있는 경우 admin@php.cn으로 문의하시기 바랍니다. 삭제