원제: FlashOcc: 채널 대 높이 플러그인을 통한 빠르고 메모리 효율적인 점유 예측
논문 링크: https://arxiv.org/pdf/2311.12058.pdf
저자 소속: Dalian University of Technology Houmo AI Ade Rider University
제목 아이디어:
탑승 예측은 3D 객체 감지에서 흔히 발생하는 롱테일 결함과 복잡한 형상 누락을 완화하는 기능으로 인해 자율 주행 시스템의 핵심 구성 요소가 되었습니다. 그러나 3차원 복셀 수준 표현을 처리하면 필연적으로 메모리 및 계산 측면에서 상당한 오버헤드가 발생하여 현재까지 점유 예측 방법의 배포를 방해합니다. 모델을 더 크고 복잡하게 만드는 추세와는 반대로, 이 문서에서는 이상적인 프레임워크는 높은 정확도를 유지하면서 다양한 칩에 걸쳐 배포하기 쉬워야 한다고 주장합니다. 이를 위해 본 논문에서는 높은 정확도를 유지하면서 빠르고 메모리 효율적인 점유 예측을 통합하는 플러그 앤 플레이 패러다임인 FlashOCC를 제안합니다. 특히, 우리의 FlashOCC는 최신 복셀 수준 점유 예측 방법을 기반으로 두 가지 개선 사항을 적용했습니다. 첫째, 특징은 BEV에 보존되어 특징 추출을 위해 효율적인 2D 컨벌루션 레이어를 사용할 수 있습니다. 둘째, BEV의 출력 로짓을 3D 공간으로 촉진하기 위해 채널에서 높이로의 변환이 도입되었습니다. 이 문서에서는 까다로운 Occ3D-nuScenes 벤치마크의 다양한 점유 예측 기준에 FlashOCC를 적용하고 그 효과를 검증하기 위해 광범위한 실험을 수행합니다. 결과는 우리의 플러그 앤 플레이 패러다임이 정확성, 런타임 효율성 및 메모리 비용 측면에서 이전의 최첨단 방법보다 성능이 우수하다는 것을 확인하여 배포 잠재력을 보여줍니다. 코드를 사용할 수 있습니다.
네트워크 설계:
하위 픽셀 컨볼루션 기술[26]에서 영감을 받아 이미지 업샘플링을 채널 재배열로 대체하여 채널 간 기능 변환을 달성합니다. 본 연구에서는 채널에서 높이로의 특징 변환을 효율적으로 달성하는 것을 목표로 합니다. BEV 표현의 각 픽셀에 높이 차원의 해당 기둥형 객체에 대한 정보가 포함된 BEV 인식 작업의 개발을 고려하여 직관적으로 채널-높이 변환을 활용하여 BEV 기능을 3D 복셀 수준 점유 로짓으로 평면화합니다. . 따라서 우리의 연구는 그림 1(a)에 표시된 것처럼 새로운 모델 아키텍처를 개발하기보다는 일반 및 플러그 앤 플레이 방식으로 기존 모델을 향상시키는 데 중점을 둡니다. 구체적으로, 우리는 현대 방법에서 3D 컨볼루션 대신 2D 컨볼루션을 직접 사용하고, 3D 컨볼루션 출력에서 파생된 점유 로짓을 2D 컨볼루션을 통해 얻은 BEV 수준 특징의 채널-높이 변환으로 대체합니다. 이 모델은 정확도와 시간 소모 사이에서 최상의 절충점을 달성할 뿐만 아니라 뛰어난 배포 호환성을 보여줍니다.
FlashOcc는 매우 높은 정확도로 실시간 둘러보기 3D 점유 예측을 성공적으로 완료하여 이 분야에서 최고의 획기적인 기여를 했습니다. 또한 뷰 변환기 또는 3D(변형 가능) 컨볼루션 연산자를 피할 수 있는 값비싼 복셀 수준 기능 처리가 필요하지 않으므로 다양한 차량 플랫폼에 배포할 수 있는 향상된 다양성을 보여줍니다. 그림 2에서 볼 수 있듯이 FlashOcc의 입력 데이터는 서라운드 이미지로 구성되어 있으며 출력은 조밀한 점유 예측 결과입니다. 이 기사의 FlashOcc는 다양한 플러그 앤 플레이 방식으로 기존 모델을 향상시키는 데 중점을 두고 있지만 여전히 5가지 기본 모듈로 나눌 수 있습니다. (1) 다중 카메라 이미지에서 이미지 특징을 추출하는 2D 이미지 인코더. (2) 2D 지각 뷰 이미지 특징을 3D BEV 표현으로 매핑하는 데 도움이 되는 뷰 변환 모듈입니다. (3) BEV 특징 정보 처리를 담당하는 BEV 인코더. (4) 예측 모듈을 점유하여 각 복셀의 분할 라벨을 예측합니다. (5) 성능 향상을 위해 과거 정보를 통합하도록 설계된 선택적 시간 융합 모듈입니다.
그림 1.(a)는 제안된 FlashOcc를 플러그 앤 플레이 방식으로 구현하는 방법을 보여줍니다. 현대적인 방법은 3D-Conv로 처리된 복셀 수준의 3D 기능을 사용하여 점유율을 예측합니다. 대조적으로, 우리의 플러그인 대체 모델은 (1) 3D-Conv를 2D-Conv로 대체하고 (2) 3D-Conv에서 파생된 점유 로짓을 빠르고 메모리 효율적인 채널 변환으로 대체하여 구현됩니다. 2D-Conv를 통해 얻은 BEV 수준 특징의 점유 예측. "Conv"라는 약어는 컨볼루션(Convolution)을 의미합니다. (b)는 정확성과 속도, 추론 메모리 소비, 훈련 기간과 같은 요인 간의 균형을 보여줍니다.
그림 2. 이 그림은 FlashOcc의 전체 아키텍처를 보여주며 확대/축소 기능이 있는 컬러로 가장 잘 보입니다. 점선 상자로 지정된 영역은 교체 가능한 모듈이 있음을 나타냅니다. 교체 가능한 각 모듈의 형상은 각각 2D 이미지, BEV 수준, 복셀 수준 기능을 나타내는 아이콘으로 표시됩니다. 연한 파란색 영역은 선택적 시간 융합 모듈에 해당하며, 이 모듈의 사용은 빨간색 스위치의 활성화에 따라 달라집니다.
그림 4는 3D 복셀 수준 표현 처리와 본 기사에서 제안한 플러그인 대체 간의 아키텍처 비교를 보여줍니다.
실험 결과:
요약:
이 기사에서는 빠르고 메모리 효율적인 점유 예측을 달성하도록 설계된 FlashOCC라는 플러그 앤 플레이 방법을 소개합니다. 이 방법은 2D 컨볼루션을 사용하여 복셀 기반 점유 방법의 3D 컨볼루션을 직접 대체하고 채널-높이 변환을 결합하여 평면화된 BEV 기능을 점유 로짓으로 재구성합니다. FlashOCC는 다양한 복셀 수준 점유 예측 방법 전반에 걸쳐 효율성과 다양성을 입증했습니다. 광범위한 실험을 통해 이 방법이 정확성, 시간 소비, 메모리 효율성 및 배포 친화성 측면에서 이전의 최첨단 방법보다 뛰어난 것으로 나타났습니다. 우리가 아는 한, FlashOCC는 점유 작업에 하위 픽셀 패러다임(채널-높이)을 적용하는 첫 번째 방법입니다. 특히 BEV 수준 기능을 활용하고 계산 3D(변형 가능) 컨벌루션 또는 변환기의 사용을 완전히 피합니다. 모듈. 시각화 결과는 FlashOCC가 높이 정보를 성공적으로 유지한다는 것을 확실하게 보여줍니다. 향후 작업에서 이 방법은 효율적인 온칩 배포를 목표로 자율 주행의 인식 파이프라인에 통합될 것입니다.
인용:
Yu, Z., Shu, C., Deng, J. , Lu, K., Liu, Z., Yu, J., Yang, D., Li, H., & Chen, Y. (2023) FlashOcc: 채널 대 높이 플러그인을 통한 빠르고 메모리 효율적인 점유율 예측. . /abs/2311.12058
원본링크 : https://mp.weixin.qq.com/s/JDPlWj8FnZffJZc9PIsvXQ
위 내용은 FlashOcc: 점유 예측을 위한 새로운 아이디어, 정확성, 효율성 및 메모리 사용량의 새로운 SOTA!의 상세 내용입니다. 자세한 내용은 PHP 중국어 웹사이트의 기타 관련 기사를 참조하세요!

젬마 범위로 언어 모델의 내부 작업 탐색 AI 언어 모델의 복잡성을 이해하는 것은 중요한 도전입니다. 포괄적 인 툴킷 인 Gemma Scope의 Google 릴리스는 연구원에게 강력한 강력한 방법을 제공합니다.

비즈니스 성공 잠금 해제 : 비즈니스 인텔리전스 분석가가되는 가이드 원시 데이터를 조직의 성장을 이끌어내는 실행 가능한 통찰력으로 바꾸는 것을 상상해보십시오. 이것은 비즈니스 인텔리전스 (BI) 분석가의 힘 - GU에서 중요한 역할입니다.

SQL의 Alter Table 문 : 데이터베이스에 열을 동적으로 추가 데이터 관리에서 SQL의 적응성이 중요합니다. 데이터베이스 구조를 즉시 조정해야합니까? Alter Table 문은 솔루션입니다. 이 안내서는 Colu를 추가합니다

소개 두 전문가가 중요한 프로젝트에 대해 협력하는 번화 한 사무실을 상상해보십시오. 비즈니스 분석가는 회사의 목표, 개선 영역을 식별하며 시장 동향과의 전략적 조정을 보장합니다. 시무

Excel 데이터 계산 및 분석 : 카운트 및 카운트 기능에 대한 자세한 설명 정확한 데이터 계산 및 분석은 특히 큰 데이터 세트로 작업 할 때 Excel에서 중요합니다. Excel은이를 달성하기위한 다양한 기능을 제공하며, 카운트 및 카운타 기능은 다른 조건에서 셀 수를 계산하기위한 핵심 도구입니다. 두 기능 모두 셀을 계산하는 데 사용되지만 설계 목표는 다른 데이터 유형을 대상으로합니다. Count 및 Counta 기능의 특정 세부 사항을 파고 고유 한 기능과 차이점을 강조하고 데이터 분석에 적용하는 방법을 배우겠습니다. 핵심 포인트 개요 수를 이해하고 쿠션하십시오

Chrome 's AI Revolution : 개인화되고 효율적인 탐색 경험 인공 지능 (AI)은 우리의 일상 생활을 빠르게 변화시키고 있으며 Chrome은 웹 브라우징 경기장에서 요금을 주도하고 있습니다. 이 기사는 흥분을 탐구합니다

재구성 영향 : 4 배의 결론 너무 오랫동안 대화는 AI의 영향에 대한 좁은 견해로 인해 주로 이익의 결론에 중점을 두었습니다. 그러나보다 전체적인 접근 방식은 BU의 상호 연결성을 인식합니다.

상황이 그 시점을 꾸준히 움직이고 있습니다. 양자 서비스 제공 업체와 신생 기업에 쏟아지는 투자는 업계의 중요성을 이해하고 있음을 보여줍니다. 그리고 점점 더 많은 실제 사용 사례가 그 가치를 보여주기 위해 떠오르고 있습니다.


핫 AI 도구

Undresser.AI Undress
사실적인 누드 사진을 만들기 위한 AI 기반 앱

AI Clothes Remover
사진에서 옷을 제거하는 온라인 AI 도구입니다.

Undress AI Tool
무료로 이미지를 벗다

Clothoff.io
AI 옷 제거제

AI Hentai Generator
AI Hentai를 무료로 생성하십시오.

인기 기사

뜨거운 도구

mPDF
mPDF는 UTF-8로 인코딩된 HTML에서 PDF 파일을 생성할 수 있는 PHP 라이브러리입니다. 원저자인 Ian Back은 자신의 웹 사이트에서 "즉시" PDF 파일을 출력하고 다양한 언어를 처리하기 위해 mPDF를 작성했습니다. HTML2FPDF와 같은 원본 스크립트보다 유니코드 글꼴을 사용할 때 속도가 느리고 더 큰 파일을 생성하지만 CSS 스타일 등을 지원하고 많은 개선 사항이 있습니다. RTL(아랍어, 히브리어), CJK(중국어, 일본어, 한국어)를 포함한 거의 모든 언어를 지원합니다. 중첩된 블록 수준 요소(예: P, DIV)를 지원합니다.

안전한 시험 브라우저
안전한 시험 브라우저는 온라인 시험을 안전하게 치르기 위한 보안 브라우저 환경입니다. 이 소프트웨어는 모든 컴퓨터를 안전한 워크스테이션으로 바꿔줍니다. 이는 모든 유틸리티에 대한 액세스를 제어하고 학생들이 승인되지 않은 리소스를 사용하는 것을 방지합니다.

ZendStudio 13.5.1 맥
강력한 PHP 통합 개발 환경

SublimeText3 Mac 버전
신 수준의 코드 편집 소프트웨어(SublimeText3)

Dreamweaver Mac版
시각적 웹 개발 도구
