>  기사  >  기술 주변기기  >  논문부터 코드까지, 최첨단 연구부터 산업 구현까지 BEV 인식을 종합적으로 이해합니다.

논문부터 코드까지, 최첨단 연구부터 산업 구현까지 BEV 인식을 종합적으로 이해합니다.

王林
王林앞으로
2023-04-13 22:31:011442검색

논문부터 코드까지, 최첨단 연구부터 산업 구현까지 BEV 인식을 종합적으로 이해합니다.

BEV 지각이란 정확히 무엇인가요? 자율주행 학계와 산업계가 주목하고 있는 BEV 인식 측면은 무엇인가? 이 기사에서는 답을 알려줄 것입니다.

자율 주행 분야에서는 인식 모델이 강력한 조감도(BEV) 표현을 학습하도록 하는 것이 추세이며 업계와 학계의 광범위한 관심을 끌고 있습니다. 전면 뷰나 투시 뷰에서 감지, 분할, 추적 등의 작업을 수행하는 데 기반을 둔 자율 주행 분야의 대부분의 이전 모델과 비교할 때, BEV(Bird's Eye View) 표현을 사용하면 모델이 막힌 차량을 더 잘 식별하고 후속 모듈(예: 계획, 제어)의 개발 및 배포를 촉진합니다.

BEV 인식 연구는 자율주행 분야에 막대한 잠재적 영향을 미칠 수 있으며 학계와 업계의 장기적인 관심과 투자가 필요하다고 볼 수 있습니다. 그렇다면 BEV 인식이란 정확히 무엇일까요? 자율주행 분야 학계와 산업계 리더들이 주목하고 있는 BEV 인식의 내용은 무엇인가? 이 글은 BEVPerception Survey를 통해 답변을 공개합니다.

BEV인식 설문조사는 상하이 인공 지능 연구소Autonomous Driving OpenDriveLab 팀과 SenseTime 연구소가 공동으로 작성한 논문입니다. "조감도 인식의 악마 탐구: 리뷰 , 평가 및 레시피" 》실용적인 도구 제시 방법은 BEVPercption 기반의 최신 문헌 연구와 PyTorch 기반의 오픈 소스 BEV 인식 도구 상자의 두 부분으로 나뉩니다.

논문부터 코드까지, 최첨단 연구부터 산업 구현까지 BEV 인식을 종합적으로 이해합니다.

  • 논문 주소: https://arxiv.org/abs/2209.05324
  • 프로젝트 주소: https://github.com/OpenPerceptionX/BEVPerception-Survey-Re e

개요 해석, 기술적 해석

BEVPerception Survey 최신 문헌 검토 연구는 주로 BEV 카메라, BEV 라이더 및 BEV 융합의 세 부분으로 구성됩니다. BEV 카메라는 3D 객체 감지 또는 여러 주변 카메라의 분할을 위한 비전 전용 또는 비전 중심 알고리즘을 나타냅니다. BEV 라이더는 포인트 클라우드 입력의 감지 또는 분할 작업을 설명합니다. BEV 융합은 여러 센서의 감지 또는 분할 작업을 설명합니다. 입력 융합 메커니즘 카메라, LiDAR, 글로벌 내비게이션 시스템, 주행 거리 측정, HD 지도, CAN 버스 등과 같은

BEV Perception Toolbox 는 BEV 카메라를 기반으로 한 3D 물체 감지를 위한 플랫폼을 제공하며 Waymo 데이터 세트에 대한 실험 플랫폼을 제공하여 소규모 데이터 세트에 대한 수동 튜토리얼과 실험을 수행할 수 있습니다.

논문부터 코드까지, 최첨단 연구부터 산업 구현까지 BEV 인식을 종합적으로 이해합니다.

그림 1: BEVPerception 설문 조사 프레임워크

특히 BEV 카메라는 3D 객체 감지 또는 여러 주변 카메라의 분할을 위한 알고리즘을 나타냅니다. BEV LiDAR는 포인트 클라우드를 입력으로 사용하여 객체를 완성하는 알고리즘을 나타냅니다. 감지 또는 분할 작업 BEV 융합은 카메라, LiDAR, GNSS, 주행 기록계, HD-Map, CAN 버스 등과 같은 여러 센서의 출력을 입력으로 사용합니다.

BEVPercption 문헌 검토 연구

BEV 카메라

BEV 카메라 인식은 2D 특징 추출기, 뷰 변환 및 3D 디코더의 세 부분으로 구성됩니다. 아래 그림은 BEV 카메라 인식 흐름도를 보여줍니다. 뷰 변환에는 3D 정보를 인코딩하는 두 가지 방법이 있습니다. 하나는 2D 특징에서 깊이 정보를 예측하는 것이고, 다른 하나는 3D 공간에서 2D 특징을 샘플링하는 것입니다.


논문부터 코드까지, 최첨단 연구부터 산업 구현까지 BEV 인식을 종합적으로 이해합니다.

그림 2: BEV 카메라 인식 흐름도

2D 특징 추출기의 경우 3D 인식 작업에서 빌릴 수 있는 2D 인식 작업 경험이 많이 있습니다. 주요 개입 훈련의 형태.

뷰 변환 모듈은 2D 인식 시스템과는 매우 다른 측면입니다. 위 그림에서 볼 수 있듯이 뷰 변환을 수행하는 방법에는 일반적으로 두 가지가 있습니다. 하나는 3D 공간에서 2D 공간으로 변환하는 것이고, 다른 하나는 2D 공간에서 3D 공간으로 변환하는 것입니다. 이 두 가지 변환 방법은 3D에서 사용됩니다. 시스템의 물리학에 대한 사전 지식을 확보하거나 감독을 위해 추가 3D 정보를 활용합니다. 모든 3D 인식 방법에 뷰 변환 모듈이 있는 것은 아니라는 점은 주목할 가치가 있습니다. 예를 들어 일부 방법은 2D 공간의 기능에서 직접 3D 공간의 개체를 감지합니다.

3D 디코더 2D/3D 공간의 특징을 수신하여 3D 인식 결과를 출력합니다. 대부분의 3D 디코더는 LiDAR 기반 인식 모델로 설계되었습니다. 이러한 방법은 BEV 공간에서 감지를 수행하지만 2D 공간의 기능을 활용하고 3D 객체의 위치를 ​​직접 회귀하는 일부 3D 디코더가 여전히 있습니다.

BEV LiDAR

BEV LiDAR 인식의 일반적인 프로세스에는 주로 포인트 클라우드 데이터를 BEV 표현으로 변환하는 두 가지 분기가 포함됩니다. 아래 그림은 BEV 라이더 감지 흐름도를 보여줍니다. 상위 분기는 보다 정확한 감지 결과를 제공하기 위해 3D 공간에서 포인트 클라우드 특징을 추출합니다. 하위 브랜치는 2D 공간에서 BEV 특징을 추출하여 보다 효율적인 네트워크를 제공합니다. 원시 포인트 클라우드에서 작동하는 포인트 기반 방법 외에도 복셀 기반 방법은 점을 개별 그리드로 복셀화하여 연속적인 3D 좌표를 이산화하여 보다 효율적인 표현을 제공합니다. 이산 복셀 표현을 기반으로 3D 컨볼루션 또는 3D 희소 컨볼루션을 사용하여 포인트 클라우드 특징을 추출할 수 있습니다.

논문부터 코드까지, 최첨단 연구부터 산업 구현까지 BEV 인식을 종합적으로 이해합니다.

그림 3: BEV 라이더 감지 흐름도

BEV 융합

BEV 감지 융합 알고리즘에는 acad에 적합한 PV 감지와 BEV 감지의 두 가지 방법이 있습니다. 미아와 산업 . 아래 그림은 PV 센싱과 BEV 센싱 흐름도를 비교한 것입니다. 둘 사이의 주요 차이점은 2D에서 3D로의 변환 및 융합 모듈입니다. PV 인식 순서도에서는 다양한 알고리즘의 결과가 먼저 3D 공간으로 변환된 다음 사전 지식이나 수동으로 설계된 규칙을 사용하여 융합됩니다. BEV 인식 흐름도에서는 PV 특징 맵을 BEV 관점으로 변환한 후 BEV 공간에 융합하여 최종 결과를 얻습니다. 이를 통해 원래 특징 정보의 유지를 극대화하고 과도한 수동 설계를 방지합니다.

논문부터 코드까지, 최첨단 연구부터 산업 구현까지 BEV 인식을 종합적으로 이해합니다.

그림 4: PV 감지(왼쪽) 및 BEV 감지(오른쪽) 흐름도

BEV 감지 모델에 적합한 데이터 세트

BEV 감지 작업을 위한 많은 데이터 세트가 있습니다. 일반적으로 데이터 세트는 다양한 장면으로 구성되며 각 장면은 데이터 세트마다 길이가 다릅니다. 다음 표에는 학계에서 일반적으로 사용되는 데이터 세트가 요약되어 있습니다. Waymo 데이터세트에는 다른 데이터세트보다 더 다양한 장면과 풍부한 3D 감지 상자 주석이 있음을 알 수 있습니다.

논문부터 코드까지, 최첨단 연구부터 산업 구현까지 BEV 인식을 종합적으로 이해합니다.

표 1: BEV 감지 데이터 세트 목록

그러나 현재 Waymo에서 개발한 BEV 감지 작업용 소프트웨어는 학계에 공개되지 않았습니다. 따라서 우리는 Waymo 데이터 세트를 기반으로 한 BEV 감지 작업 개발을 촉진하기 위해 Waymo 데이터 세트를 기반으로 개발하기로 결정했습니다.

Toolbox - BEV 인식 도구 상자

BEVFormer는 일반적으로 사용되는 BEV 인식 방법으로 시공간 변환기를 사용하여 백본 네트워크에서 추출한 특징을 다중 뷰 입력에서 BEV 특징으로 변환한 후 BEV 특징을 탐지에 입력합니다. 최종 테스트 결과를 받으러 갑니다. BEVFormer에는 2D 이미지 특징을 3D 특징으로 정밀하게 변환하는 기능과 추출한 BEV 특징을 다양한 감지 헤드에 적용할 수 있는 두 가지 기능이 있습니다. 일련의 방법을 통해 BEVFormer의 뷰 변환 품질과 최종 감지 성능을 더욱 향상시켰습니다.

BEVFormer++로 CVPR 2022 Waymo Challenge 1위를 차지한 후, 사용하기 쉬운 Waymo Open Dataset 데이터 처리 도구의 전체 세트를 제공하여 Toolbox - BEV Perception Toolbox를 출시했습니다. 이는 모델 성능(데이터 향상, 감지 헤드, 손실 기능, 모델 통합 등을 포함하되 이에 국한되지 않음)을 크게 향상할 수 있는 일련의 방법을 통합하고 mmDetection3d와 같이 현장에서 널리 사용되는 오픈 소스 프레임워크와 호환됩니다. 그리고 디텍트론2. 기본 Waymo 데이터 세트와 비교하여 BEV 인식 도구 상자는 다양한 유형의 개발자가 사용할 수 있도록 사용 기술을 최적화하고 향상시킵니다. 아래 그림은 Waymo 데이터 세트를 기반으로 BEV 인식 도구 상자를 사용하는 예를 보여줍니다.

논문부터 코드까지, 최첨단 연구부터 산업 구현까지 BEV 인식을 종합적으로 이해합니다.

그림 5: Waymo 데이터 세트를 기반으로 한 Toolbox 사용 예

Summary

  • BEVPerception Survey는 높은 수준의 개념 정교화를 포함하여 최근 몇 년간 BEV 인식 기술 연구의 전반적인 상황을 요약합니다. 그리고 좀 더 심도 깊은 논의를 하게 됩니다. BEV 센싱과 관련된 문헌의 종합적인 분석은 깊이 추정, 뷰 변환, 센서 융합, 도메인 적응 등과 같은 핵심 문제를 다루고 산업 시스템에서 BEV 센싱 적용에 대한 보다 심층적인 설명을 제공합니다.
  • 이론적 기여 외에도 BEVPerception Survey는 일련의 교육 데이터 향상 전략 및 효율적인 인코더 설계, 손실 함수를 포함하여 카메라 기반 3D 조감도(BEV) 객체 감지 성능을 향상하기 위한 매우 실용적인 도구 상자도 제공합니다. 설계, 테스트 데이터 향상, 모델 통합 전략 등은 물론 Waymo 데이터 세트에 이러한 기술을 구현합니다. 더 많은 연구자들이 '사용하고 가져가는 것'을 실현할 수 있도록 돕고, 자율주행 산업에 종사하는 연구자들에게 더 많은 편의를 제공할 수 있기를 바랍니다.

BEVPerception 설문조사가 사용자가 고성능 BEV 인식 모델을 쉽게 사용할 수 있도록 도울 뿐만 아니라, 초보자가 BEV 인식 모델을 시작하는 데 좋은 출발점이 되기를 바랍니다. 우리는 자율주행 분야에서 연구개발의 한계를 뛰어넘는 데 전념하고 있으며, 자율주행 관련 연구의 현실 세계 적용 가능성을 지속적으로 탐구하기 위해 학계와 의견을 공유하고 논의를 교환할 수 있기를 기대합니다.

위 내용은 논문부터 코드까지, 최첨단 연구부터 산업 구현까지 BEV 인식을 종합적으로 이해합니다.의 상세 내용입니다. 자세한 내용은 PHP 중국어 웹사이트의 기타 관련 기사를 참조하세요!

성명:
이 기사는 51cto.com에서 복제됩니다. 침해가 있는 경우 admin@php.cn으로 문의하시기 바랍니다. 삭제