찾다
기술 주변기기일체 포함논문부터 코드까지, 최첨단 연구부터 산업 구현까지 BEV 인식을 종합적으로 이해합니다.

논문부터 코드까지, 최첨단 연구부터 산업 구현까지 BEV 인식을 종합적으로 이해합니다.

BEV 지각이란 정확히 무엇인가요? 자율주행 학계와 산업계가 주목하고 있는 BEV 인식 측면은 무엇인가? 이 기사에서는 답을 알려줄 것입니다.

자율 주행 분야에서는 인식 모델이 강력한 조감도(BEV) 표현을 학습하도록 하는 것이 추세이며 업계와 학계의 광범위한 관심을 끌고 있습니다. 전면 뷰나 투시 뷰에서 감지, 분할, 추적 등의 작업을 수행하는 데 기반을 둔 자율 주행 분야의 대부분의 이전 모델과 비교할 때, BEV(Bird's Eye View) 표현을 사용하면 모델이 막힌 차량을 더 잘 식별하고 후속 모듈(예: 계획, 제어)의 개발 및 배포를 촉진합니다.

BEV 인식 연구는 자율주행 분야에 막대한 잠재적 영향을 미칠 수 있으며 학계와 업계의 장기적인 관심과 투자가 필요하다고 볼 수 있습니다. 그렇다면 BEV 인식이란 정확히 무엇일까요? 자율주행 분야 학계와 산업계 리더들이 주목하고 있는 BEV 인식의 내용은 무엇인가? 이 글은 BEVPerception Survey를 통해 답변을 공개합니다.

BEV인식 설문조사는 상하이 인공 지능 연구소Autonomous Driving OpenDriveLab 팀과 SenseTime 연구소가 공동으로 작성한 논문입니다. "조감도 인식의 악마 탐구: 리뷰 , 평가 및 레시피" 》실용적인 도구 제시 방법은 BEVPercption 기반의 최신 문헌 연구와 PyTorch 기반의 오픈 소스 BEV 인식 도구 상자의 두 부분으로 나뉩니다.

논문부터 코드까지, 최첨단 연구부터 산업 구현까지 BEV 인식을 종합적으로 이해합니다.

  • 논문 주소: https://arxiv.org/abs/2209.05324
  • 프로젝트 주소: https://github.com/OpenPerceptionX/BEVPerception-Survey-Re e

개요 해석, 기술적 해석

BEVPerception Survey 최신 문헌 검토 연구는 주로 BEV 카메라, BEV 라이더 및 BEV 융합의 세 부분으로 구성됩니다. BEV 카메라는 3D 객체 감지 또는 여러 주변 카메라의 분할을 위한 비전 전용 또는 비전 중심 알고리즘을 나타냅니다. BEV 라이더는 포인트 클라우드 입력의 감지 또는 분할 작업을 설명합니다. BEV 융합은 여러 센서의 감지 또는 분할 작업을 설명합니다. 입력 융합 메커니즘 카메라, LiDAR, 글로벌 내비게이션 시스템, 주행 거리 측정, HD 지도, CAN 버스 등과 같은

BEV Perception Toolbox 는 BEV 카메라를 기반으로 한 3D 물체 감지를 위한 플랫폼을 제공하며 Waymo 데이터 세트에 대한 실험 플랫폼을 제공하여 소규모 데이터 세트에 대한 수동 튜토리얼과 실험을 수행할 수 있습니다.

논문부터 코드까지, 최첨단 연구부터 산업 구현까지 BEV 인식을 종합적으로 이해합니다.

그림 1: BEVPerception 설문 조사 프레임워크

특히 BEV 카메라는 3D 객체 감지 또는 여러 주변 카메라의 분할을 위한 알고리즘을 나타냅니다. BEV LiDAR는 포인트 클라우드를 입력으로 사용하여 객체를 완성하는 알고리즘을 나타냅니다. 감지 또는 분할 작업 BEV 융합은 카메라, LiDAR, GNSS, 주행 기록계, HD-Map, CAN 버스 등과 같은 여러 센서의 출력을 입력으로 사용합니다.

BEVPercption 문헌 검토 연구

BEV 카메라

BEV 카메라 인식은 2D 특징 추출기, 뷰 변환 및 3D 디코더의 세 부분으로 구성됩니다. 아래 그림은 BEV 카메라 인식 흐름도를 보여줍니다. 뷰 변환에는 3D 정보를 인코딩하는 두 가지 방법이 있습니다. 하나는 2D 특징에서 깊이 정보를 예측하는 것이고, 다른 하나는 3D 공간에서 2D 특징을 샘플링하는 것입니다.


논문부터 코드까지, 최첨단 연구부터 산업 구현까지 BEV 인식을 종합적으로 이해합니다.

그림 2: BEV 카메라 인식 흐름도

2D 특징 추출기의 경우 3D 인식 작업에서 빌릴 수 있는 2D 인식 작업 경험이 많이 있습니다. 주요 개입 훈련의 형태.

뷰 변환 모듈은 2D 인식 시스템과는 매우 다른 측면입니다. 위 그림에서 볼 수 있듯이 뷰 변환을 수행하는 방법에는 일반적으로 두 가지가 있습니다. 하나는 3D 공간에서 2D 공간으로 변환하는 것이고, 다른 하나는 2D 공간에서 3D 공간으로 변환하는 것입니다. 이 두 가지 변환 방법은 3D에서 사용됩니다. 시스템의 물리학에 대한 사전 지식을 확보하거나 감독을 위해 추가 3D 정보를 활용합니다. 모든 3D 인식 방법에 뷰 변환 모듈이 있는 것은 아니라는 점은 주목할 가치가 있습니다. 예를 들어 일부 방법은 2D 공간의 기능에서 직접 3D 공간의 개체를 감지합니다.

3D 디코더 2D/3D 공간의 특징을 수신하여 3D 인식 결과를 출력합니다. 대부분의 3D 디코더는 LiDAR 기반 인식 모델로 설계되었습니다. 이러한 방법은 BEV 공간에서 감지를 수행하지만 2D 공간의 기능을 활용하고 3D 객체의 위치를 ​​직접 회귀하는 일부 3D 디코더가 여전히 있습니다.

BEV LiDAR

BEV LiDAR 인식의 일반적인 프로세스에는 주로 포인트 클라우드 데이터를 BEV 표현으로 변환하는 두 가지 분기가 포함됩니다. 아래 그림은 BEV 라이더 감지 흐름도를 보여줍니다. 상위 분기는 보다 정확한 감지 결과를 제공하기 위해 3D 공간에서 포인트 클라우드 특징을 추출합니다. 하위 브랜치는 2D 공간에서 BEV 특징을 추출하여 보다 효율적인 네트워크를 제공합니다. 원시 포인트 클라우드에서 작동하는 포인트 기반 방법 외에도 복셀 기반 방법은 점을 개별 그리드로 복셀화하여 연속적인 3D 좌표를 이산화하여 보다 효율적인 표현을 제공합니다. 이산 복셀 표현을 기반으로 3D 컨볼루션 또는 3D 희소 컨볼루션을 사용하여 포인트 클라우드 특징을 추출할 수 있습니다.

논문부터 코드까지, 최첨단 연구부터 산업 구현까지 BEV 인식을 종합적으로 이해합니다.

그림 3: BEV 라이더 감지 흐름도

BEV 융합

BEV 감지 융합 알고리즘에는 acad에 적합한 PV 감지와 BEV 감지의 두 가지 방법이 있습니다. 미아와 산업 . 아래 그림은 PV 센싱과 BEV 센싱 흐름도를 비교한 것입니다. 둘 사이의 주요 차이점은 2D에서 3D로의 변환 및 융합 모듈입니다. PV 인식 순서도에서는 다양한 알고리즘의 결과가 먼저 3D 공간으로 변환된 다음 사전 지식이나 수동으로 설계된 규칙을 사용하여 융합됩니다. BEV 인식 흐름도에서는 PV 특징 맵을 BEV 관점으로 변환한 후 BEV 공간에 융합하여 최종 결과를 얻습니다. 이를 통해 원래 특징 정보의 유지를 극대화하고 과도한 수동 설계를 방지합니다.

논문부터 코드까지, 최첨단 연구부터 산업 구현까지 BEV 인식을 종합적으로 이해합니다.

그림 4: PV 감지(왼쪽) 및 BEV 감지(오른쪽) 흐름도

BEV 감지 모델에 적합한 데이터 세트

BEV 감지 작업을 위한 많은 데이터 세트가 있습니다. 일반적으로 데이터 세트는 다양한 장면으로 구성되며 각 장면은 데이터 세트마다 길이가 다릅니다. 다음 표에는 학계에서 일반적으로 사용되는 데이터 세트가 요약되어 있습니다. Waymo 데이터세트에는 다른 데이터세트보다 더 다양한 장면과 풍부한 3D 감지 상자 주석이 있음을 알 수 있습니다.

논문부터 코드까지, 최첨단 연구부터 산업 구현까지 BEV 인식을 종합적으로 이해합니다.

표 1: BEV 감지 데이터 세트 목록

그러나 현재 Waymo에서 개발한 BEV 감지 작업용 소프트웨어는 학계에 공개되지 않았습니다. 따라서 우리는 Waymo 데이터 세트를 기반으로 한 BEV 감지 작업 개발을 촉진하기 위해 Waymo 데이터 세트를 기반으로 개발하기로 결정했습니다.

Toolbox - BEV 인식 도구 상자

BEVFormer는 일반적으로 사용되는 BEV 인식 방법으로 시공간 변환기를 사용하여 백본 네트워크에서 추출한 특징을 다중 뷰 입력에서 BEV 특징으로 변환한 후 BEV 특징을 탐지에 입력합니다. 최종 테스트 결과를 받으러 갑니다. BEVFormer에는 2D 이미지 특징을 3D 특징으로 정밀하게 변환하는 기능과 추출한 BEV 특징을 다양한 감지 헤드에 적용할 수 있는 두 가지 기능이 있습니다. 일련의 방법을 통해 BEVFormer의 뷰 변환 품질과 최종 감지 성능을 더욱 향상시켰습니다.

BEVFormer++로 CVPR 2022 Waymo Challenge 1위를 차지한 후, 사용하기 쉬운 Waymo Open Dataset 데이터 처리 도구의 전체 세트를 제공하여 Toolbox - BEV Perception Toolbox를 출시했습니다. 이는 모델 성능(데이터 향상, 감지 헤드, 손실 기능, 모델 통합 등을 포함하되 이에 국한되지 않음)을 크게 향상할 수 있는 일련의 방법을 통합하고 mmDetection3d와 같이 현장에서 널리 사용되는 오픈 소스 프레임워크와 호환됩니다. 그리고 디텍트론2. 기본 Waymo 데이터 세트와 비교하여 BEV 인식 도구 상자는 다양한 유형의 개발자가 사용할 수 있도록 사용 기술을 최적화하고 향상시킵니다. 아래 그림은 Waymo 데이터 세트를 기반으로 BEV 인식 도구 상자를 사용하는 예를 보여줍니다.

논문부터 코드까지, 최첨단 연구부터 산업 구현까지 BEV 인식을 종합적으로 이해합니다.

그림 5: Waymo 데이터 세트를 기반으로 한 Toolbox 사용 예

Summary

  • BEVPerception Survey는 높은 수준의 개념 정교화를 포함하여 최근 몇 년간 BEV 인식 기술 연구의 전반적인 상황을 요약합니다. 그리고 좀 더 심도 깊은 논의를 하게 됩니다. BEV 센싱과 관련된 문헌의 종합적인 분석은 깊이 추정, 뷰 변환, 센서 융합, 도메인 적응 등과 같은 핵심 문제를 다루고 산업 시스템에서 BEV 센싱 적용에 대한 보다 심층적인 설명을 제공합니다.
  • 이론적 기여 외에도 BEVPerception Survey는 일련의 교육 데이터 향상 전략 및 효율적인 인코더 설계, 손실 함수를 포함하여 카메라 기반 3D 조감도(BEV) 객체 감지 성능을 향상하기 위한 매우 실용적인 도구 상자도 제공합니다. 설계, 테스트 데이터 향상, 모델 통합 전략 등은 물론 Waymo 데이터 세트에 이러한 기술을 구현합니다. 더 많은 연구자들이 '사용하고 가져가는 것'을 실현할 수 있도록 돕고, 자율주행 산업에 종사하는 연구자들에게 더 많은 편의를 제공할 수 있기를 바랍니다.

BEVPerception 설문조사가 사용자가 고성능 BEV 인식 모델을 쉽게 사용할 수 있도록 도울 뿐만 아니라, 초보자가 BEV 인식 모델을 시작하는 데 좋은 출발점이 되기를 바랍니다. 우리는 자율주행 분야에서 연구개발의 한계를 뛰어넘는 데 전념하고 있으며, 자율주행 관련 연구의 현실 세계 적용 가능성을 지속적으로 탐구하기 위해 학계와 의견을 공유하고 논의를 교환할 수 있기를 기대합니다.

위 내용은 논문부터 코드까지, 최첨단 연구부터 산업 구현까지 BEV 인식을 종합적으로 이해합니다.의 상세 내용입니다. 자세한 내용은 PHP 중국어 웹사이트의 기타 관련 기사를 참조하세요!

성명
이 기사는 51CTO.COM에서 복제됩니다. 침해가 있는 경우 admin@php.cn으로 문의하시기 바랍니다. 삭제
在 CARLA自动驾驶模拟器中添加真实智体行为在 CARLA自动驾驶模拟器中添加真实智体行为Apr 08, 2023 pm 02:11 PM

arXiv论文“Insertion of real agents behaviors in CARLA autonomous driving simulator“,22年6月,西班牙。由于需要快速prototyping和广泛测试,仿真在自动驾驶中的作用变得越来越重要。基于物理的模拟具有多种优势和益处,成本合理,同时消除了prototyping、驾驶员和弱势道路使用者(VRU)的风险。然而,主要有两个局限性。首先,众所周知的现实差距是指现实和模拟之间的差异,阻碍模拟自主驾驶体验去实现有效的现实世界

特斯拉自动驾驶算法和模型解读特斯拉自动驾驶算法和模型解读Apr 11, 2023 pm 12:04 PM

特斯拉是一个典型的AI公司,过去一年训练了75000个神经网络,意味着每8分钟就要出一个新的模型,共有281个模型用到了特斯拉的车上。接下来我们分几个方面来解读特斯拉FSD的算法和模型进展。01 感知 Occupancy Network特斯拉今年在感知方面的一个重点技术是Occupancy Network (占据网络)。研究机器人技术的同学肯定对occupancy grid不会陌生,occupancy表示空间中每个3D体素(voxel)是否被占据,可以是0/1二元表示,也可以是[0, 1]之间的

一文通览自动驾驶三大主流芯片架构一文通览自动驾驶三大主流芯片架构Apr 12, 2023 pm 12:07 PM

当前主流的AI芯片主要分为三类,GPU、FPGA、ASIC。GPU、FPGA均是前期较为成熟的芯片架构,属于通用型芯片。ASIC属于为AI特定场景定制的芯片。行业内已经确认CPU不适用于AI计算,但是在AI应用领域也是必不可少。 GPU方案GPU与CPU的架构对比CPU遵循的是冯·诺依曼架构,其核心是存储程序/数据、串行顺序执行。因此CPU的架构中需要大量的空间去放置存储单元(Cache)和控制单元(Control),相比之下计算单元(ALU)只占据了很小的一部分,所以CPU在进行大规模并行计算

自动驾驶汽车激光雷达如何做到与GPS时间同步?自动驾驶汽车激光雷达如何做到与GPS时间同步?Mar 31, 2023 pm 10:40 PM

gPTP定义的五条报文中,Sync和Follow_UP为一组报文,周期发送,主要用来测量时钟偏差。 01 同步方案激光雷达与GPS时间同步主要有三种方案,即PPS+GPRMC、PTP、gPTPPPS+GPRMCGNSS输出两条信息,一条是时间周期为1s的同步脉冲信号PPS,脉冲宽度5ms~100ms;一条是通过标准串口输出GPRMC标准的时间同步报文。同步脉冲前沿时刻与GPRMC报文的发送在同一时刻,误差为ns级别,误差可以忽略。GPRMC是一条包含UTC时间(精确到秒),经纬度定位数据的标准格

特斯拉自动驾驶硬件 4.0 实物拆解:增加雷达,提供更多摄像头特斯拉自动驾驶硬件 4.0 实物拆解:增加雷达,提供更多摄像头Apr 08, 2023 pm 12:11 PM

2 月 16 日消息,特斯拉的新自动驾驶计算机,即硬件 4.0(HW4)已经泄露,该公司似乎已经在制造一些带有新系统的汽车。我们已经知道,特斯拉准备升级其自动驾驶硬件已有一段时间了。特斯拉此前向联邦通信委员会申请在其车辆上增加一个新的雷达,并称计划在 1 月份开始销售,新的雷达将意味着特斯拉计划更新其 Autopilot 和 FSD 的传感器套件。硬件变化对特斯拉车主来说是一种压力,因为该汽车制造商一直承诺,其自 2016 年以来制造的所有车辆都具备通过软件更新实现自动驾驶所需的所有硬件。事实证

端到端自动驾驶中轨迹引导的控制预测:一个简单有力的基线方法TCP端到端自动驾驶中轨迹引导的控制预测:一个简单有力的基线方法TCPApr 10, 2023 am 09:01 AM

arXiv论文“Trajectory-guided Control Prediction for End-to-end Autonomous Driving: A Simple yet Strong Baseline“, 2022年6月,上海AI实验室和上海交大。当前的端到端自主驾驶方法要么基于规划轨迹运行控制器,要么直接执行控制预测,这跨越了两个研究领域。鉴于二者之间潜在的互利,本文主动探索两个的结合,称为TCP (Trajectory-guided Control Prediction)。具

一文聊聊自动驾驶中交通标志识别系统一文聊聊自动驾驶中交通标志识别系统Apr 12, 2023 pm 12:34 PM

什么是交通标志识别系统?汽车安全系统的交通标志识别系统,英文翻译为:Traffic Sign Recognition,简称TSR,是利用前置摄像头结合模式,可以识别常见的交通标志 《 限速、停车、掉头等)。这一功能会提醒驾驶员注意前面的交通标志,以便驾驶员遵守这些标志。TSR 功能降低了驾驶员不遵守停车标志等交通法规的可能,避免了违法左转或者无意的其他交通违法行为,从而提高了安全性。这些系统需要灵活的软件平台来增强探测算法,根据不同地区的交通标志来进行调整。交通标志识别原理交通标志识别又称为TS

一文聊聊SLAM技术在自动驾驶的应用一文聊聊SLAM技术在自动驾驶的应用Apr 09, 2023 pm 01:11 PM

定位在自动驾驶中占据着不可替代的地位,而且未来有着可期的发展。目前自动驾驶中的定位都是依赖RTK配合高精地图,这给自动驾驶的落地增加了不少成本与难度。试想一下人类开车,并非需要知道自己的全局高精定位及周围的详细环境,有一条全局导航路径并配合车辆在该路径上的位置,也就足够了,而这里牵涉到的,便是SLAM领域的关键技术。什么是SLAMSLAM (Simultaneous Localization and Mapping),也称为CML (Concurrent Mapping and Localiza

See all articles

핫 AI 도구

Undresser.AI Undress

Undresser.AI Undress

사실적인 누드 사진을 만들기 위한 AI 기반 앱

AI Clothes Remover

AI Clothes Remover

사진에서 옷을 제거하는 온라인 AI 도구입니다.

Undress AI Tool

Undress AI Tool

무료로 이미지를 벗다

Clothoff.io

Clothoff.io

AI 옷 제거제

AI Hentai Generator

AI Hentai Generator

AI Hentai를 무료로 생성하십시오.

뜨거운 도구

PhpStorm 맥 버전

PhpStorm 맥 버전

최신(2018.2.1) 전문 PHP 통합 개발 도구

Atom Editor Mac 버전 다운로드

Atom Editor Mac 버전 다운로드

가장 인기 있는 오픈 소스 편집기

ZendStudio 13.5.1 맥

ZendStudio 13.5.1 맥

강력한 PHP 통합 개발 환경

Eclipse용 SAP NetWeaver 서버 어댑터

Eclipse용 SAP NetWeaver 서버 어댑터

Eclipse를 SAP NetWeaver 애플리케이션 서버와 통합합니다.

에디트플러스 중국어 크랙 버전

에디트플러스 중국어 크랙 버전

작은 크기, 구문 강조, 코드 프롬프트 기능을 지원하지 않음