찾다
기술 주변기기일체 포함논문부터 코드까지, 최첨단 연구부터 산업 구현까지 BEV 인식을 종합적으로 이해합니다.

논문부터 코드까지, 최첨단 연구부터 산업 구현까지 BEV 인식을 종합적으로 이해합니다.

BEV 지각이란 정확히 무엇인가요? 자율주행 학계와 산업계가 주목하고 있는 BEV 인식 측면은 무엇인가? 이 기사에서는 답을 알려줄 것입니다.

자율 주행 분야에서는 인식 모델이 강력한 조감도(BEV) 표현을 학습하도록 하는 것이 추세이며 업계와 학계의 광범위한 관심을 끌고 있습니다. 전면 뷰나 투시 뷰에서 감지, 분할, 추적 등의 작업을 수행하는 데 기반을 둔 자율 주행 분야의 대부분의 이전 모델과 비교할 때, BEV(Bird's Eye View) 표현을 사용하면 모델이 막힌 차량을 더 잘 식별하고 후속 모듈(예: 계획, 제어)의 개발 및 배포를 촉진합니다.

BEV 인식 연구는 자율주행 분야에 막대한 잠재적 영향을 미칠 수 있으며 학계와 업계의 장기적인 관심과 투자가 필요하다고 볼 수 있습니다. 그렇다면 BEV 인식이란 정확히 무엇일까요? 자율주행 분야 학계와 산업계 리더들이 주목하고 있는 BEV 인식의 내용은 무엇인가? 이 글은 BEVPerception Survey를 통해 답변을 공개합니다.

BEV인식 설문조사는 상하이 인공 지능 연구소Autonomous Driving OpenDriveLab 팀과 SenseTime 연구소가 공동으로 작성한 논문입니다. "조감도 인식의 악마 탐구: 리뷰 , 평가 및 레시피" 》실용적인 도구 제시 방법은 BEVPercption 기반의 최신 문헌 연구와 PyTorch 기반의 오픈 소스 BEV 인식 도구 상자의 두 부분으로 나뉩니다.

논문부터 코드까지, 최첨단 연구부터 산업 구현까지 BEV 인식을 종합적으로 이해합니다.

  • 논문 주소: https://arxiv.org/abs/2209.05324
  • 프로젝트 주소: https://github.com/OpenPerceptionX/BEVPerception-Survey-Re e

개요 해석, 기술적 해석

BEVPerception Survey 최신 문헌 검토 연구는 주로 BEV 카메라, BEV 라이더 및 BEV 융합의 세 부분으로 구성됩니다. BEV 카메라는 3D 객체 감지 또는 여러 주변 카메라의 분할을 위한 비전 전용 또는 비전 중심 알고리즘을 나타냅니다. BEV 라이더는 포인트 클라우드 입력의 감지 또는 분할 작업을 설명합니다. BEV 융합은 여러 센서의 감지 또는 분할 작업을 설명합니다. 입력 융합 메커니즘 카메라, LiDAR, 글로벌 내비게이션 시스템, 주행 거리 측정, HD 지도, CAN 버스 등과 같은

BEV Perception Toolbox 는 BEV 카메라를 기반으로 한 3D 물체 감지를 위한 플랫폼을 제공하며 Waymo 데이터 세트에 대한 실험 플랫폼을 제공하여 소규모 데이터 세트에 대한 수동 튜토리얼과 실험을 수행할 수 있습니다.

논문부터 코드까지, 최첨단 연구부터 산업 구현까지 BEV 인식을 종합적으로 이해합니다.

그림 1: BEVPerception 설문 조사 프레임워크

특히 BEV 카메라는 3D 객체 감지 또는 여러 주변 카메라의 분할을 위한 알고리즘을 나타냅니다. BEV LiDAR는 포인트 클라우드를 입력으로 사용하여 객체를 완성하는 알고리즘을 나타냅니다. 감지 또는 분할 작업 BEV 융합은 카메라, LiDAR, GNSS, 주행 기록계, HD-Map, CAN 버스 등과 같은 여러 센서의 출력을 입력으로 사용합니다.

BEVPercption 문헌 검토 연구

BEV 카메라

BEV 카메라 인식은 2D 특징 추출기, 뷰 변환 및 3D 디코더의 세 부분으로 구성됩니다. 아래 그림은 BEV 카메라 인식 흐름도를 보여줍니다. 뷰 변환에는 3D 정보를 인코딩하는 두 가지 방법이 있습니다. 하나는 2D 특징에서 깊이 정보를 예측하는 것이고, 다른 하나는 3D 공간에서 2D 특징을 샘플링하는 것입니다.


논문부터 코드까지, 최첨단 연구부터 산업 구현까지 BEV 인식을 종합적으로 이해합니다.

그림 2: BEV 카메라 인식 흐름도

2D 특징 추출기의 경우 3D 인식 작업에서 빌릴 수 있는 2D 인식 작업 경험이 많이 있습니다. 주요 개입 훈련의 형태.

뷰 변환 모듈은 2D 인식 시스템과는 매우 다른 측면입니다. 위 그림에서 볼 수 있듯이 뷰 변환을 수행하는 방법에는 일반적으로 두 가지가 있습니다. 하나는 3D 공간에서 2D 공간으로 변환하는 것이고, 다른 하나는 2D 공간에서 3D 공간으로 변환하는 것입니다. 이 두 가지 변환 방법은 3D에서 사용됩니다. 시스템의 물리학에 대한 사전 지식을 확보하거나 감독을 위해 추가 3D 정보를 활용합니다. 모든 3D 인식 방법에 뷰 변환 모듈이 있는 것은 아니라는 점은 주목할 가치가 있습니다. 예를 들어 일부 방법은 2D 공간의 기능에서 직접 3D 공간의 개체를 감지합니다.

3D 디코더 2D/3D 공간의 특징을 수신하여 3D 인식 결과를 출력합니다. 대부분의 3D 디코더는 LiDAR 기반 인식 모델로 설계되었습니다. 이러한 방법은 BEV 공간에서 감지를 수행하지만 2D 공간의 기능을 활용하고 3D 객체의 위치를 ​​직접 회귀하는 일부 3D 디코더가 여전히 있습니다.

BEV LiDAR

BEV LiDAR 인식의 일반적인 프로세스에는 주로 포인트 클라우드 데이터를 BEV 표현으로 변환하는 두 가지 분기가 포함됩니다. 아래 그림은 BEV 라이더 감지 흐름도를 보여줍니다. 상위 분기는 보다 정확한 감지 결과를 제공하기 위해 3D 공간에서 포인트 클라우드 특징을 추출합니다. 하위 브랜치는 2D 공간에서 BEV 특징을 추출하여 보다 효율적인 네트워크를 제공합니다. 원시 포인트 클라우드에서 작동하는 포인트 기반 방법 외에도 복셀 기반 방법은 점을 개별 그리드로 복셀화하여 연속적인 3D 좌표를 이산화하여 보다 효율적인 표현을 제공합니다. 이산 복셀 표현을 기반으로 3D 컨볼루션 또는 3D 희소 컨볼루션을 사용하여 포인트 클라우드 특징을 추출할 수 있습니다.

논문부터 코드까지, 최첨단 연구부터 산업 구현까지 BEV 인식을 종합적으로 이해합니다.

그림 3: BEV 라이더 감지 흐름도

BEV 융합

BEV 감지 융합 알고리즘에는 acad에 적합한 PV 감지와 BEV 감지의 두 가지 방법이 있습니다. 미아와 산업 . 아래 그림은 PV 센싱과 BEV 센싱 흐름도를 비교한 것입니다. 둘 사이의 주요 차이점은 2D에서 3D로의 변환 및 융합 모듈입니다. PV 인식 순서도에서는 다양한 알고리즘의 결과가 먼저 3D 공간으로 변환된 다음 사전 지식이나 수동으로 설계된 규칙을 사용하여 융합됩니다. BEV 인식 흐름도에서는 PV 특징 맵을 BEV 관점으로 변환한 후 BEV 공간에 융합하여 최종 결과를 얻습니다. 이를 통해 원래 특징 정보의 유지를 극대화하고 과도한 수동 설계를 방지합니다.

논문부터 코드까지, 최첨단 연구부터 산업 구현까지 BEV 인식을 종합적으로 이해합니다.

그림 4: PV 감지(왼쪽) 및 BEV 감지(오른쪽) 흐름도

BEV 감지 모델에 적합한 데이터 세트

BEV 감지 작업을 위한 많은 데이터 세트가 있습니다. 일반적으로 데이터 세트는 다양한 장면으로 구성되며 각 장면은 데이터 세트마다 길이가 다릅니다. 다음 표에는 학계에서 일반적으로 사용되는 데이터 세트가 요약되어 있습니다. Waymo 데이터세트에는 다른 데이터세트보다 더 다양한 장면과 풍부한 3D 감지 상자 주석이 있음을 알 수 있습니다.

논문부터 코드까지, 최첨단 연구부터 산업 구현까지 BEV 인식을 종합적으로 이해합니다.

표 1: BEV 감지 데이터 세트 목록

그러나 현재 Waymo에서 개발한 BEV 감지 작업용 소프트웨어는 학계에 공개되지 않았습니다. 따라서 우리는 Waymo 데이터 세트를 기반으로 한 BEV 감지 작업 개발을 촉진하기 위해 Waymo 데이터 세트를 기반으로 개발하기로 결정했습니다.

Toolbox - BEV 인식 도구 상자

BEVFormer는 일반적으로 사용되는 BEV 인식 방법으로 시공간 변환기를 사용하여 백본 네트워크에서 추출한 특징을 다중 뷰 입력에서 BEV 특징으로 변환한 후 BEV 특징을 탐지에 입력합니다. 최종 테스트 결과를 받으러 갑니다. BEVFormer에는 2D 이미지 특징을 3D 특징으로 정밀하게 변환하는 기능과 추출한 BEV 특징을 다양한 감지 헤드에 적용할 수 있는 두 가지 기능이 있습니다. 일련의 방법을 통해 BEVFormer의 뷰 변환 품질과 최종 감지 성능을 더욱 향상시켰습니다.

BEVFormer++로 CVPR 2022 Waymo Challenge 1위를 차지한 후, 사용하기 쉬운 Waymo Open Dataset 데이터 처리 도구의 전체 세트를 제공하여 Toolbox - BEV Perception Toolbox를 출시했습니다. 이는 모델 성능(데이터 향상, 감지 헤드, 손실 기능, 모델 통합 등을 포함하되 이에 국한되지 않음)을 크게 향상할 수 있는 일련의 방법을 통합하고 mmDetection3d와 같이 현장에서 널리 사용되는 오픈 소스 프레임워크와 호환됩니다. 그리고 디텍트론2. 기본 Waymo 데이터 세트와 비교하여 BEV 인식 도구 상자는 다양한 유형의 개발자가 사용할 수 있도록 사용 기술을 최적화하고 향상시킵니다. 아래 그림은 Waymo 데이터 세트를 기반으로 BEV 인식 도구 상자를 사용하는 예를 보여줍니다.

논문부터 코드까지, 최첨단 연구부터 산업 구현까지 BEV 인식을 종합적으로 이해합니다.

그림 5: Waymo 데이터 세트를 기반으로 한 Toolbox 사용 예

Summary

  • BEVPerception Survey는 높은 수준의 개념 정교화를 포함하여 최근 몇 년간 BEV 인식 기술 연구의 전반적인 상황을 요약합니다. 그리고 좀 더 심도 깊은 논의를 하게 됩니다. BEV 센싱과 관련된 문헌의 종합적인 분석은 깊이 추정, 뷰 변환, 센서 융합, 도메인 적응 등과 같은 핵심 문제를 다루고 산업 시스템에서 BEV 센싱 적용에 대한 보다 심층적인 설명을 제공합니다.
  • 이론적 기여 외에도 BEVPerception Survey는 일련의 교육 데이터 향상 전략 및 효율적인 인코더 설계, 손실 함수를 포함하여 카메라 기반 3D 조감도(BEV) 객체 감지 성능을 향상하기 위한 매우 실용적인 도구 상자도 제공합니다. 설계, 테스트 데이터 향상, 모델 통합 전략 등은 물론 Waymo 데이터 세트에 이러한 기술을 구현합니다. 더 많은 연구자들이 '사용하고 가져가는 것'을 실현할 수 있도록 돕고, 자율주행 산업에 종사하는 연구자들에게 더 많은 편의를 제공할 수 있기를 바랍니다.

BEVPerception 설문조사가 사용자가 고성능 BEV 인식 모델을 쉽게 사용할 수 있도록 도울 뿐만 아니라, 초보자가 BEV 인식 모델을 시작하는 데 좋은 출발점이 되기를 바랍니다. 우리는 자율주행 분야에서 연구개발의 한계를 뛰어넘는 데 전념하고 있으며, 자율주행 관련 연구의 현실 세계 적용 가능성을 지속적으로 탐구하기 위해 학계와 의견을 공유하고 논의를 교환할 수 있기를 기대합니다.

위 내용은 논문부터 코드까지, 최첨단 연구부터 산업 구현까지 BEV 인식을 종합적으로 이해합니다.의 상세 내용입니다. 자세한 내용은 PHP 중국어 웹사이트의 기타 관련 기사를 참조하세요!

성명
이 기사는 51CTO.COM에서 복제됩니다. 침해가 있는 경우 admin@php.cn으로 문의하시기 바랍니다. 삭제
Let 's Dance : 인간 신경 그물을 미세 조정하기위한 구조화 된 움직임Let 's Dance : 인간 신경 그물을 미세 조정하기위한 구조화 된 움직임Apr 27, 2025 am 11:09 AM

과학자들은 C. el 그러나 중요한 질문이 발생합니다. 새로운 AI S와 함께 효과적으로 작동하도록 우리 자신의 신경망을 어떻게 조정합니까?

새로운 Google 유출은 Gemini AI의 구독 변경을 보여줍니다새로운 Google 유출은 Gemini AI의 구독 변경을 보여줍니다Apr 27, 2025 am 11:08 AM

Google의 Gemini Advanced : 수평선의 새로운 가입 계층 현재 Gemini Advanced에 액세스하려면 $ 19.99/월 Google One AI Premium Plan이 필요합니다. 그러나 Android Authority 보고서는 다가오는 변경 사항을 암시합니다. 최신 Google p. 내 코드

데이터 분석 가속이 AI의 숨겨진 병목 현상을 해결하는 방법데이터 분석 가속이 AI의 숨겨진 병목 현상을 해결하는 방법Apr 27, 2025 am 11:07 AM

고급 AI 기능을 둘러싼 과대 광고에도 불구하고 Enterprise AI 배포 내에서 상당한 도전 과제 : 데이터 처리 병목 현상. CEO는 AI 발전을 축하하는 동안 엔지니어는 느린 쿼리 시간, 과부하 파이프 라인,

Markitdown MCP는 모든 문서를 Markdowns로 변환 할 수 있습니다!Markitdown MCP는 모든 문서를 Markdowns로 변환 할 수 있습니다!Apr 27, 2025 am 09:47 AM

문서 처리는 더 이상 AI 프로젝트에서 파일을 여는 것이 아니라 혼돈을 명확하게 전환하는 것입니다. PDF, PowerPoint 및 Word와 같은 문서는 모든 모양과 크기로 워크 플로우를 범람합니다. 구조화 된 검색

빌딩 에이전트에 Google ADK를 사용하는 방법은 무엇입니까? - 분석 Vidhya빌딩 에이전트에 Google ADK를 사용하는 방법은 무엇입니까? - 분석 VidhyaApr 27, 2025 am 09:42 AM

Google의 에이전트 개발 키트 (ADK)의 전력을 활용하여 실제 기능을 갖춘 지능형 에이전트를 만듭니다! 이 튜토리얼은 Gemini 및 GPT와 같은 다양한 언어 모델을 지원하는 ADK를 사용하여 대화 에이전트를 구축하는 것을 안내합니다. w

효과적인 문제 해결을 위해 LLM을 통해 SLM 사용 - 분석 Vidhya효과적인 문제 해결을 위해 LLM을 통해 SLM 사용 - 분석 VidhyaApr 27, 2025 am 09:27 AM

요약: SLM (Small Language Model)은 효율성을 위해 설계되었습니다. 자원 결핍, 실시간 및 개인 정보 보호 환경에서 LLM (Large Language Model)보다 낫습니다. 초점 기반 작업, 특히 도메인 특이성, 제어 성 및 해석 성이 일반적인 지식이나 창의성보다 더 중요합니다. SLM은 LLM을 대체하지는 않지만 정밀, 속도 및 비용 효율성이 중요 할 때 이상적입니다. 기술은 더 적은 자원으로 더 많은 것을 달성하는 데 도움이됩니다. 그것은 항상 운전자가 아니라 프로모터였습니다. 증기 엔진 시대부터 인터넷 버블 시대에 이르기까지 기술의 힘은 문제를 해결하는 데 도움이되는 정도입니다. 인공 지능 (AI) 및보다 최근에 생성 AI가 예외는 아닙니다.

컴퓨터 비전 작업에 Google Gemini 모델을 사용하는 방법은 무엇입니까? - 분석 Vidhya컴퓨터 비전 작업에 Google Gemini 모델을 사용하는 방법은 무엇입니까? - 분석 VidhyaApr 27, 2025 am 09:26 AM

컴퓨터 비전을위한 Google Gemini의 힘을 활용 : 포괄적 인 가이드 주요 AI 챗봇 인 Google Gemini는 강력한 컴퓨터 비전 기능을 포괄하기 위해 대화를 넘어서 기능을 확장합니다. 이 안내서는 사용 방법에 대해 자세히 설명합니다

Gemini 2.0 Flash vs O4-Mini : Google은 OpenAi보다 더 잘할 수 있습니까?Gemini 2.0 Flash vs O4-Mini : Google은 OpenAi보다 더 잘할 수 있습니까?Apr 27, 2025 am 09:20 AM

2025 년의 AI 환경은 Google의 Gemini 2.0 Flash와 Openai의 O4-Mini가 도착하면서 전기가 전환됩니다. 이 최첨단 모델은 몇 주 간격으로 발사되어 비슷한 고급 기능과 인상적인 벤치 마크 점수를 자랑합니다. 이 심층적 인 비교

See all articles

핫 AI 도구

Undresser.AI Undress

Undresser.AI Undress

사실적인 누드 사진을 만들기 위한 AI 기반 앱

AI Clothes Remover

AI Clothes Remover

사진에서 옷을 제거하는 온라인 AI 도구입니다.

Undress AI Tool

Undress AI Tool

무료로 이미지를 벗다

Clothoff.io

Clothoff.io

AI 옷 제거제

Video Face Swap

Video Face Swap

완전히 무료인 AI 얼굴 교환 도구를 사용하여 모든 비디오의 얼굴을 쉽게 바꾸세요!

뜨거운 도구

Atom Editor Mac 버전 다운로드

Atom Editor Mac 버전 다운로드

가장 인기 있는 오픈 소스 편집기

SecList

SecList

SecLists는 최고의 보안 테스터의 동반자입니다. 보안 평가 시 자주 사용되는 다양한 유형의 목록을 한 곳에 모아 놓은 것입니다. SecLists는 보안 테스터에게 필요할 수 있는 모든 목록을 편리하게 제공하여 보안 테스트를 더욱 효율적이고 생산적으로 만드는 데 도움이 됩니다. 목록 유형에는 사용자 이름, 비밀번호, URL, 퍼징 페이로드, 민감한 데이터 패턴, 웹 셸 등이 포함됩니다. 테스터는 이 저장소를 새로운 테스트 시스템으로 간단히 가져올 수 있으며 필요한 모든 유형의 목록에 액세스할 수 있습니다.

드림위버 CS6

드림위버 CS6

시각적 웹 개발 도구

SublimeText3 중국어 버전

SublimeText3 중국어 버전

중국어 버전, 사용하기 매우 쉽습니다.

DVWA

DVWA

DVWA(Damn Vulnerable Web App)는 매우 취약한 PHP/MySQL 웹 애플리케이션입니다. 주요 목표는 보안 전문가가 법적 환경에서 자신의 기술과 도구를 테스트하고, 웹 개발자가 웹 응용 프로그램 보안 프로세스를 더 잘 이해할 수 있도록 돕고, 교사/학생이 교실 환경 웹 응용 프로그램에서 가르치고 배울 수 있도록 돕는 것입니다. 보안. DVWA의 목표는 다양한 난이도의 간단하고 간단한 인터페이스를 통해 가장 일반적인 웹 취약점 중 일부를 연습하는 것입니다. 이 소프트웨어는