원제: RoadBEV: 조감도에서 도로 표면 재구성
논문 링크: https://arxiv.org/pdf/2404.06605.pdf
코드 링크: https://github.com/ztsrxh/RoadBEV
저자 소속: Tsinghua University, University of California, Berkeley
논문 아이디어:
노면 상태, 특히 기하학적 윤곽은 자율주행차의 주행 능력에 큰 영향을 미칩니다. 비전 기반의 온라인 도로 재구성은 도로 정보를 사전에 포착할 수 있을 것으로 기대된다. 단안 깊이 추정 및 입체 시각 추정과 같은 기존 솔루션에는 한계가 있습니다. 최근의 조감도(BEV) 인식 기술은 보다 안정적이고 정확한 재구성을 위한 엄청난 동기를 제공합니다. 본 논문에서는 도로 표고 추정을 위해 단안 및 쌍안 이미지를 사용하는 것과는 다른 각각 RoadBEV-mono 및 RoadBEV-stereo라는 두 가지 효과적인 BEV 도로 표고 재구성 모델을 일률적으로 제안합니다. 전자는 단일 이미지에서 직접 도로 고도를 추정하는 반면, 후자는 왼쪽 및 오른쪽 체적 뷰를 사용하여 도로 고도를 추정합니다. 심층 분석을 통해 관점과의 일관성과 차이점이 드러납니다. 실제 데이터 세트에 대한 실험은 모델의 효율성과 우수성을 보여줍니다. RoadBEV-mono와 RoadBEV-stereo의 고도 오차는 각각 1.83미터와 0.56미터입니다. 단안 영상을 기반으로 한 BEV 추정 성능이 50% 향상되었습니다. 본 논문의 모델은 비전 기반 자율주행 기술에 귀중한 참고자료가 될 것으로 기대된다.
주요 기여:
이 논문은 이론적, 실험적 측면 모두에서 조감도를 통한 노면 재구성의 필요성과 우수성을 처음으로 입증했습니다.
이 기사에서는 RoadBEV-mono와 RoadBEV-stereo라는 두 가지 모델을 소개합니다. 단안 및 스테레오 기반 구성표의 경우 이 문서에서는 해당 메커니즘을 자세히 설명합니다.
이 기사에서는 제안된 모델의 성능을 종합적으로 테스트하고 분석하여 향후 연구에 대한 귀중한 통찰력과 전망을 제공합니다.
네트워크 설계:
최근 몇 년간 무인 지상 차량(UGV)의 급속한 발전으로 인해 온보드 감지 시스템에 대한 요구 사항이 더욱 높아졌습니다. 주행 환경과 조건에 대한 실시간 이해는 정확한 모션 계획 및 제어를 위해 매우 중요합니다[1]-[3]. 자동차의 경우 도로는 물리적 세계와 접촉하는 유일한 매체입니다. 도로 표면 상태는 많은 차량 특성과 운전성을 결정합니다[4]. 그림 1(a)에서 볼 수 있듯이 요철이나 움푹 들어간 곳과 같은 도로의 불규칙성은 직관적으로 인지할 수 있는 차량의 승차감을 악화시킵니다. 실시간 노면 상태 인식, 특히 기하학적 고도는 승차감 향상에 크게 기여합니다[5], [6].
분할, 탐지 등 무인 지상 차량(UGV)의 다른 인식 작업과 비교하여 노면 재구성(RSR)은 최근 주목을 받고 있는 새로운 기술입니다. 기존 인식 프로세스와 유사하게 RSR은 일반적으로 온보드 LiDAR 및 카메라 센서를 활용하여 노면 정보를 유지합니다. Lidar는 도로 윤곽을 직접 스캔하고 포인트 클라우드를 도출합니다[7], [8]. 복잡한 알고리즘 없이 차량 궤적의 도로 표고를 직접 추출할 수 있습니다. 그러나 LiDAR 센서의 높은 비용으로 인해 경제적인 대량 생산 차량에 적용하는 데에는 한계가 있습니다. 차량, 보행자 등 대형 교통 개체와 달리 도로 불규칙성은 일반적으로 크기가 작으므로 포인트 클라우드의 정확성이 중요합니다. 실시간 도로 스캐닝에는 움직임 보상 및 필터링이 필요하며, 이를 위해서는 센티미터 수준의 고정밀 위치 지정이 더욱 필요합니다.
3차원 비전 작업인 이미지 기반 도로 표면 재구성(RSR)은 정확도와 해상도 측면에서 LiDAR보다 더 유망합니다. 또한 도로 표면 질감을 유지하여 도로 인식을 더욱 포괄적으로 만듭니다. 비전 기반 도로 표고 재구성은 실제로 깊이 추정 문제입니다. 단안 카메라의 경우 단일 영상을 기반으로 단안 깊이 추정을 구현할 수도 있고, 시퀀스 기반으로 MVS(Multi-view Stereo)를 구현하여 깊이를 직접 추정할 수도 있습니다[9]. 쌍안 카메라의 경우 쌍안 매칭은 깊이로 변환될 수 있는 시차 맵을 회귀합니다[10], [11]. 카메라 매개변수가 주어지면 카메라 좌표계의 도로 포인트 클라우드를 복구할 수 있습니다. 사전 후처리 과정을 거쳐 최종적으로 도로 구조 및 표고 정보를 획득하게 됩니다. GT(ground-truth) 레이블의 지침에 따라 고정밀 및 신뢰할 수 있는 RSR을 달성할 수 있습니다.
그러나 이미지 관점의 도로 표면 재구성(RSR)에는 본질적인 단점이 있습니다. 특정 픽셀에 대한 깊이 추정은 실제로 이미지 평면에 수직인 방향을 따라 최적의 빈을 찾는 것입니다(그림 1(b)에서 주황색 점으로 표시). 깊이 방향과 노면 사이에는 일정한 각도 편차가 있습니다. 도로 프로필 기능의 변화 및 추세는 검색 방향의 변화 및 추세와 일치하지 않습니다. 도로 표고 변화에 대한 정보 단서는 깊이 뷰에서 드물게 나타납니다. 또한 깊이 검색 범위는 각 픽셀에 대해 동일하므로 모델은 로컬 표면 구조가 아닌 전역 기하학적 계층 구조를 캡처합니다. 전역적이지만 거친 깊이 검색으로 인해 미세한 도로 표고 정보가 파괴됩니다. 본 논문은 수직 방향의 고도에 초점을 맞추었기 때문에 깊이 방향의 노력은 낭비된다. 투시도에서는 먼 거리의 텍스처 세부 정보가 손실되므로 선험적 제약이 추가로 도입되지 않는 한 효율적인 깊이 회귀에 대한 문제가 더욱 제기됩니다[12].
상면(예: 조감도, BEV)에서 도로 고도를 추정하는 것은 자연스러운 생각입니다. 고도는 기본적으로 수직 방향의 진동을 설명하기 때문입니다. 조감도는 다중 모달 및 다중 뷰 데이터를 통합 좌표로 표현하는 효과적인 패러다임입니다 [13], [14]. 3D 객체 감지 및 분할 작업에 대한 최근의 최첨단 성능은 뷰 변환 이미지 특징에 추정된 머리를 도입하여 수행되는 투시 뷰와는 달리 조감도[15]를 기반으로 한 접근 방식을 통해 달성되었습니다. 그림 1은 이 논문의 동기를 보여줍니다. 이미지 뷰의 전체 구조에 초점을 맞추는 대신 조감도의 재구성은 수직 방향의 특정 작은 범위 내의 도로 특징을 직접 식별합니다. 조감도에 투영된 도로 지형은 구조 및 윤곽 변화를 치밀하게 반영하여 효율적이고 정교한 검색을 촉진합니다. 도로는 시야각에 수직인 평면에 균일하게 표시되므로 원근감 효과의 영향도 억제됩니다. 조감도 기능을 기반으로 한 도로 재건은 더 높은 성능을 발휘할 것으로 기대됩니다.
본 논문에서는 위에서 확인된 문제를 해결하기 위해 BEV 아래의 노면을 재구성합니다. 특히 본 논문에서는 도로의 기하학, 즉 표고에 초점을 맞췄다. 단안 및 쌍안 이미지를 활용하고 조감도 인식의 광범위한 타당성을 입증하기 위해 본 논문에서는 RoadBEV-mono와 RoadBEV-stereo라는 두 가지 하위 모델을 제안합니다. 조감도의 패러다임에 따라 이 논문에서는 잠재적인 도로 구호를 다루는 관심 복셀을 정의합니다. 이러한 복셀은 3D-2D 투영을 통해 픽셀 기능을 쿼리합니다. RoadBEV-mono의 경우 이 논문에서는 재구성된 복셀 특징에 대한 높이 추정 헤드를 소개합니다. RoadBEV-스테레오의 구조는 이미지 보기의 쌍안경 일치와 일치합니다. 왼쪽 및 오른쪽 복셀 특징을 기반으로 조감도에서 4D 비용 볼륨을 구성하고 3D 컨볼루션을 통해 집계합니다. 고도 회귀는 보다 효율적인 모델 학습을 가능하게 하기 위해 사전 정의된 빈을 분류하는 것으로 간주됩니다. 이 논문은 저자가 이전에 게시한 실제 데이터 세트에서 이러한 모델을 검증하여 기존 단안 깊이 추정 및 스테레오 매칭 방법에 비해 큰 이점이 있음을 보여줍니다.
그림 1. 이 기사의 동기. (a) 단안 또는 쌍안 구성에 관계없이 조감도(BEV)의 재구성 방법은 이미지 보기의 방법보다 성능이 뛰어납니다. (b) 영상뷰에서 깊이 추정을 수행할 때 검색 방향은 도로 표고 방향에서 편향됩니다. 깊이 뷰에서는 도로 윤곽선 특징이 희박합니다. 포트홀은 쉽게 식별되지 않습니다. (c) 조감도에서는 움푹 들어간 곳, 연석 계단, 심지어 바퀴 자국과 같은 윤곽선 진동을 정확하게 포착할 수 있습니다. 수직 방향의 도로 표고 특징은 더 조밀하고 식별하기 쉽습니다.
그림 2. GT(Ground-Truth) 고도 레이블의 좌표 표현 및 생성. (a) 좌표 (b) 이미지 뷰의 관심 영역(ROI) (c) 조감도의 관심 영역(ROI) (d) 그리드에서 GT(Ground Truth) 라벨 생성
그림 3. 도로 이미지 및 GT(Ground Truth) 고도 지도의 예입니다.
그림 4. 이미지 보기의 관심 복셀 특징. 동일한 수평 위치에 위치한 누적 복셀의 중심은 빨간색 선분의 픽셀에 투영됩니다.
그림 5. RoadBEV-mono의 아키텍처. 이 문서에서는 3D에서 2D로의 투영을 사용하여 픽셀 기능을 쿼리합니다. 고도 추정 헤드는 2D 컨볼루션을 사용하여 재구성된 BEV(조감도) 특징에서 특징을 추출합니다.
그림 6. RoadBEV-mono의 메커니즘. 복셀은 측면도에 표시됩니다.
그림 7. RoadBEV-스테레오 아키텍처. 왼쪽 카메라 좌표계에 정의된 복셀은 왼쪽 및 오른쪽 특징 맵의 픽셀 특징을 쿼리합니다. 본 논문에서는 왼쪽과 오른쪽 복셀 특징 간의 감산을 통해 Bird's Eye View(BEV)의 차이 볼륨을 구성합니다. 그런 다음 3D 컨볼루션은 조감도에서 4D 볼륨을 집계합니다.
그림 8. RoadBEV-스테레오의 메커니즘.
실험 결과:
그림 9. (a) RoadBEV-mono 및 (b) RoadBEV-stereo의 훈련 손실.
그림 10. 단안과 쌍안 기반의 SOTA 모델과 거리 방향의 표고 오차 비교.
그림 11. RoadBEV-mono로 재구성한 도로 표면 시각화.
그림 12. RoadBEV-스테레오로 재구성한 도로 표면 시각화.
요약:
이 기사는 처음으로 조감도에서 노면의 표고를 재구성합니다. 본 논문에서는 단안 영상과 쌍안 영상을 기반으로 각각 RoadBEV-mono와 RoadBEV-stereo라는 두 가지 모델을 제안하고 분석합니다. 본 논문에서는 BEV의 단안 추정과 쌍안 매칭이 투시도와 동일한 메커니즘이며 검색 범위를 좁히고 표고 방향으로 피처를 직접 마이닝하여 개선한 메커니즘임을 확인했습니다. 실제 데이터세트에 대한 포괄적인 실험을 통해 제안된 BEV 볼륨, 추정 헤드 및 매개변수 설정의 타당성과 우수성을 검증합니다. 단안 카메라의 경우 BEV의 재구성 성능이 투시도에 비해 50% 향상됩니다. 동시에 BEV에서는 쌍안 카메라를 사용하는 성능이 단안 카메라의 3배에 달합니다. 이 문서에서는 모델에 대한 심층 분석 및 지침을 제공합니다. 이 기사의 획기적인 탐구는 또한 BEV 인식, 3D 재구성 및 3D 감지와 관련된 추가 연구 및 응용을 위한 귀중한 참고 자료를 제공합니다.
위 내용은 칭화의 최신작! RoadBEV: BEV에서 도로 표면 재구성을 달성하는 방법은 무엇입니까?의 상세 내용입니다. 자세한 내용은 PHP 중국어 웹사이트의 기타 관련 기사를 참조하세요!

소개 매일 몇 주 만에 작물의 진행 상황을 관찰하는 농부가 있다고 가정합니다. 그는 성장률을보고 몇 주 안에 식물이 얼마나 키가 커질 수 있는지에 대해 숙고하기 시작합니다. Th

Soft AI-대략적인 추론, 패턴 인식 및 유연한 의사 결정을 사용하여 구체적이고 좁은 작업을 수행하도록 설계된 AI 시스템으로 정의 된 것은 모호성을 수용하여 인간과 같은 사고를 모방하려고합니다. 그러나 이것이 바이러스의 의미는 무엇입니까?

클라우드 컴퓨팅이 클라우드 네이티브 보안 도구로의 전환이 필요했기 때문에 AI는 AI의 고유 한 요구를 위해 특별히 설계된 새로운 유형의 보안 솔루션을 요구합니다. 클라우드 컴퓨팅 및 보안 수업의 상승이 배웠습니다 th

기업가와 AI 및 생성 AI를 사용하여 비즈니스를 개선합니다. 동시에, 모든 기술과 마찬가지로 생성 AI를 기억하는 것이 중요합니다. 앰프는 앰프입니다. 엄격한 2024 연구 o

임베딩 모델의 힘 잠금 해제 : Andrew Ng의 새로운 코스에 대한 깊은 다이빙 기계가 완벽한 정확도로 질문을 이해하고 응답하는 미래를 상상해보십시오. 이것은 공상 과학이 아닙니다. AI의 발전 덕분에 R이되었습니다

대형 언어 모델 (LLM) 및 환각의 피할 수없는 문제 Chatgpt, Claude 및 Gemini와 같은 AI 모델을 사용했을 것입니다. 이들은 대규모 텍스트 데이터 세트에 대해 교육을받은 강력한 AI 시스템의 대형 언어 모델 (LLM)의 예입니다.

최근의 연구에 따르면 AI 개요는 산업 및 검색 유형에 따라 유기 트래픽이 15-64% 감소 할 수 있습니다. 이러한 급격한 변화로 인해 마케팅 담당자는 디지털 가시성에 관한 전체 전략을 재고하게합니다. 새로운

Elon University의 Digital Future Center를 상상 한 최근 보고서는 거의 300 명의 글로벌 기술 전문가를 조사했습니다. 결과적인 보고서 인‘2035 년에 인간이되는 것’은 대부분 AI 시스템의 심화가 T에 대한 우려가 있다고 결론지었습니다.


핫 AI 도구

Undresser.AI Undress
사실적인 누드 사진을 만들기 위한 AI 기반 앱

AI Clothes Remover
사진에서 옷을 제거하는 온라인 AI 도구입니다.

Undress AI Tool
무료로 이미지를 벗다

Clothoff.io
AI 옷 제거제

AI Hentai Generator
AI Hentai를 무료로 생성하십시오.

인기 기사

뜨거운 도구

DVWA
DVWA(Damn Vulnerable Web App)는 매우 취약한 PHP/MySQL 웹 애플리케이션입니다. 주요 목표는 보안 전문가가 법적 환경에서 자신의 기술과 도구를 테스트하고, 웹 개발자가 웹 응용 프로그램 보안 프로세스를 더 잘 이해할 수 있도록 돕고, 교사/학생이 교실 환경 웹 응용 프로그램에서 가르치고 배울 수 있도록 돕는 것입니다. 보안. DVWA의 목표는 다양한 난이도의 간단하고 간단한 인터페이스를 통해 가장 일반적인 웹 취약점 중 일부를 연습하는 것입니다. 이 소프트웨어는

메모장++7.3.1
사용하기 쉬운 무료 코드 편집기

안전한 시험 브라우저
안전한 시험 브라우저는 온라인 시험을 안전하게 치르기 위한 보안 브라우저 환경입니다. 이 소프트웨어는 모든 컴퓨터를 안전한 워크스테이션으로 바꿔줍니다. 이는 모든 유틸리티에 대한 액세스를 제어하고 학생들이 승인되지 않은 리소스를 사용하는 것을 방지합니다.

mPDF
mPDF는 UTF-8로 인코딩된 HTML에서 PDF 파일을 생성할 수 있는 PHP 라이브러리입니다. 원저자인 Ian Back은 자신의 웹 사이트에서 "즉시" PDF 파일을 출력하고 다양한 언어를 처리하기 위해 mPDF를 작성했습니다. HTML2FPDF와 같은 원본 스크립트보다 유니코드 글꼴을 사용할 때 속도가 느리고 더 큰 파일을 생성하지만 CSS 스타일 등을 지원하고 많은 개선 사항이 있습니다. RTL(아랍어, 히브리어), CJK(중국어, 일본어, 한국어)를 포함한 거의 모든 언어를 지원합니다. 중첩된 블록 수준 요소(예: P, DIV)를 지원합니다.

맨티스BT
Mantis는 제품 결함 추적을 돕기 위해 설계된 배포하기 쉬운 웹 기반 결함 추적 도구입니다. PHP, MySQL 및 웹 서버가 필요합니다. 데모 및 호스팅 서비스를 확인해 보세요.
