>기술 주변기기 >일체 포함 >칭화의 최신작! RoadBEV: BEV에서 도로 표면 재구성을 달성하는 방법은 무엇입니까?

칭화의 최신작! RoadBEV: BEV에서 도로 표면 재구성을 달성하는 방법은 무엇입니까?

WBOY
WBOY앞으로
2024-04-16 19:55:24661검색

원제: RoadBEV: 조감도에서 도로 표면 재구성

논문 링크: https://arxiv.org/pdf/2404.06605.pdf

코드 링크: https://github.com/ztsrxh/RoadBEV

저자 소속: Tsinghua University, University of California, Berkeley

칭화의 최신작! RoadBEV: BEV에서 도로 표면 재구성을 달성하는 방법은 무엇입니까?

논문 아이디어:

노면 상태, 특히 기하학적 윤곽은 자율주행차의 주행 능력에 큰 영향을 미칩니다. 비전 기반의 온라인 도로 재구성은 도로 정보를 사전에 포착할 수 있을 것으로 기대된다. 단안 깊이 추정 및 입체 시각 추정과 같은 기존 솔루션에는 한계가 있습니다. 최근의 조감도(BEV) 인식 기술은 보다 안정적이고 정확한 재구성을 위한 엄청난 동기를 제공합니다. 본 논문에서는 도로 표고 추정을 위해 단안 및 쌍안 이미지를 사용하는 것과는 다른 각각 RoadBEV-mono 및 RoadBEV-stereo라는 두 가지 효과적인 BEV 도로 표고 재구성 모델을 일률적으로 제안합니다. 전자는 단일 이미지에서 직접 도로 고도를 추정하는 반면, 후자는 왼쪽 및 오른쪽 체적 뷰를 사용하여 도로 고도를 추정합니다. 심층 분석을 통해 관점과의 일관성과 차이점이 드러납니다. 실제 데이터 세트에 대한 실험은 모델의 효율성과 우수성을 보여줍니다. RoadBEV-mono와 RoadBEV-stereo의 고도 오차는 각각 1.83미터와 0.56미터입니다. 단안 영상을 기반으로 한 BEV 추정 성능이 50% 향상되었습니다. 본 논문의 모델은 비전 기반 자율주행 기술에 귀중한 참고자료가 될 것으로 기대된다.

주요 기여:

이 논문은 이론적, 실험적 측면 모두에서 조감도를 통한 노면 재구성의 필요성과 우수성을 처음으로 입증했습니다.

이 기사에서는 RoadBEV-mono와 RoadBEV-stereo라는 두 가지 모델을 소개합니다. 단안 및 스테레오 기반 구성표의 경우 이 문서에서는 해당 메커니즘을 자세히 설명합니다.

이 기사에서는 제안된 모델의 성능을 종합적으로 테스트하고 분석하여 향후 연구에 대한 귀중한 통찰력과 전망을 제공합니다.

네트워크 설계:

최근 몇 년간 무인 지상 차량(UGV)의 급속한 발전으로 인해 온보드 감지 시스템에 대한 요구 사항이 더욱 높아졌습니다. 주행 환경과 조건에 대한 실시간 이해는 정확한 모션 계획 및 제어를 위해 매우 중요합니다[1]-[3]. 자동차의 경우 도로는 물리적 세계와 접촉하는 유일한 매체입니다. 도로 표면 상태는 많은 차량 특성과 운전성을 결정합니다[4]. 그림 1(a)에서 볼 수 있듯이 요철이나 움푹 들어간 곳과 같은 도로의 불규칙성은 직관적으로 인지할 수 있는 차량의 승차감을 악화시킵니다. 실시간 노면 상태 인식, 특히 기하학적 고도는 승차감 향상에 크게 기여합니다[5], [6].

분할, 탐지 등 무인 지상 차량(UGV)의 다른 인식 작업과 비교하여 노면 재구성(RSR)은 최근 주목을 받고 있는 새로운 기술입니다. 기존 인식 프로세스와 유사하게 RSR은 일반적으로 온보드 LiDAR 및 카메라 센서를 활용하여 노면 정보를 유지합니다. Lidar는 도로 윤곽을 직접 스캔하고 포인트 클라우드를 도출합니다[7], [8]. 복잡한 알고리즘 없이 차량 궤적의 도로 표고를 직접 추출할 수 있습니다. 그러나 LiDAR 센서의 높은 비용으로 인해 경제적인 대량 생산 차량에 적용하는 데에는 한계가 있습니다. 차량, 보행자 등 대형 교통 개체와 달리 도로 불규칙성은 일반적으로 크기가 작으므로 포인트 클라우드의 정확성이 중요합니다. 실시간 도로 스캐닝에는 움직임 보상 및 필터링이 필요하며, 이를 위해서는 센티미터 수준의 고정밀 위치 지정이 더욱 필요합니다.

3차원 비전 작업인 이미지 기반 도로 표면 재구성(RSR)은 정확도와 해상도 측면에서 LiDAR보다 더 유망합니다. 또한 도로 표면 질감을 유지하여 도로 인식을 더욱 포괄적으로 만듭니다. 비전 기반 도로 표고 재구성은 실제로 깊이 추정 문제입니다. 단안 카메라의 경우 단일 영상을 기반으로 단안 깊이 추정을 구현할 수도 있고, 시퀀스 기반으로 MVS(Multi-view Stereo)를 구현하여 깊이를 직접 추정할 수도 있습니다[9]. 쌍안 카메라의 경우 쌍안 매칭은 깊이로 변환될 수 있는 시차 맵을 회귀합니다[10], [11]. 카메라 매개변수가 주어지면 카메라 좌표계의 도로 포인트 클라우드를 복구할 수 있습니다. 사전 후처리 과정을 거쳐 최종적으로 도로 구조 및 표고 정보를 획득하게 됩니다. GT(ground-truth) 레이블의 지침에 따라 고정밀 및 신뢰할 수 있는 RSR을 달성할 수 있습니다.

그러나 이미지 관점의 도로 표면 재구성(RSR)에는 본질적인 단점이 있습니다. 특정 픽셀에 대한 깊이 추정은 실제로 이미지 평면에 수직인 방향을 따라 최적의 빈을 찾는 것입니다(그림 1(b)에서 주황색 점으로 표시). 깊이 방향과 노면 사이에는 일정한 각도 편차가 있습니다. 도로 프로필 기능의 변화 및 추세는 검색 방향의 변화 및 추세와 일치하지 않습니다. 도로 표고 변화에 대한 정보 단서는 깊이 뷰에서 드물게 나타납니다. 또한 깊이 검색 범위는 각 픽셀에 대해 동일하므로 모델은 로컬 표면 구조가 아닌 전역 기하학적 계층 구조를 캡처합니다. 전역적이지만 거친 깊이 검색으로 인해 미세한 도로 표고 정보가 파괴됩니다. 본 논문은 수직 방향의 고도에 초점을 맞추었기 때문에 깊이 방향의 노력은 낭비된다. 투시도에서는 먼 거리의 텍스처 세부 정보가 손실되므로 선험적 제약이 추가로 도입되지 않는 한 효율적인 깊이 회귀에 대한 문제가 더욱 제기됩니다[12].

상면(예: 조감도, BEV)에서 도로 고도를 추정하는 것은 자연스러운 생각입니다. 고도는 기본적으로 수직 방향의 진동을 설명하기 때문입니다. 조감도는 다중 모달 및 다중 뷰 데이터를 통합 좌표로 표현하는 효과적인 패러다임입니다 [13], [14]. 3D 객체 감지 및 분할 작업에 대한 최근의 최첨단 성능은 뷰 변환 이미지 특징에 추정된 머리를 도입하여 수행되는 투시 뷰와는 달리 조감도[15]를 기반으로 한 접근 방식을 통해 달성되었습니다. 그림 1은 이 논문의 동기를 보여줍니다. 이미지 뷰의 전체 구조에 초점을 맞추는 대신 조감도의 재구성은 수직 방향의 특정 작은 범위 내의 도로 특징을 직접 식별합니다. 조감도에 투영된 도로 지형은 구조 및 윤곽 변화를 치밀하게 반영하여 효율적이고 정교한 검색을 촉진합니다. 도로는 시야각에 수직인 평면에 균일하게 표시되므로 원근감 효과의 영향도 억제됩니다. 조감도 기능을 기반으로 한 도로 재건은 더 높은 성능을 발휘할 것으로 기대됩니다.

본 논문에서는 위에서 확인된 문제를 해결하기 위해 BEV 아래의 노면을 재구성합니다. 특히 본 논문에서는 도로의 기하학, 즉 표고에 초점을 맞췄다. 단안 및 쌍안 이미지를 활용하고 조감도 인식의 광범위한 타당성을 입증하기 위해 본 논문에서는 RoadBEV-mono와 RoadBEV-stereo라는 두 가지 하위 모델을 제안합니다. 조감도의 패러다임에 따라 이 논문에서는 잠재적인 도로 구호를 다루는 관심 복셀을 정의합니다. 이러한 복셀은 3D-2D 투영을 통해 픽셀 기능을 쿼리합니다. RoadBEV-mono의 경우 이 논문에서는 재구성된 복셀 특징에 대한 높이 추정 헤드를 소개합니다. RoadBEV-스테레오의 구조는 이미지 보기의 쌍안경 일치와 일치합니다. 왼쪽 및 오른쪽 복셀 특징을 기반으로 조감도에서 4D 비용 볼륨을 구성하고 3D 컨볼루션을 통해 집계합니다. 고도 회귀는 보다 효율적인 모델 학습을 가능하게 하기 위해 사전 정의된 빈을 분류하는 것으로 간주됩니다. 이 논문은 저자가 이전에 게시한 실제 데이터 세트에서 이러한 모델을 검증하여 기존 단안 깊이 추정 및 스테레오 매칭 방법에 비해 큰 이점이 있음을 보여줍니다.

칭화의 최신작! RoadBEV: BEV에서 도로 표면 재구성을 달성하는 방법은 무엇입니까?

그림 1. 이 기사의 동기. (a) 단안 또는 쌍안 구성에 관계없이 조감도(BEV)의 재구성 방법은 이미지 보기의 방법보다 성능이 뛰어납니다. (b) 영상뷰에서 깊이 추정을 수행할 때 검색 방향은 도로 표고 방향에서 편향됩니다. 깊이 뷰에서는 도로 윤곽선 특징이 희박합니다. 포트홀은 쉽게 식별되지 않습니다. (c) 조감도에서는 움푹 들어간 곳, 연석 계단, 심지어 바퀴 자국과 같은 윤곽선 진동을 정확하게 포착할 수 있습니다. 수직 방향의 도로 표고 특징은 더 조밀하고 식별하기 쉽습니다.

칭화의 최신작! RoadBEV: BEV에서 도로 표면 재구성을 달성하는 방법은 무엇입니까?

그림 2. GT(Ground-Truth) 고도 레이블의 좌표 표현 및 생성. (a) 좌표 (b) 이미지 뷰의 관심 영역(ROI) (c) 조감도의 관심 영역(ROI) (d) 그리드에서 GT(Ground Truth) 라벨 생성

칭화의 최신작! RoadBEV: BEV에서 도로 표면 재구성을 달성하는 방법은 무엇입니까?

그림 3. 도로 이미지 및 GT(Ground Truth) 고도 지도의 예입니다.

칭화의 최신작! RoadBEV: BEV에서 도로 표면 재구성을 달성하는 방법은 무엇입니까?

그림 4. 이미지 보기의 관심 복셀 특징. 동일한 수평 위치에 위치한 누적 복셀의 중심은 빨간색 선분의 픽셀에 투영됩니다.

칭화의 최신작! RoadBEV: BEV에서 도로 표면 재구성을 달성하는 방법은 무엇입니까?

그림 5. RoadBEV-mono의 아키텍처. 이 문서에서는 3D에서 2D로의 투영을 사용하여 픽셀 기능을 쿼리합니다. 고도 추정 헤드는 2D 컨볼루션을 사용하여 재구성된 BEV(조감도) 특징에서 특징을 추출합니다.

칭화의 최신작! RoadBEV: BEV에서 도로 표면 재구성을 달성하는 방법은 무엇입니까?

그림 6. RoadBEV-mono의 메커니즘. 복셀은 측면도에 표시됩니다.

칭화의 최신작! RoadBEV: BEV에서 도로 표면 재구성을 달성하는 방법은 무엇입니까?

그림 7. RoadBEV-스테레오 아키텍처. 왼쪽 카메라 좌표계에 정의된 복셀은 왼쪽 및 오른쪽 특징 맵의 픽셀 특징을 쿼리합니다. 본 논문에서는 왼쪽과 오른쪽 복셀 특징 간의 감산을 통해 Bird's Eye View(BEV)의 차이 볼륨을 구성합니다. 그런 다음 3D 컨볼루션은 조감도에서 4D 볼륨을 집계합니다.

칭화의 최신작! RoadBEV: BEV에서 도로 표면 재구성을 달성하는 방법은 무엇입니까?

그림 8. RoadBEV-스테레오의 메커니즘.

실험 결과:

칭화의 최신작! RoadBEV: BEV에서 도로 표면 재구성을 달성하는 방법은 무엇입니까?

그림 9. (a) RoadBEV-mono 및 (b) RoadBEV-stereo의 훈련 손실.

칭화의 최신작! RoadBEV: BEV에서 도로 표면 재구성을 달성하는 방법은 무엇입니까?

그림 10. 단안과 쌍안 기반의 SOTA 모델과 거리 방향의 표고 오차 비교.

칭화의 최신작! RoadBEV: BEV에서 도로 표면 재구성을 달성하는 방법은 무엇입니까?

그림 11. RoadBEV-mono로 재구성한 도로 표면 시각화.

칭화의 최신작! RoadBEV: BEV에서 도로 표면 재구성을 달성하는 방법은 무엇입니까?

그림 12. RoadBEV-스테레오로 재구성한 도로 표면 시각화.

칭화의 최신작! RoadBEV: BEV에서 도로 표면 재구성을 달성하는 방법은 무엇입니까?

칭화의 최신작! RoadBEV: BEV에서 도로 표면 재구성을 달성하는 방법은 무엇입니까?

칭화의 최신작! RoadBEV: BEV에서 도로 표면 재구성을 달성하는 방법은 무엇입니까?

칭화의 최신작! RoadBEV: BEV에서 도로 표면 재구성을 달성하는 방법은 무엇입니까?

요약:

이 기사는 처음으로 조감도에서 노면의 표고를 재구성합니다. 본 논문에서는 단안 영상과 쌍안 영상을 기반으로 각각 RoadBEV-mono와 RoadBEV-stereo라는 두 가지 모델을 제안하고 분석합니다. 본 논문에서는 BEV의 단안 추정과 쌍안 매칭이 투시도와 동일한 메커니즘이며 검색 범위를 좁히고 표고 방향으로 피처를 직접 마이닝하여 개선한 메커니즘임을 확인했습니다. 실제 데이터세트에 대한 포괄적인 실험을 통해 제안된 BEV 볼륨, 추정 헤드 및 매개변수 설정의 타당성과 우수성을 검증합니다. 단안 카메라의 경우 BEV의 재구성 성능이 투시도에 비해 50% 향상됩니다. 동시에 BEV에서는 쌍안 카메라를 사용하는 성능이 단안 카메라의 3배에 달합니다. 이 문서에서는 모델에 대한 심층 분석 및 지침을 제공합니다. 이 기사의 획기적인 탐구는 또한 BEV 인식, 3D 재구성 및 3D 감지와 관련된 추가 연구 및 응용을 위한 귀중한 참고 자료를 제공합니다.

위 내용은 칭화의 최신작! RoadBEV: BEV에서 도로 표면 재구성을 달성하는 방법은 무엇입니까?의 상세 내용입니다. 자세한 내용은 PHP 중국어 웹사이트의 기타 관련 기사를 참조하세요!

성명:
이 기사는 51cto.com에서 복제됩니다. 침해가 있는 경우 admin@php.cn으로 문의하시기 바랍니다. 삭제