이 기사를 재인쇄하려면 출처에 문의하세요. 이 기사는 자율주행심장 공개 계정에 게재되었습니다.
다중 센서 융합은 정보 보완, 안정성 및 안전성을 의미하며 오랫동안 지속되어 왔습니다. 자동 운전 인식의 중요한 부분이었습니다. 그러나 정보 활용 부족, 원본 데이터의 노이즈, 다양한 센서 간의 정렬 불량(예: 타임스탬프 동기화 안 됨)으로 인해 융합 성능이 제한되었습니다. 이 기사에서는 기존 다중 모드 자율 주행 인식 알고리즘을 대상 감지 및 의미론적 분할에 중점을 두고 LiDAR 및 카메라를 포함하는 센서에 대해 포괄적으로 조사하고 50개 이상의 문서를 분석합니다. 본 논문에서는 융합 알고리즘의 전통적인 분류 방식과 달리 융합 단계에 따라 이 분야를 두 가지 주요 범주와 네 가지 하위 범주로 분류합니다. 또한 본 논문에서는 현 분야의 기존 문제점을 분석하고 향후 연구방향에 대한 참고자료를 제공한다.
이것은 단일 모달 인식 알고리즘에 고유한 결함이 있기 때문입니다. 예를 들어, LiDAR는 일반적으로 카메라보다 높게 설치되며, 복잡한 실제 주행 상황에서는 전방 카메라에 물체가 가려질 수 있습니다. 이 경우 LiDAR를 사용하여 누락된 대상을 포착하는 것이 가능합니다. 그러나 LiDAR는 기계적 구조의 한계로 인해 거리에 따라 해상도가 다르며, 폭우 등 극심한 악천후에도 쉽게 영향을 받습니다. 두 센서 모두 단독으로 사용하면 매우 좋은 성능을 발휘할 수 있지만, 미래 관점에서 보면 LiDAR와 카메라의 상호보완적인 정보가 인식 수준에서 자율주행을 더욱 안전하게 만들 것입니다.
최근 자율주행 다중 모드 인식 알고리즘이 큰 발전을 이루었습니다. 이러한 발전에는 교차 모달 기능 표현, 보다 안정적인 모달 센서, 보다 복잡하고 안정적인 다중 모달 융합 알고리즘 및 기술이 포함됩니다. 그러나 multimodal fusion의 방법론 자체에 초점을 맞춘 리뷰[15, 81]는 거의 없으며 대부분의 문헌은 전통적인 분류 규칙, 즉 pre-fusion, deep (feature) fusion 및 post-fusion에 따라 분류되며 주로 데이터 수준, 기능 수준, 제안 수준 등 알고리즘의 기능 융합 단계에 중점을 둡니다. 이 분류 규칙에는 두 가지 문제가 있습니다. 첫째, 각 수준의 특징 표현이 명확하게 정의되지 않았습니다. 둘째, LiDAR와 카메라의 두 분기를 대칭 관점에서 처리하여 특징 융합과 수준 수준 특징 간의 관계를 모호하게 만듭니다. LiDAR 분기의 융합 카메라 분기의 데이터 수준 기능 융합 사례. 요약하자면, 전통적인 분류 방법은 직관적이지만 현재의 다중 모드 융합 알고리즘 개발에는 더 이상 적합하지 않으며, 이로 인해 연구자가 시스템 관점에서 연구 및 분석을 수행하는 데 어느 정도 방해가 됩니다
일반적인 인식 작업에는 대상 탐지, 의미 분할, 깊이 완성 및 예측 등이 포함됩니다. 본 글에서는 장애물, 신호등, 교통표지판의 감지, 차선 및 자유공간의 분할 등의 감지 및 분할에 중점을 두고 있습니다. 자율주행 인식 작업은 다음 그림과 같습니다.
일반적인 공개 데이터 세트에는 주로 KITTI, Waymo 및 nuScenes가 포함됩니다. 다음 그림은 자율 주행 인식 관련 데이터 세트와 그 특성을 요약합니다
다중 모드 융합은 데이터 표현 형식과 분리될 수 없습니다. 이미지 분기의 데이터 표현은 일반적으로 RGB 형식 또는 회색조 이미지를 참조하지만 데이터 형식에 대한 의존도가 높습니다. 서로 다른 데이터 형식이 파생됩니다. 완전히 다른 다운스트림 모델 설계가 제안되었으며, 요약하면 포인트 기반 포인트 클라우드 표현, 복셀 기반 및 2차원 매핑이라는 세 가지 일반적인 방향이 포함됩니다.
전통적인 분류 방법은 다중 모드 융합을 다음 세 가지 유형으로 나눕니다.
이 기사에서는 아래 그림의 분류 방법을 사용하는데, 일반적으로 강한 융합과 약한 융합으로 구분됩니다. 강한 융합은 전면 융합, 심층 융합, 비대칭 융합 및 사후 융합으로 세분화할 수 있습니다
이 기사 KITTI의 3D 감지를 사용합니다. 각 다중 모드 융합 알고리즘의 성능을 BEV 감지 작업과 수평적으로 비교합니다. 다음 그림은 BEV 감지 테스트 세트의 결과입니다.
다음은 BEV 감지 테스트 결과의 예입니다. 3D 감지 테스트 세트:
LiDAR와 카메라 데이터로 표현되는 다양한 조합 단계에 따라 이 기사에서는 Strong fusion을 전면 융합, 심층 융합, 비대칭 융합 및 사후 융합으로 세분화합니다. 위 그림에서 볼 수 있듯이, Strong Fusion의 각 하위 모듈은 카메라 데이터보다는 LiDAR 포인트 클라우드에 크게 의존하고 있음을 알 수 있습니다.
원본 데이터 레벨에서 공간 정렬 및 투영을 통해 각 모달리티 데이터를 직접 융합하는 방식인 기존의 데이터 레벨 융합 정의와 달리, 초기 융합은 LiDAR 데이터와 LiDAR 데이터를 최종 단계에서 융합합니다. 데이터 수준 데이터 수준 카메라 데이터 또는 기능 수준. 초기 융합의 예는 그림 4의 모델일 수 있습니다. 재작성된 콘텐츠: 원본 데이터 수준에서 공간 정렬 및 투영을 통해 각 양식 데이터를 직접 융합하는 방식인 기존 데이터 수준 융합 정의와 다릅니다. 조기 융합이란 LiDAR 데이터와 카메라 데이터 또는 기능 수준 데이터를 데이터 수준에서 융합하는 것을 의미합니다. 그림 4의 모델은 초기 융합의 예입니다
기존 분류 방법에서 정의한 사전 융합과 달리, 본 논문에서 정의한 사전 융합은 각 모달 데이터를 공간 정렬 및 투영을 통해 직접 융합하는 방법을 말합니다. Pre-fusion 데이터 레벨에서는 LiDAR 데이터의 융합을 말하며, 데이터 레벨이나 특징 레벨에서는 이미지 데이터가 융합되는 것을 의미합니다.
LiDAR에서는 다음과 같습니다. 분기, 포인트 클라우드에는 반사 맵, 복셀화된 이미지, 측정, 정면 뷰/거리 뷰/BEV 뷰, 의사 포인트 클라우드 등 다양한 표현 방법이 있습니다. 이러한 데이터는 Pseudo point cloud[79]를 제외하고는 서로 다른 백본 네트워크에서 서로 다른 본질적인 특성을 가지지만 대부분의 데이터는 특정 규칙 처리를 통해 생성됩니다. 또한 이러한 LiDAR 데이터는 특징 공간 임베딩에 비해 해석 가능성이 높고 직접 시각화할 수 있습니다. 이미지 분기에서 엄밀한 의미의 데이터 수준 정의는 RGB 또는 회색조 이미지를 참조하지만 이 정의에는 보편성과 합리성이 부족합니다. 따라서 본 논문에서는 융합 전 단계의 이미지 데이터에 대한 데이터 수준 정의를 데이터 수준과 특징 수준 데이터를 포함하도록 확장합니다. 본 논문에서도 의미론적 분할의 예측 결과를 일종의 사전 융합(이미지 특징 수준)으로 간주하고 있다는 점은 언급할 가치가 있다. 한편으로는 3D 타겟 탐지에 도움이 되기 때문이다. 기능이 전체 작업의 최종 목표 수준 제안과 다릅니다
Deep Fusion과 강한 융합의 차이점은 약한 융합 방법은 다중 모드 분기의 데이터, 기능 또는 대상을 직접 융합하지 않고 데이터를 다른 형식으로 처리한다는 것입니다. 다음 그림은 약한 융합 알고리즘의 기본 프레임워크를 보여줍니다. 약한 융합에 기반한 방법은 일반적으로 특정 규칙 기반 방법을 사용하여 한 양식의 데이터를 다른 양식의 상호 작용을 안내하는 감독 신호로 활용합니다. 예를 들어, 이미지 브랜치에서 CNN의 2D 제안은 원본 LiDAR 포인트 클라우드에서 잘림을 유발할 수 있으며, 약한 융합은 원본 LiDAR 포인트 클라우드를 LiDAR 백본에 직접 입력하여 최종 제안을 출력합니다.
모델 설계의 틀에서 여러 가지 융합 방법을 사용하기 때문에 위의 패러다임 중 어느 것에도 속하지 않는 작품도 있습니다. 융합 및 후처리 융합,[77]은 사전 융합을 결합합니다. 이러한 방법은 융합 알고리즘 설계의 주류 방법은 아니며, 이 기사에서는 다른 융합 방법으로 분류됩니다.
최근 몇 년 동안 자율 주행 인식 작업을 위한 다중 모드 융합 방법은 고급 기능 표현에서 보다 복잡한 딥 러닝 모델에 이르기까지 급속한 발전을 이루었습니다. 그러나 아직 해결해야 할 몇 가지 미해결 문제가 있습니다. 이 문서에서는 다음과 같은 몇 가지 가능한 향후 개선 방향을 요약합니다.
현재 융합 모델은 오정렬 및 정보 손실 문제가 있습니다 [13, 67, 98]. 또한 플랫 퓨전 작업은 지각 작업 성능의 추가 향상을 방해합니다. 요약은 다음과 같습니다.
전향적인 단일 프레임 이미지는 자율 주행 인식 작업을 위한 일반적인 시나리오입니다. 그러나 대부분의 프레임워크는 제한된 정보만 활용할 수 있으며 운전 시나리오에 대한 이해를 돕기 위한 보조 작업을 세부적으로 설계하지 않습니다. 요약은 다음과 같습니다.
실제 장면과 센서 높이는 도메인 바이어스와 해상도에 영향을 미칠 수 있습니다. 이러한 결함은 자율주행 딥러닝 모델의 대규모 훈련과 실시간 운영을 방해할 것입니다
[1] https://zhuanlan.zhihu.com/p/470588787
[2] 자동차 운전 인식을 위한 다중 모드 센서 융합: 설문조사
원본 링크: https ://mp.weixin.qq.com/s/usAQRL18vww9YwMXRvEwLw
위 내용은 자율주행에 멀티모달 융합 인식 알고리즘 적용에 대한 심도 있는 논의의 상세 내용입니다. 자세한 내용은 PHP 중국어 웹사이트의 기타 관련 기사를 참조하세요!