>  기사  >  기술 주변기기  >  자율주행에 멀티모달 융합 인식 알고리즘 적용에 대한 심도 있는 논의

자율주행에 멀티모달 융합 인식 알고리즘 적용에 대한 심도 있는 논의

王林
王林앞으로
2023-11-22 11:29:16866검색

이 기사를 재인쇄하려면 출처에 문의하세요. 이 기사는 자율주행심장 공개 계정에 게재되었습니다.

1 소개

다중 센서 융합은 정보 보완, 안정성 및 안전성을 의미하며 오랫동안 지속되어 왔습니다. 자동 운전 인식의 중요한 부분이었습니다. 그러나 정보 활용 부족, 원본 데이터의 노이즈, 다양한 센서 간의 정렬 불량(예: 타임스탬프 동기화 안 됨)으로 인해 융합 성능이 제한되었습니다. 이 기사에서는 기존 다중 모드 자율 주행 인식 알고리즘을 대상 감지 및 의미론적 분할에 중점을 두고 LiDAR 및 카메라를 포함하는 센서에 대해 포괄적으로 조사하고 50개 이상의 문서를 분석합니다. 본 논문에서는 융합 알고리즘의 전통적인 분류 방식과 달리 융합 단계에 따라 이 분야를 두 가지 주요 범주와 네 가지 하위 범주로 분류합니다. 또한 본 논문에서는 현 분야의 기존 문제점을 분석하고 향후 연구방향에 대한 참고자료를 제공한다.

2 다중 양식이 필요한 이유는 무엇입니까?

이것은 단일 모달 인식 알고리즘에 고유한 결함이 있기 때문입니다. 예를 들어, LiDAR는 일반적으로 카메라보다 높게 설치되며, 복잡한 실제 주행 상황에서는 전방 카메라에 물체가 가려질 수 있습니다. 이 경우 LiDAR를 사용하여 누락된 대상을 포착하는 것이 가능합니다. 그러나 LiDAR는 기계적 구조의 한계로 인해 거리에 따라 해상도가 다르며, 폭우 등 극심한 악천후에도 쉽게 영향을 받습니다. 두 센서 모두 단독으로 사용하면 매우 좋은 성능을 발휘할 수 있지만, 미래 관점에서 보면 LiDAR와 카메라의 상호보완적인 정보가 인식 수준에서 자율주행을 더욱 안전하게 만들 것입니다.

최근 자율주행 다중 모드 인식 알고리즘이 큰 발전을 이루었습니다. 이러한 발전에는 교차 모달 기능 표현, 보다 안정적인 모달 센서, 보다 복잡하고 안정적인 다중 모달 융합 알고리즘 및 기술이 포함됩니다. 그러나 multimodal fusion의 방법론 자체에 초점을 맞춘 리뷰[15, 81]는 거의 없으며 대부분의 문헌은 전통적인 분류 규칙, 즉 pre-fusion, deep (feature) fusion 및 post-fusion에 따라 분류되며 주로 데이터 수준, 기능 수준, 제안 수준 등 알고리즘의 기능 융합 단계에 중점을 둡니다. 이 분류 규칙에는 두 가지 문제가 있습니다. 첫째, 각 수준의 특징 표현이 명확하게 정의되지 않았습니다. 둘째, LiDAR와 카메라의 두 분기를 대칭 관점에서 처리하여 특징 융합과 수준 수준 특징 간의 관계를 모호하게 만듭니다. LiDAR 분기의 융합 카메라 분기의 데이터 수준 기능 융합 사례. 요약하자면, 전통적인 분류 방법은 직관적이지만 현재의 다중 모드 융합 알고리즘 개발에는 더 이상 적합하지 않으며, 이로 인해 연구자가 시스템 관점에서 연구 및 분석을 수행하는 데 어느 정도 방해가 됩니다

3 과제 및 공공 Competitions

일반적인 인식 작업에는 대상 탐지, 의미 분할, 깊이 완성 및 예측 등이 ​​포함됩니다. 본 글에서는 장애물, 신호등, 교통표지판의 감지, 차선 및 자유공간의 분할 등의 감지 및 분할에 중점을 두고 있습니다. 자율주행 인식 작업은 다음 그림과 같습니다.

자율주행에 멀티모달 융합 인식 알고리즘 적용에 대한 심도 있는 논의

일반적인 공개 데이터 세트에는 주로 KITTI, Waymo 및 nuScenes가 포함됩니다. 다음 그림은 자율 주행 인식 관련 데이터 세트와 그 특성을 요약합니다

자율주행에 멀티모달 융합 인식 알고리즘 적용에 대한 심도 있는 논의

4 융합 방법

다중 모드 융합은 데이터 표현 형식과 분리될 수 없습니다. 이미지 분기의 데이터 표현은 일반적으로 RGB 형식 또는 회색조 이미지를 참조하지만 데이터 형식에 대한 의존도가 높습니다. 서로 다른 데이터 형식이 파생됩니다. 완전히 다른 다운스트림 모델 설계가 제안되었으며, 요약하면 포인트 기반 포인트 클라우드 표현, 복셀 기반 및 2차원 매핑이라는 세 가지 일반적인 방향이 포함됩니다.

전통적인 분류 방법은 다중 모드 융합을 다음 세 가지 유형으로 나눕니다.

  1. 사전 융합(데이터 수준 융합)은 공간 정렬을 통해 다양한 양식의 원시 센서 데이터를 직접 융합하는 것을 의미합니다.
  2. 심층 융합(기능 수준 융합)은 계단식 또는 요소 곱셈을 통해 기능 공간에서 모달 데이터를 융합하는 것을 의미합니다.
  3. 포스트 퓨전(목표 수준 융합)이란 각 모달 모델의 예측 결과를 융합하여 최종 결정을 내리는 것을 말합니다.

이 기사에서는 아래 그림의 분류 방법을 사용하는데, 일반적으로 강한 융합과 약한 융합으로 구분됩니다. 강한 융합은 전면 융합, 심층 융합, 비대칭 융합 및 사후 융합으로 세분화할 수 있습니다

자율주행에 멀티모달 융합 인식 알고리즘 적용에 대한 심도 있는 논의

이 기사 KITTI의 3D 감지를 사용합니다. 각 다중 모드 융합 알고리즘의 성능을 BEV 감지 작업과 수평적으로 비교합니다. 다음 그림은 BEV 감지 테스트 세트의 결과입니다.

자율주행에 멀티모달 융합 인식 알고리즘 적용에 대한 심도 있는 논의

다음은 BEV 감지 테스트 결과의 예입니다. 3D 감지 테스트 세트:

자율주행에 멀티모달 융합 인식 알고리즘 적용에 대한 심도 있는 논의

5 Strong fusion

자율주행에 멀티모달 융합 인식 알고리즘 적용에 대한 심도 있는 논의

LiDAR와 카메라 데이터로 표현되는 다양한 조합 단계에 따라 이 기사에서는 Strong fusion을 전면 융합, 심층 융합, 비대칭 융합 및 사후 융합으로 세분화합니다. 위 그림에서 볼 수 있듯이, Strong Fusion의 각 하위 모듈은 카메라 데이터보다는 LiDAR 포인트 클라우드에 크게 의존하고 있음을 알 수 있습니다.

Pre-fusion

원본 데이터 레벨에서 공간 정렬 및 투영을 통해 각 모달리티 데이터를 직접 융합하는 방식인 기존의 데이터 레벨 융합 정의와 달리, 초기 융합은 LiDAR 데이터와 LiDAR 데이터를 최종 단계에서 융합합니다. 데이터 수준 데이터 수준 카메라 데이터 또는 기능 수준. 초기 융합의 예는 그림 4의 모델일 수 있습니다. 재작성된 콘텐츠: 원본 데이터 수준에서 공간 정렬 및 투영을 통해 각 양식 데이터를 직접 융합하는 방식인 기존 데이터 수준 융합 정의와 다릅니다. 조기 융합이란 LiDAR 데이터와 카메라 데이터 또는 기능 수준 데이터를 데이터 수준에서 융합하는 것을 의미합니다. 그림 4의 모델은 초기 융합의 예입니다

기존 분류 방법에서 정의한 사전 융합과 달리, 본 논문에서 정의한 사전 융합은 각 모달 데이터를 공간 정렬 및 투영을 통해 직접 융합하는 방법을 말합니다. Pre-fusion 데이터 레벨에서는 LiDAR 데이터의 융합을 말하며, 데이터 레벨이나 특징 레벨에서는 이미지 데이터가 융합되는 것을 의미합니다.

자율주행에 멀티모달 융합 인식 알고리즘 적용에 대한 심도 있는 논의

LiDAR에서는 다음과 같습니다. 분기, 포인트 클라우드에는 반사 맵, 복셀화된 이미지, 측정, 정면 뷰/거리 뷰/BEV 뷰, 의사 포인트 클라우드 등 다양한 표현 방법이 있습니다. 이러한 데이터는 Pseudo point cloud[79]를 제외하고는 서로 다른 백본 네트워크에서 서로 다른 본질적인 특성을 가지지만 대부분의 데이터는 특정 규칙 처리를 통해 생성됩니다. 또한 이러한 LiDAR 데이터는 특징 공간 임베딩에 비해 해석 가능성이 높고 직접 시각화할 수 있습니다. 이미지 분기에서 엄밀한 의미의 데이터 수준 정의는 RGB 또는 회색조 이미지를 참조하지만 이 정의에는 보편성과 합리성이 부족합니다. 따라서 본 논문에서는 융합 전 단계의 이미지 데이터에 대한 데이터 수준 정의를 데이터 수준과 특징 수준 데이터를 포함하도록 확장합니다. 본 논문에서도 의미론적 분할의 예측 결과를 일종의 사전 융합(이미지 특징 수준)으로 간주하고 있다는 점은 언급할 가치가 있다. 한편으로는 3D 타겟 탐지에 도움이 되기 때문이다. 기능이 전체 작업의 최종 목표 수준 제안과 다릅니다

Deep Fusion

기능 수준 융합이라고도 불리는 딥 퓨전은 다중 모드의 융합을 말합니다. LiDAR 분기의 기능 수준에 있는 데이터이지만 세트 및 기능 수준의 이미지 분기 융합의 데이터는 아닙니다. 예를 들어 일부 방법에서는 기능 리프팅을 사용하여 각각 LiDAR 포인트 클라우드와 이미지의 임베딩 표현을 얻고 일련의 다운스트림 모듈을 통해 두 양식의 기능을 융합합니다. 그러나 다른 강력한 융합과 달리 심층 융합은 때때로 원시 및 상위 수준 의미 정보를 활용하는 계단식 방식으로 기능을 융합합니다. 모식도는 다음과 같습니다.

자율주행에 멀티모달 융합 인식 알고리즘 적용에 대한 심도 있는 논의

Post-fusion

목표 수준 융합이라고도 할 수 있는 Post-fusion은 여러 양식의 예측 결과(또는 제안)를 융합하는 것을 말합니다. 예를 들어, 일부 사후 융합 방법은 LiDAR 포인트 클라우드의 출력과 융합을 위한 이미지를 활용합니다[55]. 두 지점의 제안 데이터 형식은 최종 결과와 일치해야 하지만 품질, 수량, 정확성에는 차이가 있을 수 있습니다. Post-fusion은 최종 제안의 다중 모드 정보 최적화를 위한 통합 방법으로 볼 수 있습니다. 개략도는 다음과 같습니다.

자율주행에 멀티모달 융합 인식 알고리즘 적용에 대한 심도 있는 논의

Asymmetric fusion

마지막 유형의 강력한 융합은 비대칭 융합입니다. 한 가지의 목표 수준 정보를 다른 가지의 데이터 수준 또는 기능 수준 정보와 융합하는 것을 말합니다. 위의 세 가지 융합 방법은 다중 양식의 각 분기를 동일하게 처리하는 반면, 비대칭 융합은 적어도 하나의 분기가 우세하다는 점을 강조하고 다른 분기는 최종 결과를 예측하기 위한 보조 정보를 제공합니다. 아래 그림은 제안 단계에서 비대칭 융합은 하나의 가지에 대한 제안만 갖고, 이후 융합은 모든 가지에 대한 제안을 의미합니다.

6 약한 융합

과 강한 융합의 차이점은 약한 융합 방법은 다중 모드 분기의 데이터, 기능 또는 대상을 직접 융합하지 않고 데이터를 다른 형식으로 처리한다는 것입니다. 다음 그림은 약한 융합 알고리즘의 기본 프레임워크를 보여줍니다. 약한 융합에 기반한 방법은 일반적으로 특정 규칙 기반 방법을 사용하여 한 양식의 데이터를 다른 양식의 상호 작용을 안내하는 감독 신호로 활용합니다. 예를 들어, 이미지 브랜치에서 CNN의 2D 제안은 원본 LiDAR 포인트 클라우드에서 잘림을 유발할 수 있으며, 약한 융합은 원본 LiDAR 포인트 클라우드를 LiDAR 백본에 직접 입력하여 최종 제안을 출력합니다.

자율주행에 멀티모달 융합 인식 알고리즘 적용에 대한 심도 있는 논의

7 다른 융합 방법

모델 설계의 틀에서 여러 가지 융합 방법을 사용하기 때문에 위의 패러다임 중 어느 것에도 속하지 않는 작품도 있습니다. 융합 및 후처리 융합,[77]은 사전 융합을 결합합니다. 이러한 방법은 융합 알고리즘 설계의 주류 방법은 아니며, 이 기사에서는 다른 융합 방법으로 분류됩니다.

8 다중 모드 융합의 기회

최근 몇 년 동안 자율 주행 인식 작업을 위한 다중 모드 융합 방법은 고급 기능 표현에서 보다 복잡한 딥 러닝 모델에 이르기까지 급속한 발전을 이루었습니다. 그러나 아직 해결해야 할 몇 가지 미해결 문제가 있습니다. 이 문서에서는 다음과 같은 몇 가지 가능한 향후 개선 방향을 요약합니다.

더 진보된 융합 방법

현재 융합 모델은 오정렬 및 정보 손실 문제가 있습니다 [13, 67, 98]. 또한 플랫 퓨전 작업은 지각 작업 성능의 추가 향상을 방해합니다. 요약은 다음과 같습니다.

  1. 위치 이탈 및 정보 손실: 카메라와 LiDAR의 내부 및 외부 차이는 매우 크며 두 모드의 데이터를 좌표 정렬해야 합니다. 기존의 전면 융합 및 깊이 융합 방법은 교정 정보를 활용하여 모든 LiDAR 지점을 카메라 좌표계에 직접 투영하거나 그 반대로 투영합니다. 그러나 설치 위치와 센서 노이즈로 인해 이 픽셀별 정렬은 충분히 정확하지 않습니다. 따라서 일부 작품에서는 더 나은 성능을 얻기 위해 주변 정보를 활용하여 이를 보완하기도 합니다. 또한 입력 공간과 특징 공간을 변환하는 동안 일부 다른 정보가 손실됩니다. 일반적으로 차원 축소 작업을 투영하면 3D LiDAR 포인트 클라우드를 2D BEV 이미지로 매핑할 때 높이 정보가 손실되는 등 많은 양의 정보 손실이 불가피하게 발생합니다. 따라서 다중 모드 데이터를 융합을 위해 설계된 또 다른 고차원 공간에 매핑하여 원본 데이터를 효과적으로 활용하고 정보 손실을 줄이는 것을 고려할 수 있습니다.
  2. 더 합리적인 융합 작업: 현재 많은 방법에서는 융합을 위해 캐스케이드 또는 요소 곱셈을 사용합니다. 이러한 간단한 작업은 광범위하게 다른 분포를 가진 데이터를 융합하지 못하여 두 양식 사이에 의미론적 레드독을 맞추는 것을 어렵게 만들 수 있습니다. 일부 작품에서는 데이터를 융합하고 성능을 향상시키기 위해 보다 복잡한 캐스케이드 구조를 사용하려고 시도합니다. 향후 연구에서는 이중선형 매핑과 같은 메커니즘이 다양한 특성을 가진 특징을 통합할 수 있으며 고려할 수 있는 방향이기도 합니다.

다중 소스 정보 활용

전향적인 단일 프레임 이미지는 자율 주행 인식 작업을 위한 일반적인 시나리오입니다. 그러나 대부분의 프레임워크는 제한된 정보만 활용할 수 있으며 운전 시나리오에 대한 이해를 돕기 위한 보조 작업을 세부적으로 설계하지 않습니다. 요약은 다음과 같습니다.

  1. 더 많은 잠재적 정보 사용: 기존 방법은 다양한 차원과 소스의 정보를 효과적으로 활용하지 못합니다. 대부분 전면 보기에서는 단일 프레임 다중 모드 데이터에 중점을 둡니다. 이로 인해 의미, 공간 및 장면 컨텍스트 정보와 같은 다른 의미 있는 데이터가 충분히 활용되지 않게 됩니다. 일부 작업은 의미론적 분할 결과를 사용하여 작업을 지원하려고 시도하는 반면 다른 모델은 잠재적으로 CNN 백본의 중간 계층 기능을 활용합니다. 자율 주행 시나리오에서 명시적인 의미 정보가 포함된 많은 다운스트림 작업은 차선, 신호등 및 교통 표지판 감지와 같은 객체 감지 성능을 크게 향상시킬 수 있습니다. 향후 연구에서는 다운스트림 작업을 결합하여 도시 장면에 대한 완전한 의미론적 이해 프레임워크를 공동으로 구축하여 인식 성능을 향상시킬 수 있습니다. 또한 [63]에서는 성능 향상을 위해 프레임 간 정보를 통합합니다. 시계열 정보에는 직렬화된 모니터링 신호가 포함되어 있어 단일 프레임 방법에 비해 더 안정적인 결과를 제공할 수 있습니다. 따라서 향후 작업에서는 성능 혁신을 달성하기 위해 시간적, 상황적, 공간적 정보를 더욱 깊이 활용하는 것을 고려할 수 있습니다.
  2. 자기 감독 표현 학습: 상호 감독 신호는 동일한 실제 장면에서 서로 다른 각도에서 샘플링된 교차 모달 데이터에 자연스럽게 존재합니다. 그러나 데이터에 대한 심층적인 이해가 부족하기 때문에 현재의 방법으로는 다양한 양식 간의 상호 관계를 파악할 수 없습니다. 향후 연구는 사전 훈련, 미세 조정 또는 대조 학습을 포함하여 자기 지도 학습을 위해 다중 모드 데이터를 사용하는 방법에 중점을 둘 수 있습니다. 이러한 최첨단 메커니즘을 통해 융합 알고리즘은 모델의 데이터에 대한 더 깊은 이해를 심화하는 동시에 더 나은 성능을 달성합니다.

고유한 센서 문제

실제 장면과 센서 높이는 도메인 바이어스와 해상도에 영향을 미칠 수 있습니다. 이러한 결함은 자율주행 딥러닝 모델의 대규모 훈련과 실시간 운영을 방해할 것입니다

  1. 도메인 편향: 자율 주행 인식 시나리오에서 다양한 센서에서 추출된 원시 데이터에는 심각한 도메인 관련 특징이 수반됩니다. 카메라마다 광학 특성이 다르며 LiDAR는 기계 구조부터 고체 구조까지 다양할 수 있습니다. 더욱이 데이터 자체에는 동일한 센서로 캡처했더라도 날씨, 계절, 지리적 위치와 같은 도메인 편향이 있습니다. 이로 인해 탐지 모델의 일반화가 영향을 받고 새로운 시나리오에 효과적으로 적응할 수 없습니다. 이러한 결함은 대규모 데이터 세트 수집과 원본 훈련 데이터의 재사용을 방해합니다. 따라서 미래에는 도메인 편향을 제거하고 다양한 데이터 소스를 적응적으로 통합하는 방법을 찾는 데 집중할 수 있습니다.
  2. 해상도 충돌: 일반적으로 센서마다 해상도가 다릅니다. 예를 들어, LiDAR의 공간 밀도는 이미지의 공간 밀도보다 훨씬 낮습니다. 어떤 투영 방법을 사용하더라도 해당 관계를 찾을 수 없기 때문에 정보 손실이 발생합니다. 이로 인해 특징 벡터의 해상도가 다르거나 원시 정보의 불균형으로 인해 모델이 하나의 특정 양식의 데이터에 의해 지배될 수 있습니다. 따라서 향후 연구에서는 다양한 공간 해상도의 센서와 호환되는 새로운 데이터 표현 시스템을 탐색할 수 있습니다.

9 참고

[1] https://zhuanlan.zhihu.com/p/470588787
[2] 자동차 운전 인식을 위한 다중 모드 센서 융합: 설문조사

자율주행에 멀티모달 융합 인식 알고리즘 적용에 대한 심도 있는 논의

원본 링크: https ://mp.weixin.qq.com/s/usAQRL18vww9YwMXRvEwLw

위 내용은 자율주행에 멀티모달 융합 인식 알고리즘 적용에 대한 심도 있는 논의의 상세 내용입니다. 자세한 내용은 PHP 중국어 웹사이트의 기타 관련 기사를 참조하세요!

성명:
이 기사는 51cto.com에서 복제됩니다. 침해가 있는 경우 admin@php.cn으로 문의하시기 바랍니다. 삭제