>기술 주변기기 >일체 포함 >CLIP-BEVFormer: BEVFormer 구조를 명시적으로 감독하여 롱테일 감지 성능을 향상시킵니다.

CLIP-BEVFormer: BEVFormer 구조를 명시적으로 감독하여 롱테일 감지 성능을 향상시킵니다.

王林
王林앞으로
2024-03-26 12:41:28653검색

앞서 작성 및 작성자 개인적 이해

현재 자율주행 시스템 전체에서 인지 모듈은 중요한 역할을 합니다. 도로를 주행하는 자율주행차는 감지 모듈을 통해서만 정확한 정보를 얻을 수 있습니다. 그 결과 자율 주행 시스템의 하위 규제 및 제어 모듈이 적시에 올바른 판단과 행동 결정을 내릴 수 있습니다. 현재 자율주행 기능을 갖춘 자동차에는 일반적으로 서라운드 뷰 카메라 센서, 라이더 센서, 밀리미터파 레이더 센서 등 다양한 데이터 정보 센서가 장착되어 다양한 방식으로 정보를 수집하여 정확한 인식 작업을 수행합니다.

순수 비전 기반의 BEV 인식 알고리즘은 하드웨어 비용이 저렴하고 배포가 용이하며, 출력 결과를 다양한 다운스트림 작업에 쉽게 적용할 수 있다는 점 때문에 업계와 학계의 폭넓은 관심을 받아왔습니다. 최근에는 BEV 공간을 기반으로 한 많은 시각적 인식 알고리즘이 속속 등장하며 공개 데이터 세트에서 뛰어난 인식 성능을 입증했습니다.

현재 BEV 공간 기반 인식 알고리즘은 BEV 특징을 구성하는 방식에 따라 크게 두 가지 유형의 알고리즘 모델로 나눌 수 있습니다.

  • 한 가지 유형은 LSS 알고리즘으로 대표되는 순방향 BEV 특징 구성 방법입니다. 인지 알고리즘 모델은 먼저 인지 모델의 깊이 추정 네트워크를 사용하여 특징 맵의 각 픽셀의 의미적 특징 정보와 이산 깊이 확률 분포를 예측하고, 획득된 의미 특징 정보와 이산 깊이 확률을 사용하여 외부 곱 연산을 이용한 의미 절두체 특징과 기타 방법을 사용하여 BEV 공간 특징의 구성 프로세스를 최종적으로 완성합니다.
  • 다른 유형은 BEVFormer 알고리즘으로 대표되는 역방향 BEV 특징 구축 방법입니다. 이러한 유형의 인식 알고리즘 모델은 먼저 인식된 BEV 공간에서 3D 복셀 좌표점을 명시적으로 생성한 다음 카메라의 내부 및 외부 매개변수를 사용하여 변환합니다. 3D 복셀 좌표점을 영상 좌표계에 다시 투영하고 해당 특징 위치의 픽셀 특징을 추출하고 집계하여 BEV 공간에 BEV 특징을 구성합니다.

두 알고리즘 모두 BEV 공간의 특징을 정확하게 생성하고 3D 인식 결과를 얻을 수 있지만 BEVFormer 알고리즘과 같은 현재 BEV 공간 기반 3D 타겟 인식 알고리즘에는 다음과 같은 두 가지 문제가 있습니다.

  • 문제 1: BEVFormer 인식 알고리즘 모델의 전체 프레임워크는 인코더-디코더 네트워크 구조를 채택합니다. 주요 아이디어는 인코더 모듈을 사용하여 BEV 공간의 특징을 얻은 다음 디코더 모듈을 사용하여 최종 인식 결과를 예측하고 비교하는 것입니다. 모델이 예측한 BEV 공간 특징을 얻기 위해 손실을 계산하는 과정을 통해 인식 결과를 출력합니다. 그러나 이 네트워크 모델의 매개변수 업데이트 방법은 디코더 모듈의 인식 성능에 너무 많이 의존하므로 모델에 의해 출력된 BEV 기능이 실제 값 BEV 기능과 정렬되지 않는 문제가 발생할 수 있습니다. 지각 모델의 최종 성능.
  • 질문 2: BEVFormer 인식 알고리즘 모델의 디코더 모듈은 여전히 ​​Transformer의 self-attention 모듈 -> 교차 주의 모듈 -> 피드포워드 신경망 단계를 사용하여 쿼리 기능 구성을 완료하고 최종 탐지 결과를 출력합니다. 전체 프로세스는 여전히 블랙박스 모델이므로 해석성이 부족합니다. 동시에 모델 학습 과정에서 객체 쿼리와 실제 값 대상 간의 일대일 매칭 프로세스에도 큰 불확실성이 있습니다.

BEVFormer 인식 알고리즘 모델의 문제점을 해결하기 위해 이를 개선하고 서라운드 이미지 기반의 3D 감지 알고리즘 모델 CLIP-BEVFormer를 제안했습니다. 대조 학습 방법을 도입하여 BEV 기능을 구성하는 모델의 능력을 향상시키고 nuScenes 데이터 세트에서 최고의 수준의 지각 성능을 달성했습니다.

기사 링크: https://arxiv.org/pdf/2403.08919.pdf

네트워크 모델의 전체 아키텍처 및 세부 사항

이 기사에서 제안하는 CLIP-BEVFormer 인식 알고리즘 모델의 세부 사항을 소개하기 전에, 다음 그림은 CLIP-BEVFormer 알고리즘의 전체 네트워크 구조를 소개합니다.

CLIP-BEVFormer: BEVFormer 구조를 명시적으로 감독하여 롱테일 감지 성능을 향상시킵니다.본 글에서 제안하는 CLIP-BEV이전 인식 알고리즘 모델의 전체 흐름도

본 글에서 제안한 CLIP-BEVFormer 알고리즘 모델은 BEVFormer 인식 알고리즘 모델을 기반으로 개선된 알고리즘의 전체 흐름도를 볼 수 있다. . 먼저, BEVFormer 알고리즘 모델은 카메라 센서에서 수집한 서라운드 영상 데이터를 입력하고, 2D 영상 특징 추출 네트워크를 이용하여 입력된 서라운드 영상의 다중 스케일 의미 특징 정보를 추출한다. 둘째, 시간적 Self-Attention과 공간적 Cross-Attention을 포함하는 Encoder 모듈을 사용하여 2D 이미지 특징을 BEV 공간 특징으로 변환하는 과정을 완료합니다. 그런 다음 객체 쿼리 세트가 3D 인식 공간에서 정규 분포 형태로 생성되어 Decoder 모듈로 전송되어 Encoder 모듈에서 출력된 BEV 공간 특징과 공간 특징의 대화형 활용을 완료합니다. 마지막으로, 피드포워드 신경망을 사용하여 Object Query에서 쿼리한 의미적 특징을 예측하고, 네트워크 모델의 최종 분류 및 회귀 결과를 출력합니다. 동시에 BEVFormer 알고리즘 모델의 훈련 과정에서 일대일 헝가리어 매칭 전략을 사용하여 양성 및 음성 샘플의 배포 프로세스를 완료하고 분류 및 회귀 손실을 사용하여 업데이트 프로세스를 완료합니다. 전체 네트워크 모델 매개변수. BEVFormer 알고리즘 모델의 전반적인 탐지 과정은 다음 수학식으로 표현될 수 있습니다.

CLIP-BEVFormer: BEVFormer 구조를 명시적으로 감독하여 롱테일 감지 성능을 향상시킵니다.

여기서, 공식에서 BEVFormer 알고리즘의 인코더 특징 추출 모듈을 나타내고, BEVFormer 알고리즘의 디코더 디코딩 모듈을 나타내고, 현재 BEVFormer 알고리즘 모델에 의해 출력된 3D 인식 결과를 나타내는 데이터 세트의 실제 값을 나타냅니다.

진정한 가치 BEV의 생성

위에서 언급한 바와 같이 기존의 BEV 공간 기반 3D 타겟 탐지 알고리즘의 대부분은 생성된 BEV 공간 특징을 명시적으로 감독하지 않으므로 모델 생성 BEV 특징이 실제 BEV 특징과 일치하지 않을 수 있습니다. BEV 공간 특징 분포의 이러한 차이는 모델의 최종 지각 성능을 제한합니다. 이러한 고려 사항을 바탕으로 우리는 Ground Truth BEV 모듈을 제안했습니다. 이 모듈을 설계하는 핵심 아이디어는 모델에서 생성된 BEV 기능을 현재 실제 가치 BEV 기능과 일치시켜 모델의 성능을 향상시키는 것입니다.

구체적으로, 전체 네트워크 프레임워크 다이어그램에서 볼 수 있듯이 BEV 피처 맵에 있는 모든 Ground Truth 인스턴스의 카테고리 레이블 및 공간 경계 상자 위치 정보를 인코딩하기 위해 Ground Truth Encoder()를 사용합니다. 프로세스는 다음과 같이 표현할 수 있습니다. :

공식의 특징 차원은 생성된 BEV 특징 맵과 동일한 크기를 가지며, 실제 값 대상의 인코딩된 특징 정보를 나타냅니다. 인코딩 과정에서 우리는 두 가지 형태를 채택했는데, 하나는 LLM(Large Language Model)이고 다른 하나는 MLP(Multi-Layer Perceptron)입니다. 실험 결과를 통해 두 가지 방법이 기본적으로 동일한 성능을 달성한다는 것을 확인했습니다.

또한 BEV 특징 맵에서 실제 대상의 경계 정보를 더욱 향상시키기 위해 BEV 특징 맵에서 실제 대상을 공간 위치에 따라 자르고 자른 특징화 작업에 풀링을 사용하여 구성합니다. 해당 특징 정보 표현 과정은 다음과 같은 형식으로 표현될 수 있습니다.

마지막으로 모델에서 생성된 BEV 특징을 실제 값 BEV 특징과 추가로 정렬하기 위해 대조 학습 방법을 사용하여 두 범주를 최적화했습니다. BEV 기능 간의 요소 관계 및 거리, 최적화 프로세스는 다음 형식으로 표현될 수 있습니다.

CLIP-BEVFormer: BEVFormer 구조를 명시적으로 감독하여 롱테일 감지 성능을 향상시킵니다.

여기서 공식의 합은 각각 생성된 BEV 기능과 실제 값 BEV 기능 간의 유사성 매트릭스를 나타냅니다. 비교 학습에서의 논리적 스케일 팩터는 행렬 간의 곱셈 연산을 나타내며 교차 엔트로피 손실 함수를 나타냅니다. 위의 대조 학습 방법을 통해 우리가 제안하는 방법은 생성된 BEV 특징에 대해 보다 명확한 특징 안내를 제공하고 모델의 지각 능력을 향상시킬 수 있습니다.

참값 대상 쿼리 상호 작용

이 부분은 이전 기사에서도 언급한 부분입니다. BEVFormer 인식 알고리즘 모델의 Object Query는 Decoder 모듈을 통해 생성된 BEV 기능과 상호 작용하여 해당 대상 쿼리 기능을 얻습니다. 전체 프로세스 아직까지 완전한 프로세스 이해가 부족한 블랙박스 프로세스입니다. 이 문제를 해결하기 위해 우리는 진리값 대상을 사용하여 디코더 모듈의 BEV 기능 상호 작용을 실행하여 모델 매개 변수의 학습 프로세스를 자극하는 진리값 쿼리 상호 작용 모듈을 도입했습니다. 구체적으로, Truth Encoder() 모듈에서 출력된 Truth Target 인코딩 정보를 Object Query에 도입하여 Decoder 모듈의 디코딩 과정에 참여하게 되며, 일반 Object Query와 동일한 self-attention 모듈인 Cross-attention 모듈에 참여하게 됩니다. 피드포워드 신경망은 최종 인식 결과를 출력합니다. 그러나 디코딩 과정에서 모든 Object Query는 실제 값 대상 정보의 유출을 방지하기 위해 병렬 컴퓨팅을 사용한다는 점에 유의해야 합니다. 전체 진리값 대상 쿼리 상호 작용 프로세스는 다음과 같은 형태로 추상적으로 표현될 수 있습니다.

CLIP-BEVFormer: BEVFormer 구조를 명시적으로 감독하여 롱테일 감지 성능을 향상시킵니다.

그 중 수식에서는 초기화된 Object Query를 나타내며 각각 Decoder 모듈과 센싱 감지 헤드를 통해 참값 Object Query의 출력 결과를 나타냅니다. 우리가 제안한 참값 목표 질의 상호 작용 모듈은 모델 훈련 과정에서 참값 목표의 상호 작용 과정을 도입함으로써 참값 목표 질의와 참값 BEV 기능 간의 상호 작용을 실현할 수 있으며, 이를 통해 모델의 매개변수 업데이트 과정을 보조할 수 있습니다. 모델 디코더 모듈.

실험 결과 및 평가 지표

정량 분석 ​​부분

우리가 제안한 CLIP-BEVFormer 알고리즘 모델의 유효성을 검증하기 위해 3D 인식 효과와 길이로부터 nuScenes 데이터 세트를 대상으로 수행했습니다. nuScenes 데이터 세트에 대해 우리가 제안한 알고리즘 모델과 다른 3D 인식 알고리즘 모델 간의 정확도를 비교한 표는 다음과 같습니다.

CLIP-BEVFormer: BEVFormer 구조를 명시적으로 감독하여 롱테일 감지 성능을 향상시킵니다.

본 글에서 제안한 방법과 다른 인식 알고리즘 모델의 비교 결과

이번 실험에서는 다양한 모델 구성에 따른 인식 성능을 평가했습니다. 구체적으로는 CLIP-BEVFormer 알고리즘 모델을 적용했습니다. BEVFormer의 작은 기본 변형입니다. 또한 사전 훈련된 CLIP 모델 또는 MLP 레이어를 지상 진실 대상 인코더로 사용하여 모델 인식 성능에 미치는 영향도 조사했습니다. 실험 결과를 보면 원래의 Tiny 변형이든 Base 변형이든 우리가 제안한 CLIP-BEVFormer 알고리즘을 적용한 후 NDS 및 mAP 지표의 안정적인 성능 향상을 나타냄을 알 수 있습니다. 또한 실험 결과를 통해 우리가 제안한 알고리즘 모델은 지상실측 타겟 인코더로 MLP 레이어를 선택할지, 언어 모델을 선택할지 여부에 민감하지 않다는 것을 알 수 있습니다. 이러한 유연성은 우리가 제안한 CLIP-BEVFormer 알고리즘을 더욱 효과적으로 만들 수 있습니다. 효율적이며 차량에 쉽게 배치할 수 있습니다. 요약하면, 제안된 알고리즘 모델의 다양한 변형에 대한 성능 지표는 제안된 CLIP-BEVFormer 알고리즘 모델이 우수한 지각 견고성을 가지며 다양한 모델 복잡성 및 매개변수 양에서 탁월한 탐지 성능을 달성할 수 있음을 일관되게 나타냅니다.

제안된 CLIP-BEVFormer의 3D 인식 작업 성능을 검증하는 것 외에도 데이터에 롱테일 분포가 존재하는 상황에서 알고리즘의 견고성과 일반화를 평가하기 위해 롱테일 분포 실험도 수행했습니다. set.ization 능력에 대한 실험 결과는 아래 표에 요약되어 있습니다

CLIP-BEVFormer: BEVFormer 구조를 명시적으로 감독하여 롱테일 감지 성능을 향상시킵니다.

롱테일 문제에 대한 제안된 CLIP-BEVFormer 알고리즘 모델의 성능

위 표의 실험 결과에서 알 수 있습니다. NuScenes 데이터 세트는 엄청난 수의 카테고리를 보여줍니다. 수량 불균형 문제는 일부 카테고리(건설 차량, 버스, 오토바이, 자전거 등)의 비율이 매우 낮지만 자동차의 비율이 매우 높다는 것입니다. 제안된 CLIP-BEVFormer 알고리즘 모델이 롱테일 분포에 대한 관련 실험을 수행하여 특징 카테고리에 대한 인지 성능을 평가함으로써 덜 일반적인 카테고리를 해결하는 처리 능력을 검증합니다. 위의 실험 데이터를 통해 제안된 CLIP-BEVFormer 알고리즘 모델은 모든 범주에서 성능 향상을 달성했으며, 매우 작은 비율을 차지하는 범주에서는 CLIP-BEVFormer 알고리즘 모델이 확실한 실질적인 성능 향상을 보여주었다는 것을 알 수 있습니다.

실제 환경의 자율주행 시스템은 하드웨어 고장, 악천후, 인간이 만든 장애물로 인해 쉽게 발생할 수 있는 센서 고장 등의 문제에 직면해야 한다는 점을 고려하여 제안된 알고리즘 모델의 견고성을 추가로 실험적으로 검증했습니다. 구체적으로, 센서 고장 문제를 시뮬레이션하기 위해 모델 구현 추론 과정에서 카메라의 카메라를 무작위로 차단하여 카메라가 고장날 수 있는 장면을 시뮬레이션했습니다.

제안된 CLIP-BEVFormer 알고리즘 모델의 강인성 실험 결과

CLIP-BEVFormer: BEVFormer 구조를 명시적으로 감독하여 롱테일 감지 성능을 향상시킵니다.저희가 제안한 CLIP-BEVFormer 알고리즘 모델은 모델 매개변수 구성이 Tiny 또는 Base에 관계없이 항상 BEVFormer보다 우수하다는 것을 실험 결과에서 확인할 수 있습니다. 동일한 구성을 가진 모델은 센서 오류 조건을 시뮬레이션하는 데 있어 알고리즘 모델의 우수한 성능과 탁월한 견고성을 검증합니다.

정성적 분석 부분

다음 그림은 우리가 제안한 CLIP-BEVFormer 알고리즘 모델과 BEVFormer 알고리즘 모델의 인식 결과를 시각적으로 비교한 것입니다. 우리가 제안한 CLIP-BEVFormer 알고리즘 모델의 인식 결과가 참값 목표에 더 가깝다는 것을 시각적 결과에서 볼 수 있으며, 이는 우리가 제안한 참값 BEV 특징 생성 모듈과 참값 목표 쿼리 상호 작용 모듈의 효율성을 나타냅니다. .

CLIP-BEVFormer: BEVFormer 구조를 명시적으로 감독하여 롱테일 감지 성능을 향상시킵니다.

제안한 CLIP-BEVFormer 알고리즘 모델과 BEVFormer 알고리즘 모델의 인식 결과를 시각적으로 비교

결론

본 글에서는 원본에서 BEV 피처맵을 생성하는 과정에서 디스플레이 감독이 부족했다는 점을 지적 BEVFormer 알고리즘은 Decoder 모듈의 Object Query와 BEV 기능 간의 대화형 쿼리의 불확실성과 더불어 CLIP-BEVFormer 알고리즘 모델을 제안하고 알고리즘 모델의 3D 인식 성능, 타겟 롱테일 측면에서 실험을 수행했습니다. 다수의 실험 결과는 우리가 제안한 CLIP-BEVFormer 알고리즘 모델의 효율성을 보여줍니다.

위 내용은 CLIP-BEVFormer: BEVFormer 구조를 명시적으로 감독하여 롱테일 감지 성능을 향상시킵니다.의 상세 내용입니다. 자세한 내용은 PHP 중국어 웹사이트의 기타 관련 기사를 참조하세요!

성명:
이 기사는 51cto.com에서 복제됩니다. 침해가 있는 경우 admin@php.cn으로 문의하시기 바랍니다. 삭제