arXiv 논문 "ViP3D: 3D 에이전트 쿼리를 통한 엔드 투 엔드 시각적 궤적 예측", 8월 22일 업로드, Tsinghua University, Shanghai (Yao) Qizhi Research Institute, CMU, Fudan, Li Auto 및 MIT가 공동 제작, 등등. 일.
기존 자율주행 파이프라인은 인식 모듈과 예측 모듈을 분리합니다. 두 모듈은 에이전트 상자 및 궤적과 같은 수동으로 선택한 기능을 인터페이스로 통해 통신합니다. 이러한 분리로 인해 예측 모듈은 인식 모듈로부터 부분적인 정보만 받습니다. 더 나쁜 것은 인식 모듈의 오류가 전파되고 축적되어 예측 결과에 부정적인 영향을 미칠 수 있다는 것입니다.
이 작품은 원본 영상의 풍부한 정보를 활용해 장면 속 에이전트의 미래 궤적을 예측하는 시각적 궤적 예측 파이프라인인 ViP3D를 제안합니다. ViP3D는 파이프라인 전체에 걸쳐 희소 에이전트 쿼리를 사용하므로 이를 완전히 차별화하고 해석할 수 있습니다. 또한, 인식 및 예측 정확도를 종합적으로 고려한 엔드투엔드 시각적 궤적 예측 작업에 대한 새로운 평가 지표인 End-to-end Prediction Accuracy(EPA, End-to-end Prediction Accuracy)을 제안합니다. 예측 정확도를 향상시키면서 궤적은 실제 궤적을 기준으로 점수가 매겨집니다.
그림은 기존 다단계 캐스케이드 파이프라인과 ViP3D의 비교를 보여줍니다. 기존 파이프라인에는 감지, 추적 및 예측과 같은 여러 개의 미분 불가능한 모듈이 포함됩니다. 차량 방향 지시등과 같은 시각 정보를 효과적으로 활용합니다.
ViP3D는 원본 영상의 궤적 예측 문제를 end-to-end 방식으로 해결하는 것을 목표로 합니다. 특히 ViP3D는 다중 뷰 비디오와 고화질 지도를 통해 장면에 있는 모든 에이전트의 미래 궤적을 예측합니다.
ViP3D의 전체 프로세스는 그림에 나와 있습니다. 먼저 쿼리 기반 추적기는 주변 카메라의 다중 뷰 비디오를 처리하여 시각적 특징을 갖춘 추적된 에이전트의 쿼리를 얻습니다. 에이전트 쿼리의 시각적 기능은 에이전트의 움직임 역학과 시각적 특성은 물론 에이전트 간의 관계를 캡처합니다. 그 후, 궤도 예측기는 추적 에이전트의 쿼리를 입력으로 받아 HD 지도 기능과 연결하고 최종적으로 예측된 궤도를 출력합니다.
쿼리 기반 추적기는 서라운드 카메라의 원본 비디오에서 시각적 특징을 추출합니다. 구체적으로 각 프레임별로 DETR3D에 따라 이미지 특징을 추출합니다. 시간 도메인 특징 집계의 경우 쿼리 기반 추적기는 두 가지 주요 단계인 쿼리 기능 업데이트 및 쿼리 감독. 에이전트 쿼리는 에이전트의 움직임 역학을 모델링하기 위해 시간이 지남에 따라 업데이트됩니다. 대부분의 기존 궤적 예측 방법은 에이전트 인코딩, 맵 인코딩 및 궤적 디코딩의 세 부분으로 나눌 수 있습니다. 질의 기반 추적 후에는 추적된 에이전트의 질의를 획득하는데, 이는 에이전트 인코딩을 통해 획득한 에이전트 특성이라 할 수 있다. 따라서 남은 작업은 맵 인코딩과 궤적 디코딩이다.
예측 에이전트와 진실 에이전트를 각각 순서가 지정되지 않은 세트 Sˆ 및 S로 표현합니다. 여기서 각 에이전트는 현재 시간 단계의 에이전트 좌표와 K개의 가능한 미래 궤적으로 표시됩니다. 각 에이전트 유형 c에 대해 Scˆ와 Sc 간의 예측 정확도를 계산합니다. 예측 에이전트와 실제 에이전트 사이의 비용은 다음과 같이 정의됩니다.
Scˆ와 Sc 사이의 EPA는 다음과 같이 정의됩니다.
실험 결과는 다음과 같습니다.
참고: 이 대상 렌더링은 잘 수행되었습니다.
위 내용은 ViP3D: 3D 에이전트 쿼리를 통한 엔드투엔드 시각적 궤적 예측의 상세 내용입니다. 자세한 내용은 PHP 중국어 웹사이트의 기타 관련 기사를 참조하세요!