궤적 예측이 최근 2년간 각광을 받았지만 대부분은 차량의 궤적 예측 방향에 중점을 두고 있습니다. 오늘은 자율주행하트에서 인간의 움직임인 NeurIPS의 보행자 궤적 예측 알고리즘을 공유하겠습니다. 제한된 장면의 패턴은 일반적으로 제한된 법칙을 어느 정도 준수합니다. SHENet은 이러한 가정을 바탕으로 암묵적인 장면 규칙을 학습하여 사람의 미래 궤적을 예측합니다. 이 기사는 자율주행하트의 원본임을 인정받았습니다!
인간의 움직임은 무작위성과 주관성으로 인해 사람의 미래 궤적을 예측하는 것은 현재 여전히 어려운 문제입니다. 그러나 장면 제약(예: 평면도, 도로 및 장애물)과 인간 대 인간 또는 인간 대 객체 상호 작용으로 인해 제한된 장면에서 인간의 움직임 패턴은 일반적으로 어느 정도 제한된 법칙을 따릅니다. 따라서 이 경우 개인의 궤적도 이러한 법칙 중 하나를 따라야 합니다. 즉, 한 사람의 후속 궤적은 다른 사람이 여행했을 가능성이 높습니다. 이 가정을 바탕으로 이 글의 알고리즘(SHENet)은 암묵적인 장면 규칙을 학습하여 사람의 미래 궤적을 예측합니다. 구체적으로 우리는 장면 내 과거의 사람과 환경의 역학에 내재된 규칙성을 장면 역사라고 부릅니다. 그런 다음 장면 기록 정보는 역사적 그룹 궤적과 개인과 환경 간의 상호 작용이라는 두 가지 범주로 나뉩니다. 이 두 가지 유형의 정보를 궤도 예측에 활용하기 위해 본 논문에서는 장면 기록을 간단하고 효과적인 방식으로 활용하는 새로운 프레임워크인 Scene History Mining Network(SHENet)를 제안합니다. 특히, 디자인의 두 가지 구성 요소는 미래 경로의 후보로 대표적인 그룹 궤적을 추출하는 데 사용되는 그룹 궤적 라이브러리 모듈과 개인의 과거 궤적 간의 상호 작용을 모델링하는 데 사용되는 교차 모달 상호 작용 모듈입니다. 그리고 그 주변 환경을 통해 궤도 개선을 수행합니다. 또한 위에서 언급한 인간 움직임의 무작위성과 주관성으로 인해 발생하는 실제 궤적의 불확실성을 완화하기 위해 SHENet은 훈련 과정과 평가 지표에 부드러움을 포함합니다. 마지막으로 다양한 실험 데이터 세트에서 이를 검증했으며 SOTA 방법과 비교하여 우수한 성능을 입증했습니다.
인간 궤적 예측(Human Trajectory Prediction, HTP)은 영상을 통해 대상자의 미래 경로를 예측하는 것을 목표로 합니다. 이는 차량이 보행자 상태를 미리 감지하여 잠재적인 충돌을 피할 수 있게 해주기 때문에 스마트 교통에 매우 중요합니다. HTP 기능을 갖춘 모니터링 시스템은 보안 담당자가 용의자의 가능한 탈출 경로를 예측하는 데 도움을 줄 수 있습니다. 최근 몇 년 동안 많은 작업이 수행되었지만 주로 작업의 두 가지 문제인 인간 동작의 무작위성과 주관성으로 인해 실제 시나리오의 응용 프로그램에 충분히 신뢰할 수 있고 일반화할 수 있는 작업은 거의 없습니다. 그러나 제한된 실제 시나리오에서는 문제가 완전히 해결 불가능한 것은 아닙니다. 그림 1에서 볼 수 있듯이, 이 장면에서 이전에 캡처한 비디오를 고려하면 인간의 움직임 패턴이 일반적으로 이 장면의 대상 사람이 따르는 몇 가지 기본 법칙을 따르기 때문에 대상 사람의 미래 궤적(빨간색 상자)이 더 예측 가능해집니다. 따라서 궤도를 예측하려면 먼저 이러한 패턴을 이해해야 합니다. 우리는 이러한 규칙성이 역사적 인간 궤적(왼쪽 그림 1), 개인의 과거 궤적, 주변 환경 및 이들 사이의 상호 작용(그림 1 오른쪽)에 암묵적으로 인코딩되어 있다고 주장합니다. 이를 장면 이력이라고 합니다.
그림 1: 장면 역사 활용의 개략도: 인간 궤적 예측을 위한 역사적 집단 궤적 및 개별 환경 상호 작용.
역사 정보를 역사적 집단 궤적(HGT)과 개인-환경 상호 작용(ISI)의 두 가지 범주로 나눕니다. HGT는 장면의 모든 역사적 궤적을 그룹으로 표현한 것입니다. HGT를 사용하는 이유는 장면에 새로운 대상 인물이 주어지면 그/그녀의 경로가 역사적 궤적의 단일 인스턴스보다 그룹 궤적 중 하나에 대해 더 많은 유사성, 주관성 및 규칙성을 가질 가능성이 더 높기 때문입니다. 앞서 말한 무작위성. 그러나 집단 궤적은 개인의 과거 상태 및 그에 따른 환경과는 덜 관련되어 있으며 개인의 미래 궤적에도 영향을 미치게 됩니다. ISI는 문맥 정보를 추출하여 역사적 정보를 더욱 완벽하게 활용할 필요가 있습니다. 기존 방법은 개인의 과거 궤적과 역사적 궤적 간의 유사성을 거의 고려하지 않습니다. 대부분의 시도는 개인과 환경 사이의 상호 작용만을 탐구하며 개인의 궤적, 환경의 의미 정보 및 이들 사이의 관계를 모델링하는 데 많은 노력을 기울입니다. MANTRA는 재구성 방식으로 학습된 인코더를 사용하여 유사성 모델을 만들고, MemoNet은 과거 궤적의 의도를 저장하여 유사성을 단순화하지만, 둘 다 그룹 수준이 아닌 인스턴스 수준에서 유사성 계산을 수행하므로 훈련된 사람의 능력에 민감합니다. 코더. 위의 분석을 바탕으로 HTP를 위해 HGT와 ISI를 공동으로 활용하는 간단하면서도 효과적인 프레임워크인 SHENet(Scene History Mining Network)을 제안합니다. 특히 프레임워크는 (i) GTB(Group Trajectory Base) 모듈과 (ii) CMI(Cross-Modal Interaction) 모듈의 두 가지 주요 구성 요소로 구성됩니다. GTB는 모든 과거 개별 궤적에서 대표 그룹 궤적을 구성하고 미래 궤적 예측을 위한 후보 경로를 제공합니다. CMI는 관찰된 개별 궤적과 주변 환경을 별도로 인코딩하고 교차 모달 변환기를 사용하여 상호 작용을 모델링하여 검색된 후보 궤적을 구체화합니다.
또한 위의 두 가지 특성(예: 무작위성과 주관성)의 불확실성을 완화하기 위해 훈련 프로세스와 현재 평가 지표, 평균 및 최종 변위 오류(예: ADE 및 FDE)에 곡선 평활화(CS)를 도입하여 다음을 얻습니다. 두 개의 새로운 지표 CS-ADE 및 CS-FDE. 또한 HTP 연구 개발을 촉진하기 위해 PAV라는 다양한 움직임 패턴을 가진 새로운 도전적인 데이터 세트를 수집했습니다. 이 데이터 세트는 MOT15 데이터 세트에서 고정된 카메라 뷰와 복잡한 인간 동작이 포함된 비디오를 선택하여 얻습니다.
이 작업의 기여는 다음과 같이 요약할 수 있습니다. 1) HTP의 개별 궤적을 검색하기 위해 그룹 역사를 소개합니다. 2) 우리는 HTP를 위해 두 가지 유형의 장면 기록(즉, 과거 그룹 궤적 및 개인-환경 상호 작용)을 공동으로 활용하는 간단하면서도 효과적인 프레임워크인 SHENet을 제안합니다. 3) 우리는 새로운 도전적인 데이터 세트 PAV를 구축했습니다. 또한 인간 움직임 패턴의 무작위성과 주관성을 고려하여 더 나은 기본 HTTP 성능을 달성하기 위해 새로운 손실 함수와 두 가지 새로운 지표를 제안했습니다. 4) SHENet의 우수한 성능과 각 구성요소의 효능을 입증하기 위해 ETH, UCY, PAV에 대한 포괄적인 실험을 수행했습니다.
유니모달 방법유니모달 방법은 과거 궤적에서 개별 움직임의 규칙성을 학습하여 미래 궤적을 예측하는 데 의존합니다. 예를 들어 Social LSTM은 소셜 풀링 모듈을 통해 개별 궤적 간의 상호 작용을 모델링합니다. STGAT는 주의 모듈을 사용하여 공간적 상호 작용을 학습하고 이웃에게 합리적인 중요성을 할당합니다. PIE는 시간적 주의 모듈을 사용하여 각 시간 단계에서 관찰된 궤적의 중요성을 계산합니다.
Multimodal method또한 multimodal 방법은 환경 정보가 HTP에 미치는 영향도 조사합니다. SS-LSTM은 장면의 전체 정보를 캡처하기 위한 장면 상호 작용 모듈을 제안합니다. Trajectron++는 그래프 구조를 사용하여 궤적을 모델링하고 환경 정보 및 다른 개인과 상호 작용합니다. MANTRA는 외부 메모리를 활용하여 장기적인 종속성을 모델링합니다. 이는 과거 단일 에이전트 궤적을 메모리에 저장하고 환경 정보를 인코딩하여 이 메모리에서 검색된 궤적을 구체화합니다.
이전 작업과의 차이점단일 모드 및 다중 모드 접근 방식 모두 역사적 그룹 궤적을 무시하고 장면 내역의 단일 또는 부분적 측면을 사용합니다. 우리 작업에서는 장면 이력 정보를 보다 포괄적인 방식으로 통합하고 다양한 유형의 정보를 각각 처리할 수 있는 전용 모듈을 제안합니다. 우리의 방법과 이전 연구, 특히 메모리 기반 방법과 클러스터링 기반 방법의 주요 차이점은 다음과 같습니다. i) MANTRA와 MemoNet은 역사적인 개별 궤적을 고려하는 반면 제안된 SHENet은 역사적 그룹 궤적에 중점을 둡니다. 시나리오. ii) 궤적 예측을 위해 사람-이웃을 궤적 분류를 위해 고정된 수의 범주로 그룹화하는 일부 작업도 있습니다. SHENet은 개별 궤적 예측을 위한 참조로 대표 궤적을 생성합니다.
제안된 장면 히스토리 마이닝 네트워크(SHENet)의 아키텍처는 그림 2에 나와 있습니다. 이는 그룹 궤적 라이브러리 모듈(GTB)과 크로스 모달 상호 작용 모듈의 두 가지 주요 구성 요소로 구성됩니다. (CMI). 공식적으로, 장면의 관찰된 비디오에 있는 모든 궤적 , 장면 이미지와 마지막 시간 단계에서 대상 사람 의 과거 궤적이 주어지며, 여기서 는 시간 단계 t에서 p번째 사람의 위치를 나타냅니다. , SHENet은 다음 프레임에서 보행자의 미래 위치를 지상 실제 궤적에 최대한 가깝게 예측해야 합니다. 제안된 GTB는 먼저 을 대표 그룹 궤적으로 압축합니다. 그런 다음 관찰된 궤적을 키로 사용하여 가장 가까운 대표 그룹 궤적을 후보 미래 궤적으로 검색합니다. 동시에, 과거 궤적 영상과 장면 영상을 각각 궤적 인코더와 장면 인코더로 전송하여 각각 궤적 특징과 장면 특징을 생성한다. 인코딩된 특징은 교차 모달 변환기에 입력되어 실제 궤적에서 오프셋 을 학습합니다. 에 을 추가하면 최종 예측 을 얻을 수 있습니다. 훈련 단계에서 까지의 거리가 임계값보다 높으면 사람의 궤적(예: 및 )이 궤적 라이브러리에 추가됩니다. 훈련이 완료된 후 추론을 위해 뱅크가 고정됩니다.
그림 2: SHENet의 아키텍처는 GTB(그룹 궤적 라이브러리 모듈)와 CMI(Cross-Modal Interaction Module)라는 두 가지 구성 요소로 구성됩니다. GTB는 모든 과거 궤적을 대표적인 그룹 궤적 세트로 클러스터링하고 최종 궤적 예측을 위한 후보를 제공합니다. 훈련 단계에서 GTB는 예측된 궤적의 오류를 기반으로 대상 인물의 궤적을 그룹 궤적 라이브러리에 통합하여 표현 능력을 확장할 수 있습니다. CMI는 특징 추출을 위해 대상 인물의 과거 궤적과 관찰된 장면을 각각 궤적 인코더와 장면 인코더의 입력으로 사용하고, Cross-modal Converter와 Refinement를 통해 과거 궤적과 주변 환경 간의 상호 작용을 효과적으로 모델링합니다. 후보 궤적을 제공하기 위해 수행됩니다.
그림 3: 크로스모달 변압기 그림. 탐색 궤적과 실제 궤적 사이의 오프셋을 학습하기 위해 궤적 특징과 장면 특징이 크로스 모달 변환기에 입력됩니다.
그룹 궤적 라이브러리 모듈(GTB)은 장면에서 대표적인 그룹 궤적을 구축하는 데 사용됩니다. GTB의 핵심 기능은 뱅크 초기화, 궤적 검색, 궤적 업데이트입니다.
궤적 라이브러리 초기화기록된 궤적의 중복으로 인해 단순히 사용하는 것이 아니라 희소하고 대표적인 궤적 집합을 궤적 라이브러리의 초기 값으로 생성합니다. 구체적으로 훈련 데이터의 궤적을 로 표현하고 각각 을 한 쌍의 관찰 궤적 과 미래 궤적 으로 분할하여 을 관찰 세트 와 해당 미래 세트 로 나눕니다. 그런 다음 , 의 각 궤적 쌍 사이의 유클리드 거리를 계산하고 K-medoids 클러스터링 알고리즘을 통해 궤적 클러스터를 얻습니다. 의 초기 멤버는 동일한 클러스터에 속하는 궤적의 평균입니다(알고리즘 1, 1단계 참조). 의 각 궤적은 한 그룹의 사람들의 이동 패턴을 나타냅니다.
궤적 검색 및 업데이트그룹 궤적 라이브러리에서 각 궤적은 과거-미래 쌍으로 볼 수 있습니다. 수치적으로 , 여기서 는 과거 궤적과 미래 궤적의 조합을 나타내고, 는 에 포함된 과거-미래 쌍의 수입니다. 궤적 이 주어지면 관찰된 을 의 과거 궤적 과의 유사성 점수를 계산하는 키로 사용하고 최대 유사성 점수에 따라 대표 궤적 을 찾습니다(알고리즘 1, 2단계 참조). 유사성 함수는 다음과 같이 표현될 수 있습니다:
오프셋 (수식 2 참조)를 대표 궤적 에 추가하여 관찰자의 예측 궤적 을 얻습니다(그림 2 참조). 초기 궤적 라이브러리는 대부분의 경우 잘 작동하지만 라이브러리의 일반화를 개선하기 위해(알고리즘 1, 3단계 참조) 거리 임계값 θ에 따라 업데이트 여부를 결정합니다.
이 모듈은 개인의 과거 궤적과 환경 정보 간의 상호 작용에 중점을 둡니다. 인간의 움직임과 장면 정보를 각각 학습하는 두 개의 단일 모드 인코더와 상호 작용을 모델링하는 교차 모드 변환기로 구성됩니다.
Trajectory EncoderTrajectory Encoder는 Self-Attention(SA) 레이어가 있는 Transformer Network의 다중 헤드 어텐션 구조를 사용합니다. SA 레이어는 크기의 다양한 시간 단계에서 인간 모션을 캡처하고 차원에서 차원까지 모션 기능을 투영합니다. 여기서 는 궤적 인코더의 임베딩 차원입니다. 따라서 우리는 인간의 움직임 표현을 얻기 위해 궤적 인코더를 사용합니다.
Scene Encoder 사전 훈련된 Swin Transformer는 특징 표현에 있어서 강력한 성능을 가지므로 이를 장면 인코더로 채택합니다. 크기의 장면 의미 특징을 추출합니다. 여기서 (사전 훈련된 장면 인코더의 )은 사람, 도로 등 의미 클래스의 개수이고 및 은 공간 해상도입니다. 후속 모듈이 모션 표현과 환경 정보를 쉽게 융합할 수 있도록 의미론적 특징을 크기()에서 ()로 다시 변경하고 다층 지각 레이어를 통해 차원()에서 ()로 투영합니다. 결과적으로 장면 인코더 를 사용하여 장면 표현 을 얻습니다.
Cross-modal Transformer 단일 모달 인코더는 인간의 움직임과 환경 정보 간의 상호 작용을 무시하고 자체 양식에서 특징을 추출합니다. 레이어가 있는 크로스 모달 변환기는 이 상호 작용을 학습하여 후보 궤적 을 개선하는 것을 목표로 합니다(섹션 3.2 참조). 우리는 2개의 스트림 구조를 채택합니다. 하나는 환경 정보에 의해 제한되는 중요한 인간 동작을 캡처하는 데 사용되고, 다른 하나는 인간 동작과 관련된 환경 정보를 선택하는 데 사용됩니다. CA(교차 주의) 계층과 SA(자체 주의) 계층은 교차 모달 변환기의 주요 구성 요소입니다(그림 3 참조). 환경에 영향을 받는 중요한 인체 움직임을 포착하고 움직임과 관련된 환경 정보를 얻기 위해 CA 계층은 한 양식을 쿼리로 처리하고 다른 양식을 두 양식과 상호 작용하는 키와 값으로 처리합니다. SA 레이어는 더 나은 내부 연결을 촉진하고 장면 제약 모션 또는 모션 관련 환경 정보에서 요소(쿼리)와 기타 요소(키) 간의 유사성을 계산하는 데 사용됩니다. 따라서 우리는 교차 모드 변환기()를 통해 다중 모드 표현을 얻습니다. 검색 궤적 과 실제 궤적 간의 오프셋 을 예측하기 위해 의 마지막 요소(LE) 와 전역 풀링 계층(GPL) 다음에 출력 을 사용합니다. 오프셋 은 다음과 같이 표현될 수 있습니다.
여기서 [; ]는 벡터 연결을 나타내고 MLP는 다층 지각 계층입니다. 목적함수를 최소화하기 위해 SHENet end-to-end 전체 프레임워크를 학습시킵니다. 훈련 중에 장면 인코더는 ADE20K에서 사전 훈련되었으므로 분할 부분을 동결하고 MLP 헤드의 매개변수를 업데이트합니다(섹션 3.3 참조). 기존 작업에 따라 ETH/UCY 데이터세트의 예측 궤적과 실제 궤적 간의 평균 제곱 오차(MSE)를 계산합니다..
더 까다로운 PAV 데이터 세트에서는 곡선 평활화(CS) 회귀 손실을 사용하여 개별 편향의 영향을 줄이는 데 도움이 됩니다. 궤적을 평활화한 후 MSE를 계산합니다. CS 손실은 다음과 같이 표현될 수 있습니다. 여기서 CS는 곡선 평활화 함수를 나타냅니다[2].데이터 세트 우리는 ETH, UCY, PAV 및 SDD(Stanford Drone Dataset) 데이터 세트에 대한 방법을 평가합니다. 단일 모드 방법은 궤적 데이터에만 중점을 두지만 다중 모드 방법은 장면 정보를 고려해야 합니다.
ETH/UCY 데이터 세트와 비교할 때 PAV는 PETS09-S2L1(PETS), ADL-Rundle-6(ADL) 및 Venice-2(VENICE)를 포함한 여러 모션 모드를 사용하기가 더 까다롭습니다. HTP 작업에 대한 충분한 추적을 제공합니다. 비디오를 훈련 세트(80%)와 테스트 세트(20%)로 나누고 PETS/ADL/VENICE에는 각각 2,370/2,935/4,200개의 훈련 시퀀스와 664/306/650개의 테스트 시퀀스가 포함되어 있습니다. 우리는관찰 프레임을 사용하여 미래 프레임을 예측하므로 다양한 방법의 장기 예측 결과를 비교할 수 있습니다.
ETH/UCY 및 PAV 데이터 세트와 달리 SDD는 대학 캠퍼스의 조감도에서 캡처한 대규모 데이터 세트입니다. 이는 여러 상호 작용 에이전트(예: 보행자, 자전거 타는 사람, 자동차)와 다양한 시나리오(예: 인도 및 교차로)로 구성됩니다. 이전 작업에 이어 지난 8프레임을 사용하여 미래 12프레임을 예측합니다.
그림 4: 제안된 측정항목 CS-ADE 및 CS-FDE 그림.
그림 5: 곡선 평활화 후 일부 샘플의 시각화.
평가 지표 ETH 및 UCY 데이터 세트의 경우 HTP의 표준 지표인 평균 변위 오류(ADE) 및 최종 변위 오류(FDE)를 사용합니다. ADE는 모든 시간 단계에서 예측된 궤적과 실제 궤적 사이의 평균 오류이고, FDE는 최종 시간 단계에서 예측된 궤적과 실제 궤적 사이의 오류입니다. PAV의 궤적에는 약간의 지터(예: 날카로운 회전)가 있습니다. 따라서 합리적인 예측은 전통적인 지표인 ADE 및 FDE를 사용하는 비현실적인 예측과 거의 동일한 오류를 생성할 수 있습니다(그림 7(a) 참조). 궤적 자체의 패턴과 모양에 초점을 맞추고 무작위성과 주관성의 영향을 줄이기 위해 CS-Metric: CS-ADE 및 CS-FDE를 제안합니다(그림 4 참조). CS-ADE는 다음과 같이 계산됩니다.
여기서 CS는 섹션 3.4의 Lcs와 동일하게 정의된 곡선 평활화 함수입니다. CS-ADE와 유사하게 CS-FDE는 궤적 평활화 후 최종 변위 오류를 계산합니다. 그림 5는 대략적인 실제 궤적을 부드러운 궤적으로 변환하는 훈련 데이터의 일부 샘플을 보여줍니다. 구현 세부정보SHENet에서는 그룹 궤적 라이브러리의 초기 크기가 로 설정되어 있습니다. 궤적 인코더와 장면 인코더에는 모두 4개의 SA(Self-Attention) 레이어가 있습니다. 크로스 모달 변환기에는 6개의 SA 레이어와 Cross Attention(CA) 레이어가 있습니다. 모든 임베딩 크기를 512로 설정했습니다. 궤적 인코더의 경우 크기(ETH/UCY의 경우 , PAV의 경우 )의 인간 동작 정보를 학습합니다. 장면 인코더의 경우 150×56×56 크기의 의미적 특징을 출력합니다. 크기를 150 × 56 × 56에서 150 × 3136으로 변경하고 150 × 3136에서 150 × 512 크기로 투영합니다. 우리는 4개의 NVIDIA Quadro RTX 6000 GPU에서 100 epoch 동안 모델을 훈련하고 1e − 5의 고정 학습률로 Adam 최적화 프로그램을 사용합니다. Ablation Experiment표 1에서는 GTB(Group Trajectory Library) 모듈과 TE(Trajectory Encoder), 장면 인코딩 서버( SE) 및 CMI(Cross Modal Interaction) 모듈이 있습니다.
GTB의 영향
먼저 GTB의 성능을 연구합니다. CMI(예: TE, SE 및 CMT)와 비교하여 GTB는 PETS의 FDE를 21.2% 향상시켰으며 이는 상당한 개선이며 GTB의 중요성을 보여줍니다. 그러나 GTB만으로는(표 1의 1행) 충분하지 않으며 CMI보다 성능도 약간 떨어집니다. 따라서 CMI 모듈에서 다양한 부분의 역할을 살펴보았습니다. Influence of TE and SE TE와 SE의 성능을 평가하기 위해 TE에서 추출한 궤적 특징과 SE에서 추출한 장면 특징을 연결하고(표 1의 3행) Small Motion이 ADL의 성능을 향상시키는지 비교합니다. 및 VENICE(TE만 사용한 것과 비교하여. 이는 환경 정보를 궤적 예측에 통합하면 결과의 정확도를 향상시킬 수 있음을 보여줍니다. CMT의 효과 표 1의 세 번째 행과 비교하면 CMT(표 1)가 크게 향상될 수 있습니다. 특히, PETS 시리즈에서 TE와 SE를 능가하며, GTB 단독 대비 ADE가 평균 7.4% 향상되었습니다.
우리 모델을 ETH/UCY 데이터 세트(SS-LSTM, Social-STGCN, MANTRA, AgentFormer, YNet)에 대한 최첨단 방법과 비교하세요. 결과는 표 2에 요약되어 있습니다. 우리 모델은 평균 FDE를 0.39에서 0.36으로 줄였으며 이는 최첨단 방법인 YNet에 비해 7.7% 개선되었습니다. 특히, 궤도가 큰 움직임을 겪을 때 우리 모델은 ETH에 대한 이전 방법보다 훨씬 뛰어난 성능을 발휘하여 ADE와 FDE를 각각 12.8%와 15.3% 향상시켰습니다.
표 2: ETH/UCY 데이터세트의 최첨단(SOTA) 방법 비교. *는 단봉 접근 방식보다 더 작은 세트를 사용함을 나타냅니다. 상위 20개 중 가장 좋은 것을 사용해 평가합니다.
표 3: PAV 데이터 세트에 대한 SOTA 방법 비교.
장기 예측에서 우리 모델의 성능을 평가하기 위해 우리는 궤적당 관측 프레임과 미래 프레임을 사용하여 PAV에 대한 실험을 수행했습니다. 표 3은 기존 HTP 방법인 SS-LSTM, Social-STGCN, Next, MANTRA, YNet과의 성능 비교를 보여줍니다. YNet의 최신 결과와 비교하여 제안한 SHENet CS-ADE와 CS-FDE는 각각 평균 3.3%, 10.5%의 개선을 보였다. YNet은 궤적의 히트맵을 예측하므로 VENICE와 같이 궤적에 작은 움직임이 있을 때 더 나은 성능을 발휘합니다. 그럼에도 불구하고 우리의 방법은 VENICE에서 여전히 경쟁력이 있으며 더 큰 모션과 교차점이 있는 PETS의 다른 방법보다 훨씬 뛰어납니다. 특히, 우리의 방법은 YNet에 비해 PETS에서 CS-FDE를 16.2% 향상시켰다. 우리는 또한 전통적인 ADE/FDE 지표에서도 큰 진전을 이루었습니다.
거리 임계값 θθ는 궤적 라이브러리의 업데이트를 결정하는 데 사용됩니다. θ의 일반적인 값은 궤적 길이를 기준으로 설정됩니다. 예측 오류의 절대값은 일반적으로 정답 궤적이 픽셀 단위로 길수록 커집니다. 그러나 상대 오류는 비슷합니다. 따라서 오류가 수렴되면 θ는 훈련 오류의 75%로 설정됩니다. 실험에서는 PETS에서 θ = 25, ADL에서 θ = 6으로 설정했습니다. 표 4에 표시된 것처럼 "75% 훈련 오류"는 실험 결과에서 얻어집니다.
표 4: PAV 데이터세트의 다양한 매개변수 θ 비교. 결과는 세 가지 경우의 평균입니다.
표 5: PAV 데이터 세트의 초기 클러스터 번호 K 비교.
K 중심점의 클러스터 수 표 5와 같이 초기 클러스터 K의 수를 다르게 설정하는 효과를 연구했습니다. 특히 초기 클러스터 수가 24-36인 경우 초기 클러스터 수가 예측 결과에 민감하지 않다는 것을 알 수 있습니다. 따라서 실험에서는 K를 32로 설정할 수 있습니다.
은행 복잡성 분석 검색과 업데이트의 시간 복잡도는 각각 O(N)과 O(1)입니다. 공간 복잡도는 O(N)입니다. 그룹 궤적 수 N≤1000. 클러스터링 프로세스의 시간 복잡도는 ββ이고, 공간 복잡도는 ββ입니다. β 는 클러스터링 궤적의 수입니다. 는 클러스터 수, 는 클러스터링 방법의 반복 횟수입니다.
그림 6: 우리의 접근 방식과 최첨단 방법의 질적 시각화. 파란색 선은 관찰된 궤적입니다. 빨간색과 녹색 선은 예측된 궤적과 실제 궤적을 보여줍니다.
그림 7: CS가 있거나 없는 정성적 시각화.
그림 6은 SHENet 및 기타 방법의 정성적 결과를 보여줍니다. 대조적으로, 사람이 길가로 걸어갔다가 다시 돌아오는 매우 어려운 경우(녹색 곡선)에서 우리가 제안한 SHENet은 여전히 이를 처리할 수 있지만 다른 모든 방법은 이를 잘 처리하지 못한다는 사실에 놀랐습니다. 이는 특별히 설계된 역사적 그룹 궤적 라이브러리 모듈의 역할에 기인합니다. 또한, 메모리 기반 방법인 MANTRA[20]와 달리 개인뿐만 아니라 그룹의 궤적을 검색합니다. 이는 보다 다양하며 보다 까다로운 시나리오에 적용될 수 있습니다. 그림 7에는 CS(곡선 평활화)가 있거나 없는 YNet 및 SHENet에 대한 정성적 결과가 포함되어 있습니다. 첫 번째 행은 MSE 손실 을 사용한 결과를 보여줍니다. 약간의 노이즈(예: 갑작스럽고 급격한 회전)가 있는 과거 궤적의 영향을 받아 YNet의 예측 궤적 지점이 함께 클러스터되어 명확한 방향을 제시할 수 없는 반면, 우리 방법은 과거 그룹 궤적을 기반으로 잠재적인 경로를 제공할 수 있습니다. 두 예측은 시각적으로 다르지만 수치 오류(ADE/FDE)는 거의 동일합니다. 대조적으로, 제안된 CS 손실 의 정성적 결과는 그림 7의 두 번째 행에 표시됩니다. 제안된 CS는 YNet과 우리의 방법을 통해 무작위성과 주관성의 영향을 크게 줄이고 합리적인 예측을 생성하는 것을 볼 수 있습니다.
본 논문에서는 HTP 시나리오의 역사를 최대한 활용하는 새로운 접근 방식인 SHENet을 제안합니다. SHENet에는 모든 역사적 궤적을 기반으로 그룹 궤적 라이브러리를 구축하고 라이브러리에서 관찰된 인물의 대표 궤적을 검색하기 위한 GTB 모듈이 포함되어 있으며, 이 대표 궤적을 구체화하기 위한 CMI 모듈(인간 움직임과 환경 정보 간의 상호 작용)도 포함되어 있습니다. 우리는 HTP 벤치마크에서 SOTA 성능을 달성했으며, 우리의 접근 방식은 까다로운 시나리오에서 상당한 개선과 일반성을 보여줍니다. 그러나 현재 인간의 움직임에만 초점을 맞춘 은행 건설 프로세스와 같이 현재 프레임워크에는 아직 탐구되지 않은 측면이 있습니다. 향후 작업에는 대화형 정보(인간 동작 및 장면 정보)를 사용하여 궤적 라이브러리를 추가로 탐색하는 것이 포함됩니다.
원본 링크: https://mp.weixin.qq.com/s/GE-t4LarwXJu2MC9njBInQ
위 내용은 보행자 궤적 예측을 위한 효과적인 방법과 일반적인 기본 방법은 무엇입니까? 최고의 컨퍼런스 논문 공유!의 상세 내용입니다. 자세한 내용은 PHP 중국어 웹사이트의 기타 관련 기사를 참조하세요!