arXiv 논문 "VectorFlow: 교통 점유 및 흐름 예측을 위한 이미지와 벡터 결합", 2022년 8월 9일, Tsinghua University에서 작업.
도로 요원의 미래 행동을 예측하는 것은 자율 주행의 핵심 작업입니다. 기존 모델이 에이전트의 미래 행동을 예측하는 데 큰 성공을 거두었지만 여러 에이전트의 조정된 행동을 효과적으로 예측하는 것은 여전히 어려운 과제로 남아 있습니다. 최근 누군가가 점유 그리드와 흐름의 조합을 통해 도로 요원의 공동 미래 상태를 나타내는 점유 흐름 필드(OFF) 표현을 제안하여 공동으로 일관된 예측을 지원합니다.
이 연구에서는 새로운 점유 흐름 필드 예측기, 래스터화된 교통 이미지로부터 특징을 학습하는 이미지 인코더, 연속적인 에이전트 궤적 및 지도 상태 정보를 캡처하는 벡터 인코더를 제안합니다. 이 두 가지를 결합하여 정확한 점유 및 흐름 예측을 생성합니다. 두 가지 인코딩 기능은 최종 예측을 생성하기 전에 여러 주의 모듈에 의해 융합됩니다. 이 모델은 Waymo Open Dataset Occupancy and Flow Prediction Challenge에서 3위를 차지했으며 폐색된 점유 및 흐름 예측 작업에서 최고의 성능을 달성했습니다.
OFF 표현("Occupancy Flow Fields for Motion Forecasting in Autonomous Driving", arXiv 2203.03875, 3, 2022)은 각 그리드 셀에 i) 에이전트가 셀을 점유할 확률과 ii)가 포함된 시공간 그리드입니다. 유닛을 점유한 에이전트의 이동 흐름을 나타냅니다. 점유 흐름 필드를 예측하는 계산 복잡도는 현장의 도로 에이전트 수와 무관하기 때문에 더 나은 효율성과 확장성을 제공합니다.
사진에 보이는 것처럼 OFF 프레임 다이어그램입니다. 인코더 구조는 다음과 같습니다. 첫 번째 단계에서는 세 가지 유형의 입력 포인트를 모두 수신하고 PointPillars에서 영감을 받은 인코더로 처리합니다. 신호등과 도로 지점은 그리드에 직접 배치됩니다. 각 입력 시간 단계 t에서 에이전트의 상태 인코딩은 각 에이전트 BEV 상자에서 고정 크기 포인트 그리드를 균일하게 샘플링하고 이러한 포인트를 배치된 관련 에이전트 상태 속성(시간 t의 원-핫 인코딩 포함)과 결합하는 것입니다. 그리드에. 각 기둥은 포함된 모든 포인트에 대한 임베딩을 출력합니다. 디코더의 구조는 다음과 같습니다. 두 번째 수준은 각 기둥 삽입을 입력으로 받고 그리드 셀 점유 및 흐름 예측을 생성합니다. 디코더 네트워크는 EfficientNet을 기반으로 하며 EfficientNet을 백본으로 사용하여 각 기둥 임베딩을 처리하여 특징 맵(P2,...P7)을 얻습니다. 여기서 Pi는 입력에서 2^i로 다운샘플링됩니다. BiFPN 네트워크는 이러한 다중 규모 기능을 양방향 방식으로 융합하는 데 사용됩니다. 그런 다음 최고 해상도 특징 맵 P2를 사용하여 모든 시간 단계에서 모든 에이전트 클래스 K에 대한 점유 및 흐름 예측을 회귀합니다. 구체적으로 디코더는 점유율과 흐름을 예측하면서 각 그리드 셀에 대한 벡터를 출력합니다.
이 기사에서는 다음과 같은 문제 설정이 이루어졌습니다. 장면의 교통 에이전트의 1초 기록과 지도 좌표와 같은 장면 컨텍스트를 바탕으로 목표는 i) 미래에 관찰된 점유, ii) 미래 폐색 점유율, iii) 각 웨이포인트가 1초 간격을 포함하는 시나리오에서 미래의 8개 웨이포인트에서 모든 차량의 미래 흐름.
입력을 래스터화된 이미지와 벡터 세트로 처리합니다. 이미지를 얻기 위해 관측 에이전트의 궤적과 지도 데이터를 바탕으로 자율주행차(SDC)의 로컬 좌표를 기준으로 과거의 각 시간 단계에서 래스터화된 그리드가 생성됩니다. 래스터화된 이미지와 일치하는 벡터화된 입력을 얻기 위해 SDC의 로컬 뷰를 기준으로 입력 에이전트와 지도 좌표를 회전하고 이동하는 동일한 변환이 수행됩니다.
인코더는 래스터화된 표현을 인코딩하는 VGG-16 모델과 벡터화된 표현을 인코딩하는 VectorNe 모델의 두 부분으로 구성됩니다. 벡터화된 특징은 교차 주의 모듈을 통해 VGG-16의 마지막 두 단계의 특징과 융합됩니다. FPN 스타일 네트워크를 통해 융합된 기능은 원래 해상도로 업샘플링되고 입력 래스터화된 기능으로 사용됩니다.
Decoder는 인코더 출력을 점유 흐름 필드 예측에 매핑하는 단일 2D 컨벌루션 레이어입니다. 이는 다음 8초 동안 각 시간 단계에 대한 점유 및 흐름 예측을 나타내는 일련의 8개 그리드 맵으로 구성됩니다.
사진에 표시된 대로:
torchvision의 표준 VGG-16 모델을 래스터화 인코더로 사용하고 VectorNet(코드https://github.com/Tsinghua-MARS-Lab/DenseTNT) 구현을 따릅니다. VectorNet에 대한 입력은 i) B×Nr×9 모양의 도로 요소 벡터 세트로 구성됩니다. 여기서 B는 배치 크기이고 Nr=10000은 도로 요소 벡터의 최대 수이며 마지막 차원 9는 각 벡터를 나타냅니다. 벡터 ID 두 끝점의 위치(x, y) 및 방향(cosθ, sinθ) ii) 장면에 있는 최대 128개 에이전트의 벡터를 포함하는 B×1280×9 모양의 에이전트 벡터 세트, 여기서 각 에이전트는 관찰 위치에서 10개의 벡터를 갖습니다.
VectorNet에 따라 먼저 각 교통 요소의 ID를 기반으로 로컬 지도를 실행한 다음 모든 로컬 기능에 대해 글로벌 지도를 실행하여 B×128×N 모양의 벡터화된 기능을 얻습니다. 여기서 N은 총 교통 요소 수입니다. , 도로 요소 및 지능을 포함합니다. 특징의 크기는 MLP 계층을 통해 4배 더 증가하여 최종 벡터화된 특징 V를 얻습니다. 그 모양은 B × 512 × N이고 특징 크기는 이미지 특징의 채널 크기와 일치합니다.
각 VGG 레벨의 출력 특징은 입력 이미지와 512개의 숨겨진 차원을 기준으로 {C1, C2, C3, C4, C5}로 표시되며 스트라이드는 {1, 2, 4, 8, 16} 픽셀입니다. . 벡터화된 특징 V는 크로스 어텐션 모듈을 통해 B×512×16×16 모양의 래스터화된 이미지 특징 C5와 융합되어 동일한 모양의 F5를 얻습니다. Cross attention의 쿼리 항목은 256개 토큰을 포함하는 B×512×256 모양으로 평면화된 이미지 특징 C5이고, Key 및 Value 항목은 N 토큰을 포함하는 벡터화된 특징 V입니다.
그런 다음 채널 차원에서 F5와 C5를 연결하고 두 개의 3×3 컨벌루션 레이어를 통과하여 B×512×16×16 모양의 P5를 얻습니다. P5는 FPN 방식의 2×2 업샘플링 모듈을 통해 업샘플링되고 C4(B×512×32x32)와 연결되어 C4와 동일한 형태의 U4를 생성한다. 그런 다음 Cross-attention을 포함한 동일한 절차에 따라 V와 U4 사이에 또 다른 융합 라운드가 수행되어 P4(B × 512 × 32 × 32)를 얻습니다. 마지막으로 P4는 FPN 스타일 네트워크에 의해 점진적으로 업샘플링되고 {C3, C2, C1}과 연결되어 B×512×256×256 형태의 EP1을 생성합니다. 두 개의 3×3 컨벌루션 레이어를 통해 P1을 전달하여 B×128×256 모양의 최종 출력 특징을 얻습니다.
디코더는 입력 채널 크기가 128이고 출력 채널 크기가 32(8 웨이포인트 × 4 출력 차원)인 단일 2D 컨벌루션 레이어입니다.
결과는 다음과 같습니다.
위 내용은 VectorFlow: 교통 점유 및 흐름 예측을 위한 이미지와 벡터 결합의 상세 내용입니다. 자세한 내용은 PHP 중국어 웹사이트의 기타 관련 기사를 참조하세요!