찾다
기술 주변기기일체 포함VectorFlow: 교통 점유 및 흐름 예측을 위한 이미지와 벡터 결합

arXiv 논문 "VectorFlow: 교통 점유 및 흐름 예측을 위한 이미지와 벡터 결합", 2022년 8월 9일, Tsinghua University에서 작업.

VectorFlow: 교통 점유 및 흐름 예측을 위한 이미지와 벡터 결합

도로 요원의 미래 행동을 예측하는 것은 자율 주행의 핵심 작업입니다. 기존 모델이 에이전트의 미래 행동을 예측하는 데 큰 성공을 거두었지만 여러 에이전트의 조정된 행동을 효과적으로 예측하는 것은 여전히 ​​​​어려운 과제로 남아 있습니다. 최근 누군가가 점유 그리드와 흐름의 조합을 통해 도로 요원의 공동 미래 상태를 나타내는 점유 흐름 필드(OFF) 표현을 제안하여 공동으로 일관된 예측을 지원합니다.

이 연구에서는 새로운 점유 흐름 필드 예측기, 래스터화된 교통 이미지로부터 특징을 학습하는 이미지 인코더, 연속적인 에이전트 궤적 및 지도 상태 정보를 캡처하는 벡터 인코더를 제안합니다. 이 두 가지를 결합하여 정확한 점유 및 흐름 예측을 생성합니다. 두 가지 인코딩 기능은 최종 예측을 생성하기 전에 여러 주의 모듈에 의해 융합됩니다. 이 모델은 Waymo Open Dataset Occupancy and Flow Prediction Challenge에서 3위를 차지했으며 폐색된 점유 및 흐름 예측 작업에서 최고의 성능을 달성했습니다.

OFF 표현("Occupancy Flow Fields for Motion Forecasting in Autonomous Driving", arXiv 2203.03875, 3, 2022)은 각 그리드 셀에 i) 에이전트가 셀을 점유할 확률과 ii)가 포함된 시공간 그리드입니다. 유닛을 점유한 에이전트의 이동 흐름을 나타냅니다. 점유 흐름 필드를 예측하는 계산 복잡도는 현장의 도로 에이전트 수와 무관하기 때문에 더 나은 효율성과 확장성을 제공합니다.

사진에 보이는 것처럼 OFF 프레임 다이어그램입니다. 인코더 구조는 다음과 같습니다. 첫 번째 단계에서는 세 가지 유형의 입력 포인트를 모두 수신하고 PointPillars에서 영감을 받은 인코더로 처리합니다. 신호등과 도로 지점은 그리드에 직접 배치됩니다. 각 입력 시간 단계 t에서 에이전트의 상태 인코딩은 각 에이전트 BEV 상자에서 고정 크기 포인트 그리드를 균일하게 샘플링하고 이러한 포인트를 배치된 관련 에이전트 상태 속성(시간 t의 원-핫 인코딩 포함)과 결합하는 것입니다. 그리드에. 각 기둥은 포함된 모든 포인트에 대한 임베딩을 출력합니다. 디코더의 구조는 다음과 같습니다. 두 번째 수준은 각 기둥 삽입을 입력으로 받고 그리드 셀 점유 및 흐름 예측을 생성합니다. 디코더 네트워크는 EfficientNet을 기반으로 하며 EfficientNet을 백본으로 사용하여 각 기둥 임베딩을 처리하여 특징 맵(P2,...P7)을 얻습니다. 여기서 Pi는 입력에서 2^i로 다운샘플링됩니다. BiFPN 네트워크는 이러한 다중 규모 기능을 양방향 방식으로 융합하는 데 사용됩니다. 그런 다음 최고 해상도 특징 맵 P2를 사용하여 모든 시간 단계에서 모든 에이전트 클래스 K에 대한 점유 및 흐름 예측을 회귀합니다. 구체적으로 디코더는 점유율과 흐름을 예측하면서 각 그리드 셀에 대한 벡터를 출력합니다.

VectorFlow: 교통 점유 및 흐름 예측을 위한 이미지와 벡터 결합

이 기사에서는 다음과 같은 문제 설정이 이루어졌습니다. 장면의 교통 에이전트의 1초 기록과 지도 좌표와 같은 장면 컨텍스트를 바탕으로 목표는 i) 미래에 관찰된 점유, ii) 미래 폐색 점유율, iii) 각 웨이포인트가 1초 간격을 포함하는 시나리오에서 미래의 8개 웨이포인트에서 모든 차량의 미래 흐름.

입력을 래스터화된 이미지와 벡터 세트로 처리합니다. 이미지를 얻기 위해 관측 에이전트의 궤적과 지도 데이터를 바탕으로 자율주행차(SDC)의 로컬 좌표를 기준으로 과거의 각 시간 단계에서 래스터화된 그리드가 생성됩니다. 래스터화된 이미지와 일치하는 벡터화된 입력을 얻기 위해 SDC의 로컬 뷰를 기준으로 입력 에이전트와 지도 좌표를 회전하고 이동하는 동일한 변환이 수행됩니다.

인코더는 래스터화된 표현을 인코딩하는 VGG-16 모델과 벡터화된 표현을 인코딩하는 VectorNe 모델의 두 부분으로 구성됩니다. 벡터화된 특징은 교차 주의 모듈을 통해 VGG-16의 마지막 두 단계의 특징과 융합됩니다. FPN 스타일 네트워크를 통해 융합된 기능은 원래 해상도로 업샘플링되고 입력 래스터화된 기능으로 사용됩니다.

Decoder는 인코더 출력을 점유 흐름 필드 예측에 매핑하는 단일 2D 컨벌루션 레이어입니다. 이는 다음 8초 동안 각 시간 단계에 대한 점유 및 흐름 예측을 나타내는 일련의 8개 그리드 맵으로 구성됩니다.

사진에 표시된 대로:

VectorFlow: 교통 점유 및 흐름 예측을 위한 이미지와 벡터 결합

torchvision의 표준 VGG-16 모델을 래스터화 인코더로 사용하고 VectorNet(코드https://github.com/Tsinghua-MARS-Lab/DenseTNT) 구현을 따릅니다. VectorNet에 대한 입력은 i) B×Nr×9 모양의 도로 요소 벡터 세트로 구성됩니다. 여기서 B는 배치 크기이고 Nr=10000은 도로 요소 벡터의 최대 수이며 마지막 차원 9는 각 벡터를 나타냅니다. 벡터 ID 두 끝점의 위치(x, y) 및 방향(cosθ, sinθ) ii) 장면에 있는 최대 128개 에이전트의 벡터를 포함하는 B×1280×9 모양의 에이전트 벡터 세트, 여기서 각 에이전트는 관찰 위치에서 10개의 벡터를 갖습니다.

VectorNet에 따라 먼저 각 교통 요소의 ID를 기반으로 로컬 지도를 실행한 다음 모든 로컬 기능에 대해 글로벌 지도를 실행하여 B×128×N 모양의 벡터화된 기능을 얻습니다. 여기서 N은 총 교통 요소 수입니다. , 도로 요소 및 지능을 포함합니다. 특징의 크기는 MLP 계층을 통해 4배 더 증가하여 최종 벡터화된 특징 V를 얻습니다. 그 모양은 B × 512 × N이고 특징 크기는 이미지 특징의 채널 크기와 일치합니다.

각 VGG 레벨의 출력 특징은 입력 이미지와 512개의 숨겨진 차원을 기준으로 {C1, C2, C3, C4, C5}로 표시되며 스트라이드는 {1, 2, 4, 8, 16} 픽셀입니다. . 벡터화된 특징 V는 크로스 어텐션 모듈을 통해 B×512×16×16 모양의 래스터화된 이미지 특징 C5와 융합되어 동일한 모양의 F5를 얻습니다. Cross attention의 쿼리 항목은 256개 토큰을 포함하는 B×512×256 모양으로 평면화된 이미지 특징 C5이고, Key 및 Value 항목은 N 토큰을 포함하는 벡터화된 특징 V입니다.

그런 다음 채널 차원에서 F5와 C5를 연결하고 두 개의 3×3 컨벌루션 레이어를 통과하여 B×512×16×16 모양의 P5를 얻습니다. P5는 FPN 방식의 2×2 업샘플링 모듈을 통해 업샘플링되고 C4(B×512×32x32)와 연결되어 C4와 동일한 형태의 U4를 생성한다. 그런 다음 Cross-attention을 포함한 동일한 절차에 따라 V와 U4 사이에 또 ​​다른 융합 라운드가 수행되어 P4(B × 512 × 32 × 32)를 얻습니다. 마지막으로 P4는 FPN 스타일 네트워크에 의해 점진적으로 업샘플링되고 {C3, C2, C1}과 연결되어 B×512×256×256 형태의 EP1을 생성합니다. 두 개의 3×3 컨벌루션 레이어를 통해 P1을 전달하여 B×128×256 모양의 최종 출력 특징을 얻습니다.

디코더는 입력 채널 크기가 128이고 출력 채널 크기가 32(8 웨이포인트 × 4 출력 차원)인 단일 2D 컨벌루션 레이어입니다.

결과는 다음과 같습니다.

VectorFlow: 교통 점유 및 흐름 예측을 위한 이미지와 벡터 결합

VectorFlow: 교통 점유 및 흐름 예측을 위한 이미지와 벡터 결합

위 내용은 VectorFlow: 교통 점유 및 흐름 예측을 위한 이미지와 벡터 결합의 상세 내용입니다. 자세한 내용은 PHP 중국어 웹사이트의 기타 관련 기사를 참조하세요!

성명
이 기사는 51CTO.COM에서 복제됩니다. 침해가 있는 경우 admin@php.cn으로 문의하시기 바랍니다. 삭제
AI 치료사가 여기 있습니다 : 14 획기적인 정신 건강 도구가 알아야 할 획기적인 정신 건강 도구AI 치료사가 여기 있습니다 : 14 획기적인 정신 건강 도구가 알아야 할 획기적인 정신 건강 도구Apr 30, 2025 am 11:17 AM

훈련 된 치료사의 인간 관계와 직관을 제공 할 수는 없지만 연구에 따르면 많은 사람들이 비교적 얼굴이없고 익명의 AI 봇과의 걱정과 우려를 편안하게 공유하는 것으로 나타났습니다. 이것이 항상 좋은지 i

식료품 통로에 AI를 호출합니다식료품 통로에 AI를 호출합니다Apr 30, 2025 am 11:16 AM

수십 년 동안의 기술 인 인공 지능 (AI)은 식품 소매 산업에 혁명을 일으키고 있습니다. AI의 영향은 다양한 비즈니스 기능에 걸쳐 대규모 효율성 상승 및 비용 절감에서 간소화 된 프로세스에 이르기까지 AI의 영향은 불공정입니다.

당신의 정신을 높이기 위해 생성 AI에서 Pep 대화를받는 것당신의 정신을 높이기 위해 생성 AI에서 Pep 대화를받는 것Apr 30, 2025 am 11:15 AM

그것에 대해 이야기합시다. 혁신적인 AI 혁신에 대한이 분석은 다양한 영향력 AI 복잡성을 식별하고 설명하는 것을 포함하여 AI의 최신 AI에 대한 진행중인 Forbes 열 커버리지의 일부입니다 (여기 링크 참조). 또한, 내 comp

AI 구동과 개인화가 모든 비즈니스에 필수품 인 이유AI 구동과 개인화가 모든 비즈니스에 필수품 인 이유Apr 30, 2025 am 11:14 AM

전문 이미지를 유지하려면 가끔 옷장 업데이트가 필요합니다. 온라인 쇼핑은 편리하지만 직접 시도한 트립 온의 확실성이 부족합니다. 내 해결책? AI 기반 개인화. 나는 AI 조수 큐레이팅 의류 selecti를 구상합니다

Duolingo는 잊어 버리십시오 : Google Translate의 새로운 AI 기능은 언어를 가르칩니다Duolingo는 잊어 버리십시오 : Google Translate의 새로운 AI 기능은 언어를 가르칩니다Apr 30, 2025 am 11:13 AM

Google Translate는 언어 학습 기능을 추가합니다 Android Authority에 따르면 APP Expert AssembledeBug는 최신 버전의 Google Translate 앱에는 사용자가 개인화 된 활동을 통해 언어 기술을 향상시킬 수 있도록 설계된 새로운 "연습"테스트 코드가 포함되어 있음을 발견했습니다. 이 기능은 현재 사용자에게는 보이지 않지만 AsschBLEDEBUG는 부분적으로이를 활성화하고 새로운 사용자 인터페이스 요소 중 일부를 볼 수 있습니다. 활성화되면이 기능은 "Beta"배지가 표시된 화면 하단에 새로운 졸업식 캡 아이콘을 추가하여 "연습"기능이 실험 형태로 처음 릴리스 될 것임을 나타내는 새로운 졸업식 캡 아이콘을 추가합니다. 관련 팝업 프롬프트는 "당신을 위해 맞춤화 된 활동을 연습하십시오!"를 보여줍니다. 이는 Google이 사용자 정의를 생성한다는 것을 의미합니다.

그들은 AI를 위해 TCP/IP를 만들고 있으며 Nanda라고합니다그들은 AI를 위해 TCP/IP를 만들고 있으며 Nanda라고합니다Apr 30, 2025 am 11:12 AM

MIT 연구원들은 AI 에이전트를 위해 설계된 획기적인 웹 프로토콜 인 Nanda를 개발하고 있습니다. 네트워크 에이전트 및 분산 된 AI의 경우 Nanda는 인터넷 기능을 추가하여 AI Agen을 활성화하여 Anthropic의 MCP (Model Context Protocol)를 기반으로합니다.

프롬프트 : Deepfake Detection은 급성장하는 비즈니스입니다프롬프트 : Deepfake Detection은 급성장하는 비즈니스입니다Apr 30, 2025 am 11:11 AM

Meta의 최신 벤처 : Chatgpt와 경쟁하는 AI 앱 Facebook, Instagram, WhatsApp 및 Threads의 모회사 인 Meta는 새로운 AI 기반 응용 프로그램을 시작하고 있습니다. 이 독립형 앱인 Meta AI는 OpenAi의 chatgpt와 직접 경쟁하는 것을 목표로합니다. 지렛대

비즈니스 리더를위한 AI 사이버 보안에서 향후 2 년비즈니스 리더를위한 AI 사이버 보안에서 향후 2 년Apr 30, 2025 am 11:10 AM

AI 사이버 공격의 상승 조수를 탐색합니다 최근에 Ciso의 인류의 Ciso 인 Jason Clinton은 인간이 아닌 정체성과 관련된 새로운 위험을 강조했습니다.

See all articles

핫 AI 도구

Undresser.AI Undress

Undresser.AI Undress

사실적인 누드 사진을 만들기 위한 AI 기반 앱

AI Clothes Remover

AI Clothes Remover

사진에서 옷을 제거하는 온라인 AI 도구입니다.

Undress AI Tool

Undress AI Tool

무료로 이미지를 벗다

Clothoff.io

Clothoff.io

AI 옷 제거제

Video Face Swap

Video Face Swap

완전히 무료인 AI 얼굴 교환 도구를 사용하여 모든 비디오의 얼굴을 쉽게 바꾸세요!

뜨거운 도구

MinGW - Windows용 미니멀리스트 GNU

MinGW - Windows용 미니멀리스트 GNU

이 프로젝트는 osdn.net/projects/mingw로 마이그레이션되는 중입니다. 계속해서 그곳에서 우리를 팔로우할 수 있습니다. MinGW: GCC(GNU Compiler Collection)의 기본 Windows 포트로, 기본 Windows 애플리케이션을 구축하기 위한 무료 배포 가능 가져오기 라이브러리 및 헤더 파일로 C99 기능을 지원하는 MSVC 런타임에 대한 확장이 포함되어 있습니다. 모든 MinGW 소프트웨어는 64비트 Windows 플랫폼에서 실행될 수 있습니다.

Eclipse용 SAP NetWeaver 서버 어댑터

Eclipse용 SAP NetWeaver 서버 어댑터

Eclipse를 SAP NetWeaver 애플리케이션 서버와 통합합니다.

SublimeText3 중국어 버전

SublimeText3 중국어 버전

중국어 버전, 사용하기 매우 쉽습니다.

메모장++7.3.1

메모장++7.3.1

사용하기 쉬운 무료 코드 편집기

Dreamweaver Mac版

Dreamweaver Mac版

시각적 웹 개발 도구