arXiv 논문 "ViP3D: 3D 에이전트 쿼리를 통한 엔드 투 엔드 시각적 궤적 예측", 8월 22일 업로드, Tsinghua University, Shanghai (Yao) Qizhi Research Institute, CMU, Fudan, Li Auto 및 MIT가 공동 제작, 등등. 일.
기존 자율주행 파이프라인은 인식 모듈과 예측 모듈을 분리합니다. 두 모듈은 에이전트 상자 및 궤적과 같은 수동으로 선택한 기능을 인터페이스로 통해 통신합니다. 이러한 분리로 인해 예측 모듈은 인식 모듈로부터 부분적인 정보만 받습니다. 더 나쁜 것은 인식 모듈의 오류가 전파되고 축적되어 예측 결과에 부정적인 영향을 미칠 수 있다는 것입니다.
이 작품은 원본 영상의 풍부한 정보를 활용해 장면 속 에이전트의 미래 궤적을 예측하는 시각적 궤적 예측 파이프라인인 ViP3D를 제안합니다. ViP3D는 파이프라인 전체에 걸쳐 희소 에이전트 쿼리를 사용하므로 이를 완전히 차별화하고 해석할 수 있습니다. 또한, 인식 및 예측 정확도를 종합적으로 고려한 엔드투엔드 시각적 궤적 예측 작업에 대한 새로운 평가 지표인 End-to-end Prediction Accuracy(EPA, End-to-end Prediction Accuracy)을 제안합니다. 예측 정확도를 향상시키면서 궤적은 실제 궤적을 기준으로 점수가 매겨집니다.
그림은 기존 다단계 캐스케이드 파이프라인과 ViP3D의 비교를 보여줍니다. 기존 파이프라인에는 감지, 추적 및 예측과 같은 여러 개의 미분 불가능한 모듈이 포함됩니다. 차량 방향 지시등과 같은 시각 정보를 효과적으로 활용합니다.
ViP3D는 원본 영상의 궤적 예측 문제를 end-to-end 방식으로 해결하는 것을 목표로 합니다. 특히 ViP3D는 다중 뷰 비디오와 고화질 지도를 통해 장면에 있는 모든 에이전트의 미래 궤적을 예측합니다.
ViP3D의 전체 프로세스는 그림에 나와 있습니다. 먼저 쿼리 기반 추적기는 주변 카메라의 다중 뷰 비디오를 처리하여 시각적 특징을 갖춘 추적된 에이전트의 쿼리를 얻습니다. 에이전트 쿼리의 시각적 기능은 에이전트의 움직임 역학과 시각적 특성은 물론 에이전트 간의 관계를 캡처합니다. 그 후, 궤도 예측기는 추적 에이전트의 쿼리를 입력으로 받아 HD 지도 기능과 연결하고 최종적으로 예측된 궤도를 출력합니다.
쿼리 기반 추적기는 서라운드 카메라의 원본 비디오에서 시각적 특징을 추출합니다. 구체적으로 각 프레임별로 DETR3D에 따라 이미지 특징을 추출합니다. 시간 도메인 특징 집계의 경우 쿼리 기반 추적기는 두 가지 주요 단계인 쿼리 기능 업데이트 및 쿼리 감독. 에이전트 쿼리는 에이전트의 움직임 역학을 모델링하기 위해 시간이 지남에 따라 업데이트됩니다. 대부분의 기존 궤적 예측 방법은 에이전트 인코딩, 맵 인코딩 및 궤적 디코딩의 세 부분으로 나눌 수 있습니다. 질의 기반 추적 후에는 추적된 에이전트의 질의를 획득하는데, 이는 에이전트 인코딩을 통해 획득한 에이전트 특성이라 할 수 있다. 따라서 남은 작업은 맵 인코딩과 궤적 디코딩이다.
예측 에이전트와 진실 에이전트를 각각 순서가 지정되지 않은 세트 Sˆ 및 S로 표현합니다. 여기서 각 에이전트는 현재 시간 단계의 에이전트 좌표와 K개의 가능한 미래 궤적으로 표시됩니다. 각 에이전트 유형 c에 대해 Scˆ와 Sc 간의 예측 정확도를 계산합니다. 예측 에이전트와 실제 에이전트 사이의 비용은 다음과 같이 정의됩니다.
Scˆ와 Sc 사이의 EPA는 다음과 같이 정의됩니다.
실험 결과는 다음과 같습니다.
참고: 이 대상 렌더링은 잘 수행되었습니다.
위 내용은 ViP3D: 3D 에이전트 쿼리를 통한 엔드투엔드 시각적 궤적 예측의 상세 내용입니다. 자세한 내용은 PHP 중국어 웹사이트의 기타 관련 기사를 참조하세요!

写在前面&笔者的个人理解三维Gaussiansplatting(3DGS)是近年来在显式辐射场和计算机图形学领域出现的一种变革性技术。这种创新方法的特点是使用了数百万个3D高斯,这与神经辐射场(NeRF)方法有很大的不同,后者主要使用隐式的基于坐标的模型将空间坐标映射到像素值。3DGS凭借其明确的场景表示和可微分的渲染算法,不仅保证了实时渲染能力,而且引入了前所未有的控制和场景编辑水平。这将3DGS定位为下一代3D重建和表示的潜在游戏规则改变者。为此我们首次系统地概述了3DGS领域的最新发展和关

您一定记得,尤其是如果您是Teams用户,Microsoft在其以工作为重点的视频会议应用程序中添加了一批新的3DFluent表情符号。在微软去年宣布为Teams和Windows提供3D表情符号之后,该过程实际上已经为该平台更新了1800多个现有表情符号。这个宏伟的想法和为Teams推出的3DFluent表情符号更新首先是通过官方博客文章进行宣传的。最新的Teams更新为应用程序带来了FluentEmojis微软表示,更新后的1800表情符号将为我们每天

0.写在前面&&个人理解自动驾驶系统依赖于先进的感知、决策和控制技术,通过使用各种传感器(如相机、激光雷达、雷达等)来感知周围环境,并利用算法和模型进行实时分析和决策。这使得车辆能够识别道路标志、检测和跟踪其他车辆、预测行人行为等,从而安全地操作和适应复杂的交通环境.这项技术目前引起了广泛的关注,并认为是未来交通领域的重要发展领域之一。但是,让自动驾驶变得困难的是弄清楚如何让汽车了解周围发生的事情。这需要自动驾驶系统中的三维物体检测算法可以准确地感知和描述周围环境中的物体,包括它们的位置、

当八卦开始传播新的Windows11正在开发中时,每个微软用户都对新操作系统的外观以及它将带来什么感到好奇。经过猜测,Windows11就在这里。操作系统带有新的设计和功能更改。除了一些添加之外,它还带有功能弃用和删除。Windows11中不存在的功能之一是Paint3D。虽然它仍然提供经典的Paint,它对抽屉,涂鸦者和涂鸦者有好处,但它放弃了Paint3D,它提供了额外的功能,非常适合3D创作者。如果您正在寻找一些额外的功能,我们建议AutodeskMaya作为最好的3D设计软件。如

ChatGPT给AI行业注入一剂鸡血,一切曾经的不敢想,都成为如今的基操。正持续进击的Text-to-3D,就被视为继Diffusion(图像)和GPT(文字)后,AIGC领域的下一个前沿热点,得到了前所未有的关注度。这不,一款名为ChatAvatar的产品低调公测,火速收揽超70万浏览与关注,并登上抱抱脸周热门(Spacesoftheweek)。△ChatAvatar也将支持从AI生成的单视角/多视角原画生成3D风格化角色的Imageto3D技术,受到了广泛关注现行beta版本生成的3D模型,

对于自动驾驶应用来说,最终还是需要对3D场景进行感知。道理很简单,车辆不能靠着一张图像上得到感知结果来行驶,就算是人类司机也不能对着一张图像来开车。因为物体的距离和场景的和深度信息在2D感知结果上是体现不出来的,而这些信息才是自动驾驶系统对周围环境作出正确判断的关键。一般来说,自动驾驶车辆的视觉传感器(比如摄像头)安装在车身上方或者车内后视镜上。无论哪个位置,摄像头所得到的都是真实世界在透视视图(PerspectiveView)下的投影(世界坐标系到图像坐标系)。这种视图与人类的视觉系统很类似,

一些原神“奇怪”的关键词,在这两天很有关注度,明明搜索指数没啥变化,却不断有热议话题蹦窜。例如了龙王、钟离等“转变”立绘激增,虽在网络上疯传了一阵子,但是经过追溯发现这些是合理、常规的二创同人。如果单是这些,倒也翻不起多大的热度。按照一部分网友的说法,除了原神自身就有热度外,发现了一件格外醒目的事情:原神3d同人作者shirakami已经被捕。这引发了不小的热议。为什么被捕?关键词,原神3D动画。还是越过了线(就是你想的那种),再多就不能明说了。经过多方求证,以及新闻报道,确实有此事。自从去年发

原标题:Radocc:LearningCross-ModalityOccupancyKnowledgethroughRenderingAssistedDistillation论文链接:https://arxiv.org/pdf/2312.11829.pdf作者单位:FNii,CUHK-ShenzhenSSE,CUHK-Shenzhen华为诺亚方舟实验室会议:AAAI2024论文思路:3D占用预测是一项新兴任务,旨在使用多视图图像估计3D场景的占用状态和语义。然而,由于缺乏几何先验,基于图像的场景


핫 AI 도구

Undresser.AI Undress
사실적인 누드 사진을 만들기 위한 AI 기반 앱

AI Clothes Remover
사진에서 옷을 제거하는 온라인 AI 도구입니다.

Undress AI Tool
무료로 이미지를 벗다

Clothoff.io
AI 옷 제거제

AI Hentai Generator
AI Hentai를 무료로 생성하십시오.

인기 기사

뜨거운 도구

안전한 시험 브라우저
안전한 시험 브라우저는 온라인 시험을 안전하게 치르기 위한 보안 브라우저 환경입니다. 이 소프트웨어는 모든 컴퓨터를 안전한 워크스테이션으로 바꿔줍니다. 이는 모든 유틸리티에 대한 액세스를 제어하고 학생들이 승인되지 않은 리소스를 사용하는 것을 방지합니다.

DVWA
DVWA(Damn Vulnerable Web App)는 매우 취약한 PHP/MySQL 웹 애플리케이션입니다. 주요 목표는 보안 전문가가 법적 환경에서 자신의 기술과 도구를 테스트하고, 웹 개발자가 웹 응용 프로그램 보안 프로세스를 더 잘 이해할 수 있도록 돕고, 교사/학생이 교실 환경 웹 응용 프로그램에서 가르치고 배울 수 있도록 돕는 것입니다. 보안. DVWA의 목표는 다양한 난이도의 간단하고 간단한 인터페이스를 통해 가장 일반적인 웹 취약점 중 일부를 연습하는 것입니다. 이 소프트웨어는

SublimeText3 영어 버전
권장 사항: Win 버전, 코드 프롬프트 지원!

에디트플러스 중국어 크랙 버전
작은 크기, 구문 강조, 코드 프롬프트 기능을 지원하지 않음

SublimeText3 Linux 새 버전
SublimeText3 Linux 최신 버전
