찾다
기술 주변기기일체 포함Any Scene in Any Scene: 사실적인 객체 삽입(다양한 주행 데이터의 합성 지원)

원제: 모든 장면의 모든 것: 사실적인 비디오 개체 삽입

논문 링크: https://arxiv.org/pdf/2401.17509.pdf

코드 링크: https://github.com/AnythingInAnyScene/anything_in_anyscene

저자 소속: Xpeng Motors

Anything in Any Scene:逼真物体插入(助力各类驾驶数据合成)

논문 아이디어

실감나는 영상 시뮬레이션은 가상 현실부터 영화 제작까지 다양한 응용 분야에서 큰 잠재력을 보여주었습니다. 특히 현실 세계에서 비디오를 캡처하는 것은 비실용적이거나 비용이 많이 듭니다. 비디오 시뮬레이션의 기존 방법은 조명 환경을 정확하게 모델링하거나 객체 형상을 표현하거나 높은 수준의 사실적 수준을 달성하지 못하는 경우가 많습니다. 본 논문에서는 기존의 역동적인 영상에 어떤 객체든 원활하게 삽입하고 물리적 사실성을 강조할 수 있는 새롭고 다재다능한 실제 영상 시뮬레이션 프레임워크인 Anything in Any Scene을 제안합니다. 본 논문에서 제안된 전체 프레임워크에는 세 가지 주요 프로세스가 포함되어 있습니다. 1) 실제 객체를 주어진 장면 비디오에 통합하고 기하학적 사실성을 보장하기 위해 적절한 위치에 배치합니다. 2) 하늘 및 주변 조명 분포를 추정하고 실제 그림자를 시뮬레이션하고 빛의 현실성을 향상합니다. 3) 스타일 전송 네트워크를 사용하여 최종 비디오 출력을 개선하여 사진 현실감을 극대화합니다. 이 기사에서는 Anything in Any Scene 프레임워크가 탁월한 기하학적 현실성, 조명 현실성 및 사진 현실성을 갖춘 시뮬레이션 비디오를 생성할 수 있음을 실험적으로 증명합니다. 비디오 데이터 생성과 관련된 문제를 크게 완화함으로써 당사의 프레임워크는 고품질 비디오를 얻기 위한 효율적이고 비용 효과적인 솔루션을 제공합니다. 또한 해당 응용 프로그램은 비디오 데이터 향상을 훨씬 뛰어 넘어 가상 현실, 비디오 편집 및 기타 다양한 비디오 중심 응용 프로그램에서 유망한 잠재력을 보여줍니다.

주요 기여

이 문서에서는 모든 개체를 동적 장면 비디오에 통합할 수 있는 새롭고 확장 가능한 Anything in Any Scene 비디오 시뮬레이션 프레임워크를 소개합니다.

이 기사는 고유하게 구성되어 있으며 출력 결과의 높은 품질과 신뢰성을 보장하기 위해 비디오 시뮬레이션에서 기하학, 조명 및 사실감을 유지하는 데 중점을 둡니다.

광범위한 검증 후 결과는 프레임워크가 매우 사실적인 비디오 시뮬레이션을 생성할 수 있는 능력을 가지고 있음을 보여줌으로써 이 분야의 응용 범위와 개발 잠재력을 크게 확장합니다.

논문 디자인

이미지 및 비디오 시뮬레이션은 가상 현실부터 영화 제작까지 다양한 응용 분야에서 성공적으로 사용됩니다. 사실적인 이미지 및 비디오 시뮬레이션을 통해 다양하고 고품질의 시각적 콘텐츠를 생성하는 능력은 이러한 분야를 발전시켜 새로운 가능성과 응용 프로그램을 도입할 수 있는 잠재력을 가지고 있습니다. 실제 세계에서 캡처한 이미지와 비디오의 신뢰성은 매우 중요하지만 롱테일 배포로 인해 제한되는 경우가 많습니다. 이로 인해 일반적인 시나리오는 과도하게 표현되고 드물지만 중요한 상황은 과소 표현되어 배포 부족 문제로 알려진 문제가 발생합니다. 비디오 캡처 및 편집을 통해 이러한 제한 사항을 해결하는 기존 방법은 가능한 모든 시나리오를 다루기가 어려웠기 때문에 비실용적이거나 비용이 많이 드는 것으로 나타났습니다. 특히 기존 비디오를 새로 삽입된 개체와 통합하는 비디오 시뮬레이션의 중요성은 이러한 과제를 극복하는 데 매우 중요합니다. 비디오 시뮬레이션은 대규모의 다양하고 사실적인 시각적 콘텐츠를 생성함으로써 가상 현실, 비디오 편집 및 비디오 데이터 증대 분야의 애플리케이션을 강화하는 데 도움이 됩니다.

그러나 물리적 사실성을 고려한 사실적인 시뮬레이션 영상을 생성하는 것은 여전히 ​​어려운 과제입니다. 기존 방법은 특정 설정, 특히 실내 환경에 중점을 두어 한계를 나타내는 경우가 많습니다[9, 26, 45, 46, 57]. 이러한 방법은 다양한 조명 조건과 빠르게 움직이는 물체를 포함하여 야외 장면의 복잡성을 적절하게 해결하지 못할 수 있습니다. 3D 모델 등록에 의존하는 방법은 제한된 클래스의 객체를 통합하는 것으로 제한됩니다[12, 32, 40, 42]. 많은 방법에서는 조명 환경 모델링, 올바른 객체 배치 및 사실성 달성과 같은 중요한 요소를 무시합니다[12, 36]. 실패한 사례는 그림 1에 나와 있습니다. 따라서 이러한 제한으로 인해 자율 주행 및 로봇 공학과 같이 확장성이 뛰어나고 기하학적으로 일관되며 사실적인 장면 비디오 시뮬레이션이 필요한 영역에서의 적용이 크게 제한됩니다.

이 문서에서는 이러한 문제를 해결하는 사실적인 비디오 개체 삽입을 위한 포괄적인 프레임워크인 Anything in Any Scene을 제안합니다. 프레임워크는 실내 및 실외 장면에 적합하고 다용도로 설계되어 기하학적 사실성, 조명 사실성 및 포토리얼리즘 측면에서 물리적 정확성을 보장합니다. 이 기사의 목표는 기계 학습의 시각적 데이터 증대에 유용할 뿐만 아니라 가상 현실 및 비디오 편집과 같은 다양한 비디오 애플리케이션에도 적합한 비디오 시뮬레이션을 만드는 것입니다.

이 글의 Anything in Any Scene 프레임워크 개요는 그림 2에 나와 있습니다. 이 문서에서는 섹션 3의 장면 비디오 및 개체 메시의 다양한 자산 라이브러리를 구축하기 위한 새롭고 확장 가능한 파이프라인에 대해 자세히 설명합니다. 본 논문에서는 설명 키워드를 이용하여 시각적 질의로부터 관련 영상을 효율적으로 검색하도록 설계된 시각적 데이터 질의 엔진을 소개한다. 다음으로, 본 논문에서는 기존 3D 자산과 다시점 이미지 재구성을 활용하여 3D 메시를 생성하는 두 가지 방법을 제안합니다. 이를 통해 매우 불규칙하거나 의미가 약한 경우에도 원하는 개체를 제한 없이 삽입할 수 있습니다. 섹션 4에서는 물리적 사실성을 유지하는 데 중점을 두고 개체를 동적 장면 비디오에 통합하는 방법을 자세히 설명합니다. 본 논문에서는 삽입된 객체가 연속적인 비디오 프레임에 안정적으로 고정되도록 4.1절에 설명된 객체 배치 및 안정화 방법을 설계합니다. 사실적인 조명 및 그림자 효과를 생성하는 문제를 해결하기 위해 이 문서에서는 섹션 4.2에 설명된 대로 하늘과 환경 조명을 추정하고 렌더링 중에 사실적인 그림자를 생성합니다. 생성된 시뮬레이션된 비디오 프레임에는 노이즈 수준, 색상 충실도, 선명도의 이미징 품질 차이와 같이 실제 캡처된 비디오와 다른 비현실적인 아티팩트가 필연적으로 포함됩니다. 이 논문에서는 4.3절에서 사진 사실성을 향상시키기 위해 스타일 전달 네트워크를 사용합니다.

본 논문에서 제안한 프레임워크에서 생성된 시뮬레이션 비디오는 섹션 5.3에서 볼 수 있듯이 높은 수준의 조명 사실성, 기하학적 사실성 및 사진 사실성을 달성하여 품질과 양 모두에서 다른 비디오를 능가합니다. 이 기사에서는 실용적인 가치를 검증하기 위해 섹션 5.4의 인식 알고리즘 훈련에 이 기사의 시뮬레이션 비디오를 적용하는 방법을 추가로 보여줍니다. Anything in Any Scene 프레임워크를 사용하면 시간 효율성과 사실적인 시각적 품질로 데이터 확장을 위한 대규모 저비용 비디오 데이터 세트를 생성할 수 있으므로 비디오 데이터 생성 부담을 완화하고 잠재적으로 롱테일 및 아웃 오브 아웃을 개선할 수 있습니다. 유통 문제 . 일반 프레임워크 설계를 통해 Anything in Any Scene 프레임워크는 개선된 모델과 향상된 3D 메시 재구성 방법과 같은 새로운 모듈을 쉽게 통합하여 비디오 시뮬레이션 성능을 더욱 향상시킬 수 있습니다.

Anything in Any Scene:逼真物体插入(助力各类驾驶数据合成)그림 1. 조명 환경 추정 오류, 객체 배치 오류, 비현실적인 텍스처 스타일이 있는 시뮬레이션된 비디오 프레임의 예 이러한 문제로 인해 이미지의 물리적 사실성이 부족합니다. Anything in Any Scene:逼真物体插入(助力各类驾驶数据合成)그림 2. 사실적인 비디오 개체 삽입을 위한 Anything in Any Scene 프레임워크 개요 Anything in Any Scene:逼真物体插入(助力各类驾驶数据合成)그림 3. 개체 배치를 위한 운전 장면 비디오의 예. 각 이미지의 빨간색 점은 개체가 삽입된 위치입니다.

실험 결과

Anything in Any Scene:逼真物体插入(助力各类驾驶数据合成)

그림 4. 원본 하늘 이미지, 재구성된 HDR 이미지 및 관련 태양광 일조 분포 맵의 예

Anything in Any Scene:逼真物体插入(助力各类驾驶数据合成)

그림 5. 원본 및 재구성된 HDR 환경 파노라마 이미지의 예

Anything in Any Scene:逼真物体插入(助力各类驾驶数据合成)

그림 6. 삽입된 객체에 대한 그림자 생성의 예

Anything in Any Scene:逼真物体插入(助力各类驾驶数据合成)

그림 7. 다양한 스타일 전송 네트워크를 사용하여 PandaSet 데이터세트에서 시뮬레이션된 비디오 프레임의 질적 비교.

Anything in Any Scene:逼真物体插入(助力各类驾驶数据合成)

그림 8. 다양한 렌더링 조건에서 PandaSet 데이터세트의 시뮬레이션된 비디오 프레임을 정성적으로 비교합니다.

Anything in Any Scene:逼真物体插入(助力各类驾驶数据合成)

Anything in Any Scene:逼真物体插入(助力各类驾驶数据合成)

Anything in Any Scene:逼真物体插入(助力各类驾驶数据合成)

요약:

본 논문은 사실적인 비디오 시뮬레이션을 위해 설계된 혁신적이고 확장 가능한 프레임워크인 "Anything in Any Scene"을 제안합니다. 본 논문에서 제안된 프레임워크는 다양한 개체를 서로 다른 동적 비디오로 원활하게 통합하여 기하학적 사실성, 조명 사실성 및 사진 사실성을 보장합니다. 광범위한 시연을 통해 이 문서는 비디오 데이터 수집 및 생성과 관련된 문제를 완화하고 다양한 시나리오에 대한 비용 효율적이고 시간을 절약해 주는 솔루션을 제공하는 효율성을 입증합니다. 우리 프레임워크를 적용하면 다운스트림 인식 작업, 특히 객체 감지의 롱테일 분포 문제를 해결하는 데 상당한 개선이 나타납니다. 우리 프레임워크의 유연성을 통해 각 모듈에 대한 개선된 모델을 직접 통합할 수 있으며, 우리 프레임워크는 사실적인 비디오 시뮬레이션 분야에서 미래 탐구와 혁신을 위한 견고한 기반을 마련합니다.

인용:

Bai C, Shao Z, Zhang G, et al. 모든 장면의 모든 것: 사실적인 비디오 개체 삽입[J] arXiv 사전 인쇄 arXiv:2401.17509, 2024.

위 내용은 Any Scene in Any Scene: 사실적인 객체 삽입(다양한 주행 데이터의 합성 지원)의 상세 내용입니다. 자세한 내용은 PHP 중국어 웹사이트의 기타 관련 기사를 참조하세요!

성명
이 기사는 51CTO.COM에서 복제됩니다. 침해가 있는 경우 admin@php.cn으로 문의하시기 바랍니다. 삭제
AI를 사용하면 회사가 SEO에서 GEO로 전환합니다.AI를 사용하면 회사가 SEO에서 GEO로 전환합니다.May 05, 2025 am 11:09 AM

AI 애플리케이션이 폭발적으로 증가함에 따라 기업은 기존 검색 엔진 최적화 (SEO)에서 생성 엔진 최적화 (GEO)로 이동하고 있습니다. Google은 변화를 이끌고 있습니다. "AI 개요"기능은 10 억 명 이상의 사용자에게 제공되어 사용자가 링크를 클릭하기 전에 전체 답변을 제공합니다. [^2] 다른 참가자들도 빠르게 상승하고 있습니다. Chatgpt, Microsoft Coplot 및 Perplexity는 전통적인 검색 결과를 완전히 우회하는 새로운 "답변 엔진"범주를 만들고 있습니다. 이 AI 생성 답변에 비즈니스가 나타나지 않으면 잠재 고객이 전통적인 검색 결과에서 높은 순위를 차지한 경우에도 잠재 고객이 귀하를 찾지 못할 수 있습니다. SEO에서 GEO까지 - 이것은 정확히 무엇을 의미합니까? 수십 년 동안

이 경로 중 어느 경로에 대한 큰 베팅은 오늘날의 AI가 소중한 AGI가되도록 밀어 넣을 것입니다.이 경로 중 어느 경로에 대한 큰 베팅은 오늘날의 AI가 소중한 AGI가되도록 밀어 넣을 것입니다.May 05, 2025 am 11:08 AM

인공 일반 정보 (AGI)의 잠재적 경로를 탐색합시다. 이 분석은 AI 전진에 대한 진행중인 Forbes 칼럼의 일부이며, AGI 및 인공 초 지성 (ASI)을 달성하는 복잡성을 탐구합니다. (관련 예술 참조

챗봇을 훈련합니까, 아니면 그 반대도 마찬가지입니까?챗봇을 훈련합니까, 아니면 그 반대도 마찬가지입니까?May 05, 2025 am 11:07 AM

인간 컴퓨터 상호 작용 : 섬세한 적응 춤 AI 챗봇과 상호 작용하는 것은 상호 영향의 섬세한 춤에 참여하는 것과 같습니다. 귀하의 질문, 응답 및 선호도는 귀하의 요구를 더 잘 충족시키기 위해 시스템을 점차적으로 형성합니다. 현대 언어 모델은 명백한 피드백 메커니즘과 암시 적 패턴 인식을 통해 사용자 선호도에 적응합니다. 그들은 당신의 커뮤니케이션 스타일을 배우고, 선호도를 기억하며, 당신의 기대에 맞게 그들의 반응을 점차적으로 조정합니다. 그러나 디지털 파트너를 훈련시키는 동안 반대 방향으로 똑같이 중요한 일이 일어나고 있습니다. 이러한 시스템과의 상호 작용은 우리 자신의 의사 소통 패턴, 사고 과정 및 대인 관계에 대한 기대치를 미묘하게 재구성하고 있습니다. AI 시스템과의 상호 작용은 대인 관계 상호 작용에 대한 우리의 기대를 재구성하기 시작했습니다. 우리는 즉각적인 반응에 적응했고

California는 AI를 빠른 트랙 산불 복구 허가에 탭합니다California는 AI를 빠른 트랙 산불 복구 허가에 탭합니다May 04, 2025 am 11:10 AM

AI는 산불 복구 허가를 간소화합니다 기계 학습 및 컴퓨터 비전을 활용하는 호주 기술 회사 인 Archistar의 AI 소프트웨어는 지역 규정 준수를위한 건축 계획 평가를 자동화합니다. 이 예비 검증은 중요합니다

미국이 에스토니아의 AI 기반 디지털 정부로부터 배울 수있는 것미국이 에스토니아의 AI 기반 디지털 정부로부터 배울 수있는 것May 04, 2025 am 11:09 AM

에스토니아의 디지털 정부 : 미국의 모델? 미국은 관료적 비 효율성과의 투쟁이지만 에스토니아는 설득력있는 대안을 제공합니다. 이 소규모 국가는 AI가 구동하는 거의 100% 디지털화 된 시민 중심 정부를 자랑합니다. 이것은 아닙니다

생성 AI를 통한 결혼 계획생성 AI를 통한 결혼 계획May 04, 2025 am 11:08 AM

결혼식을 계획하는 것은 기념비적 인 일이며, 종종 가장 조직화 된 커플조차도 압도적입니다. AI의 영향에 관한 진행중인 Forbes 시리즈의 일부인이 기사 (여기 링크 참조)는 생성 AI가 결혼 계획에 혁명을 일으킬 수있는 방법을 탐구합니다. 결혼식 pl

Digital Defense AI 에이전트는 무엇입니까?Digital Defense AI 에이전트는 무엇입니까?May 04, 2025 am 11:07 AM

기업은 AI 에이전트를 판매하기 위해 점점 더 활용하는 반면 정부는 다양한 기존의 작업에이를 활용합니다. 그러나 소비자 옹호자들은 개인이 자주 조정 된 사람들에 대한 방어로 자신의 AI 에이전트를 소유해야 할 필요성을 강조합니다.

생성 엔진 최적화에 대한 비즈니스 리더 안내서 (GEO)생성 엔진 최적화에 대한 비즈니스 리더 안내서 (GEO)May 03, 2025 am 11:14 AM

Google은 이러한 변화를 이끌고 있습니다. "AI 개요"기능은 이미 10 억 명 이상의 사용자에게 제공되며, 누군가가 링크를 클릭하기 전에 완전한 답변을 제공합니다. [^2] 다른 플레이어들도 빨리지면을 얻고 있습니다. Chatgpt, Microsoft Copilot 및 PE

See all articles

핫 AI 도구

Undresser.AI Undress

Undresser.AI Undress

사실적인 누드 사진을 만들기 위한 AI 기반 앱

AI Clothes Remover

AI Clothes Remover

사진에서 옷을 제거하는 온라인 AI 도구입니다.

Undress AI Tool

Undress AI Tool

무료로 이미지를 벗다

Clothoff.io

Clothoff.io

AI 옷 제거제

Video Face Swap

Video Face Swap

완전히 무료인 AI 얼굴 교환 도구를 사용하여 모든 비디오의 얼굴을 쉽게 바꾸세요!

뜨거운 도구

WebStorm Mac 버전

WebStorm Mac 버전

유용한 JavaScript 개발 도구

메모장++7.3.1

메모장++7.3.1

사용하기 쉬운 무료 코드 편집기

DVWA

DVWA

DVWA(Damn Vulnerable Web App)는 매우 취약한 PHP/MySQL 웹 애플리케이션입니다. 주요 목표는 보안 전문가가 법적 환경에서 자신의 기술과 도구를 테스트하고, 웹 개발자가 웹 응용 프로그램 보안 프로세스를 더 잘 이해할 수 있도록 돕고, 교사/학생이 교실 환경 웹 응용 프로그램에서 가르치고 배울 수 있도록 돕는 것입니다. 보안. DVWA의 목표는 다양한 난이도의 간단하고 간단한 인터페이스를 통해 가장 일반적인 웹 취약점 중 일부를 연습하는 것입니다. 이 소프트웨어는

MinGW - Windows용 미니멀리스트 GNU

MinGW - Windows용 미니멀리스트 GNU

이 프로젝트는 osdn.net/projects/mingw로 마이그레이션되는 중입니다. 계속해서 그곳에서 우리를 팔로우할 수 있습니다. MinGW: GCC(GNU Compiler Collection)의 기본 Windows 포트로, 기본 Windows 애플리케이션을 구축하기 위한 무료 배포 가능 가져오기 라이브러리 및 헤더 파일로 C99 기능을 지원하는 MSVC 런타임에 대한 확장이 포함되어 있습니다. 모든 MinGW 소프트웨어는 64비트 Windows 플랫폼에서 실행될 수 있습니다.

SublimeText3 중국어 버전

SublimeText3 중국어 버전

중국어 버전, 사용하기 매우 쉽습니다.