>  기사  >  기술 주변기기  >  소라의 물리 버그를 해결하기 위한 하드코어! 미국 4대 대학 공동 발표: 비디오 생성기에 물리 엔진 설치

소라의 물리 버그를 해결하기 위한 하드코어! 미국 4대 대학 공동 발표: 비디오 생성기에 물리 엔진 설치

PHPz
PHPz앞으로
2024-05-07 17:01:181155검색

소라 출시 이후 일부 버그가 나타났습니다. 인터넷 사용자들은 몇 가지 문제를 발견했습니다. 모델이 물리적 세계를 완전히 이해하지 못했지만 강아지가 걸을 때 두 앞다리가 교차하여 사람들이 불편함을 느꼈습니다. 게임이 예기치 않게 나타납니다.

영상의 사실감을 생성하기 위해서는 객체의 상호작용이 매우 중요하지만, 현재로서는 상호작용에서 실제 3D 객체의 역동적인 동작을 합성하는 것이 여전히 매우 어렵습니다.

Action Conditioned Dynamics는 물체의 물리적 물질적 특성에 대한 인식과 이러한 특성(예: 물체 강성)을 기반으로 한 3D 동작 예측이 필요한 연구 분야입니다.

실제 물체의 물리적 재료 특성을 측정하는 것은 데이터 지원 부족으로 인해 매우 어렵기 때문에 물리적 재료 특성을 평가하는 것은 까다롭고 해결되지 않은 문제로 남아 있습니다.

최근 MIT, 스탠포드 대학교, 컬럼비아 대학교, 코넬 대학교는 비디오 생성 모델에서 학습한 객체 역학 학습 사전 정보를 사용하여 정적 3D 객체 동적 학습을 제공하는 PhysDreamer라는 물리학 기반 모델을 공동으로 제안했습니다.

소라의 물리 버그를 해결하기 위한 하드코어! 미국 4대 대학 공동 발표: 비디오 생성기에 물리 엔진 설치

논문 링크: https://arxiv.org/pdf/2404.13026.pdf

프로젝트 홈페이지: https://physdreamer.github.io/

사전 지식을 다듬어, PhysDreamer 실제 객체가 외부 힘이나 에이전트 조작과 같은 새로운 상호 작용에 반응할 수 있도록 하며 사용자 연구를 사용하여 탄성 객체의 다양한 예에 대한 접근 방식의 효율성을 입증함으로써 합성된 상호 작용의 현실성을 평가했습니다.

문제 형식화

3D 가우스로 표현된 정적 객체를 고려하면 소라의 물리 버그를 해결하기 위한 하드코어! 미국 4대 대학 공동 발표: 비디오 생성기에 물리 엔진 설치(여기서 xp는 위치를 나타내고, αp는 불투명도를 나타내고, Σp는 공분산 행렬을 나타내고, cp는 입자의 색상을 나타냄), 최종 목표는 현실적인 대화형 모션 합성을 가능하게 하기 위해 물체의 물리적 재료 특성 필드를 추정하는 것입니다.

특정 속성에는 질량 m, 영률 E 및 포아송 비 ν가 포함됩니다. 영률은 재료의 강성을 측정하고 외부 힘에 대한 물체의 이동 궤적을 결정하는 데 사용됩니다. 영률이 높을수록 더 작은 변형, 더 높은 강성 및 더 높은 주파수 모션을 달성합니다.

소라의 물리 버그를 해결하기 위한 하드코어! 미국 4대 대학 공동 발표: 비디오 생성기에 물리 엔진 설치

동일한 힘에서 다른 영률을 사용하여 시뮬레이션된 동작을 수행합니다.

그래서 연구자들은 문제를 공식화하여 공간적으로 다양한 영률 필드 E(x)를 추정하고 소라의 물리 버그를 해결하기 위한 하드코어! 미국 4대 대학 공동 발표: 비디오 생성기에 물리 엔진 설치를 사용하여 다음을 수행할 수 있습니다. 입자 시뮬레이션을 위해 입자의 영률을 쿼리합니다.

다른 물리적 특성의 경우, 입자의 질량 m_p는 일정한 밀도(ρ)의 곱으로 미리 계산할 수 있으며 입자 부피 Vp는 "부피"를 나누어 계산할 수 있습니다. 배경 단위"를 "단위에 포함된 입자 수"로 추정하면 포아송 비 νp가 물체의 운동에 미치는 영향은 무시할 수 있으며 일정하다고 가정할 수 있습니다.

모델 아키텍처

PhysDreamer는 정적 3D 물체의 물질장을 추정할 수 있습니다. 핵심 아이디어는 움직이는 물체의 신뢰할 수 있는 비디오를 생성한 다음 합성 운동과 일치하도록 물질장 E(x)를 최적화하는 것입니다.

3D 가우스로 표현된 객체가 주어지면 먼저 일부 관점(배경 포함)에서 렌더링한 다음 이미지-비디오 생성 모델을 사용하여 움직이는 객체의 참조 비디오를 생성한 다음 미분 가능 변수를 사용합니다. 렌더링된 비디오와 참조 비디오 간의 차이를 최소화하는 것을 목표로 공간적으로 변화하는 재료 필드와 초기 속도 필드를 최적화하는 재료 포인트 방법(MPM(Material Point Methods) 및 미분 렌더링).

소라의 물리 버그를 해결하기 위한 하드코어! 미국 4대 대학 공동 발표: 비디오 생성기에 물리 엔진 설치

점선 화살표는 그라데이션 흐름을 나타냅니다

1. 기본 지식

3D 가우시안은 3D 장면의 복사장을 표현하기 위해 이방성 3D 가우시안 커널 세트를 사용합니다. 주로 3D 새로운 뷰 합성 방법으로 소개되지만 3D 가우시안에는 라그랑지안 속성이 있기 때문에 직접 적용할 수 있습니다. 입자.

PhysGaussian 방법과 유사하게 연구원들은 재료 포인트 방법(MPM, Material Point Methods)을 사용하여 가우시안 입자의 객체 역학을 직접 시뮬레이션합니다.

3D 가우스 분포는 주로 물체의 표면에 위치하므로 선택적 내부 채우기 프로세스를 적용하여 시뮬레이션의 현실성을 향상시킬 수 있습니다.

연속체 역학과 탄성 재료

연속체 역학에서는 변형되지 않은 상태에서 재료의 공간을 매핑할 수 있는 매핑 함수 ψ를 통해 재료의 변형을 시뮬레이션합니다. 점의 야코비안 행렬 F 매핑 함수 ψ, 즉 변형 구배는 재료의 국부적 변형 상태를 포함하는 재료 응력-변형 관계를 이해하고 설명하는 데 핵심입니다. 소라의 물리 버그를 해결하기 위한 하드코어! 미국 4대 대학 공동 발표: 비디오 생성기에 물리 엔진 설치

고탄성 재료에서 코시 응력(응력) 계산은 일반적으로 재료의 비강성 변형 정도를 정량화할 수 있는 변형 에너지 밀도 함수 ψ(F)에 의존합니다. 이 함수는 결정됩니다. 재료를 기반으로 한 재료 과학자들에 의해 대칭 및 회전 불변의 원리를 기반으로 설계되었으며 실험 데이터와 일치합니다. 소라의 물리 버그를 해결하기 위한 하드코어! 미국 4대 대학 공동 발표: 비디오 생성기에 물리 엔진 설치

또한 고정 회전 초탄성 모델의 에너지 밀도 함수는 변형 구배의 특이값 σi로 표현될 수 있으며 모델 매개변수 μ 및 λ는 영률 E 및 포아송 비 ν와 직접적인 관계가 있습니다. 재료의 이러한 매개변수는 힘을 받을 때 재료가 어떻게 동작하는지 이해하는 데 중요합니다.

재료 점 방법(MPM)

소라의 물리 버그를 해결하기 위한 하드코어! 미국 4대 대학 공동 발표: 비디오 생성기에 물리 엔진 설치

연구원들은 MLS-MPM(이동 최소 제곱 재료 점 방법)을 사용하여 "탄성 재료 역학"의 지배 방정식을 풀었습니다. 여기서 ρ는 는 밀도를 나타내고, v(x, t)는 세계 공간의 속도장을 나타내고, f는 외부 힘을 나타냅니다. 소라의 물리 버그를 해결하기 위한 하드코어! 미국 4대 대학 공동 발표: 비디오 생성기에 물리 엔진 설치

MPM은 오일러와 라그랑주 방법의 장점을 결합한 계산 방법으로, 특히 고체, 유체, 모래, 천 및 기타 재료의 동적 거동을 시뮬레이션하는 데 적합합니다. 재료의 토폴로지 변화를 효과적으로 처리할 수 있고 그래픽 처리 장치(GPU)에서 쉽게 병렬화할 수 있습니다.

공간 이산화는 객체를 일련의 가우스 입자로 처리하여 수행됩니다. 각 입자 p는 객체 부피의 작은 부분을 나타내며 부피, 질량, 위치, 속도, 변형 기울기 및 로컬 속도와 같은 속성을 전달합니다. 필드 그라데이션.

소라의 물리 버그를 해결하기 위한 하드코어! 미국 4대 대학 공동 발표: 비디오 생성기에 물리 엔진 설치

MPM 계산 프로세스에는 P2G(입자-그리드) 및 G2P(그리드-입자) 전달 루프가 포함됩니다.

P2G 단계에서는 운동량이 입자에서 그리드로 전달되고 네트워크가 업데이트됩니다. 그런 다음 그리드의 속도가 입자로 다시 전달되어 입자의 위치와 속도가 업데이트됩니다. 동시에 입자의 로컬 속도 구배와 변형 구배도 그에 따라 업데이트되어 재질의 현재 상태를 반영합니다.

MPM 방법은 재료 변형, 파손 및 상호 작용을 포함하여 재료의 복잡한 동적 거동을 정확하게 시뮬레이션할 수 있습니다.

2. 물리적 특성 추정

연구원들은 MLS-MPM(Moving Least Squares Material Point Method)을 물리적 시뮬레이터로 사용하고 고정 회전 초탄성 재료 모델을 사용하여 3차원 물체의 과정을 시뮬레이션했습니다.

MLS-MPM 시뮬레이션 프로세스

시뮬레이터는 MLS-MPM을 사용하여 물체의 물리적 동작을 시뮬레이션합니다. 시뮬레이션 기능은 입자 위치 x, 속도 v, 변형 그라데이션 F 및 로컬 속도 필드를 수신합니다. 현재 시간 단계 t. 입자의 물리적 특성 세트 θ(모든 입자의 질량, 영률, 포아송 비 및 부피 포함)와 시간 단계 Δt(1×10^-4)뿐만 아니라 기울기 C도 사용됩니다. 입력으로, 다음 시간 단계가 출력됩니다. t+1의 해당 값입니다.

소라의 물리 버그를 해결하기 위한 하드코어! 미국 4대 대학 공동 발표: 비디오 생성기에 물리 엔진 설치

인접한 비디오 프레임 간의 역학을 시뮬레이션하려면 일반적으로 수백 개의 하위 단계를 반복해야 합니다.

시뮬레이션 및 렌더링

시뮬레이션 후 미분 가능 렌더링 기능인 Frender를 사용하여 각 프레임에 대해 가우스 입자를 렌더링합니다. 여기서 Rt는 시뮬레이션 단계에서 얻은 모든 입자의 회전 행렬을 나타냅니다.

소라의 물리 버그를 해결하기 위한 하드코어! 미국 4대 대학 공동 발표: 비디오 생성기에 물리 엔진 설치

그런 다음 생성된 비디오는 프레임당 손실 함수를 통해 공간적으로 변하는 영률 E 및 초기 속도 v0를 최적화하기 위한 참조로 사용됩니다. 여기서 손실 함수는 L1 손실과 D-SSIM 손실, 가중치를 결합합니다. 매개변수 λ는 0.1로 설정

소라의 물리 버그를 해결하기 위한 하드코어! 미국 4대 대학 공동 발표: 비디오 생성기에 물리 엔진 설치

매개변수화 및 정규화

재료장과 속도장은 공간 향상을 위해 2개의 삼면과 3층의 다층 퍼셉트론(MLP)으로 매개변수화됩니다. 부드러움, 전체 변형 정규화는 이 두 필드의 모든 공간 평면에 적용됩니다.

소라의 물리 버그를 해결하기 위한 하드코어! 미국 4대 대학 공동 발표: 비디오 생성기에 물리 엔진 설치

최적화 프로세스

최적화 프로세스는 안정성을 향상하고 수렴 속도를 높이기 위해 두 단계로 구분됩니다.

1 첫 번째 단계에서 각 가우시안 입자의 양 모듈러스는 다음과 같습니다. 무작위로 초기화되고 고정된 다음 참조 비디오의 처음 3개 프레임만 각 입자의 초기 속도를 최적화하는 데 사용됩니다.

2. 두 번째 단계에서는 초기 속도가 고정되고 공간적으로 변화하는 영률이 최적화됩니다. 그래디언트가 폭발하거나 사라지는 것을 방지하기 위해 그래디언트 신호는 이전 프레임으로만 흐릅니다.

이러한 방식으로 시뮬레이터는 물체의 물리적 동작을 시뮬레이션하고 참조 비디오를 기반으로 재료 특성과 초기 조건을 최적화하여 사실적인 동적 효과를 생성할 수 있습니다.

3. 서브샘플링으로 시뮬레이션 가속화

고충실도 렌더링을 위해 3차원 가우스 입자를 사용하려면 일반적으로 장면을 표현하는 데 수백만 개의 입자가 필요하므로 시뮬레이션 실행에 막대한 계산 부담이 발생합니다.

효율성을 높이기 위해 모델은 서브샘플링 프로세스를 도입하여 렌더링 결과의 높은 충실도를 유지하면서 계산량을 크게 줄입니다. 시뮬레이션에는 소수의 구동 입자만 사용된 다음 보간을 통해 가우시안 입자의 위치와 회전을 얻기 위해 입자를 구동하면 계산 효율성과 렌더링 품질의 균형을 효과적으로 맞출 수 있습니다.

특히 모델은 K-Means 클러스터링 알고리즘을 사용하여 시간 t=0에서 구동 입자 세트를 생성합니다. 여기서 각 구동 입자는 위치, 속도, 변형 그라데이션 및 로컬 속도 필드. 기울기, 영률, 질량, 포아송 비 및 부피.

소라의 물리 버그를 해결하기 위한 하드코어! 미국 4대 대학 공동 발표: 비디오 생성기에 물리 엔진 설치

구동 입자의 초기 위치는 모든 클러스터 구성원의 위치 평균으로, 구동 입자의 수가 3차원 가우시안 입자의 수보다 훨씬 적습니다.

렌더링 프로세스 중에 각 3차원 가우스 입자의 위치와 회전은 구동 입자의 위치와 회전을 보간하여 계산됩니다. 각 3차원 가우스 입자에 대해 먼저 시간 t에서 가장 가까운 이웃 구동 입자 8개를 찾습니다. =0, 시간 t=0에서 이들 8개의 구동 입자 사이의 강체 변환 T와 현재 타임스탬프가 피팅되어 입자의 현재 위치와 회전을 결정합니다.

실험 결과

Dataset

연구원들은 다중 뷰 이미지를 캡처하여 8개의 실제 정적 장면을 수집했습니다. 각 장면에는 개체와 배경이 포함되고 항목에는 꽃 5개가 포함되었습니다. (빨간 장미, 카네이션, 주황색 장미, 튤립, 흰 장미), 알로카시아, 전화선, 비니 4개의 대화형 비디오를 캡처하여 찌르거나 끌기와 같은 상호 작용 후 자연스러운 움직임을 설명합니다. , 비교를 위한 추가 참조로 실제 비디오를 사용하십시오.

실험 결과

소라의 물리 버그를 해결하기 위한 하드코어! 미국 4대 대학 공동 발표: 비디오 생성기에 물리 엔진 설치

공간적으로 변화하는 영률(재료의 탄성을 측정하는 물리량)에 대한 정성 분석 결과

사용자 연구에서 기준 방법 및 실제 After와 비교 전 세계에서 촬영한 영상을 비교해 보면, 2선택 실험(2AFC)에서 참가자의 80% 이상이 PhysDreamer 모델이 시각적 품질 측면에서 모션의 진정성이 우수하다고 믿고 선호하는 것을 알 수 있습니다. 또한 65%의 참가자가 PhysDreamer를 선호했습니다

비교된 정적 장면 자체가 일관되기 때문에 시각적 품질의 평가도 생성된 개체의 모션 효과에 어느 정도 의존한다는 점에 유의해야 합니다.

소라의 물리 버그를 해결하기 위한 하드코어! 미국 4대 대학 공동 발표: 비디오 생성기에 물리 엔진 설치

서로 다른 시점의 모션 패턴 조각에서 관찰할 수 있듯이 PhysGaussian에는 재료 특성에 대한 원칙적인 추정이 부족하여 생성되는 모션 진폭이 너무 크고 너무 느려서 일관성이 없습니다. 현실로.

DreamGaussian4D와 비교했을 때 2AFC 샘플의 70%와 63.5%는 시각적 품질과 모션 신뢰성 측면에서 PhysDreamer 모델을 선호합니다. DreamGaussian4D에서 생성된 모션은 주기적입니다. 대조적으로, PhysDreamer는 움직이는 감쇠 효과를 시뮬레이션할 수 있습니다.

위 내용은 소라의 물리 버그를 해결하기 위한 하드코어! 미국 4대 대학 공동 발표: 비디오 생성기에 물리 엔진 설치의 상세 내용입니다. 자세한 내용은 PHP 중국어 웹사이트의 기타 관련 기사를 참조하세요!

성명:
이 기사는 51cto.com에서 복제됩니다. 침해가 있는 경우 admin@php.cn으로 문의하시기 바랍니다. 삭제