몇 분 안에 4차원 콘텐츠를 생성하고 모션 효과를 제어합니다. Peking University와 Michigan은 DG4D를 제안합니다.-일체 포함-php.cn

집

기술 주변기기

일체 포함

몇 분 안에 4차원 콘텐츠를 생성하고 모션 효과를 제어합니다. Peking University와 Michigan은 DG4D를 제안합니다.

王林

Jul 12, 2024 am 09:30 AM

프로젝트센스타임

몇 분 안에 4차원 콘텐츠를 생성하고 모션 효과를 제어합니다. Peking University와 Michigan은 DG4D를 제안합니다.

AIxiv 칼럼은 본 사이트에서 학술 및 기술 콘텐츠를 게재하는 칼럼입니다. 지난 몇 년 동안 이 사이트의 AIxiv 칼럼에는 전 세계 주요 대학 및 기업의 최고 연구실을 대상으로 한 2,000개 이상의 보고서가 접수되어 학술 교류 및 보급을 효과적으로 촉진하고 있습니다. 공유하고 싶은 훌륭한 작품이 있다면 자유롭게 기여하거나 보고를 위해 연락주시기 바랍니다. 제출 이메일: liyazhou@jiqizhixin.com; zhaoyunfeng@jiqizhixin.com

이 기사의 저자인 Pan Liang 박사는 현재 상하이 인공 지능 연구소의 연구 과학자입니다. 이전에는 2020년부터 2023년까지 싱가포르 난양기술대학교 S-Lab에서 연구원으로 재직했으며, 그의 지도교수는 Liu Ziwei 교수였다. 그의 연구는 컴퓨터 비전, 3D 포인트 클라우드 및 가상 인간에 중점을 두고 있으며 최고의 컨퍼런스와 저널에 여러 논문을 발표했으며 Google Scholar에서 2700회 이상 인용되었습니다. 또한 그는 컴퓨터 비전 및 기계 학습 분야의 최고 컨퍼런스 및 저널의 검토자로도 활동했습니다.

최근 SenseTime-Nanyang Technological University 공동 AI 연구 센터 S-Lab, Shanghai Artificial Intelligence Laboratory, Peking University 및 University of Michigan은 공간 변환의 명시적 모델링과 정적 3D Gaussian Splatter를 결합한 DreamGaussian4D(DG4D)를 공동으로 제안했습니다( GS) 기술을 사용하면 효율적인 4차원 콘텐츠 생성이 가능합니다.

4차원 콘텐츠 생성은 최근 상당한 진전을 이루었지만 기존 방법에는 긴 최적화 시간, 열악한 모션 제어 기능, 낮은 세부 품질 등의 문제가 있습니다. DG4D는 두 가지 주요 모듈을 포함하는 전체 프레임워크를 제안합니다. 1) 이미지를 4D GS로 - 먼저 DreamGaussianHD를 사용하여 정적 3D GS를 생성한 다음 HexPlane을 기반으로 하는 가우스 변형을 기반으로 동적 생성을 생성합니다. 2) 비디오를 비디오 텍스처로 개선합니다. 생성된 UV 공간 텍스처 맵은 미리 훈련된 이미지-비디오 확산 모델을 사용하여 개선되고 시간적 일관성이 향상됩니다.

DG4D는 4차원 콘텐츠 생성의 최적화 시간을 몇 시간에서 몇 분으로 단축하고(그림 1 참조) 생성된 3차원 모션을 시각적으로 제어할 수 있으며, 가능한 이미지 생성을 지원한다는 점은 주목할 가치가 있습니다. 3차원 엔진으로 사실적으로 렌더링됩니다.

몇 분 안에 4차원 콘텐츠를 생성하고 모션 효과를 제어합니다. Peking University와 Michigan은 DG4D를 제안합니다.

지 이름 : DreamGaussian4D : 생성 4D 가우스 스플 래팅
homepage 주소 : https://jiawei-ren.github.io/projects/dreamgaussian4d/
Paper 주소 : https : // arxiv.org/abs/2312.17142
데모 주소: https://huggingface.co/spaces/jiawei011/dreamgaussian4d

몇 분 안에 4차원 콘텐츠를 생성하고 모션 효과를 제어합니다. Peking University와 Michigan은 DG4D를 제안합니다.

^{> 그림 1. DG4D는 4차원 콘텐츠를 4개와 1개로 구현할 수 있습니다. 30분 기본 융합 최적화}

문제 및 과제

생성 모델은 2D 이미지, 비디오, 3D 풍경 등 다양한 디지털 콘텐츠의 제작과 생산을 크게 단순화할 수 있으며 최근 몇 년 동안 상당한 진전을 이루었습니다. 4차원 콘텐츠는 게임, 영화, TV 등 다양한 다운스트림 작업에 중요한 콘텐츠 형식입니다. 또한 4차원으로 생성된 콘텐츠는 기존 그래픽 콘텐츠 제작 파이프라인에 연결하기 위해 기존 그래픽 렌더링 엔진 소프트웨어(예: Blender 또는 Unreal Engine)를 가져올 수 있도록 지원해야 합니다(그림 2 참조).

동적인 3차원(즉, 4차원) 생성에 관한 일부 연구가 있지만 4차원 장면의 효율적이고 고품질 생성에는 여전히 과제가 있습니다. 최근에는 모든 시야각에서 콘텐츠 모양과 동작의 일관성을 제한하기 위해 비디오와 3차원 생성 모델을 결합하여 4차원 콘텐츠 생성을 달성하기 위해 점점 더 많은 연구 방법이 사용되었습니다. ㅋㅋ NeRF)가 말했습니다. 예를 들어 MAV3D [1]는 HexPlane [2]에서 텍스트-비디오 확산 모델을 개선하여 텍스트-4차원 콘텐츠 생성을 달성합니다. Consistency4D [3]는 계단식 DyNeRF를 최적화하여 정적으로 캡처된 비디오에서 4D 장면을 생성하는 비디오-4D 프레임워크를 도입합니다. 다중 확산 모델 이전을 사용하여 Animate124[4]는 텍스트 모션 설명을 통해 처리되지 않은 단일 2D 이미지를 3D 동적 비디오로 애니메이션화할 수 있습니다. 하이브리드 SDS [5] 기술을 기반으로 하는 4D-fy [6]는 사전 훈련된 여러 확산 모델을 사용하여 매력적인 텍스트를 4차원 콘텐츠로 생성할 수 있습니다.

그러나 위에서 언급한 모든 기존 방법[1,3,4,6]은 단일 4D NeRF를 생성하는 데 몇 시간이 필요하므로 적용 가능성이 크게 제한됩니다. 또한, 모두 최종 생성된 모션을 효과적으로 제어하거나 선택하는 데 어려움을 겪고 있습니다. 위의 단점은 주로 다음 요소에서 비롯됩니다. 첫째, 앞서 언급한 방법의 기본 암시적 4차원 표현이 충분히 효율적이지 않으며, 느린 렌더링 속도 및 열악한 모션 규칙성과 같은 문제가 있습니다. 둘째, 비디오 SDS의 무작위 특성입니다. 수렴의 어려움이 증가하고 최종 결과에서는 불안정성과 여러 아티팩트가 발생합니다.

방법 소개

4D NeRF를 직접 최적화하는 방법과 달리 DG4D는 정적 가우스 스플래싱 기술과 명시적인 공간 변환 모델링을 결합하여 4D 콘텐츠 생성을 위한 효율적이고 강력한 표현을 구축합니다. 또한 비디오 생성 방법은 고품질 4D 생성을 향상시키는 귀중한 시공간 사전 정보를 제공할 수 있는 잠재력을 가지고 있습니다. 구체적으로 우리는 1) 이미지에서 4D GS 생성, 2) 비디오 대형 모델 기반 텍스처 맵 개선의 두 가지 주요 단계로 구성된 전체 프레임워크를 제안합니다. D1. 4D GS로의 이미지 생성

몇 분 안에 4차원 콘텐츠를 생성하고 모션 효과를 제어합니다. Peking University와 Michigan은 DG4D를 제안합니다.

4D GS 생성 프레임워크 다이어그램의 그림 3 그림

이 단계에서는 정적 3D GS와 공간 변형을 사용하여 동적 역학 4- 차원적인 장면. 주어진 2D 이미지를 기반으로 향상된 DreamGaussianHD 방법을 사용하여 정적 3D GS를 생성합니다. 이어서, 정적 3D GS 함수에 대한 시간 의존 변형 필드를 최적화함으로써 각 타임스탬프의 가우스 변형이 추정되며, 변형된 각 프레임의 모양과 질감이 주행 비디오의 해당 프레임과 일치하도록 만드는 것을 목표로 합니다. 이 단계가 끝나면 동적 3차원 메시 모델 시퀀스가 생성됩니다. ㅋㅋ HD 3D GS를 사용하는 최근 그래픽 3D 개체 방법인 DreamGaussian [7]을 기반으로 몇 가지 추가 개선을 수행하고 더 나은 3D GS 생성 및 초기화 방법 세트를 컴파일했습니다. 개선된 주요 기능으로는 1) 멀티뷰 최적화 방식 채택, 2) 최적화 과정에서 렌더링된 이미지의 배경을 생성에 더 적합한 검정색 배경으로 설정하는 것 등이 있습니다. 개선된 버전을 DreamGaussianHD라고 부르며 구체적인 개선 렌더링은 그림 4에서 볼 수 있습니다. 그림 5 HexPlane은 동적 변형 장을 나타냅니다.

생성된 정적 3D GS 모델을 기반으로 각 프레임 동적 4D GS 모델에서 가우시안 커널의 변형을 예측하여 기대에 맞는 비디오를 생성합니다. 동적 효과의 특성화 측면에서 HexPlane(그림 5 참조)을 선택하여 각 타임스탬프에서 가우스 커널 변위, 회전 및 크기를 예측함으로써 각 프레임에 대한 동적 모델 생성을 구동합니다. 또한 설계 네트워크를 목표 방식으로 조정했습니다. 특히 마지막 몇 개의 선형 연산 네트워크 계층에 대한 잔여 연결 설계 및 제로 초기화를 조정하여 동적 필드가 정적 3D GS 모델을 기반으로 원활하고 완전하게 초기화될 수 있도록 했습니다. (효과는 그림과 같습니다) 6)에 표시됩니다.始 그림 6 동적 장의 최종 세대에 대한 동적 형성 초기화의 영향

몇 분 안에 4차원 콘텐츠를 생성하고 모션 효과를 제어합니다. Peking University와 Michigan은 DG4D를 제안합니다.

2. 비디오 대 비디오의 물 최적화

그림 7 비디오 대 비디오 텍스처 최적화 프레임 다이어그램

DreamGaussian과 마찬가지로 4D GS를 기반으로 한 4차원 동적 모델 생성의 첫 번째 단계를 거친 후 4차원 메쉬 모델 시퀀스를 추출할 수 있습니다. 또한 DreamGaussian이 수행하는 것과 유사하게 메쉬 모델의 UV 공간에서 텍스처를 더욱 최적화할 수도 있습니다. 개별 3D 메시 모델의 텍스처를 최적화하기 위해 이미지 생성 모델만 사용하는 DreamGaussian과 달리 전체 3D 메시 시퀀스를 최적화해야 합니다.

게다가 DreamGaussian의 접근 방식을 따를 경우, 즉 각 3D 메시 시퀀스에 대해 독립적인 텍스처 최적화를 수행하면 3D 메시의 텍스처가 서로 다른 타임스탬프에서 일관되지 않게 생성되고 깜박임 등이 자주 발생한다는 사실을 발견했습니다. . 결함 가공물이 나타납니다. 이러한 점에서 우리는 DreamGaussian과 달리 대규모 비디오 생성 모델을 기반으로 UV 공간에서 비디오-비디오 텍스처 최적화 방법을 제안합니다. 구체적으로, 우리는 최적화 과정에서 일련의 카메라 궤적을 무작위로 생성하고 이를 기반으로 여러 비디오를 렌더링하고 렌더링된 비디오에 해당 노이즈 추가 및 노이즈 제거를 수행하여 메시 모델 텍스처 향상을 달성했습니다.

사진을 기반으로 한 대형 모델 생성과 비디오를 기반으로 한 대형 모델 생성의 텍스처 최적화 효과 비교는 그림 8에 나와 있습니다. ㅋㅋㅋ

4D NeRF의 전체 최적화를 위한 이전 방법에 비해 DG4D는 4차원 콘텐츠를 생성하는 데 필요한 시간이 크게 단축됩니다. 구체적인 시간 비교는 표 1에서 볼 수 있습니다. ㅋㅋ ~ ㅋㅋ ~
영상을 기반으로 4차원 콘텐츠를 생성하는 설정에 대해, 영상에서 4차원 콘텐츠를 생성하는 방식의 수치 결과를 비교한 표 3을 보면 된다. ㅋㅋㅋ 표 3
또한, 우리의 영상 생성에 가장 잘 맞는 다양한 방식의 생성 결과에 대한 사용자 테스트도 진행했습니다. 방법 샘플링 테스트, 테스트 결과는 표 4에 보고됩니다.生 표 4 단일 사진으로 생성된 4차원 콘텐츠를 기반으로 한 사용자 테스트

DG4D와 기존 오픈 소스 SOTA 그래프는 4차원 콘텐츠 방식과 비디오 생성 4차원 콘텐츠 방식의 효과를 생성합니다. 그림 9와 그림 10에 각각 표시되어 있습니다.内容 그림 9 그림 9 그림 4차원 콘텐츠 효과 비교 그림 10 영상 Sheng 4차원 콘텐츠 효과 비교 그림

또한 최근 단일 이미지에서 3D GS를 생성하는 직접 피드포워드 방식(즉, SDS 최적화 방식을 사용하지 않음)을 기반으로 정적 3D 콘텐츠를 생성하고, 이를 기반으로 동적 4D GS 생성을 초기화했습니다. 3D GS의 직접 피드포워드 생성은 SDS 최적화 기반 방법보다 더 높은 품질과 다양한 3D 콘텐츠를 더 빠르게 생성할 수 있습니다. 이를 기반으로 얻은 4차원 콘텐츠는 그림 11과 같다.生 Figure 11 3D GS 생성 방법을 기반으로 생성된 4차원 동적 콘텐츠

단일 사진을 기반으로 더 많은 4차원 콘텐츠 표시가 그림 12에 표시됩니다.
결론

4D GS를 기반으로 효율적인 image-to-4D 생성 프레임워크인 DreamGaussian4D(DG4D)를 제안합니다. 기존 4차원 콘텐츠 생성 프레임워크와 비교하여 DG4D는 최적화 시간을 몇 시간에서 몇 분으로 크게 줄입니다. 또한 생성된 비디오를 구동 모션 생성에 사용하여 시각적으로 제어 가능한 3D 모션 생성을 구현하는 방법을 보여줍니다.
마지막으로 DG4D는 3D 메쉬 모델 추출을 허용하고 시간적으로 일관된 고품질 텍스처 최적화를 지원합니다. DG4D가 제안하는 4차원 콘텐츠 생성 프레임워크가 4차원 콘텐츠 생성 방향의 연구를 촉진하고 다양한 실용화에 기여할 수 있기를 기대한다.

References

^{[1] Singer et al. "Text-to-4D 동적 장면 생성." 2023년 제40회 국제 기계 학습 회의 논문집. 2] Cao 외. "Hexplane: 동적 장면을 위한 빠른 표현." 컴퓨터 비전 및 패턴 인식에 관한 IEEE/CVF 회의록.}

^{[3] Jiang 외. 단안 비디오의 360° 동적 객체 생성." 학습 표현에 관한 제12차 국제 컨퍼런스. 2023.}

^{[4] Zhao 외. "Animate124: 하나의 이미지를 4D 동적 장면으로 애니메이션화." arXiv 사전 인쇄 arXiv:2311.14603 (2023).}

^{[5] Poole 외. "DreamFusion: 2D 확산을 사용한 텍스트-3D." 제11회 학습 표현에 관한 국제 회의.}

^{[6] , Sherwin, et al. "4d-fy: 하이브리드 점수 증류 샘플링을 사용한 텍스트-4d 생성." arXiv 사전 인쇄 arXiv:2311.17984(2023).}

^{[7] Tang et al. 효율적인 3D 콘텐츠 제작을 위한 가우스 스플래팅." 제12차 학습 표현에 관한 국제 컨퍼런스. 2023.}