찾다
기술 주변기기일체 포함몇 분 안에 4차원 콘텐츠를 생성하고 모션 효과를 제어합니다. Peking University와 Michigan은 DG4D를 제안합니다.

몇 분 안에 4차원 콘텐츠를 생성하고 모션 효과를 제어합니다. Peking University와 Michigan은 DG4D를 제안합니다.
AIxiv 칼럼은 본 사이트에서 학술 및 기술 콘텐츠를 게재하는 칼럼입니다. 지난 몇 년 동안 이 사이트의 AIxiv 칼럼에는 전 세계 주요 대학 및 기업의 최고 연구실을 대상으로 한 2,000개 이상의 보고서가 접수되어 학술 교류 및 보급을 효과적으로 촉진하고 있습니다. 공유하고 싶은 훌륭한 작품이 있다면 자유롭게 기여하거나 보고를 위해 연락주시기 바랍니다. 제출 이메일: liyazhou@jiqizhixin.com; zhaoyunfeng@jiqizhixin.com

이 기사의 저자인 Pan Liang 박사는 현재 상하이 인공 지능 연구소의 연구 과학자입니다. 이전에는 2020년부터 2023년까지 싱가포르 난양기술대학교 S-Lab에서 연구원으로 재직했으며, 그의 지도교수는 Liu Ziwei 교수였다. 그의 연구는 컴퓨터 비전, 3D 포인트 클라우드 및 가상 인간에 중점을 두고 있으며 최고의 컨퍼런스와 저널에 여러 논문을 발표했으며 Google Scholar에서 2700회 이상 인용되었습니다. 또한 그는 컴퓨터 비전 및 기계 학습 분야의 최고 컨퍼런스 및 저널의 검토자로도 활동했습니다.

최근 SenseTime-Nanyang Technological University 공동 AI 연구 센터 S-Lab, Shanghai Artificial Intelligence Laboratory, Peking University 및 University of Michigan은 공간 변환의 명시적 모델링과 정적 3D Gaussian Splatter를 결합한 DreamGaussian4D(DG4D)를 공동으로 제안했습니다( GS) 기술을 사용하면 효율적인 4차원 콘텐츠 생성이 가능합니다.

4차원 콘텐츠 생성은 최근 상당한 진전을 이루었지만 기존 방법에는 긴 최적화 시간, 열악한 모션 제어 기능, 낮은 세부 품질 등의 문제가 있습니다. DG4D는 두 가지 주요 모듈을 포함하는 전체 프레임워크를 제안합니다. 1) 이미지를 4D GS로 - 먼저 DreamGaussianHD를 사용하여 정적 3D GS를 생성한 다음 HexPlane을 기반으로 하는 가우스 변형을 기반으로 동적 생성을 생성합니다. 2) 비디오를 비디오 텍스처로 개선합니다. 생성된 UV 공간 텍스처 맵은 미리 훈련된 이미지-비디오 확산 모델을 사용하여 개선되고 시간적 일관성이 향상됩니다.

DG4D는 4차원 콘텐츠 생성의 최적화 시간을 몇 시간에서 몇 분으로 단축하고(그림 1 참조) 생성된 3차원 모션을 시각적으로 제어할 수 있으며, 가능한 이미지 생성을 지원한다는 점은 주목할 가치가 있습니다. 3차원 엔진으로 사실적으로 렌더링됩니다.

몇 분 안에 4차원 콘텐츠를 생성하고 모션 효과를 제어합니다. Peking University와 Michigan은 DG4D를 제안합니다.

  • 지 이름 : DreamGaussian4D : 생성 4D 가우스 스플 래팅

  • homepage 주소 : https://jiawei-ren.github.io/projects/dreamgaussian4d/

  • Paper 주소 : https : // arxiv.org/abs/2312.17142

  • 데모 주소: https://huggingface.co/spaces/jiawei011/dreamgaussian4d

몇 분 안에 4차원 콘텐츠를 생성하고 모션 효과를 제어합니다. Peking University와 Michigan은 DG4D를 제안합니다.

                 > 그림 1. DG4D는 4차원 콘텐츠를 4개와 1개로 구현할 수 있습니다. 30분 기본 융합 최적화

문제 및 과제

생성 모델은 2D 이미지, 비디오, 3D 풍경 등 다양한 디지털 콘텐츠의 제작과 생산을 크게 단순화할 수 있으며 최근 몇 년 동안 상당한 진전을 이루었습니다. 4차원 콘텐츠는 게임, 영화, TV 등 다양한 다운스트림 작업에 중요한 콘텐츠 형식입니다. 또한 4차원으로 생성된 콘텐츠는 기존 그래픽 콘텐츠 제작 파이프라인에 연결하기 위해 기존 그래픽 렌더링 엔진 소프트웨어(예: Blender 또는 Unreal Engine)를 가져올 수 있도록 지원해야 합니다(그림 2 참조).

동적인 3차원(즉, 4차원) 생성에 관한 일부 연구가 있지만 4차원 장면의 효율적이고 고품질 생성에는 여전히 과제가 있습니다. 최근에는 모든 시야각에서 콘텐츠 모양과 동작의 일관성을 제한하기 위해 비디오와 3차원 생성 모델을 결합하여 4차원 콘텐츠 생성을 달성하기 위해 점점 더 많은 연구 방법이 사용되었습니다. ㅋㅋ                                                                        NeRF)가 말했습니다. 예를 들어 MAV3D [1]는 HexPlane [2]에서 텍스트-비디오 확산 모델을 개선하여 텍스트-4차원 콘텐츠 생성을 달성합니다. Consistency4D [3]는 계단식 DyNeRF를 최적화하여 정적으로 캡처된 비디오에서 4D 장면을 생성하는 비디오-4D 프레임워크를 도입합니다. 다중 확산 모델 이전을 사용하여 Animate124[4]는 텍스트 모션 설명을 통해 처리되지 않은 단일 2D 이미지를 3D 동적 비디오로 애니메이션화할 수 있습니다. 하이브리드 SDS [5] 기술을 기반으로 하는 4D-fy [6]는 사전 훈련된 여러 확산 모델을 사용하여 매력적인 텍스트를 4차원 콘텐츠로 생성할 수 있습니다.

그러나 위에서 언급한 모든 기존 방법[1,3,4,6]은 단일 4D NeRF를 생성하는 데 몇 시간이 필요하므로 적용 가능성이 크게 제한됩니다. 또한, 모두 최종 생성된 모션을 효과적으로 제어하거나 선택하는 데 어려움을 겪고 있습니다. 위의 단점은 주로 다음 요소에서 비롯됩니다. 첫째, 앞서 언급한 방법의 기본 암시적 4차원 표현이 충분히 효율적이지 않으며, 느린 렌더링 속도 및 열악한 모션 규칙성과 같은 문제가 있습니다. 둘째, 비디오 SDS의 무작위 특성입니다. 수렴의 어려움이 증가하고 최종 결과에서는 불안정성과 여러 아티팩트가 발생합니다.

방법 소개

4D NeRF를 직접 최적화하는 방법과 달리 DG4D는 정적 가우스 스플래싱 기술과 명시적인 공간 변환 모델링을 결합하여 4D 콘텐츠 생성을 위한 효율적이고 강력한 표현을 구축합니다. 또한 비디오 생성 방법은 고품질 4D 생성을 향상시키는 귀중한 시공간 사전 정보를 제공할 수 있는 잠재력을 가지고 있습니다. 구체적으로 우리는 1) 이미지에서 4D GS 생성, 2) 비디오 대형 모델 기반 텍스처 맵 개선의 두 가지 주요 단계로 구성된 전체 프레임워크를 제안합니다. D1. 4D GS로의 이미지 생성

몇 분 안에 4차원 콘텐츠를 생성하고 모션 효과를 제어합니다. Peking University와 Michigan은 DG4D를 제안합니다.

4D GS 생성 프레임워크 다이어그램의 그림 3 그림

이 단계에서는 정적 3D GS와 공간 변형을 사용하여 동적 역학 4- 차원적인 장면. 주어진 2D 이미지를 기반으로 향상된 DreamGaussianHD 방법을 사용하여 정적 3D GS를 생성합니다. 이어서, 정적 3D GS 함수에 대한 시간 의존 변형 필드를 최적화함으로써 각 타임스탬프의 가우스 변형이 추정되며, 변형된 각 프레임의 모양과 질감이 주행 비디오의 해당 프레임과 일치하도록 만드는 것을 목표로 합니다. 이 단계가 끝나면 동적 3차원 메시 모델 시퀀스가 ​​생성됩니다. ㅋㅋ                                                                                HD 3D GS를 사용하는 최근 그래픽 3D 개체 방법인 DreamGaussian [7]을 기반으로 몇 가지 추가 개선을 수행하고 더 나은 3D GS 생성 및 초기화 방법 세트를 컴파일했습니다. 개선된 주요 기능으로는 1) 멀티뷰 최적화 방식 채택, 2) 최적화 과정에서 렌더링된 이미지의 배경을 생성에 더 적합한 검정색 배경으로 설정하는 것 등이 있습니다. 개선된 버전을 DreamGaussianHD라고 부르며 구체적인 개선 렌더링은 그림 4에서 볼 수 있습니다. 그림 5 HexPlane은 동적 변형 장을 나타냅니다.

생성된 정적 3D GS 모델을 기반으로 각 프레임 동적 4D GS 모델에서 가우시안 커널의 변형을 예측하여 기대에 맞는 비디오를 생성합니다. 동적 효과의 특성화 측면에서 HexPlane(그림 5 참조)을 선택하여 각 타임스탬프에서 가우스 커널 변위, 회전 및 크기를 예측함으로써 각 프레임에 대한 동적 모델 생성을 구동합니다. 또한 설계 네트워크를 목표 방식으로 조정했습니다. 특히 마지막 몇 개의 선형 연산 네트워크 계층에 대한 잔여 연결 설계 및 제로 초기화를 조정하여 동적 필드가 정적 3D GS 모델을 기반으로 원활하고 완전하게 초기화될 수 있도록 했습니다. (효과는 그림과 같습니다) 6)에 표시됩니다.始 그림 6 동적 장의 최종 세대에 대한 동적 형성 초기화의 영향

몇 분 안에 4차원 콘텐츠를 생성하고 모션 효과를 제어합니다. Peking University와 Michigan은 DG4D를 제안합니다.

2. 비디오 대 비디오의 물 최적화

  • 그림 7 비디오 대 비디오 텍스처 최적화 프레임 다이어그램

    DreamGaussian과 마찬가지로 4D GS를 기반으로 한 4차원 동적 모델 생성의 첫 번째 단계를 거친 후 4차원 메쉬 모델 시퀀스를 추출할 수 있습니다. 또한 DreamGaussian이 수행하는 것과 유사하게 메쉬 모델의 UV 공간에서 텍스처를 더욱 최적화할 수도 있습니다. 개별 3D 메시 모델의 텍스처를 최적화하기 위해 이미지 생성 모델만 사용하는 DreamGaussian과 달리 전체 3D 메시 시퀀스를 최적화해야 합니다.

    게다가 DreamGaussian의 접근 방식을 따를 경우, 즉 각 3D 메시 시퀀스에 대해 독립적인 텍스처 최적화를 수행하면 3D 메시의 텍스처가 서로 다른 타임스탬프에서 일관되지 않게 생성되고 깜박임 등이 자주 발생한다는 사실을 발견했습니다. . 결함 가공물이 나타납니다. 이러한 점에서 우리는 DreamGaussian과 달리 대규모 비디오 생성 모델을 기반으로 UV 공간에서 비디오-비디오 텍스처 최적화 방법을 제안합니다. 구체적으로, 우리는 최적화 과정에서 일련의 카메라 궤적을 무작위로 생성하고 이를 기반으로 여러 비디오를 렌더링하고 렌더링된 비디오에 해당 노이즈 추가 및 노이즈 제거를 수행하여 메시 모델 텍스처 향상을 달성했습니다.

    사진을 기반으로 한 대형 모델 생성과 비디오를 기반으로 한 대형 모델 생성의 텍스처 최적화 효과 비교는 그림 8에 나와 있습니다. ㅋㅋㅋ

    4D NeRF의 전체 최적화를 위한 이전 방법에 비해 DG4D는 4차원 콘텐츠를 생성하는 데 필요한 시간이 크게 단축됩니다. 구체적인 시간 비교는 표 1에서 볼 수 있습니다. ㅋㅋ ~                                                       ㅋㅋ ~                                                 몇 분 안에 4차원 콘텐츠를 생성하고 모션 효과를 제어합니다. Peking University와 Michigan은 DG4D를 제안합니다.

    영상을 기반으로 4차원 콘텐츠를 생성하는 설정에 대해, 영상에서 4차원 콘텐츠를 생성하는 방식의 수치 결과를 비교한 표 3을 보면 된다. ㅋㅋㅋ 표 3

    또한, 우리의 영상 생성에 가장 잘 맞는 다양한 방식의 생성 결과에 대한 사용자 테스트도 진행했습니다. 방법 샘플링 테스트, 테스트 결과는 표 4에 보고됩니다.生 표 4 단일 사진으로 생성된 4차원 콘텐츠를 기반으로 한 사용자 테스트

    DG4D와 기존 오픈 소스 SOTA 그래프는 4차원 콘텐츠 방식과 비디오 생성 4차원 콘텐츠 방식의 효과를 생성합니다. 그림 9와 그림 10에 각각 표시되어 있습니다.内容 그림 9 그림 9 그림 4차원 콘텐츠 효과 비교 그림 10 영상 Sheng 4차원 콘텐츠 효과 비교 그림

    또한 최근 단일 이미지에서 3D GS를 생성하는 직접 피드포워드 방식(즉, SDS 최적화 방식을 사용하지 않음)을 기반으로 정적 3D 콘텐츠를 생성하고, 이를 기반으로 동적 4D GS 생성을 초기화했습니다. 3D GS의 직접 피드포워드 생성은 SDS 최적화 기반 방법보다 더 높은 품질과 다양한 3D 콘텐츠를 더 빠르게 생성할 수 있습니다. 이를 기반으로 얻은 4차원 콘텐츠는 그림 11과 같다.生 Figure 11 3D GS 생성 방법을 기반으로 생성된 4차원 동적 콘텐츠

    몇 분 안에 4차원 콘텐츠를 생성하고 모션 효과를 제어합니다. Peking University와 Michigan은 DG4D를 제안합니다.

    단일 사진을 기반으로 더 많은 4차원 콘텐츠 표시가 그림 12에 표시됩니다.

    결론

    4D GS를 기반으로 효율적인 image-to-4D 생성 프레임워크인 DreamGaussian4D(DG4D)를 제안합니다. 기존 4차원 콘텐츠 생성 프레임워크와 비교하여 DG4D는 최적화 시간을 몇 시간에서 몇 분으로 크게 줄입니다. 또한 생성된 비디오를 구동 모션 생성에 사용하여 시각적으로 제어 가능한 3D 모션 생성을 구현하는 방법을 보여줍니다. 몇 분 안에 4차원 콘텐츠를 생성하고 모션 효과를 제어합니다. Peking University와 Michigan은 DG4D를 제안합니다.

    마지막으로 DG4D는 3D 메쉬 모델 추출을 허용하고 시간적으로 일관된 고품질 텍스처 최적화를 지원합니다. DG4D가 제안하는 4차원 콘텐츠 생성 프레임워크가 4차원 콘텐츠 생성 방향의 연구를 촉진하고 다양한 실용화에 기여할 수 있기를 기대한다.

    References

    [1] Singer et al. "Text-to-4D 동적 장면 생성." 2023년 제40회 국제 기계 학습 회의 논문집. 2] Cao 외. "Hexplane: 동적 장면을 위한 빠른 표현." 컴퓨터 비전 및 패턴 인식에 관한 IEEE/CVF 회의록.

    [3] Jiang 외. 단안 비디오의 360° 동적 객체 생성." 학습 표현에 관한 제12차 국제 컨퍼런스. 2023.

    [4] Zhao 외. "Animate124: 하나의 이미지를 4D 동적 장면으로 애니메이션화." arXiv 사전 인쇄 arXiv:2311.14603 (2023).

    [5] Poole 외. "DreamFusion: 2D 확산을 사용한 텍스트-3D." 제11회 학습 표현에 관한 국제 회의.

    [6] , Sherwin, et al. "4d-fy: 하이브리드 점수 증류 샘플링을 사용한 텍스트-4d 생성." arXiv 사전 인쇄 arXiv:2311.17984(2023).

    [7] Tang et al. 효율적인 3D 콘텐츠 제작을 위한 가우스 스플래팅." 제12차 학습 표현에 관한 국제 컨퍼런스. 2023.

위 내용은 몇 분 안에 4차원 콘텐츠를 생성하고 모션 효과를 제어합니다. Peking University와 Michigan은 DG4D를 제안합니다.의 상세 내용입니다. 자세한 내용은 PHP 중국어 웹사이트의 기타 관련 기사를 참조하세요!

성명
본 글의 내용은 네티즌들의 자발적인 기여로 작성되었으며, 저작권은 원저작자에게 있습니다. 본 사이트는 이에 상응하는 법적 책임을 지지 않습니다. 표절이나 침해가 의심되는 콘텐츠를 발견한 경우 admin@php.cn으로 문의하세요.
요리 혁신 요리 : 인공 지능이 식품 서비스를 변화시키는 방법요리 혁신 요리 : 인공 지능이 식품 서비스를 변화시키는 방법Apr 12, 2025 pm 12:09 PM

AI 식품 준비 여전히 초기 사용 중이지만 AI 시스템은 음식 준비에 점점 더 많이 사용되고 있습니다. AI 구동 로봇은 부엌에서 햄버거를 뒤집기, 피자 만들기 또는 SA 조립과 같은 음식 준비 작업을 자동화하는 데 사용됩니다

파이썬 네임 스페이스 및 가변 범위에 대한 포괄적 인 안내서파이썬 네임 스페이스 및 가변 범위에 대한 포괄적 인 안내서Apr 12, 2025 pm 12:00 PM

소개 파이썬 기능에서 변수의 네임 스페이스, 범위 및 동작을 이해하는 것은 효율적으로 작성하고 런타임 오류 또는 예외를 피하는 데 중요합니다. 이 기사에서는 다양한 ASP를 탐구 할 것입니다

비전 언어 모델 (VLMS)에 대한 포괄적 인 안내서비전 언어 모델 (VLMS)에 대한 포괄적 인 안내서Apr 12, 2025 am 11:58 AM

소개 생생한 그림과 조각으로 둘러싸인 아트 갤러리를 걷는 것을 상상해보십시오. 이제 각 작품에 질문을하고 의미있는 대답을 얻을 수 있다면 어떨까요? “어떤 이야기를하고 있습니까?

Mediatek은 Kompanio Ultra 및 Dimensity 9400으로 프리미엄 라인업을 향상시킵니다.Mediatek은 Kompanio Ultra 및 Dimensity 9400으로 프리미엄 라인업을 향상시킵니다.Apr 12, 2025 am 11:52 AM

제품 케이던스를 계속하면서 이번 달 Mediatek은 새로운 Kompanio Ultra and Dimensity 9400을 포함한 일련의 발표를했습니다. 이 제품은 스마트 폰 용 칩을 포함하여 Mediatek 비즈니스의 전통적인 부분을 채우고 있습니다.

이번 주 AI : Walmart는 패션 트렌드를 설정하기 전에 패션 트렌드를 설정합니다.이번 주 AI : Walmart는 패션 트렌드를 설정하기 전에 패션 트렌드를 설정합니다.Apr 12, 2025 am 11:51 AM

#1 Google은 Agent2agent를 시작했습니다 이야기 : 월요일 아침입니다. AI 기반 채용 담당자로서 당신은 더 똑똑하지 않고 더 똑똑하지 않습니다. 휴대 전화에서 회사의 대시 보드에 로그인합니다. 세 가지 중요한 역할이 공급되고, 검증되며, 예정된 FO가 있음을 알려줍니다.

생성 AI는 사이코브블을 만난다생성 AI는 사이코브블을 만난다Apr 12, 2025 am 11:50 AM

나는 당신이되어야한다고 생각합니다. 우리 모두는 Psychobabble이 다양한 심리적 용어를 혼합하고 종종 이해할 수 없거나 완전히 무의미한 모듬 채터로 구성되어 있다는 것을 알고 있습니다. 당신이 fo를 뿌리기 위해해야 ​​할 일

프로토 타입 : 과학자들은 종이를 플라스틱으로 바꿉니다프로토 타입 : 과학자들은 종이를 플라스틱으로 바꿉니다Apr 12, 2025 am 11:49 AM

이번 주 발표 된 새로운 연구에 따르면 2022 년에 제조 된 플라스틱의 9.5%만이 재활용 재료로 만들어졌습니다. 한편, 플라스틱은 계속해서 매립지와 생태계에 전 세계에 쌓이고 있습니다. 그러나 도움이 진행 중입니다. 엥인 팀

AI 분석가의 부상 : AI 혁명에서 이것이 가장 중요한 일이 될 수있는 이유AI 분석가의 부상 : AI 혁명에서 이것이 가장 중요한 일이 될 수있는 이유Apr 12, 2025 am 11:41 AM

최근 Enterprise Analytics 플랫폼 Alteryx의 CEO 인 Andy MacMillan과의 대화는 AI 혁명 에서이 비판적이면서도 저평가 된 역할을 강조했습니다. MacMillan에서 설명했듯이 원시 비즈니스 데이터와 AI-Ready Informat의 격차

See all articles

핫 AI 도구

Undresser.AI Undress

Undresser.AI Undress

사실적인 누드 사진을 만들기 위한 AI 기반 앱

AI Clothes Remover

AI Clothes Remover

사진에서 옷을 제거하는 온라인 AI 도구입니다.

Undress AI Tool

Undress AI Tool

무료로 이미지를 벗다

Clothoff.io

Clothoff.io

AI 옷 제거제

AI Hentai Generator

AI Hentai Generator

AI Hentai를 무료로 생성하십시오.

인기 기사

R.E.P.O. 에너지 결정과 그들이하는 일 (노란색 크리스탈)
3 몇 주 전By尊渡假赌尊渡假赌尊渡假赌
R.E.P.O. 최고의 그래픽 설정
3 몇 주 전By尊渡假赌尊渡假赌尊渡假赌
R.E.P.O. 아무도들을 수없는 경우 오디오를 수정하는 방법
3 몇 주 전By尊渡假赌尊渡假赌尊渡假赌
WWE 2K25 : Myrise에서 모든 것을 잠금 해제하는 방법
4 몇 주 전By尊渡假赌尊渡假赌尊渡假赌

뜨거운 도구

스튜디오 13.0.1 보내기

스튜디오 13.0.1 보내기

강력한 PHP 통합 개발 환경

WebStorm Mac 버전

WebStorm Mac 버전

유용한 JavaScript 개발 도구

맨티스BT

맨티스BT

Mantis는 제품 결함 추적을 돕기 위해 설계된 배포하기 쉬운 웹 기반 결함 추적 도구입니다. PHP, MySQL 및 웹 서버가 필요합니다. 데모 및 호스팅 서비스를 확인해 보세요.

SublimeText3 Linux 새 버전

SublimeText3 Linux 새 버전

SublimeText3 Linux 최신 버전

메모장++7.3.1

메모장++7.3.1

사용하기 쉬운 무료 코드 편집기