>  기사  >  기술 주변기기  >  X-Dreamer는 차원의 벽을 뛰어넘어 2D와 3D 생성 분야를 통합하여 고품질 텍스트를 3D 생성에 도입합니다.

X-Dreamer는 차원의 벽을 뛰어넘어 2D와 3D 생성 분야를 통합하여 고품질 텍스트를 3D 생성에 도입합니다.

PHPz
PHPz앞으로
2023-12-15 13:54:33477검색

최근에는 사전 훈련된 확산 모델의 개발에 힘입어 텍스트를 3D 콘텐츠로 자동 변환하는 데 상당한 진전이 이루어졌습니다[1, 2, 3]. 그중 DreamFusion[4]은 사전 훈련된 2D 확산 모델[5]을 활용하여 전용 3D 자산 데이터세트 없이도 텍스트에서 3D 자산을 자동으로 생성하는 효과적인 방법을 도입합니다.

DreamFusion에서 소개한 핵심 혁신은 다음과 같습니다. SDS(분별 증류 샘플링) 알고리즘. 알고리즘은 NeRF[6]와 같은 사전 훈련된 2D 확산 모델을 사용하여 단일 3D 표현을 평가하고 이를 최적화하여 모든 카메라 관점에서 렌더링된 이미지가 주어진 텍스트와 높은 일관성을 유지하도록 보장합니다. 중요한 SDS 알고리즘에서 영감을 받아 사전 훈련된 2D 확산 모델을 적용하여 텍스트를 3D로 생성하는 작업을 발전시키는 여러 연구[7, 8, 9, 10, 11]가 등장했습니다.

사전 훈련된 텍스트-2D 확산 모델을 활용하여 텍스트-3D 생성에 상당한 진전이 있었지만, 2D 이미지와 3D 자산 사이에는 여전히 큰 필드 격차가 있습니다. 이러한 차이는 그림 1에 명확하게 나와 있습니다.

첫 번째, 텍스트-2D 모델은 카메라에 구애받지 않는 생성 결과를 생성하여 다른 각도를 무시하면서 특정 각도에서 고품질 이미지를 생성하는 데 중점을 둡니다. 이와 대조적으로 3D 콘텐츠 제작은 위치, 촬영 각도, 시야각 등의 카메라 매개변수와 복잡하게 연결되어 있습니다. 따라서 텍스트-3D 모델은 가능한 모든 카메라 매개변수에 대해 고품질 결과를 생성해야 합니다.

또한 텍스트-2D 생성 모델은 이미지의 전체적인 일관성을 유지하기 위해 전경 및 배경 요소를 동시에 생성해야 합니다. 대조적으로, 텍스트-3D 생성 모델은 전경 객체 생성에만 집중하면 됩니다. 이러한 차이를 통해 텍스트-3D 모델은 전경 개체를 정확하게 표현하고 생성하기 위해 더 많은 리소스와 주의를 할당할 수 있습니다. 따라서 사전 훈련된 2D 확산 모델을 3D 자산 생성에 직접 사용할 때 텍스트-2D 생성과 텍스트-3D 생성 간의 영역 차이는 명백한 성능 장벽이 됩니다

X-Dreamer는 차원의 벽을 뛰어넘어 2D와 3D 생성 분야를 통합하여 고품질 텍스트를 3D 생성에 도입합니다.

그림 1 텍스트 출력 동일한 텍스트 프롬프트, 즉 "레오나르도 디카프리오의 머리 조각상" 아래에서 2D로 생성된 모델(왼쪽)과 3D로 생성된 모델(오른쪽).

이 문제를 해결하기 위해 본 논문에서는 세대 간 텍스트-2D, 텍스트-3D 도메인 간 격차를 효과적으로 해소할 수 있는 고품질 텍스트-3D 콘텐츠 제작을 위한 새로운 방법인 X-Dreamer를 제안합니다.

X-Dreamer의 핵심 구성 요소는 CG-LoRA(Camera-Guided Low-Rank Adaptation) 및 AMA(Attention-Mask Alignment) 손실이라는 두 가지 혁신적인 설계입니다.

첫 번째, 기존 방법[7, 8, 9, 10]은 일반적으로 텍스트-3D 생성을 위해 사전 훈련된 2D 확산 모델[5, 12]을 채택하는데, 이는 카메라 매개변수와의 고유한 연결이 부족합니다. 이러한 한계를 해결하고 X-Dreamer가 카메라 매개변수에 직접 영향을 받는 결과를 생성하도록 보장하기 위해 이 논문에서는 사전 훈련된 2D 확산 모델을 조정하는 CG-LoRA를 도입했습니다. 특히, CG-LoRA의 매개변수는 각 반복 동안 카메라 정보를 기반으로 동적으로 생성되므로 텍스트-3D 모델과 카메라 매개변수 간의 강력한 관계를 설정합니다.

둘째, 사전 훈련된 텍스트-2D 확산 모델은 전경 및 배경 생성에 주의를 할당하는 반면, 3D 자산 생성에는 전경 개체의 정확한 생성에 더 많은 주의가 필요합니다. 이 문제를 해결하기 위해 이 논문에서는 3D 객체의 바이너리 마스크를 사용하여 사전 훈련된 확산 모델의 주의 지도를 안내하여 전경 객체 생성의 우선순위를 지정하는 AMA 손실을 제안합니다. X-Dreamer는 이 모듈을 통합하여 전경 개체 생성에 우선 순위를 두어 생성된 3D 콘텐츠의 전반적인 품질을 크게 향상시킵니다.

X-Dreamer는 차원의 벽을 뛰어넘어 2D와 3D 생성 분야를 통합하여 고품질 텍스트를 3D 생성에 도입합니다.

프로젝트 홈페이지:

https://xmu-xiaoma666.github.io/Projects/X-Dreamer/

Github 홈페이지: https://github.com/xmu-xiaoma666 /X-Dreamer

DiscussionArticle주소: https://arxiv.org/abs/2312.00085

X-Dreamer는 텍스트-3D 생성 분야에 다음과 같은 기여를 했습니다.

  • 이 논문은 고품질 텍스트-3D 콘텐츠 제작을 위한 새로운 접근 방식인 X-Dreamer를 제안하여 텍스트-2D 생성과 텍스트-3D 생성 간의 주요 격차를 효과적으로 해소합니다.
  • 생성된 결과와 카메라 관점 간의 정렬을 향상시키기 위해 본 논문에서는 카메라 정보를 사용하여 2D 확산 모델의 특정 매개변수를 동적으로 생성하는 CG-LoRA를 제안합니다.
  • 텍스트-3D 모델에서 전경 개체 생성의 우선순위를 지정하기 위해 이 논문에서는 전경 3D 개체의 바이너리 마스크를 사용하여 2D 확산 모델의 주의 지도를 안내하는 AMA 손실을 소개합니다.

Method

X-Dreamer에는 기하학 학습과 외관 학습이라는 두 가지 주요 단계가 있습니다. 기하학 학습을 위해 본 연구에서는 DMTET를 3차원 표현으로 사용하고 이를 초기화하기 위해 3차원 타원체를 활용한다. 초기화되면 손실 함수는 MSE(평균 제곱 오차) 손실을 사용합니다. 다음으로 3D 표현과 입력 텍스트 단서 간의 정렬을 보장하기 위해 본 연구에서 제안한 SDS(Fractional Distillation Sampling) 손실과 AMA 손실을 사용하여 DMTET 및 CG-LoRA를 최적화합니다.

외형 학습을 위해 이 논문에서는 양방향 반사 분포 함수(BRDF) 모델링. 특히, 이 논문은 훈련 가능한 매개변수와 함께 MLP를 활용하여 표면 재료를 예측합니다. 기하학 학습 단계와 마찬가지로 이 논문에서는 SDS 손실과 AMA 손실을 사용하여 MLP 및 CG-LoRA의 학습 가능한 매개변수를 최적화하여 3D 표현과 텍스트 큐 간의 정렬을 달성합니다. 그림 2는 X-Dreamer의 세부 구성을 보여줍니다.

X-Dreamer는 차원의 벽을 뛰어넘어 2D와 3D 생성 분야를 통합하여 고품질 텍스트를 3D 생성에 도입합니다.

그림 2 기하학 학습, 외형 학습을 포함한 X-Dreamer 개요.

Geometry Learning(Geometry Learning)

이 모듈에서 X-Dreamer는 MLP 네트워크X-Dreamer는 차원의 벽을 뛰어넘어 2D와 3D 생성 분야를 통합하여 고품질 텍스트를 3D 생성에 도입합니다.를 활용하여 DMTET를 3D 표현으로 매개변수화합니다. 기하학적 모델링의 안정성을 높이기 위해 이 기사에서는 DMTET X-Dreamer는 차원의 벽을 뛰어넘어 2D와 3D 생성 분야를 통합하여 고품질 텍스트를 3D 생성에 도입합니다.의 초기 구성으로 3D 타원체를 사용합니다. 사면체 메쉬 X-Dreamer는 차원의 벽을 뛰어넘어 2D와 3D 생성 분야를 통합하여 고품질 텍스트를 3D 생성에 도입합니다.에 속하는 각 꼭지점 X-Dreamer는 차원의 벽을 뛰어넘어 2D와 3D 생성 분야를 통합하여 고품질 텍스트를 3D 생성에 도입합니다.에 대해 우리는 X-Dreamer는 차원의 벽을 뛰어넘어 2D와 3D 생성 분야를 통합하여 고품질 텍스트를 3D 생성에 도입합니다.을 훈련하여 두 가지 중요한 수량, 즉 SDF 값 X-Dreamer는 차원의 벽을 뛰어넘어 2D와 3D 생성 분야를 통합하여 고품질 텍스트를 3D 생성에 도입합니다.과 변형 오프셋 X-Dreamer는 차원의 벽을 뛰어넘어 2D와 3D 생성 분야를 통합하여 고품질 텍스트를 3D 생성에 도입합니다.을 예측합니다. X-Dreamer는 차원의 벽을 뛰어넘어 2D와 3D 생성 분야를 통합하여 고품질 텍스트를 3D 생성에 도입합니다.를 타원체로 초기화하기 위해 이 기사에서는 타원체 내에 고르게 분포된 N개 점을 샘플링하고 해당 SDF 값 X-Dreamer는 차원의 벽을 뛰어넘어 2D와 3D 생성 분야를 통합하여 고품질 텍스트를 3D 생성에 도입합니다.을 계산합니다. 그 후, 평균 제곱 오차(MSE) 손실을 활용하여 X-Dreamer는 차원의 벽을 뛰어넘어 2D와 3D 생성 분야를 통합하여 고품질 텍스트를 3D 생성에 도입합니다.를 최적화합니다. 이 최적화 프로세스를 통해 DMTET가 3D 타원체와 유사하도록 효과적으로 초기화됩니다. MSE 손실 공식은 다음과 같습니다. X-Dreamer는 차원의 벽을 뛰어넘어 2D와 3D 생성 분야를 통합하여 고품질 텍스트를 3D 생성에 도입합니다.

X-Dreamer는 차원의 벽을 뛰어넘어 2D와 3D 생성 분야를 통합하여 고품질 텍스트를 3D 생성에 도입합니다.

지오메트리를 초기화한 후 DMTET의 지오메트리를 입력 텍스트 프롬프트에 맞춥니다. 이는 차등 렌더링 기술을 사용하여 무작위로 샘플링된 카메라 포즈 c가 주어지면 초기화된 DMTETX-Dreamer는 차원의 벽을 뛰어넘어 2D와 3D 생성 분야를 통합하여 고품질 텍스트를 3D 생성에 도입합니다.에서 객체의 노멀 맵 n과 마스크 m을 생성함으로써 수행됩니다. 이어서, 노멀 맵 n은 학습 가능한 CG-LoRA 임베딩을 사용하여 고정된 안정 확산 모델(SD)에 입력되고 X-Dreamer는 차원의 벽을 뛰어넘어 2D와 3D 생성 분야를 통합하여 고품질 텍스트를 3D 생성에 도입합니다.의 매개변수는 다음과 같이 정의된 SDS 손실을 사용하여 업데이트됩니다.

은 SD의 매개변수를 나타내고, X-Dreamer는 차원의 벽을 뛰어넘어 2D와 3D 생성 분야를 통합하여 고품질 텍스트를 3D 생성에 도입합니다.

는 주어진 노이즈 레벨 t와 텍스트 임베딩 y에서 예측되는 SD의 노이즈입니다. 또한 X-Dreamer는 차원의 벽을 뛰어넘어 2D와 3D 생성 분야를 통합하여 고품질 텍스트를 3D 생성에 도입합니다.에서 X-Dreamer는 차원의 벽을 뛰어넘어 2D와 3D 생성 분야를 통합하여 고품질 텍스트를 3D 생성에 도입합니다.은 정규 분포에서 샘플링된 노이즈를 나타냅니다. X-Dreamer는 차원의 벽을 뛰어넘어 2D와 3D 생성 분야를 통합하여 고품질 텍스트를 3D 생성에 도입합니다., X-Dreamer는 차원의 벽을 뛰어넘어 2D와 3D 생성 분야를 통합하여 고품질 텍스트를 3D 생성에 도입합니다.X-Dreamer는 차원의 벽을 뛰어넘어 2D와 3D 생성 분야를 통합하여 고품질 텍스트를 3D 생성에 도입합니다. 구현은 DreamFusion [4]을 기반으로 합니다. X-Dreamer는 차원의 벽을 뛰어넘어 2D와 3D 생성 분야를 통합하여 고품질 텍스트를 3D 생성에 도입합니다. 또한 SD가 전경 객체 생성에 집중하기 위해 X-Dreamer는 다음과 같이 객체 마스크를 SD의 어텐션 맵과 정렬하는 추가 AMA 손실을 도입합니다. X-Dreamer는 차원의 벽을 뛰어넘어 2D와 3D 생성 분야를 통합하여 고품질 텍스트를 3D 생성에 도입합니다.

Where 는 Attention 레이어의 수를 나타내며,

는 i번째 Attention 레이어의 Attention 맵입니다. X-Dreamer는 차원의 벽을 뛰어넘어 2D와 3D 생성 분야를 통합하여 고품질 텍스트를 3D 생성에 도입합니다.

함수는 렌더링된 3D 개체 마스크의 크기를 조정하여 해당 크기가 주의 지도의 크기와 일치하는지 확인하는 데 사용됩니다. X-Dreamer는 차원의 벽을 뛰어넘어 2D와 3D 생성 분야를 통합하여 고품질 텍스트를 3D 생성에 도입합니다.외모학습X-Dreamer는 차원의 벽을 뛰어넘어 2D와 3D 생성 분야를 통합하여 고품질 텍스트를 3D 생성에 도입합니다.(외모학습)X-Dreamer는 차원의 벽을 뛰어넘어 2D와 3D 생성 분야를 통합하여 고품질 텍스트를 3D 생성에 도입합니다.

3D 개체의 형상을 얻은 후 이 문서의 목표는 PBR(물리 기반 렌더링) 재질 모델을 사용하여 3D 개체의 모양을 계산하는 것입니다. 재료 모델에는 확산 항 X-Dreamer는 차원의 벽을 뛰어넘어 2D와 3D 생성 분야를 통합하여 고품질 텍스트를 3D 생성에 도입합니다., 거칠기 및 금속성 항 X-Dreamer는 차원의 벽을 뛰어넘어 2D와 3D 생성 분야를 통합하여 고품질 텍스트를 3D 생성에 도입합니다. 및 일반 변화 항 X-Dreamer는 차원의 벽을 뛰어넘어 2D와 3D 생성 분야를 통합하여 고품질 텍스트를 3D 생성에 도입합니다.이 포함됩니다. 기하학 표면의 모든 지점 X-Dreamer는 차원의 벽을 뛰어넘어 2D와 3D 생성 분야를 통합하여 고품질 텍스트를 3D 생성에 도입합니다.

에 대해 X-Dreamer는 차원의 벽을 뛰어넘어 2D와 3D 생성 분야를 통합하여 고품질 텍스트를 3D 생성에 도입합니다.로 매개변수화된 다층 퍼셉트론(MLP)을 사용하여 다음과 같이 표현될 수 있는 세 가지 재료 항을 얻습니다. 해시 그리드 기술을 사용하여 위치 인코딩을 나타냅니다. 그 후 렌더링된 이미지의 각 픽셀은 다음 공식을 사용하여 계산할 수 있습니다.

X-Dreamer는 차원의 벽을 뛰어넘어 2D와 3D 생성 분야를 통합하여 고품질 텍스트를 3D 생성에 도입합니다.

그 중 X-Dreamer는 차원의 벽을 뛰어넘어 2D와 3D 생성 분야를 통합하여 고품질 텍스트를 3D 생성에 도입합니다.X-Dreamer는 차원의 벽을 뛰어넘어 2D와 3D 생성 분야를 통합하여 고품질 텍스트를 3D 생성에 도입합니다. 방향에서 렌더링된 3D 객체 표면의 점 X-Dreamer는 차원의 벽을 뛰어넘어 2D와 3D 생성 분야를 통합하여 고품질 텍스트를 3D 생성에 도입합니다.의 픽셀 값을 나타냅니다. X-Dreamer는 차원의 벽을 뛰어넘어 2D와 3D 생성 분야를 통합하여 고품질 텍스트를 3D 생성에 도입합니다.은 조건 X-Dreamer는 차원의 벽을 뛰어넘어 2D와 3D 생성 분야를 통합하여 고품질 텍스트를 3D 생성에 도입합니다.을 충족하는 입사 방향 X-Dreamer는 차원의 벽을 뛰어넘어 2D와 3D 생성 분야를 통합하여 고품질 텍스트를 3D 생성에 도입합니다. 집합으로 정의된 반구를 나타냅니다. 여기서 X-Dreamer는 차원의 벽을 뛰어넘어 2D와 3D 생성 분야를 통합하여 고품질 텍스트를 3D 생성에 도입합니다.는 입사 방향을 나타내고 X-Dreamer는 차원의 벽을 뛰어넘어 2D와 3D 생성 분야를 통합하여 고품질 텍스트를 3D 생성에 도입합니다.는 점 X-Dreamer는 차원의 벽을 뛰어넘어 2D와 3D 생성 분야를 통합하여 고품질 텍스트를 3D 생성에 도입합니다.의 표면 법선을 나타냅니다. X-Dreamer는 차원의 벽을 뛰어넘어 2D와 3D 생성 분야를 통합하여 고품질 텍스트를 3D 생성에 도입합니다.은 미리 만들어진 환경 맵의 입사광에 해당하고 X-Dreamer는 차원의 벽을 뛰어넘어 2D와 3D 생성 분야를 통합하여 고품질 텍스트를 3D 생성에 도입합니다.는 재료 특성과 관련된 BRDF(양방향 반사 분포 함수, 즉 X-Dreamer는 차원의 벽을 뛰어넘어 2D와 3D 생성 분야를 통합하여 고품질 텍스트를 3D 생성에 도입합니다.)입니다. 렌더링된 모든 픽셀 색상을 집계하여 렌더링된 이미지 X-Dreamer는 차원의 벽을 뛰어넘어 2D와 3D 생성 분야를 통합하여 고품질 텍스트를 3D 생성에 도입합니다.를 얻습니다. 기하학 학습 단계와 유사하게 렌더링된 이미지X-Dreamer는 차원의 벽을 뛰어넘어 2D와 3D 생성 분야를 통합하여 고품질 텍스트를 3D 생성에 도입합니다.는 SD에 입력되고 SDS 손실 및 AMA 손실을 사용하여 최적화됩니다X-Dreamer는 차원의 벽을 뛰어넘어 2D와 3D 생성 분야를 통합하여 고품질 텍스트를 3D 생성에 도입합니다..


CG-LoRA(Camera-Guided Low-Rank Adaptation)

텍스트를 2D와 3D로 생성하는 도메인 차이로 인해 발생하는 차선의 3D 결과 생성 문제를 해결하기 위해 X - Dreamer는 카메라 안내 기반의 하위 적응 방법을 제안했습니다

그림 3과 같이 카메라 매개변수와 방향 인식 텍스트를 사용하여 CG-LoRA에서 매개변수 생성을 안내하므로 X-Dreamer가 효과적으로 카메라 위치와 방향 정보를 인식합니다.

X-Dreamer는 차원의 벽을 뛰어넘어 2D와 3D 생성 분야를 통합하여 고품질 텍스트를 3D 생성에 도입합니다.

그림 3 카메라 유도 CG-LoRA 그림.

구체적으로, 텍스트 프롬프트 X-Dreamer는 차원의 벽을 뛰어넘어 2D와 3D 생성 분야를 통합하여 고품질 텍스트를 3D 생성에 도입합니다. 및 카메라 매개변수 X-Dreamer는 차원의 벽을 뛰어넘어 2D와 3D 생성 분야를 통합하여 고품질 텍스트를 3D 생성에 도입합니다.가 주어지면 먼저 사전 훈련된 텍스트 CLIP 인코더 X-Dreamer는 차원의 벽을 뛰어넘어 2D와 3D 생성 분야를 통합하여 고품질 텍스트를 3D 생성에 도입합니다. 및 훈련 가능한 MLP X-Dreamer는 차원의 벽을 뛰어넘어 2D와 3D 생성 분야를 통합하여 고품질 텍스트를 3D 생성에 도입합니다.를 사용하여 이러한 입력을 기능 공간에 투영합니다.

X-Dreamer는 차원의 벽을 뛰어넘어 2D와 3D 생성 분야를 통합하여 고품질 텍스트를 3D 생성에 도입합니다.

그 중 X-Dreamer는 차원의 벽을 뛰어넘어 2D와 3D 생성 분야를 통합하여 고품질 텍스트를 3D 생성에 도입합니다.X-Dreamer는 차원의 벽을 뛰어넘어 2D와 3D 생성 분야를 통합하여 고품질 텍스트를 3D 생성에 도입합니다.은 각각 텍스트 기능과 카메라 기능입니다. 그 후 두 개의 하위 행렬을 사용하여 X-Dreamer는 차원의 벽을 뛰어넘어 2D와 3D 생성 분야를 통합하여 고품질 텍스트를 3D 생성에 도입합니다.X-Dreamer는 차원의 벽을 뛰어넘어 2D와 3D 생성 분야를 통합하여 고품질 텍스트를 3D 생성에 도입합니다.을 CG-LoRA의 훈련 가능한 차원 축소 행렬로 투영합니다. 2차원 축소 행렬의

X-Dreamer는 차원의 벽을 뛰어넘어 2D와 3D 생성 분야를 통합하여 고품질 텍스트를 3D 생성에 도입합니다.

함수는 텐서의 모양을

에서 로 변환하는 데 사용됩니다. X-Dreamer는 차원의 벽을 뛰어넘어 2D와 3D 생성 분야를 통합하여 고품질 텍스트를 3D 생성에 도입합니다.

X-Dreamer는 차원의 벽을 뛰어넘어 2D와 3D 생성 분야를 통합하여 고품질 텍스트를 3D 생성에 도입합니다.X-Dreamer는 차원의 벽을 뛰어넘어 2D와 3D 생성 분야를 통합하여 고품질 텍스트를 3D 생성에 도입합니다.은 두 개의 하위 행렬입니다. 따라서 구현에서 훈련 가능한 매개변수를 줄이기 위해 두 행렬의 곱으로 분해될 수 있습니다. X-Dreamer는 차원의 벽을 뛰어넘어 2D와 3D 생성 분야를 통합하여 고품질 텍스트를 3D 생성에 도입합니다. 작은 숫자입니다(예: 4). LoRA의 구성에 따라 차원 확장 행렬 X-Dreamer는 차원의 벽을 뛰어넘어 2D와 3D 생성 분야를 통합하여 고품질 텍스트를 3D 생성에 도입합니다.은 모델이 사전 훈련된 SD 매개변수로 훈련을 시작할 수 있도록 0으로 초기화됩니다. 따라서 CG-LoRA의 피드포워드 프로세스 공식은 다음과 같습니다. X-Dreamer는 차원의 벽을 뛰어넘어 2D와 3D 생성 분야를 통합하여 고품질 텍스트를 3D 생성에 도입합니다.X-Dreamer는 차원의 벽을 뛰어넘어 2D와 3D 생성 분야를 통합하여 고품질 텍스트를 3D 생성에 도입합니다.여기서 는 사전 훈련된 SD 모델의 고정 매개변수를 나타내고 X-Dreamer는 차원의 벽을 뛰어넘어 2D와 3D 생성 분야를 통합하여 고품질 텍스트를 3D 생성에 도입합니다.는 캐스케이드 작업입니다. 이 방법의 구현에서 CG-LoRA는 SD의 주의 모듈의 선형 임베딩 레이어에 통합되어 방향 및 카메라 정보를 효과적으로 캡처합니다. X-Dreamer는 차원의 벽을 뛰어넘어 2D와 3D 생성 분야를 통합하여 고품질 텍스트를 3D 생성에 도입합니다.X-Dreamer는 차원의 벽을 뛰어넘어 2D와 3D 생성 분야를 통합하여 고품질 텍스트를 3D 생성에 도입합니다.다시 표현해야 하는 것은: Attention Mask Alignment Loss(AMA 손실) X-Dreamer는 차원의 벽을 뛰어넘어 2D와 3D 생성 분야를 통합하여 고품질 텍스트를 3D 생성에 도입합니다.

SD는 전경과 배경 요소를 모두 고려하여 2D 이미지를 생성하도록 사전 학습되었습니다. 그러나 텍스트를 3D로 생성하려면 전경 개체 생성에 더 많은 주의가 필요합니다. 이러한 요구 사항을 고려하여 X-Dreamer는 SD의 Attention Map을 3D 객체의 렌더링된 마스크 이미지와 정렬하기 위해 Attention-Mask Alignment Loss(AMA 손실)를 제안합니다. 특히 사전 훈련된 SD의 각 attention 레이어에 대해 이 방법은 쿼리 이미지 기능

X-Dreamer는 차원의 벽을 뛰어넘어 2D와 3D 생성 분야를 통합하여 고품질 텍스트를 3D 생성에 도입합니다.

및 주요 CLS 라벨 기능

X-Dreamer는 차원의 벽을 뛰어넘어 2D와 3D 생성 분야를 통합하여 고품질 텍스트를 3D 생성에 도입합니다.을 사용하여 Attention 맵을 계산합니다. 계산 공식은 다음과 같습니다: X-Dreamer는 차원의 벽을 뛰어넘어 2D와 3D 생성 분야를 통합하여 고품질 텍스트를 3D 생성에 도입합니다.

그 중 X-Dreamer는 차원의 벽을 뛰어넘어 2D와 3D 생성 분야를 통합하여 고품질 텍스트를 3D 생성에 도입합니다.은 다중 헤드 어텐션 메커니즘에서 헤드 수를 나타내고, X-Dreamer는 차원의 벽을 뛰어넘어 2D와 3D 생성 분야를 통합하여 고품질 텍스트를 3D 생성에 도입합니다.는 어텐션 맵을 나타내며, 그 어텐션 맵의 어텐션 값을 평균하여 전체 어텐션 맵을 계산합니다. X-Dreamer는 차원의 벽을 뛰어넘어 2D와 3D 생성 분야를 통합하여 고품질 텍스트를 3D 생성에 도입합니다. 모든 관심의 머리 속에 X-Dreamer는 차원의 벽을 뛰어넘어 2D와 3D 생성 분야를 통합하여 고품질 텍스트를 3D 생성에 도입합니다.의 가치.

어텐션 맵 값을 정규화하기 위해 소프트맥스 함수를 사용하기 때문에 이미지 특징 해상도가 높을 때 어텐션 맵의 활성화 값이 매우 작아질 수 있습니다. 그러나 렌더링된 3D 객체 마스크의 각 요소가 0 또는 1의 이진 값이라는 점을 고려하면 주의 지도를 렌더링된 3D 객체의 마스크와 직접 정렬하는 것은 최적이 아닙니다. 이 문제를 해결하기 위해 본 논문에서는 Attention Map의 값을 (0, 1) 사이에 매핑하는 정규화 기법을 제안합니다. 이 정규화 프로세스의 공식은 다음과 같습니다.

X-Dreamer는 차원의 벽을 뛰어넘어 2D와 3D 생성 분야를 통합하여 고품질 텍스트를 3D 생성에 도입합니다.

여기서 X-Dreamer는 차원의 벽을 뛰어넘어 2D와 3D 생성 분야를 통합하여 고품질 텍스트를 3D 생성에 도입합니다.는 분모에 0이 표시되지 않도록 작은 상수 값(예: X-Dreamer는 차원의 벽을 뛰어넘어 2D와 3D 생성 분야를 통합하여 고품질 텍스트를 3D 생성에 도입합니다.)을 나타냅니다. 마지막으로 AMA 손실은 모든 Attention 레이어의 Attention 맵을 3D 객체의 렌더링된 마스크에 정렬하는 데 사용됩니다.

실험 결과

이 논문에서는 4개의 Nvidia RTX 3090 GPU와 PyTorch 라이브러리를 사용하여 실험을 수행합니다. SDS 손실을 계산하기 위해 Hugging Face Diffusers를 통해 구현된 Stable Diffusion 모델이 활용되었습니다. DMTET 및 재료 인코더의 경우 숨겨진 레이어 차원이 32인 2레이어 MLP와 단일 레이어 MLP로 각각 구현됩니다.

타원체에서 시작하여 텍스트-3D 생성

논문은 타원체를 초기 기하학적 형태로 사용하여 X-Dreamer의 텍스트-3D 생성 결과를 보여줍니다. 그림 4가 표시됩니다. 결과는 입력 텍스트 프롬프트에 정확하게 대응하는 고품질의 사실적인 3D 개체를 생성하는 X-Dreamer의 능력을 보여줍니다.

X-Dreamer는 차원의 벽을 뛰어넘어 2D와 3D 생성 분야를 통합하여 고품질 텍스트를 3D 생성에 도입합니다.

그림 4 텍스트-3D 생성을 위한 시작점으로 타원체 사용

텍스트-3D 생성을 위한 성긴 그리드에서 시작

하지만 수많은 성긴 메쉬를 인터넷에서 다운로드할 수 있지만 이러한 메쉬를 직접 사용하여 3D 콘텐츠를 만드는 경우 기하학적 세부 정보가 부족하여 성능이 저하되는 경우가 많습니다. 그러나 이러한 메쉬는 3D 타원체보다 더 나은 3D 형상 사전 정보를 X-Dreamer에 제공할 수 있습니다.

따라서 타원체를 사용하는 대신 성긴 가이드 그리드를 사용하여 DMTET를 초기화하는 것도 가능합니다. 그림 5에서 볼 수 있듯이 X-Dreamer는 제공된 거친 메쉬에 세부 정보가 부족하더라도 주어진 텍스트를 기반으로 정확한 기하학적 세부 정보가 포함된 3D 자산을 생성할 수 있습니다.

X-Dreamer는 차원의 벽을 뛰어넘어 2D와 3D 생성 분야를 통합하여 고품질 텍스트를 3D 생성에 도입합니다.

그림 5 거친 메쉬에서 시작하는 텍스트-3D 생성.

다시 작성해야 할 내용은 정성적 비교입니다.

X-Dreamer의 효율성을 평가하기 위해 이 논문에서는 X-Dreamer를 DreamFusion[4], Magic3D[8], Fantasia3D[ 7] 및 ProlificDreamer [11](그림 6

참조)

SDS 기반 방법[4, 7, 8]과 비교할 때 X-Dreamer는 고품질의 사실적인 3D 자산을 생성하는 데 있어 훨씬 뛰어납니다. 또한 X-Dreamer는 VSD 기반 방법[11]에 비해 비슷하거나 훨씬 더 나은 시각적 효과를 갖는 3D 콘텐츠를 생성하는 동시에 최적화 시간이 훨씬 적게 소요됩니다. 구체적으로, ProlificDreamer의 경우 8시간 이상 걸리는데 비해 X-Dreamer의 경우 기하학 및 모양 학습 과정은 약 27분밖에 걸리지 않습니다.

X-Dreamer는 차원의 벽을 뛰어넘어 2D와 3D 생성 분야를 통합하여 고품질 텍스트를 3D 생성에 도입합니다.

그림 6 최신(SOTA) 방법과 비교.

다시 작성해야 하는 내용은 다음과 같습니다. Ablation 실험

  • Module ablation

CG-LoRA 및 AMA loss의 기능을 깊이 이해하기 위해 논문에서 각 모듈을 개별적으로 추가하여 그 영향을 평가하는 절제 연구입니다. 그림 7에서 볼 수 있듯이 절제 결과는 X-Dreamer에서 CG-LoRA를 제외하면 생성된 3D 개체의 형상 및 외관 품질이 크게 저하되는 것을 보여줍니다.

또한 X-Dreamer의 누락된 AMA 손실은 생성된 3D 자산의 형상 및 외관 충실도에 해로운 영향을 미칩니다. 이를 다시 작성해야 합니다. 절제 실험은 생성된 3D 개체의 형상, 모양 및 전반적인 품질을 향상시키는 데 있어 CG-LoRA 및 AMA 손실의 개별 기여에 대한 귀중한 조사를 제공합니다.

X-Dreamer는 차원의 벽을 뛰어넘어 2D와 3D 생성 분야를 통합하여 고품질 텍스트를 3D 생성에 도입합니다.

그림 7 X-Dreamer의 절제 연구.

  • AMA 손실이 있는 것과 없는 Attention Map의 비교

AMA 손실을 도입하는 목적은 잡음 제거 과정에서 전경 객체에 주의를 집중시키는 것입니다. 이는 SD의 주의 지도를 3D 객체의 렌더링 마스크와 정렬함으로써 달성됩니다. 이 목표를 달성하는 데 있어 AMA 손실의 효과를 평가하기 위해 본 논문에서는 기하학 학습 단계와 모양 학습 단계에서 각각 AMA 손실이 있는 SD와 없는 SD의 주의 지도를 비교합니다

그림 8에서 볼 수 있듯이 AMA를 추가하면 손실을 통해 생성된 3D 자산의 형상과 모양이 향상될 뿐만 아니라 SD가 특히 전경 개체 영역에 주의를 집중할 수 있습니다. 시각화 결과는 SD 주의를 유도하는 데 있어 AMA 손실의 효과를 확인하여 기하학 및 모양 학습 단계의 품질과 전경 객체의 초점을 향상시킵니다.

X-Dreamer는 차원의 벽을 뛰어넘어 2D와 3D 생성 분야를 통합하여 고품질 텍스트를 3D 생성에 도입합니다.

다시 작성해야 할 사항은 다음과 같습니다. 그림 8은 AMA 손실이 있거나 없는 힘 플롯, 렌더 마스크 및 렌더링된 이미지의 시각화 결과

이 연구에서는 X-Dreamer라는 획기적인 프레임워크를 소개합니다. 텍스트-3D 생성을 향상시키기 위한 생성입니다. 이 목표를 달성하기 위해 이 논문에서는 먼저 3차원 관련 정보(방향 인식 텍스트 및 카메라 매개변수 포함)를 사전 훈련된 안정 확산(SD) 모델에 통합하는 모듈인 CG-LoRA를 제안합니다. 이를 통해 본 논문은 3차원 영역과 관련된 정보를 효과적으로 포착할 수 있다. 또한 본 논문에서는 SD로 생성된 주의 지도를 3D 객체의 렌더링 마스크와 정렬하기 위해 AMA 손실을 설계합니다. AMA 손실의 주요 목표는 텍스트의 초점을 전경 개체 생성 방향으로 3D 모델로 안내하는 것입니다. 광범위한 실험을 통해 이 논문은 제안된 방법의 효율성을 종합적으로 평가하고 X-Dreamer가 주어진 텍스트 프롬프트를 기반으로 고품질의 사실적인 3D 콘텐츠를 생성할 수 있음을 보여줍니다

위 내용은 X-Dreamer는 차원의 벽을 뛰어넘어 2D와 3D 생성 분야를 통합하여 고품질 텍스트를 3D 생성에 도입합니다.의 상세 내용입니다. 자세한 내용은 PHP 중국어 웹사이트의 기타 관련 기사를 참조하세요!

성명:
이 기사는 51cto.com에서 복제됩니다. 침해가 있는 경우 admin@php.cn으로 문의하시기 바랍니다. 삭제