상하이 과학 기술 대학 등이 DreamFace 출시: 텍스트만으로 '초현실적인 3D 디지털 인간'을 생성할 수 있음-일체 포함-php.cn

집

기술 주변기기

일체 포함

상하이 과학 기술 대학 등이 DreamFace 출시: 텍스트만으로 '초현실적인 3D 디지털 인간'을 생성할 수 있음

王林

May 17, 2023 am 08:02 AM

디지털 맨

대형 언어 모델(LLM), 확산(Diffusion) 등 기술의 발전으로 ChatGPT, Midjourney 등의 제품 탄생으로 새로운 AI 열풍이 불었고, 생성 AI도 큰 화제가 되었습니다. 우려.

텍스트나 이미지와 달리 3D세대는 아직 기술 탐구 단계입니다.

2022년 말 구글, 엔비디아, 마이크로소프트가 잇달아 자체 3D 생성 작품을 출시했지만, 대부분이 고급 NeRF(Neural Radiation Field) 암시적 표현을 기반으로 하고 있으며 Unity 등 산업용 3D 소프트웨어와 호환되지 않습니다. , Unreal Engine 및 Maya가 호환되지 않습니다.

기존 솔루션을 통해 Mesh로 표현된 기하학적 맵과 컬러맵으로 변환하더라도 정확도가 부족하고 시각적 품질이 저하되어 영화 및 TV 제작과 게임 제작에 직접 적용할 수 없습니다.

상하이 과학 기술 대학 등이 DreamFace 출시: 텍스트만으로 초현실적인 3D 디지털 인간을 생성할 수 있음

프로젝트 웹사이트: https://sites.google.com/view/dreamface

논문 주소: https://arxiv.org/abs/2304.03117

웹 데모: https://hyperhuman.top

HuggingFace Space: https://huggingface.co/spaces/DEEMOSTECH/ChatAvatar

이러한 문제를 해결하기 위해 Yingmo Technology와 상하이 과학 기술 대학의 R&D 팀은 텍스트 기반의 프로그레시브 3D 생성 프레임워크를 제안했습니다.

이 프레임워크는 CG 제작 표준을 준수하는 외부 데이터 세트(지오메트리 및 PBR 재질 포함)를 도입하고, 텍스트를 기반으로 이 표준을 준수하는 3D 자산을 직접 생성할 수 있는 Production-Ready 3D를 지원하는 최초의 프레임워크입니다. 자산 생성.

텍스트 생성 기반 3D 초현실적 디지털 휴먼을 달성하기 위해 팀은 이 프레임워크를 프로덕션급 3D 디지털 휴먼 데이터 세트와 결합했습니다. 본 작품은 컴퓨터 그래픽 분야 최고 국제 저널인 Transactions on Graphics에 게재 승인을 받았으며, 최고의 국제 컴퓨터 그래픽 컨퍼런스인 SIGGRAPH 2023에서 발표될 예정입니다.

DreamFace에는 주로 기하학 생성, 물리 기반 재료 확산 및 애니메이션 기능 생성의 세 가지 모듈이 포함되어 있습니다.

이전 3D 생성 작업과 비교하여 이 작업의 주요 기여는 다음과 같습니다.

· 최신 시각적 언어 모델과 애니메이션 가능한 물리적 자료를 결합한 새로운 생성 방식인 DreamFace를 제안합니다. 형상, 모양 및 애니메이션 기능을 분리하는 점진적인 학습입니다.

· 잠재 공간과 이미지 공간에서 2단계 최적화를 수행하는 동시에 새로운 물질 확산 모델과 사전 훈련된 모델을 결합하는 이중 채널 모양 생성 설계를 소개합니다.

· BlendShapes 또는 생성된 Personalized BlendShapes를 사용하는 얼굴 자산은 애니메이션화되며 자연스러운 캐릭터 디자인을 위해 DreamFace를 사용하는 방법을 추가로 보여줍니다.

기하학 생성

기하학 생성 모듈은 텍스트 프롬프트를 기반으로 일관된 기하학적 모델을 생성할 수 있습니다. 그러나 얼굴 생성의 경우 이를 감독하고 수렴하기가 어려울 수 있습니다.

따라서 DreamFace는 CLIP(Contrastive Language-Image Pre-Training) 기반의 선택 프레임워크를 제안합니다. 이 프레임워크는 먼저 얼굴 기하학적 매개변수 공간 내에서 무작위로 샘플링된 후보 중에서 가장 좋은 대략적인 기하학적 모델을 선택한 다음 기하학적 세부 사항을 조각하여 머리 모델이 텍스트 단서와 더 일치합니다.

상하이 과학 기술 대학 등이 DreamFace 출시: 텍스트만으로 초현실적인 3D 디지털 인간을 생성할 수 있음

DreamFace는 입력 프롬프트를 기반으로 CLIP 모델을 사용하여 일치 점수가 가장 높은 대략적인 기하학 후보를 선택합니다. 다음으로 DreamFace는 암시적 확산 모델(LDM)을 사용하여 임의의 시야각 및 조명 조건에서 렌더링된 이미지에 대해 SDS(Scored Distillation Sampling) 처리를 수행합니다.

이를 통해 DreamFace는 정점 변위 및 상세한 노멀 맵을 통해 대략적인 기하학 모델에 얼굴 세부 정보를 추가하여 매우 상세한 기하학을 얻을 수 있습니다.

머리 모델과 마찬가지로 DreamFace도 이 프레임워크를 기반으로 헤어스타일과 색상을 선택합니다.

물리 기반 재료 확산 생성

물리 기반 재료 확산 모듈은 예측된 기하학 및 텍스트 단서와 일치하는 얼굴 질감을 예측하도록 설계되었습니다.

먼저 DreamFace는 수집된 대규모 UV 재료 데이터 세트에 대해 사전 훈련된 LDM을 미세 조정하여 두 개의 LDM 확산 모델을 얻었습니다.

상하이 과학 기술 대학 등이 DreamFace 출시: 텍스트만으로 초현실적인 3D 디지털 인간을 생성할 수 있음

DreamFace는 두 가지 확산 프로세스를 조정하는 공동 훈련 체계를 사용합니다. 하나는 UV 텍스처 맵을 직접 제거하고 다른 하나는 렌더링된 이미지를 감독하여 얼굴 UV 맵과 렌더링된 이미지가 올바른지 확인하는 것입니다. of는 텍스트 프롬프트와 일치합니다.

생성 시간을 단축하기 위해 DreamFace는 거친 질감 잠재력 확산 단계를 채택하여 세부적인 질감 생성에 대한 선험적 잠재력을 제공합니다.

상하이 과학 기술 대학 등이 DreamFace 출시: 텍스트만으로 초현실적인 3D 디지털 인간을 생성할 수 있음

생성된 텍스처 맵에 바람직하지 않은 기능이나 조명 상황이 포함되지 않도록 하면서 다양성을 유지하기 위해 단서 학습 전략이 설계되었습니다.

팀에서는 고품질 확산 맵을 생성하기 위해 두 가지 방법을 사용합니다.

(1) 프롬프트 조정. 손으로 제작한 도메인별 텍스트 큐와 달리 DreamFace는 두 개의 도메인별 연속 텍스트 큐 Cd 및 Cu를 해당 텍스트 큐와 결합합니다. 이는 U-Net 디노이저 훈련 중에 최적화되어 불안정성과 시간 소모적인 프롬프트 수동 작성을 방지합니다.

(2) 비얼굴 부위 마스킹. LDM 노이즈 제거 프로세스는 결과 확산 맵에 원치 않는 요소가 포함되지 않도록 얼굴이 아닌 영역 마스크로 추가로 제한됩니다.

상하이 과학 기술 대학 등이 DreamFace 출시: 텍스트만으로 초현실적인 3D 디지털 인간을 생성할 수 있음

DreamFace는 마지막 단계로 초해상도 모듈을 적용하여 고품질 렌더링을 위한 4K 물리적 기반 텍스처를 생성합니다.

상하이 과학 기술 대학 등이 DreamFace 출시: 텍스트만으로 초현실적인 3D 디지털 인간을 생성할 수 있음

DreamFace 프레임워크는 설명을 기반으로 한 유명인 생성 및 캐릭터 생성에서 매우 좋은 결과를 얻었으며, User Study에서는 이전 작업을 훨씬 능가하는 결과를 얻었습니다. 전작과 비교해 런닝타임 측면에서도 분명한 장점이 있다.

상하이 과학 기술 대학 등이 DreamFace 출시: 텍스트만으로 초현실적인 3D 디지털 인간을 생성할 수 있음

이 외에도 DreamFace는 팁과 스케치를 사용한 텍스처 편집도 지원합니다. 미세 조정된 텍스처 LDM 및 큐를 직접 사용하여 노화 및 메이크업과 같은 전역 편집 효과를 얻을 수 있습니다. 마스크나 스케치를 더욱 조합하여 문신, 턱수염, 모반 등 다양한 효과를 연출할 수 있습니다.

상하이 과학 기술 대학 등이 DreamFace 출시: 텍스트만으로 초현실적인 3D 디지털 인간을 생성할 수 있음

애니메이션 기능 생성

상하이 과학 기술 대학 등이 DreamFace 출시: 텍스트만으로 초현실적인 3D 디지털 인간을 생성할 수 있음

DreamFace에서 생성된 모델에는 애니메이션 기능이 있습니다. BlendShapes 기반 방법과 달리 DreamFace의 신경 얼굴 애니메이션 방법은 고유한 변형을 예측하여 결과 중립 모델에 애니메이션을 적용하여 개인화된 애니메이션을 생성합니다.

먼저, 기하 생성기는 표현의 잠재 공간을 학습하도록 훈련되며, 여기서 디코더는 중립 기하를 조건으로 확장됩니다. 그런 다음 식 인코더는 RGB 이미지에서 식 특징을 추출하도록 추가로 훈련됩니다. 따라서 DreamFace는 단안 RGB 이미지를 사용하여 중립 기하학적 모양을 조건으로 개인화된 애니메이션을 생성할 수 있습니다.

표현 제어를 위해 일반적인 BlendShapes를 사용하는 DECA에 비해 DreamFace의 프레임워크는 미세한 표현 디테일을 제공하고 미세한 디테일로 퍼포먼스를 캡처할 수 있습니다.

결론

이 글에서는 최신 시각 언어 모델, 암시적 확산 모델, 물리 기반 물질 확산 기술을 결합한 텍스트 기반 프로그레시브 3D 생성 프레임워크인 DreamFace를 소개합니다.

DreamFace의 주요 혁신에는 기하학 생성, 물리적 기반 재료 확산 생성 및 애니메이션 기능 생성이 포함됩니다. 전통적인 3D 생성 방법과 비교하여 DreamFace는 더 높은 정확도, 더 빠른 실행 속도 및 더 나은 CG 파이프라인 호환성을 제공합니다.

DreamFace의 프로그레시브 생성 프레임워크는 복잡한 3D 생성 작업을 해결하기 위한 효과적인 솔루션을 제공하며 더욱 유사한 연구 및 기술 개발을 촉진할 것으로 예상됩니다.

또한 물리 기반 소재 확산 세대와 애니메이션 역량 세대를 통해 영화 및 TV 제작, 게임 개발 및 기타 관련 산업에 3D 생성 기술 적용을 촉진할 것입니다.

위 내용은 상하이 과학 기술 대학 등이 DreamFace 출시: 텍스트만으로 '초현실적인 3D 디지털 인간'을 생성할 수 있음의 상세 내용입니다. 자세한 내용은 PHP 중국어 웹사이트의 기타 관련 기사를 참조하세요!

성명

이 기사는 51CTO.COM에서 복제됩니다. 침해가 있는 경우 admin@php.cn으로 문의하시기 바랍니다. 삭제

관련 기사

10 생성 AI 코드의 생성 AI 코딩 확장 대 코드를 탐색해야합니다.Apr 13, 2025 am 01:14 AM

이봐, 코딩 닌자! 하루 동안 어떤 코딩 관련 작업을 계획 했습니까? 이 블로그에 더 자세히 살펴보기 전에, 나는 당신이 당신의 모든 코딩 관련 문제에 대해 생각하기를 원합니다. 완료? - ’

요리 혁신 요리 : 인공 지능이 식품 서비스를 변화시키는 방법Apr 12, 2025 pm 12:09 PM

AI 식품 준비 여전히 초기 사용 중이지만 AI 시스템은 음식 준비에 점점 더 많이 사용되고 있습니다. AI 구동 로봇은 부엌에서 햄버거를 뒤집기, 피자 만들기 또는 SA 조립과 같은 음식 준비 작업을 자동화하는 데 사용됩니다

파이썬 네임 스페이스 및 가변 범위에 대한 포괄적 인 안내서Apr 12, 2025 pm 12:00 PM

소개 파이썬 기능에서 변수의 네임 스페이스, 범위 및 동작을 이해하는 것은 효율적으로 작성하고 런타임 오류 또는 예외를 피하는 데 중요합니다. 이 기사에서는 다양한 ASP를 탐구 할 것입니다

비전 언어 모델 (VLMS)에 대한 포괄적 인 안내서Apr 12, 2025 am 11:58 AM

소개 생생한 그림과 조각으로 둘러싸인 아트 갤러리를 걷는 것을 상상해보십시오. 이제 각 작품에 질문을하고 의미있는 대답을 얻을 수 있다면 어떨까요? “어떤 이야기를하고 있습니까?

Mediatek은 Kompanio Ultra 및 Dimensity 9400으로 프리미엄 라인업을 향상시킵니다.Apr 12, 2025 am 11:52 AM

제품 케이던스를 계속하면서 이번 달 Mediatek은 새로운 Kompanio Ultra and Dimensity 9400을 포함한 일련의 발표를했습니다. 이 제품은 스마트 폰 용 칩을 포함하여 Mediatek 비즈니스의 전통적인 부분을 채우고 있습니다.

이번 주 AI : Walmart는 패션 트렌드를 설정하기 전에 패션 트렌드를 설정합니다.Apr 12, 2025 am 11:51 AM

#1 Google은 Agent2agent를 시작했습니다 이야기 : 월요일 아침입니다. AI 기반 채용 담당자로서 당신은 더 똑똑하지 않고 더 똑똑하지 않습니다. 휴대 전화에서 회사의 대시 보드에 로그인합니다. 세 가지 중요한 역할이 공급되고, 검증되며, 예정된 FO가 있음을 알려줍니다.

생성 AI는 사이코브블을 만난다Apr 12, 2025 am 11:50 AM

나는 당신이되어야한다고 생각합니다. 우리 모두는 Psychobabble이 다양한 심리적 용어를 혼합하고 종종 이해할 수 없거나 완전히 무의미한 모듬 채터로 구성되어 있다는 것을 알고 있습니다. 당신이 fo를 뿌리기 위해해야 할 일

프로토 타입 : 과학자들은 종이를 플라스틱으로 바꿉니다Apr 12, 2025 am 11:49 AM

이번 주 발표 된 새로운 연구에 따르면 2022 년에 제조 된 플라스틱의 9.5%만이 재활용 재료로 만들어졌습니다. 한편, 플라스틱은 계속해서 매립지와 생태계에 전 세계에 쌓이고 있습니다. 그러나 도움이 진행 중입니다. 엥인 팀

See all articles

핫 AI 도구

뜨거운 도구

mPDF는 UTF-8로 인코딩된 HTML에서 PDF 파일을 생성할 수 있는 PHP 라이브러리입니다. 원저자인 Ian Back은 자신의 웹 사이트에서 "즉시" PDF 파일을 출력하고 다양한 언어를 처리하기 위해 mPDF를 작성했습니다. HTML2FPDF와 같은 원본 스크립트보다 유니코드 글꼴을 사용할 때 속도가 느리고 더 큰 파일을 생성하지만 CSS 스타일 등을 지원하고 많은 개선 사항이 있습니다. RTL(아랍어, 히브리어), CJK(중국어, 일본어, 한국어)를 포함한 거의 모든 언어를 지원합니다. 중첩된 블록 수준 요소(예: P, DIV)를 지원합니다.