집 >기술 주변기기 >일체 포함 >SORA의 3D 버전이 나왔습니다! 드림텍, 세계 최초 네이티브 3D-DiT 대형 모델 Direct3D 출시

SORA의 3D 버전이 나왔습니다! 드림텍, 세계 최초 네이티브 3D-DiT 대형 모델 Direct3D 출시

王林원래의: 2024-06-18 09:57:211106검색

드림텍은 2024년 5월 고품질 3D 세대 대형 모델 Direct3D를 공식 발표하고 관련 학술 논문 Direct3D: Scalable Image-to-3D Generation via 3D Latent Diffusion Transformer를 발표했습니다.

3D 版 SORA 来了！DreamTech 推出全球首个原生 3D-DiT 大模型 Direct3D

링크: https://arxiv.org/abs/2405.14832

이것은 3D Diffusion Transformer(3D-DiT)를 사용하여 최초로 공개된 네이티브 3D 생성 경로의 3D 대형 모델입니다. 오랫동안 업계를 괴롭혀온 고품질 3D 콘텐츠 생성 문제를 해결합니다.

3D 版 SORA 来了！DreamTech 推出全球首个原生 3D-DiT 大模型 Direct3D

기본 3D 기술 경로를 고수하고 혁신을 달성하세요

이전에는 3D AIGC에서 일반적으로 채택한 기술 경로는 2D에서 3D 리프팅이었습니다. 초기 솔루션으로는 Google이 제안한 DreamFusion으로 대표되는 SDS(Score Distillation Sampling)와 Adobe가 제안한 Instant3D로 대표되는 LRM(Large Reconstruction Model)이 있습니다. 품질을 향상시키기 위해 3D 데이터가 모델 훈련 과정에 점진적으로 도입되고 있지만, 2D 차원 향상 기술은 다중 머리와 면, 공동, 폐색 등의 고유한 문제를 가지고 있으며 기존 솔루션은 일반 3D 생성을 위한 상용 응용 프로그램의 요구 사항을 충족하기 어렵습니다.

3D 版 SORA 来了！DreamTech 推出全球首个原生 3D-DiT 大模型 Direct3D

작년 초부터 업계 일부 사람들은 중간 다시점 2D 사진이나 다시점 반복 최적화를 거치지 않고 직접 3D 모델을 얻는 네이티브 3D 경로를 시도하기 시작했습니다. 기술적 경로를 통해 2D 차원 향상의 단점을 피할 수 있으며 왜곡이 없고 불완전하며 상업적으로 사용 가능한 고품질 3D 콘텐츠를 얻을 수 있는 잠재력을 보여줄 수 있습니다. 원칙적으로 기본 3D 경로는 2D 차원 향상 방법에 비해 상당한 이점을 가지고 있습니다. 그러나 모델 교육 및 알고리즘 개발에는 항상 많은 과제가 있었습니다. 가장 중요한 문제는 다음과 같습니다.

효율적인 3D 모델 표현: 이미지 및 비디오 2D/2.5D 매트릭스 표현 압축을 통해 잠재 특징을 직접 얻을 수 있는 반면, 3D 데이터는 복잡한 토폴로지와 더 높은 표현 차원을 갖습니다. 3D 데이터를 효율적으로 압축한 후 3D 잠재 공간에서 3D 데이터의 분포를 분석하고 학습하는 방법은 항상 업계 종사자들을 괴롭혀온 문제입니다.
효율적인 3D 훈련 아키텍처: DiT 아키텍처는 이미지 생성 분야에서 처음으로 적용되었으며 Stable Diffusion 3(SD3) 및 Hunyuan-DiT를 포함하여 모두 DiT 아키텍처를 사용했습니다. OpenAI SORA는 DiT 아키텍처를 사용하여 3D 생성 분야에서 Runway 및 Pika를 훨씬 능가하는 비디오 생성 효과를 성공적으로 달성했습니다. 복잡한 토폴로지 및 3차원 표현 방법으로 인해 원래 DiT 아키텍처를 직접 적용할 수 없습니다. 3D 메쉬 생성으로.
고품질의 대규모 3D 훈련 데이터: 3D 훈련 데이터의 품질과 규모는 생성된 모델의 품질과 일반화 능력을 직접적으로 결정합니다. 일반적으로 업계에서는 최소 수천만 개가 넘는 것으로 알려져 있습니다. 고품질 3D 교육 데이터가 필요합니다. 3D 대형 모델의 교육 요구 사항을 충족하세요. 그러나 3D 데이터는 전 세계적으로 극히 부족합니다. ObjaverseXL 등 수천만 개의 3D 훈련 데이터 세트가 있지만 대부분은 품질이 낮은 단순 구조이며 사용 가능한 고품질 3D 데이터는 5% 미만입니다. . 충분한 양의 고품질 3D 데이터를 확보하는 방법은 전 세계적인 문제입니다.

3D 版 SORA 来了！DreamTech 推出全球首个原生 3D-DiT 大模型 Direct3D

위의 핵심 문제에 대응하여 드림테크는 세계 최초 네이티브 3D-DiT 대형 모델 Direct3D를 제안했습니다. 광범위한 실험 검증을 통해 Direct3D의 3D 모델 생성 품질은 현재 주류인 2D 차원 방법을 크게 능가하며 주로 다음 세 가지 이점을 얻습니다.

D3D-VAE: Direct3D는 OpenAI SORA VAE와 유사한 3D 모델을 제안합니다. (Variational Auto-Encoder)는 3D 데이터의 잠재 특징을 추출하는 데 사용되며, 3D 데이터의 표현 복잡성을 원래 N^3에서 n^2(n<
D3D-DiT: Direct3D는 DiT 아키텍처를 채택하고 원본 DiT를 개선하고 최적화합니다. 입력 이미지에 대한 의미 수준 및 픽셀 수준 정렬 모듈을 도입하여 모든 입력 이미지와 출력 모델의 높은 정렬을 달성할 수 있습니다. .
DreamTech 3D 데이터 엔진: Direct3D는 훈련에 대량의 고품질 3D 데이터를 사용하며, 대부분은 드림텍이 자체 개발한 데이터 합성 엔진에서 생성됩니다. 드림텍 합성 엔진은 데이터 클리닝, 주석 등 전자동 데이터 처리 프로세스를 구축하고 2천만 개가 넘는 고품질 3D 데이터를 축적, 생산해 네이티브 3D 알고리즘 구현을 위한 퍼즐의 마지막 조각을 완성했습니다. OpenAI가 2023년 Shap-E와 Point-E의 훈련 과정에서 수백만 개의 3D 합성 데이터를 사용하려고 시도했다는 점은 언급할 가치가 있습니다. OpenAI의 데이터 합성 솔루션에 비해 DreamTech에서 합성한 3D 데이터는 규모가 더 크고 품질도 더 높습니다. .

DiT 아키텍처 채택

3D 분야에서 Scaling Law를 다시 한 번 검증했습니다.

Direct3D는 기술 아키텍처 측면에서 OpenAI SORA와 유사한 DiT(Diffusion Transformer)를 사용합니다. DiT 아키텍처는 현재 가장 발전된 AIGC 대형 모델 아키텍처로, 확장성 요구 사항을 충족하기 위해 Diffusion과 Transformer라는 두 가지 주요 아키텍처의 장점을 결합합니다. 즉, 모델에 더 많은 데이터와 더 큰 모델 매개변수를 제공합니다. 인간의 생성 품질을 달성하거나 초과할 수도 있습니다. 현재 DiT 기술 실용 프로젝트로는 이미지 생성 방향의 Stable Diffusion 3(Stablility AI, 2024년 2월), Hunyuan-DiT(Tencent, 2024년 5월), 비디오 생성 방향의 SORA(OpenAI, 2024년 2월) 등이 있습니다. , 드림텍의 Direct3D는 3D 콘텐츠 생성 방향에 대한 세계 최초의 공개 DiT 실행입니다.

DiT 아키텍처는 Scaling Law를 준수하고 여러 번 검증되었습니다.

3D 版 SORA 来了！DreamTech 推出全球首个原生 3D-DiT 大模型 Direct3D

스케일링 법칙은 매개 변수 및 훈련 데이터의 수가 증가함에 따라 SD1의 매개 변수에서 이미지 생성 분야에서 큰 모델의 지능이 크게 향상됩니다. SORA의 크기는 SD3의 0.8B ~ 8B이고 Dall-E 3의 매개변수 크기는 12B입니다. 이는 모두 Runway, Pika 등과 비교하여 비디오 생성 분야에서 스케일링 법칙의 효율성을 입증합니다. 기술 구현에는 주로 모델 아키텍처 변경이 포함되며 모델 매개변수 및 교육 데이터가 대폭 개선되어 비디오 해상도, 비디오 지속 시간 또는 세계적으로 충격적인 생성 효과를 입증한 것으로 추측됩니다. 비디오 생성 품질이 크게 향상되었습니다.

3D 분야에서도 마찬가지입니다. Direct3D-1B는 자체 개발한 고품질 데이터 합성 엔진을 사용하여 훈련 데이터와 모델의 양을 늘리는 업계 최초의 실현 가능한 네이티브 3D-DiT 아키텍처를 보여줍니다. 지속적으로 개선되면서 미래의 3D 생성 분야는 Direct3D(또는 파생 아키텍처)의 기존 LRM 또는 SDS 솔루션으로 완전히 대체될 것입니다. 현재 드림텍 팀은 Direct3D의 스케일업을 꾸준히 추진하고 있으며, 연말 이전에 15B 매개변수를 갖춘 Direct3D-XL을 출시할 계획입니다. 동시에 훈련 모델을 위한 고품질 3D 데이터를 더욱 늘릴 예정입니다. 3D 세대는 획기적인 순간을 맞이하게 될 것입니다.

3D 콘텐츠 생성 품질이 상용 수준에 도달했습니다

Direct3D 출시로 3D 생성 분야는 상용 시대로 큰 도약을 이루었습니다. 3D 프린팅을 예로 들면, SDS 및 LRM과 같은 기술 솔루션을 사용하여 생성된 모델에는 다음과 같은 문제가 있습니다.

모델의 기하학적 구조가 왜곡되고 긴 머리와 꼬리가 발생하기 쉽습니다.
모델에 날카로운 버가 많습니다.
표면이 지나치게 매끄럽고 디테일이 부족합니다.
메쉬에 패치 수가 적고 미세한 구조를 보장할 수 없습니다.

이러한 문제로 인해 이전의 다양한 솔루션으로 생성된 모델이 3D 프린터에서 정상적으로 인쇄될 수 없으며 수동 조정 및 수리가 필요해졌습니다. Direct3D는 기본 3D 기술 경로를 채택하고 훈련 세트의 3D 데이터만 사용하기 때문에 생성되는 3D 모델의 품질은 원래 품질에 더 가깝고 기하학적 구조, 모델 정확도, 표면 세부 사항과 같은 핵심 문제를 완벽하게 해결합니다. 메쉬 패치 수. Direct3D로 생성된 모델의 품질은 가정용 프린터의 정확도 상한을 초과했습니다. 더 높은 사양을 갖춘 상업용 및 산업용 프린터만이 생성된 모델의 정밀도를 완전히 복원할 수 있습니다.

3D 版 SORA 来了！DreamTech 推出全球首个原生 3D-DiT 大模型 Direct3D

이전에는 SDS, LRM 등의 기술 솔루션이 3D 모델 기능의 표현 형태에 제한을 두었습니다. 일반적으로 생성되는 모델 메쉬 패치 수는 50,000~200,000개 정도였으며, 상업적인 용도에서는 이를 늘리기가 어려웠습니다. 3D 모델의 메쉬 반죽 조각의 수는 종종 100만~500만 개 이상에 도달해야 합니다. Direct3D는 보다 세련된 3D 기능 표현 패러다임을 제안하여 생성된 모델 메쉬 수에 상한이 없으며 1,000만개를 초과할 수 있어 다양한 비즈니스 시나리오의 요구 사항을 충족합니다.

Direct3D 모델 매개변수와 훈련 데이터의 양이 증가함에 따라 3D 생성은 2025년 말 이전에 조 단위 수준의 게임 및 애니메이션 산업을 포함하여 점점 더 많은 산업에 적용될 것으로 예상됩니다. 3D 생성은 대부분의 게임, 애니메이션, 영화 및 TV 모델링의 대체 작업을 실현하고 다양한 산업 분야에서 대규모로 활용될 것입니다.

Direct3D Practice

드림텍에서는 Direct3D 대형 모델을 기반으로 2개의 얼리 어답터 제품을 출시했으며 현재 애플리케이션 테스트를 진행 중입니다. (원문을 읽으려면 클릭하세요. www. Neural4d.com).

One은 C측 사용자를 위한 Animeit!입니다. Animeit!은 사용자가 입력한 모든 이미지/텍스트 개체를 2차원 스타일의 고품질 3D 캐릭터 이미지로 변환할 수 있으며, 3D 캐릭터에는 골격 노드가 있습니다. 액션 바인딩을 위해 Animeit! 사용자는 맞춤형 3D AI 파트너와 직접 대화하고 상호 작용할 수 있습니다.

Animeit이 생성한 2차원 캐릭터는 명확하게 식별 가능한 얼굴 윤곽 디테일, 눈에 띄는 손 디테일, 뚜렷한 손가락 등으로 매우 정확합니다. 이는 이전 3D 세대 기술로는 이미 달성할 수 없는 수준입니다. 2D 커뮤니티의 MMD 제작을 위한 것입니다.

3D 版 SORA 来了！DreamTech 推出全球首个原生 3D-DiT 大模型 Direct3D

또 다른 제품은 크리에이터를 위한 3D 콘텐츠 제작 플랫폼입니다. 사용자는 Midjourney와 같은 플랫폼을 사용하는 것처럼 기다림 없이 텍스트 설명을 통해 1분 안에 고품질의 3D 모델을 얻을 수 있습니다. 사용자는 또한 단일 이미지만 업로드하고 잠시 기다려 고품질의 정확하게 복원된 3D 모델을 얻을 수도 있습니다.

드림테크 소개

드림텍은 3D AI 기술 분야에 깊이 관여하고 있으며 혁신적인 제품과 서비스를 사용하여 글로벌 AIGC 창작자와 소비자의 경험을 향상시키는 데 전념하고 있습니다. 첨단 AI 활용 현실 세계와 유기적으로 연결되어 실시간으로 상호작용하는 4D 시공간 경험을 창출하고, 현실 세계의 복잡성과 다양성을 시뮬레이션해 일반 인공지능(AGI)을 구현하는 기술이다.

DreamTech는 세계 최고의 AI 인재들을 한자리에 모았고, 창립팀은 영국 아카데미와 과학 아카데미의 학자들, 국가 수준의 젊은 인재들, 선전의 많은 고급 인재들로 구성되어 있습니다. 회사의 핵심 구성원은 옥스포드 대학, 홍콩 중문 대학, 홍콩 과학 기술 대학 등 세계적으로 유명한 대학을 졸업하고 Apple, Tencent, Baidu 등 업계 선두 기업에서 근무했습니다. 창립 팀원들은 3D 분야의 벤치마크가 된 여러 회사를 성공적으로 설립했습니다. 이러한 회사는 나중에 Apple, Google 및 Bosch와 같은 업계 거대 기업에 인수되었습니다.

위 내용은 SORA의 3D 버전이 나왔습니다! 드림텍, 세계 최초 네이티브 3D-DiT 대형 모델 Direct3D 출시의 상세 내용입니다. 자세한 내용은 PHP 중국어 웹사이트의 기타 관련 기사를 참조하세요!

架构 auto 对象算法人工智能 transformer stable diffusion DreamFusion https AIGC midjourney agi

성명：

이전 기사：Lu Xun이 텅 트위스터를 말하고 Hepburn이 힙합을 연주하게 하세요. 또 다른 비디오 모델은 입소문이 났고 스탠포드 출신의 중국인 의사가 설립했습니다.다음 기사：Lu Xun이 텅 트위스터를 말하고 Hepburn이 힙합을 연주하게 하세요. 또 다른 비디오 모델은 입소문이 났고 스탠포드 출신의 중국인 의사가 설립했습니다.