2024 年5 月,DreamTech 官方宣布了其高品質3D 生成大模型Direct3D,並公開了相關學術論文Direct3D: Scalable Image-to-3D Generation via 3D Latent Diffusion Transformer。
連結:https://arxiv.org/abs/2405.14832這是第一個公開發布的原生三維生成路線的3D 大模型,透過採用3D Diffusion Transformer (3D-DiT),解決了長期以來困擾業界的高品質三維內容生成難題。
此前,3D AIGC 通常採用的技術路線是2D-to-3D lifting,即透過2D 圖像模型升維得到3D 模型,代表性方案包括早期以Google 公司提出的DreamFusion 為代表的Score Distillation Sampling (SDS) ,以及以Adobe 公司提出的Instant3D 為代表的Large Reconstruction Model (LRM)。雖然 3D 資料被逐步引入模型訓練過程以提升質量,但 2D 升維技術存在多頭多面、空腔、遮擋等固有問題,現有解決方案難以滿足商業應用對通用三維產生的要求。
去年初,業內部分人員開始嘗試原生3D 路線,即不經過中間的多視角2D 圖片或多視角迭代優化直接獲得3D 模型,這條技術路線可以避開2D 升維的缺陷,展現了獲取高品質、無畸形、無殘缺、可商用3D 內容的潛力。原生3D 路線在原理上相較2D 升維方法具有顯著的優勢,然而,其模型訓練及演算法開發一直存在諸多挑戰,其中最關鍵的問題有:
-
###################################################### ##高效的3D 模型表徵###:影像和視訊可以直接透過2D/2.5D 的矩陣表徵壓縮獲得latent feature,相較之下, 3D 資料拓撲複雜、表徵維度更高。如何對三維資料進行高效壓縮,進而對 3D latent space 進行三維資料分佈的分析與學習,是一直困擾產業人員的難題。 ###############高效的3D 訓練架構###: DiT 架構最先應用在影像產生領域並取得了巨大成功,包括Stable Diffusion 3 (SD3)、Hunyuan-DiT都採用了DiT 架構;在視訊生成領域,OpenAI SORA 採用DiT 架構成功實現遠超Runway 和Pika 的視訊生成效果;而在3D 生成領域,受限於複雜拓撲與三維表徵方法,原始的DiT 架構無法直接應用於3D mesh 生成。 ###############高品質大規模3D 訓練資料###: 3D 訓練資料的品質和規模直接決定了產生模型的品質及泛化能力,業界普遍認為至少需要千萬規模的高品質3D 訓練資料才可以達到3D 大模型的訓練要求。然而3D 資料在全世界範圍內都極其缺乏,儘管有諸如ObjaverseXL 這樣千萬規模級別的3D 訓練資料集,但其中絕大多數都是低品質的簡單結構,可用的高品質3D 資料佔比不足5 %。如何獲得足夠數量的高品質的 3D 數據是一個世界性的難題。 #####################針對上述核心難題,DreamTech 提出了全球首個原生 3D-DiT 大模式 Direct3D。透過廣泛的實驗驗證,Direct3D 的三維模型生成品質顯著超越了目前主流的2D 升維方法,這主要得益於以下三點:###############D3D-VAE ###: Direct3D 提出了類似OpenAI SORA 的3D VAE (Variational Auto-Encoder) 來提取3D 資料的latent feature,將3D 資料的表徵複雜度從原本的N^3 降低到了n^2 (n<< N) 的緊湊3D latent space,並透過decoder 網路實現了對原始3D mesh 近乎無損的恢復。透過使用 3D latent feature,Direct3D 將原本訓練 3D-DiT 的運算和記憶體需求量降低了超過兩個數量級,使得大規模 3D-DiT 模型訓練成為了可能。 ###
D3D-DiT: Direct3D 採用了DiT 架構並對原始DiT 進行了改進優化,引入了針對輸入圖像的語義級與像素級對齊模組,可實現輸出模型與任意輸入影像的高度對齊。
DreamTech 3D 數據引擎: Direct3D 在訓練中使用了大量高品質3D 數據,這些數據絕大部分由DreamTech 自研的數據合成引擎製作而成。 DreamTech 合成引擎建立了數據清洗、標註等全自動數據處理流程,已累積生產了超過 2000 萬的高品質 3D 數據,補全了原生 3D 演算法落地的最後一塊拼圖。值得一提的是,OpenAI 在2023 年 Shap-E 和Point-E 的訓練過程中嘗試使用了百萬規模的3D 合成數據,而對比OpenAI 的數據合成方案,DreamTech 合成的3D 數據規模更大,且品質更高。
#技術架構上,Direct3D 採用與OpenAI SORA 相似的Diffusion Transformer (DiT)。 DiT 架構是目前最先進的AIGC 大模型架構,結合了Diffusion 與Transformer 兩大架構的優勢,滿足可擴展(Scalable)的要求,即提供給模型更多的數據量及更多的大模型參數量, DiT 可達到甚至超越人類的生成品質。目前DiT 技術的實作項目包括影像產生方向上的Stable Diffusion 3 (Stablility AI,2024 年2 月)、Hunyuan-DiT (騰訊,2024 年5 月),影片產生方向上的SORA (OpenAI, 2024 年2 月),DreamTech 的Direct3D 則是全球首個公開的3D 內容生成方向上的DiT 實踐。 DiT 架構符合併多次驗證了 Scaling Law。
在大語言模型上,Scaling Law 已充分證明了有效性,隨著參數量和訓練資料的增加,大模型的智慧程度將極大提高;在影像生成領域上,從SD1 的參數量0.8B 到SD3 的8B, Dall-E 3 參數量12B,都展示了Scaling Law 的有效性;在視頻生成領域,SORA 相比Runway、Pika 等,據推測其技術實現上主要是將模型架構換成了DiT,以及在模型參數量與訓練資料上都提升了一個數量級,展示了震驚世界的生成效果,無論是視頻分辨率、視頻時長還是視頻生成質量都得到了極大提升。 3D 領域也是如此,Direct3D-1B 向業界展示了首個可行的原生3D-DiT 架構,利用自研的高品質數據合成引擎,增加訓練數據量及增大模型參數量,生成結果穩定提升,未來3D 生成領域將由Direct3D (或其衍生架構) 完全取代現有的LRM 或SDS 方案。目前,DreamTech 團隊正在穩步推進 Direct3D 的 scale up,計劃年底前推出 15B 參數的 Direct3D-XL,同時將訓練模型的高品質 3D 資料增加 5 倍以上,3D 生成屆時將迎來里程碑時刻。 隨著Direct3D 的推出,3D生成領域大步跨越進入了商用時代。以3D 列印為例,使用SDS、LRM 等技術方案產生的模型都會存在以下問題:
模型幾何結構扭曲,容易出現多頭多尾;
#模型存在著許多尖銳的毛邊;
- ##表面過度平滑,缺少細節;
- mesh 面片數少,精細結構無法保證。
這些問題的存在導致先前各類方案產生的模型無法在 3D 列印機中正常列印,還需要手動進行調整修補。 Direct3D 因為採取的是原生 3D 技術路線,訓練集中僅使用 3D 數據,其所產生的 3D 模型質量也更接近原始質量,完美解決了幾何結構、模型精度、表面細節、mesh 面片數量等核心問題。 Direct3D 所產生的模型品質已經超出了家用印表機的精度上限,只有更高規格的商用及工業印表機才能充分還原所產生模型的精細度。
先前, SDS、LRM 等技術方案受限於3D 模型特徵表達形式,一般生成的模型mesh 面片數都在5-20 萬左右,且很難再提高,然而在商業使用中,3D 模型的mesh 面片數量往往需要達到100-500 萬以上。 Direct3D 提出了更精細的 3D 特徵表達式範式,使得所產生的模型 mesh 面片數沒有上限,可以達到並超過 1000 萬,滿足各類商業場景需求。 隨著Direct3D 模型參數量及訓練資料量的增加,3D 產生可以應用到的產業會越來越多,包括萬億等級的遊戲、動畫產業,預計在2025 年底之前,3D 生成將實現大部分遊戲、動畫、影視建模的替代工作,在各行業大規模投入使用。 基於Direct3D 大模型,DreamTech 推出了兩款嚐鮮產品,目前已經開放申請測驗(點擊閱讀原文,跳轉:www.neural4d.com)。 其一是C 端使用者的Animeit!,Animeit! 可將使用者輸入的任意圖片/ 文字物件轉換為二次元風格的高品質3D 人物形象,且3D 人物具備骨骼節點以用於動作綁定,在Animeit! 上使用者可以與個人化的3D AI 夥伴直接對話並進行動作互動。 Animeit! 所產生的二次元角色精細度極高,臉部輪廓細節清晰可辨,手部細節凸顯、手指粒粒分明,這是先前的3D 生成技術路線無法達到的品質水平,已可用於二次元社群MMD 製作。 另一款產品則為創作者的3D 內容創作平台,使用者可以像使用Midjourney 這類平台一樣,透過文字描述在1 分鐘內獲得高品質3D 模型,不需要等待長時間的refinement;使用者也可以只上傳單張圖片,稍作等待即可獲得高品質且還原精準的3D 模型。 #DreamTech 深耕3D AI 技術領域,致力於用創新的產品和服務提升全球AIGC 創作者及消費者的使用體驗,公司的願景是利用先進的AI 技術打造與真實世界無縫對接、即時互動的4D 時空體驗,並透過模擬真實世界的複雜性和多樣性實現通用人工智慧(AGI)。 DreamTech 匯集了全球頂尖的 AI 人才,其創始團隊由英國兩院院士、國家級青年人才以及多位深圳市高層次人才組成。公司的核心成員畢業於牛津大學、香港中文大學、香港科技大學等世界知名學府,並曾在蘋果、騰訊、百度等行業領先企業任職,創始團隊成員曾成功創立多家成為3D 領域標竿的公司,這些公司後被蘋果、谷歌、博世等業界巨頭收購。
以上是3D 版 SORA 來了! DreamTech 推出全球首個原生 3D-DiT 大模型 Direct3D的詳細內容。更多資訊請關注PHP中文網其他相關文章!