隨著電腦圖形學的發展,3D生成技術正逐漸成為研究熱點。然而,從文字或圖像生成3D模型仍然存在許多挑戰。
近期,Google、NVIDIA和微軟等公司推出了基於神經輻射場(NeRF)的3D生成方法,但這些方法與傳統的3D渲染軟體(如Unity、Unreal Engine和Maya等)存在相容性問題,限制了其在實際應用上的廣泛應用。
為此,影眼科技與上海科技大學的研發團隊提出了一種文字指導的漸進式3D生成框架,旨在解決這些問題。
根據文字描述產生3D資產
該研究團隊提出的文本指導的漸進式3D生成框架(簡稱DreamFace),結合了視覺-語言模型、隱式擴散模型和基於物理的材質擴散技術,產生符合電腦圖形製作標準的3D資產。
這個框架的創新之處在於其幾何體生成、基於物理的材質擴散生成和動畫能力生成三個模組。
這項工作已被頂級期刊Transactions on Graphics接收,並將在國際電腦圖形學頂級會議SIGGRAPH 2023上展示。
計畫網站:https://sites.google.com/view/dreamface
#預印版論文:https://arxiv.org/abs/2304.03117
Web Demo: https://hyperhuman.top
HuggingFace Space:https ://huggingface.co/spaces/DEEMOSTECH/ChatAvatar
如何實現DreamFace三大功能
DreamFace主要包括三個模組,幾何體生成,基於物理的材質擴散和動畫能力生成。相較於先前的3D生成工作,這項工作的主要貢獻包括:
- 提出了DreamFace這一新穎的生成方案,將最近的視覺-語言模型與可動畫和物理材質的面部資產結合,透過漸進式學習來分離幾何、外觀和動畫能力。
- 引入了雙通道外觀生成的設計,將一種新穎的材質擴散模型與預訓練模型相結合,同時在潛在空間和圖像空間進行兩階段優化。
- 使用BlendShapes或產生的Personalized BlendShapes的臉部資產具備動畫能力,並進一步展示了DreamFace在自然人物設計方面的應用。
幾何體產生:此模組透過CLIP(Contrastive Language-Image Pre-Training)選擇框架根據文字提示產生幾何模型。
首先從人臉幾何參數空間隨機取樣候選項,然後根據文字提示選擇匹配得分最高的粗略幾何模型。
接下來,使用隱式擴散模型(LDM)和得分蒸餾採樣(SDS)處理,從而在粗略幾何模型中添加面部細節和詳細的法線貼圖,生成高精度幾何體。
#基於物理的材質擴散產生:此模組針對預測幾何體和文本提示生成臉部紋理。首先,對LDM進行微調,得到兩個擴散模型。
然後,透過聯合訓練方案協調這兩個模型,一個用於直接去噪U紋理貼圖,另一個用於監督渲染影像。此外,還採用了提示學習策略和非臉部區域遮罩以確保產生的漫反射貼圖的品質。
最後,應用超解析度模組產生4K基於物理的紋理,以進行高品質渲染。
#動畫能力產生:DreamFace產生的模型具備動畫能力。與傳統基於BlendShapes的方法不同,該框架透過預測獨特的變形為靜止(Neutral)模型賦予動畫效果,從而產生個性化的動畫。
先訓練幾何生成器學習表情潛在空間,然後訓練表情編碼器從RGB影像中擷取表情特徵。最終,透過使用單眼RGB影像生成個人化的動畫。
5分鐘產生指定3D資產
DreamFace框架在名人生成、描述生成角色等任務上取得了良好的效果,並在使用者評估中獲得了超過先前工作的成績。
同時,與現有方法相比,運行時間上具有明顯優勢。
此外,DreamFace支援使用提示和草圖進行紋理編輯,實現全局編輯效果(如老化、化妝)和局部編輯效果(如紋身、鬍鬚、胎記)。
可用於影視、遊戲等產業
作為一種文字指導的漸進式3D生成框架,DreamFace結合了視覺-語言模型、隱式擴散模型和基於物理的材質擴散技術,實現了高精度、高效率和良好相容性的3D生成。
此框架為解決複雜的3D生成任務提供了有效解決方案,並有望推動更多類似的研究和技術發展。
此外,基於物理的材質擴散生成和動畫能力生成將推動 3D生成技術在影視製作、遊戲開發和其他相關行業的應用。
以上是五分鐘生成漫威3D數字人!美隊蜘蛛人小丑都能搞定,高清還原臉部細節的詳細內容。更多資訊請關注PHP中文網其他相關文章!

介紹 恭喜!您經營一家成功的業務。通過您的網頁,社交媒體活動,網絡研討會,會議,免費資源和其他來源,您每天收集5000個電子郵件ID。下一個明顯的步驟是

介紹 在當今快節奏的軟件開發環境中,確保最佳應用程序性能至關重要。監視實時指標,例如響應時間,錯誤率和資源利用率可以幫助MAIN

“您有幾個用戶?”他扮演。 阿爾特曼回答說:“我認為我們上次說的是每週5億個活躍者,而且它正在迅速增長。” “你告訴我,就像在短短幾週內翻了一番,”安德森繼續說道。 “我說那個私人

介紹 Mistral發布了其第一個多模式模型,即Pixtral-12b-2409。該模型建立在Mistral的120億參數Nemo 12B之上。是什麼設置了該模型?現在可以拍攝圖像和Tex

想像一下,擁有一個由AI驅動的助手,不僅可以響應您的查詢,還可以自主收集信息,執行任務甚至處理多種類型的數據(TEXT,圖像和代碼)。聽起來有未來派?在這個a


熱AI工具

Undresser.AI Undress
人工智慧驅動的應用程序,用於創建逼真的裸體照片

AI Clothes Remover
用於從照片中去除衣服的線上人工智慧工具。

Undress AI Tool
免費脫衣圖片

Clothoff.io
AI脫衣器

AI Hentai Generator
免費產生 AI 無盡。

熱門文章

熱工具

VSCode Windows 64位元 下載
微軟推出的免費、功能強大的一款IDE編輯器

SublimeText3 Linux新版
SublimeText3 Linux最新版

ZendStudio 13.5.1 Mac
強大的PHP整合開發環境

SublimeText3 英文版
推薦:為Win版本,支援程式碼提示!

Atom編輯器mac版下載
最受歡迎的的開源編輯器