隨著大型語言模型(LLM)、擴散(Diffusion)等技術的發展,ChatGPT、Midjourney等產品的誕生掀起了新一波的AI熱潮,生成式AI也成為備受關注的話題。
與文字和圖像不同,3D生成仍處於技術探索階段。
2022年底,Google、NVIDIA和微軟相繼推出了自己的3D生成工作,但大多基於先進的神經輻射場(NeRF)隱式表達,與工業界3D軟體如Unity、Unreal Engine和Maya等的渲染管線不相容。
即使透過傳統方案將其轉換為Mesh表達的幾何和色彩貼圖,也會造成精確度不足和視覺品質下降,不能直接應用於影視製作和遊戲生產。
計畫網站:https://sites.google.com/view/dreamface
#論文網址:https://arxiv.org/abs/2304.03117
Web Demo:https ://hyperhuman.top
HuggingFace Space:https://huggingface.co/spaces/DEEMOSTECH/ChatAvatar
#為了解決這些問題,來自影眼科技與上海科技大學的研發團隊提出了一種文本指導的漸進式3D生成框架。
此框架引入符合CG製作標準的外部資料集(包含幾何和PBR材質),可根據文字直接產生符合該標準的3D資產,是首個支援Production-Ready 3D資產生成的框架。
為了實現文字產生可驅動的3D超寫實數位人,該團隊將這個框架與產品級3D數位人資料集結合。這項工作已經被電腦圖形領域國際頂尖期刊Transactions on Graphics接收,並將在國際電腦圖形頂級會議SIGGRAPH 2023上展示。
DreamFace主要包括三個模組,幾何體生成,基於物理的材質擴散和動畫能力生成。
比起先前的3D生成工作,這項工作的主要貢獻包括:
· 提出了DreamFace這個新穎的生成方案,將最近的視覺-語言模型與可動畫和物理材質的臉部資產結合,透過漸進式學習來分離幾何、外觀和動畫能力。
· 引入了雙通道外觀生成的設計,將一種新穎的材質擴散模型與預訓練模型相結合,同時在潛在空間和圖像空間進行兩階段優化。
· 使用BlendShapes或產生的Personalized BlendShapes的臉部資產具備動畫能力,並進一步展示了DreamFace在自然人物設計方面的應用。
幾何產生
幾何體產生模組可以根據文字提示產生與之一致的幾何模型。然而,在人臉生成方面,這可能難以監督和收斂。
因此,DreamFace提出了一個基於CLIP(Contrastive Language-Image Pre-Training)的選擇框架,首先從對人臉幾何參數空間內隨機採樣的候選項中選擇最佳的粗略幾何模型,然後雕刻幾何細節,使頭部模型更符合文字提示。
根據輸入提示,DreamFace利用CLIP模型選擇符合得分最高的粗略幾何候選項。接下來,DreamFace使用隱式擴散模型(LDM)在隨機視角和光照條件下對渲染影像進行得分蒸餾採樣(SDS)處理。
這使得DreamFace可以透過頂點位移和詳細的法線貼圖向粗略幾何模型添加臉部細節,從而得到高度精細的幾何體。
與頭部模型類似,DreamFace也基於該框架進行髮型和顏色的選擇。
基於物理的材質擴散產生
基於物理的材質擴散模組旨在預測與預測幾何體和文字提示一致的臉部紋理。
首先,DreamFace將預先訓練的LDM在收集的大規模UV材質資料集上微調,得到兩個LDM擴散模型。
DreamFace採用了一個聯合訓練方案,協調兩個擴散過程,一個用於直接去噪UV紋理貼圖,另一個用於監督渲染圖像,以確保臉部UV貼圖和渲染圖像的正確形成與文字提示一致。
為了減少生成時間,DreamFace採用了一個粗糙紋理潛在擴散階段,為細節紋理生成提供先驗潛在。
為了確保所創建的紋理地圖不含有不良特徵或照明情況,同時仍保持多樣性,設計了一種提示學習策略。
團隊利用兩種方法產生高品質的漫反射貼圖:
#(1)Prompt Tuning。與手工製作的特定領域文本提示不同,DreamFace將兩個特定領域的連續文本提示Cd 和Cu 與相應的文本提示結合起來,這將在U-Net去噪器訓練期間進行優化,以避免不穩定和耗時的手作提示。
(2)非臉部區域遮罩。 LDM去噪過程將額外受到非臉部區域遮罩的限制,以確保產生的漫反射貼圖不含有任何不必要的元素。
作為最後一步,DreamFace應用超解析度模組產生4K基於物理的紋理,以進行高品質渲染。
DreamFace框架在名人生成,根據描述生成角色上都取得了相當不錯的效果,在User Study中獲得了遠超過先前工作的成績。相較於先前的工作,在運行時間上也具備明顯的優勢。
除此之外,DreamFace也支援使用提示和草圖進行紋理編輯。透過直接使用微調的紋理LDM和提示,可以實現全局的編輯效果,如老化和化妝。透過進一步結合遮罩或草圖,可以創造各種效果,如紋身、鬍鬚和胎記。
#動畫能力產生
########################################## #DreamFace生成的模式具備動畫能力。與基於BlendShapes的方法不同,DreamFace的神經面部動畫方法透過預測獨特的變形來為生成的靜息(Neutral)模型賦予動畫效果,從而產生個性化的動畫。 ######
首先,訓練一個幾何生成器,學習表情的潛在空間,其中解碼器被擴展為以中性幾何形狀為條件。接著,進一步訓練表情編碼器,從RGB影像中提取表情特徵。因此,DreamFace能夠透過使用單目RGB影像以中性幾何形狀為條件來產生個人化的動畫。
與使用通用BlendShapes進行表情控制的DECA相比,DreamFace的框架提供了細緻的表情細節,並且能夠精細地捕捉表演。
結論
本文介紹了DreamFace,一種文字指導的漸進式3D生成框架,它結合了最新的視覺-語言模型、隱式擴散模型,以及基於物理的材質擴散技術。
DreamFace的主要創新包括幾何體生成、基於物理的材質擴散生成和動畫能力生成。與傳統的3D生成方法相比,DreamFace具有更高的準確性、更快的運行速度和較好的CG管線相容性。
DreamFace的漸進式生成框架為解決複雜的3D生成任務提供了一個有效的解決方案,有望推動更多類似的研究和技術發展。
此外,基於物理的材質擴散生成和動畫能力生成將推動3D生成技術在影視製作、遊戲開發和其他相關行業的應用。
以上是上科大等發表DreamFace:只需文字即可產生「超寫實3D數位人」的詳細內容。更多資訊請關注PHP中文網其他相關文章!

斯坦福大學以人為本人工智能研究所發布的《2025年人工智能指數報告》對正在進行的人工智能革命進行了很好的概述。讓我們用四個簡單的概念來解讀它:認知(了解正在發生的事情)、欣賞(看到好處)、接納(面對挑戰)和責任(弄清我們的責任)。 認知:人工智能無處不在,並且發展迅速 我們需要敏銳地意識到人工智能發展和傳播的速度有多快。人工智能係統正在不斷改進,在數學和復雜思維測試中取得了優異的成績,而就在一年前,它們還在這些測試中慘敗。想像一下,人工智能解決複雜的編碼問題或研究生水平的科學問題——自2023年

Meta的Llama 3.2:多模式和移動AI的飛躍 Meta最近公佈了Llama 3.2,這是AI的重大進步,具有強大的視覺功能和針對移動設備優化的輕量級文本模型。 以成功為基礎

本週的AI景觀:進步,道德考慮和監管辯論的旋風。 OpenAI,Google,Meta和Microsoft等主要參與者已經釋放了一系列更新,從開創性的新車型到LE的關鍵轉變

連接的舒適幻想:我們在與AI的關係中真的在蓬勃發展嗎? 這個問題挑戰了麻省理工學院媒體實驗室“用AI(AHA)”研討會的樂觀語氣。事件展示了加油

介紹 想像一下,您是科學家或工程師解決複雜問題 - 微分方程,優化挑戰或傅立葉分析。 Python的易用性和圖形功能很有吸引力,但是這些任務需要強大的工具

Meta's Llama 3.2:多式聯運AI強力 Meta的最新多模式模型Llama 3.2代表了AI的重大進步,具有增強的語言理解力,提高的準確性和出色的文本生成能力。 它的能力t

數據質量保證:與Dagster自動檢查和良好期望 保持高數據質量對於數據驅動的業務至關重要。 隨著數據量和源的增加,手動質量控制變得效率低下,容易出現錯誤。

大型機:AI革命的無名英雄 雖然服務器在通用應用程序上表現出色並處理多個客戶端,但大型機是專為關鍵任務任務而建立的。 這些功能強大的系統經常在Heavil中找到


熱AI工具

Undresser.AI Undress
人工智慧驅動的應用程序,用於創建逼真的裸體照片

AI Clothes Remover
用於從照片中去除衣服的線上人工智慧工具。

Undress AI Tool
免費脫衣圖片

Clothoff.io
AI脫衣器

AI Hentai Generator
免費產生 AI 無盡。

熱門文章

熱工具

SecLists
SecLists是最終安全測試人員的伙伴。它是一個包含各種類型清單的集合,這些清單在安全評估過程中經常使用,而且都在一個地方。 SecLists透過方便地提供安全測試人員可能需要的所有列表,幫助提高安全測試的效率和生產力。清單類型包括使用者名稱、密碼、URL、模糊測試有效載荷、敏感資料模式、Web shell等等。測試人員只需將此儲存庫拉到新的測試機上,他就可以存取所需的每種類型的清單。

Dreamweaver Mac版
視覺化網頁開發工具

MinGW - Minimalist GNU for Windows
這個專案正在遷移到osdn.net/projects/mingw的過程中,你可以繼續在那裡關注我們。 MinGW:GNU編譯器集合(GCC)的本機Windows移植版本,可自由分發的導入函式庫和用於建置本機Windows應用程式的頭檔;包括對MSVC執行時間的擴展,以支援C99功能。 MinGW的所有軟體都可以在64位元Windows平台上運作。

VSCode Windows 64位元 下載
微軟推出的免費、功能強大的一款IDE編輯器

EditPlus 中文破解版
體積小,語法高亮,不支援程式碼提示功能