證件照轉數位人只需幾秒鐘，微軟實現首個3D擴散模型高品質生成效果，換裝改形像一句話搞定-人工智慧-PHP中文網

首頁

科技週邊

人工智慧

證件照轉數位人只需幾秒鐘，微軟實現首個3D擴散模型高品質生成效果，換裝改形像一句話搞定

青灯夜游

Mar 31, 2023 pm 10:40 PM

數位模型

這個3D生成擴散模型「羅丹」RODIN的名字，靈感來自法國雕塑藝術家奧古斯特·羅丹（Auguste Rodin）。

一張2D證件照，幾秒鐘就能設計出3D遊戲化身！

這是擴散模型在3D領域的最新成果。例如，只需一張法國雕塑家羅丹的舊照，就能分分鐘把他「變」進遊戲中：

△RODIN模型基於羅丹舊照生成的3D形象

甚至只需要一句話就能修改裝扮和形象。告訴AI生成羅丹「穿著紅色毛衣戴眼鏡的造型」：

證件照轉數位人只需幾秒鐘，微軟實現首個3D擴散模型高品質生成效果，換裝改形像一句話搞定

不喜歡大背頭？那就換成「綁著辮子的造型」：

證件照轉數位人只需幾秒鐘，微軟實現首個3D擴散模型高品質生成效果，換裝改形像一句話搞定

再試試換髮色？這是“棕色頭髮的時尚潮人造型”，連鬍子顏色都搞定了：

證件照轉數位人只需幾秒鐘，微軟實現首個3D擴散模型高品質生成效果，換裝改形像一句話搞定

#（AI眼中的“時尚潮人”，確實有點潮過頭了）

上面這個最新的3D生成擴散模型「羅丹」RODIN（Roll-out Diffusion Network），來自微軟亞洲研究院。

RODIN也是第一個利用生成擴散模型在3D訓練資料上自動產生3D數位化身（Avatar）的模型，論文目前已被CVPR 2023接收。

一起來看看。

直接用3D資料訓練擴散模型

這個3D生成擴散模型「羅丹」RODIN的名字，靈感來自法國雕塑藝術家奧古斯特·羅丹（Auguste Rodin）。

先前2D生成3D影像模型，通常用2D資料訓練生成對抗網路（GAN）或變分自編碼器（VAE）得到，但結果往往不盡人意。

研究者分析，造成這種現象的原因在於這些方法存在一個基礎的欠定（ill posed）問題。即由於單一視角圖片存在幾何二義性，僅透過大量的2D數據，很難學到高品質3D化身的合理分佈，導致生成效果不佳。

因此，他們這次嘗試直接用3D資料來訓練擴散模型，主要解決了三個難題：

首先，如何用擴散模型生成3D模型多視角圖。先前擴散模型在3D資料上沒有可參考實務方法和可遵循前例。
其次，高品質和大規模3D圖像資料集很難獲取，且存在隱私版權風險，但網路公開3D圖像無法保證多視圖一致性。
最後， 2D擴散模型直接拓展成3D生成，所需的記憶體、儲存與計算開銷極大。

為了解決這三個難題，研究人員提出了「AI雕塑家」RODIN擴散模型，超越了現有模型的SOTA水準。

RODIN模型採用神經輻射場（NeRF）方法，借鑒英偉達的EG3D工作，將3D空間緊湊地表達為空間三個相互垂直的特徵平面（Triplane），並將這些圖展開至單一2D特徵平面中，再執行3D感知擴散。

具體而言，就是將3D空間在橫、縱、垂三個正交平面視圖上以二維特徵展開，這樣不僅可以讓RODIN模型使用高效的2D架構進行3D感知擴散，而且將3D影像降維成2D影像也大幅降低了運算複雜度和運算成本。

證件照轉數位人只需幾秒鐘，微軟實現首個3D擴散模型高品質生成效果，換裝改形像一句話搞定

△3D感知卷積高效處理3D特徵

上圖左邊，用三平面（triplane）表達3D空間，此時底部特徵平面的特徵點對應於另外兩個特徵平面的兩條線；上圖右邊，則引入3D感知卷積處理展開的2D特徵平面，同時考慮到三個平面的三維固有對應關係。

具體而言，實現3D影像的產生需要三個關鍵要素：

其一，3D感知卷積，確保降維後的三個平面的內在關聯。

傳統2D擴散中使用的2D卷積神經網路（CNN），並不能很好地處理Triplane特徵圖。

3D感知卷積並不是簡單地產生三個2D特徵平面，而是在處理這樣的3D表達時，考慮了其固有的三維特性，即三個視圖平面中其中一個視圖的2D特徵本質上是3D空間中一條直線的投影，因此與其他兩個平面中對應的直線投影特徵存在關聯性。

為了實現跨平面通信，研究員們在卷積中考慮了這樣的3D相關性，因此高效地用2D的方式合成3D細節。

其二，隱空間協奏三平面3D表達生成。

研究員們透過隱向量來協調特徵生成，使其在整個三維空間中具有全局一致性，從而獲得更高品質的化身並實現語義編輯。

同時，也透過使用訓練資料集中的圖像訓練額外的圖像編碼器，該編碼器可提取語義隱向量作為擴散模型的條件輸入。

這樣，整體的生成網路可視為自動編碼器，以擴散模型作為解碼隱空間向量。對於語意可編輯性，研究員們採用了一個凍結的CLIP圖像編碼器，與文字提示共享隱空間。

其三，層級式合成，產生高保真立體細節。

研究員們利用擴散模型，先生成了一個低解析度的三視圖平面（64×64），然後再透過擴散上取樣產生高解析度的三平面（256×256）。

這樣，基礎擴散模型集中於整體3D結構生成，而後續上取樣模型則專注於細節生成。

基於Blender產生大量隨機資料

在訓練資料集上，研究員們借助開源的三維渲染軟體Blender，透過隨機組合畫師手動創建的虛擬3D人物圖像，再加上從大量頭髮、衣服、表情和配件中隨機採樣，進而創建了10萬個合成個體，同時為每個個體渲染出了300個分辨率為256*256的多視圖圖像。

在文字到3D頭像的生成上，研究員們採用了LAION-400M資料集的人像子集，訓練從輸入模態到3D擴散模型隱空間的映射，最終讓RODIN模型只使用一張2D影像或一句文字描述，就能創造出逼真的3D頭像。

證件照轉數位人只需幾秒鐘，微軟實現首個3D擴散模型高品質生成效果，換裝改形像一句話搞定

△給定一張照片產生虛擬形象

#不僅能一句話改變形象，如「留捲髮和大鬍子穿著黑色皮夾克的男性」：

證件照轉數位人只需幾秒鐘，微軟實現首個3D擴散模型高品質生成效果，換裝改形像一句話搞定

甚至連性別都能隨意更換，「紅色衣著非洲髮型的女性」：（手動狗頭）

證件照轉數位人只需幾秒鐘，微軟實現首個3D擴散模型高品質生成效果，換裝改形像一句話搞定

研究人員也給了一個應用程式Demo示範，創建自己的圖像只需要幾個按鈕：

證件照轉數位人只需幾秒鐘，微軟實現首個3D擴散模型高品質生成效果，換裝改形像一句話搞定

△利用文字做3D肖像編輯

更多效果可以戳項目地址查看~

證件照轉數位人只需幾秒鐘，微軟實現首個3D擴散模型高品質生成效果，換裝改形像一句話搞定

△更多隨機生成的虛擬形象

做出了RODIN後，團隊接下來的計劃是？

根據微軟亞洲研究院作者們表示，目前RODIN的作品還主要停留在3D半身人像上，這也與它主要採用人臉數據訓練有關，但3D圖像生成需求不僅限於人臉上。

下一步，團隊將會考慮嘗試用RODIN模型創建更多3D場景，包括花草樹木、建築、汽車家居等，實現「一個模型生成3D萬物」的終極目標。

論文網址：
https://arxiv.org/abs/2212.06135

專案頁：
https://3d-avatar-diffusion.microsoft.com

證件照轉數位人只需幾秒鐘，微軟實現首個3D擴散模型高品質生成效果，換裝改形像一句話搞定

以上是證件照轉數位人只需幾秒鐘，微軟實現首個3D擴散模型高品質生成效果，換裝改形像一句話搞定的詳細內容。更多資訊請關注PHP中文網其他相關文章！

陳述

本文轉載於：51cto。如有侵權，請聯絡admin@php.cn刪除

擁抱面部是否7B型號奧林匹克賽車擊敗克勞德3.7？Apr 23, 2025 am 11:49 AM

擁抱Face的OlympicCoder-7B：強大的開源代碼推理模型開發以代碼為中心的語言模型的競賽正在加劇，擁抱面孔與強大的競爭者一起參加了比賽：OlympicCoder-7B，一種產品

4個新的雙子座功能您可以錯過Apr 23, 2025 am 11:48 AM

你們當中有多少人希望AI可以做更多的事情，而不僅僅是回答問題？我知道我有，最近，我對它的變化感到驚訝。 AI聊天機器人不僅要聊天，還關心創建，研究

Camunda為經紀人AI編排編寫了新的分數Apr 23, 2025 am 11:46 AM

隨著智能AI開始融入企業軟件平台和應用程序的各個層面（我們必須強調的是，既有強大的核心工具，也有一些不太可靠的模擬工具），我們需要一套新的基礎設施能力來管理這些智能體。總部位於德國柏林的流程編排公司Camunda認為，它可以幫助智能AI發揮其應有的作用，並與新的數字工作場所中的準確業務目標和規則保持一致。該公司目前提供智能編排功能，旨在幫助組織建模、部署和管理AI智能體。從實際的軟件工程角度來看，這意味著什麼？確定性與非確定性流程的融合該公司表示，關鍵在於允許用戶（通常是數據科學家、軟件

策劃的企業AI體驗是否有價值？Apr 23, 2025 am 11:45 AM

參加Google Cloud Next '25，我渴望看到Google如何區分其AI產品。有關代理空間（此處討論）和客戶體驗套件（此處討論）的最新公告很有希望，強調了商業價值

如何為抹布找到最佳的多語言嵌入模型？Apr 23, 2025 am 11:44 AM

為您的檢索增強發電（RAG）系統選擇最佳的多語言嵌入模型在當今的相互聯繫的世界中，建立有效的多語言AI系統至關重要。強大的多語言嵌入模型對於RE至關重要

麝香：奧斯汀的機器人需要每10,000英里進行干預Apr 23, 2025 am 11:42 AM

特斯拉的Austin Robotaxi發射：仔細觀察Musk的主張埃隆·馬斯克（Elon Musk）最近宣布，特斯拉即將在德克薩斯州奧斯汀推出的Robotaxi發射，最初出於安全原因部署了一支小型10-20輛汽車，並有快速擴張的計劃。 h

AI震驚的樞軸：從工作工具到數字治療師和生活教練Apr 23, 2025 am 11:41 AM

人工智能的應用方式可能出乎意料。最初，我們很多人可能認為它主要用於代勞創意和技術任務，例如編寫代碼和創作內容。然而，哈佛商業評論最近報導的一項調查表明情況並非如此。大多數用戶尋求人工智能的並非是代勞工作，而是支持、組織，甚至是友誼！報告稱，人工智能應用案例的首位是治療和陪伴。這表明其全天候可用性以及提供匿名、誠實建議和反饋的能力非常有價值。另一方面，營銷任務（例如撰寫博客、創建社交媒體帖子或廣告文案）在流行用途列表中的排名要低得多。這是為什麼呢？讓我們看看研究結果及其對我們人類如何繼續將