一句話讓三維模型生成逼真外觀風格，精細到照片級細節-人工智慧-PHP中文網

首頁

科技週邊

人工智慧

一句話讓三維模型生成逼真外觀風格，精細到照片級細節

王林

Apr 12, 2023 pm 05:31 PM

三維模型

根據給定輸入建立 3D 內容（例如，根據文字提示、圖像或 3D 形狀）在電腦視覺和圖形領域具有重要應用。然而這個問題是具有挑戰性的，現實中通常需要專業藝術家（Technical Artist）耗費大量的時間成本來創作 3D 內容。同時，許多網路上的三維模型庫中的資源通常是沒有任何材質的裸露三維模型，要想將他們應用到現階段的渲染引擎中，需要Technical Artist 為它們創作高品質的材質，燈光和法向貼圖。因此，如果有辦法可以實現自動化、多樣化和逼真的三維模型資產生成，將會是很有前景的。

因此，華南理工大學、香港理工大學、跨維智能、鵬城實驗室等機構的研究團隊提出了一種基於文本驅動的三維模型風格化方法－TANGO，該方法對於給定的三維模型和文本，可以自動產生更具真實性的SVBRDF 材質，法向貼圖和燈光，並且對低品質三維模型有更好的穩健性。該研究已被 NeurIPS 2022 接收。

一句話讓三維模型生成逼真外觀風格，精細到照片級細節

#專案首頁：https://cyw-3d.github.io/tango/

模型效果

對於給定的文字輸入和三維模型，TANGO 可以產生精細程度較高的具有照片級真實感的細節，並且不會在三維模型表面產生自交問題。如下圖1 所示， TANGO 不僅在光滑的材料（如金，銀等材質）上呈現出了逼真的反射效果，而且對於不平整的材質（例如磚塊等）也能通過逐點法線的估計渲染出凹凸不平的效果。

一句話讓三維模型生成逼真外觀風格，精細到照片級細節

圖1. TANGO 的風格化結果

TANGO 能夠生成真實渲染結果的關鍵在於能夠精準地把著色模型中的每一個部件（SVBRDF，法向貼圖，燈光）拆分開，並分別學習，最後這些拆分的部件再通過球高斯可微分渲染器輸出圖片，並送到CLIP 中和輸入文字計算loss。為了展現解耦部件的合理性，該研究對每個部件都進行了視覺化。圖2 （a）展示了「一雙磚塊做成的鞋子」的風格化結果，（b）展示了三維模型原本的法向，（c）是TANGO 對三維模型上每個點預測的法向，（d）（e）（f）分別表示SVBRDF 中的漫反射，粗糙度和鏡面反射參數，（g）是TANGO預測的用球高斯函數表達的環境光。

一句話讓三維模型生成逼真外觀風格，精細到照片級細節

#圖2 解耦的渲染元件視覺化

同時，該研究也可以對TANGO 輸出的結果進行編輯。例如在圖 3 中，研究可以換用其他的光照貼圖對 TANGO 的結果進行重新打光；在圖 4 中，可以對粗糙度和鏡面反射度參數進行編輯，實現對物體表面反射程度的改變。

一句話讓三維模型生成逼真外觀風格，精細到照片級細節

#圖3 對TANGO 風格化結果重新打光

一句話讓三維模型生成逼真外觀風格，精細到照片級細節

圖4 對物件材質進行編輯

另外，由於 TANGO 採用預測法來為貼圖的方式增添物體表面細節，因此對於頂點數較少的三維模型也有很好的穩健性。如圖 5 所示，原始的 lamp 和 alien 模型分別有 41160 和 68430 個面，研究人員對原始模型進行了降採樣，得到了只有 5000 個面的模型。可以看到 TANGO 在原始模型和降採樣模型上的表現基本上相似，而 Text2Mesh 則在低品質的模型上出現了較為嚴重的自交現象。

一句話讓三維模型生成逼真外觀風格，精細到照片級細節

#圖5 穩健性測試

原理方法

TANGO 主要著重於由文字引導三維物體風格化的方法。這一領域目前最相關的工作是 Text2Mesh，它使用了預訓練模型 CLIP 作為指導，預測三維模型表面頂點的顏色和位置偏移，從而實現風格化。然而簡單地預測表面頂點顏色通常會產生不真實的渲染效果，且不規則的頂點偏移會造成嚴重的自交。因此，研究借鑒傳統的基於物理的渲染管線，將整個渲染過程解耦為 SVBRDF 材質，法向貼圖和燈光的預測過程，並分別用球高斯函數表達解耦的元素。這種基於物理的解耦方式使得 TANGO 可以正確產生具有真實感的渲染效果，並且具有很好的穩健性。

一句話讓三維模型生成逼真外觀風格，精細到照片級細節

圖6 TANGO 流程圖

圖6 展示了TANGO 的工作流程。給定一個三維模型和文字（例如圖中的「一個金子做成的鞋子」），該研究先把這個三維模型縮放到一個單位球內，接著在三維模型的附近採樣相機位置，在這個相機位置發射射線找到與三維模型的交點 x_p 與該交點的法線方向 n_#p。接下來，x_p 和 n_p 會被送入SVBRDF網路和Normal 網路中，預測該點的材質參數和法線方向，同時，用多個球高斯函數來表達場景中的光照。對於每一次訓練迭代，研究使用可微分的球高斯渲染器渲染影像，然後使用 CLIP 模型的影像編碼器對增強影像進行編碼，最後 CLIP 模型反向傳播梯度更新所有可學習的參數。

總結

本文提出了 TANGO，一種根據輸入文字對三維模型產生逼真外觀風格，對低品質模型具有魯棒性的新方法。透過將外觀風格解耦 SVBRDF，局部幾何變化（逐點法向）和光照條件，並將這些用球高斯函數表示並渲染，能夠用 CLIP 作為 loss 監督並進行學習。

與現有方法相比，即使對於低品質的三維模型，TANGO 也可以具有很好的穩健性。然而，逐點法向提供幾何細節的方式在避免產生自交的同時，也會使得能表達的材質表面凹凸程度略微降低，該研究認為TANGO 和基於頂點偏移的Text2Mesh 在各自的方向上都進行了很好的初步嘗試，會啟發更多的後續研究。

以上是一句話讓三維模型生成逼真外觀風格，精細到照片級細節的詳細內容。更多資訊請關注PHP中文網其他相關文章！

陳述

本文轉載於：51CTO.COM。如有侵權，請聯絡admin@php.cn刪除

最新的最佳及時工程技術的年度彙編Apr 10, 2025 am 11:22 AM

對於那些可能是我專欄新手的人，我廣泛探討了AI的最新進展，包括體現AI，AI推理，AI中的高科技突破，及時的工程，AI培訓，AI，AI RE RE等主題

歐洲的AI大陸行動計劃：Gigafactories，Data Labs和Green AIApr 10, 2025 am 11:21 AM

歐洲雄心勃勃的AI大陸行動計劃旨在將歐盟確立為人工智能的全球領導者。一個關鍵要素是建立了AI Gigafactories網絡，每個網絡都有大約100,000個高級AI芯片 - 2倍的自動化合物的四倍

微軟對AI代理申請的統一方法：企業的明顯勝利微軟最近公告的新AI代理能力清晰而統一的演講給人留下了深刻的印象。與許多技術公告陷入困境不同

向員工出售AI策略：Shopify首席執行官的宣言Apr 10, 2025 am 11:19 AM

Shopify首席執行官TobiLütke最近的備忘錄大膽地宣布AI對每位員工的基本期望是公司內部的重大文化轉變。這不是短暫的趨勢。這是整合到P中的新操作範式

IBM啟動具有完整AI集成的Z17大型機Apr 10, 2025 am 11:18 AM

IBM的Z17大型機：集成AI用於增強業務運營上個月，在IBM的紐約總部，我收到了Z17功能的預覽。以Z16的成功為基礎（於2022年推出並證明持續的收入增長

5 Chatgpt提示取決於別人並完全相信自己Apr 10, 2025 am 11:17 AM

解鎖不可動搖的信心，消除了對外部驗證的需求！這五個CHATGPT提示將指導您完全自力更生和自我感知的變革轉變。只需複制，粘貼和自定義包圍

AI與您的思想危險相似Apr 10, 2025 am 11:16 AM

人工智能安全與研究公司 Anthropic 最近的一項[研究]開始揭示這些複雜過程的真相，展現出一種令人不安地與我們自身認知領域相似的複雜性。自然智能和人工智能可能比我們想像的更相似。窺探內部：Anthropic 可解釋性研究 Anthropic 進行的研究的新發現代表了機制可解釋性領域的重大進展，該領域旨在反向工程 AI 的內部計算——不僅僅觀察 AI 做了什麼，而是理解它在人工神經元層面如何做到這一點。想像一下，試圖通過繪製當有人看到特定物體或思考特定想法時哪些神經元會放電來理解大腦。 A