2D影像腦補3D人體，衣服隨便搭，還能改動作-人工智慧-PHP中文網

首頁

科技週邊

人工智慧

2D影像腦補3D人體，衣服隨便搭，還能改動作

WBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWB

Apr 11, 2023 pm 02:31 PM

影像

得益於 NeRF 提供的可微渲染，近期的三維生成模型已經在靜止物體上達到了很驚豔的效果。但是在人體這種更複雜且可形變的類別上，三維生成依舊有很大的挑戰。本文提出了一個高效的組合的人體 NeRF 表達，實現了高分辨率（512x256）的三維人體生成，並且沒有使用超分模型。 EVA3D 在四個大型人體資料集上都大幅超越了現有方案，程式碼已開源。

2D影像腦補3D人體，衣服隨便搭，還能改動作

論文名稱：EVA3D: Compositional 3D Human Generation from 2D image Collections
論文網址：https://arxiv.org/abs/2210.04888
專案首頁：https://hongfz16.github.io/projects/EVA3D.html
程式碼開源：https://github.com/hongfz16/EVA3D
Colab Demo：https://colab.research.google. com/github/hongfz16/EVA3D/blob/main/notebook/EVA3D_Demo.ipynb
Hugging Face Demo：https://huggingface.co/spaces/hongfz16/EVA3D

2D影像腦補3D人體，衣服隨便搭，還能改動作

背景

利用NeRF 提供的可微渲染演算法，三維產生演算法，例如EG3D、StyleSDF，在靜態物件類別的生成上已經有了非常好的效果。但是人體相較於人臉或 CAD 模型等類別，在外觀和幾何上有更大的複雜度，並且人體是可形變的，因此從二維圖片中學習三維人體生成仍然是非常困難的任務。研究人員在這個任務上已經有了一些嘗試，例如 ENARF-GAN、GNARF，但是受限於低效的人體表達，他們無法實現高分辨率的生成，因此生成質量也非常低。

為了解決這個問題，本文提出了高效的組合的三維人體 NeRF 表示，用以實現高分辨率的（512x256）三維人體 GAN 訓練與生成。以下將介紹本文提出的人體 NeRF 表示，以及三維人體 GAN 訓練框架。

高效的人體 NeRF 表示

本文提出的人體 NeRF 是基於參數化人體模型 SMPL，它提供了方便的人體姿勢以及形狀的控制。進行 NeRF 建模時，如下圖所示，本文將人體分為 16 個部分。每一個部分對應於一個小的 NeRF 網路進行局部的建模。在渲染每一個局部的時候，本文只需要推理局部 NeRF。這種稀疏的渲染方式，在較低的運算資源下，也可以實現原生高解析度的渲染。

例如，渲染體型動作參數分別為的人體時，首先根據相機參數採樣光線；光線上的採樣點根據與SMPL 模型的相對關係進行反向蒙皮操作（ inverse linear blend skinning），將posed 空間中的取樣點轉換到canonical 空間。接著計算Canonical 空間的取樣點屬於某個或某幾個局部NeRF 的bounding box 中，再進行NeRF 模型的推理，得到每個取樣點對應的顏色與密度；當某個取樣點落到多個局部NeRF的重疊區域，則會對每個NeRF 模型進行推理，將多個結果用window function 進行插值；最後這些資訊被用於光線的積分，得到最終的渲染圖。

2D影像腦補3D人體，衣服隨便搭，還能改動作

#########

三維人體 GAN 框架

基於提出的高效能的人體 NeRF 表達，本文實現了三維人體 GAN 訓練框架。在每一次訓練迭代中，本文首先從資料集中取樣一個 SMPL 的參數以及相機參數，並隨機產生一個高斯雜訊 z。利用本文所提出的人體 NeRF，本文可以將採樣的參數渲染成一張二維人體圖片，作為假樣本。再利用資料集中的真實樣本，本文進行 GAN 的對抗訓練。

2D影像腦補3D人體，衣服隨便搭，還能改動作

極度不平衡的資料集

二維人體資料集，例如DeepFashion，通常是為二維視覺任務準備的，因此人體的姿態多樣性非常受限。為了量化不平衡的程度，本文統計了 DeepFashion 中模特兒臉部朝向的頻率。如下圖所示，橙色的線代表了 DeepFashion 中人臉朝向的分佈，可見是極度不平衡的，對於學習三維人體表徵造成了困難。為了緩解這個問題，我們提出了由人體姿態指導的採樣方式，將分佈曲線拉平，如下圖中其他顏色的線所示。這可以讓訓練過程中的模型看到更多樣化以及更大角度的人體圖片，從而幫助三維人體幾何的學習。我們對採樣參數進行了實驗分析，從下面的表格中可見，加上人體姿態指導的採樣方式後，雖然影像品質（FID）會有些微下降，但學出的三維幾何（Depth）顯著變好。

高品質的生成結果

下圖展示了一些EVA3D 的生成結果，EVA3D 可以隨機採樣人體樣貌，並可控制渲染相機參數，人體姿勢以及體型。

2D影像腦補3D人體，衣服隨便搭，還能改動作

本文在四個大規模人體資料集上進行了實驗，分別是DeepFashion，SHHQ，UBCFashion，AIST 。該研究比較了最先進的靜態三維物體生成演算法 EG3D 與 StyleSDF。同時研究者也比較了專門針對三維人產生的演算法 ENARF-GAN。在指標的選擇上，本文兼顧渲染品質的評估（FID/KID）、人體控制的準確度（PCK）以及幾何生成的品質（Depth）。如下圖所示，本文在所有資料集，所有指標上均大幅超越先前的方案。

2D影像腦補3D人體，衣服隨便搭，還能改動作

應用潛力

最後，本文也展現了 EVA3D 的一些應用潛力。首先，研究測試了在隱空間中進行差值。如下圖所示，本文能夠在兩個三維人之間進行平滑的變化，且中間結果都保持較高的品質。此外，本文也進行了 GAN inversion 的實驗，研究者使用二維 GAN inversion 中常用的演算法 Pivotal Tuning Inversion。如下面右圖所示，此方法可以較好的還原重建目標的外觀，但是幾何部分失去了許多細節。可見，三維 GAN 的 inversion 仍然是一個很有挑戰性的任務。

2D影像腦補3D人體，衣服隨便搭，還能改動作

結語

#本文提出了首個高清三維人體NeRF 產生演算法EVA3D，並且僅需使用二維人體圖像資料即可訓練。 EVA3D 在多個大規模人體資料集上表現達到最佳，並且展現出了在下游任務上進行應用的潛力。 EVA3D 的訓練與測試程式碼都已經開源，歡迎大家去試用！

以上是2D影像腦補3D人體，衣服隨便搭，還能改動作的詳細內容。更多資訊請關注PHP中文網其他相關文章！

陳述

本文轉載於：51CTO.COM。如有侵權，請聯絡admin@php.cn刪除

閱讀AI索引2025：AI是您的朋友，敵人還是副駕駛？Apr 11, 2025 pm 12:13 PM

斯坦福大學以人為本人工智能研究所發布的《2025年人工智能指數報告》對正在進行的人工智能革命進行了很好的概述。讓我們用四個簡單的概念來解讀它：認知（了解正在發生的事情）、欣賞（看到好處）、接納（面對挑戰）和責任（弄清我們的責任）。認知：人工智能無處不在，並且發展迅速我們需要敏銳地意識到人工智能發展和傳播的速度有多快。人工智能係統正在不斷改進，在數學和復雜思維測試中取得了優異的成績，而就在一年前，它們還在這些測試中慘敗。想像一下，人工智能解決複雜的編碼問題或研究生水平的科學問題——自2023年