首頁  >  文章  >  科技週邊  >  2D影像腦補3D人體,衣服隨便搭,還能改動作

2D影像腦補3D人體,衣服隨便搭,還能改動作

WBOY
WBOY轉載
2023-04-11 14:31:041255瀏覽

得益於 NeRF 提供的可微渲染,近期的三維生成模型已經在靜止物體上達到了很驚豔的效果。但是在人體這種更複雜且可形變的類別上,三維生成依舊有很大的挑戰。本文提出了一個高效的組合的人體 NeRF 表達,實現了高分辨率(512x256)的三維人體生成,並且沒有使用超分模型。 EVA3D 在四個大型人體資料集上都大幅超越了現有方案,程式碼已開源。

2D影像腦補3D人體,衣服隨便搭,還能改動作


  • 論文名稱:EVA3D: Compositional 3D Human Generation from 2D image Collections
  • 論文網址:https://arxiv.org/abs/2210.04888
  • 專案首頁:https://hongfz16.github.io/projects/EVA3D.html
  • 程式碼開源:https://github.com/hongfz16/EVA3D
  • Colab Demo:https://colab.research.google. com/github/hongfz16/EVA3D/blob/main/notebook/EVA3D_Demo.ipynb
  • Hugging Face Demo:https://huggingface.co/spaces/hongfz16/EVA3D


2D影像腦補3D人體,衣服隨便搭,還能改動作


2D影像腦補3D人體,衣服隨便搭,還能改動作


背景

利用NeRF 提供的可微渲染演算法,三維產生演算法,例如EG3D、StyleSDF,在靜態物件類別的生成上已經有了非常好的效果。但是人體相較於人臉或 CAD 模型等類別,在外觀和幾何上有更大的複雜度,並且人體是可形變的,因此從二維圖片中學習三維人體生成仍然是非常困難的任務。研究人員在這個任務上已經有了一些嘗試,例如 ENARF-GAN、GNARF,但是受限於低效的人體表達,他們無法實現高分辨率的生成,因此生成質量也非常低。

為了解決這個問題,本文提出了高效的組合的三維人體 NeRF 表示,用以實現高分辨率的(512x256)三維人體 GAN 訓練與生成。以下將介紹本文提出的人體 NeRF 表示,以及三維人體 GAN 訓練框架。

高效的人體 NeRF 表示

本文提出的人體 NeRF 是基於參數化人體模型 SMPL,它提供了方便的人體姿勢以及形狀的控制。進行 NeRF 建模時,如下圖所示,本文將人體分為 16 個部分。每一個部分對應於一個小的 NeRF 網路進行局部的建模。在渲染每一個局部的時候,本文只需要推理局部 NeRF。這種稀疏的渲染方式,在較低的運算資源下,也可以實現原生高解析度的渲染。

例如,渲染體型動作參數分別為的人體時,首先根據相機參數採樣光線;光線上的採樣點根據與SMPL 模型的相對關係進行反向蒙皮操作( inverse linear blend skinning),將posed 空間中的取樣點轉換到canonical 空間。接著計算Canonical 空間的取樣點屬於某個或某幾個局部NeRF 的bounding box 中,再進行NeRF 模型的推理,得到每個取樣點對應的顏色與密度;當某個取樣點落到多個局部NeRF的重疊區域,則會對每個NeRF 模型進行推理,將多個結果用window function 進行插值;最後這些資訊被用於光線的積分,得到最終的渲染圖。

2D影像腦補3D人體,衣服隨便搭,還能改動作

#########

三維人體 GAN 框架

基於提出的高效能的人體 NeRF 表達,本文實現了三維人體 GAN 訓練框架。在每一次訓練迭代中,本文首先從資料集中取樣一個 SMPL 的參數以及相機參數,並隨機產生一個高斯雜訊 z。利用本文所提出的人體 NeRF,本文可以將採樣的參數渲染成一張二維人體圖片,作為假樣本。再利用資料集中的真實樣本,本文進行 GAN 的對抗訓練。

2D影像腦補3D人體,衣服隨便搭,還能改動作

極度不平衡的資料集

二維人體資料集,例如DeepFashion,通常是為二維視覺任務準備的,因此人體的姿態多樣性非常受限。為了量化不平衡的程度,本文統計了 DeepFashion 中模特兒臉部朝向的頻率。如下圖所示,橙色的線代表了 DeepFashion 中人臉朝向的分佈,可見是極度不平衡的,對於學習三維人體表徵造成了困難。為了緩解這個問題,我們提出了由人體姿態指導的採樣方式,將分佈曲線拉平,如下圖中其他顏色的線所示。這可以讓訓練過程中的模型看到更多樣化以及更大角度的人體圖片,從而幫助三維人體幾何的學習。我們對採樣參數進行了實驗分析,從下面的表格中可見,加上人體姿態指導的採樣方式後,雖然影像品質(FID)會有些微下降,但學出的三維幾何(Depth)顯著變好。

高品質的生成結果

下圖展示了一些EVA3D 的生成結果,EVA3D 可以隨機採樣人體樣貌,並可控制渲染相機參數,人體姿勢以及體型。

2D影像腦補3D人體,衣服隨便搭,還能改動作

本文在四個大規模人體資料集上進行了實驗,分別是DeepFashion,SHHQ,UBCFashion,AIST 。該研究比較了最先進的靜態三維物體生成演算法 EG3D 與 StyleSDF。同時研究者也比較了專門針對三維人產生的演算法 ENARF-GAN。在指標的選擇上,本文兼顧渲染品質的評估(FID/KID)、人體控制的準確度(PCK)以及幾何生成的品質(Depth)。如下圖所示,本文在所有資料集,所有指標上均大幅超越先前的方案。

2D影像腦補3D人體,衣服隨便搭,還能改動作

應用潛力

最後,本文也展現了 EVA3D 的一些應用潛力。首先,研究測試了在隱空間中進行差值。如下圖所示,本文能夠在兩個三維人之間進行平滑的變化,且中間結果都保持較高的品質。此外,本文也進行了 GAN inversion 的實驗,研究者使用二維 GAN inversion 中常用的演算法 Pivotal Tuning Inversion。如下面右圖所示,此方法可以較好的還原重建目標的外觀,但是幾何部分失去了許多細節。可見,三維 GAN 的 inversion 仍然是一個很有挑戰性的任務。

2D影像腦補3D人體,衣服隨便搭,還能改動作

結語

#本文提出了首個高清三維人體NeRF 產生演算法EVA3D,並且僅需使用二維人體圖像資料即可訓練。 EVA3D 在多個大規模人體資料集上表現達到最佳,並且展現出了在下游任務上進行應用的潛力。 EVA3D 的訓練與測試程式碼都已經開源,歡迎大家去試用!

以上是2D影像腦補3D人體,衣服隨便搭,還能改動作的詳細內容。更多資訊請關注PHP中文網其他相關文章!

陳述:
本文轉載於:51cto.com。如有侵權,請聯絡admin@php.cn刪除