搜尋
首頁科技週邊人工智慧2D影像腦補3D人體,衣服隨便搭,還能改動作

得益於 NeRF 提供的可微渲染,近期的三維生成模型已經在靜止物體上達到了很驚豔的效果。但是在人體這種更複雜且可形變的類別上,三維生成依舊有很大的挑戰。本文提出了一個高效的組合的人體 NeRF 表達,實現了高分辨率(512x256)的三維人體生成,並且沒有使用超分模型。 EVA3D 在四個大型人體資料集上都大幅超越了現有方案,程式碼已開源。

2D影像腦補3D人體,衣服隨便搭,還能改動作


  • 論文名稱:EVA3D: Compositional 3D Human Generation from 2D image Collections
  • 論文網址:https://arxiv.org/abs/2210.04888
  • 專案首頁:https://hongfz16.github.io/projects/EVA3D.html
  • 程式碼開源:https://github.com/hongfz16/EVA3D
  • Colab Demo:https://colab.research.google. com/github/hongfz16/EVA3D/blob/main/notebook/EVA3D_Demo.ipynb
  • Hugging Face Demo:https://huggingface.co/spaces/hongfz16/EVA3D


2D影像腦補3D人體,衣服隨便搭,還能改動作


2D影像腦補3D人體,衣服隨便搭,還能改動作


背景

利用NeRF 提供的可微渲染演算法,三維產生演算法,例如EG3D、StyleSDF,在靜態物件類別的生成上已經有了非常好的效果。但是人體相較於人臉或 CAD 模型等類別,在外觀和幾何上有更大的複雜度,並且人體是可形變的,因此從二維圖片中學習三維人體生成仍然是非常困難的任務。研究人員在這個任務上已經有了一些嘗試,例如 ENARF-GAN、GNARF,但是受限於低效的人體表達,他們無法實現高分辨率的生成,因此生成質量也非常低。

為了解決這個問題,本文提出了高效的組合的三維人體 NeRF 表示,用以實現高分辨率的(512x256)三維人體 GAN 訓練與生成。以下將介紹本文提出的人體 NeRF 表示,以及三維人體 GAN 訓練框架。

高效的人體 NeRF 表示

本文提出的人體 NeRF 是基於參數化人體模型 SMPL,它提供了方便的人體姿勢以及形狀的控制。進行 NeRF 建模時,如下圖所示,本文將人體分為 16 個部分。每一個部分對應於一個小的 NeRF 網路進行局部的建模。在渲染每一個局部的時候,本文只需要推理局部 NeRF。這種稀疏的渲染方式,在較低的運算資源下,也可以實現原生高解析度的渲染。

例如,渲染體型動作參數分別為的人體時,首先根據相機參數採樣光線;光線上的採樣點根據與SMPL 模型的相對關係進行反向蒙皮操作( inverse linear blend skinning),將posed 空間中的取樣點轉換到canonical 空間。接著計算Canonical 空間的取樣點屬於某個或某幾個局部NeRF 的bounding box 中,再進行NeRF 模型的推理,得到每個取樣點對應的顏色與密度;當某個取樣點落到多個局部NeRF的重疊區域,則會對每個NeRF 模型進行推理,將多個結果用window function 進行插值;最後這些資訊被用於光線的積分,得到最終的渲染圖。

2D影像腦補3D人體,衣服隨便搭,還能改動作

#########

三維人體 GAN 框架

基於提出的高效能的人體 NeRF 表達,本文實現了三維人體 GAN 訓練框架。在每一次訓練迭代中,本文首先從資料集中取樣一個 SMPL 的參數以及相機參數,並隨機產生一個高斯雜訊 z。利用本文所提出的人體 NeRF,本文可以將採樣的參數渲染成一張二維人體圖片,作為假樣本。再利用資料集中的真實樣本,本文進行 GAN 的對抗訓練。

2D影像腦補3D人體,衣服隨便搭,還能改動作

極度不平衡的資料集

二維人體資料集,例如DeepFashion,通常是為二維視覺任務準備的,因此人體的姿態多樣性非常受限。為了量化不平衡的程度,本文統計了 DeepFashion 中模特兒臉部朝向的頻率。如下圖所示,橙色的線代表了 DeepFashion 中人臉朝向的分佈,可見是極度不平衡的,對於學習三維人體表徵造成了困難。為了緩解這個問題,我們提出了由人體姿態指導的採樣方式,將分佈曲線拉平,如下圖中其他顏色的線所示。這可以讓訓練過程中的模型看到更多樣化以及更大角度的人體圖片,從而幫助三維人體幾何的學習。我們對採樣參數進行了實驗分析,從下面的表格中可見,加上人體姿態指導的採樣方式後,雖然影像品質(FID)會有些微下降,但學出的三維幾何(Depth)顯著變好。

高品質的生成結果

下圖展示了一些EVA3D 的生成結果,EVA3D 可以隨機採樣人體樣貌,並可控制渲染相機參數,人體姿勢以及體型。

2D影像腦補3D人體,衣服隨便搭,還能改動作

本文在四個大規模人體資料集上進行了實驗,分別是DeepFashion,SHHQ,UBCFashion,AIST 。該研究比較了最先進的靜態三維物體生成演算法 EG3D 與 StyleSDF。同時研究者也比較了專門針對三維人產生的演算法 ENARF-GAN。在指標的選擇上,本文兼顧渲染品質的評估(FID/KID)、人體控制的準確度(PCK)以及幾何生成的品質(Depth)。如下圖所示,本文在所有資料集,所有指標上均大幅超越先前的方案。

2D影像腦補3D人體,衣服隨便搭,還能改動作

應用潛力

最後,本文也展現了 EVA3D 的一些應用潛力。首先,研究測試了在隱空間中進行差值。如下圖所示,本文能夠在兩個三維人之間進行平滑的變化,且中間結果都保持較高的品質。此外,本文也進行了 GAN inversion 的實驗,研究者使用二維 GAN inversion 中常用的演算法 Pivotal Tuning Inversion。如下面右圖所示,此方法可以較好的還原重建目標的外觀,但是幾何部分失去了許多細節。可見,三維 GAN 的 inversion 仍然是一個很有挑戰性的任務。

2D影像腦補3D人體,衣服隨便搭,還能改動作

結語

#本文提出了首個高清三維人體NeRF 產生演算法EVA3D,並且僅需使用二維人體圖像資料即可訓練。 EVA3D 在多個大規模人體資料集上表現達到最佳,並且展現出了在下游任務上進行應用的潛力。 EVA3D 的訓練與測試程式碼都已經開源,歡迎大家去試用!

以上是2D影像腦補3D人體,衣服隨便搭,還能改動作的詳細內容。更多資訊請關注PHP中文網其他相關文章!

陳述
本文轉載於:51CTO.COM。如有侵權,請聯絡admin@php.cn刪除
閱讀AI索引2025:AI是您的朋友,敵人還是副駕駛?閱讀AI索引2025:AI是您的朋友,敵人還是副駕駛?Apr 11, 2025 pm 12:13 PM

斯坦福大學以人為本人工智能研究所發布的《2025年人工智能指數報告》對正在進行的人工智能革命進行了很好的概述。讓我們用四個簡單的概念來解讀它:認知(了解正在發生的事情)、欣賞(看到好處)、接納(面對挑戰)和責任(弄清我們的責任)。 認知:人工智能無處不在,並且發展迅速 我們需要敏銳地意識到人工智能發展和傳播的速度有多快。人工智能係統正在不斷改進,在數學和復雜思維測試中取得了優異的成績,而就在一年前,它們還在這些測試中慘敗。想像一下,人工智能解決複雜的編碼問題或研究生水平的科學問題——自2023年

開始使用Meta Llama 3.2 -Analytics Vidhya開始使用Meta Llama 3.2 -Analytics VidhyaApr 11, 2025 pm 12:04 PM

Meta的Llama 3.2:多模式和移動AI的飛躍 Meta最近公佈了Llama 3.2,這是AI的重大進步,具有強大的視覺功能和針對移動設備優化的輕量級文本模型。 以成功為基礎

AV字節:Meta' llama 3.2,Google的雙子座1.5等AV字節:Meta' llama 3.2,Google的雙子座1.5等Apr 11, 2025 pm 12:01 PM

本週的AI景觀:進步,道德考慮和監管辯論的旋風。 OpenAI,Google,Meta和Microsoft等主要參與者已經釋放了一系列更新,從開創性的新車型到LE的關鍵轉變

與機器交談的人類成本:聊天機器人真的可以在乎嗎?與機器交談的人類成本:聊天機器人真的可以在乎嗎?Apr 11, 2025 pm 12:00 PM

連接的舒適幻想:我們在與AI的關係中真的在蓬勃發展嗎? 這個問題挑戰了麻省理工學院媒體實驗室“用AI(AHA)”研討會的樂觀語氣。事件展示了加油

了解Python的Scipy圖書館了解Python的Scipy圖書館Apr 11, 2025 am 11:57 AM

介紹 想像一下,您是科學家或工程師解決複雜問題 - 微分方程,優化挑戰或傅立葉分析。 Python的易用性和圖形功能很有吸引力,但是這些任務需要強大的工具

3種運行Llama 3.2的方法-Analytics Vidhya3種運行Llama 3.2的方法-Analytics VidhyaApr 11, 2025 am 11:56 AM

Meta's Llama 3.2:多式聯運AI強力 Meta的最新多模式模型Llama 3.2代表了AI的重大進步,具有增強的語言理解力,提高的準確性和出色的文本生成能力。 它的能力t

使用dagster自動化數據質量檢查使用dagster自動化數據質量檢查Apr 11, 2025 am 11:44 AM

數據質量保證:與Dagster自動檢查和良好期望 保持高數據質量對於數據驅動的業務至關重要。 隨著數據量和源的增加,手動質量控制變得效率低下,容易出現錯誤。

大型機在人工智能時代有角色嗎?大型機在人工智能時代有角色嗎?Apr 11, 2025 am 11:42 AM

大型機:AI革命的無名英雄 雖然服務器在通用應用程序上表現出色並處理多個客戶端,但大型機是專為關鍵任務任務而建立的。 這些功能強大的系統經常在Heavil中找到

See all articles

熱AI工具

Undresser.AI Undress

Undresser.AI Undress

人工智慧驅動的應用程序,用於創建逼真的裸體照片

AI Clothes Remover

AI Clothes Remover

用於從照片中去除衣服的線上人工智慧工具。

Undress AI Tool

Undress AI Tool

免費脫衣圖片

Clothoff.io

Clothoff.io

AI脫衣器

AI Hentai Generator

AI Hentai Generator

免費產生 AI 無盡。

熱門文章

R.E.P.O.能量晶體解釋及其做什麼(黃色晶體)
3 週前By尊渡假赌尊渡假赌尊渡假赌
R.E.P.O.最佳圖形設置
3 週前By尊渡假赌尊渡假赌尊渡假赌
R.E.P.O.如果您聽不到任何人,如何修復音頻
3 週前By尊渡假赌尊渡假赌尊渡假赌
WWE 2K25:如何解鎖Myrise中的所有內容
3 週前By尊渡假赌尊渡假赌尊渡假赌

熱工具

PhpStorm Mac 版本

PhpStorm Mac 版本

最新(2018.2.1 )專業的PHP整合開發工具

ZendStudio 13.5.1 Mac

ZendStudio 13.5.1 Mac

強大的PHP整合開發環境

Atom編輯器mac版下載

Atom編輯器mac版下載

最受歡迎的的開源編輯器

SecLists

SecLists

SecLists是最終安全測試人員的伙伴。它是一個包含各種類型清單的集合,這些清單在安全評估過程中經常使用,而且都在一個地方。 SecLists透過方便地提供安全測試人員可能需要的所有列表,幫助提高安全測試的效率和生產力。清單類型包括使用者名稱、密碼、URL、模糊測試有效載荷、敏感資料模式、Web shell等等。測試人員只需將此儲存庫拉到新的測試機上,他就可以存取所需的每種類型的清單。

WebStorm Mac版

WebStorm Mac版

好用的JavaScript開發工具