搜尋
首頁科技週邊人工智慧ICCV 2023 | 重塑人體動作生成,融合擴散模型與檢索策略的新範式ReMoDiffuse來了

人體動作生成任務旨在產生逼真的人體動作序列,以滿足娛樂、虛擬實境、機器人技術等領域的需求。傳統的生成方法包括3D 角色創建、關鍵幀動畫和動作捕捉等步驟,其存在許多限制,如耗時較長,需要專業技術知識,涉及昂貴的系統和軟體,不同軟硬體系統之間可能存在兼容性問題等。隨著深度學習的發展,人們開始嘗試使用生成模型來實現人體動作序列的自動生成,例如透過輸入文字描述,要求模型生成與文字要求相符的動作序列。隨著擴散模型被引入這個領域,生成動作與給定文字的一致性不斷提高。

然而,儘管生成動作的自然程度已經有所提升,但與使用需求仍有較大差距。為了進一步提升人體動作生成演算法的能力,本文在MotionDiffuse [1]的基礎上提出了ReMoDiffuse演算法(圖1)。透過利用檢索策略,找到高相關性的參考樣本,並提供細微的參考特徵,從而產生更高品質的動作序列

ICCV 2023 | 重塑人体动作生成,融合扩散模型与检索策略的新范式ReMoDiffuse来了

  • 論文連結:https://arxiv.org/pdf/2304.01116.pdf

  • GitHub連結:https://github.com/mingyuan-zhang/ReMoDiffuse

  • 專案首頁:https://mingyuan-zhang.github.io/projects/ReMoDiffuse.html

透過巧妙地將擴散模型和創新的檢索策略融合,ReMoDiffuse 為文本指導的人體動作生成注入了新的生命力。經過精心構思的模型結構,ReMoDiffuse 不僅能夠創造出豐富多樣、真實度高的動作序列,還能有效地滿足各種長度和多粒度的動作需求。實驗證明,ReMoDiffuse 在動作生成領域的多個關鍵指標上表現出色,顯著地超越了現有演算法。

ICCV 2023 | 重塑人体动作生成,融合扩散模型与检索策略的新范式ReMoDiffuse来了圖1. ReMoDiffuse 概覽

方法介紹

ReMoDiffuse的主要流程分為兩個階段:檢索和擴散。在檢索階段,ReMoDiffuse利用混合檢索技術,根據使用者輸入文字和預期的動作序列長度,從外部的多模態資料庫中檢索出資訊豐富的樣本,為動作生成提供強大的指導。在擴散階段,ReMoDiffuse利用檢索階段獲取的信息,透過高效的模型結構產生與用戶輸入語義一致的運動序列

為了確保高效的檢索,ReMoDiffuse 為檢索階段精心設計了以下數據流(圖2):

共有三種資料參與檢索過程,分別是使用者輸入文字、預期動作序列長度,以及一個外部的、包含多個 對的多模態資料庫。在檢索最相關的樣本時,ReMoDiffuse 利用公式ICCV 2023 | 重塑人体动作生成,融合扩散模型与检索策略的新范式ReMoDiffuse来了計算每個資料庫中的樣本與使用者輸入的相似度。這裡的第一項是利用預先訓練的CLIP [2] 模型的文字編碼器對使用者輸入文字和資料庫實體的文字計算餘弦相似度,第二項計算預期動作序列長度和資料庫實體的動作序列長度之間的相對差異作為運動學相似度。計算相似度分數後,ReMoDiffuse 選擇相似度排名前 k 的樣本作為檢索到的樣本,並提取出文字特徵ICCV 2023 | 重塑人体动作生成,融合扩散模型与检索策略的新范式ReMoDiffuse来了,和動作特徵ICCV 2023 | 重塑人体动作生成,融合扩散模型与检索策略的新范式ReMoDiffuse来了。這兩者和從使用者輸入的文字中提取的特徵ICCV 2023 | 重塑人体动作生成,融合扩散模型与检索策略的新范式ReMoDiffuse来了 一同作為輸入給擴散階段的訊號,指導動作產生。

ICCV 2023 | 重塑人体动作生成,融合扩散模型与检索策略的新范式ReMoDiffuse来了圖 2:ReMoDiffuse 的檢索階段

擴散過程(圖3.c)由正向過程和逆向過程兩個部分組成。在正向過程中,ReMoDiffuse會逐步將高斯雜訊加入原始動作資料中,並最終將其轉換為隨機雜訊。逆向過程則專注於去除雜訊並產生逼真的動作樣本。從一個隨機高斯雜訊開始,ReMoDiffuse在逆向過程的每一步都使用語意調變模組(SMT)(圖3.a)來估測真實分佈,並根據條件訊號逐步去除雜訊。這裡的SMT中的SMA模組將會將所有的條件資訊融入產生的序列特徵中,是本文提出的核心模組

ICCV 2023 | 重塑人体动作生成,融合扩散模型与检索策略的新范式ReMoDiffuse来了圖3:ReMoDiffuse 的擴散階段

對於SMA 層(圖3.b),我們使用了高效率的注意力機制(Efficient Attention)[3] 來加速注意力模組的計算,並創造了一個更強調全局資訊的全局特徵圖。此特徵圖為動作序列提供了更全面的語意線索,從而提升了模型的表現。 SMA 層的核心目標是透過聚合條件資訊來優化動作序列ICCV 2023 | 重塑人体动作生成,融合扩散模型与检索策略的新范式ReMoDiffuse来了的生成。在這個框架下:

1.Q 向量具體地代表了我們期望基於條件資訊產生的預期動作序列ICCV 2023 | 重塑人體動作生成,融合擴散模型與檢索策略的新範式ReMoDiffuse來了

2.K 向量作為一種索引機制綜合考慮了多個要素,包括當前動作序列特徵ICCV 2023 | 重塑人體動作生成,融合擴散模型與檢索策略的新範式ReMoDiffuse來了、使用者輸入的語義特徵ICCV 2023 | 重塑人體動作生成,融合擴散模型與檢索策略的新範式ReMoDiffuse來了,以及從檢索樣本中獲取的特徵ICCV 2023 | 重塑人體動作生成,融合擴散模型與檢索策略的新範式ReMoDiffuse來了ICCV 2023 | 重塑人體動作生成,融合擴散模型與檢索策略的新範式ReMoDiffuse來了。其中,ICCV 2023 | 重塑人體動作生成,融合擴散模型與檢索策略的新範式ReMoDiffuse來了表示從檢索樣本中取得的動作序列特徵,ICCV 2023 | 重塑人體動作生成,融合擴散模型與檢索策略的新範式ReMoDiffuse來了表示從檢索樣本中取得的文字描述特徵。這種綜合性的建構方式保證了 K 向量在索引過程中的有效性。

3.V 向量提供了產生動作所需的實際特徵。與 K 向量類似,V 向量綜合考慮了檢索樣本、使用者輸入和當前動作序列。由於檢索樣本的文字描述特徵與產生的動作之間沒有直接關聯,因此在計算 V 向量時,我們選擇不使用此特徵,以避免不必要的資訊幹擾

結合Efficient Attention 的全局注意力模板機制,SMA 層利用來自檢索樣本的輔助信息、用戶文本的語義信息以及待去噪序列的特徵信息,建立起一系列綜合性的全局模板,使得所有條件資訊能夠被待生成序列充分吸收。

為了實現內容的重寫,需要將原文轉換成中文。以下是重寫後的內容: 研究設計與實驗結果

我們對ReMoDiffuse進行了HumanML3D [4]和KIT-ML [5]兩個資料集的評估。實驗結果(表1、2)從文字一致性和動作品質兩個角度展示了我們提出的ReMoDiffuse框架的強大性能和優勢

ICCV 2023 | 重塑人体动作生成,融合扩散模型与检索策略的新范式ReMoDiffuse来了表1. 不同方法在HumanML3D 測試集上的表現

ICCV 2023 | 重塑人体动作生成,融合扩散模型与检索策略的新范式ReMoDiffuse来了表2. 不同方法在KIT-ML 測試集上的表現

以下是一些展示ReMoDiffuse 強大效能的範例(圖4)。與先前的方法相比,例如,在給定文字「一個人在圓圈裡跳躍」時,只有 ReMoDiffuse 能夠準確捕捉到「跳躍」動作和「圓圈」路徑。這表明ReMoDiffuse 能夠有效地捕捉文字細節,並將內容與給定的運動持續時間對齊

ICCV 2023 | 重塑人体动作生成,融合扩散模型与检索策略的新范式ReMoDiffuse来了圖4. ReMoDiffuse 產生的動作序列與其他方法產生的動作序列的比較

我們對Guo 等人的方法[4]、MotionDiffuse [1]、MDM [6] 以及ReMoDiffuse 所產生的相應動作序列進行了可視化展示,並以問卷形式收集測試參與者的意見。結果的分佈情形如圖 5 所示。從結果中可以清楚看出,在大多數情況下,參與測試者認為我們的方法 —— 即 ReMoDiffuse 所產生的動作序列在四個演算法中最貼合所給的文字描述,也最自然流暢。

ICCV 2023 | 重塑人体动作生成,融合扩散模型与检索策略的新范式ReMoDiffuse来了圖5:使用者研究的結果分佈

引用

明源張、蔡忠剛、潘亮、洪方舟、郭欣穎、楊磊和劉子偉。 Motiondiffuse: 基於擴散模型的文本驅動人體動作生成。 arXiv預印本arXiv:2208.15001, 2022年

[2] Alec Radford, Jong Wook Kim, Chris Hallacy, Aditya Ramesh, Gabriel Goh, Sandhini Agarwal, Girish Sastry, Amanda Askell, Pam Mishkin, Jack Clark, et al. Learning transferable visual models from natural language supervision. arXiv preprint arXiv:2103.00020, 2021.

#\ Yi, and Hongsheng Li. Efficient attention: Attention with linear complexities. In Proceedings of the IEEE/CVF winter conference on applications of computer vision, pages 3531–3539, 2021.

[4 ] Chuan Guo, Shihao Zou, Xinxin Zuo, Sen Wang, Wei Ji, Xingyu Li, and Li Cheng. Generating diverse and natural 3d human motions from text. In Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition, pages –5161, 2022.

#需要重寫的內容是:[5] Matthias Plappert, Christian Mandery和Tamim Asfour。 《運動語言資料集》。大數據,4(4):236-252,2016年

[6] Guy Tevet, Sigal Raab, Brian Gordon, Yonatan Shafir, Daniel Cohen-Or, and Amit H Bermano . Human motion diffusion model. In The Eleventh International Conference on Learning Representations, 2022.

以上是ICCV 2023 | 重塑人體動作生成,融合擴散模型與檢索策略的新範式ReMoDiffuse來了的詳細內容。更多資訊請關注PHP中文網其他相關文章!

陳述
本文轉載於:机器之心。如有侵權,請聯絡admin@php.cn刪除
及時工程中的思想圖是什麼及時工程中的思想圖是什麼Apr 13, 2025 am 11:53 AM

介紹 在迅速的工程中,“思想圖”是指使用圖理論來構建和指導AI的推理過程的新方法。與通常涉及線性S的傳統方法不同

優化您的組織與Genai代理商的電子郵件營銷優化您的組織與Genai代理商的電子郵件營銷Apr 13, 2025 am 11:44 AM

介紹 恭喜!您經營一家成功的業務。通過您的網頁,社交媒體活動,網絡研討會,會議,免費資源和其他來源,您每天收集5000個電子郵件ID。下一個明顯的步驟是

Apache Pinot實時應用程序性能監視Apache Pinot實時應用程序性能監視Apr 13, 2025 am 11:40 AM

介紹 在當今快節奏的軟件開發環境中,確保最佳應用程序性能至關重要。監視實時指標,例如響應時間,錯誤率和資源利用率可以幫助MAIN

Chatgpt擊中了10億用戶? Openai首席執行官說:'短短幾週內翻了一番Chatgpt擊中了10億用戶? Openai首席執行官說:'短短幾週內翻了一番Apr 13, 2025 am 11:23 AM

“您有幾個用戶?”他扮演。 阿爾特曼回答說:“我認為我們上次說的是每週5億個活躍者,而且它正在迅速增長。” “你告訴我,就像在短短幾週內翻了一番,”安德森繼續說道。 “我說那個私人

pixtral -12b:Mistral AI'第一個多模型模型 - 分析Vidhyapixtral -12b:Mistral AI'第一個多模型模型 - 分析VidhyaApr 13, 2025 am 11:20 AM

介紹 Mistral發布了其第一個多模式模型,即Pixtral-12b-2409。該模型建立在Mistral的120億參數Nemo 12B之上。是什麼設置了該模型?現在可以拍攝圖像和Tex

生成AI應用的代理框架 - 分析Vidhya生成AI應用的代理框架 - 分析VidhyaApr 13, 2025 am 11:13 AM

想像一下,擁有一個由AI驅動的助手,不僅可以響應您的查詢,還可以自主收集信息,執行任務甚至處理多種類型的數據(TEXT,圖像和代碼)。聽起來有未來派?在這個a

生成AI在金融部門的應用生成AI在金融部門的應用Apr 13, 2025 am 11:12 AM

介紹 金融業是任何國家發展的基石,因為它通過促進有效的交易和信貸可用性來推動經濟增長。交易的便利和信貸

在線學習和被動攻擊算法指南在線學習和被動攻擊算法指南Apr 13, 2025 am 11:09 AM

介紹 數據是從社交媒體,金融交易和電子商務平台等來源的前所未有的速度生成的。處理這種連續的信息流是一個挑戰,但它提供了

See all articles

熱AI工具

Undresser.AI Undress

Undresser.AI Undress

人工智慧驅動的應用程序,用於創建逼真的裸體照片

AI Clothes Remover

AI Clothes Remover

用於從照片中去除衣服的線上人工智慧工具。

Undress AI Tool

Undress AI Tool

免費脫衣圖片

Clothoff.io

Clothoff.io

AI脫衣器

AI Hentai Generator

AI Hentai Generator

免費產生 AI 無盡。

熱門文章

R.E.P.O.能量晶體解釋及其做什麼(黃色晶體)
3 週前By尊渡假赌尊渡假赌尊渡假赌
R.E.P.O.最佳圖形設置
3 週前By尊渡假赌尊渡假赌尊渡假赌
R.E.P.O.如果您聽不到任何人,如何修復音頻
3 週前By尊渡假赌尊渡假赌尊渡假赌
WWE 2K25:如何解鎖Myrise中的所有內容
4 週前By尊渡假赌尊渡假赌尊渡假赌

熱工具

SublimeText3 Linux新版

SublimeText3 Linux新版

SublimeText3 Linux最新版

EditPlus 中文破解版

EditPlus 中文破解版

體積小,語法高亮,不支援程式碼提示功能

PhpStorm Mac 版本

PhpStorm Mac 版本

最新(2018.2.1 )專業的PHP整合開發工具

SublimeText3 Mac版

SublimeText3 Mac版

神級程式碼編輯軟體(SublimeText3)

記事本++7.3.1

記事本++7.3.1

好用且免費的程式碼編輯器