人體動作生成任務旨在產生逼真的人體動作序列,以滿足娛樂、虛擬實境、機器人技術等領域的需求。傳統的生成方法包括3D 角色創建、關鍵幀動畫和動作捕捉等步驟,其存在許多限制,如耗時較長,需要專業技術知識,涉及昂貴的系統和軟體,不同軟硬體系統之間可能存在兼容性問題等。隨著深度學習的發展,人們開始嘗試使用生成模型來實現人體動作序列的自動生成,例如透過輸入文字描述,要求模型生成與文字要求相符的動作序列。隨著擴散模型被引入這個領域,生成動作與給定文字的一致性不斷提高。
然而,儘管生成動作的自然程度已經有所提升,但與使用需求仍有較大差距。為了進一步提升人體動作生成演算法的能力,本文在MotionDiffuse [1]的基礎上提出了ReMoDiffuse演算法(圖1)。透過利用檢索策略,找到高相關性的參考樣本,並提供細微的參考特徵,從而產生更高品質的動作序列
論文連結:https://arxiv.org/pdf/2304.01116.pdf
GitHub連結:https://github.com/mingyuan-zhang/ReMoDiffuse
專案首頁:https://mingyuan-zhang.github.io/projects/ReMoDiffuse.html
透過巧妙地將擴散模型和創新的檢索策略融合,ReMoDiffuse 為文本指導的人體動作生成注入了新的生命力。經過精心構思的模型結構,ReMoDiffuse 不僅能夠創造出豐富多樣、真實度高的動作序列,還能有效地滿足各種長度和多粒度的動作需求。實驗證明,ReMoDiffuse 在動作生成領域的多個關鍵指標上表現出色,顯著地超越了現有演算法。
方法介紹
ReMoDiffuse的主要流程分為兩個階段:檢索和擴散。在檢索階段,ReMoDiffuse利用混合檢索技術,根據使用者輸入文字和預期的動作序列長度,從外部的多模態資料庫中檢索出資訊豐富的樣本,為動作生成提供強大的指導。在擴散階段,ReMoDiffuse利用檢索階段獲取的信息,透過高效的模型結構產生與用戶輸入語義一致的運動序列
為了確保高效的檢索,ReMoDiffuse 為檢索階段精心設計了以下數據流(圖2):
共有三種資料參與檢索過程,分別是使用者輸入文字、預期動作序列長度,以及一個外部的、包含多個 對的多模態資料庫。在檢索最相關的樣本時,ReMoDiffuse 利用公式計算每個資料庫中的樣本與使用者輸入的相似度。這裡的第一項是利用預先訓練的CLIP [2] 模型的文字編碼器對使用者輸入文字和資料庫實體的文字計算餘弦相似度,第二項計算預期動作序列長度和資料庫實體的動作序列長度之間的相對差異作為運動學相似度。計算相似度分數後,ReMoDiffuse 選擇相似度排名前 k 的樣本作為檢索到的樣本,並提取出文字特徵,和動作特徵。這兩者和從使用者輸入的文字中提取的特徵 一同作為輸入給擴散階段的訊號,指導動作產生。
擴散過程(圖3.c)由正向過程和逆向過程兩個部分組成。在正向過程中,ReMoDiffuse會逐步將高斯雜訊加入原始動作資料中,並最終將其轉換為隨機雜訊。逆向過程則專注於去除雜訊並產生逼真的動作樣本。從一個隨機高斯雜訊開始,ReMoDiffuse在逆向過程的每一步都使用語意調變模組(SMT)(圖3.a)來估測真實分佈,並根據條件訊號逐步去除雜訊。這裡的SMT中的SMA模組將會將所有的條件資訊融入產生的序列特徵中,是本文提出的核心模組
對於SMA 層(圖3.b),我們使用了高效率的注意力機制(Efficient Attention)[3] 來加速注意力模組的計算,並創造了一個更強調全局資訊的全局特徵圖。此特徵圖為動作序列提供了更全面的語意線索,從而提升了模型的表現。 SMA 層的核心目標是透過聚合條件資訊來優化動作序列的生成。在這個框架下:
1.Q 向量具體地代表了我們期望基於條件資訊產生的預期動作序列。
2.K 向量作為一種索引機制綜合考慮了多個要素,包括當前動作序列特徵、使用者輸入的語義特徵,以及從檢索樣本中獲取的特徵和。其中,表示從檢索樣本中取得的動作序列特徵,表示從檢索樣本中取得的文字描述特徵。這種綜合性的建構方式保證了 K 向量在索引過程中的有效性。
3.V 向量提供了產生動作所需的實際特徵。與 K 向量類似,V 向量綜合考慮了檢索樣本、使用者輸入和當前動作序列。由於檢索樣本的文字描述特徵與產生的動作之間沒有直接關聯,因此在計算 V 向量時,我們選擇不使用此特徵,以避免不必要的資訊幹擾
結合Efficient Attention 的全局注意力模板機制,SMA 層利用來自檢索樣本的輔助信息、用戶文本的語義信息以及待去噪序列的特徵信息,建立起一系列綜合性的全局模板,使得所有條件資訊能夠被待生成序列充分吸收。
為了實現內容的重寫,需要將原文轉換成中文。以下是重寫後的內容: 研究設計與實驗結果
我們對ReMoDiffuse進行了HumanML3D [4]和KIT-ML [5]兩個資料集的評估。實驗結果(表1、2)從文字一致性和動作品質兩個角度展示了我們提出的ReMoDiffuse框架的強大性能和優勢
以下是一些展示ReMoDiffuse 強大效能的範例(圖4)。與先前的方法相比,例如,在給定文字「一個人在圓圈裡跳躍」時,只有 ReMoDiffuse 能夠準確捕捉到「跳躍」動作和「圓圈」路徑。這表明ReMoDiffuse 能夠有效地捕捉文字細節,並將內容與給定的運動持續時間對齊
我們對Guo 等人的方法[4]、MotionDiffuse [1]、MDM [6] 以及ReMoDiffuse 所產生的相應動作序列進行了可視化展示,並以問卷形式收集測試參與者的意見。結果的分佈情形如圖 5 所示。從結果中可以清楚看出,在大多數情況下,參與測試者認為我們的方法 —— 即 ReMoDiffuse 所產生的動作序列在四個演算法中最貼合所給的文字描述,也最自然流暢。
引用
明源張、蔡忠剛、潘亮、洪方舟、郭欣穎、楊磊和劉子偉。 Motiondiffuse: 基於擴散模型的文本驅動人體動作生成。 arXiv預印本arXiv:2208.15001, 2022年
[2] Alec Radford, Jong Wook Kim, Chris Hallacy, Aditya Ramesh, Gabriel Goh, Sandhini Agarwal, Girish Sastry, Amanda Askell, Pam Mishkin, Jack Clark, et al. Learning transferable visual models from natural language supervision. arXiv preprint arXiv:2103.00020, 2021.
#\ Yi, and Hongsheng Li. Efficient attention: Attention with linear complexities. In Proceedings of the IEEE/CVF winter conference on applications of computer vision, pages 3531–3539, 2021.
[4 ] Chuan Guo, Shihao Zou, Xinxin Zuo, Sen Wang, Wei Ji, Xingyu Li, and Li Cheng. Generating diverse and natural 3d human motions from text. In Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition, pages –5161, 2022.
#需要重寫的內容是:[5] Matthias Plappert, Christian Mandery和Tamim Asfour。 《運動語言資料集》。大數據,4(4):236-252,2016年
[6] Guy Tevet, Sigal Raab, Brian Gordon, Yonatan Shafir, Daniel Cohen-Or, and Amit H Bermano . Human motion diffusion model. In The Eleventh International Conference on Learning Representations, 2022.
以上是ICCV 2023 | 重塑人體動作生成,融合擴散模型與檢索策略的新範式ReMoDiffuse來了的詳細內容。更多資訊請關注PHP中文網其他相關文章!