自然可控的人與場景互動(Human Scene Interaction, HSI)生成在虛擬實境/擴增實境(VR/AR)內容創作和以人為中心的人工智慧等多個領域發揮著重要作用。
然而,現有方法的可控能力有限、互動種類有限、生成結果不自然,嚴重限制了它在現實中的應用場景
在ICCV 2023的研究中,天津大學和清華大學的團隊提出了一個名為Narrator的解決方案,針對這個問題進行了探索。這個解決方案的重點是在從文字描述中自然可控地生成逼真且多樣的人與場景交互這一具有挑戰性的任務上
##圖片
專案首頁連結:http://cic.tju.edu.cn/faculty/likun/projects/Narrator重新寫的內容是:程式碼連結:https: //github.com/HaibiaoXuan/Narrator 從人類認知角度來看,理想的生成模型應能正確推理空間關係並探索互動的自由度。 因此,作者提出了一個基於關係推理的生成模型。該模型透過場景圖對場景和描述中的空間關係進行建模,並引入了一種將交互動作表示為原子身體部位狀態的部位級交互機制 特別是,作者透過關係推理提出了一種簡單但有效的多人生成策略,這是對可控的多人場景交互生成的首次探索 最終,經過大量實驗和使用者研究,作者證明了Narrator能夠以可控的方式產生多樣化的交互,其效果明顯優於目前已有的工作##方法動機
#現有的人與場景互動生成方法大多關注在互動的物理幾何關係,但缺乏對生成的語意控制,也侷限於單人生成。
因此,作者著眼於一項具有挑戰性的任務,即從自然語言描述中可控生成真實且多樣的人與場景互動。作者觀察到人類通常會透過空間感知和動作辨識來自然地描述在不同地點進行各種互動的人。
圖片重寫內容如下:根據圖1,Narrator可以自然而可控地產生語意一致且物理合理的人與場景交互,適用於以下各種情況:(a)由空間關係引導的交互,(b)由多個動作引導的交互,(c)多人場景交互,以及(d)結合上述交互類型的人與場景互動
具體來說,空間關係可以用來描述場景或局部區域中不同物件之間的相互關係。而互動動作則由原子身體部位的狀態來指定,例如人的腳踩地、軀幹靠著、右手輕拍和低著頭等
以此為出發點,作者採用場景圖來表示空間關係,提出了聯合全局和局部場景圖(Joint Global and Local Scene Graph, JGLSG) 機制,為隨後的生成提供了全局位置感知。
同時,考慮到身體部位狀態是模擬符合文字的逼真互動的關鍵,作者引入了部位層級動作(Part-Level Action, PLA)機制來建立人體部位與動作之間的對應關係。
受益於有效的觀察認知以及所提出的關係推理的靈活性和復用性,作者進一步提出一種簡單而有效的多人生成策略,這是當時第一個自然可控且使用者友好的多人場景互動(Multi-Human Scene Interaction, MHSI)生成方案。
方法思維
Narrator框架總覽
Narrator的目標是以自然可控的方式產生人物與場景之間的互動,這種互動在語義上與文字描述一致,並且在物理上與三維場景相匹配
##圖片圖2 Narrator框架總覽
根據圖2所示,此方法使用基於Transformer的條件變分自編碼器(cVAE),主要包括以下幾個部分: 與現有研究相比,我們設計了一種聯合全局和局部場景圖機制,以推理複雜的空間關係並實現全局定位感知2)針對人們會同時透過不同的身體部位完成互動動作的觀察,引入了部件層級動作機制,以實現逼真和多樣化的互動;
#在場景感知最佳化過程中,我們額外引入了交互二分面損失,以期獲得更優秀的生成結果
4)進一步擴展到多人互動生成,並最終促進了多人場景互動的第一步。
#空間關係的推理可以為模型提供特定場景的線索,對於實現人與場景交互的自然可控性具有重要作用。
為了實現這一目標,作者提出了一種全局和局部場景圖聯合機制,該機制透過以下三個步驟來實施:
##1. 全域場景圖產生:給定場景,用預先訓練好的場景圖模型產生全域場景圖,即,其中,是帶有類別標籤的對象,是和之間的關係,n是物體數量,m是關係數量;
#2. 局部場景圖產生:採用語意解析工具來辨識描述的句式結構並提取生成局部場景,其中定義了主詞-謂語-物件的三元組;
場景圖匹配:透過相同的物件語義標籤,模型將全局場景圖和局部場景圖中的節點進行對應,並透過擴展邊關係來增加一個虛擬人節點,以提供位置資訊 零件級動作(PLA )機制 作者提出了一種細粒度部位層級動作機制,透過該機制,模型能夠從給定的交互作用中註意到重要的身體部位狀態並忽略無關的部位 具體來說,作者探索了豐富且多樣的互動動作,並將這些可能的動作對應到人體的五個主要部位:頭部、軀幹、左/右臂、左/右手和左/右下半身。 在進行後續編碼時,我們可以同時使用獨熱編碼(One-Hot)來代表這些動作和身體部位,並根據對應關係將它們連接起來 作者在多動作的互動生成中採用了注意力機制,以學習身體結構不同部位的狀態 在給定的互動動作組合中,每個動作對應的身體部位與所有其他動作之間的注意力都會自動被屏蔽。 以「一個人使用櫃子蹲在地上」為例,蹲下對應的是下半身狀態,因此其他部位標記的注意力將被屏蔽為零。 重寫後的內容:以「一個人使用櫃子蹲在地上」為例,蹲下所對應的是下半身的狀態,因此其他身體部位的注意力會被完全屏蔽 場景感知最佳化 作者利用幾何和物理限制進行場景感知最佳化,以改善生成結果。在整個優化過程中,該方法確保生成的姿勢不會出現偏差,同時鼓勵與場景接觸,並約束身體以避免與場景相互穿透 給定三維場景S和產生的SMPL-X參數後,優化損失為:其中,鼓勵身體頂點與場景接觸;是基於符號距離的碰撞項;是相比現有工作額外引入的交互二分面(IBS)損失,其為取樣於場景和人體之間的等距點集合;是一個正規因子,用於懲罰偏離初始化的參數。
在現實世界的場景中,很多情況下並非只有一個人與場景交互,而是多人以獨立或關聯的方式進行互動。
然而,由於缺乏MHSI資料集,現有方法通常需要額外的人工努力,無法以可控和自動的方式處理這項任務。
為此,作者僅利用現有的單人資料集,為多人生成方向提出了簡單而有效的策略。
給定多人相關的文本描述後,作者首先將其解析為多個局部場景圖和交互動作,並定義候選集為,其中l為人數。
對於候選集中的每一項,首先將其與場景和對應全域場景圖一起輸入Narrator,然後執行最佳化過程。
為了處理人與人之間的碰撞,在最佳化過程中額外引入了損失,其中為人與人符號距離。
然後,當優化損失低於根據實驗經驗確定的閾值時,接受這一生成結果,同時透過添加人類節點來更新;否則認為生成結果不可信,並透過屏蔽對應的物體節點來更新。
值得注意的是,這種更新方式建立了每一代結果與前一代結果之間的關係,避免了一定程度的擁擠,並且與簡單的多次生成相比空間分佈更合理和互動更逼真。
以上過程可以表達為:
鑑於目前現有的方法無法直接從文字描述中自然可控地產生人與場景的交互,我們將PiGraph [1]、POSA [2]、COINS [3] 進行合理擴展,使其適用於文字描述,並使用相同的資料集對它們的官方模型進行訓練。經過修改後,我們將這些方法命名為PiGraph-Text、POSA-Text和COINS-Text
#圖片
圖3 不同方法的定性對比結果
在圖3中展示了Narrator與三種基線的定性比較結果。由於PiGraph-Text的表現形式限制,它有更嚴重的穿透問題
POSA-Text在最佳化過程中往往會陷入局部最小值,從而產生不良的交互接觸。 COINS-Text將動作綁定到特定物體上,缺乏對場景的全局感知,導致與未指定物體的穿透,並且難以處理複雜的空間關係。
相較之下,Narrator可以根據不同層次的文字描述,正確推理空間關係,剖析多動作下的身體狀態,從而獲得更好的生成效果。
在定量比較方面,如表1所示,Narrator在五個指標上都優於其他方法,顯示出該方法產生的結果具有更準確的文本一致性和更優秀的物理合理性。
表1 不同方法的量化比較結果
除此之外,作者也提供了詳細的比較與分析來更好地了解所提出的MHSI策略的有效性。
考慮到目前還沒有針對MHSI的工作,他們選擇了一種直接的方法作為基線,即與用COINS按順序生成和優化的方法。
為了進行公平比較,同樣為其引入了人為碰撞損失。圖4和表2分別展示了定性和定量結果,都有力證明了作者所提出的策略在MHSI上語義一致和物理合理的優勢。
圖4 與用COINS 依序產生和最佳化的方法進行的MHSI定性比較
#研究的主要方向包括三維視覺、電腦視覺以及人與場景互動生成
#主要研究方向:三維視覺、電腦視覺、人體與衣物重建
研究方向主要包括三維視覺、電腦視覺和圖像生成
研究方向主要集中在以人為中心的電腦視覺和圖形學
主要研究方向:電腦圖形學,三維視覺與計算攝影
個人主頁連結:https://liuyebin.com/
#研究的主要方向:三維視覺、智慧重建與生成
個人主頁:http://cic .tju.edu.cn/faculty/likun
參考文獻:
[1] Savva M, Chang A X, Hanrahan P, 等. Pigraphs: 從觀察中學習互動快照[J]. ACM Transactions on Graphics (TOG), 2016, 35(4): 1-12.
[2] Hassan M, Ghosh P, Tesch J, et al. Populating 3D scenes by learning human-scene interaction[C]. Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition. 2021: 14708-14718.
[3] Zhao K, Wang S, Zhang Y, et al . Compositional human-scene interaction synthesis with semantic control[C]. European Conference on Computer Vision. Cham: Springer Nature Switzerland, 2022: 311-327.
以上是「人與場景交互生成」新突破!天大、清華發布Narrator:文字驅動,自然可控|ICCV 2023的詳細內容。更多資訊請關注PHP中文網其他相關文章!