自然可控的人与场景交互(Human Scene Interaction, HSI)生成在虚拟现实/增强现实(VR/AR)内容创作和以人为中心的人工智能等多个领域发挥着重要作用。
然而,现有方法的可控能力有限、交互种类有限、生成结果不自然,严重限制了它在现实中的应用场景
在ICCV 2023的研究中,天津大学和清华大学的团队提出了一种名为Narrator的解决方案,针对这个问题进行了探索。该解决方案的重点是在从文本描述中自然可控地生成逼真且多样的人与场景交互这一具有挑战性的任务上
图片
项目主页链接:http://cic.tju.edu.cn/faculty/likun/projects/Narrator
重新编写的内容是:代码链接:https://github.com/HaibiaoXuan/Narrator
从人类认知角度来看,理想的生成模型应能正确推理空间关系并探索交互的自由度。
因此,作者提出了一个基于关系推理的生成模型。该模型通过场景图对场景和描述中的空间关系进行建模,并引入了一种将交互动作表示为原子身体部位状态的部位级交互机制
特别是,作者通过关系推理提出了一种简单但有效的多人生成策略,这是对可控的多人场景交互生成的首次探索
最终,经过大量实验和用户调研,作者证明了Narrator能够以可控的方式生成多样化的交互,其效果明显优于目前已有的工作
方法动机
现有的人与场景交互生成方法大多关注在交互的物理几何关系,但缺乏对生成的语义控制,也局限于单人生成。
因此,作者着眼于一项具有挑战性的任务,即从自然语言描述中可控生成真实且多样的人与场景交互。作者观察到人类通常会通过空间感知和动作识别来自然描述在不同地点进行各种互动的人。
图片
重写内容如下:根据图1,Narrator可以自然而可控地生成语义一致且物理合理的人与场景交互,适用于以下各种情况:(a)由空间关系引导的交互,(b)由多个动作引导的交互,(c)多人场景交互,以及(d)结合上述交互类型的人与场景交互
具体来说,空间关系可以用来描述场景或局部区域中不同物体之间的相互关系。而交互动作则由原子身体部位的状态来指定,例如人的脚踩地、躯干靠着、右手轻拍和低着头等
以此为出发点,作者采用场景图来表示空间关系,提出了联合全局和局部场景图 (Joint Global and Local Scene Graph, JGLSG) 机制,为随后的生成提供了全局位置感知。
同时,考虑到身体部位状态是模拟符合文本的逼真交互的关键,作者引入了部位级动作(Part-Level Action, PLA)机制来建立人体部位与动作之间的对应关系。
受益于有效的观察认知以及所提出的关系推理的灵活性和复用性,作者进一步提出一种简单而有效的多人生成策略,这是当时第一个自然可控且用户友好的多人场景交互(Multi-Human Scene Interaction, MHSI)生成方案。
方法思路
Narrator框架总览
Narrator的目标是以自然可控的方式生成人物与场景之间的互动,这种互动在语义上与文本描述一致,并且在物理上与三维场景相匹配
图片
图2 Narrator框架总览
根据图2所示,该方法使用基于Transformer的条件变分自编码器(cVAE),主要包括以下几个部分:
与现有研究相比,我们设计了一种联合全局和局部场景图机制,以推理复杂的空间关系并实现全局定位感知
2)针对人们会同时通过不同的身体部位完成交互动作的观察,引入了部件级动作机制,以实现逼真和多样化的交互;
在场景感知优化过程中,我们额外引入了交互二分面损失,以期获得更优秀的生成结果
4)进一步扩展到多人交互生成,并最终促进了多人场景交互的第一步。
联合全局和局部场景图机制
空间关系的推理可以为模型提供特定场景的线索,对于实现人与场景交互的自然可控性具有重要作用。
为了实现这一目标,作者提出了一种全局和局部场景图联合机制,该机制通过以下三个步骤来实施:
1. 全局场景图生成:给定场景,用预训练好的场景图模型生成全局场景图,即 ,其中
,
是带有类别标签的对象,
是
和
之间的关系,n是物体数量,m是关系数量;
2. 局部场景图生成:采用语义解析工具来识别描述的句式结构并提取生成局部场景,其中
定义了主语-谓语-对象的三元组;
场景图匹配:通过相同的对象语义标签,模型将全局场景图和局部场景图中的节点进行对应,并通过扩展边关系来增加一个虚拟人节点,以提供位置信息
部件级动作(PLA)机制
作者提出了一种细粒度部位级动作机制,通过该机制,模型能够从给定的交互中注意到重要的身体部位状态并忽略无关的部位
具体来说,作者探索了丰富且多样的交互动作,并将这些可能的动作对应到人体的五个主要部位:头部、躯干、左/右臂、左/右手和左/右下半身。
在进行后续编码时,我们可以同时使用独热编码(One-Hot)来代表这些动作和身体部位,并根据对应关系将它们连接起来
作者在多动作的交互生成中采用了注意力机制,以学习身体结构不同部位的状态
在给定的交互动作组合中,每个动作对应的身体部位与所有其他动作之间的注意力都会被自动屏蔽。
以「一个人使用柜子蹲在地上」为例,蹲下对应的是下半身状态,因此其他部位标记的注意力将被屏蔽为零。 重写后的内容:以「一个人使用柜子蹲在地上」为例,蹲下所对应的是下半身的状态,因此其他身体部位的注意力会被完全屏蔽
场景感知优化
作者利用几何和物理约束进行场景感知优化,以改善生成结果。在整个优化过程中,该方法确保生成的姿势不会出现偏差,同时鼓励与场景接触,并约束身体以避免与场景相互穿透
给定三维场景S和生成的SMPL-X参数后,优化损失为:
其中,鼓励身体顶点与场景接触;
是基于符号距离的碰撞项;
是相比现有工作额外引入的交互二分面(IBS)损失,其为取样于场景和人体之间的等距点集合;
是一个正则因子,用于惩罚偏离初始化的参数。
多人场景交互(MHSI)
在现实世界的场景中,很多情况下并非只有一个人与场景交互,而是多人以独立或关联的方式进行交互。
然而,由于缺乏MHSI数据集,现有方法通常需要额外的人工努力,无法以可控和自动的方式处理这项任务。
为此,作者仅利用现有的单人数据集,为多人生成方向提出了一种简单而有效的策略。
给定多人相关的文本描述后,作者首先将其解析为多个局部场景图和交互动作
,并定义候选集为
,其中l为人数。
对于候选集中的每一项,首先将其与场景和对应全局场景图
一起输入Narrator,然后执行优化过程。
为了处理人与人之间的碰撞,在优化过程中额外引入了损失,其中
为人与人符号距离。
然后,当优化损失低于根据实验经验确定的阈值时,接受这一生成结果,同时通过添加人类节点更新;否则认为生成结果不可信,并通过屏蔽对应的物体节点来更新
。
值得注意的是,这种更新方式建立了每一代结果与前一代结果之间的关系,避免了一定程度的拥挤,并且与简单的多次生成相比空间分布更合理和交互更逼真。
以上过程可以表述为:
实验结果
鉴于目前现有的方法无法直接从文本描述中自然可控地生成人与场景的交互,我们将PiGraph [1]、POSA [2]、COINS [3] 进行合理扩展,使其适用于文本描述,并使用相同的数据集对它们的官方模型进行训练。经过修改后,我们将这些方法命名为PiGraph-Text、POSA-Text和COINS-Text
图片
图3 不同方法的定性对比结果
在图3中展示了Narrator与三种基线的定性比较结果。由于PiGraph-Text的表现形式限制,它存在更严重的穿透问题
POSA-Text在优化过程中往往会陷入局部最小值,从而产生不良的交互接触。COINS-Text将动作绑定到特定物体上,缺乏对场景的全局感知,从而导致与未指定物体的穿透,并且难以处理复杂的空间关系。
相比之下,Narrator可以根据不同层次的文字描述,正确推理空间关系,剖析多动作下的身体状态,从而获得更好的生成效果。
在定量比较方面,如表1所示,Narrator在五个指标上均优于其他方法,显示出该方法生成的结果具有更准确的文本一致性和更优秀的物理合理性。
表1 不同方法的定量对比结果
除此之外,作者也提供了详细的比较与分析来更好了解所提出的MHSI策略的有效性。
考虑到目前还没有针对MHSI的工作,他们选择了一种直接的方法作为基线,即与用COINS按顺序生成和优化的方法。
为了进行公平比较,同样为其引入了人为碰撞损失。图4和表2分别展示了定性和定量结果,都有力证明了作者所提出的策略在MHSI上语义一致和物理合理的优势。
图4 与用 COINS 按顺序生成和优化的方法进行的MHSI定性比较
作者简介
研究的主要方向包括三维视觉、计算机视觉以及人与场景交互生成
主要研究方向:三维视觉、计算机视觉、人体与衣物重建
研究方向主要包括三维视觉、计算机视觉和图像生成
研究方向主要集中在以人为中心的计算机视觉和图形学
主要研究方向:计算机图形学,三维视觉与计算摄像
个人主页链接:https://liuyebin.com/
研究的主要方向:三维视觉、智能重建与生成
个人主页:http://cic.tju.edu.cn/faculty/likun
参考文献:
[1] Savva M, Chang A X, Hanrahan P, 等. Pigraphs: 从观察中学习交互快照[J]. ACM Transactions on Graphics (TOG), 2016, 35(4): 1-12.
[2] Hassan M, Ghosh P, Tesch J, et al. Populating 3D scenes by learning human-scene interaction[C]. Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition. 2021: 14708-14718.
[3] Zhao K, Wang S, Zhang Y, et al. Compositional human-scene interaction synthesis with semantic control[C]. European Conference on Computer Vision. Cham: Springer Nature Switzerland, 2022: 311-327.
以上是「人与场景交互生成」新突破!天大、清华发布Narrator:文本驱动,自然可控|ICCV 2023的详细内容。更多信息请关注PHP中文网其他相关文章!

用Microsoft Power BI图来利用数据可视化的功能 在当今数据驱动的世界中,有效地将复杂信息传达给非技术观众至关重要。 数据可视化桥接此差距,转换原始数据i

专家系统:深入研究AI的决策能力 想象一下,从医疗诊断到财务计划,都可以访问任何事情的专家建议。 这就是人工智能专家系统的力量。 这些系统模仿Pro

首先,很明显,这种情况正在迅速发生。各种公司都在谈论AI目前撰写的代码的比例,并且这些代码的比例正在迅速地增加。已经有很多工作流离失所

从数字营销到社交媒体的所有创意领域,电影业都站在技术十字路口。随着人工智能开始重塑视觉讲故事的各个方面并改变娱乐的景观

ISRO的免费AI/ML在线课程:通向地理空间技术创新的门户 印度太空研究组织(ISRO)通过其印度遥感研究所(IIR)为学生和专业人士提供了绝佳的机会

本地搜索算法:综合指南 规划大规模活动需要有效的工作量分布。 当传统方法失败时,本地搜索算法提供了强大的解决方案。 本文探讨了爬山和模拟

该版本包括三种不同的型号,GPT-4.1,GPT-4.1 MINI和GPT-4.1 NANO,标志着向大语言模型景观内的特定任务优化迈进。这些模型并未立即替换诸如

Chip Giant Nvidia周一表示,它将开始制造AI超级计算机(可以处理大量数据并运行复杂算法的机器),完全是在美国首次在美国境内。这一消息是在特朗普总统SI之后发布的


热AI工具

Undresser.AI Undress
人工智能驱动的应用程序,用于创建逼真的裸体照片

AI Clothes Remover
用于从照片中去除衣服的在线人工智能工具。

Undress AI Tool
免费脱衣服图片

Clothoff.io
AI脱衣机

AI Hentai Generator
免费生成ai无尽的。

热门文章

热工具

VSCode Windows 64位 下载
微软推出的免费、功能强大的一款IDE编辑器

DVWA
Damn Vulnerable Web App (DVWA) 是一个PHP/MySQL的Web应用程序,非常容易受到攻击。它的主要目标是成为安全专业人员在合法环境中测试自己的技能和工具的辅助工具,帮助Web开发人员更好地理解保护Web应用程序的过程,并帮助教师/学生在课堂环境中教授/学习Web应用程序安全。DVWA的目标是通过简单直接的界面练习一些最常见的Web漏洞,难度各不相同。请注意,该软件中

SublimeText3 Linux新版
SublimeText3 Linux最新版

Dreamweaver CS6
视觉化网页开发工具

螳螂BT
Mantis是一个易于部署的基于Web的缺陷跟踪工具,用于帮助产品缺陷跟踪。它需要PHP、MySQL和一个Web服务器。请查看我们的演示和托管服务。