CVPR 2024 | 合成视频数据集里只有单人数据？M3Act破解人群行为标注难题-人工智能-PHP中文网

首页

科技周边

人工智能

CVPR 2024 | 合成视频数据集里只有单人数据？M3Act破解人群行为标注难题

王林

Jun 03, 2024 pm 10:02 PM

产业M3Act合成数据生成框架

AIxiv专栏是本站发布学术、技术内容的栏目。过去数年，本站AIxiv专栏接收报道了2000多篇内容，覆盖全球各大高校与企业的顶级实验室，有效促进了学术交流与传播。如果您有优秀的工作想要分享，欢迎投稿或者联系报道。投稿邮箱：liyazhou@jiqizhixin.com；zhaoyunfeng@jiqizhixin.com

CVPR 2024 | 合成视频数据集里只有单人数据？M3Act破解人群行为标注难题

论文链接：https://arxiv.org/abs/2306.16772
项目链接：https://cjerry1243.github.io/M3Act/
论文标题：M3Act: Learning from Synthetic Human Group Activities

引言

通过视觉信息识别、理解人群的行为是视频监测、交互机器人、自动驾驶等领域的关键技术之一，但获取大规模的人群行为标注数据成为了相关研究的发展瓶颈。如今，合成数据集正成为一种新兴的，用于替代现实世界数据的方法，但已有研究中的合成数据集主要聚焦于人体姿态与形状的估计。它们往往只提供单个人物的合成动画视频，而这并不适用于人群的视频识别任务。

CVPR 2024 | 合成视频数据集里只有单人数据？M3Act破解人群行为标注难题

在这篇文章中，作者提出了一个适用于多群组人群行为的合成数据生成框架 M3Act。实验显示，该合成数据集可以大大提高下游模型在多人跟踪和群体活动识别上的性能，并可以在 DanceTrack 任务上替代超过 62.5% 的真实数据，从而在现实应用场景中降低数据标注成本。此外，该合成数据框架还提出一类新的任务：可控 3D 群体活动生成。该任务旨在利用多种输入（活动类别、群体大小、轨迹、密度、速度和文本输入）直接控制群体活动生成结果。作者严格定义了任务和指标，并提供了有竞争力的基线和结果。

数据生成

基于 Unity 引擎开发，M3Act 涵盖了多种行为类型的人群数据，提供了高度多样化和逼真的视频图像，以及全面的数据标记。与其他合成数据集相比，M3Act 提供了更为全面的标记数据，包括 2D 和 3D 标记以及细粒度的个人级别和群组级别标签，因此使其成为支持多人和多组研究任务的理想合成数据集生成器。

CVPR 2024 | 合成视频数据集里只有单人数据？M3Act破解人群行为标注难题

数据生成器包括 25 个 3D 场景、104 个高动态范围全景图像、5 种光线设置、2200 个人物模型、384 个动画（14 个动作类别）和 6 个群体活动类型。数据生成过程如下所示，首先通过随机化过程确定一个模拟情景内的所有参数，然后根据参数生成带有背景对象、灯光和摄像机的 3D 场景，以及带有动画的人物模型群组。最后从多个视角渲染 RGB 图像并导出标记结果。

CVPR 2024 | 合成视频数据集里只有单人数据？M3Act破解人群行为标注难题

为确保模拟数据具有高度多样性，M3Act 为数据生成过程的几乎所有方面提供随机化。这包括场景中的群体数量、每个群体中的人数、群体的位置、群体中人的排列、个体的位置、实例化角色的纹理，以及场景、照明条件、相机位置、角色、群体活动、原子动作和动画片段的选择。每个群体活动也被构建为一个参数化模块。这些参数包括群体中的个体数量和群体活动内允许的特定原子动作。

最终生成的数据集分为两个部分。第一部分「M3ActRGB」包含了 6000 次单一但多类型群体活动的模拟和 9000 次多群体多类型模拟，总计 600 万张 RGB 图像和 4800 万个边界框（bounding box）。第二部分「M3Act3D」仅包含 3D 数据。它由超过 65000 次 150 帧单一多类型群体活动的模拟组成，总时长达 87.6 小时。据作者所知，M3Act3D 的群体大小和互动复杂度显着高于以前的多人运动数据集，是第一个针对大型群体活动的大规模 3D 数据集。

实验结果

M3Act 的实际效果通过三个核心实验展示：多人跟踪、群体活动识别和可控群体活动生成。

实验一：多人跟踪

研究发现，在既有模型MOTRv2 [1] 的训练中添加合成数据后，模型在所有5 个指标上都有显着提高，特别是在HOTA 指标上的排名中从第10 位跃至第2 位。同时，当训练集中 62.5% 的真实数据被合成数据替换之后，模型依然可以取得相似的性能。另外，与其他合成数据源相比，如 BEDLAM 和 GTA-Humans，M3Act 为模型训练提供了更大的性能进步，表明其更适合多人群体活动任务。最后，下表展示了不同模型在 M3Act 下的训练结果。结果表明，M3Act 在各种模型中都是有效的。

CVPR 2024 | 合成视频数据集里只有单人数据？M3Act破解人群行为标注难题

实验二：群体活动识别

类似地，M3Act 也提高了两个既有群体活动识别模型的性能，如下表所示：随着用于预训练的合成数据量的增加，识别准确性不断提高。使用100% 的合成数据时，群体活动识别模型Composer [2] 的准确率在群体级别平均提高了4.87%，个人级别提高了7.43%，而另一群体活动识别模型Actor Transformer [3] 在群体级别上看到了5.59% 准确率的增加，在个人级别上增加了5.43%。

CVPR 2024 | 合成视频数据集里只有单人数据？M3Act破解人群行为标注难题

下表展示了使用不同输入模态在 CAD2 和 Volleyball（VD）上的群体识别准确率。实验中的性能增益表明，M3Act 的合成数据可以有效地利于下游任务，并横跨不同模型、输入模态和数据集。

CVPR 2024 | 合成视频数据集里只有单人数据？M3Act破解人群行为标注难题

实验三：可控 3D 群体活动生成

CVPR 2024 | 合成视频数据集里只有单人数据？M3Act破解人群行为标注难题

作者提出了一个新型任务：可控 3D 群体活动生成。该任务旨在基于给定的活动类别标签和任意群体大小，从高斯噪声中合成一组 3D 人类动作。既有研究尽管可以生成多人动作，但它们限于双人场景或具有固定人数的群体。因此，作者提出了两个基线方法。在第一个基线方法中，群体活动通过重复调用单人运动扩散模型 MDM [4] 来实现，因此每个个体的生成过程都是独立的。第二个方法则基于 MDM 增加了一个互动变换器（IFormer）。由于其对人类互动的建模，MDM+IFormer 能够在一次前向传播中产生协调的群体活动。

作者从在群体和个体两个层面考虑以下评估指标：识别准确率、弗雷歇特初始距离（FID）、多样性和多模性。此外，作者基于社会力模型，在群体层面增补了四个基于位置的指标：碰撞频率、排斥互动力、接触排斥力和总排斥力。结果显示：

MDM+IFormer 能够生成具有良好对齐的角色位置的群体活动。请参见下面的定性图。
两个基线方法都能生成与输入条件匹配的多样化活动，但 MDM+IFormer 获得了更好的 FID 分数。
MDM+IFormer 中的互动变换器大大降低了生成的群体活动内的碰撞频率。

CVPR 2024 | 合成视频数据集里只有单人数据？M3Act破解人群行为标注难题

结论

论文作者通过多模态和增强性能的三个核心实验以及引入一种新的生成任务，展示了 M3Act 的优点。在多人跟踪和群体活动识别实验中，他们观察到了随着更多合成数据的加入，模型对未见测试案例的泛化能力得到了改善。

此外，M3Act 中的合成数据可以替代部分目标领域的真实数据而不影响性能，从而有望减少训练过程中对大量真实数据的需求，进而降低了数据收集和标注的成本。这一发现证明了小样本甚至零样本从模拟数据迁移到现实数据的潜力。

在可控 3D 群体活动生成中，尽管 MDM+IFormer 只是这一任务的基线模型，它仍然学习到了人物运动的交互规则，并在控制下生成对齐良好的群体活动。值得注意的是，尽管生成方法目前表现不及程序化方法，但它展示了直接从各种信号（活动类别、群组大小、轨迹、密度、速度和文本输入）控制群体动作的潜力。随着未来数据可用性增加和生成模型能力的提升，论文作者预计生成方法最终将占据优势，在社会互动和人类集体活动方面得到更广泛应用。

尽管 M3Act 数据集中群体行为的复杂性可能受到数据生成过程中启发式规则的限制，M3Act 在整合新的群体活动方面提供了显著的灵活性，从而适应任何特定的下游任务。这些新群体可以来源于专家指导的启发式规则、大型语言模型生成的规则或可控 3D 群体活动生成模型的输出。此外，论文作者认识到合成数据与现实世界数据之间存在的领域差异。随着未来版本中数据生成器中资产的增加，可以提高模型的泛化能力并缓解这些差异。

^{[1] Yuang Zhang, Tiancai Wang, and Xiangyu Zhang. Motrv2: Bootstrapping end-to-end multi-object tracking by pretrained object detectors. In Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition, pages 22056–22065, 2023.}

^{[2] Honglu Zhou, Asim Kadav, Aviv Shamsian, Shijie Geng, Farley Lai, Long Zhao, Ting Liu, Mubbasir Kapadia, and Hans Peter Graf. Composer: Compositional reasoning of group activity in videos with keypoint-only modality. Proceedings of the 17th European Conference on Computer Vision (ECCV 2022), 2022.}

^{[3] Kirill Gavrilyuk, Ryan Sanford, Mehrsan Javan, and Cees GM Snoek. Actor-transformers for group activity recognition. In Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition, pages 839–848, 2020.}

^{[4] Guy Tevet, Sigal Raab, Brian Gordon, Yonatan Shafir, Daniel Cohen-Or, and Amit H Bermano. Human motion diffusion model. arXiv preprint arXiv:2209.14916, 2022.}

以上是CVPR 2024 | 合成视频数据集里只有单人数据？M3Act破解人群行为标注难题的详细内容。更多信息请关注PHP中文网其他相关文章！

声明

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系admin@php.cn

DSA如何弯道超车NVIDIA GPU？Sep 20, 2023 pm 06:09 PM

你可能听过以下犀利的观点：1.跟着NVIDIA的技术路线，可能永远也追不上NVIDIA的脚步。2.DSA或许有机会追赶上NVIDIA，但目前的状况是DSA濒临消亡，看不到任何希望另一方面，我们都知道现在大模型正处于风口位置，业界很多人想做大模型芯片，也有很多人想投大模型芯片。但是，大模型芯片的设计关键在哪，大带宽大内存的重要性好像大家都知道，但做出来的芯片跟NVIDIA相比，又有何不同？带着问题，本文尝试给大家一点启发。纯粹以观点为主的文章往往显得形式主义，我们可以通过一个架构的例子来说明Sam

阿里云通义千问14B模型开源！性能超越Llama2等同等尺寸模型Sep 25, 2023 pm 10:25 PM

2021年9月25日，阿里云发布了开源项目通义千问140亿参数模型Qwen-14B以及其对话模型Qwen-14B-Chat，并且可以免费商用。Qwen-14B在多个权威评测中表现出色，超过了同等规模的模型，甚至有些指标接近Llama2-70B。此前，阿里云还开源了70亿参数模型Qwen-7B，仅一个多月的时间下载量就突破了100万，成为开源社区的热门项目Qwen-14B是一款支持多种语言的高性能开源模型，相比同类模型使用了更多的高质量数据，整体训练数据超过3万亿Token，使得模型具备更强大的推

ICCV 2023揭晓：ControlNet、SAM等热门论文斩获奖项Oct 04, 2023 pm 09:37 PM

在法国巴黎举行了国际计算机视觉大会ICCV（InternationalConferenceonComputerVision）本周开幕作为全球计算机视觉领域顶级的学术会议，ICCV每两年召开一次。ICCV的热度一直以来都与CVPR不相上下，屡创新高在今天的开幕式上，ICCV官方公布了今年的论文数据：本届ICCV共有8068篇投稿，其中有2160篇被接收，录用率为26.8%，略高于上一届ICCV2021的录用率25.9%在论文主题方面，官方也公布了相关数据：多视角和传感器的3D技术热度最高在今天的开

复旦大学团队发布中文智慧法律系统DISC-LawLLM，构建司法评测基准，开源30万微调数据Sep 29, 2023 pm 01:17 PM

随着智慧司法的兴起，智能化方法驱动的智能法律系统有望惠及不同群体。例如，为法律专业人员减轻文书工作，为普通民众提供法律咨询服务，为法学学生提供学习和考试辅导。由于法律知识的独特性和司法任务的多样性，此前的智慧司法研究方面主要着眼于为特定任务设计自动化算法，难以满足对司法领域提供支撑性服务的需求，离应用落地有不小的距离。而大型语言模型（LLMs）在不同的传统任务上展示出强大的能力，为智能法律系统的进一步发展带来希望。近日，复旦大学数据智能与社会计算实验室（FudanDISC）发布大语言模型驱动的中

百度文心一言全面向全社会开放，率先迈出重要一步Aug 31, 2023 pm 01:33 PM

8月31日，文心一言首次向全社会全面开放。用户可以在应用商店下载“文心一言APP”或登录“文心一言官网”（https://yiyan.baidu.com）进行体验据报道，百度计划推出一系列经过全新重构的AI原生应用，以便让用户充分体验生成式AI的理解、生成、逻辑和记忆等四大核心能力今年3月16日，文心一言开启邀测。作为全球大厂中首个发布的生成式AI产品，文心一言的基础模型文心大模型早在2019年就在国内率先发布，近期升级的文心大模型3.5也持续在十余个国内外权威测评中位居第一。李彦宏表示，当文心

致敬TempleOS，有开发者创建了启动Llama 2的操作系统，网友：8G内存老电脑就能跑Oct 07, 2023 pm 10:09 PM

不得不说，Llama2的「二创」项目越来越硬核、有趣了。自Meta发布开源大模型Llama2以来，围绕着该模型的「二创」项目便多了起来。此前7月，特斯拉前AI总监、重回OpenAI的AndrejKarpathy利用周末时间，做了一个关于Llama2的有趣项目llama2.c，让用户在PyTorch中训练一个babyLlama2模型，然后使用近500行纯C、无任何依赖性的文件进行推理。今天，在Karpathyllama2.c项目的基础上，又有开发者创建了一个启动Llama2的演示操作系统，以及一个

AI技术在蚂蚁集团保险业务中的应用：革新保险服务，带来全新体验Sep 20, 2023 pm 10:45 PM

保险行业对于社会民生和国民经济的重要性不言而喻。作为风险管理工具，保险为人民群众提供保障和福利，推动经济的稳定和可持续发展。在新的时代背景下，保险行业面临着新的机遇和挑战，需要不断创新和转型，以适应社会需求的变化和经济结构的调整近年来，中国的保险科技蓬勃发展。通过创新的商业模式和先进的技术手段，积极推动保险行业实现数字化和智能化转型。保险科技的目标是提升保险服务的便利性、个性化和智能化水平，以前所未有的速度改变传统保险业的面貌。这一发展趋势为保险行业注入了新的活力，使保险产品更贴近人民群众的实际

快手黑科技“子弹时间”赋能亚运转播，打造智慧观赛新体验Oct 11, 2023 am 11:21 AM

杭州第19届亚运会不仅是国际顶级体育盛会，更是一场精彩绝伦的中国科技盛宴。本届亚运会中，快手StreamLake与杭州电信深度合作，联合打造智慧观赛新体验，在击剑赛事的转播中，全面应用了快手StreamLake六自由度技术，其中“子弹时间”也是首次应用于击剑项目国际顶级赛事。中国电信杭州分公司智能亚运专班组长芮杰表示，依托快手StreamLake自研的4K3D虚拟运镜视频技术和中国电信5G/全光网，通过赛场内部署的4K专业摄像机阵列实时采集的高清竞赛视频，

See all articles