首頁 >科技週邊 >人工智慧 >CVPR 2024 | 合成視訊資料集只有單人資料? M3Act破解人群行為標註難題

CVPR 2024 | 合成視訊資料集只有單人資料? M3Act破解人群行為標註難題

王林
王林原創
2024-06-03 22:02:59618瀏覽
CVPR 2024 | 合成视频数据集里只有单人数据?M3Act破解人群行为标注难题
AIxiv專欄是本站發布學術、技術內容的欄位。過去數年,本站AIxiv專欄接收通報了2,000多篇內容,涵蓋全球各大專院校與企業的頂尖實驗室,有效促進了學術交流與傳播。如果您有優秀的工作想要分享,歡迎投稿或聯絡報道。投稿信箱:liyazhou@jiqizhixin.com;zhaoyunfeng@jiqizhixin.com

CVPR 2024 | 合成视频数据集里只有单人数据?M3Act破解人群行为标注难题

  • ##論文連結:https://arxiv. org/abs/2306.16772
  • 專案連結:https://cjerry1243.github.io/M3Act/
  • #論文標題:M3Act: Learning from Synthetic Human Group Activities

引言

#透過視覺訊息辨識、理解人群的行為是視訊監測、互動機器人、自動駕駛等領域的關鍵技術之一,但取得大規模的人群行為標註數據成為了相關研究的發展瓶頸。如今,合成資料集正成為一種新興的,用於取代現實世界資料的方法,但已有研究中的合成資料集主要聚焦於人體姿態與形狀的估計。它們往往只提供
單一人物的合成動畫視頻,而這並不適用於人群的視頻識別任務。

CVPR 2024 | 合成视频数据集里只有单人数据?M3Act破解人群行为标注难题

在這篇文章中,作者提出了一個適用於多群組人群行為的合成資料生成框架 M3Act。實驗顯示,此合成資料集可以大幅提高下游模型在多人追蹤和群組活動識別上的效能,並且可以在 DanceTrack 任務上取代超過 62.5% 的真實數據,從而在現實應用情境中降低資料標註成本。此外,此合成資料框架也提出一類新的任務:可控 3D 群體活動生成。此任務旨在利用多種輸入(活動類別、群體大小、軌跡、密度、速度和文字輸入)直接控制群體活動產生結果。作者嚴格定義了任務和指標,並提供了有競爭力的基準和結果。

資料產生
 
基於Unity 引擎開發,M3Act 涵蓋了多種行為類型的人群數據,提供了高度多樣化和逼真的視訊影像,以及全面的數據標記。與其他合成資料集相比,M3Act 提供了更全面的標記數據,包括2D 和3D 標記以及細粒度的個人層級和群組層級標籤,因此使其成為支援多人和多組研究任務的理想合成數據集生成器。

CVPR 2024 | 合成视频数据集里只有单人数据?M3Act破解人群行为标注难题

資料產生器包含25 個3D 場景、104 個高動態範圍全景影像、5 種光線設定、2200 個人物模型、384 個動畫(14 個動作類別)和6 個群體活動類型。資料產生過程如下所示,首先透過隨機化過程來確定一個模擬情境內的所有參數,然後根據參數產生具有背景物件、燈光和攝影機的 3D 場景,以及具有動畫的人物模型群組。最後從多個視角渲染 RGB 影像並匯出標記結果。 

CVPR 2024 | 合成视频数据集里只有单人数据?M3Act破解人群行为标注难题#

为确保模拟数据具有高度多样性,M3Act 为数据生成过程的几乎所有方面提供随机化。这包括场景中的群体数量、每个群体中的人数、群体的位置、群体中人的排列、个体的位置、实例化角色的纹理,以及场景、照明条件、相机位置、角色、群体活动、原子动作和动画片段的选择。每个群体活动也被构建为一个参数化模块。这些参数包括群体中的个体数量和群体活动内允许的特定原子动作。

最终生成的数据集分为两个部分。第一部分 「M3ActRGB」 包含了 6000 次单一但多类型群体活动的模拟和 9000 次多群体多类型模拟,总计 600 万张 RGB 图像和 4800 万个边界框(bounding box)。第二部分 「M3Act3D」 仅包含 3D 数据。它由超过 65000 次 150 帧单一多类型群体活动的模拟组成,总时长达 87.6 小时。据作者所知,M3Act3D 的群体大小和互动复杂度显著高于以前的多人运动数据集,是第一个针对大型群体活动的大规模 3D 数据集。

实验结果

M3Act 的实际效果通过三个核心实验展示:多人跟踪、群体活动识别和可控群体活动生成。

实验一:多人跟踪

研究发现,在既有模型 MOTRv2 [1] 的训练中添加合成数据后,模型在所有 5 个指标上都有显著提高,特别是在 HOTA 指标上的排名中从第 10 位跃至第 2 位。同时,当训练集中 62.5% 的真实数据被合成数据替换之后,模型依然可以取得相似的性能。另外,与其他合成数据源相比,如 BEDLAM 和 GTA-Humans,M3Act 为模型训练提供了更大的性能进步,表明其更适合多人群体活动任务。最后,下表展示了不同模型在 M3Act 下的训练结果。结果表明,M3Act 在各种模型中都是有效的。

CVPR 2024 | 合成视频数据集里只有单人数据?M3Act破解人群行为标注难题

实验二:群体活动识别

类似地,M3Act 也提高了两个既有群体活动识别模型的性能,如下表所示:随着用于预训练的合成数据量的增加,识别准确性不断提高。使用 100% 的合成数据时,群体活动识别模型 Composer [2] 的准确率在群体级别平均提高了 4.87%,个人级别提高了 7.43%,而另一群体活动识别模型 Actor Transformer [3] 在群体级别上看到了 5.59% 准确率的增加,在个人级别上增加了 5.43%。

CVPR 2024 | 合成视频数据集里只有单人数据?M3Act破解人群行为标注难题

下表展示了使用不同输入模态在 CAD2 和 Volleyball(VD)上的群体识别准确率。实验中的性能增益表明,M3Act 的合成数据可以有效地利于下游任务,并横跨不同模型、输入模态和数据集。

CVPR 2024 | 合成视频数据集里只有单人数据?M3Act破解人群行为标注难题

实验三:可控 3D 群体活动生成

CVPR 2024 | 合成视频数据集里只有单人数据?M3Act破解人群行为标注难题

作者提出了一個新型態任務:可控 3D 群體活動生成。該任務旨在基於給定的活動類別標籤和任意群體大小,從高斯噪聲中合成一組 3D 人類動作。既有研究儘管可以產生多人動作,但它們限於雙人場景或具有固定人數的群體。因此,作者提出了兩種基線方法。在第一個基線方法中,群體活動透過重複調用單人運動擴散模型 MDM [4] 來實現,因此每個個體的生成過程都是獨立的。第二個方法則是基於 MDM 增加了一個互動變換器(IFormer)。由於其對人類互動的建模,MDM+IFormer 能夠在一次前向傳播中產生協調的群體活動。

作者從在群體和個體兩個層面考慮以下評估指標:識別準確率、弗雷歇特初始距離(FID)、多樣性和多模性。此外,作者基於社會力模型,在群體層面增補了四個基於位置的指標:碰撞頻率、排斥互動力、接觸排斥力和總排斥力。結果顯示:

  •  MDM+IFormer 能夠產生具有良好對齊的角色位置的群體活動。請參考下面的定性圖。
  •  兩個基準方法都能產生與輸入條件相符的多樣化活動,但 MDM+IFormer 獲得了更好的 FID 分數。
  • MDM+IFormer 中的互動變換器大幅降低了產生的群體活動內的碰撞頻率。

CVPR 2024 | 合成视频数据集里只有单人数据?M3Act破解人群行为标注难题

CVPR 2024 | 合成视频数据集里只有单人数据?M3Act破解人群行为标注难题





論文作者透過多模態和增強性能的三個核心實驗以及引入一種新的生成任務,展示了M3Act 的優點。在多人追蹤和群體活動識別實驗中,他們觀察到了隨著更多合成數據的加入,模型對未見測試案例的泛化能力得到了改善。

此外,M3Act 中的合成資料可以取代部分目標領域的真實資料而不影響效能,從而有望減少訓練過程中對大量真實資料的需求,進而降低了資料收集和標註的成本。這項發現證明了小樣本甚至零樣本從模擬資料遷移到現實資料的潛力。
在可控3D 群體活動生成中,儘管MDM+IFormer 只是這項任務的基準模型,它仍然學習到了人物運動的互動規則,並在控制下產生對齊良好的群體活動。值得注意的是,儘管生成方法目前表現不如程序化方法,但它展示了直接從各種訊號(活動類別、群組大小、軌跡、密度、速度和文字輸入)控制群體動作的潛力。隨著未來數據可用性增加和生成模型能力的提升,論文作者預計生成方法最終將佔據優勢,在社會互動和人類集體活動方面更廣泛應用。
儘管 M3Act 資料集中群體行為的複雜性可能受到資料產生過程中啟發式規則的限制,M3Act 在整合新的群體活動方面提供了顯著的靈活性,從而適應任何特定的下游任務。這些新群體可以來自專家指導的啟發式規則、大型語言模型產生的規則或可控制 3D 群體活動生成模型的輸出。此外,論文作者認識到合成數據與現實世界數據之間存在的領域差異。隨著未來版本中資料產生器中資產的增加,可以提高模型的泛化能力並緩解這些差異。
[1] Yuang Zhang, Tiancai Wang, and Xiangyu Zhang. Motrv2: Bootstrapping end-to-end multi-object tracking by pretrained object detectors . In Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition, pages 22056–22065, 2023.
#[2] Honglu Zhou, Asim K###############[2] Honglu Zhou, Asim K###############[2] Honglu Zhou, Asim K###############[2] Honglu Zhou, Asim K###############[2] Honglu Zhou, Asim K###############[2] Honglu Zhou, Asim K###############[2] Honglu Zhou, Asim K## # Aviv Shamsian, Shijie Geng, Farley Lai, Long Zhao, Ting Liu, Mubbasir Kapadia, and Hans Peter Graf. Composer: Compositional reasoning of group activity in videos with keypoint-only Visionality. Proceedings of the 17th Europe Visionference ), 2022.##################[3] Kirill Gavrilyuk, Ryan Sanford, Mehrsan Javan, and Cees GM Snoek. Actor-transformers for group activity recognition. In Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition, pages 839–848, 2020.###################[4] Guy Tevet, Sigal Raab, Brian Gordon, Yonatan Shafir, Daniel Cohen-Or, and Amit H Bermano. Human motion diffusion model. arXiv preprint arXiv:2209.14916, 2022.##########

以上是CVPR 2024 | 合成視訊資料集只有單人資料? M3Act破解人群行為標註難題的詳細內容。更多資訊請關注PHP中文網其他相關文章!

陳述:
本文內容由網友自願投稿,版權歸原作者所有。本站不承擔相應的法律責任。如發現涉嫌抄襲或侵權的內容,請聯絡admin@php.cn