ホームページ  >  記事  >  テクノロジー周辺機器  >  CVPR 2024 | 合成ビデオ データ セットには 1 人の人物データしかありませんか? M3Act は群衆の行動のラベル付けの問題を解決します

CVPR 2024 | 合成ビデオ データ セットには 1 人の人物データしかありませんか? M3Act は群衆の行動のラベル付けの問題を解決します

王林
王林オリジナル
2024-06-03 22:02:59558ブラウズ
CVPR 2024 | 合成视频数据集里只有单人数据?M3Act破解人群行为标注难题
AIxivコラムは、当サイトが学術的・技術的な内容を掲載するコラムです。過去数年間で、このサイトの AIxiv コラムには 2,000 件を超えるレポートが寄せられ、世界中の主要な大学や企業のトップ研究室がカバーされ、学術交流と普及を効果的に促進しています。共有したい優れた作品がある場合は、お気軽に寄稿するか、報告のために当社までご連絡ください。提出メール: liyazhou@jiqizhixin.com; zhaoyunfeng@jiqizhixin.com

CVPR 2024 | 合成视频数据集里只有单人数据?M3Act破解人群行为标注难题

  • 紙のリンク: https://arxiv.org/abs/2306.16772
  • プロジェクトリンク: https://cjerry1243 。 github.io/M3Act/
  • 論文タイトル: M3Act: 合成人間のグループ活動から学ぶ

はじめに

視覚情報による群衆の行動の認識と理解は、ビデオ監視、対話型ロボット、自動運転の分野です、などがキーテクノロジーの一つとなっているが、大規模な群衆行動アノテーションデータの取得が関連研究開発のボトルネックとなっている。現在、合成データセットは実世界のデータに代わる新たな手法になりつつありますが、既存の研究における合成データセットは主に人間の姿勢と形状の推定に焦点を当てています。多くの場合、一人の合成アニメーションビデオのみを提供しますが、これは群衆のビデオ認識タスクには適していません。

CVPR 2024 | 合成视频数据集里只有单人数据?M3Act破解人群行为标注难题

この記事では、著者は、複数グループの群衆行動に適した合成データ生成フレームワークである M3Act を提案します。実験の結果、この合成データ セットは、複数人の追跡とグループ活動認識における下流モデルのパフォーマンスを大幅に向上させることができ、DanceTrack タスクの実データの 62.5% 以上を置き換えることができるため、実際のアプリケーションでのデータ アノテーション コストを削減できることが示されています。シナリオ。さらに、この合成データ フレームワークは、制御可能な 3D 群アクティビティ生成という新しいクラスのタスクを提案します。このタスクは、複数の入力 (アクティビティ カテゴリ、群れのサイズ、軌道、密度、速度、テキスト入力) を使用して、群れのアクティビティの生成結果を直接制御することを目的としています。著者はタスクと指標を厳密に定義し、競争力のあるベースラインと結果を提供します。

データ生成
Unity エンジンに基づいて開発された M3Act は、複数の行動タイプの群衆データをカバーし、非常に多様でリアルなビデオ画像、および包括的なデータ ラベリングを提供します。他の合成データセットと比較して、M3Act は、2D および 3D マーカー、きめ細かい個人レベルおよびグループ レベルのラベルを含む、より包括的なラベル付きデータを提供するため、複数人および複数グループの研究タスクをサポートする理想的な合成となります。データセットジェネレータ。

CVPR 2024 | 合成视频数据集里只有单人数据?M3Act破解人群行为标注难题

データ ジェネレーターには、25 の 3D シーン、104 のハイ ダイナミック レンジ パノラマ画像、5 つのライト設定、2200 のキャラクター モデル、384 のアニメーション (14 のアクション カテゴリ)、および 6 つのグループ アクティビティ タイプが含まれています。データ生成プロセスは次のとおりです。まず、シミュレーション シナリオ内のすべてのパラメーターがランダム化プロセスを通じて決定され、次に、背景オブジェクト、ライト、カメラを含む 3D シーン、およびアニメーション付きのキャラクター モデルのグループがパラメーターに基づいて生成されます。 。最後に、RGB 画像が複数の視点からレンダリングされ、ラベル付けされた結果がエクスポートされます。

CVPR 2024 | 合成视频数据集里只有单人数据?M3Act破解人群行为标注难题

シミュレートされたデータの高度な多様性を確保するために、M3Act はデータ生成プロセスのほぼすべての側面にランダム化を提供します。これには、シーン内のグループの数、各グループ内の人の数、グループの位置、グループ内の人の配置、個人の位置、インスタンス化されたキャラクターのテクスチャ、およびシーンが含まれます。 、照明条件、カメラの位置、キャラクター、グループアクティビティ、アトム アクションおよびアニメーションクリップの選択。各グループ アクティビティは、パラメーター化されたモジュールとしても構築されます。これらのパラメータには、群れ内の個体数と、群れの活動内で許可される特定のアトミック アクションが含まれます。

最終的に生成されたデータセットは 2 つの部分に分割されます。最初のパート「M3ActRGB」には、単一だが複数のタイプのグループ アクティビティの 6000 件のシミュレーションと、複数のグループと複数のタイプの 9000 件のシミュレーションが含まれており、合計 600 万の RGB 画像と 4,800 万の境界ボックスが含まれています。後半の「M3Act3D」には3Dデータのみが収録されています。これは、単一のマルチタイプのグループ アクティビティの 65,000 を超える 150 フレームのシミュレーションで構成され、合計 87.6 時間になります。著者の知る限り、M3Act3D のグループ サイズとインタラクションの複雑さは、以前のマルチプレイヤー スポーツ データセットよりも大幅に高く、大規模なグループ アクティビティ向けの初の大規模 3D データセットとなっています。

実験結果

M3Actの実際の効果は、複数人の追跡、グループ活動の認識、および制御可能なグループ活動の生成という3つの主要な実験を通じて実証されます。

実験 1: 複数人の追跡

研究では、既存のモデル MOTRv2 [1] のトレーニングに合成データを追加した後、モデルが 5 つの指標すべてにおいて有意であることがわかりました。 , 特にHOTA指標のランキング10位から2位まで。同時に、トレーニング セット内の実際のデータの 62.5% が合成データに置き換えられた場合でも、モデルは同様のパフォーマンスを達成できました。さらに、BEDLAM や GTA-Humans などの他の合成データ ソースと比較して、M3Act はモデル トレーニングのパフォーマンスが大幅に向上しており、複数人のグループ アクティビティ タスクにより適していることを示しています。最後に、以下の表は、M3Act でのさまざまなモデルのトレーニング結果を示しています。この結果から、M3Act はさまざまなモデルで有効であることがわかります。

CVPR 2024 | 合成视频数据集里只有单人数据?M3Act破解人群行为标注难题

実験 2: グループ活動認識

同様に、M3Act は、次の表に示すように、2 つの既存のグループ活動認識モデルのパフォーマンスも向上させました。データ量が増加するにつれて、認識精度は向上し続けます。 100% 合成データを使用した場合、グループ アクティビティ認識モデル Composer [2] の精度は、グループ レベルで平均 4.87%、個人レベルで 7.43% 向上しましたが、別のグループ アクティビティ認識モデル Actor Transformer [3] の精度は向上しました。グループレベルでは精度が 5.59% 増加し、個人レベルでは 5.43% の増加が見られました。

CVPR 2024 | 合成视频数据集里只有单人数据?M3Act破解人群行为标注难题

以下の表は、さまざまな入力モダリティを使用した CAD2 とバレーボール (VD) でのグループ認識精度を示しています。実験によるパフォーマンスの向上は、M3Act の合成データが下流のタスクに効果的に利益をもたらし、さまざまなモデル、入力モダリティ、データセットにまたがることを示しています。

CVPR 2024 | 合成视频数据集里只有单人数据?M3Act破解人群行为标注难题

実験 3: 制御可能な 3D グループ アクティビティの生成

CVPR 2024 | 合成视频数据集里只有单人数据?M3Act破解人群行为标注难题

著者は、制御可能な 3D グループ アクティビティの生成という新しいタイプのタスクを提案します。このタスクの目的は、指定されたアクティビティ クラス ラベルと任意の集団サイズに基づいて、ガウス ノイズから 3D 人間のアクションのセットを合成することです。既存の研究ではマルチプレイヤー アクションを生成できますが、それは 2 人のシナリオまたは固定人数のグループに限定されています。したがって、著者らは 2 つのベースライン方法を提案します。最初のベースライン アプローチでは、グループ アクティビティは、1 人の動作拡散モデル MDM [4] を繰り返し呼び出すことによって実装されるため、各個人の生成プロセスは独立しています。 2 番目の方法では、MDM に基づいて対話型トランスフォーマー (IFormer) を追加します。人間の対話をモデリングしているため、MDM+IFormer は単一の転送パスで調整されたグループ アクティビティを生成できます。

著者は、認識精度、フレシェット初期距離 (FID)、多様性、マルチモダリティという評価指標をグループと個人の両方のレベルで考慮しています。さらに、社会力モデルに基づいて、著者は、衝突頻度、反発相互作用力、接触反発力、および総反発力という 4 つの位置ベースの指標をグループ レベルで追加します。結果は次のことを示しています:

  • MDM+IFormer は、キャラクターの位置が適切に調整されたグループ アクティビティを生成できます。以下の定性的なグラフを参照してください。
  • どちらのベースラインメソッドも入力条件に一致する多様なアクティビティを生成できますが、MDM+IFormer の方がより優れた FID スコアを達成します。
  • MDM+IFormer の対話型トランスフォーマーは、生成されたグループ アクティビティ内の衝突の頻度を大幅に削減します。

CVPR 2024 | 合成视频数据集里只有单人数据?M3Act破解人群行为标注难题

CVPR 2024 | 合成视频数据集里只有单人数据?M3Act破解人群行为标注难题

結論

論文の著者らは、マルチモダリティとパフォーマンスの強化に関する3つの主要な実験、および新世代タスクの導入を通じてM3Actの利点を実証しました。 。複数人の追跡とグループ活動の認識に関する実験では、より多くの合成データが追加されるにつれて、目に見えないテストケースに対するモデルの一般化能力が向上することが観察されました。

さらに、M3Act の合成データは、パフォーマンスに影響を与えることなく、ターゲット フィールドの実データの一部を置き換えることができます。これにより、トレーニング プロセス中に大量の実データの必要性が減り、その結果、データ収集と注釈のコスト。この発見は、サンプルが小さいかゼロであっても、シミュレートされたデータから現実世界のデータに移行できる可能性を示しています。

制御可能な 3D グループ アクティビティの生成では、MDM+IFormer はこのタスクのベースライン モデルにすぎませんが、キャラクターの動きのインタラクション ルールを学習し、制御下で適切に調整されたグループ アクティビティを生成します。特に、生成的アプローチは現在、手続き的アプローチよりも優れていますが、さまざまなシグナル (活動カテゴリー、グループのサイズ、軌道、密度、速度、テキスト入力) からグループの行動を直接制御できる可能性を示しています。将来的にデータの可用性が増加し、生成モデルの機能が向上するにつれて、著者らは、生成手法が最終的に優位性を獲得し、社会的相互作用や集団的な人間の活動においてより広く使用されるようになるだろうと予測しています。

M3Act データセットにおけるグループ動作の複雑さは、データ生成プロセスのヒューリスティック ルールによって制限される可能性がありますが、M3Act は、特定の下流タスクに合わせて新しいグループ アクティビティを統合する際に大幅な柔軟性を提供します。これらの新しいグループは、専門家がガイドするヒューリスティック ルール、大規模な言語モデルによって生成されたルール、または制御可能な 3D グループ アクティビティの生成モデルの出力から生成できます。さらに、この論文の著者は、合成データと現実世界のデータの間に存在する領域の違いを認識しています。将来のリリースでデータ ジェネレーターにアセットが追加されると、モデルの一般化機能が向上し、これらの違いを軽減できるようになります。

[1] Yuang Zhang、Tiancai Wang、および Xiangyu Zhang。Motrv2: 事前トレーニングされたオブジェクト検出器によるエンドツーエンドのマルチオブジェクト追跡のブートストラッピング、コンピューター ビジョンとパターンに関する IEEE/CVF 会議の議事録。表彰、22056 ~ 22065 ページ、2023 年。
[2] 周宏陸、アシム・カダフ、アビブ・シャムシアン、耿世傑、ファーリー・ライ、ロン・ジャオ、ティン・リュー、ムバシル・カパディア、ハンス・ペーター・グラフ 作曲家: 作曲家。第 17 回欧州コンピューター ビジョン会議 (ECCV 2022) の議事録、2022 年。
[3] Kirill Gavrilyuk、Ryan Sanford、Mehrsan Javan、Cees GM Snoek。グループ アクティビティ認識のためのアクター トランスフォーマー。コンピューター ビジョンとパターン認識に関する IEEE/CVF 会議議事録、839 ~ 848 ページ、2020 年。
[4] Guy Tevet、Sigal Raab、Brian Gordon、Yonatan Shafir、Daniel Cohen-Or、Amit H Bermano のヒューマン モーション拡散モデル。arXiv プレプリント arXiv:2209.14916、2022。

以上がCVPR 2024 | 合成ビデオ データ セットには 1 人の人物データしかありませんか? M3Act は群衆の行動のラベル付けの問題を解決しますの詳細内容です。詳細については、PHP 中国語 Web サイトの他の関連記事を参照してください。

声明:
この記事の内容はネチズンが自主的に寄稿したものであり、著作権は原著者に帰属します。このサイトは、それに相当する法的責任を負いません。盗作または侵害の疑いのあるコンテンツを見つけた場合は、admin@php.cn までご連絡ください。