CVPR 2024 | 合成ビデオデータセットには 1 人の人物データしかありませんか? M3Act は群衆の行動のラベル付けの問題を解決します-AI-php.cn

ホームページ

テクノロジー周辺機器

CVPR 2024 | 合成ビデオデータセットには 1 人の人物データしかありませんか? M3Act は群衆の行動のラベル付けの問題を解決します

王林

Jun 03, 2024 pm 10:02 PM

業界M3Act合成データ生成フレームワーク

AIxivコラムは、当サイトが学術的・技術的な内容を掲載するコラムです。過去数年間で、このサイトの AIxiv コラムには 2,000 件を超えるレポートが寄せられ、世界中の主要な大学や企業のトップ研究室がカバーされ、学術交流と普及を効果的に促進しています。共有したい優れた作品がある場合は、お気軽に寄稿するか、報告のために当社までご連絡ください。提出メール: liyazhou@jiqizhixin.com; zhaoyunfeng@jiqizhixin.com

CVPR 2024 | 合成视频数据集里只有单人数据？M3Act破解人群行为标注难题

紙のリンク: https://arxiv.org/abs/2306.16772
プロジェクトリンク: https://cjerry1243 。 github.io/M3Act/
論文タイトル: M3Act: 合成人間のグループ活動から学ぶ

はじめに

視覚情報による群衆の行動の認識と理解は、ビデオ監視、対話型ロボット、自動運転の分野です、などがキーテクノロジーの一つとなっているが、大規模な群衆行動アノテーションデータの取得が関連研究開発のボトルネックとなっている。現在、合成データセットは実世界のデータに代わる新たな手法になりつつありますが、既存の研究における合成データセットは主に人間の姿勢と形状の推定に焦点を当てています。多くの場合、一人の合成アニメーションビデオのみを提供しますが、これは群衆のビデオ認識タスクには適していません。

CVPR 2024 | 合成视频数据集里只有单人数据？M3Act破解人群行为标注难题

この記事では、著者は、複数グループの群衆行動に適した合成データ生成フレームワークである M3Act を提案します。実験の結果、この合成データセットは、複数人の追跡とグループ活動認識における下流モデルのパフォーマンスを大幅に向上させることができ、DanceTrack タスクの実データの 62.5% 以上を置き換えることができるため、実際のアプリケーションでのデータアノテーションコストを削減できることが示されています。シナリオ。さらに、この合成データフレームワークは、制御可能な 3D 群アクティビティ生成という新しいクラスのタスクを提案します。このタスクは、複数の入力 (アクティビティカテゴリ、群れのサイズ、軌道、密度、速度、テキスト入力) を使用して、群れのアクティビティの生成結果を直接制御することを目的としています。著者はタスクと指標を厳密に定義し、競争力のあるベースラインと結果を提供します。

データ生成

Unity エンジンに基づいて開発された M3Act は、複数の行動タイプの群衆データをカバーし、非常に多様でリアルなビデオ画像、および包括的なデータラベリングを提供します。他の合成データセットと比較して、M3Act は、2D および 3D マーカー、きめ細かい個人レベルおよびグループレベルのラベルを含む、より包括的なラベル付きデータを提供するため、複数人および複数グループの研究タスクをサポートする理想的な合成となります。データセットジェネレータ。

CVPR 2024 | 合成视频数据集里只有单人数据？M3Act破解人群行为标注难题

データジェネレーターには、25 の 3D シーン、104 のハイダイナミックレンジパノラマ画像、5 つのライト設定、2200 のキャラクターモデル、384 のアニメーション (14 のアクションカテゴリ)、および 6 つのグループアクティビティタイプが含まれています。データ生成プロセスは次のとおりです。まず、シミュレーションシナリオ内のすべてのパラメーターがランダム化プロセスを通じて決定され、次に、背景オブジェクト、ライト、カメラを含む 3D シーン、およびアニメーション付きのキャラクターモデルのグループがパラメーターに基づいて生成されます。。最後に、RGB 画像が複数の視点からレンダリングされ、ラベル付けされた結果がエクスポートされます。

CVPR 2024 | 合成视频数据集里只有单人数据？M3Act破解人群行为标注难题

シミュレートされたデータの高度な多様性を確保するために、M3Act はデータ生成プロセスのほぼすべての側面にランダム化を提供します。これには、シーン内のグループの数、各グループ内の人の数、グループの位置、グループ内の人の配置、個人の位置、インスタンス化されたキャラクターのテクスチャ、およびシーンが含まれます。、照明条件、カメラの位置、キャラクター、グループアクティビティ、アトムアクションおよびアニメーションクリップの選択。各グループアクティビティは、パラメーター化されたモジュールとしても構築されます。これらのパラメータには、群れ内の個体数と、群れの活動内で許可される特定のアトミックアクションが含まれます。

最終的に生成されたデータセットは 2 つの部分に分割されます。最初のパート「M3ActRGB」には、単一だが複数のタイプのグループアクティビティの 6000 件のシミュレーションと、複数のグループと複数のタイプの 9000 件のシミュレーションが含まれており、合計 600 万の RGB 画像と 4,800 万の境界ボックスが含まれています。後半の「M3Act3D」には3Dデータのみが収録されています。これは、単一のマルチタイプのグループアクティビティの 65,000 を超える 150 フレームのシミュレーションで構成され、合計 87.6 時間になります。著者の知る限り、M3Act3D のグループサイズとインタラクションの複雑さは、以前のマルチプレイヤースポーツデータセットよりも大幅に高く、大規模なグループアクティビティ向けの初の大規模 3D データセットとなっています。

実験結果

M3Actの実際の効果は、複数人の追跡、グループ活動の認識、および制御可能なグループ活動の生成という3つの主要な実験を通じて実証されます。

実験 1: 複数人の追跡

研究では、既存のモデル MOTRv2 [1] のトレーニングに合成データを追加した後、モデルが 5 つの指標すべてにおいて有意であることがわかりました。 , 特にHOTA指標のランキング10位から2位まで。同時に、トレーニングセット内の実際のデータの 62.5% が合成データに置き換えられた場合でも、モデルは同様のパフォーマンスを達成できました。さらに、BEDLAM や GTA-Humans などの他の合成データソースと比較して、M3Act はモデルトレーニングのパフォーマンスが大幅に向上しており、複数人のグループアクティビティタスクにより適していることを示しています。最後に、以下の表は、M3Act でのさまざまなモデルのトレーニング結果を示しています。この結果から、M3Act はさまざまなモデルで有効であることがわかります。

CVPR 2024 | 合成视频数据集里只有单人数据？M3Act破解人群行为标注难题

実験 2: グループ活動認識

同様に、M3Act は、次の表に示すように、2 つの既存のグループ活動認識モデルのパフォーマンスも向上させました。データ量が増加するにつれて、認識精度は向上し続けます。 100% 合成データを使用した場合、グループアクティビティ認識モデル Composer [2] の精度は、グループレベルで平均 4.87%、個人レベルで 7.43% 向上しましたが、別のグループアクティビティ認識モデル Actor Transformer [3] の精度は向上しました。グループレベルでは精度が 5.59% 増加し、個人レベルでは 5.43% の増加が見られました。

CVPR 2024 | 合成视频数据集里只有单人数据？M3Act破解人群行为标注难题

以下の表は、さまざまな入力モダリティを使用した CAD2 とバレーボール (VD) でのグループ認識精度を示しています。実験によるパフォーマンスの向上は、M3Act の合成データが下流のタスクに効果的に利益をもたらし、さまざまなモデル、入力モダリティ、データセットにまたがることを示しています。

CVPR 2024 | 合成视频数据集里只有单人数据？M3Act破解人群行为标注难题

実験 3: 制御可能な 3D グループアクティビティの生成

CVPR 2024 | 合成视频数据集里只有单人数据？M3Act破解人群行为标注难题

著者は、制御可能な 3D グループアクティビティの生成という新しいタイプのタスクを提案します。このタスクの目的は、指定されたアクティビティクラスラベルと任意の集団サイズに基づいて、ガウスノイズから 3D 人間のアクションのセットを合成することです。既存の研究ではマルチプレイヤーアクションを生成できますが、それは 2 人のシナリオまたは固定人数のグループに限定されています。したがって、著者らは 2 つのベースライン方法を提案します。最初のベースラインアプローチでは、グループアクティビティは、1 人の動作拡散モデル MDM [4] を繰り返し呼び出すことによって実装されるため、各個人の生成プロセスは独立しています。 2 番目の方法では、MDM に基づいて対話型トランスフォーマー (IFormer) を追加します。人間の対話をモデリングしているため、MDM+IFormer は単一の転送パスで調整されたグループアクティビティを生成できます。

著者は、認識精度、フレシェット初期距離 (FID)、多様性、マルチモダリティという評価指標をグループと個人の両方のレベルで考慮しています。さらに、社会力モデルに基づいて、著者は、衝突頻度、反発相互作用力、接触反発力、および総反発力という 4 つの位置ベースの指標をグループレベルで追加します。結果は次のことを示しています:

MDM+IFormer は、キャラクターの位置が適切に調整されたグループアクティビティを生成できます。以下の定性的なグラフを参照してください。
どちらのベースラインメソッドも入力条件に一致する多様なアクティビティを生成できますが、MDM+IFormer の方がより優れた FID スコアを達成します。
MDM+IFormer の対話型トランスフォーマーは、生成されたグループアクティビティ内の衝突の頻度を大幅に削減します。

CVPR 2024 | 合成视频数据集里只有单人数据？M3Act破解人群行为标注难题

結論

論文の著者らは、マルチモダリティとパフォーマンスの強化に関する3つの主要な実験、および新世代タスクの導入を通じてM3Actの利点を実証しました。。複数人の追跡とグループ活動の認識に関する実験では、より多くの合成データが追加されるにつれて、目に見えないテストケースに対するモデルの一般化能力が向上することが観察されました。

さらに、M3Act の合成データは、パフォーマンスに影響を与えることなく、ターゲットフィールドの実データの一部を置き換えることができます。これにより、トレーニングプロセス中に大量の実データの必要性が減り、その結果、データ収集と注釈のコスト。この発見は、サンプルが小さいかゼロであっても、シミュレートされたデータから現実世界のデータに移行できる可能性を示しています。

制御可能な 3D グループアクティビティの生成では、MDM+IFormer はこのタスクのベースラインモデルにすぎませんが、キャラクターの動きのインタラクションルールを学習し、制御下で適切に調整されたグループアクティビティを生成します。特に、生成的アプローチは現在、手続き的アプローチよりも優れていますが、さまざまなシグナル (活動カテゴリー、グループのサイズ、軌道、密度、速度、テキスト入力) からグループの行動を直接制御できる可能性を示しています。将来的にデータの可用性が増加し、生成モデルの機能が向上するにつれて、著者らは、生成手法が最終的に優位性を獲得し、社会的相互作用や集団的な人間の活動においてより広く使用されるようになるだろうと予測しています。

M3Act データセットにおけるグループ動作の複雑さは、データ生成プロセスのヒューリスティックルールによって制限される可能性がありますが、M3Act は、特定の下流タスクに合わせて新しいグループアクティビティを統合する際に大幅な柔軟性を提供します。これらの新しいグループは、専門家がガイドするヒューリスティックルール、大規模な言語モデルによって生成されたルール、または制御可能な 3D グループアクティビティの生成モデルの出力から生成できます。さらに、この論文の著者は、合成データと現実世界のデータの間に存在する領域の違いを認識しています。将来のリリースでデータジェネレーターにアセットが追加されると、モデルの一般化機能が向上し、これらの違いを軽減できるようになります。

[1] Yuang Zhang、Tiancai Wang、および Xiangyu Zhang。Motrv2: 事前トレーニングされたオブジェクト検出器によるエンドツーエンドのマルチオブジェクト追跡のブートストラッピング、コンピュータービジョンとパターンに関する IEEE/CVF 会議の議事録。表彰、22056 ～ 22065 ページ、2023 年。

^{[2] 周宏陸、アシム・カダフ、アビブ・シャムシアン、耿世傑、ファーリー・ライ、ロン・ジャオ、ティン・リュー、ムバシル・カパディア、ハンス・ペーター・グラフ作曲家: 作曲家。第 17 回欧州コンピュータービジョン会議 (ECCV 2022) の議事録、2022 年。}

^{[3] Kirill Gavrilyuk、Ryan Sanford、Mehrsan Javan、Cees GM Snoek。グループアクティビティ認識のためのアクタートランスフォーマー。コンピュータービジョンとパターン認識に関する IEEE/CVF 会議議事録、839 ～ 848 ページ、2020 年。}

[4] Guy Tevet、Sigal Raab、Brian Gordon、Yonatan Shafir、Daniel Cohen-Or、Amit H Bermano のヒューマンモーション拡散モデル。arXiv プレプリント arXiv:2209.14916、2022。

以上がCVPR 2024 | 合成ビデオデータセットには 1 人の人物データしかありませんか? M3Act は群衆の行動のラベル付けの問題を解決しますの詳細内容です。詳細については、PHP 中国語 Web サイトの他の関連記事を参照してください。

声明

この記事の内容はネチズンが自主的に寄稿したものであり、著作権は原著者に帰属します。このサイトは、それに相当する法的責任を負いません。盗作または侵害の疑いのあるコンテンツを見つけた場合は、admin@php.cn までご連絡ください。

1つのプロンプトは、すべての主要なLLMのセーフガードをバイパスできますApr 25, 2025 am 11:16 AM

HiddenLayerの画期的な研究は、主要な大規模な言語モデル（LLMS）における重大な脆弱性を明らかにしています。彼らの発見は、ほぼすべての主要なLLMSを回避できる「政策の人形劇」と呼ばれる普遍的なバイパス技術を明らかにしています

5つの間違いほとんどの企業が今年持続可能性を備えていますApr 25, 2025 am 11:15 AM

環境責任と廃棄物の削減の推進は、企業の運営方法を根本的に変えています。この変革は、製品開発、製造プロセス、顧客関係、パートナーの選択、および新しいものの採用に影響します

H20チップバンジョルツチャイナ企業ですが、彼らはインパクトのために長い間支えられてきましたApr 25, 2025 am 11:12 AM

高度なAIハードウェアに関する最近の制限は、AI優位のためのエスカレートする地政学的競争を強調し、中国の外国半導体技術への依存を明らかにしています。 2024年、中国は3,850億ドル相当の半導体を大量に輸入しました

OpenaiがChromeを購入すると、AIはブラウザ戦争を支配する場合がありますApr 25, 2025 am 11:11 AM

GoogleからのChromeの強制的な売却の可能性は、ハイテク業界での激しい議論に火をつけました。 Openaiが65％の世界市場シェアを誇る大手ブラウザを取得する見込みは、THの将来について重要な疑問を提起します

AIが小売メディアの成長する痛みをどのように解決できるかApr 25, 2025 am 11:10 AM

全体的な広告の成長を上回っているにもかかわらず、小売メディアの成長は減速しています。この成熟段階は、生態系の断片化、コストの上昇、測定の問題、統合の複雑さなど、課題を提示します。ただし、人工知能

「aiは私たちであり、それは私たち以上のものです」Apr 25, 2025 am 11:09 AM

古いラジオは、ちらつきと不活性なスクリーンのコレクションの中で静的なパチパチと鳴ります。簡単に不安定になっているこの不安定な電子機器の山は、没入型展示会の6つのインスタレーションの1つである「e-waste land」の核心を形成しています。

Google Cloudは、次の2025年にインフラストラクチャについてより深刻になりますApr 25, 2025 am 11:08 AM

Google Cloudの次の2025年：インフラストラクチャ、接続性、およびAIに焦点を当てています Google Cloudの次の2025年の会議では、多くの進歩を紹介しました。特定の発表の詳細な分析については、私の記事を参照してください

Baby Ai Meme、Arcanaの550万ドルのAI映画パイプライン、IRの秘密の支援者が明らかにした話Apr 25, 2025 am 11:07 AM

今週はAIとXR：AIを搭載した創造性の波が、音楽の世代から映画制作まで、メディアとエンターテイメントを席巻しています。見出しに飛び込みましょう。 AIに生成されたコンテンツの影響力の高まり：テクノロジーコンサルタントのShelly Palme

See all articles

ホットAIツール

Undresser.AI Undress

リアルなヌード写真を作成する AI 搭載アプリ

AI Clothes Remover

写真から衣服を削除するオンライン AI ツール。

Undress AI Tool

脱衣画像を無料で

Clothoff.io

AI衣類リムーバー

Video Face Swap

完全無料の AI 顔交換ツールを使用して、あらゆるビデオの顔を簡単に交換できます。

ホットツール

Safe Exam Browser

Safe Exam Browser は、オンライン試験を安全に受験するための安全なブラウザ環境です。このソフトウェアは、あらゆるコンピュータを安全なワークステーションに変えます。あらゆるユーティリティへのアクセスを制御し、学生が無許可のリソースを使用するのを防ぎます。

PhpStorm Mac バージョン

最新(2018.2.1)のプロフェッショナル向けPHP統合開発ツール

MinGW - Minimalist GNU for Windows

このプロジェクトは osdn.net/projects/mingw に移行中です。引き続きそこでフォローしていただけます。 MinGW: GNU Compiler Collection (GCC) のネイティブ Windows ポートであり、ネイティブ Windows アプリケーションを構築するための自由に配布可能なインポートライブラリとヘッダーファイルであり、C99 機能をサポートする MSVC ランタイムの拡張機能が含まれています。すべての MinGW ソフトウェアは 64 ビット Windows プラットフォームで実行できます。