Heim >Technologie-Peripheriegeräte >KI >CVPR 2024 |. Enthält der synthetische Videodatensatz nur Einzelpersonendaten? M3Act löst das Problem der Kennzeichnung des Verhaltens von Menschenmengen

CVPR 2024 |. Enthält der synthetische Videodatensatz nur Einzelpersonendaten? M3Act löst das Problem der Kennzeichnung des Verhaltens von Menschenmengen

王林
王林Original
2024-06-03 22:02:59623Durchsuche
CVPR 2024 | 合成视频数据集里只有单人数据?M3Act破解人群行为标注难题
Die AIxiv-Kolumne ist eine Kolumne, in der diese Website akademische und technische Inhalte veröffentlicht. In den letzten Jahren sind in der AIxiv-Kolumne dieser Website mehr als 2.000 Berichte eingegangen, die Spitzenlabore großer Universitäten und Unternehmen auf der ganzen Welt abdecken und so den akademischen Austausch und die Verbreitung wirksam fördern. Wenn Sie hervorragende Arbeiten haben, die Sie teilen möchten, können Sie gerne einen Beitrag leisten oder uns für die Berichterstattung kontaktieren. Einreichungs-E-Mail: liyazhou@jiqizhixin.com; zhaoyunfeng@jiqizhixin.com github.io/M3Act/

Titel des Papiers: M3Act: Lernen aus synthetischen Aktivitäten menschlicher GruppenCVPR 2024 | 合成视频数据集里只有单人数据?M3Act破解人群行为标注难题

  • Einführung
  • Das Erkennen und Verstehen des Verhaltens von Menschenmengen durch visuelle Informationen erfolgt in den Bereichen Videoüberwachung und interaktive Roboter , autonomes Fahren usw. ist eine der Schlüsseltechnologien, aber die Beschaffung umfangreicher Anmerkungsdaten zum Verhalten von Menschenmengen ist zu einem Engpass bei der Entwicklung verwandter Forschung geworden. Heutzutage werden synthetische Datensätze zu einer neuen Methode, um Daten aus der realen Welt zu ersetzen. Allerdings konzentrieren sich synthetische Datensätze in der bestehenden Forschung hauptsächlich auf die Schätzung der menschlichen Haltung und Form. Sie stellen oft nur synthetische Animationsvideos von
    einer einzelnen Person
    bereit, die für Videoerkennungsaufgaben von
  • Menschenmengen
  • nicht geeignet sind.

In diesem Artikel schlägt der Autor M3Act vor, ein Framework zur Generierung synthetischer Daten, das für das Verhalten von Mehrgruppengruppen geeignet ist. Experimente zeigen, dass dieser synthetische Datensatz die Leistung nachgelagerter Modelle bei der Verfolgung mehrerer Personen und der Erkennung von Gruppenaktivitäten erheblich verbessern und mehr als 62,5 % der realen Daten der DanceTrack-Aufgabe ersetzen kann, wodurch die Kosten für Datenannotationen in realen Anwendungen gesenkt werden Szenarien. Darüber hinaus bietet dieses synthetische Datenframework eine neue Klasse von Aufgaben: die kontrollierbare 3D-Schwarmaktivitätsgenerierung. Diese Aufgabe zielt darauf ab, die Ergebnisse der Schwarmaktivitätsgenerierung mithilfe mehrerer Eingaben (Aktivitätskategorie, Schwarmgröße, Flugbahn, Dichte, Geschwindigkeit und Texteingabe) direkt zu steuern. Die Autoren definieren Aufgaben und Metriken streng und liefern wettbewerbsfähige Grundlagen und Ergebnisse. Datengenerierung Im Vergleich zu anderen synthetischen Datensätzen bietet M3Act umfassendere beschriftete Daten, einschließlich 2D- und 3D-Markierungen sowie feinkörniger Beschriftungen auf Einzel- und Gruppenebene, was es zu einer idealen Synthese zur Unterstützung von Forschungsaufgaben für mehrere Personen und Gruppen macht Datensatzgenerator.

Der Datengenerator umfasst 25 3D-Szenen, 104 Panoramabilder mit hohem Dynamikbereich, 5 Lichteinstellungen, 2200 Charaktermodelle, 384 Animationen (14 Aktionskategorien) und 6 Gruppenaktivitätstypen. Der Datengenerierungsprozess läuft wie folgt ab: Zunächst werden alle Parameter innerhalb eines Simulationsszenarios durch einen Randomisierungsprozess bestimmt, und dann werden basierend auf den Parametern eine 3D-Szene mit Hintergrundobjekten, Lichtern und Kameras sowie eine Gruppe von Charaktermodellen mit Animation generiert . Abschließend werden die RGB-Bilder aus mehreren Blickwinkeln gerendert und die beschrifteten Ergebnisse exportiert.
Um ein hohes Maß an Diversität in den simulierten Daten sicherzustellen, bietet M3Act eine Randomisierung für nahezu alle Aspekte des Datengenerierungsprozesses. Dazu gehören die Anzahl der Gruppen in der Szene, die Anzahl der Personen in jeder Gruppe, die Position der Gruppe, die Anordnung der Personen in der Gruppe, die Position der Einzelpersonen, die Texturen der instanziierten Charaktere sowie die Szene , Lichtverhältnisse, Kameraposition, Charaktere, Gruppenaktivität, Atome Auswahl an Action- und Animationsclips. Jede Gruppenaktivität ist auch als parametrisiertes Modul aufgebaut. Zu diesen Parametern gehören die Anzahl der Individuen im Schwarm und die spezifischen atomaren Aktionen, die innerhalb der Schwarmaktivität zulässig sind.

Der endgültig generierte Datensatz ist in zwei Teile unterteilt. Der erste Teil „M3ActRGB“ enthält 6000 Simulationen einzelner, aber mehrerer Arten von Gruppenaktivitäten und 9000 Simulationen mehrerer Gruppen und mehrerer Arten, mit insgesamt 6 Millionen RGB-Bildern und 48 Millionen Begrenzungsrahmen. Der zweite Teil „M3Act3D“ enthält ausschließlich 3D-Daten. Es besteht aus mehr als 65.000 150-Frame-Simulationen einer einzelnen Gruppenaktivität mehrerer Typen mit einer Gesamtdauer von 87,6 Stunden. Nach Kenntnis der Autoren sind die Gruppengröße und die Interaktionskomplexität von M3Act3D deutlich höher als bei früheren Multiplayer-Sportdatensätzen, was es zum ersten groß angelegten 3D-Datensatz für Aktivitäten in großen Gruppen macht.

Experimentelle Ergebnisse

Die tatsächliche Wirkung von M3Act wird durch drei Kernexperimente demonstriert: Mehrpersonen-Tracking, Gruppenaktivitätserkennung und kontrollierbare Gruppenaktivitätsgenerierung.

Experiment 1: Mehrpersonen-Tracking

Die Studie ergab, dass das Modell nach dem Hinzufügen synthetischer Daten zum Training des vorhandenen Modells MOTRv2 [1] in allen 5 Indikatoren eine signifikante Verbesserung aufwies , insbesondere vom 10. auf den 2. Platz im Ranking des HOTA-Indikators. Gleichzeitig konnte das Modell immer noch eine ähnliche Leistung erzielen, wenn 62,5 % der realen Daten im Trainingssatz durch synthetische Daten ersetzt wurden. Darüber hinaus bietet M3Act im Vergleich zu anderen synthetischen Datenquellen wie BEDLAM und GTA-Humans größere Leistungsverbesserungen für das Modelltraining, was darauf hindeutet, dass es besser für Gruppenaktivitätsaufgaben mit mehreren Personen geeignet ist. Abschließend zeigt die folgende Tabelle die Trainingsergebnisse verschiedener Modelle unter M3Act. Die Ergebnisse zeigen, dass M3Act in verschiedenen Modellen wirksam ist. Experiment 2: Erkennung von Gruppenaktivitäten Mit zunehmender Datenmenge verbessert sich die Erkennungsgenauigkeit immer weiter. Bei Verwendung von 100 % synthetischen Daten erhöhte sich die Genauigkeit des Gruppenaktivitätserkennungsmodells Composer [2] um durchschnittlich 4,87 % auf Gruppenebene und 7,43 % auf Einzelebene, während sich ein anderes Gruppenaktivitätserkennungsmodell Actor Transformer [3] verbesserte Auf Gruppenebene wurde eine Steigerung der Genauigkeit um 5,59 % und auf Einzelebene eine Steigerung um 5,43 % beobachtet.

CVPR 2024 | 合成视频数据集里只有单人数据?M3Act破解人群行为标注难题

Die folgende Tabelle zeigt die Gruppenerkennungsgenauigkeit bei CAD2 und Volleyball (VD) unter Verwendung verschiedener Eingabemodalitäten. Leistungssteigerungen in Experimenten zeigen, dass die synthetischen Daten von M3Act nachgelagerte Aufgaben effektiv unterstützen und verschiedene Modelle, Eingabemodalitäten und Datensätze umfassen können.

Experiment 3: Steuerbare 3D-Gruppenaktivitätsgenerierung

Der Autor schlägt einen neuen Aufgabentyp vor: die steuerbare Generierung von 3D-Gruppenaktivitäten. Die Aufgabe zielt darauf ab, eine Reihe menschlicher 3D-Aktionen aus Gauß'schem Rauschen basierend auf einer bestimmten Aktivitätsklassenbezeichnung und einer willkürlichen Populationsgröße zu synthetisieren. Obwohl bestehende Studien Mehrspieleraktionen generieren können, beschränken sie sich auf Zwei-Personen-Szenarien oder Gruppen mit einer festen Personenzahl. Daher schlagen die Autoren zwei grundlegende Methoden vor. Beim ersten Basisansatz wird die Gruppenaktivität durch wiederholtes Aufrufen des Einzelpersonen-Bewegungsdiffusionsmodells MDM [4] implementiert, sodass der Generierungsprozess für jedes Individuum unabhängig ist. Die zweite Methode fügt einen interaktiven Transformator (IFormer) basierend auf MDM hinzu. Aufgrund der Modellierung menschlicher Interaktionen ist MDM+IFormer in der Lage, koordinierte Gruppenaktivitäten in einem einzigen Vorwärtsdurchlauf zu erzeugen.

Der Autor berücksichtigt die folgenden Bewertungsindikatoren sowohl auf Gruppen- als auch auf Einzelebene: Erkennungsgenauigkeit, Frechette-Anfangsdistanz (FID), Diversität und Multimodalität. Basierend auf dem Modell der sozialen Kräfte fügt der Autor außerdem vier ortsbezogene Indikatoren auf Gruppenebene hinzu: Kollisionshäufigkeit, abstoßende Interaktionskraft, Kontaktabstoßungskraft und Gesamtabstoßungskraft. Die Ergebnisse zeigen:

  • MDM+IFormer ist in der Lage, Gruppenaktivitäten mit gut abgestimmten Charakterpositionen zu generieren. Siehe qualitative Grafik unten.
  • Beide Basismethoden können verschiedene Aktivitäten generieren, die den Eingabebedingungen entsprechen, aber MDM+IFormer erzielt bessere FID-Werte.
  • Interaktive Transformatoren in MDM+IFormer reduzieren die Häufigkeit von Kollisionen innerhalb generierter Gruppenaktivitäten erheblich.

CVPR 2024 | 合成视频数据集里只有单人数据?M3Act破解人群行为标注难题

CVPR 2024 | 合成视频数据集里只有单人数据?M3Act破解人群行为标注难题

Fazit

Die Autoren des Papiers demonstrierten die Vorteile von M3Act durch drei Kernexperimente zu Multimodalität und verbesserter Leistung sowie der Einführung einer Aufgabe der neuen Generation . In Experimenten zur Verfolgung mehrerer Personen und zur Erkennung von Gruppenaktivitäten beobachteten sie, dass sich die Generalisierungsfähigkeit des Modells auf unsichtbare Testfälle verbesserte, je mehr synthetische Daten hinzugefügt wurden.

Darüber hinaus können die synthetischen Daten in M3Act einige der realen Daten im Zielfeld ersetzen, ohne die Leistung zu beeinträchtigen Kosten für die Datenerfassung und -annotation. Dieses Ergebnis zeigt das Potenzial kleiner oder sogar Nullstichproben für die Migration von simulierten Daten zu realen Daten.

Obwohl MDM+IFormer bei der kontrollierbaren 3D-Gruppenaktivitätsgenerierung nur ein Basismodell für diese Aufgabe ist, lernt es dennoch die Interaktionsregeln der Charakterbewegung und generiert gut abgestimmte Gruppenaktivitäten unter Kontrolle. Obwohl generative Ansätze derzeit prozedurale Ansätze übertreffen, zeigen sie insbesondere das Potenzial, Gruppenaktionen direkt anhand einer Vielzahl von Signalen (Aktivitätskategorie, Gruppengröße, Flugbahn, Dichte, Geschwindigkeit und Texteingabe) zu steuern. Da die Datenverfügbarkeit zunimmt und sich die Fähigkeiten generativer Modelle in Zukunft verbessern, prognostizieren die Autoren, dass generative Methoden irgendwann die Oberhand gewinnen und in sozialen Interaktionen und kollektiven menschlichen Aktivitäten häufiger eingesetzt werden.

Obwohl die Komplexität des Gruppenverhaltens im M3Act-Datensatz durch die heuristischen Regeln im Datengenerierungsprozess begrenzt sein kann, bietet M3Act erhebliche Flexibilität bei der Integration neuer Gruppenaktivitäten, um sie an jede spezifische nachgelagerte Aufgabe anzupassen. Diese neuen Gruppen können aus von Experten geleiteten heuristischen Regeln, aus von großen Sprachmodellen generierten Regeln oder aus der Ausgabe eines generativen Modells kontrollierbarer 3D-Gruppenaktivität stammen. Darüber hinaus erkennen die Autoren des Papiers die Domänenunterschiede an, die zwischen synthetischen und realen Daten bestehen. Durch das Hinzufügen von Assets im Datengenerator in zukünftigen Versionen wird es möglich sein, die Generalisierungsfähigkeiten des Modells zu verbessern und diese Unterschiede abzumildern.

[1] Yuang Zhang, Tiancai Wang und Xiangyu Zhang: Bootstrapping der End-to-End-Mehrobjektverfolgung durch vorab trainierte Objektdetektoren Anerkennung, Seiten 22056–22065, 2023.
[2] Honglu Zhou, Asim Kadav, Aviv Shamsian, Shijie Geng, Farley Lai, Long Zhao, Ting Liu, Mubbasir Kapadia und Hans Peter Graf. Komponist: Komposition Begründung der Gruppenaktivität in Videos mit reiner Keypoint-Modalität. Proceedings of the 17th European Conference on Computer Vision (ECCV 2022), 2022.
[3] Kirill Gavrilyuk, Ryan Sanford, Mehrsan Javan und Cees GM Snoek . Akteurtransformatoren zur Gruppenaktivitätserkennung, Seiten 839–848, 2020.
[4] Guy Tevet, Sigal Raab, Brian Gordon, Yonatan Shafir, Daniel Cohen-Or und Amit H Bermano. Menschliches Bewegungsdiffusionsmodell arXiv:2209.14916, 2022.

Das obige ist der detaillierte Inhalt vonCVPR 2024 |. Enthält der synthetische Videodatensatz nur Einzelpersonendaten? M3Act löst das Problem der Kennzeichnung des Verhaltens von Menschenmengen. Für weitere Informationen folgen Sie bitte anderen verwandten Artikeln auf der PHP chinesischen Website!

Stellungnahme:
Der Inhalt dieses Artikels wird freiwillig von Internetnutzern beigesteuert und das Urheberrecht liegt beim ursprünglichen Autor. Diese Website übernimmt keine entsprechende rechtliche Verantwortung. Wenn Sie Inhalte finden, bei denen der Verdacht eines Plagiats oder einer Rechtsverletzung besteht, wenden Sie sich bitte an admin@php.cn