Heim  >  Artikel  >  Technologie-Peripheriegeräte  >  Neuer Durchbruch in der „interaktiven Generierung von Personen und Szenen“! Tianda University und Tsinghua University veröffentlichen Narrator: textgesteuert, natürlich kontrollierbar |

Neuer Durchbruch in der „interaktiven Generierung von Personen und Szenen“! Tianda University und Tsinghua University veröffentlichen Narrator: textgesteuert, natürlich kontrollierbar |

PHPz
PHPznach vorne
2023-09-11 23:13:05864Durchsuche

Die Erzeugung natürlicher und kontrollierbarer Human Scene Interaction (HSI) spielt in vielen Bereichen wie der Erstellung von Virtual Reality/Augmented Reality (VR/AR)-Inhalten und der auf den Menschen ausgerichteten künstlichen Intelligenz eine wichtige Rolle.

Bestehende Methoden weisen jedoch eine begrenzte Steuerbarkeit, begrenzte Interaktionstypen und unnatürlich erzeugte Ergebnisse auf, was ihre Anwendungsszenarien im wirklichen Leben erheblich einschränkt.

In der Forschung von ICCV 2023 haben die Universitäten Tianjin und Tsinghua ein Team gebildet mit einer Lösung namens Narrator, um dieses Problem zu untersuchen. Diese Lösung konzentriert sich auf die herausfordernde Aufgabe, auf natürliche und kontrollierte Weise realistische und vielfältige Interaktionen zwischen Mensch und Szene aus Textbeschreibungen zu generieren. likun/projects/Narrator

Der umgeschriebene Inhalt lautet: Code-Link: https://github.com/HaibiaoXuan/Narrator

「人与场景交互生成」新突破!天大、清华发布Narrator:文本驱动,自然可控|ICCV 2023Aus der Perspektive der menschlichen Kognition sollte das generative Modell idealerweise in der Lage sein, räumliche Beziehungen richtig zu beurteilen und erkunden Sie die Freiheitsgrade von Interaktionen.

Daher schlägt der Autor ein generatives Modell vor, das auf relationalem Denken basiert. Dieses Modell modelliert die räumlichen Beziehungen in Szenen und Beschreibungen durch Szenendiagramme und führt einen Interaktionsmechanismus auf Teilebene ein, der interaktive Aktionen als atomare Körperteilzustände darstellt

Insbesondere schlägt der Autor eine einfache, aber effektive Mehrpersonengeneration vor Strategie, dies ist die erste Erkundung der kontrollierbaren interaktiven Generierung von Mehrpersonenszenen bestehende Arbeit

Methodenmotivation

Bestehende Methoden zur Generierung von Mensch-Szene-Interaktionen konzentrieren sich hauptsächlich auf die physikalisch-geometrische Beziehung der Interaktion, es fehlt ihnen jedoch die semantische Kontrolle über die Generierung, und sie sind auch auf die Einzelspieler-Generierung beschränkt.

Daher konzentrieren sich die Autoren auf die anspruchsvolle Aufgabe, aus Beschreibungen in natürlicher Sprache realistische und vielfältige Interaktionen zwischen Mensch und Szene kontrollierbar zu generieren. Die Autoren stellten fest, dass Menschen typischerweise räumliche Wahrnehmung und Handlungserkennung nutzen, um Menschen, die an verschiedenen Orten an verschiedenen Interaktionen teilnehmen, auf natürliche Weise zu beschreiben.

Bild

Der umgeschriebene Inhalt lautet wie folgt: Gemäß Abbildung 1 kann der Erzähler auf natürliche und kontrollierte Weise semantisch konsistente und physikalisch sinnvolle Mensch-Szenen-Interaktionen erzeugen, die auf die folgenden Situationen anwendbar sind: (a) durch Raumbeziehung -Geführte Interaktion, (b) Interaktion, die durch mehrere Aktionen gesteuert wird, (c) Interaktion zwischen mehreren Personen und (d) Interaktion zwischen Person und Szene, die die oben genannten Interaktionstypen kombiniert

Konkret können räumliche Beziehungen verwendet werden, um die Wechselbeziehungen zwischen zu beschreiben verschiedene Objekte in einer Szene oder einem lokalen Bereich. Interaktive Aktionen werden durch den Zustand atomarer Körperteile spezifiziert, wie z. B. die Füße einer Person auf dem Boden, sich auf den Oberkörper stützen, mit der rechten Hand klopfen, den Kopf senken usw.

Mit diesem Ausgangspunkt wird die Der Autor verwendet Szenendiagramme, um räumliche Beziehungen darzustellen, und schlägt vor, dass er einen JGLSG-Mechanismus (Joint Global and Local Scene Graph) verwendet, um eine globale Positionserkennung für die nachfolgende Generation bereitzustellen. 「人与场景交互生成」新突破!天大、清华发布Narrator:文本驱动,自然可控|ICCV 2023

Angesichts der Tatsache, dass der Zustand von Körperteilen der Schlüssel zur Simulation realistischer Interaktionen im Einklang mit dem Text ist, führte der Autor gleichzeitig einen Part-Level-Action-Mechanismus (PLA) ein, um die Entsprechung zwischen menschlichen Körperteilen und Aktionen herzustellen.

Der Autor profitiert von der effektiven Beobachtungserkennung und der Flexibilität und Wiederverwendbarkeit des vorgeschlagenen relationalen Denkens und schlägt außerdem eine einfache und effektive Strategie zur Generierung mehrerer Personen vor, die damals die erste natürlich kontrollierbare und benutzergenerierte Strategie war. Freundliche Lösung zur Generierung von Multi-Human Scene Interaction (MHSI).

Methodenideen

Überblick über das Narrator-Framework

Das Ziel von Narrator besteht darin, Interaktionen zwischen Charakteren und Szenen auf natürliche und kontrollierbare Weise zu erzeugen, die semantisch mit Textbeschreibungen übereinstimmen und die drei physisch zusammenbringen -dimensionale Szene

Bild

Abbildung 2 Übersicht über das Narrator-Framework

Wie in Abbildung 2 gezeigt, verwendet diese Methode einen auf Transformer basierenden Conditional Variational Autoencoder (cVAE), der hauptsächlich die folgenden Mehrere umfasst Teile:

Im Vergleich zu bestehenden Forschungsergebnissen entwerfen wir einen gemeinsamen Mechanismus für globale und lokale Szenendiagramme, um über komplexe räumliche Beziehungen nachzudenken und ein globales Positionierungsbewusstsein zu erreichen. 「人与场景交互生成」新突破!天大、清华发布Narrator:文本驱动,自然可控|ICCV 2023

2) Ausrichtung auf Personen, die gleichzeitig vorbeikommen. Beobachtung von interaktive Aktionen, die von verschiedenen Körperteilen ausgeführt werden, wodurch ein Aktionsmechanismus auf Komponentenebene eingeführt wird, um realistische und vielfältige Interaktionen zu erzielen.

Während des Prozesses zur Optimierung der Szenenwahrnehmung haben wir zusätzlich den interaktiven zweiteiligen Verlust eingeführt, um bessere Ergebnisse zu erzielen

4) Erweitert sich weiter auf die Generierung von Mehrpersonen-Interaktionen und fördert letztendlich den ersten Schritt in der Mehrpersonen-Szeneninteraktion.

Kombinierter globaler und lokaler Szenendiagrammmechanismus

Die Begründung räumlicher Beziehungen kann dem Modell szenenspezifische Hinweise liefern, was eine wichtige Rolle bei der Erzielung einer natürlichen Steuerbarkeit der Interaktion zwischen Mensch und Szene spielt.

Um dieses Ziel zu erreichen, schlägt der Autor einen gemeinsamen Mechanismus für globale und lokale Szenendiagramme vor, der durch die folgenden drei Schritte implementiert wird:

1. Globale Szenendiagrammgenerierung: Verwenden Sie bei gegebener Szene vorab das Training Das Szenendiagrammmodell generiert ein globales Szenendiagramm, d. h. 「人与场景交互生成」新突破!天大、清华发布Narrator:文本驱动,自然可控|ICCV 2023, wobei 「人与场景交互生成」新突破!天大、清华发布Narrator:文本驱动,自然可控|ICCV 2023, 「人与场景交互生成」新突破!天大、清华发布Narrator:文本驱动,自然可控|ICCV 2023 Objekte mit Kategoriebezeichnungen sind, 「人与场景交互生成」新突破!天大、清华发布Narrator:文本驱动,自然可控|ICCV 2023 die Beziehung zwischen 「人与场景交互生成」新突破!天大、清华发布Narrator:文本驱动,自然可控|ICCV 2023 und 「人与场景交互生成」新突破!天大、清华发布Narrator:文本驱动,自然可控|ICCV 2023 ist, n die Anzahl der Objekte ist, m die Anzahl der Beziehungen ist;

2. Generierung lokaler Szenendiagramme: Verwenden Sie semantische Parsing-Tools, um die beschriebene Satzstruktur zu identifizieren und lokale Szenen zu extrahieren und zu generieren

, wobei

das Triplett von Subjekt-Prädikat-Objekt definiert;

「人与场景交互生成」新突破!天大、清华发布Narrator:文本驱动,自然可控|ICCV 2023「人与场景交互生成」新突破!天大、清华发布Narrator:文本驱动,自然可控|ICCV 2023

Szenendiagramm-Übereinstimmung: durch dasselbe Objekt Mit semantischen Tags entspricht das Modell den Knoten im globalen Szenendiagramm und im lokalen Szenendiagramm und fügt einen virtuellen menschlichen Knoten hinzu, indem die Kantenbeziehung erweitert wird, um Positionsinformationen bereitzustellen Der Autor schlägt einen feinkörnigen Aktionsmechanismus auf Teilebene vor, durch den das Modell in der Lage ist, wichtige Zustände von Körperteilen zu erkennen und irrelevante Teile einer bestimmten Interaktion zu ignorieren

Konkret untersucht der Autor umfangreiche und vielfältige interaktive Aktionen und kartiert diese Mögliche Aktionen auf die fünf Hauptteile des menschlichen Körpers: Kopf, Rumpf, linker/rechter Arm, linke/rechte Hand und linker/rechter Unterkörper.

In der nachfolgenden Codierung können wir One-Hot verwenden, um diese Aktionen und Körperteile gleichzeitig darzustellen und sie entsprechend der entsprechenden Beziehung zu verbinden

Der Autor ist in der interaktiven Generierung von Multi-Aktionen An Der Aufmerksamkeitsmechanismus wird eingesetzt, um den Status verschiedener Teile der Körperstruktur zu erfahren.

Bei einer bestimmten Kombination interaktiver Aktionen wird die Aufmerksamkeit zwischen dem Körperteil, der jeder Aktion entspricht, und allen anderen Aktionen automatisch abgeschirmt.

Nehmen Sie als Beispiel „eine Person, die mit einem Schrank auf dem Boden hockt“. Das Hocken entspricht dem Zustand des Unterkörpers, sodass die Aufmerksamkeit, die auf andere Teile gerichtet ist, auf Null blockiert wird. Umgeschriebener Inhalt: Nehmen Sie als Beispiel „eine Person, die mit einem Schrank auf dem Boden hockt“. Das Hocken entspricht dem Zustand des Unterkörpers, sodass die Aufmerksamkeit anderer Körperteile vollständig blockiert wird. Optimierung der Szenenwahrnehmung

Der Autor nutzt geometrische und physikalische Einschränkungen für die szenenbezogene Optimierung, um die Generierungsergebnisse zu verbessern. Während des gesamten Optimierungsprozesses stellt diese Methode sicher, dass die generierte Pose nicht abweicht, während sie gleichzeitig den Kontakt mit der Szene fördert und den Körper einschränkt, um eine gegenseitige Durchdringung mit der Szene zu vermeiden

Angesichts der dreidimensionalen Szene S und der generierten SMPL-X-Parameter , der Optimierungsverlust beträgt:

Dazu gehört 「人与场景交互生成」新突破!天大、清华发布Narrator:文本驱动,自然可控|ICCV 2023, dass Körperscheitelpunkte mit der Szene in Kontakt kommen; 「人与场景交互生成」新突破!天大、清华发布Narrator:文本驱动,自然可控|ICCV 2023 ist ein Kollisionsbegriff, der auf der vorzeichenbehafteten Distanz basiert; Szene und abgetasteter menschlicher Körper. 「人与场景交互生成」新突破!天大、清华发布Narrator:文本驱动,自然可控|ICCV 2023 ist ein Regularisierungsfaktor, der verwendet wird, um Parameter zu bestrafen, die von der Initialisierung abweichen. 「人与场景交互生成」新突破!天大、清华发布Narrator:文本驱动,自然可控|ICCV 2023

Multiplayer Scene Interaction (MHSI)

In realen Szenen interagiert in vielen Fällen nicht nur eine Person mit der Szene, sondern mehrere Personen interagieren unabhängig oder verbunden.

Allerdings erfordern bestehende Methoden aufgrund fehlender MHSI-Datensätze meist zusätzlichen manuellen Aufwand und können diese Aufgabe nicht kontrollierbar und automatisch bewältigen.

Zu diesem Zweck nutzt der Autor nur vorhandene Einzelpersonendatensätze und schlägt eine einfache und effektive Strategie für die Richtung der Mehrpersonengenerierung vor.

Anhand einer Textbeschreibung, die sich auf mehrere Personen bezieht, analysiert der Autor diese zunächst in mehrere lokale Szenendiagramme

und interaktive Aktionen 「人与场景交互生成」新突破!天大、清华发布Narrator:文本驱动,自然可控|ICCV 2023 und definiert den Kandidatensatz als 「人与场景交互生成」新突破!天大、清华发布Narrator:文本驱动,自然可控|ICCV 2023, wobei l die Anzahl der Personen ist. 「人与场景交互生成」新突破!天大、清华发布Narrator:文本驱动,自然可控|ICCV 2023

Für jedes Element im Kandidatensatz wird es zunächst zusammen mit der Szene

und dem entsprechenden globalen Szenendiagramm 「人与场景交互生成」新突破!天大、清华发布Narrator:文本驱动,自然可控|ICCV 2023 in Narrator eingegeben und dann der Optimierungsprozess durchgeführt. 「人与场景交互生成」新突破!天大、清华发布Narrator:文本驱动,自然可控|ICCV 2023

Um Kollisionen zwischen Personen zu bewältigen, wird im Optimierungsprozess ein zusätzlicher Verlust

eingeführt, wobei 「人与场景交互生成」新突破!天大、清华发布Narrator:文本驱动,自然可控|ICCV 2023 der vorzeichenbehaftete Abstand zwischen Personen ist. 「人与场景交互生成」新突破!天大、清华发布Narrator:文本驱动,自然可控|ICCV 2023

Wenn der Optimierungsverlust dann niedriger ist als der auf der Grundlage experimenteller Erfahrungen ermittelte Schwellenwert, wird dieses generierte Ergebnis akzeptiert und aktualisiert

durch Hinzufügen menschlicher Knoten; andernfalls wird das generierte Ergebnis als nicht vertrauenswürdig betrachtet und aktualisiert 「人与场景交互生成」新突破!天大、清华发布Narrator:文本驱动,自然可控|ICCV 2023 durch Abschirmung des entsprechenden Objektknotens. 「人与场景交互生成」新突破!天大、清华发布Narrator:文本驱动,自然可控|ICCV 2023

Es ist erwähnenswert, dass diese Aktualisierungsmethode die Beziehung zwischen den Ergebnissen jeder Generation und den Ergebnissen der vorherigen Generation herstellt, ein gewisses Maß an Überfüllung vermeidet und eine vernünftigere räumliche Verteilung und interaktiver als die einfache Mehrfachgenerierung aufweist .lebensecht. Der obige Prozess kann wie folgt ausgedrückt werden: 1], POSA [2], COINS [3] werden sinnvoll erweitert, um mit Textbeschreibungen zu arbeiten und dieselben Datensätze zum Trainieren ihrer offiziellen Modelle zu verwenden. Nach der Änderung haben wir diese Methoden PiGraph-Text, POSA-Text und COINS-Text genannt

「人与场景交互生成」新突破!天大、清华发布Narrator:文本驱动,自然可控|ICCV 2023Bilder

Abbildung 3 Qualitative Vergleichsergebnisse verschiedener Methoden

Abbildung 3 zeigt die qualitativen Vergleichsergebnisse von Narrator und drei Basislinien. Aufgrund der Darstellungsbeschränkungen von PiGraph-Text treten schwerwiegendere Penetrationsprobleme auf.

POSA-Text fällt während des Optimierungsprozesses häufig in lokale Minima, was zu schlechten interaktiven Kontakten führt. COINS-Text bindet Aktionen an bestimmte Objekte, es mangelt ihm an globalem Bewusstsein für die Szene, er führt zu einer Durchdringung mit nicht spezifizierten Objekten und es ist schwierig, mit komplexen räumlichen Beziehungen umzugehen.

Im Gegensatz dazu kann der Erzähler auf der Grundlage verschiedener Ebenen von Textbeschreibungen korrekte Überlegungen zu räumlichen Beziehungen anstellen und Körperzustände bei mehreren Aktionen analysieren, wodurch bessere Generierungsergebnisse erzielt werden.

In Bezug auf den quantitativen Vergleich übertrifft Narrator, wie in Tabelle 1 gezeigt, andere Methoden in fünf Indikatoren, was zeigt, dass die mit dieser Methode generierten Ergebnisse eine genauere Textkonsistenz und eine bessere physische Plausibilität aufweisen.

「人与场景交互生成」新突破!天大、清华发布Narrator:文本驱动,自然可控|ICCV 2023Tabelle 1 Quantitative Vergleichsergebnisse verschiedener Methoden

Darüber hinaus bietet der Autor detaillierte Vergleiche und Analysen, um die Wirksamkeit der vorgeschlagenen MHSI-Strategie besser zu verstehen.

Angesichts der Tatsache, dass es derzeit keine Arbeit an MHSI gibt, wählten sie einen unkomplizierten Ansatz als Basis, nämlich sequentielle Generierung und Optimierung mit COINS.

Um einen fairen Vergleich zu ermöglichen, wird auch ein künstlicher Kollisionsverlust eingeführt. Abbildung 4 und Tabelle 2 zeigen die qualitativen bzw. quantitativen Ergebnisse, die beide deutlich beweisen, dass die vom Autor vorgeschlagene Strategie auf MHSI semantisch konsistent und physikalisch sinnvoll ist.

「人与场景交互生成」新突破!天大、清华发布Narrator:文本驱动,自然可控|ICCV 2023Abbildung 4 Qualitativer Vergleich mit MHSI unter Verwendung der sequentiellen Generierungs- und Optimierungsmethode von COINS

「人与场景交互生成」新突破!天大、清华发布Narrator:文本驱动,自然可控|ICCV 2023

Über den Autor

「人与场景交互生成」新突破!天大、清华发布Narrator:文本驱动,自然可控|ICCV 2023

Die Hauptrichtungen der Forschung umfassen drei -dimensionales Sehen, Computer Vision und Erzeugung von Interaktionen zwischen Mensch und Szene

「人与场景交互生成」新突破!天大、清华发布Narrator:文本驱动,自然可控|ICCV 2023

Hauptforschungsrichtungen: dreidimensionales Sehen, Computer Vision, Rekonstruktion des menschlichen Körpers und der Kleidung

「人与场景交互生成」新突破!天大、清华发布Narrator:文本驱动,自然可控|ICCV 2023

Die Forschungsrichtungen umfassen hauptsächlich dreidimensionales Sehen Vision, Computer Vision und Bilderzeugung. Die Forschungsrichtung konzentriert sich hauptsächlich auf menschzentrierte Computer Vision und Grafik. Hauptforschungsrichtungen: Computergrafik, dreidimensionales Sehen und Computerfotografie

Persönlicher Homepage-Link: https://liuyebin.com/「人与场景交互生成」新突破!天大、清华发布Narrator:文本驱动,自然可控|ICCV 2023

[ 1] Savva M, Chang A M, Ghosh P, Tesch J, et al. 14718.

「人与场景交互生成」新突破!天大、清华发布Narrator:文本驱动,自然可控|ICCV 2023[3] Zhao K, Wang S, Zhang Y, et al. Kompositionelle Mensch-Szenen-Interaktionssynthese mit semantischer Kontrolle[C].

Das obige ist der detaillierte Inhalt vonNeuer Durchbruch in der „interaktiven Generierung von Personen und Szenen“! Tianda University und Tsinghua University veröffentlichen Narrator: textgesteuert, natürlich kontrollierbar |. Für weitere Informationen folgen Sie bitte anderen verwandten Artikeln auf der PHP chinesischen Website!

Stellungnahme:
Dieser Artikel ist reproduziert unter:51cto.com. Bei Verstößen wenden Sie sich bitte an admin@php.cn löschen