Heim >Technologie-Peripheriegeräte >KI >Der NPC mit hoher emotionaler Intelligenz ist da, sobald er seine Hand ausstreckt, ist er bereit, beim nächsten Schritt zu kooperieren.
In den Bereichen Virtual Reality, Augmented Reality, Spiele und Mensch-Computer-Interaktion ist es oft notwendig, virtuellen Charakteren die Interaktion mit Spielern außerhalb des Bildschirms zu ermöglichen. Diese Interaktion erfolgt in Echtzeit und erfordert, dass sich die virtuelle Figur dynamisch an die Bewegungen des Bedieners anpasst. Bei manchen Interaktionen sind auch Objekte beteiligt, beispielsweise das Bewegen eines Stuhls mit einem Avatar, was besondere Aufmerksamkeit auf die präzisen Bewegungen der Hände des Bedieners erfordert. Das Aufkommen intelligenter und interaktiver virtueller Charaktere wird das soziale Erlebnis zwischen menschlichen Spielern und virtuellen Charakteren erheblich verbessern und eine neue Art der Unterhaltung bringen.
In dieser Studie konzentriert sich der Autor auf die Interaktionsaufgaben zwischen Menschen und virtuellen Menschen, insbesondere auf die Interaktionsaufgaben mit Objekten, und schlägt eine neue Aufgabe namens Online-Ganzkörper-Aktions-Reaktions-Synthese vor. Die neue Aufgabe wird virtuelle menschliche Reaktionen basierend auf menschlichen Bewegungen generieren. Frühere Forschungen konzentrierten sich hauptsächlich auf die Interaktion von Mensch zu Mensch, ohne die Objekte in der Aufgabe zu berücksichtigen, und die erzeugten Körperreaktionen umfassten keine Handbewegungen. Darüber hinaus wurden Aufgaben in früheren Arbeiten nicht als Online-Argumentation behandelt. In tatsächlichen Situationen sagen virtuelle Menschen den nächsten Schritt basierend auf der Implementierungssituation voraus.
Um die neue Aufgabe zu unterstützen, erstellte der Autor zunächst zwei Datensätze mit den Namen HHI bzw. CoChair und schlug eine einheitliche Methode vor. Konkret konstruieren die Autoren zunächst eine Darstellung der sozialen Leistungsfähigkeit. Dazu wählen sie einen sozialen Affordance-Vektor aus, lernen mithilfe eines äquivarianten neuronalen Netzwerks SE (3) ein lokales Koordinatensystem für diesen Vektor und normalisieren schließlich seine sozialen Affordanzen. Darüber hinaus schlägt der Autor ein Schema zur Vorhersage der sozialen Leistungsfähigkeit vor, um es virtuellen Menschen zu ermöglichen, Entscheidungen auf der Grundlage von Vorhersagen zu treffen.
Forschungsergebnisse zeigen, dass diese Methode effektiv hochwertige Reaktionsaktionen auf die HHI- und CoChair-Datensätze generieren und auf einem A100 eine Echtzeit-Inferenzgeschwindigkeit von 25 Bildern pro Sekunde erreichen kann. Darüber hinaus demonstrieren die Autoren auch die Wirksamkeit der Methode durch Verifizierung bestehender menschlicher Interaktionsdatensätze Interhuman und Chi3D.
Weitere Informationen finden Sie unter der folgenden Papieradresse: [https://arxiv.org/pdf/2312.08983.pdf]. Ich hoffe, das hilft Spielern, die noch nach einer Möglichkeit suchen, das Rätsel zu lösen.
Bitte besuchen Sie die Projekthomepage https://yunzeliu.github.io/iHuman/ für weitere Informationen zu Rätsellösungsmethoden.
In diesem Artikel hat der Autor zwei Datensätze erstellt, um die Online-Aufgabe zur Synthese von Ganzkörperaktionen und -reaktionen zu unterstützen. Einer davon ist der Datensatz HHI der Zwei-Personen-Interaktion und der andere ist der Datensatz CoChair der Zwei-Personen-Interaktion mit Objekten. Diese beiden Datensätze bieten Forschern wertvolle Ressourcen, um das Gebiet der Ganzkörper-Bewegungssynthese weiter zu erforschen. Der HHI-Datensatz zeichnet verschiedene Interaktionen zwischen zwei Personen auf, während der CoChair-Datensatz Interaktionen zwischen zwei Personen und Objekten aufzeichnet. Die Erstellung dieser Datensätze bietet Forschern mehr Experimente
Der HHI-Datensatz ist ein umfangreicher Aktions-Reaktions-Datensatz für den gesamten Körper, der 30 Interaktionskategorien, 10 Paare menschlicher Skeletttypen und insgesamt 5000 An interaktive Sequenz.
Der HHI-Datensatz weist drei Merkmale auf. Das erste Merkmal ist die Einbeziehung der Ganzkörperinteraktion mehrerer Personen, einschließlich Körper- und Handinteraktion. Der Autor glaubt, dass bei Interaktionen mit mehreren Personen die Interaktion der Hände nicht ignoriert werden kann. Beim Händeschütteln, bei Umarmungen und bei der Übergabe werden umfangreiche Informationen über die Hände übermittelt. Das zweite Merkmal besteht darin, dass der HHI-Datensatz klare Verhaltensinitiatoren und -Responder unterscheiden kann. Beispielsweise kann der HHI-Datensatz in Situationen wie Händeschütteln, Richtungsweisen, Begrüßungen, Übergaben usw. den Initiator der Aktion identifizieren, was den Forschern hilft, das Problem besser zu definieren und zu bewerten. Das dritte Merkmal besteht darin, dass der HHI-Datensatz vielfältigere Arten von Interaktionen und Reaktionen enthält, darunter nicht nur 30 Arten von Interaktionen zwischen zwei Personen, sondern auch mehrere vernünftige Reaktionen auf denselben Akteur. Wenn Sie beispielsweise jemand begrüßt, können Sie mit einem Nicken, mit einer Hand oder mit beiden Händen antworten. Dies ist ebenfalls ein natürliches Merkmal, wurde jedoch in früheren Datensätzen selten beachtet und diskutiert.
CoChair ist ein umfangreicher Datensatz zur Interaktion mehrerer Personen und Objekte, der 8 verschiedene Stühle, 5 Interaktionsmodi und 10 Paare verschiedener Skelette für insgesamt 3000 Sequenzen umfasst. CoChair weist zwei wichtige Merkmale auf: Erstens weist CoChair eine Informationsasymmetrie im Zusammenarbeitsprozess auf. Jede Aktion hat einen Ausführenden/Initiator (der das Ziel des Handgepäcks kennt) und einen Antwortenden (der das Ziel nicht kennt). Zweitens verfügt es über verschiedene Tragemodi. Der Datensatz umfasst fünf Tragemodi: einhändiges festes Tragen, einhändiges mobiles Tragen, zweihändiges festes Tragen, zweihändiges mobiles Tragen und zweihändiges flexibles Tragen.
Ein sozialer Leistungsträger bezieht sich auf ein Objekt oder eine Person, die Informationen zum sozialen Leistungsvermögen kodiert. Wenn Menschen mit virtuellen Menschen interagieren, kommen Menschen typischerweise direkt oder indirekt mit den virtuellen Menschen in Kontakt. Und wenn es um Gegenstände geht, berühren Menschen typischerweise Gegenstände.
Um direkte oder potenzielle Kontaktinformationen in einer Interaktion zu simulieren, muss ein Vektor ausgewählt werden, der gleichzeitig den Menschen, den Vektor selbst und die Beziehung zwischen ihnen darstellt. In dieser Studie bezieht sich der Träger auf Objekte oder virtuelle menschliche Vorlagen, mit denen Menschen in Kontakt kommen können.
Auf dieser Grundlage definiert der Autor eine trägerzentrierte soziale Affordance-Repräsentation. Konkret kodieren wir anhand eines gegebenen Vektors menschliches Verhalten, um eine dichte Darstellung der Mensch-Fahrzeug-Verbindung zu erhalten. Basierend auf dieser Darstellung schlagen die Autoren eine Darstellung des sozialen Angebots vor, die die Handlungen menschlicher Handlungen, die dynamischen geometrischen Eigenschaften des Vektors und die Beziehung zwischen Mensch und Fahrzeug in jedem Zeitschritt enthält.
Es ist zu beachten, dass sich die Darstellung des sozialen Angebots auf den Datenfluss vom Startmoment bis zu einem bestimmten Zeitschritt und nicht auf die Darstellung eines einzelnen Frames bezieht. Der Vorteil dieser Methode besteht darin, dass sie lokale Bereiche des Trägers eng mit menschlichen Verhaltensbewegungen verknüpft und so eine Darstellung bildet, die für das Netzwerklernen geeignet ist.
Durch die Darstellung der sozialen Leistungsfähigkeit übernimmt der Autor die Normalisierung der sozialen Leistungsfähigkeit weiter, um den Ausdrucksraum zu vereinfachen. Der erste Schritt besteht darin, das lokale Gerüst des Vektors zu lernen. Durch das äquivariante Netzwerk SE (3) wird das lokale Koordinatensystem des Trägers gelernt. Konkret werden menschliche Handlungen zunächst in Handlungen in jedem lokalen Koordinatensystem umgewandelt. Als nächstes kodieren wir die Aktionen des menschlichen Charakters aus der Perspektive jedes Punkts dicht, um eine dichte vektorzentrierte Aktionsdarstellung zu erhalten. Man kann sich das so vorstellen, dass man einen „Beobachter“ an jeden lokalen Punkt des Fahrzeugs bindet, wobei jeder „Beobachter“ menschliche Handlungen aus der Ich-Perspektive kodiert. Der Vorteil dieses Ansatzes besteht darin, dass durch die Modellierung der Informationen, die durch den Kontakt zwischen Menschen, virtuellen Menschen und Objekten generiert werden, durch die Normalisierung des sozialen Angebots die Verteilung des sozialen Angebots vereinfacht und das Lernen im Netzwerk erleichtert wird.
Um das Verhalten von Menschen bei der Interaktion mit virtuellen Menschen vorherzusagen, schlägt der Autor ein Modul zur Vorhersage sozialer Erschwinglichkeit vor. In realen Situationen können virtuelle Menschen nur die historische Dynamik menschlichen Verhaltens beobachten. Der Autor ist der Meinung, dass virtuelle Menschen die Fähigkeit haben sollten, menschliches Verhalten vorherzusagen, um ihr eigenes Handeln besser planen zu können. Wenn zum Beispiel jemand die Hand hebt und auf Sie zukommt, gehen Sie möglicherweise davon aus, dass er Ihnen gleich die Hand schütteln wird, und sind darauf vorbereitet, diese anzunehmen.
Während der Trainingsphase kann der virtuelle Mensch alle menschlichen Handlungen beobachten. Während der realen Vorhersagephase können virtuelle Menschen nur die Dynamik menschlichen Verhaltens in der Vergangenheit beobachten. Das vorgeschlagene Vorhersagemodul kann die Maßnahmen vorhersagen, die Menschen ergreifen werden, um die Wahrnehmung virtueller Menschen zu verbessern. Die Autoren verwenden ein Bewegungsvorhersagemodul, um die Aktionen menschlicher Akteure und die Aktionen von Objekten vorherzusagen. In der Zwei-Personen-Interaktion verwendete der Autor HumanMAC als Vorhersagemodul. In der Zwei-Personen-Objekt-Interaktion hat der Autor ein auf InterDiff basierendes Bewegungsvorhersagemodul erstellt und eine Vorbedingung hinzugefügt, dass der Kontakt zwischen Person und Objekt stabil ist, um die Schwierigkeit der Vorhersage der Objektbewegung zu vereinfachen.
Quantitative Tests zeigen, dass die Forschungsmethode bestehende Methoden in allen Metriken übertrifft. Um die Wirksamkeit jedes Designs der Methode zu überprüfen, führten die Autoren Ablationsexperimente mit dem HHI-Datensatz durch. Es ist ersichtlich, dass die Leistung dieser Methode ohne eine Normalisierung der sozialen Leistungsfähigkeit erheblich abnimmt. Dies legt nahe, dass die Normalisierung sozialer Affordance zur Vereinfachung der Komplexität des Merkmalsraums erforderlich ist. Ohne Vorhersage der sozialen Leistungsfähigkeit verliert unsere Methode die Fähigkeit, die Handlungen menschlicher Akteure vorherzusagen, was zu Leistungseinbußen führt. Um die Notwendigkeit der Verwendung des lokalen Koordinatensystems zu überprüfen, hat der Autor auch die Auswirkungen der Verwendung des globalen Koordinatensystems verglichen und festgestellt, dass das lokale Koordinatensystem deutlich besser ist. Dies zeigt auch den Wert der Verwendung lokaler Koordinatensysteme zur Beschreibung lokaler Geometrie und potenzieller Kontakte.
Aus den Visualisierungsergebnissen geht hervor, dass die mit der Methode im Artikel trainierten virtuellen Charaktere im Vergleich zur Vergangenheit schneller reagieren und lokale Gesten besser erfassen können, wodurch in der Zusammenarbeit realistischere und interaktivere Bilder erzeugt werden ergreifende Aktion.
Weitere Forschungsdetails finden Sie im Originalpapier.
Das obige ist der detaillierte Inhalt vonDer NPC mit hoher emotionaler Intelligenz ist da, sobald er seine Hand ausstreckt, ist er bereit, beim nächsten Schritt zu kooperieren.. Für weitere Informationen folgen Sie bitte anderen verwandten Artikeln auf der PHP chinesischen Website!