Heim >Technologie-Peripheriegeräte >KI >Ganzkörperverfolgung, keine Angst vor Okklusion, zwei Chinesen von der CMU haben eine DensePose basierend auf WiFi-Signalen erstellt

Ganzkörperverfolgung, keine Angst vor Okklusion, zwei Chinesen von der CMU haben eine DensePose basierend auf WiFi-Signalen erstellt

PHPznach vorne: 2023-04-12 18:55:031596Durchsuche

In den letzten Jahren hat die menschliche Posenschätzung mithilfe von 2D- und 3D-Sensoren wie RGB-Sensoren, LiDARs oder Radar große Fortschritte gemacht, vorangetrieben durch Anwendungen wie autonomes Fahren und VR. Allerdings weisen diese Sensoren sowohl technisch als auch in der praktischen Anwendung einige Einschränkungen auf. Erstens sind die Kosten hoch und normale Familien oder kleine Unternehmen können sich LiDAR- und Radarsensoren oft nicht leisten. Zweitens sind diese Sensoren für den Alltags- und Haushaltsgebrauch zu stromhungrig.

Bei RGB-Kameras können enge Sichtfelder und schlechte Lichtverhältnisse schwerwiegende Auswirkungen auf kamerabasierte Methoden haben. Verdeckungen stellen ein weiteres Hindernis dar, das kamerabasierte Modelle daran hindert, vernünftige Posenvorhersagen in Bildern zu generieren. Besonders schwierig sind Innenaufnahmen, da Möbel oft Menschen blockieren. Darüber hinaus behindern Datenschutzbedenken den Einsatz dieser Technologien an nicht öffentlichen Orten, und viele Menschen zögern, in ihren Häusern Kameras zu installieren, um ihre Aktivitäten aufzuzeichnen. Aber im medizinischen Bereich müssen viele ältere Menschen aus Sicherheits-, Gesundheits- und anderen Gründen manchmal eine Echtzeitüberwachung mithilfe von Kameras und anderen Sensoren durchführen.

Kürzlich haben drei Forscher der CMU in der Arbeit „DensePose From WiFi“ vorgeschlagen, dass In einigen Fällen das WiFi-Signal verwendet werden kann als Ersatz für RGB-Bilder zur Wahrnehmung des menschlichen Körpers . Beleuchtung und Verdeckung haben kaum Einfluss auf WLAN-Lösungen für die Innenüberwachung. WLAN-Signale tragen zum Schutz der Privatsphäre bei und die benötigte Ausrüstung ist erschwinglich. Die wichtigste Erkenntnis ist, dass in vielen Haushalten WLAN installiert ist, sodass die Technologie möglicherweise ausgeweitet werden könnte, um die Gesundheit älterer Erwachsener zu überwachen oder verdächtiges Verhalten im Haushalt zu erkennen.

Papieradresse: https://arxiv.org/pdf/2301.00250.pdf

# 🎜🎜#

Das Problem, das der Forscher lösen möchte, ist in der ersten Zeile von Abbildung 1 unten dargestellt. Können bei 3 WLAN-Sendern und 3 entsprechenden Empfängern dichte menschliche Posenkorrespondenzen in einer überfüllten Umgebung mit mehreren Personen (vierte Reihe von Abbildung 1) erkannt und wiederhergestellt werden? Es ist zu beachten, dass viele WLAN-Router (z. B. TP-Link AC1750) über 3 Antennen verfügen, sodass in der Methode dieses Artikels nur 2 solcher Router benötigt werden. Jeder Router kostet etwa 30 US-Dollar, was bedeutet, dass die gesamte Einrichtung immer noch viel günstiger ist als LiDAR- und Radarsysteme.

Um den in der vierten Zeile von Abbildung 1 gezeigten Effekt zu erzielen, ließ sich der Forscher von der Deep-Learning-Architektur des Computer Vision inspirieren und schlug ein vor #🎜 🎜# Eine neuronale Netzwerkarchitektur, die eine dichte Posenschätzung basierend auf WLAN durchführen kann und in Szenen mit Okklusion und mehreren Personen eine dichte Posenschätzung nur unter Verwendung von WLAN-Signalen erreicht .

Ganzkörperverfolgung, keine Angst vor Okklusion, zwei Chinesen von der CMU haben eine DensePose basierend auf WiFi-Signalen erstellt

Das linke Bild unten ist bildbasierte DensePose und das rechte Bild basiert auf WiFi DensePose.

Ganzkörperverfolgung, keine Angst vor Okklusion, zwei Chinesen von der CMU haben eine DensePose basierend auf WiFi-Signalen erstellt

Quelle: Twitter @AiBreakfast#🎜🎜 ## 🎜🎜#Darüber hinaus ist es erwähnenswert, dass der Erst- und Zweitautor der Dissertation

beide Chinesen sind

. Jiaqi Geng, der Erstautor der Arbeit, erwarb im August letzten Jahres einen Master-Abschluss in Robotik an der CMU, und Dong Huang, der Zweitautor, ist jetzt leitender Projektwissenschaftler an der CMU. #? Körperoberfläche Die UV-Koordinaten erfordern drei Komponenten: Zuerst wird das ursprüngliche CSI-Signal (Kanalzustandsinformation, das das Verhältnis zwischen der gesendeten Signalwelle und der empfangenen Signalwelle angibt) durch Amplituden- und Phasenschritte bereinigt, dann das verarbeitete CSI Die Proben werden über ein Dual-Branch-Encoder-Decoder-Netzwerk in eine 2D-Feature-Map umgewandelt und dann in eine Architektur namens DensePose-RCNN eingespeist (die hauptsächlich das 2D-Bild in ein 3D-Modell des menschlichen Körpers umwandelt). UV-Karte.

Die ursprünglichen CSI-Samples sind verrauscht (siehe Abbildung 3 (b)). Darüber hinaus ignorieren die meisten WiFi-basierten Lösungen die CSI-Signalphase und konzentrieren sich auf die Amplitude des Signals (siehe Abbildung 3 (a)). Das Verwerfen von Phaseninformationen kann sich jedoch negativ auf die Modellleistung auswirken. Daher führt diese Studie eine Desinfektionsverarbeitung durch, um stabile Phasenwerte zu erhalten und CSI-Informationen besser nutzen zu können.

Um die UV-Abbildung im räumlichen Bereich aus dem eindimensionalen CSI-Signal abzuschätzen, muss der Netzwerkeingang zunächst vom CSI-Bereich in den räumlichen Bereich umgewandelt werden. Dieser Artikel wird mithilfe des Modality Translation Network vervollständigt (wie in Abbildung 4 dargestellt). Nach einigen Vorgängen kann eine 3×720×1280-Szenendarstellung in der durch das WiFi-Signal erzeugten Bilddomäne erhalten werden.

Nach Erhalt einer 3×720×1280-Szenendarstellung im Bildbereich verwendet diese Studie eine Netzwerkarchitektur ähnlich DensePose-RCNN, WiFi-DensePose RCNN, um UV-Karten des menschlichen Körpers vorherzusagen. Insbesondere in WiFi-DensePose RCNN (Abbildung 5) verwendet diese Studie ResNet-FPN als Rückgrat und extrahiert räumliche Merkmale aus der erhaltenen 3 × 720 × 1280-Bildmerkmalskarte. Die Ausgabe wird dann dem Regionsvorschlagsnetzwerk zugeführt. Um komplementäre Informationen aus verschiedenen Quellen besser nutzen zu können, enthält WiFi-DensePose RCNN außerdem zwei Zweige: DensePose Head und Keypoint Head. Anschließend werden die Verarbeitungsergebnisse zusammengeführt und in die Verfeinerungseinheit eingegeben.

Allerdings erfordert das Training des Modality Translation Network und des WiFi-DensePose RCNN-Netzwerks durch zufällige Initialisierung viel Zeit (ca. 80 Stunden). Um die Trainingseffizienz zu verbessern, wurde in dieser Studie ein bildbasiertes DensPose-Netzwerk auf ein WiFi-basiertes Netzwerk migriert (Einzelheiten siehe Abbildung 6).

Die direkte Initialisierung eines WiFi-basierten Netzwerks mit bildbasierten Netzwerkgewichten kann nicht funktionieren. Daher wurde in dieser Studie zunächst ein bildbasiertes DensePose-RCNN-Modell als Lehrernetzwerk trainiert, und das Schülernetzwerk besteht aus Modalitäten Übersetzungsnetzwerk und WiFi-DensePose RCNN-Zusammensetzung. Der Zweck besteht darin, den Unterschied zwischen den vom Schülermodell und dem Lehrermodell generierten mehrschichtigen Feature-Maps zu minimieren.

Experiment

Die Ergebnisse von Tabelle 1 zeigen, dass die WiFi-basierte Methode einen sehr hohen AP@50-Wert von 87,2 erreichte, was zeigt, dass das Modell die ungefähre Position menschlicher Begrenzungsrahmen effektiv erkennen kann. AP@75 ist mit einem Wert von 35,6 relativ niedrig, was darauf hindeutet, dass die Details des menschlichen Körpers nicht perfekt geschätzt werden.

Die Ergebnisse von Tabelle 2 zeigen, dass die Werte dpAP・GPS@50 und dpAP・GPSm@50 höher sind, die Werte dpAP・GPS@75 und dpAP・GPSm@75 jedoch niedriger. Dies zeigt, dass unser Modell die Pose des menschlichen Oberkörpers gut einschätzen kann, aber immer noch Schwierigkeiten hat, Details wie Gliedmaßen zu erkennen.

Die quantitativen Ergebnisse in Tabelle 3 und Tabelle 4 zeigen, dass die bildbasierte Methode einen sehr hohen AP liefert als die WiFi-basierte Methode. Der Unterschied zwischen AP-m-Werten und AP-l-Werten WiFi-basierter Modelle ist relativ gering. Die Studie geht davon aus, dass dies darauf zurückzuführen ist, dass Personen, die weiter von der Kamera entfernt sind, weniger Platz im Bild einnehmen, was zu weniger Informationen über diese Objekte führt. Stattdessen enthält das WLAN-Signal alle Informationen über die gesamte Szene, unabhängig vom Standort des Motivs.

Das obige ist der detaillierte Inhalt vonGanzkörperverfolgung, keine Angst vor Okklusion, zwei Chinesen von der CMU haben eine DensePose basierend auf WiFi-Signalen erstellt. Für weitere Informationen folgen Sie bitte anderen verwandten Artikeln auf der PHP chinesischen Website!

Stellungnahme：

Dieser Artikel ist reproduziert unter:51cto.com. Bei Verstößen wenden Sie sich bitte an admin@php.cn löschen

Vorheriger Artikel：Yann LeCun spricht über Google Research: Zielgerichtete Kommunikation gibt es schon lange, wo ist Ihre Innovation?Nächster Artikel：Yann LeCun spricht über Google Research: Zielgerichtete Kommunikation gibt es schon lange, wo ist Ihre Innovation?

In Verbindung stehende Artikel

Mehr sehen