Maison > Article > Périphériques technologiques > Suivi du corps entier, n'ayant pas peur de l'occlusion, deux Chinois de la CMU ont réalisé une DensePose basée sur les signaux WiFi
L'estimation de la pose humaine à l'aide de capteurs 2D et 3D (tels que des capteurs RVB, des LiDAR ou des radars) a fait de grands progrès ces dernières années, portés par des applications telles que la conduite autonome et la réalité virtuelle. Cependant, ces capteurs présentent certaines limites, tant sur le plan technique que pratique. Tout d’abord, le coût est élevé et les familles ordinaires ou les petites entreprises n’ont souvent pas les moyens de se permettre des capteurs LiDAR et radar. Deuxièmement, ces capteurs sont trop gourmands en énergie pour un usage quotidien et domestique.
En ce qui concerne les caméras RVB, des champs de vision étroits et de mauvaises conditions d'éclairage peuvent avoir de graves conséquences sur les méthodes basées sur les caméras. Les occultations deviennent un autre obstacle qui empêche les modèles basés sur des caméras de générer des prédictions de pose raisonnables dans les images. Les scènes d’intérieur sont particulièrement difficiles, car les meubles bloquent souvent les gens. De plus, les problèmes de confidentialité entravent l'utilisation de ces technologies dans des lieux non publics, et de nombreuses personnes hésitent à installer des caméras chez elles pour enregistrer leurs actions. Mais dans le domaine médical, pour des raisons de sécurité, de santé et autres, de nombreuses personnes âgées doivent parfois effectuer une surveillance en temps réel à l'aide de caméras et d'autres capteurs.
Récemment, trois chercheurs de la CMU ont proposé dans l'article "DensePose From WiFi" que Dans certains cas, les signaux WiFi peuvent être utilisés comme substitut aux images RVB pour la perception du corps humain. L'éclairage et l'occlusion ont peu d'impact sur les solutions WiFi pour la surveillance intérieure. Les signaux WiFi aident à protéger la vie privée et l’équipement nécessaire est abordable. Ce qu’il faut retenir, c’est que de nombreuses maisons disposent d’une connexion Wi-Fi. La technologie pourrait donc potentiellement s’étendre pour surveiller la santé des personnes âgées ou identifier les comportements suspects dans la maison.
Adresse papier : https://arxiv.org/pdf/2301.00250.pdf
Le problème que le chercheur souhaite résoudre est présenté dans la première rangée de la figure 1 ci-dessous. Étant donné 3 émetteurs WiFi et 3 récepteurs correspondants, des correspondances denses de posture humaine peuvent-elles être détectées et restaurées dans un environnement encombré avec plusieurs personnes (la quatrième rangée de la figure 1) ? Il convient de noter que de nombreux routeurs WiFi (tels que TP-Link AC1750) ont 3 antennes, donc seuls 2 de ces routeurs sont nécessaires dans cette méthode. Chaque routeur coûte environ 30 dollars, ce qui signifie que l'ensemble de la configuration est encore beaucoup moins cher que les systèmes LiDAR et radar.
Afin d'obtenir l'effet de la quatrième rangée de la figure 1, le chercheur s'est inspiré de l'architecture d'apprentissage profond de la vision par ordinateur et a proposé une architecture de réseau neuronal capable d'effectuer une estimation de pose dense basée sur le WiFi, et a mis en œuvre Dans les scènes avec occlusion et plusieurs personnes, seuls les signaux WiFi sont utilisés pour estimer les poses denses.
L'image de gauche ci-dessous montre DensePose basée sur l'image, et l'image de droite montre DensePose basée sur WiFi.
Source photo : Twitter @AiBreakfast
De plus, il convient de mentionner que le premier et le deuxième auteurs du article sont tous deux chinois. Jiaqi Geng, le premier auteur de l'article, a obtenu une maîtrise en robotique de la CMU en août de l'année dernière, et Dong Huang, le deuxième auteur, est désormais scientifique principal du projet à la CMU.
Introduction à la méthode
L'utilisation du WiFi pour générer les coordonnées UV de la surface du corps humain nécessite trois éléments : Premièrement, le CSI original (Channel-state-information, qui représente l'onde du signal de transmission et de réception ) est traité par étapes d'amplitude et de phase. Le signal est nettoyé et traité ; ensuite, les échantillons CSI traités sont convertis en cartes de caractéristiques 2D via un réseau codeur-décodeur à double branche, puis les cartes de caractéristiques 2D sont introduites dans une architecture appelée DensePose ; RCNN (convertit principalement des images 2D en modèles 3D du corps humain) pour estimer des cartes UV.
Les échantillons CSI d'origine sont bruités (voir Figure 3 (b)), et de plus, la plupart des solutions basées sur le WiFi ignorent la phase du signal CSI et se concentrent sur l'amplitude du signal (voir Figure 3 (a)). Cependant, la suppression des informations de phase peut avoir un impact négatif sur les performances du modèle. Par conséquent, cette étude effectue un traitement de désinfection pour obtenir des valeurs de phase stables afin de mieux utiliser les informations CSI.
Afin d'estimer la cartographie UV dans le domaine spatial à partir du signal CSI unidimensionnel, l'entrée réseau doit d'abord être convertie du domaine CSI au domaine spatial. Cet article est réalisé à l’aide du Modality Translation Network (comme le montre la figure 4). Après quelques opérations, une représentation de scène 3×720×1280 dans le domaine d’image généré par le signal WiFi peut être obtenue.
Après avoir obtenu une représentation de scène 3×720×1280 dans le domaine de l'image, cette étude adopte une architecture de réseau similaire à DensePose-RCNN, WiFi-DensePose RCNN, pour prédire les cartes UV du corps humain. Plus précisément, dans WiFi-DensePose RCNN (Figure 5), cette étude utilise ResNet-FPN comme épine dorsale et extrait les caractéristiques spatiales de la carte de caractéristiques d'image 3 × 720 × 1280 obtenue. Le résultat est ensuite transmis au réseau de propositions régionales. Afin de mieux utiliser les informations complémentaires provenant de différentes sources, WiFi-DensePose RCNN contient également deux branches, DensePose head et Keypoint head, après quoi les résultats du traitement sont fusionnés et entrés dans l'unité de raffinement.
Cependant, la formation du réseau de traduction de modalités et du réseau WiFi-DensePose RCNN à partir d'une initialisation aléatoire nécessite beaucoup de temps (environ 80 heures). Afin d'améliorer l'efficacité de la formation, cette étude a migré un réseau DensPose basé sur l'image vers un réseau WiFi (voir la figure 6 pour plus de détails).
L'initialisation directe d'un réseau basé sur le WiFi avec des poids de réseau basés sur des images ne peut pas fonctionner. Par conséquent, cette étude a d'abord formé un modèle DensePose-RCNN basé sur l'image en tant que réseau d'enseignants, et le réseau d'étudiants se compose d'une modalité réseau de traduction et composition WiFi-DensePose RCNN. Le but est de minimiser la différence entre les cartes de caractéristiques multicouches générées par le modèle étudiant et le modèle enseignant.
Les résultats du tableau 1 montrent que la méthode basée sur le WiFi a obtenu une valeur AP@50 très élevée de 87,2, ce qui montre que le modèle peut détecter efficacement l'emplacement approximatif des cadres de délimitation humains. AP@75 est relativement faible avec une valeur de 35,6, ce qui indique que les détails du corps humain ne sont pas parfaitement estimés.
Les résultats du tableau 2 montrent que les valeurs dpAP・GPS@50 et dpAP・GPSm@50 sont plus élevées, mais que les valeurs dpAP・GPS@75 et dpAP・GPSm@75 sont inférieures. Cela montre que notre modèle fonctionne bien pour estimer la pose du torse humain, mais qu'il a encore des difficultés à détecter des détails tels que les membres.
Les résultats quantitatifs des tableaux 3 et 4 montrent que la méthode basée sur l'image produit un AP très élevé par rapport à la méthode basée sur le WiFi. La différence entre les valeurs AP-m et AP-l des modèles basés sur le WiFi est relativement faible. L'étude suggère que cela est dû au fait que les personnes plus éloignées de la caméra occupent moins d'espace dans l'image, ce qui entraîne moins d'informations sur ces objets. Au lieu de cela, le signal WiFi contient toutes les informations sur l'ensemble de la scène, quel que soit l'emplacement du sujet.
Ce qui précède est le contenu détaillé de. pour plus d'informations, suivez d'autres articles connexes sur le site Web de PHP en chinois!