Maison >Périphériques technologiques >IA >Historique de développement et ensembles de données couramment utilisés pour la reconnaissance faciale
Les premières méthodes se concentraient principalement sur la collaboration avec des experts en vision par ordinateur pour extraire des fonctionnalités conçues à la main et utiliser des algorithmes d'apprentissage automatique traditionnels pour former des classificateurs efficaces pour la détection. Cependant, les limites de ces méthodes sont que des experts sont nécessaires pour produire des fonctionnalités efficaces et que chaque composant doit être optimisé individuellement, ce qui entraîne une sous-optimisation de l'ensemble du pipeline de détection. Pour résoudre ce problème, des fonctionnalités plus complexes telles que HOG, SIFT, SURF et ACF ont été proposées. Pour améliorer la robustesse de la détection, des combinaisons de plusieurs détecteurs entraînés pour différentes vues ou poses ont également été développées. Cependant, ces modèles nécessitent de longues périodes de formation et de test et présentent une amélioration limitée des performances de détection.
Ces dernières années, la recherche sur la reconnaissance faciale a fait des progrès significatifs, notamment l'application des réseaux neuronaux convolutifs profonds (CNN). Les méthodes d’apprentissage profond ont obtenu un succès remarquable dans les tâches de vision par ordinateur et présentent de nombreux avantages par rapport aux méthodes traditionnelles. Les méthodes d'apprentissage profond évitent les pipelines de conception fabriqués à la main, ce qui rend les modèles plus flexibles et adaptables à différents ensembles de données. De plus, les méthodes d'apprentissage en profondeur ont donné de bons résultats dans de nombreuses évaluations de référence, telles que le ImageNet Large Scale Visual Recognition Challenge (ILSVRC). Ces avancées ont permis à la reconnaissance faciale d’être largement utilisée dans divers domaines, de la surveillance de sécurité au déverrouillage du visage.
Récemment, des chercheurs ont réalisé des progrès passionnants dans le domaine de la détection générale d'objets, en appliquant Faster R-CNN, un détecteur d'objets avancé. En combinant la formation conjointe de CNN Cascade, du réseau de propositions régionales (RPN) et de Faster R-CNN, les chercheurs ont réalisé une optimisation de bout en bout et obtenu des résultats encourageants. En termes de détection de visage, l'algorithme Faster R-CNN est combiné avec du hard négatif mining et ResNet, ce qui améliore considérablement ses performances sur les benchmarks de détection de visage tels que FDDB. Cette approche combinée rend l’algorithme de détection des visages plus précis et plus fiable. En bref, Faster R-CNN et ses algorithmes de formation et de combinaison conjoints associés ont apporté des progrès significatifs dans les domaines de la détection d'objets et de la détection de visages, et ont ouvert une nouvelle direction pour le développement de la technologie d'apprentissage profond.
Ensemble de données AFW : l'ensemble de données AFW est construit à l'aide d'images Flickr. Il comprend 205 images et 473 visages étiquetés. Pour chaque visage, les annotations d'image incluent un cadre de délimitation rectangulaire, 6 points de repère et des angles de pose.
Ensemble de données PASCAL FACE : Cet ensemble de données est utilisé pour la reconnaissance faciale et l'identification des visages ; il s'agit d'un sous-ensemble de PASCAL VOC et contient 1 335 visages étiquetés dans 851 images avec de grandes variations d'apparence faciale et de pose.
Base de données de visages MIT CBCL : La base de données de reconnaissance faciale MIT-CBCL contient un ensemble d'entraînement (2429 visages, 4548 non-visages) et un ensemble d'estimation (472 visages, 23573 non-visages).
Ensemble de données FDDB : Cet ensemble de données contient 5171 visages avec des annotations telles que des occlusions, des poses difficiles et une faible résolution d'image dans 2845 images. Ces images sont utilisées pour l'entraînement sur les grandes variations d'apparence, les occlusions sévères et la dégradation sévère du flou, qui sont courantes lors de la détection de visages dans des scénarios réels sans contraintes.
Base de données CMU PIE : La base de données CMU Multi-PIE Face contient 41 368 images de 68 personnes, chaque personne dans 13 poses différentes, 43 conditions d'éclairage différentes et 4 expressions différentes.
Ensemble de données SCface : SCface est une base de données d'images statiques de visages. Les images ont été capturées à l’aide de cinq caméras de vidéosurveillance de qualité variable dans un environnement intérieur non contrôlé. Cet ensemble de données contient 4 160 images statiques (spectres visible et infrarouge) de 130 sujets.
Ensemble de données WIDER FACE : L'ensemble de données de référence sur la détection des visages comprend 32 203 images et 393 703 visages étiquetés, qui sont très variables en termes d'échelle, de pose et d'occlusion, ce qui rend la détection des visages extrêmement difficile. De plus, l'ensemble de données WIDER FACE est organisé selon 61 catégories d'événements.
Ce qui précède est le contenu détaillé de. pour plus d'informations, suivez d'autres articles connexes sur le site Web de PHP en chinois!