Heim >Technologie-Peripheriegeräte >KI >Entwicklungsgeschichte und häufig verwendete Datensätze zur Gesichtserkennung

Entwicklungsgeschichte und häufig verwendete Datensätze zur Gesichtserkennung

WBOY
WBOYnach vorne
2024-01-23 12:54:051492Durchsuche

Entwicklungsgeschichte und häufig verwendete Datensätze zur Gesichtserkennung

Frühe Phasen der Gesichtserkennung – basierend auf maschinellem Lernen

Frühe Methoden konzentrierten sich hauptsächlich auf die Zusammenarbeit mit Computer-Vision-Experten, um handgefertigte Merkmale zu extrahieren und traditionelle Algorithmen für maschinelles Lernen zu verwenden, um effektive Klassifikatoren für die Erkennung zu trainieren. Die Einschränkungen dieser Methoden bestehen jedoch darin, dass für die Erstellung effektiver Funktionen Experten erforderlich sind und jede Komponente einzeln optimiert werden muss, was dazu führt, dass die gesamte Erkennungspipeline nicht ausreichend optimiert ist. Um dieses Problem zu lösen, wurden komplexere Funktionen wie HOG, SIFT, SURF und ACF vorgeschlagen. Um die Robustheit der Erkennung zu verbessern, wurden auch Kombinationen mehrerer Detektoren entwickelt, die auf unterschiedliche Ansichten oder Posen trainiert wurden. Diese Modelle erfordern jedoch lange Schulungs- und Testzeiten und bieten nur begrenzte Verbesserungen bei der Erkennungsleistung.

Fortschrittlichere Technologie zur Gesichtserkennung – basierend auf Deep Learning

In den letzten Jahren hat die Forschung zur Gesichtserkennung erhebliche Fortschritte gemacht, insbesondere die Anwendung von Deep Convolutional Neural Networks (CNN). Deep-Learning-Methoden haben bei Computer-Vision-Aufgaben bemerkenswerte Erfolge erzielt und bieten viele Vorteile gegenüber herkömmlichen Methoden. Deep-Learning-Methoden vermeiden handgefertigte Design-Pipelines, wodurch Modelle flexibler und an verschiedene Datensätze anpassbar werden. Darüber hinaus haben Deep-Learning-Methoden in vielen Benchmark-Bewertungen gute Ergebnisse erzielt, beispielsweise bei der ImageNet Large Scale Visual Recognition Challenge (ILSVRC). Diese Fortschritte haben dazu geführt, dass die Gesichtserkennung in verschiedenen Bereichen weit verbreitet ist, von der Sicherheitsüberwachung bis zum Entsperren von Gesichtern.

Kürzlich haben Forscher aufregende Fortschritte auf dem Gebiet der allgemeinen Objekterkennung erzielt, indem sie Faster R-CNN, einen fortschrittlichen Objektdetektor, eingesetzt haben. Durch die Kombination des gemeinsamen Trainings von CNN-Kaskade, Region Proposal Network (RPN) und Faster R-CNN erreichten die Forscher eine End-to-End-Optimierung und erzielten ermutigende Ergebnisse. In Bezug auf die Gesichtserkennung wird der Faster R-CNN-Algorithmus mit Hard Negative Mining und ResNet kombiniert, was seine Leistung bei Gesichtserkennungs-Benchmarks wie FDDB erheblich verbessert. Dieser kombinierte Ansatz macht den Gesichtserkennungsalgorithmus genauer und zuverlässiger. Kurz gesagt, Faster R-CNN und die damit verbundenen gemeinsamen Trainings- und Kombinationsalgorithmen haben erhebliche Fortschritte in den Bereichen Objekterkennung und Gesichtserkennung gebracht und eine neue Richtung für die Entwicklung der Deep-Learning-Technologie eröffnet.

Häufig verwendete Datensätze zur Gesichtserkennung

AFW-Datensatz: Der AFW-Datensatz wird mithilfe von Flickr-Bildern erstellt. Es enthält 205 Bilder und 473 beschriftete Gesichter. Zu den Bildanmerkungen für jedes Gesicht gehören ein rechteckiger Begrenzungsrahmen, sechs Orientierungspunkte und Posenwinkel.

PASCAL FACE-Datensatz: Dieser Datensatz wird zur Gesichtserkennung und Gesichtserkennung verwendet. Er ist eine Teilmenge von PASCAL VOC und enthält 1335 beschriftete Gesichter in 851 Bildern mit großen Gesichtsaussehens- und Posenvariationen.

MIT CBCL-Gesichtsdatenbank: Die MIT-CBCL-Gesichtserkennungsdatenbank enthält einen Trainingssatz (2429 Gesichter, 4548 Nicht-Gesichter) und einen Schätzungssatz (472 Gesichter, 23573 Nicht-Gesichter).

FDDB-Datensatz: Dieser Datensatz enthält 5171 Gesichter mit Anmerkungen wie Verdeckungen, schwierigen Posen und niedriger Bildauflösung in 2845 Bildern. Diese Bilder werden zum Training großer Erscheinungsvariationen, schwerer Verdeckungen und starker Unschärfeverschlechterung verwendet, die bei der Erkennung von Gesichtern in uneingeschränkten realen Szenarien häufig auftreten.

CMU PIE-Datenbank: Die CMU Multi-PIE-Gesichtsdatenbank enthält 41.368 Bilder von 68 Personen, wobei jede Person 13 verschiedene Posen, 43 verschiedene Lichtverhältnisse und 4 verschiedene Ausdrücke aufweist.

SCface-Datensatz: SCface ist eine statische Gesichtsbilddatenbank. Die Bilder wurden mit fünf Videoüberwachungskameras unterschiedlicher Qualität in einer unkontrollierten Innenumgebung aufgenommen. Dieser Datensatz enthält 4160 statische Bilder (sichtbare und Infrarotspektren) von 130 Probanden.

WEITERER GESICHTS-Datensatz: Der Gesichtserkennungs-Benchmark-Datensatz umfasst 32.203 Bilder und 393.703 beschriftete Gesichter, die in Bezug auf Maßstab, Pose und Okklusion sehr unterschiedlich sind, was die Gesichtserkennung beim Sex zu einer extremen Herausforderung macht. Darüber hinaus ist der WIDER FACE-Datensatz nach 61 Ereigniskategorien organisiert.

Das obige ist der detaillierte Inhalt vonEntwicklungsgeschichte und häufig verwendete Datensätze zur Gesichtserkennung. Für weitere Informationen folgen Sie bitte anderen verwandten Artikeln auf der PHP chinesischen Website!

Stellungnahme:
Dieser Artikel ist reproduziert unter:163.com. Bei Verstößen wenden Sie sich bitte an admin@php.cn löschen