ホームページ >テクノロジー周辺機器 >AI >顔認証の開発経緯とよく使われるデータセット
初期の手法は主に、コンピューター ビジョンの専門家と協力して手作業で作成された特徴を抽出することに焦点を当てていました。 , また、従来の機械学習アルゴリズムを使用して、検出のための効果的な分類器をトレーニングします。ただし、これらの方法の限界は、効果的な機能を作成するには専門家が必要であり、各コンポーネントを個別に最適化する必要があるため、検出パイプライン全体が最適化が不十分になることです。この問題を解決するために、HOG、SIFT、SURF、ACF などのより複雑な機能が提案されています。検出の堅牢性を強化するために、さまざまなビューまたはポーズ用にトレーニングされた複数の検出器の組み合わせも開発されました。ただし、これらのモデルは長時間のトレーニングとテストを必要とし、検出パフォーマンスの向上には限界があります。
近年、顔認識の研究が大幅に進歩しており、特にそれが顕著です。は、ディープ畳み込みニューラル ネットワーク (CNN) のアプリケーションです。ディープラーニング手法はコンピュータビジョンタスクにおいて目覚ましい成功を収めており、従来の手法に比べて多くの利点があります。深層学習手法では、手作りの設計パイプラインが不要になるため、モデルがより柔軟になり、さまざまなデータセットに適応できるようになります。さらに、深層学習手法は、ImageNet Large Scale Visual Recognition Challenge (ILSVRC) などの多くのベンチマーク評価で良好なパフォーマンスを示しています。これらの進歩により、顔認証はセキュリティ監視から顔ロック解除まで、さまざまな分野で広く使用されるようになりました。
最近、研究者たちは、高度な物体検出器である Faster R-CNN を使用して、一般物体検出の分野で素晴らしい進歩を遂げました。 CNN カスケード、地域提案ネットワーク (RPN)、および Faster R-CNN の共同トレーニングを組み合わせることで、研究者らはエンドツーエンドの最適化を達成し、有望な結果を達成しました。 顔検出に関しては、Faster R-CNN アルゴリズムがハード ネガティブ マイニングおよび ResNet と組み合わされて、FDDB などの顔検出ベンチマークでのパフォーマンスが大幅に向上します。この組み合わせアプローチにより、顔検出アルゴリズムの精度と信頼性が向上します。 つまり、Faster R-CNN とその関連する共同トレーニングおよび組み合わせアルゴリズムは、物体検出と顔検出の分野に大きな進歩をもたらし、深層学習テクノロジーの開発に新たな方向性を切り開きました。
AFW データセット: AFW データセットは、Flickr 画像を使用して構築されています。 205 枚の画像と 473 個のラベル付きの顔が含まれています。各顔の画像注釈には、長方形の境界ボックス、6 つのランドマーク、ポーズ角度が含まれます。
PASCAL FACE データセット: このデータセットは顔認識と顔認識に使用されます。これは PASCAL VOC のサブセットであり、大きな顔の外観とポーズのバリエーションを持つ 851 枚の画像が含まれています。画像には 1335 枚が含まれていますラベル付きの顔。
MIT CBCL 顔データベース: MIT-CBCL 顔認識データベースには、トレーニング セット (顔 2429 個、非顔 4548 個) と推定セット (顔 472 個、非人間 23573 個) が含まれています。顔)。
FDDB データセット: このデータセットには、オクルージョン、難しいポーズ、低解像度などの注釈が付いた 5171 の顔が 2845 枚の画像に含まれています。これらの画像は、制約のない現実のシナリオで顔を検出するときによく見られる、外観の大きな変化、深刻なオクルージョン、および深刻なブラー劣化に関するトレーニングに使用されます。
CMU PIE データベース: CMU Multi-PIE Face データベースには、68 人の人物の 41,368 枚の画像が含まれており、各人物は 13 の異なるポーズ、43 の異なる照明条件、および 4 つの異なる表情をしています。
SCface データセット: SCface は顔の静的画像データベースです。画像は、制御されていない屋内環境で、さまざまな品質の 5 台のビデオ監視カメラを使用して撮影されました。このデータセットには、130 人の被験者の 4,160 枚の静止画像 (可視および赤外スペクトル) が含まれています。
より広い顔データセット: 顔検出ベンチマーク データセットには、スケール、ポーズ、オクルージョンのばらつきが大きい 32,203 枚の画像と 393,703 個のラベル付き顔が含まれており、これにより顔検出が非常に困難になります。さらに、WIDER FACE データセットは 61 のイベント カテゴリに従って編成されています。
以上が顔認証の開発経緯とよく使われるデータセットの詳細内容です。詳細については、PHP 中国語 Web サイトの他の関連記事を参照してください。