ホームページ > 記事 > テクノロジー周辺機器 > 画質による視覚認識の妨げを懸念、DAMOアカデミーがより堅牢なフレームワークを提案
この記事では、機械学習に関するトップの国際会議である AAAI 2023 に採択された論文「Improving Training and Inference of Face Recognition Models via Random Speed Scaling」を紹介します。この論文は、温度調整パラメータと分類損失関数における分類不確実性の間の内部関係を確率論的な観点から革新的に分析し、分類損失関数の温度調整係数がガンベル分布に従う不確実性変数のスケール係数であることを明らかにしました。したがって、特徴抽出の信頼性をモデル化するために、RTS と呼ばれる新しいトレーニング フレームワークが提案されています。 RTS トレーニング フレームワークに基づいて、より信頼性の高い認識モデルがトレーニングされ、トレーニング プロセスがより安定し、展開中にサンプルの不確実性の測定スコアを提供して、不確実性の高いサンプルを拒否し、より堅牢な視覚認識システムの構築に役立ちます。広範な実験により、RTS が安定してトレーニングし、不確実性の尺度を出力して堅牢な視覚認識システムを構築できることが示されました。
視覚認識システムは通常、実際のシーンでさまざまな干渉に遭遇します。例: オクルージョン (装飾または複雑な前景)、イメージング ブラー (フォーカス ブラーまたはモーション ブラー)、極端な照明 (露出オーバーまたは露出不足など)。これらの干渉はノイズの影響として要約できますが、さらに猫の顔や犬の顔などの画像の誤検出もあり、これらの誤検出データは分布外 (OOD) データと呼ばれます。視覚認識においては、前述のノイズやOODデータが不確実性の源となり、影響を受けるサンプルは深度モデルに基づいて抽出された特徴量に不確実性を重畳し、視覚認識システムに干渉を引き起こします。たとえば、ベースライブラリ画像が不確実な干渉を持つサンプルによって汚染されている場合、「特徴ブラックホール」が形成され、視覚認識システムに隠れた危険をもたらします。したがって、表現の信頼性をモデル化する必要があります。 特性評価信頼性モデリングに関する関連研究
従来のマルチモデル ソリューション従来の視覚認識リンクの信頼性を制御する方法は、独立した品質モデルを通じて行われます。典型的な画質モデリング方法は次のとおりです:
1. 注釈データを収集し、明瞭さ、オクルージョンの有無、姿勢など、品質に影響を与える特定の要素に注釈を付けます。
2. 影響因子のラベルに従って、品質スコアを 1 から 10 までマッピングします。スコアが高いほど、品質は高くなります。具体的な例については、例を参照してください。下の図の左側にあります。
3. 最初の 2 つのステップで品質スコアのアノテーションを取得した後、順序回帰トレーニングを実行して、図の右側の例に示すように、導入フェーズ中の品質スコアを予測します。下の図。
#独立した品質モデル ソリューションでは、視覚認識リンクに新しいモデルを導入する必要があり、トレーニングは以下に依存します。注釈情報。
DUL
不確実性モデリング手法には、「顔認識におけるデータ不確実性学習」が含まれます。はガウス分布の平均と分散の合計として計算され、不確実性を含む特徴はトレーニングのために後続の分類器に送信されます。したがって、画質に関連する不確実性スコアは展開段階で取得できます。
DUL は、不確実性を記述するために加算法を使用します。ノイズ推定のスケールも、ノイズ推定のスケールと同じです。特定の種類のデータ。特徴分布は密接に関係しています。データの分布が比較的密である場合、DUL によって推定されるノイズの規模も比較的小さくなります。 OOD 分野の研究では、データ分布の密度は OOD を識別するための適切な指標ではないことが指摘されています。
ゴディン
OOD 分野の研究「一般化 odin: 分布外データから学習せずに分布外画像を検出する」では、2 つの独立したブランチを使用して、同時確率分布の形式を使用して OOD データを処理します。 h(x)とg(x)は分類確率値と温度調整値を推定します。 温度値は確率値としてモデル化され、範囲は 0 ~ 1 に制限されているため、温度のモデル化は適切ではありません。 上記の問題と関連研究を考慮して、この論文は確率の観点から開始し、温度調整係数と分類における不確実性の関係を研究します。損失関数 分析後、RTS トレーニング フレームワークが提案されます。 方法
確率的観点に基づく体温調節因子の分析
#まず、温度調整係数と不確かさの関係を分析します。不確実性 が標準ガンベル分布に準拠する確率変数であると仮定すると、確率密度関数は # のように記述できます。
## ,累積分布関数は # であり、クラス k に分類される の確率値は次のとおりです:
を上の式に代入すると、次のようになります:
##k クラスに分類された確率値は、softmax 関数に従うスコアであることがわかります。同時に、t を使用してスケールを調整することができます。不確実性、つまり、標準ガンベル分布に準拠します。
確率値が次のように分類されることがわかります。このときのクラス k は、温度調整値 t Score のソフトマックス関数と一致します。
モデリング温度
分類に対する不確実性推定の影響を軽減するには、温度 t が 1 に近い必要があるため、温度 t を 独立したガンマ分布変数の合計としてモデル化します。 :where、t が ## に従うように、beta = frac {alpha - 1 } {v})$ 分布。 v と が分布に与える影響は以下のとおりです。
##トレーニング方法
全体的なアルゴリズムは次のように構成されています:
さらに詳細な分析と理論的証明については、論文を参照してください。
#結果トレーニング フェーズでは、トレーニング データには顔のトレーニング データのみが含まれます。誤って検出された猫の顔と犬の顔の OOD データは、テスト中に OOD データの認識効果を検証するために使用されます。このテストは、トレーニング プロセスのさまざまな段階での OOD サンプルの不確実性の動的なプロセスを示しています。
トレーニング フェーズ
分布内データ (顔) と分布外データを描画します。異なるエポック番号におけるデータ (猫の顔と犬の顔が誤って顔として検出されたもの) の不確実性スコアを比較した結果、以下の図から、初期段階ではすべてのサンプルの不確実性スコアがより大きな値付近に分布し、その後はトレーニングが進むと、OOD サンプルの不確実性が徐々に増加し、顔データの不確実性が徐々に減少します。顔の品質が良くなるほど、不確実性は低くなります。 IDデータとOODデータは閾値を設定することで区別でき、画質は不確実性スコアに反映されます。
#トレーニング段階でのノイズの多いトレーニング データに対する堅牢性を説明するため。この記事では、さまざまな割合のノイズをトレーニング セットに適用します。さまざまな割合のノイズ トレーニング データに基づくモデル認識効果は次のとおりです。RTS は、ノイズ データに基づくトレーニングでもより良い認識結果を達成できることがわかります。
展開フェーズ
画像以下は、展開フェーズ中に RTS フレームワークによって取得された不確実性スコアが顔の品質と高い相関関係があることを示しています
同時に、低品質のサンプルを除去した後のエラーマッチング曲線がベンチマーク上にプロットされます。得られた不確実性スコアに基づいて、ベンチマークの不確実性が高いサンプルを不確実性の高いものから低いものへ順に除去し、残りのサンプルの誤差マッチング曲線を描画します。以下の図からわかるように、不確実性の高いサンプルがより多くフィルタリングされると、誤一致は少なくなり、同じ数の不確実性サンプルが除去されると、RTS の誤一致は少なくなります。
#OOD サンプルに対する不確実性スコアの識別効果を検証するために、流通中のデータセットを使用しました。テスト中に構築されたデータセット(顔)と配布外のデータセット(誤って顔として検出された猫の顔と犬の顔)。データサンプルは以下の通りです。
#RTS の効果を 2 つの側面から説明します。まず不確かさの分布図を描くと、下図のように RTS 法は OOD データに対して強い識別能力を持っています。
同時に、OOD テスト セットの ROC 曲線も描画され、その AUC 値はご覧のとおり、ROC 権限が計算されました。RTS の不確実性スコアにより、OOD データをより適切に識別できます。
#一般的な認識能力ベンチマークで一般的な認識能力をテストするために、RTS は顔認識能力に影響を与えることなく OOD データの認識能力を高めます。 RTS アルゴリズムを使用すると、識別と OOD データ識別においてバランスの取れた結果を達成できます。
#適用
この記事モデルはmodelscopeでオープンソース化されています。さらに、CV ドメインのオープン ソースの無料モデルを紹介したいと思います。誰でも体験してダウンロードすることができます (ほとんどの携帯電話で体験できます):1.https://modelscope.cn/models/damo/cv_resnet50_face-detection_retinaface/summary
#2.https://modelscope.cn/models/damo/cv_resnet101_face-detection_cvpr22papermogface/summary
3.https://modelscope.cn/models/damo/cv_manual_face-detection_tinymog/summary
4.https://modelscope. cn/models/damo/cv_manual_face-detection_ulfd /summary
5.https://modelscope.cn/models/damo/cv_manual_face-detection_mtcnn/summary
6.https:/ /modelscope.cn/models/damo/cv_resnet_face-recognition_facemask/summary
7.https://modelscope.cn/models/damo/cv_ir50_face -recognition_arcface/summary
8. https://modelscope.cn/models/damo/cv_manual_face-liveness_flir/summary
9.https ://modelscope.cn/models/damo/cv_manual_face-liveness_flrgb/summary
10.https://modelscope.cn/models/damo/cv_manual_facial-landmark-confidence_flcm/summary
11.https://modelscope.cn/models/damo/cv_vgg19_facial-expression-recognition_fer/summary
12.https:// modelscope.cn/models/damo/cv_resnet34_face -attribute-recognition_fairface/summary
以上が画質による視覚認識の妨げを懸念、DAMOアカデミーがより堅牢なフレームワークを提案の詳細内容です。詳細については、PHP 中国語 Web サイトの他の関連記事を参照してください。