>기술 주변기기 >일체 포함 >화질 걱정은 시각적 인식에 방해가 되니, DAMO아카데미는 더욱 탄탄한 프레임워크를 제안합니다.

화질 걱정은 시각적 인식에 방해가 되니, DAMO아카데미는 더욱 탄탄한 프레임워크를 제안합니다.

王林
王林앞으로
2023-04-14 16:31:03949검색

이 기사에서는 머신러닝 분야 최고의 국제 학회인 AAAI 2023에서 채택된 "Improving Training and Inference of Face Recognition Models via Random 온도 Scaling" 논문을 소개합니다. 본 논문은 분류 손실 함수의 온도 조정 매개변수와 분류 불확실성 사이의 내부 관계를 확률론적 관점에서 혁신적으로 분석하여, 분류 손실 함수의 온도 조정 인자가 Gumbel 분포를 따르는 불확실성 변수의 척도 계수임을 밝혔습니다. 따라서 특징 추출의 신뢰성을 모델링하기 위해 RTS라는 새로운 훈련 프레임워크가 제안되었습니다. RTS 훈련 프레임워크를 기반으로 보다 신뢰할 수 있는 인식 모델이 훈련되어 훈련 프로세스가 더욱 안정적으로 이루어지고, 배포 중에 샘플 불확실성에 대한 측정 점수를 제공하여 불확도가 높은 샘플을 거부하고 보다 강력한 비전 인식 시스템을 구축하는 데 도움을 줍니다. 광범위한 실험을 통해 RTS는 견고한 시각적 인식 시스템을 구축하기 위해 불확실성 측정값을 안정적으로 훈련하고 출력할 수 있음을 보여줍니다. 주소 주소 : https://arxiv.org/abs/2212.01015

화질 걱정은 시각적 인식에 방해가 되니, DAMO아카데미는 더욱 탄탄한 프레임워크를 제안합니다.


open 소스 모델 : https://modelscope.cn/models/damo/cv_ir_face-recognition - ood_rts/summary

  • Background
  • 불확실성 문제: 시각 인식 시스템은 일반적으로 실제 장면에서 다양한 간섭에 직면합니다. 예: 폐색(장식 또는 복잡한 전경), 이미지 흐림(초점 흐림 또는 동작 흐림), 극단적인 조명(노출 과다 또는 노출 부족 등). 이러한 간섭은 노이즈의 영향으로 요약될 수 있습니다. 또한 잘못 감지된 사진, 일반적으로 고양이 얼굴 또는 강아지 얼굴이 있습니다. 이러한 잘못 감지된 데이터를 OOD(Out-of-Distribution) 데이터라고 합니다. 시각적 인식의 경우 위에서 언급한 노이즈 및 OOD 데이터는 불확실성의 원인이 됩니다. 영향을 받은 샘플은 깊이 모델을 기반으로 추출된 특징에 불확실성을 중첩시켜 시각적 인식 시스템에 간섭을 일으킵니다. 예를 들어, 기본 라이브러리 이미지가 불확실한 간섭을 갖는 샘플로 오염되면 '특징 블랙홀'이 형성되어 시각 인식 시스템에 숨겨진 위험을 가져오게 됩니다. 따라서 표현 신뢰성을 모델링할 필요가 있습니다. 특성화 신뢰성 모델링 관련 작업

전통적인 다중 모델 솔루션

시각 인식 링크의 신뢰성을 제어하는 ​​전통적인 방법은 독립적인 품질 모델을 통해 수행됩니다. 일반적인 이미지 품질 모델링 방법은 다음과 같습니다.

1. 주석 데이터를 수집하고 선명도, 교합 유무, 자세 등 품질에 영향을 미치는 특정 요소에 주석을 답니다. 2. 영향 요인의 라벨에 따라 품질 점수를 1부터 10까지 매핑합니다. 점수가 높을수록 품질이 좋은 것입니다. 구체적인 예는 아래 그림의 왼쪽 예를 참조하세요. .

3. 처음 두 단계에서 품질 점수 주석을 얻은 후 아래 그림의 오른쪽 예와 같이 배포 단계에서 품질 점수를 예측하기 위해 순서 회귀 학습을 수행합니다.

독립적인 품질 모델 솔루션은 시각적 인식 링크에 새로운 모델을 도입해야 하며, 훈련은 주석 정보에 의존합니다.

DUL

화질 걱정은 시각적 인식에 방해가 되니, DAMO아카데미는 더욱 탄탄한 프레임워크를 제안합니다.

불확실성 모델링 방법에는 특징을 가우스 분포의 평균과 분산의 합으로 모델링하고 불확실성이 포함된 특징을 전송 후 변환하는 "얼굴 인식의 데이터 불확실성 학습"이 포함됩니다. 훈련을 위해 분류자에게 전달됩니다. 따라서 배포 단계에서 이미지 품질과 관련된 불확실성 점수를 얻을 수 있습니다.

DUL은 불확실성을 설명하기 위해 합산 방법을 사용하며, 노이즈 추정의 규모도 특정 유형의 데이터의 특성 분포와 밀접한 관련이 있습니다. 데이터 분포가 상대적으로 촘촘하면 DUL에서 추정한 노이즈의 규모도 상대적으로 작습니다. OOD 분야의 연구에서는 데이터 분포의 밀도가 OOD 식별을 위한 좋은 척도가 아니라는 점을 지적합니다.

GODIN

화질 걱정은 시각적 인식에 방해가 되니, DAMO아카데미는 더욱 탄탄한 프레임워크를 제안합니다.

OOD 분야의 연구 "일반화된 오딘: 분포 외부 데이터로부터 학습하지 않고 분포 외부 이미지 검출"은 두 개의 독립적인 분기 h(x)를 사용하여 결합 확률 분포 형식을 사용하여 OOD 데이터를 처리합니다. (x) 분류 확률 값과 온도 조정 값을 각각 추정합니다.

화질 걱정은 시각적 인식에 방해가 되니, DAMO아카데미는 더욱 탄탄한 프레임워크를 제안합니다.

온도 값은 확률 값으로 모델링되므로 범위가 0~1 사이로 제한되어 더 나은 온도 모델링을 제공하지 않습니다.

Method

위의 문제점과 관련 작업에 대응하여 본 논문에서는 온도 조정 인자와 분류 손실 함수의 불확실성 사이의 관계를 확률론적 관점에서 분석하고 RTS 훈련 프레임워크를 제안합니다.

화질 걱정은 시각적 인식에 방해가 되니, DAMO아카데미는 더욱 탄탄한 프레임워크를 제안합니다.

확률적 관점에 따른 온도조절계수 분석

먼저 온도조절계수와 불확실성의 관계를 분석합니다. 불확실성 화질 걱정은 시각적 인식에 방해가 되니, DAMO아카데미는 더욱 탄탄한 프레임워크를 제안합니다.이 표준 Gumbel 분포를 따르는 확률 변수라고 가정하면 확률 밀도 함수는

화질 걱정은 시각적 인식에 방해가 되니, DAMO아카데미는 더욱 탄탄한 프레임워크를 제안합니다.로 쓸 수 있고 의 누적 분포 함수는 화질 걱정은 시각적 인식에 방해가 되니, DAMO아카데미는 더욱 탄탄한 프레임워크를 제안합니다.이며 확률은 의 값은 k 클래스로 분류됩니다.

화질 걱정은 시각적 인식에 방해가 되니, DAMO아카데미는 더욱 탄탄한 프레임워크를 제안합니다.

위 수식에 화질 걱정은 시각적 인식에 방해가 되니, DAMO아카데미는 더욱 탄탄한 프레임워크를 제안합니다.을 대입하면 다음과 같은 결과를 얻을 수 있습니다.

화질 걱정은 시각적 인식에 방해가 되니, DAMO아카데미는 더욱 탄탄한 프레임워크를 제안합니다.

으로 분류된다 k 클래스는 소프트맥스 함수를 따르는 점수이며, 동시에 t를 사용하여 불확실성의 규모를 조정할 수 있습니다. 즉, 표준 Gumbel 분포를 따릅니다.

화질 걱정은 시각적 인식에 방해가 되니, DAMO아카데미는 더욱 탄탄한 프레임워크를 제안합니다.

수 있습니다. 이때 k 클래스로 분류된 확률 값은 t의 소프트맥스 함수 점수인 온도 조정 값과 일치함을 알 수 있다.

모델링 온도

분류에 대한 불확실성 추정의 영향을 줄이기 위해 온도 t는 1에 가까워야 하므로 온도 t를 화질 걱정은 시각적 인식에 방해가 되니, DAMO아카데미는 더욱 탄탄한 프레임워크를 제안합니다. 독립 감마 분포 변수: 화질 걱정은 시각적 인식에 방해가 되니, DAMO아카데미는 더욱 탄탄한 프레임워크를 제안합니다.where 화질 걱정은 시각적 인식에 방해가 되니, DAMO아카데미는 더욱 탄탄한 프레임워크를 제안합니다.의 합으로 모델링합니다. t Obey 화질 걱정은 시각적 인식에 방해가 되니, DAMO아카데미는 더욱 탄탄한 프레임워크를 제안합니다.

, beta = frac {alpha - 1}{v})$ 분포. v와 화질 걱정은 시각적 인식에 방해가 되니, DAMO아카데미는 더욱 탄탄한 프레임워크를 제안합니다.가 분포에 미치는 영향은 다음과 같습니다.

화질 걱정은 시각적 인식에 방해가 되니, DAMO아카데미는 더욱 탄탄한 프레임워크를 제안합니다.

온도 모델링에 대한 제약 조건은 훈련 중에 다음 정규 항을 사용하여 구현됩니다.

화질 걱정은 시각적 인식에 방해가 되니, DAMO아카데미는 더욱 탄탄한 프레임워크를 제안합니다.

훈련 방법

전체 알고리즘은 다음과 같이 구성됩니다.

화질 걱정은 시각적 인식에 방해가 되니, DAMO아카데미는 더욱 탄탄한 프레임워크를 제안합니다.

더 자세한 분석과 이론적 증명은 논문을 참고해주세요.

Results

훈련 단계에서는 훈련 데이터에 얼굴 훈련 데이터만 포함됩니다. 잘못 감지된 고양이 얼굴과 개 얼굴의 OOD 데이터는 테스트 중 OOD 데이터의 인식 효과를 검증하는 데 사용되며 테스트는 훈련 프로세스의 여러 단계에서 OOD 샘플 불확실성의 동적 프로세스를 보여줍니다.

훈련 단계

배포 내 데이터(얼굴)와 배포 외 데이터(고양이 얼굴과 개 얼굴이 얼굴로 잘못 감지됨)의 불확실성을 서로 다른 에포크 번호의 학위 점수에서 도출합니다. 아래 그림을 보면 초기 단계의 모든 샘플의 불확실성 점수가 더 큰 값 근처에 분포되어 있음을 알 수 있으며, 훈련이 진행됨에 따라 OOD 샘플의 불확실성도 점차 증가하고, 얼굴 데이터의 불확실성도 점차 커지는 것을 알 수 있습니다. 감소하며, 얼굴 품질이 좋을수록 불확실성이 낮아집니다. 임계값을 설정하여 ID 데이터와 OOD 데이터를 구분할 수 있으며, 이미지 품질은 불확실성 점수에 반영됩니다.

화질 걱정은 시각적 인식에 방해가 되니, DAMO아카데미는 더욱 탄탄한 프레임워크를 제안합니다.

훈련 단계에서 시끄러운 훈련 데이터에 대한 견고성을 설명합니다. 이 기사에서는 훈련 세트에 다양한 비율의 노이즈를 적용합니다. 노이즈 훈련 데이터의 다양한 비율을 기반으로 한 모델 인식 효과는 RTS가 노이즈 데이터를 기반으로 한 교육에서도 더 나은 인식 결과를 얻을 수 있음을 알 수 있습니다.

화질 걱정은 시각적 인식에 방해가 되니, DAMO아카데미는 더욱 탄탄한 프레임워크를 제안합니다.

배포 단계

다음 그림은 배포 단계 중 RTS 프레임워크에서 얻은 불확실성 점수가 얼굴 품질과 높은 상관관계를 보여줍니다

화질 걱정은 시각적 인식에 방해가 되니, DAMO아카데미는 더욱 탄탄한 프레임워크를 제안합니다.

동시에 품질이 낮은 샘플을 제거한 후의 오류 매칭 곡선이 벤치마크에 표시됩니다. 획득된 불확실성 점수를 바탕으로 벤치마크에서 불확실성이 높은 샘플을 불확실성이 높은 순으로 제거하고, 나머지 샘플의 오류 매칭 곡선을 그린다. 아래 그림에서 볼 수 있듯이 불확실성이 높은 샘플을 많이 필터링할수록 잘못된 일치 항목이 줄어들고, 동일한 개수의 불확실성 샘플을 제거하면 RTS의 잘못된 일치 항목이 줄어듭니다.

화질 걱정은 시각적 인식에 방해가 되니, DAMO아카데미는 더욱 탄탄한 프레임워크를 제안합니다.

OOD 샘플에 대한 불확실성 점수의 식별 효과를 검증하기 위해 분포 내 데이터 세트(얼굴)와 분포 외 데이터 세트(고양이가 얼굴로 잘못 감지됨)를 구축했습니다. 얼굴과 개 얼굴을 테스트하는 동안). 데이터 샘플은 다음과 같습니다.

화질 걱정은 시각적 인식에 방해가 되니, DAMO아카데미는 더욱 탄탄한 프레임워크를 제안합니다.

RTS의 효과를 두 가지 측면에서 설명합니다. 먼저, 불확실성의 분포도를 그려보세요. 아래 그림에서 볼 수 있듯이 RTS 방법은 OOD 데이터에 대해 강력한 식별력을 가지고 있습니다.

화질 걱정은 시각적 인식에 방해가 되니, DAMO아카데미는 더욱 탄탄한 프레임워크를 제안합니다.

동시에 OOD 테스트 세트에 대한 ROC 곡선이 그려지고, ROC 기관의 AUC 값이 계산되어 RTS의 불확실성 점수가 OOD를 더 잘 식별할 수 있음을 알 수 있습니다. 데이터.

화질 걱정은 시각적 인식에 방해가 되니, DAMO아카데미는 더욱 탄탄한 프레임워크를 제안합니다.

화질 걱정은 시각적 인식에 방해가 되니, DAMO아카데미는 더욱 탄탄한 프레임워크를 제안합니다.

범용 인식 능력

벤치마크에서 범용 인식 기능을 테스트한 결과, RTS는 얼굴 인식 기능에 영향을 주지 않고 OOD 데이터의 인식 기능을 추가했습니다. RTS 알고리즘을 사용하면 식별 및 OOD 데이터 식별에서 균형 잡힌 결과를 얻을 수 있습니다.

화질 걱정은 시각적 인식에 방해가 되니, DAMO아카데미는 더욱 탄탄한 프레임워크를 제안합니다.

화질 걱정은 시각적 인식에 방해가 되니, DAMO아카데미는 더욱 탄탄한 프레임워크를 제안합니다.

application

이 문서의 모델은 Modelscope에서 오픈 소스로 제공되었습니다. 또한, CV 도메인의 오픈소스 무료 모델을 소개하고 싶습니다. 누구나 체험하고 다운로드할 수 있습니다. (대부분의 휴대폰에서 체험 가능): https://modelscope1. cn/models/damo/cv_resnet50_face-Detection_retinaface/ summary

2.https://modelscope.cn/models/damo/cv_resnet101_face-Detection_cvpr22papermogface/summary

3.https://modelscope.cn/models/ damo/cv_manual_face-Detection_tinymog/summary

4.https://modelscope.cn/models/damo/cv_manual_face-Detection_ulfd/summary

5.https://modelscope.cn/models/damo/cv_manual_face- detector_mtcnn/summary

6.https://modelscope.cn/models/damo/cv_resnet_face-recognition_facemask/summary

7.https://modelscope.cn/models/damo/cv_ir50_face-recognition_arcface/summary

8.https://modelscope.cn/models/damo/cv_manual_face-liveness_flir/summary

9.https://modelscope.cn/models/damo/cv_manual_face-liveness_flrgb/summary

10 .https://modelscope.cn/models /damo/cv_manual_facial-landmark-confidence_flcm/summary

11.https://modelscope.cn/models/damo/cv_vgg19_facial-expression-recognition_fer/summary

12 .https://modelscope.cn/models /damo/cv_resnet34_face-attribute-recognition_fairface/summary

위 내용은 화질 걱정은 시각적 인식에 방해가 되니, DAMO아카데미는 더욱 탄탄한 프레임워크를 제안합니다.의 상세 내용입니다. 자세한 내용은 PHP 중국어 웹사이트의 기타 관련 기사를 참조하세요!

성명:
이 기사는 51cto.com에서 복제됩니다. 침해가 있는 경우 admin@php.cn으로 문의하시기 바랍니다. 삭제