TTA(테스트 시간 적응) 방법은 테스트 단계에서 모델이 신속한 비지도/자기 감독 학습을 수행하도록 안내합니다. 이는 현재 심층 모델의 분산 외 일반화 기능을 향상시키는 강력하고 효과적인 도구입니다. 그러나 동적 개방형 시나리오에서는 불충분한 안정성이 기존 TTA 방법의 주요 단점으로 남아 실제 배포를 심각하게 방해합니다. 이를 위해 남중국 공과대학교, 텐센트 AI 연구소, 싱가포르 국립대학교 연구팀은 기존 TTA 방법이 동적 시나리오에서 불안정한 이유를 통일된 관점에서 분석하고 이를 기반으로 하는 정규화 계층을 지적했습니다. on Batch는 안정성의 주요 원인 중 하나이며, 테스트 데이터 스트림에 노이즈/대규모 기울기가 있는 일부 샘플은 모델을 퇴화된 사소한 솔루션으로 쉽게 최적화할 수 있습니다. 이를 기반으로 동적 개방 시나리오에서 안정적이고 효율적인 테스트 시간 모델 온라인 마이그레이션 및 일반화를 달성하기 위해 선명도에 민감하고 신뢰할 수 있는 테스트 시간 엔트로피 최소화 방법 SAR이 추가로 제안됩니다. 이 작품은 ICLR 2023 Oral(승인된 논문 중 상위 5%)에 선정되었습니다.
기존의 기계 학습 기술은 일반적으로 사전에 수집된 대량의 학습 데이터를 학습한 후 추론 예측을 위해 모델을 수정합니다. 이 패러다임은 테스트 및 훈련 데이터가 동일한 데이터 분포에서 나올 때 매우 우수한 성능을 달성하는 경우가 많습니다. 그러나 실제 적용에서는 테스트 데이터의 분포가 원래 훈련 데이터의 분포에서 쉽게 벗어날 수 있습니다(분포 이동). 예를 들어 테스트 데이터를 수집할 때: 1) 날씨 변화로 인해 이미지에 비, 눈, 안개가 포함됩니다. 2) 부적절한 촬영으로 인해 이미지가 흐려지거나, 센서 저하로 인해 이미지에 노이즈가 포함됩니다. 3) 모델은 북부 도시에서 수집된 데이터를 기반으로 학습되었지만 남부 도시에 배포되었습니다. 위의 상황은 매우 일반적이지만 이러한 시나리오에서는 성능이 크게 저하되어 실제 세계(특히 자율 주행과 같은 고위험 애플리케이션)의 광범위한 배포에서의 사용이 심각하게 제한될 수 있기 때문에 딥 모델에는 치명적일 수 있습니다.
그림 1 테스트 시간 적응의 개략도([5] 참조) 및 기존 방법의 특성과 비교
은 기존 기계 학습 패러다임과 다릅니다. 테스트 샘플이 도착한 후 TTA(Test-Time Adaptation)는 먼저 자체 감독 또는 비지도 방식을 사용하여 데이터를 기반으로 모델을 미세 조정한 다음 업데이트된 모델을 사용하여 최종 예측을 수행합니다. . 일반적인 자가/비지도 학습 목표에는 회전 예측, 대조 학습, 엔트로피 최소화 등이 포함됩니다. 이들 방법은 모두 우수한 분포 외 일반화 성능을 나타냅니다. 기존의 미세 조정 및 감독되지 않은 도메인 적응 방법과 비교할 때 테스트 시간 적응은 더 효율적이고 보편적인 온라인 마이그레이션을 달성할 수 있습니다. 또한 완전한 테스트 시간 적응 방법[2]은 원래 훈련 데이터가 필요하지 않거나 모델의 원래 훈련 프로세스에 대한 간섭 없이 사전 훈련된 모든 모델에 적응할 수 있습니다. 위의 장점은 TTA 방법의 실용적인 다양성을 크게 향상시켰으며 뛰어난 성능과 함께 TTA는 마이그레이션, 일반화 및 기타 관련 분야에서 매우 뜨거운 연구 방향이 되었습니다. 기존 TTA 방법은 분포 외 일반화에서 큰 잠재력을 보여주었지만, 이 우수한 성능은 일정 기간 동안의 테스트 데이터 흐름과 같은 일부 특정 테스트 조건에서 종종 얻어집니다. 샘플은 모두 동일한 유형의 샘플에서 나옵니다. 분포 변화에 따라 테스트 샘플의 실제 범주 분포는 균일하고 무작위이며 적응을 수행하기 전에 샘플의 미니 배치가 필요할 때마다 가능합니다. 그러나 실제로 위의 잠재적인 가정은 실제 오픈 월드에서 항상 만족되기 어렵습니다. 실제로 테스트 데이터 스트림은 어떤 조합으로든 도착할 수 있으며, 이상적으로 모델은 테스트 데이터 스트림의 도착 형식에 대해 어떠한 가정도 해서는 안 됩니다. 그림 2에 표시된 것처럼 테스트 데이터 스트림에서 다음이 발생할 수 있습니다. (a) 샘플은 서로 다른 분포 오프셋(예: 혼합 샘플 오프셋)에서 나옵니다. (b) 샘플 배치 크기가 매우 작습니다(심지어 1). ; (c)일정 기간 동안 샘플의 실제 클래스 분포는 고르지 않고 동적으로 변경됩니다. 이 문서에서는 위 시나리오의 TTA를 Wild TTA로 지칭합니다. 안타깝게도 기존 TTA 방법은 마이그레이션 성능이 제한되어 이러한 거친 시나리오에서 취약하고 불안정해 보이는 경우가 많으며 원래 모델의 성능을 손상시킬 수도 있습니다. 따라서 실제 시나리오에서 TTA 방식의 대규모 및 심층적 애플리케이션 배포를 진정으로 실현하려면 Wild TTA 문제를 해결하는 것이 불가피하고 중요한 부분입니다. 그림 2 모델 테스트 중 적응의 동적 개방 시나리오 이 기사에서는 통합된 관점에서 많은 Wild 시나리오에서 TTA 실패 이유를 분석합니다. 그런 다음 해결책을 제시하십시오. 1. Wild TTA가 불안정한 이유는 무엇인가요? (1) BN(Batch Normalization)은 동적 시나리오에서 TTA가 불안정해지는 주요 이유 중 하나입니다: 기존 TTA 방법은 일반적으로 BN 통계 적응을 기반으로 합니다. 즉, 테스트를 사용하여 데이터를 사용하여 BN 레이어의 평균 및 표준 편차. 그러나 세 가지 실제 동적 시나리오에서는 BN 계층 내의 통계적 추정 정확도가 편향되어 TTA가 불안정해집니다. 위 분석을 추가로 확인하기 위해 이 기사에서는 두 가지 대표적인 TTA 방법을 기반으로 널리 사용되는 3가지 모델(다른 BatchLayerGroup Norm을 갖추고 있음)을 고려합니다. TTT[1] 및 Tent[2])를 분석 검증에 사용했습니다. 최종 결론은 다음과 같습니다. Batch 독립적 Norm 레이어(Group 및 Layer Norm)는 Batch Norm의 한계를 어느 정도 우회하고 동적 개방 시나리오에서 TTA를 실행하는 데 더 적합하며 안정성도 더 높습니다. 따라서 본 논문에서도 GroupLayer Norm을 탑재한 모델을 기반으로 방법론 설계를 진행한다. 그림 3 혼합 분포 오프셋 하에서 다양한 방법 및 모델(다양한 정규화 레이어)의 성능과 다양한 배치 크기 하에서 모델 성능(다양한 정규화 레이어) 그림에서 음영 처리된 부분은 모델 성능의 표준편차를 나타냅니다. ResNet50-BN과 ResNet50-GN의 표준편차는 너무 작아서 그림에서 유의미하지 않습니다(아래 그림과 동일) 왜 테스트 시간 적응을 해야 할까요?
그림 5 온라인 불균형 라벨 분포 변화에 따른 다양한 방법 및 모델(다양한 정규화 레이어)의 성능 그림에서 가로축의 불균형 비율이 클수록 라벨 불균형이 더 심각합니다.
(2) 온라인 엔트로피 최소화를 사용하면 모델을 퇴화된 사소한 솔루션으로 쉽게 최적화할 수 있습니다. 즉, 모든 샘플을 동일한 클래스로 예측할 수 있습니다.: 그림 6(a) 및 (b)에 따르면 분포가 Shifts 수준이 심각한 경우(레벨 5) 온라인 적응 과정에서 갑자기 모델 저하 및 붕괴 현상이 발생합니다. 즉, 모든 샘플(실제 범주가 다름)이 동시에 동일한 클래스, 표준으로 예측됩니다. 그림 6(c)와 같이 모델 붕괴 전후에 모델 기울기가 급격하게 증가하다가 거의 0으로 떨어졌습니다. 이는 일부 대규모/잡음 기울기가 모델 매개변수를 파괴하여 모델이 손상될 수 있음을 나타냅니다. 무너지다.
그림 6 온라인 테스트 시간 엔트로피 최소화의 실패 사례 분석
2. 선명도에 민감하고 안정적인 테스트 시간 엔트로피 최소화 방법
For mit 주소로 위의 모델 저하 문제를 해결하기 위해 본 논문에서는 선명도에 민감하고 신뢰할 수 있는 테스트 시간 엔트로피 최소화 방법(Sharpness-aware and Reliable Entropy Minimization Method, SAR)을 제안합니다. 이 문제는 다음 두 가지 측면에서 완화됩니다. 1) 신뢰할 수 있는 엔트로피 최소화 제거 일부 샘플은 모델 적응형 업데이트에서 크거나 잡음이 많은 기울기를 생성합니다. 2) 모델 선명도 최적화 모델이 일부 잡음 기울기를 수정합니다. 나머지 샘플에서 생성된 샘플은 둔감합니다 . 구체적인 내용은 다음과 같습니다.
신뢰할 수 있는 엔트로피 최소화: 엔트로피를 기반으로 기울기 선택에 대한 대체 판단 지수를 설정하고 엔트로피가 높은 샘플을 제외합니다(그림 6(d)의 영역 1과 2의 샘플 포함). ) 모델 적응에서 모델 업데이트에 참여하지 마십시오:
여기서 x는 테스트 샘플을 나타내고, Θ는 모델 매개변수를 나타내고, 는 표시 함수를 나타내고, 은 엔트로피를 나타냅니다. 샘플 예측 결과 는 슈퍼 매개변수입니다.
샘플이 역전파 계산에 참여하는 경우에만 가능합니다.
선명도에 민감한 엔트로피 최적화: 신뢰할 수 있는 샘플 선택 메커니즘으로 필터링된 샘플은 그림 6(d)의 영역 4에 샘플이 여전히 포함되어 있는 것을 피할 수 없으며 이러한 샘플은 간섭 모델을 계속하면서 잡음/큰 기울기를 생성할 수 있습니다. 이를 위해 이 기사에서는 노이즈 그라데이션으로 인한 모델 업데이트에 영향을 받지 않도록 모델을 최소값으로 최적화하는 것을 고려합니다. 즉, 원래 모델 성능에 영향을 미치지 않습니다.
위의 목표 최종 그래디언트 업데이트 형식은 다음과 같습니다.
그 중 은 SAM [4]에서 영감을 얻었으며 1차 Taylor 확장을 통한 근사해를 구했습니다. 자세한 내용은 이 논문의 원본 텍스트와 코드를 참조하세요.
이 시점에서 이 기사의 전반적인 최적화 목표는 다음과 같습니다.
또한 위의 구성표가 극단적인 조건에서 여전히 실패하는 것을 방지하기 위해 모델 복구 전략이 추가로 필요합니다. 도입 : 모바일을 통해 모델 모니터링 열화 붕괴가 발생하면 필요한 순간에 모델 업데이트 매개변수의 원래 값을 복원하기로 결정됩니다.
동적 공개 시나리오에서의 성능 비교
SAR은 위의 세 가지 동적 공개 시나리오, 즉 a) 혼합물 분포 변화, b) 단일 표본 적응 및 c) 온라인 불균형을 기반으로 합니다. 분포 이동은 ImageNet-C 데이터 세트에서 실험적으로 검증되었으며 결과는 표 1, 2, 3에 나와 있습니다. SAR은 세 가지 시나리오 모두, 특히 시나리오 b)와 c)에서 놀라운 결과를 얻었으며 SAR의 정확도는 현재 SOTA 방법인 EATA를 거의 10% 초과합니다.
동적 시나리오에 해당하는 ImageNet-C의 15개 손상 유형 혼합 시나리오에서 SAR과 기존 방법의 성능 비교 (a) 기존 방법과의 효율성 비교 유 표 2 SAR과 동적 장면에 해당하는 ImageNet-C 시나리오에서의 성능 비교에 대한 기존 방법 (B)
Table 3 SAR과 기존 방법의 성능 비교 동적 시나리오(c)
절제 실험및 그라데이션 클리핑 방법 비교 : 그라데이션 클리핑은 간단하고 직접적인 방법인 ImageNet-C의 온라인 불균형 클래스 분포 이동 시나리오 큰 경사가 모델 업데이트에 영향을 미치거나 붕괴를 초래하는 것을 방지합니다. 다음은 그래디언트 클리핑의 두 가지 변형(예: 값별 또는 표준별)을 비교한 것입니다. 아래 그림에서 볼 수 있듯이 그래디언트 클리핑은 그래디언트 클리핑 임계값 δ의 선택에 매우 민감합니다. δ가 작을수록 모델이 업데이트되지 않는 결과와 동일하며, δ가 클수록 모델 붕괴를 피하기가 어렵습니다. 반면 SAR은 복잡한 하이퍼파라미터 필터링 프로세스가 필요하지 않으며 그래디언트 클리핑보다 성능이 훨씬 뛰어납니다.
그림 7 ImageNet-C의 온라인 불균형 레이블 분포 이동 시나리오에서 그래디언트 클리핑 방법과의 성능 비교(샷 노이즈, 레벨 5). 정확도는 이전의 모든 테스트 샘플을 기반으로 온라인으로 계산됩니다
다양한 모듈이 알고리즘 성능에 미치는 영향: 아래 표에 표시된 것처럼 SAR의 다양한 모듈이 함께 작동하여 동적 개방에서 테스트를 효과적으로 개선합니다. 시나리오 시간 모델 적응 안정성.
온라인 불균형 라벨 분포 변화 시나리오에서 ImageNet-C(레벨 5)에 대한 표 4 SAR 절제 실험
손실 표면 선명도 시각화: 모델 가중치에 섭동을 추가하여 손실 함수를 시각화한 결과는 아래 그림과 같습니다. 그중 SAR은 Tent보다 가장 낮은 손실 윤곽 내에서 더 큰 영역(진한 파란색 영역)을 가지며, 이는 SAR로 얻은 솔루션이 더 평평하고 잡음/더 큰 기울기에 더 견고하며 더 강력한 간섭 방지 능력을 가짐을 나타냅니다.
그림 8 엔트로피 손실 표면 시각화
이 문서는 동적 개방 시나리오에서 모델 온라인 테스트 중 적응형 불안정성 문제를 해결하는 데 전념하고 있습니다. 이를 위해 본 논문에서는 먼저 기존 방법이 실제 동적 시나리오에서 실패하는 이유를 통일된 관점에서 분석하고, 심층적인 검증을 수행하기 위한 완전한 실험을 설계합니다. 이러한 분석을 바탕으로 본 논문에서는 모델 업데이트에 큰 기울기/노이즈가 있는 특정 테스트 샘플의 영향을 억제하여 안정적이고 효율적인 모델 온라인 테스트 시간 적응을 달성하는 선명도에 민감하고 신뢰할 수 있는 테스트 시간 엔트로피 최소화 방법을 최종적으로 제안합니다. .
위 내용은 Batch Norm 레이어 등의 단점을 해결한 개방형 환경 솔루션의 상세 내용입니다. 자세한 내용은 PHP 중국어 웹사이트의 기타 관련 기사를 참조하세요!