사전 훈련 시대에 접어들면서 시각 인식 모델의 성능은 급속히 발전했지만, GAN(Generative Adversarial Network)과 같은 이미지 생성 모델은 뒤처진 것 같습니다.
보통 GAN 훈련은 비지도 방식으로 처음부터 이루어지는데, 이는 시간이 많이 걸리고 노동 집약적입니다. 대규모 사전 훈련에서 빅데이터를 통해 배운 "지식"은 사용되지 않습니다. ?
그리고 이미지 생성 자체는 실제 시각적 현상에서 복잡한 통계 데이터를 캡처하고 시뮬레이션할 수 있어야 합니다. 그렇지 않으면 생성된 이미지가 물리적 세계의 법칙을 따르지 않고 즉시 "가짜"로 식별됩니다. 섬광.
사전 훈련된 모델은 지식을 제공하고 GAN 모델은 생성 기능을 제공합니다. 이 둘의 조합은 아름답습니다!
문제는 사전 훈련된 모델과 이를 결합하는 방법이 GAN 모델의 생성 능력을 향상시킬 수 있느냐는 것입니다.
최근 CMU와 Adobe의 연구원들은 CVPR 2022에 "선택"을 통해 사전 훈련된 모델과 GAN 모델의 훈련을 결합한 기사를 게재했습니다.
논문 링크: https://arxiv.org/abs/2112.09130
프로젝트 링크: https://github.com/nupurkmr9/vision-aided-gan
영상 링크: https://www. youtube.com/watch?v=oHdyJNdQ9E4
GAN 모델의 학습 과정은 판별기와 생성기로 구성됩니다. 판별기는 실제 샘플과 생성된 샘플을 구별하는 관련 통계 데이터를 학습하는 데 사용되며 생성기의 목표는 다음과 같습니다. 생성된 이미지가 실제 분포와 최대한 동일하도록 하는 것입니다.
이상적으로는 판별자는 생성된 이미지와 실제 이미지 사이의 분포 격차를 측정할 수 있어야 합니다.
그러나 데이터의 양이 매우 제한적인 경우 사전 훈련된 대규모 모델을 판별자로 직접 사용하면 생성기가 "무자비하게 부서지고" "과적 맞춤"되는 결과를 쉽게 초래할 수 있습니다.
FFHQ 1k 데이터 세트에 대한 실험을 통해 최신 미분 가능한 데이터 향상 방법을 사용하더라도 판별자는 여전히 과적합됩니다. 훈련 세트 성능은 매우 강력하지만 검증 세트 성능은 매우 낮습니다.
또한 판별자는 인간에게는 구별할 수 없지만 기계에게는 명백한 변장에 집중할 수 있습니다.
판별기와 생성기의 기능 균형을 맞추기 위해 연구자들은 판별기로서 미리 훈련된 다양한 모델 집합의 표현을 조합할 것을 제안합니다.
이 방법에는 두 가지 이점이 있습니다.
1. 사전 훈련된 기능에 대한 얕은 분류기를 훈련하는 것은 과적합을 줄이면서 심층 네트워크를 소규모 데이터 세트에 적용하는 일반적인 방법입니다.
즉, 사전 훈련된 모델의 매개변수가 고정되어 있고 최상위 계층에 경량 분류 네트워크가 추가된다면 안정적인 훈련 프로세스를 제공할 수 있습니다.
예를 들어 위 실험의 Ours 곡선을 보면 StyleGAN2-ADA에 비해 검증 세트의 정확도가 훨씬 향상되었음을 알 수 있습니다.
2. 최근 일부 연구에서는 심층 네트워크가 낮은 수준의 시각적 단서(가장자리 및 질감)부터 높은 수준의 개념(객체 및 객체 부분)까지 의미 있는 시각적 개념을 포착할 수 있음이 입증되었습니다.
이러한 기능을 기반으로 구축된 판별자는 인간의 인식과 더 일치할 수 있습니다.
그리고 사전 훈련된 여러 모델을 결합하면 생성기가 다양한 보완 기능 공간에서 실제 분포와 일치하도록 촉진할 수 있습니다.
가장 좋은 사전 훈련된 네트워크를 선택하기 위해 연구원들은 먼저 분류를 위한 VGG-16, 감지 및 분할을 위한 Swin-T 등을 포함하여 여러 sota 모델을 수집하여 "모델 뱅크"를 형성했습니다.
그런 다음 특징 공간에서 실제 이미지와 가짜 이미지의 선형 분할을 기반으로 자동 모델 검색 전략을 제안하고 레이블 평활화 및 미분 가능 강화 기술을 사용하여 모델 훈련을 더욱 안정화하고 과적합을 줄입니다.
구체적으로는 실제 훈련 샘플과 생성된 이미지의 합집합이 훈련 세트와 검증 세트로 구분됩니다.
사전 훈련된 각 모델에 대해 논리 선형 판별기를 훈련시켜 샘플이 실제 샘플에서 나온 것인지 생성된 것인지 분류하고 검증 분할에서 "음의 이진 교차 엔트로피 손실"을 사용하여 분포 격차를 측정하고 가장 작은 값을 반환합니다. 오류 모델.
검증 오류가 낮을수록 선형 감지 정확도가 높아집니다. 이는 이러한 기능이 실제 샘플과 생성된 샘플을 구별하는 데 유용하며 이러한 기능을 사용하면 생성기에 더 유용한 피드백을 제공할 수 있음을 나타냅니다.
연구원 우리는 FFHQ 및 LSUN CAT 데이터 세트의 1000개 훈련 샘플을 사용하여 GAN 훈련을 경험적으로 검증했습니다.
결과에 따르면 사전 훈련된 모델로 훈련된 GAN은 선형 탐지 정확도가 더 높고 일반적으로 더 나은 FID 지표를 달성할 수 있습니다.
여러 기성 모델의 피드백을 반영하기 위해 기사에서는 두 가지 모델 선택 및 통합 전략도 탐색합니다.
1) K-fixed 모델 선택 전략, K-fixed 모델 선택 전략 훈련 시작 및 수렴까지 훈련
2) K-진행형 모델 선택 전략은 고정된 반복 횟수 후에 가장 성능이 좋고 사용되지 않는 모델을 반복적으로 선택하고 추가합니다.
실험 결과에 따르면 K-고정 전략과 비교할 때 점진적 접근 방식은 계산 복잡성이 낮으며 데이터 분포의 차이를 포착하기 위해 사전 훈련된 모델을 선택하는 데도 도움이 됩니다. 예를 들어, 진보적 전략에 의해 선택된 처음 두 모델은 일반적으로 자기 감독 모델과 감독 모델의 쌍입니다.
이 기사의 실험은 주로 진보적입니다.
최종 훈련 알고리즘은 먼저 표준 적대 손실을 사용하여 GAN을 훈련합니다.
기본 생성기가 주어지면 선형 프로빙을 사용하고 훈련 중에 손실 목적 함수를 도입하여 사전 훈련된 최고의 모델을 검색할 수 있습니다.
K-progressive 전략에서는 사용 가능한 실제 훈련 샘플 수에 비례하여 고정된 반복 횟수 동안 훈련한 후 이전 단계에서 가장 좋은 훈련 세트 FID가 있는 스냅샷에 새로운 시각 보조 판별기가 추가됩니다.
훈련 중에는 수평 반전을 통해 데이터 증대가 수행되며, 정규화 항으로는 미분 가능 증대 기법과 단방향 라벨 스무딩이 사용됩니다.
기성 모델만 판별자로 사용하면 발산이 발생하는 반면 원래 판별자와 사전 훈련된 모델을 결합하면 이러한 상황을 개선할 수 있다는 것도 관찰할 수 있습니다.
최종 실험은 FFHQ, LSUN CAT, LSUN CHURCH 데이터 세트의 학습 샘플이 1k에서 10k까지 다양할 때의 결과를 보여줍니다.
모든 설정에서 FID는 상당한 개선을 달성하여 제한된 데이터 시나리오에서 이 방법의 효율성을 입증할 수 있습니다.
이 방법과 StyleGAN2-ADA의 차이점을 정성적으로 분석하기 위해 두 가지 방법으로 생성된 샘플의 품질에 따라 기사에서 제안한 새로운 방법은 특히 FFHQ 및 LSUN의 경우 최악의 샘플의 품질을 향상시킬 수 있습니다. CAT
점차적으로 다음 판별자를 추가하면 사전 훈련된 모델의 특징에 대한 선형 검출 정확도가 점차 감소하는 것을 볼 수 있습니다. 이는 생성자가 더 강하다는 것을 의미합니다.
전체적으로 10,000개의 훈련 샘플만으로 LSUN CAT에서 이 방법의 FID는 160만 개의 이미지에 대해 훈련된 StyleGAN2와 거의 동일합니다.
전체 데이터세트에서 이 방법은 LSUN 고양이, 교회 및 말 카테고리에서 FID를 1.5~2배 향상시킵니다.
저자 Richard Zhang은 캘리포니아 대학교 버클리에서 박사 학위를, 코넬 대학교에서 학사 및 석사 학위를 받았습니다. 주요 연구 관심 분야에는 컴퓨터 비전, 기계 학습, 딥 러닝, 그래픽 및 이미지 처리가 포함되며 종종 인턴십이나 대학을 통해 학계 연구원과 협력합니다.
저자 Jun-Yan Zhu는 카네기 멜론 대학교 컴퓨터 과학부 로봇공학부 조교수이며, 주요 연구 분야도 맡고 있습니다. 분야에는 컴퓨터 비전, 컴퓨터 그래픽, 기계 학습 및 컴퓨터 사진이 포함됩니다.
CMU에 합류하기 전에는 Adobe Research에서 연구원으로 근무했습니다. 그는 칭화대학교 버클리캠퍼스에서 학사 및 박사학위를 취득한 후 MIT CSAIL에서 박사후 연구원으로 근무했습니다.
위 내용은 CMU, Adobe와 협력: GAN 모델은 사전 훈련 시대를 열어 훈련 샘플의 1%만 필요의 상세 내용입니다. 자세한 내용은 PHP 중국어 웹사이트의 기타 관련 기사를 참조하세요!