사전 훈련 시대에 접어들면서 시각 인식 모델의 성능은 급속히 발전했지만, GAN(Generative Adversarial Network)과 같은 이미지 생성 모델은 뒤처진 것 같습니다.
보통 GAN 훈련은 비지도 방식으로 처음부터 이루어지는데, 이는 시간이 많이 걸리고 노동 집약적입니다. 대규모 사전 훈련에서 빅데이터를 통해 배운 "지식"은 사용되지 않습니다. ?
그리고 이미지 생성 자체는 실제 시각적 현상에서 복잡한 통계 데이터를 캡처하고 시뮬레이션할 수 있어야 합니다. 그렇지 않으면 생성된 이미지가 물리적 세계의 법칙을 따르지 않고 즉시 "가짜"로 식별됩니다. 섬광.
사전 훈련된 모델은 지식을 제공하고 GAN 모델은 생성 기능을 제공합니다. 이 둘의 조합은 아름답습니다!
문제는 사전 훈련된 모델과 이를 결합하는 방법이 GAN 모델의 생성 능력을 향상시킬 수 있느냐는 것입니다.
최근 CMU와 Adobe의 연구원들은 CVPR 2022에 "선택"을 통해 사전 훈련된 모델과 GAN 모델의 훈련을 결합한 기사를 게재했습니다.
논문 링크: https://arxiv.org/abs/2112.09130
프로젝트 링크: https://github.com/nupurkmr9/vision-aided-gan
영상 링크: https://www. youtube.com/watch?v=oHdyJNdQ9E4
GAN 모델의 학습 과정은 판별기와 생성기로 구성됩니다. 판별기는 실제 샘플과 생성된 샘플을 구별하는 관련 통계 데이터를 학습하는 데 사용되며 생성기의 목표는 다음과 같습니다. 생성된 이미지가 실제 분포와 최대한 동일하도록 하는 것입니다.
이상적으로는 판별자는 생성된 이미지와 실제 이미지 사이의 분포 격차를 측정할 수 있어야 합니다.
그러나 데이터의 양이 매우 제한적인 경우 사전 훈련된 대규모 모델을 판별자로 직접 사용하면 생성기가 "무자비하게 부서지고" "과적 맞춤"되는 결과를 쉽게 초래할 수 있습니다.
FFHQ 1k 데이터 세트에 대한 실험을 통해 최신 미분 가능한 데이터 향상 방법을 사용하더라도 판별자는 여전히 과적합됩니다. 훈련 세트 성능은 매우 강력하지만 검증 세트 성능은 매우 낮습니다.
또한 판별자는 인간에게는 구별할 수 없지만 기계에게는 명백한 변장에 집중할 수 있습니다.
판별기와 생성기의 기능 균형을 맞추기 위해 연구자들은 판별기로서 미리 훈련된 다양한 모델 집합의 표현을 조합할 것을 제안합니다.
이 방법에는 두 가지 이점이 있습니다.
1. 사전 훈련된 기능에 대한 얕은 분류기를 훈련하는 것은 과적합을 줄이면서 심층 네트워크를 소규모 데이터 세트에 적용하는 일반적인 방법입니다.
즉, 사전 훈련된 모델의 매개변수가 고정되어 있고 최상위 계층에 경량 분류 네트워크가 추가된다면 안정적인 훈련 프로세스를 제공할 수 있습니다.
예를 들어 위 실험의 Ours 곡선을 보면 StyleGAN2-ADA에 비해 검증 세트의 정확도가 훨씬 향상되었음을 알 수 있습니다.
2. 최근 일부 연구에서는 심층 네트워크가 낮은 수준의 시각적 단서(가장자리 및 질감)부터 높은 수준의 개념(객체 및 객체 부분)까지 의미 있는 시각적 개념을 포착할 수 있음이 입증되었습니다.
이러한 기능을 기반으로 구축된 판별자는 인간의 인식과 더 일치할 수 있습니다.
그리고 사전 훈련된 여러 모델을 결합하면 생성기가 다양한 보완 기능 공간에서 실제 분포와 일치하도록 촉진할 수 있습니다.
가장 좋은 사전 훈련된 네트워크를 선택하기 위해 연구원들은 먼저 분류를 위한 VGG-16, 감지 및 분할을 위한 Swin-T 등을 포함하여 여러 sota 모델을 수집하여 "모델 뱅크"를 형성했습니다.
그런 다음 특징 공간에서 실제 이미지와 가짜 이미지의 선형 분할을 기반으로 자동 모델 검색 전략을 제안하고 레이블 평활화 및 미분 가능 강화 기술을 사용하여 모델 훈련을 더욱 안정화하고 과적합을 줄입니다.
구체적으로는 실제 훈련 샘플과 생성된 이미지의 합집합이 훈련 세트와 검증 세트로 구분됩니다.
사전 훈련된 각 모델에 대해 논리 선형 판별기를 훈련시켜 샘플이 실제 샘플에서 나온 것인지 생성된 것인지 분류하고 검증 분할에서 "음의 이진 교차 엔트로피 손실"을 사용하여 분포 격차를 측정하고 가장 작은 값을 반환합니다. 오류 모델.
검증 오류가 낮을수록 선형 감지 정확도가 높아집니다. 이는 이러한 기능이 실제 샘플과 생성된 샘플을 구별하는 데 유용하며 이러한 기능을 사용하면 생성기에 더 유용한 피드백을 제공할 수 있음을 나타냅니다.
연구원 우리는 FFHQ 및 LSUN CAT 데이터 세트의 1000개 훈련 샘플을 사용하여 GAN 훈련을 경험적으로 검증했습니다.
결과에 따르면 사전 훈련된 모델로 훈련된 GAN은 선형 탐지 정확도가 더 높고 일반적으로 더 나은 FID 지표를 달성할 수 있습니다.
여러 기성 모델의 피드백을 반영하기 위해 기사에서는 두 가지 모델 선택 및 통합 전략도 탐색합니다.
1) K-fixed 모델 선택 전략, K-fixed 모델 선택 전략 훈련 시작 및 수렴까지 훈련
2) K-진행형 모델 선택 전략은 고정된 반복 횟수 후에 가장 성능이 좋고 사용되지 않는 모델을 반복적으로 선택하고 추가합니다.
실험 결과에 따르면 K-고정 전략과 비교할 때 점진적 접근 방식은 계산 복잡성이 낮으며 데이터 분포의 차이를 포착하기 위해 사전 훈련된 모델을 선택하는 데도 도움이 됩니다. 예를 들어, 진보적 전략에 의해 선택된 처음 두 모델은 일반적으로 자기 감독 모델과 감독 모델의 쌍입니다.
이 기사의 실험은 주로 진보적입니다.
최종 훈련 알고리즘은 먼저 표준 적대 손실을 사용하여 GAN을 훈련합니다.
기본 생성기가 주어지면 선형 프로빙을 사용하고 훈련 중에 손실 목적 함수를 도입하여 사전 훈련된 최고의 모델을 검색할 수 있습니다.
K-progressive 전략에서는 사용 가능한 실제 훈련 샘플 수에 비례하여 고정된 반복 횟수 동안 훈련한 후 이전 단계에서 가장 좋은 훈련 세트 FID가 있는 스냅샷에 새로운 시각 보조 판별기가 추가됩니다.
훈련 중에는 수평 반전을 통해 데이터 증대가 수행되며, 정규화 항으로는 미분 가능 증대 기법과 단방향 라벨 스무딩이 사용됩니다.
기성 모델만 판별자로 사용하면 발산이 발생하는 반면 원래 판별자와 사전 훈련된 모델을 결합하면 이러한 상황을 개선할 수 있다는 것도 관찰할 수 있습니다.
최종 실험은 FFHQ, LSUN CAT, LSUN CHURCH 데이터 세트의 학습 샘플이 1k에서 10k까지 다양할 때의 결과를 보여줍니다.
모든 설정에서 FID는 상당한 개선을 달성하여 제한된 데이터 시나리오에서 이 방법의 효율성을 입증할 수 있습니다.
이 방법과 StyleGAN2-ADA의 차이점을 정성적으로 분석하기 위해 두 가지 방법으로 생성된 샘플의 품질에 따라 기사에서 제안한 새로운 방법은 특히 FFHQ 및 LSUN의 경우 최악의 샘플의 품질을 향상시킬 수 있습니다. CAT
점차적으로 다음 판별자를 추가하면 사전 훈련된 모델의 특징에 대한 선형 검출 정확도가 점차 감소하는 것을 볼 수 있습니다. 이는 생성자가 더 강하다는 것을 의미합니다.
전체적으로 10,000개의 훈련 샘플만으로 LSUN CAT에서 이 방법의 FID는 160만 개의 이미지에 대해 훈련된 StyleGAN2와 거의 동일합니다.
전체 데이터세트에서 이 방법은 LSUN 고양이, 교회 및 말 카테고리에서 FID를 1.5~2배 향상시킵니다.
저자 Richard Zhang은 캘리포니아 대학교 버클리에서 박사 학위를, 코넬 대학교에서 학사 및 석사 학위를 받았습니다. 주요 연구 관심 분야에는 컴퓨터 비전, 기계 학습, 딥 러닝, 그래픽 및 이미지 처리가 포함되며 종종 인턴십이나 대학을 통해 학계 연구원과 협력합니다.
저자 Jun-Yan Zhu는 카네기 멜론 대학교 컴퓨터 과학부 로봇공학부 조교수이며, 주요 연구 분야도 맡고 있습니다. 분야에는 컴퓨터 비전, 컴퓨터 그래픽, 기계 학습 및 컴퓨터 사진이 포함됩니다.
CMU에 합류하기 전에는 Adobe Research에서 연구원으로 근무했습니다. 그는 칭화대학교 버클리캠퍼스에서 학사 및 박사학위를 취득한 후 MIT CSAIL에서 박사후 연구원으로 근무했습니다.
위 내용은 CMU, Adobe와 협력: GAN 모델은 사전 훈련 시대를 열어 훈련 샘플의 1%만 필요의 상세 내용입니다. 자세한 내용은 PHP 중국어 웹사이트의 기타 관련 기사를 참조하세요!

AI 식품 준비 여전히 초기 사용 중이지만 AI 시스템은 음식 준비에 점점 더 많이 사용되고 있습니다. AI 구동 로봇은 부엌에서 햄버거를 뒤집기, 피자 만들기 또는 SA 조립과 같은 음식 준비 작업을 자동화하는 데 사용됩니다

소개 파이썬 기능에서 변수의 네임 스페이스, 범위 및 동작을 이해하는 것은 효율적으로 작성하고 런타임 오류 또는 예외를 피하는 데 중요합니다. 이 기사에서는 다양한 ASP를 탐구 할 것입니다

소개 생생한 그림과 조각으로 둘러싸인 아트 갤러리를 걷는 것을 상상해보십시오. 이제 각 작품에 질문을하고 의미있는 대답을 얻을 수 있다면 어떨까요? “어떤 이야기를하고 있습니까?

제품 케이던스를 계속하면서 이번 달 Mediatek은 새로운 Kompanio Ultra and Dimensity 9400을 포함한 일련의 발표를했습니다. 이 제품은 스마트 폰 용 칩을 포함하여 Mediatek 비즈니스의 전통적인 부분을 채우고 있습니다.

#1 Google은 Agent2agent를 시작했습니다 이야기 : 월요일 아침입니다. AI 기반 채용 담당자로서 당신은 더 똑똑하지 않고 더 똑똑하지 않습니다. 휴대 전화에서 회사의 대시 보드에 로그인합니다. 세 가지 중요한 역할이 공급되고, 검증되며, 예정된 FO가 있음을 알려줍니다.

나는 당신이되어야한다고 생각합니다. 우리 모두는 Psychobabble이 다양한 심리적 용어를 혼합하고 종종 이해할 수 없거나 완전히 무의미한 모듬 채터로 구성되어 있다는 것을 알고 있습니다. 당신이 fo를 뿌리기 위해해야 할 일

이번 주 발표 된 새로운 연구에 따르면 2022 년에 제조 된 플라스틱의 9.5%만이 재활용 재료로 만들어졌습니다. 한편, 플라스틱은 계속해서 매립지와 생태계에 전 세계에 쌓이고 있습니다. 그러나 도움이 진행 중입니다. 엥인 팀

최근 Enterprise Analytics 플랫폼 Alteryx의 CEO 인 Andy MacMillan과의 대화는 AI 혁명 에서이 비판적이면서도 저평가 된 역할을 강조했습니다. MacMillan에서 설명했듯이 원시 비즈니스 데이터와 AI-Ready Informat의 격차


핫 AI 도구

Undresser.AI Undress
사실적인 누드 사진을 만들기 위한 AI 기반 앱

AI Clothes Remover
사진에서 옷을 제거하는 온라인 AI 도구입니다.

Undress AI Tool
무료로 이미지를 벗다

Clothoff.io
AI 옷 제거제

AI Hentai Generator
AI Hentai를 무료로 생성하십시오.

인기 기사

뜨거운 도구

MinGW - Windows용 미니멀리스트 GNU
이 프로젝트는 osdn.net/projects/mingw로 마이그레이션되는 중입니다. 계속해서 그곳에서 우리를 팔로우할 수 있습니다. MinGW: GCC(GNU Compiler Collection)의 기본 Windows 포트로, 기본 Windows 애플리케이션을 구축하기 위한 무료 배포 가능 가져오기 라이브러리 및 헤더 파일로 C99 기능을 지원하는 MSVC 런타임에 대한 확장이 포함되어 있습니다. 모든 MinGW 소프트웨어는 64비트 Windows 플랫폼에서 실행될 수 있습니다.

SublimeText3 Linux 새 버전
SublimeText3 Linux 최신 버전

DVWA
DVWA(Damn Vulnerable Web App)는 매우 취약한 PHP/MySQL 웹 애플리케이션입니다. 주요 목표는 보안 전문가가 법적 환경에서 자신의 기술과 도구를 테스트하고, 웹 개발자가 웹 응용 프로그램 보안 프로세스를 더 잘 이해할 수 있도록 돕고, 교사/학생이 교실 환경 웹 응용 프로그램에서 가르치고 배울 수 있도록 돕는 것입니다. 보안. DVWA의 목표는 다양한 난이도의 간단하고 간단한 인터페이스를 통해 가장 일반적인 웹 취약점 중 일부를 연습하는 것입니다. 이 소프트웨어는

Atom Editor Mac 버전 다운로드
가장 인기 있는 오픈 소스 편집기

안전한 시험 브라우저
안전한 시험 브라우저는 온라인 시험을 안전하게 치르기 위한 보안 브라우저 환경입니다. 이 소프트웨어는 모든 컴퓨터를 안전한 워크스테이션으로 바꿔줍니다. 이는 모든 유틸리티에 대한 액세스를 제어하고 학생들이 승인되지 않은 리소스를 사용하는 것을 방지합니다.
