찾다
기술 주변기기일체 포함CMU, Adobe와 협력: GAN 모델은 사전 훈련 시대를 열어 훈련 샘플의 1%만 필요

사전 훈련 시대에 접어들면서 시각 인식 모델의 성능은 급속히 발전했지만, GAN(Generative Adversarial Network)과 같은 이미지 생성 모델은 뒤처진 것 같습니다.

보통 GAN 훈련은 비지도 방식으로 처음부터 이루어지는데, 이는 시간이 많이 걸리고 노동 집약적입니다. 대규모 사전 훈련에서 빅데이터를 통해 배운 "지식"은 사용되지 않습니다. ?

그리고 이미지 생성 자체는 실제 시각적 현상에서 복잡한 통계 데이터를 캡처하고 시뮬레이션할 수 있어야 합니다. 그렇지 않으면 생성된 이미지가 물리적 세계의 법칙을 따르지 않고 즉시 "가짜"로 식별됩니다. 섬광.

CMU, Adobe와 협력: GAN 모델은 사전 훈련 시대를 열어 훈련 샘플의 1%만 필요

사전 훈련된 모델은 지식을 제공하고 GAN 모델은 생성 기능을 제공합니다. 이 둘의 조합은 아름답습니다!

문제는 사전 훈련된 모델과 이를 결합하는 방법이 GAN 모델의 생성 능력을 향상시킬 수 있느냐는 것입니다.

최근 CMU와 Adobe의 연구원들은 CVPR 2022에 "선택"을 통해 사전 훈련된 모델과 GAN 모델의 훈련을 결합한 기사를 게재했습니다.

CMU, Adobe와 협력: GAN 모델은 사전 훈련 시대를 열어 훈련 샘플의 1%만 필요

논문 링크: https://arxiv.org/abs/2112.09130

프로젝트 링크: https://github.com/nupurkmr9/vision-aided-gan

영상 링크: https://www. youtube.com/watch?v=oHdyJNdQ9E4

GAN 모델의 학습 과정은 판별기와 생성기로 구성됩니다. 판별기는 실제 샘플과 생성된 샘플을 구별하는 관련 통계 데이터를 학습하는 데 사용되며 생성기의 목표는 다음과 같습니다. 생성된 이미지가 실제 분포와 최대한 동일하도록 하는 것입니다.

이상적으로는 판별자는 생성된 이미지와 실제 이미지 사이의 분포 격차를 측정할 수 있어야 합니다.

그러나 데이터의 양이 매우 제한적인 경우 사전 훈련된 대규모 모델을 판별자로 직접 사용하면 생성기가 "무자비하게 부서지고" "과적 맞춤"되는 결과를 쉽게 초래할 수 있습니다.

FFHQ 1k 데이터 세트에 대한 실험을 통해 최신 미분 가능한 데이터 향상 방법을 사용하더라도 판별자는 여전히 과적합됩니다. 훈련 세트 성능은 매우 강력하지만 검증 세트 성능은 매우 낮습니다.

CMU, Adobe와 협력: GAN 모델은 사전 훈련 시대를 열어 훈련 샘플의 1%만 필요

또한 판별자는 인간에게는 구별할 수 없지만 기계에게는 명백한 변장에 집중할 수 있습니다.

판별기와 생성기의 기능 균형을 맞추기 위해 연구자들은 판별기로서 미리 훈련된 다양한 모델 집합의 표현을 조합할 것을 제안합니다.

CMU, Adobe와 협력: GAN 모델은 사전 훈련 시대를 열어 훈련 샘플의 1%만 필요

이 방법에는 두 가지 이점이 있습니다.

1. 사전 훈련된 기능에 대한 얕은 분류기를 훈련하는 것은 과적합을 줄이면서 심층 네트워크를 소규모 데이터 세트에 적용하는 일반적인 방법입니다.

즉, 사전 훈련된 모델의 매개변수가 고정되어 있고 최상위 계층에 경량 분류 네트워크가 추가된다면 안정적인 훈련 프로세스를 제공할 수 있습니다.

예를 들어 위 실험의 Ours 곡선을 보면 StyleGAN2-ADA에 비해 검증 세트의 정확도가 훨씬 향상되었음을 알 수 있습니다.

2. 최근 일부 연구에서는 심층 네트워크가 낮은 수준의 시각적 단서(가장자리 및 질감)부터 높은 수준의 개념(객체 및 객체 부분)까지 의미 있는 시각적 개념을 포착할 수 있음이 입증되었습니다.

이러한 기능을 기반으로 구축된 판별자는 인간의 인식과 더 일치할 수 있습니다.

그리고 사전 훈련된 여러 모델을 결합하면 생성기가 다양한 보완 기능 공간에서 실제 분포와 일치하도록 촉진할 수 있습니다.

가장 좋은 사전 훈련된 네트워크를 선택하기 위해 연구원들은 먼저 분류를 위한 VGG-16, 감지 및 분할을 위한 Swin-T 등을 포함하여 여러 sota 모델을 수집하여 "모델 뱅크"를 형성했습니다.

CMU, Adobe와 협력: GAN 모델은 사전 훈련 시대를 열어 훈련 샘플의 1%만 필요

그런 다음 특징 공간에서 실제 이미지와 가짜 이미지의 선형 분할을 기반으로 자동 모델 검색 전략을 제안하고 레이블 평활화 및 미분 가능 강화 기술을 사용하여 모델 훈련을 더욱 안정화하고 과적합을 줄입니다.

구체적으로는 실제 훈련 샘플과 생성된 이미지의 합집합이 훈련 세트와 검증 세트로 구분됩니다.

사전 훈련된 각 모델에 대해 논리 선형 판별기를 훈련시켜 샘플이 실제 샘플에서 나온 것인지 생성된 것인지 분류하고 검증 분할에서 "음의 이진 교차 엔트로피 손실"을 사용하여 분포 격차를 측정하고 가장 작은 값을 반환합니다. 오류 모델.

검증 오류가 낮을수록 선형 감지 정확도가 높아집니다. 이는 이러한 기능이 실제 샘플과 생성된 샘플을 구별하는 데 유용하며 이러한 기능을 사용하면 생성기에 더 유용한 피드백을 제공할 수 있음을 나타냅니다.

연구원 우리는 FFHQ 및 LSUN CAT 데이터 세트의 1000개 훈련 샘플을 사용하여 GAN 훈련을 경험적으로 검증했습니다.

CMU, Adobe와 협력: GAN 모델은 사전 훈련 시대를 열어 훈련 샘플의 1%만 필요

CMU, Adobe와 협력: GAN 모델은 사전 훈련 시대를 열어 훈련 샘플의 1%만 필요결과에 따르면 사전 훈련된 모델로 훈련된 GAN은 선형 탐지 정확도가 더 높고 일반적으로 더 나은 FID 지표를 달성할 수 있습니다.

여러 기성 모델의 피드백을 반영하기 위해 기사에서는 두 가지 모델 선택 및 통합 전략도 탐색합니다.

1) K-fixed 모델 선택 전략, K-fixed 모델 선택 전략 훈련 시작 및 수렴까지 훈련

2) K-진행형 모델 선택 전략은 고정된 반복 횟수 후에 가장 성능이 좋고 사용되지 않는 모델을 반복적으로 선택하고 추가합니다.

실험 결과에 따르면 K-고정 전략과 비교할 때 점진적 접근 방식은 계산 복잡성이 낮으며 데이터 분포의 차이를 포착하기 위해 사전 훈련된 모델을 선택하는 데도 도움이 됩니다. 예를 들어, 진보적 전략에 의해 선택된 처음 두 모델은 일반적으로 자기 감독 모델과 ​​감독 모델의 쌍입니다.

이 기사의 실험은 주로 진보적입니다.

최종 훈련 알고리즘은 먼저 표준 적대 손실을 사용하여 GAN을 훈련합니다.

CMU, Adobe와 협력: GAN 모델은 사전 훈련 시대를 열어 훈련 샘플의 1%만 필요

CMU, Adobe와 협력: GAN 모델은 사전 훈련 시대를 열어 훈련 샘플의 1%만 필요기본 생성기가 주어지면 선형 프로빙을 사용하고 훈련 중에 손실 목적 함수를 도입하여 사전 훈련된 최고의 모델을 검색할 수 있습니다.

K-progressive 전략에서는 사용 가능한 실제 훈련 샘플 수에 비례하여 고정된 반복 횟수 동안 훈련한 후 이전 단계에서 가장 좋은 훈련 세트 FID가 있는 스냅샷에 새로운 시각 보조 판별기가 추가됩니다.

훈련 중에는 수평 반전을 통해 데이터 증대가 수행되며, 정규화 항으로는 미분 가능 증대 기법과 단방향 라벨 스무딩이 사용됩니다.

기성 모델만 판별자로 사용하면 발산이 발생하는 반면 원래 판별자와 사전 훈련된 모델을 결합하면 이러한 상황을 개선할 수 있다는 것도 관찰할 수 있습니다.

최종 실험은 FFHQ, LSUN CAT, LSUN CHURCH 데이터 세트의 학습 샘플이 1k에서 10k까지 다양할 때의 결과를 보여줍니다.

CMU, Adobe와 협력: GAN 모델은 사전 훈련 시대를 열어 훈련 샘플의 1%만 필요

CMU, Adobe와 협력: GAN 모델은 사전 훈련 시대를 열어 훈련 샘플의 1%만 필요 모든 설정에서 FID는 상당한 개선을 달성하여 제한된 데이터 시나리오에서 이 방법의 효율성을 입증할 수 있습니다.

이 방법과 StyleGAN2-ADA의 차이점을 정성적으로 분석하기 위해 두 가지 방법으로 생성된 샘플의 품질에 따라 기사에서 제안한 새로운 방법은 특히 FFHQ 및 LSUN의 경우 최악의 샘플의 품질을 향상시킬 수 있습니다. CAT

CMU, Adobe와 협력: GAN 모델은 사전 훈련 시대를 열어 훈련 샘플의 1%만 필요

CMU, Adobe와 협력: GAN 모델은 사전 훈련 시대를 열어 훈련 샘플의 1%만 필요점차적으로 다음 판별자를 추가하면 사전 훈련된 모델의 특징에 대한 선형 검출 정확도가 점차 감소하는 것을 볼 수 있습니다. 이는 생성자가 더 강하다는 것을 의미합니다.

CMU, Adobe와 협력: GAN 모델은 사전 훈련 시대를 열어 훈련 샘플의 1%만 필요

CMU, Adobe와 협력: GAN 모델은 사전 훈련 시대를 열어 훈련 샘플의 1%만 필요 전체적으로 10,000개의 훈련 샘플만으로 LSUN CAT에서 이 방법의 FID는 160만 개의 이미지에 대해 훈련된 StyleGAN2와 거의 동일합니다.

CMU, Adobe와 협력: GAN 모델은 사전 훈련 시대를 열어 훈련 샘플의 1%만 필요

CMU, Adobe와 협력: GAN 모델은 사전 훈련 시대를 열어 훈련 샘플의 1%만 필요 전체 데이터세트에서 이 방법은 LSUN 고양이, 교회 및 말 카테고리에서 FID를 1.5~2배 향상시킵니다.

CMU, Adobe와 협력: GAN 모델은 사전 훈련 시대를 열어 훈련 샘플의 1%만 필요CMU, Adobe와 협력: GAN 모델은 사전 훈련 시대를 열어 훈련 샘플의 1%만 필요

저자 Richard Zhang은 캘리포니아 대학교 버클리에서 박사 학위를, 코넬 대학교에서 학사 및 석사 학위를 받았습니다. 주요 연구 관심 분야에는 컴퓨터 비전, 기계 학습, 딥 러닝, 그래픽 및 이미지 처리가 포함되며 종종 인턴십이나 대학을 통해 학계 연구원과 협력합니다.

CMU, Adobe와 협력: GAN 모델은 사전 훈련 시대를 열어 훈련 샘플의 1%만 필요

CMU, Adobe와 협력: GAN 모델은 사전 훈련 시대를 열어 훈련 샘플의 1%만 필요저자 Jun-Yan Zhu는 카네기 멜론 대학교 컴퓨터 과학부 로봇공학부 조교수이며, 주요 연구 분야도 맡고 있습니다. 분야에는 컴퓨터 비전, 컴퓨터 그래픽, 기계 학습 및 컴퓨터 사진이 포함됩니다.

CMU에 합류하기 전에는 Adobe Research에서 연구원으로 근무했습니다. 그는 칭화대학교 버클리캠퍼스에서 학사 및 박사학위를 취득한 후 MIT CSAIL에서 박사후 연구원으로 근무했습니다.

CMU, Adobe와 협력: GAN 모델은 사전 훈련 시대를 열어 훈련 샘플의 1%만 필요

CMU, Adobe와 협력: GAN 모델은 사전 훈련 시대를 열어 훈련 샘플의 1%만 필요

위 내용은 CMU, Adobe와 협력: GAN 모델은 사전 훈련 시대를 열어 훈련 샘플의 1%만 필요의 상세 내용입니다. 자세한 내용은 PHP 중국어 웹사이트의 기타 관련 기사를 참조하세요!

성명
이 기사는 51CTO.COM에서 복제됩니다. 침해가 있는 경우 admin@php.cn으로 문의하시기 바랍니다. 삭제
Let 's Dance : 인간 신경 그물을 미세 조정하기위한 구조화 된 움직임Let 's Dance : 인간 신경 그물을 미세 조정하기위한 구조화 된 움직임Apr 27, 2025 am 11:09 AM

과학자들은 C. el 그러나 중요한 질문이 발생합니다. 새로운 AI S와 함께 효과적으로 작동하도록 우리 자신의 신경망을 어떻게 조정합니까?

새로운 Google 유출은 Gemini AI의 구독 변경을 보여줍니다새로운 Google 유출은 Gemini AI의 구독 변경을 보여줍니다Apr 27, 2025 am 11:08 AM

Google의 Gemini Advanced : 수평선의 새로운 가입 계층 현재 Gemini Advanced에 액세스하려면 $ 19.99/월 Google One AI Premium Plan이 필요합니다. 그러나 Android Authority 보고서는 다가오는 변경 사항을 암시합니다. 최신 Google p. 내 코드

데이터 분석 가속이 AI의 숨겨진 병목 현상을 해결하는 방법데이터 분석 가속이 AI의 숨겨진 병목 현상을 해결하는 방법Apr 27, 2025 am 11:07 AM

고급 AI 기능을 둘러싼 과대 광고에도 불구하고 Enterprise AI 배포 내에서 상당한 도전 과제 : 데이터 처리 병목 현상. CEO는 AI 발전을 축하하는 동안 엔지니어는 느린 쿼리 시간, 과부하 파이프 라인,

Markitdown MCP는 모든 문서를 Markdowns로 변환 할 수 있습니다!Markitdown MCP는 모든 문서를 Markdowns로 변환 할 수 있습니다!Apr 27, 2025 am 09:47 AM

문서 처리는 더 이상 AI 프로젝트에서 파일을 여는 것이 아니라 혼돈을 명확하게 전환하는 것입니다. PDF, PowerPoint 및 Word와 같은 문서는 모든 모양과 크기로 워크 플로우를 범람합니다. 구조화 된 검색

빌딩 에이전트에 Google ADK를 사용하는 방법은 무엇입니까? - 분석 Vidhya빌딩 에이전트에 Google ADK를 사용하는 방법은 무엇입니까? - 분석 VidhyaApr 27, 2025 am 09:42 AM

Google의 에이전트 개발 키트 (ADK)의 전력을 활용하여 실제 기능을 갖춘 지능형 에이전트를 만듭니다! 이 튜토리얼은 Gemini 및 GPT와 같은 다양한 언어 모델을 지원하는 ADK를 사용하여 대화 에이전트를 구축하는 것을 안내합니다. w

효과적인 문제 해결을 위해 LLM을 통해 SLM 사용 - 분석 Vidhya효과적인 문제 해결을 위해 LLM을 통해 SLM 사용 - 분석 VidhyaApr 27, 2025 am 09:27 AM

요약: SLM (Small Language Model)은 효율성을 위해 설계되었습니다. 자원 결핍, 실시간 및 개인 정보 보호 환경에서 LLM (Large Language Model)보다 낫습니다. 초점 기반 작업, 특히 도메인 특이성, 제어 성 및 해석 성이 일반적인 지식이나 창의성보다 더 중요합니다. SLM은 LLM을 대체하지는 않지만 정밀, 속도 및 비용 효율성이 중요 할 때 이상적입니다. 기술은 더 적은 자원으로 더 많은 것을 달성하는 데 도움이됩니다. 그것은 항상 운전자가 아니라 프로모터였습니다. 증기 엔진 시대부터 인터넷 버블 시대에 이르기까지 기술의 힘은 문제를 해결하는 데 도움이되는 정도입니다. 인공 지능 (AI) 및보다 최근에 생성 AI가 예외는 아닙니다.

컴퓨터 비전 작업에 Google Gemini 모델을 사용하는 방법은 무엇입니까? - 분석 Vidhya컴퓨터 비전 작업에 Google Gemini 모델을 사용하는 방법은 무엇입니까? - 분석 VidhyaApr 27, 2025 am 09:26 AM

컴퓨터 비전을위한 Google Gemini의 힘을 활용 : 포괄적 인 가이드 주요 AI 챗봇 인 Google Gemini는 강력한 컴퓨터 비전 기능을 포괄하기 위해 대화를 넘어서 기능을 확장합니다. 이 안내서는 사용 방법에 대해 자세히 설명합니다

Gemini 2.0 Flash vs O4-Mini : Google은 OpenAi보다 더 잘할 수 있습니까?Gemini 2.0 Flash vs O4-Mini : Google은 OpenAi보다 더 잘할 수 있습니까?Apr 27, 2025 am 09:20 AM

2025 년의 AI 환경은 Google의 Gemini 2.0 Flash와 Openai의 O4-Mini가 도착하면서 전기가 전환됩니다. 이 최첨단 모델은 몇 주 간격으로 발사되어 비슷한 고급 기능과 인상적인 벤치 마크 점수를 자랑합니다. 이 심층적 인 비교

See all articles

핫 AI 도구

Undresser.AI Undress

Undresser.AI Undress

사실적인 누드 사진을 만들기 위한 AI 기반 앱

AI Clothes Remover

AI Clothes Remover

사진에서 옷을 제거하는 온라인 AI 도구입니다.

Undress AI Tool

Undress AI Tool

무료로 이미지를 벗다

Clothoff.io

Clothoff.io

AI 옷 제거제

Video Face Swap

Video Face Swap

완전히 무료인 AI 얼굴 교환 도구를 사용하여 모든 비디오의 얼굴을 쉽게 바꾸세요!

뜨거운 도구

스튜디오 13.0.1 보내기

스튜디오 13.0.1 보내기

강력한 PHP 통합 개발 환경

Atom Editor Mac 버전 다운로드

Atom Editor Mac 버전 다운로드

가장 인기 있는 오픈 소스 편집기

드림위버 CS6

드림위버 CS6

시각적 웹 개발 도구

WebStorm Mac 버전

WebStorm Mac 버전

유용한 JavaScript 개발 도구

DVWA

DVWA

DVWA(Damn Vulnerable Web App)는 매우 취약한 PHP/MySQL 웹 애플리케이션입니다. 주요 목표는 보안 전문가가 법적 환경에서 자신의 기술과 도구를 테스트하고, 웹 개발자가 웹 응용 프로그램 보안 프로세스를 더 잘 이해할 수 있도록 돕고, 교사/학생이 교실 환경 웹 응용 프로그램에서 가르치고 배울 수 있도록 돕는 것입니다. 보안. DVWA의 목표는 다양한 난이도의 간단하고 간단한 인터페이스를 통해 가장 일반적인 웹 취약점 중 일부를 연습하는 것입니다. 이 소프트웨어는