>  기사  >  기술 주변기기  >  확산 모델 기반 이미지 생성

확산 모델 기반 이미지 생성

王林
王林앞으로
2023-04-14 14:58:202093검색

Part 01 이 기사에서는 VAE와 같은 당시 생성 모델에는 큰 어려움이 있음을 제안했습니다. 즉, 이러한 유형의 모델은 먼저 조건부 분포를 정의한 다음 변형 사후를 정의하여 적응하게 됩니다. 조건부 분포와 사후 변이를 동시에 최적화해야 하는 경우가 있습니다. 데이터 분포를 표준 가우스에 매핑하는 간단한 프로세스를 정의할 수 있다면 "생성기"의 작업은 이 프로세스의 역 프로세스의 각 작은 단계를 간단히 맞추는 것이 됩니다. 이것이 확산 모델의 핵심 아이디어입니다. . 하지만 이 글은 당시 별다른 파장을 일으키지 않았다.

1.2 개발2020년에는 기존 아이디어를 바탕으로 DDPM 모델(Denoising Diffusion Probabilistic Models)을 제안했으며, 저자는 기본 확산 모델과 비교하여 확산 모델과 Denoising 점수 가이드를 제안했습니다. 생성된 이미지 샘플을 적절하게 개선하는 훈련 및 샘플링 프로세스를 통해 더 간단하고 안정적인 훈련 조건에서 최종 결과를 GAN 모델과 비교할 수 있습니다.

그림 2세대 DDPM 결과

그러나 DDPM 모델은 확산 과정이 마르코프 체인이기 때문에 상대적으로 많은 수를 필요로 한다는 단점이 있습니다. 이 방법을 통해서만 상대적으로 좋은 결과를 얻을 수 있으며 이로 인해 샘플 생성이 매우 느려집니다.

그래서 2021년 Song et al.은 DDPM 확산 과정의 샘플링 방법을 변형하고 비마코프 과정에 대한 전통적인 마르코프 확산 과정을 촉진하는 DDIM(Denoising Diffusioin Implicit Model)을 제안했습니다. , 더 작은 샘플링 단계를 사용하여 샘플 생성을 가속화하여 효율성을 크게 향상시킬 수 있습니다.

확산 모델 기반 이미지 생성

VAE와 DM 모델의 결합, GAN+DM의 결합 등과 같이 확산 모델을 기존 세대 네트워크와 통합하기 위한 후속 작업에도 몇 가지 개선 사항이 있습니다. 여기서 자세히 설명하지 마세요.

1.3 Outbreak

2022년 Google은 확산 모델을 기반으로 텍스트 설명을 사실적인 이미지로 변환할 수 있는 새로운 AI 시스템을 출시했습니다.

사진 3

사진 4확산 모델 기반 이미지 생성

Google에서 제공한 회로도에서 볼 수 있듯이 입력된 text 먼저 인코딩한 후 text-to-image 확산 모델을 통해 64*64 작은 이미지로 변환합니다. 또한, 작은 이미지를 처리하기 위해 초해상도 확산 모델을 사용하며 이미지의 해상도는 다음과 같습니다. 추가적인 반복 과정을 거쳐 개선되어 최종 생성된 결과는 1024*1024 크기의 최종 이미지입니다. 이 마법의 과정은 모든 사람이 그것을 사용할 때 느끼는 것과 같습니다. 빨간색 점선 터틀넥과 파란색 체크무늬 모자를 쓴 골든 리트리버 강아지라는 텍스트를 입력하면 프로그램이 자동으로 위의 개 사진을 생성합니다. 본.

또 다른 인기 있는 현상 수준 애플리케이션인 novalAI는 원래 AI 글쓰기 전용 웹사이트였습니다. 현재 핫한 이미지 생성을 기반으로 인터넷의 사진 리소스와 결합하여 2차원 이미지 생성에 중점을 둔 웹사이트를 훈련했습니다. 모델은 효과면에서 인간 화가의 수준에 도달하기 시작했습니다.

확산 모델 기반 이미지 생성

그림 5


그림을 제작하기 위한 전통적인 텍스트 입력 외에도 AI가 참조할 수 있는 그림 입력도 지원합니다. 기존 사진을 기반으로 새로운 사진을 생성하면 AI가 생성한 결과를 통제할 수 없는 문제가 어느 정도 해결됩니다.

Part 02

원리 설명

그렇다면, 이렇게 강력한 AI 기술의 작동 과정은 어떻게 될까요? 여기서는 간단한 프로세스를 제공하기 위해 보다 고전적인 DDPM 모델을 예로 들어 보겠습니다.

2.1 순방향 프로세스

순방향 프로세스는 훈련 샘플을 구성할 목적으로 이미지에 노이즈를 추가하는 프로세스입니다. GT .

주어진 초기 데이터 분포 x0~q(x)에 대해 점차적으로 데이터 분포에 가우스 노이즈를 추가합니다. 이 프로세스는 T번이고 각 단계의 결과는 x1, x2,...입니다. xt 에서 노이즈의 표준편차는 으로 표현되며, 노이즈 추가 과정은 다음과 같이 표현될 수 있습니다. 체인 프로세스. 결국 데이터는 등방성 가우스 분포가 되는 경향이 있습니다.

2.2 역확산 과정 확산 모델 기반 이미지 생성

역 과정은 잡음 제거 과정입니다.

이면 완전한 표준 가우스 분포에서 x0을 복원할 수 있습니다.

는 가우스 분포를 만족하고

은 충분히 작습니다. 그러면 는 여전히 가우스 분포이고 확산 모델 기반 이미지 생성은 단순히 추론할 수 없으므로 매개변수가 있는 딥 러닝 모델을 사용합니다 확산 모델 기반 이미지 생성 예측해 보세요: 확산 모델 기반 이미지 생성

확산 모델 기반 이미지 생성

x0을 알고 있으면 베이지안 공식을 사용합니다.

확산 모델 기반 이미지 생성


2.3 훈련 과정

머신러닝을 위한 경우 모든 모델 훈련은 모델의 매개변수를 최적화하여 신뢰할 수 있는 평균과 분산을 얻는 것임을 알아야 합니다. 즉,

확산 모델 기반 이미지 생성

후 일련의 파생을 통해 DDPM 모델은 최종 손실 함수 표현식을 얻었습니다.

받기 입력 x0, 1...T확산 모델 기반 이미지 생성

2. 표준 가우스 분포에서 노이즈를 샘플링합니다


3.

  • 손실을 계산하고 반복적으로 최소화합니다. 기능
  • 그림 6확산 모델 기반 이미지 생성
  • 파트 03

요약 확산 모델 기반 이미지 생성

확산모델이 좋은 모습을 보여줬네요 VAE 모델과 비교하여 사후 분포를 정렬할 필요가 없으며 GAN과 같은 추가 판별자를 훈련할 필요도 없습니다. 음성 처리 및 기타 측면에 적용할 수 있습니다. 이는 AI가 조건에 따라 여러 그림을 생성할 수 있게 하고, 인간이 결과를 필터링하고 수정할 수 있도록 하여 생산 효율성을 크게 향상시킬 수 있는 2D 페인팅의 미래가 될 것입니다. 2D 디지털 자산.

그러나 AI 기술이 발전함에 따라 항상 논란은 존재하게 되는데, 이미지 생성 분야도 예외는 아니며, 생성된 이미지 구조가 잘못되거나 불합리한 등 AI 기술 자체의 문제도 예외는 아닙니다. AI 저작물 자체의 저작권 문제 등 법적 분쟁도 일부 존재한다. 기술적인 문제는 기술 자체의 발전을 통해 해결할 수 있습니다. AI 기술의 발전으로 이미지 생성이 결국 매우 높은 수준에 도달하여 대부분의 저가형 페인팅 관련 직업이 사라질 것이라고 믿을 만한 이유가 있습니다. 인간의 생산성을 크게 해방시킵니다. 저작권 문제로 인해 정부 부처는 관련 산업의 발전에 충분한 관심을 기울이고 관련 정책과 시스템을 개선해야 합니다. 이를 위해서는 AI 기술이 우리에게 더 나은 서비스를 제공할 수 있도록 신흥 분야에 대해 더 많이 생각해야 합니다.

참고자료

https://www.php.cn/link/3799b2e805a7fa8b076fc020574a73b2

https://www.php.cn/링크 /6872937617af85db5a39a5243e858d1f

https://www.php.cn/link/831da40e5907987235ebe5616446e083

위 내용은 확산 모델 기반 이미지 생성의 상세 내용입니다. 자세한 내용은 PHP 중국어 웹사이트의 기타 관련 기사를 참조하세요!

성명:
이 기사는 51cto.com에서 복제됩니다. 침해가 있는 경우 admin@php.cn으로 문의하시기 바랍니다. 삭제