>  기사  >  기술 주변기기  >  Soft Diffusion: Google의 새로운 프레임워크는 범용 확산 프로세스에서 올바르게 예약, 학습 및 샘플링합니다.

Soft Diffusion: Google의 새로운 프레임워크는 범용 확산 프로세스에서 올바르게 예약, 학습 및 샘플링합니다.

王林
王林앞으로
2023-04-30 13:22:061337검색

우리는 점수 기반 모델과 DDPM(노이즈 제거 확산 확률 모델)이 확산 과정을 반전시켜 샘플을 생성하는 두 가지 강력한 유형의 생성 모델이라는 것을 알고 있습니다. 이 두 가지 유형의 모델은 Yang Song 등의 논문 "Score-based Generative Modeling through Stochastic Differential Equations" 논문에서 하나의 프레임워크로 통합되었으며, 확산 모델(Diffusion Model)로 널리 알려져 있습니다.

현재 확산 모델은 이미지, 오디오, 비디오 생성 및 역 문제 해결을 포함한 일련의 응용 분야에서 큰 성공을 거두었습니다. "확산 기반 생성 모델의 설계 공간 설명"이라는 논문에서 Tero Karras와 같은 연구자들은 확산 모델의 설계 공간을 분석하고 i) 잡음 수준의 스케줄링 선택, ii) 네트워크 매개변수 선택의 세 단계를 식별했습니다. 화(각 매개변수화는 서로 다른 손실 함수를 생성함), iii) 샘플링 알고리즘을 설계합니다.

최근 Google Research와 UT-Austin이 공동으로 실시한 arXiv 논문 "Soft Diffusion: Score Matching for General Corruptions"에서 몇몇 연구자들은 확산 모델에 여전히 부패라는 중요한 단계가 있다고 믿고 있습니다. 일반적으로 손상은 다양한 진폭의 노이즈를 추가하는 프로세스이며 DDMP의 경우 크기 조정도 필요합니다. 확산을 위해 다양한 분포를 사용하려는 시도가 있었지만 일반적인 프레임워크는 여전히 부족합니다. 따라서 연구진은 보다 일반적인 손상 과정을 위한 확산 모델 설계 프레임워크를 제안했습니다.

구체적으로는 Soft Score Matching이라는 새로운 훈련 목표와 새로운 샘플링 방식인 Momentum Sampler를 제안했습니다. 이론적 결과에 따르면 규칙성 조건을 충족하는 손상 프로세스의 경우 Soft Score MatchIng는 확산이 모든 이미지를 가능성이 0이 아닌 이미지로 변환해야 한다는 점수(즉, 우도 기울기)를 학습할 수 있습니다.

실험 부분에서 연구원들은 CelebA와 CIFAR-10에 대해 모델을 훈련시켰습니다. CelebA에 대해 훈련된 모델은 선형 확산 모델의 SOTA FID 점수인 1.85를 달성했습니다. 동시에 연구원들이 훈련한 모델은 원래의 가우스 잡음 제거 확산을 사용하여 훈련한 모델보다 훨씬 빠릅니다.

Soft Diffusion:谷歌新框架从通用扩散过程中正确调度、学习和采样

논문 주소: https://arxiv.org/pdf/2209.05442.pdf

방법 개요

일반적으로 확산 모델은 점차 증가하는 손상 과정을 역전시켜 생성됩니다. 노이즈 이미지. 연구원들은 선형 결정론적 저하 및 확률론적 추가 노이즈와 관련된 확산을 역전시키는 방법을 학습하는 방법을 보여줍니다.

Soft Diffusion:谷歌新框架从通用扩散过程中正确调度、学习和采样

구체적으로 연구원들은 세 부분, 즉 새로운 훈련 대상 소프트 스코어 매칭, 새로운 샘플링 방법인 모멘텀 샘플러 및 스케줄링으로 구성된 보다 일반적인 손상 모델을 사용하여 확산 모델을 훈련하기 위한 프레임워크를 시연했습니다. 손상 메커니즘의 .

먼저 훈련 대상인 소프트 스코어 매칭(Soft Score Matching)을 살펴보겠습니다. 소프트 필터링(Soft Filtering)이라는 이름은 사진 용어로 미세한 부분을 제거하는 필터를 의미합니다. 이는 입증 가능한 방식으로 기존 선형 손상 프로세스의 일부를 학습하고 필터링 프로세스를 네트워크에 통합하며 확산 관찰과 일치하는 손상 후 이미지를 예측하도록 모델을 교육합니다.

이 교육 목표는 확산이 깨끗하고 손상된 이미지 쌍에 0이 아닌 확률을 할당하는 한 점수가 학습되었음을 증명할 수 있습니다. 또한, 이 조건은 손상에 부가적인 소음이 존재할 때 항상 만족됩니다.

구체적으로 연구진은 피해 과정을 다음과 같은 형태로 탐구했습니다.

Soft Diffusion:谷歌新框架从通用扩散过程中正确调度、学习和采样

이 과정에서 연구자들은 노이즈가 경험적으로(즉, 더 나은 결과를 위해) 그리고 이론적으로(즉, 분수를 학습하는 데) 중요하다는 사실을 발견했습니다. 이는 또한 결정론적 손상을 역전시키는 동시 작업인 Cold Diffusion과의 주요 차이점이 됩니다.

두 번째는 샘플링 방식인 Momentum Sampling입니다. 연구원들은 샘플러의 선택이 생성된 샘플의 품질에 중요한 영향을 미친다는 것을 입증했습니다. 그들은 보편적인 선형 손상 프로세스를 반전시키기 위해 Momentum Sampler를 제안했습니다. 샘플러는 다양한 확산 수준을 갖는 볼록한 손상 조합을 사용하며 최적화의 모멘텀 방법에서 영감을 받았습니다.

이 샘플링 방법은 위의 논문에서 제안된 확산 모델의 연속 공식에서 영감을 받았습니다. Momentum Sampler의 알고리즘은 다음과 같습니다.

Soft Diffusion:谷歌新框架从通用扩散过程中正确调度、学习和采样

아래 그림은 다양한 샘플링 방법이 생성된 샘플의 품질에 미치는 영향을 시각적으로 보여줍니다. 왼쪽의 Naive Sampler로 샘플링한 이미지는 반복적이고 세부 묘사가 부족한 것처럼 보이는 반면, 오른쪽의 Momentum Sampler는 샘플링 품질과 FID 점수를 크게 향상시킵니다.

Soft Diffusion:谷歌新框架从通用扩散过程中正确调度、学习和采样

마지막으로 일정 조정입니다. 저하 유형이 미리 정의되어 있더라도(예: 흐림) 각 확산 단계에서 손상 정도를 결정하는 것은 쉽지 않습니다. 연구원들은 손상 프로세스 설계를 안내하는 원칙적인 도구를 제안합니다. 일정을 찾기 위해 경로를 따라 분포 간의 Wasserstein 거리를 최소화합니다. 직관적으로 연구자들은 완전히 손상된 배포판에서 깨끗한 배포판으로 원활하게 전환되기를 원합니다.

실험 결과

연구원들은 이미지 생성을 위한 표준 기준선인 CelebA-64와 CIFAR-10에서 제안된 방법을 평가했습니다. 실험의 주요 목적은 손상 유형의 역할을 이해하는 것입니다.

연구원들은 먼저 블러와 낮은 진폭 노이즈를 사용하여 손상을 시도했습니다. 결과는 그들이 제안한 모델이 CelebA에서 SOTA 결과, 즉 FID 점수 1.85를 달성하여 노이즈만 추가하고 이미지 크기를 조정하는 다른 모든 방법보다 성능이 우수하다는 것을 보여줍니다. 또한 CIFAR-10에서 얻은 FID 점수는 4.64로 SOTA에는 미치지 못하더라도 경쟁력이 있는 수준이다.

Soft Diffusion:谷歌新框架从通用扩散过程中正确调度、学习和采样

또한 CIFAR-10 및 CelebA 데이터세트에서 연구원의 방법은 다른 측정항목인 샘플링 시간에서도 더 나은 성능을 보였습니다. 또 다른 추가 이점은 상당한 계산상의 이점입니다. 디블러링(노이즈가 거의 없음)은 이미지 생성 노이즈 제거 방법에 비해 더 효율적인 조작으로 보입니다.

아래 차트는 NFE(기능 평가 횟수)에 따라 FID 점수가 어떻게 변하는지 보여줍니다. 결과에서 볼 수 있듯이 우리 모델은 CIFAR-10 및 CelebA 데이터 세트에서 훨씬 적은 단계를 사용하여 표준 Gaussian 노이즈 제거 확산 모델과 동일하거나 더 나은 품질을 달성할 수 있습니다.

Soft Diffusion:谷歌新框架从通用扩散过程中正确调度、学习和采样

위 내용은 Soft Diffusion: Google의 새로운 프레임워크는 범용 확산 프로세스에서 올바르게 예약, 학습 및 샘플링합니다.의 상세 내용입니다. 자세한 내용은 PHP 중국어 웹사이트의 기타 관련 기사를 참조하세요!

성명:
이 기사는 51cto.com에서 복제됩니다. 침해가 있는 경우 admin@php.cn으로 문의하시기 바랍니다. 삭제