>  기사  >  기술 주변기기  >  CVPR 2024|매우 강한 빛에서는 이미지를 생성할 수 없나요? WeChat 비전팀은 확산 모델의 특이성 문제를 효과적으로 해결합니다.

CVPR 2024|매우 강한 빛에서는 이미지를 생성할 수 없나요? WeChat 비전팀은 확산 모델의 특이성 문제를 효과적으로 해결합니다.

WBOY
WBOY앞으로
2024-03-28 15:47:121014검색
확산 모델은 뛰어난 이미지 생성 성능으로 생성 모델의 새로운 시대를 엽니다. Stable Diffusion, DALLE, Imagen, SORA 등과 같은 대형 모델이 등장하여 생성 AI의 응용 가능성이 더욱 풍부해졌습니다. 그러나 현재의 확산 모델은 이론적으로 완벽하지 않으며 샘플링 시간의 끝점에서 정의되지 않은 특이점 문제에 주목한 연구는 거의 없습니다. 또한, 애플리케이션의 특이성 문제로 인해 발생하는 평균 계조 문제와 생성된 이미지의 품질에 영향을 미치는 기타 문제는 해결되지 않았습니다.

이 문제를 해결하기 위해 WeChat Vision 팀은 Sun Yat-sen University와 협력하여 확산 모델의 특이성 문제를 공동으로 탐색하고 샘플링 문제를 효과적으로 해결하는 플러그 앤 플레이 방식을 제안했습니다. 초기 순간. 이 방법은 평균 계조 문제를 성공적으로 해결하고 기존 확산 모델의 생성 능력을 크게 향상시킵니다. 이번 연구 결과는 CVPR 2024 컨퍼런스에서 발표됐다.

확산 모델은 이미지, 오디오, 텍스트 및 비디오 생성을 포함한 다중 모드 콘텐츠 생성 작업에서 놀라운 성공을 거두었습니다. 이러한 모델의 성공적인 모델링은 대부분 확산 과정의 역 과정도 가우스 속성을 따른다는 가정에 의존합니다. 그러나 이 가설은 완전히 입증되지 않았습니다. 특히 끝점, 즉 t=0 또는 t=1에서는 특이점 문제가 발생하게 되며, 이는 특이점에서의 샘플링을 연구하는 기존 방법을 제한합니다.

또한 특이점 문제는 확산 모델의 생성 능력에도 영향을 미쳐 모델이 평균 회색조 문제를 갖게 됩니다. 즉, 밝기가 강하거나 약한 이미지를 생성하기 어렵습니다. 아래 그림에 나와 있습니다. 이는 또한 현재 확산 모델의 적용 범위를 어느 정도 제한합니다.

시간 끝점에서 확산 모델의 특이성 문제를 해결하기 위해 WeChat 비전 팀은 쑨원대학교와 협력하여 이론 및 실무 측면 모두에서 심층적인 연구를 수행했습니다. 먼저, 연구팀은 특이점 순간의 역과정의 대략적인 가우스 분포를 포함하는 오차 상한을 제안했으며, 이는 후속 연구의 이론적 기반을 제공합니다. 이러한 이론적 보장을 바탕으로 팀은 특이점에서의 샘플링을 연구하여 두 가지 중요한 결론에 도달했습니다. 1) t=1의 특이점은 극한을 찾아 분리 가능한 특이점으로 변환할 수 있습니다. 2) t=0의 특이점 확산 모델의 고유한 속성이므로 피할 필요가 없습니다. 이러한 결론을 바탕으로 팀은 초기 순간에 확산 모델을 샘플링하는 문제를 해결하기 위해 플러그 앤 플레이 방법인 SingDiffusion을 제안했습니다.

SingDiffusion 모듈은 단 한 번의 훈련으로 기존 확산 모델에 원활하게 적용되어 평균 회색 값 문제를 크게 해결할 수 있다는 것이 다수의 실험적 검증을 통해 나타났습니다. 분류기가 없는 유도 기술을 사용하지 않고도 SingDiffusion은 현재 방법의 생성 품질을 크게 향상시킬 수 있습니다. 특히 Stable Diffusion1.5(SD-1.5)에 적용하면 생성된 이미지의 품질이 33% 향상됩니다.
논문 주소: https://arxiv.org/pdf/2403.08381.pdf
CVPR 2024|生成不了光线极强的CVPR 2024|매우 강한 빛에서는 이미지를 생성할 수 없나요? WeChat 비전팀은 확산 모델의 특이성 문제를 효과적으로 해결합니다.?微信视觉团队有效解决扩散模型奇点问题프로젝트 주소: https://pangzecheung.github.io/SingDiffusion/
논문 제목: Tackling the Singularities at the Endpoints of Time Intervals in Diffusion 모델
역과정의 가우스 특성
확산모델의 특이점 문제를 연구하기 위해서는 특이점을 포함한 전과정의 역과정이 가우스를 만족하는지 검증하는 것이 필요하다 속성. 먼저
를 확산 모델의 훈련 표본으로 정의합니다. 훈련 표본의 분포는 다음과 같이 표현될 수 있습니다.
CVPR 2024|生成不了光线极强的CVPR 2024|매우 강한 빛에서는 이미지를 생성할 수 없나요? WeChat 비전팀은 확산 모델의 특이성 문제를 효과적으로 해결합니다.?微信视觉团队有效解决扩散模型奇点问题
여기서 δ는 Dirac 함수를 나타냅니다. [1]의 연속 시간 확산 모델의 정의에 따르면 임의의 두 순간 0≤s,t≤1에 대해 순방향 프로세스는 다음과 같이 표현될 수 있습니다. 시간을 1에서 0으로 변경합니다. 방금 정의한 학습 표본 분포를 고려하면
의 단일 순간 한계 확률 밀도는 다음과 같이 표현될 수 있습니다.
CVPR 2024|生成不了光线极强的CVPR 2024|매우 강한 빛에서는 이미지를 생성할 수 없나요? WeChat 비전팀은 확산 모델의 특이성 문제를 효과적으로 해결합니다.?微信视觉团队有效解决扩散模型奇点问题
CVPR 2024|生成不了光线极强的CVPR 2024|매우 강한 빛에서는 이미지를 생성할 수 없나요? WeChat 비전팀은 확산 모델의 특이성 문제를 효과적으로 해결합니다.?微信视觉团队有效解决扩散模型奇点问题 이로부터 역과정의 조건부 분포는 Bayes 공식을 통해 계산할 수 있습니다. CVPR 2024|生成不了光线极强的CVPR 2024|매우 강한 빛에서는 이미지를 생성할 수 없나요? WeChat 비전팀은 확산 모델의 특이성 문제를 효과적으로 해결합니다.?微信视觉团队有效解决扩散模型奇点问题CVPR 2024|生成不了光线极强的CVPR 2024|매우 강한 빛에서는 이미지를 생성할 수 없나요? WeChat 비전팀은 확산 모델의 특이성 문제를 효과적으로 해결합니다.?微信视觉团队有效解决扩散模型奇点问题CVPR 2024|生成不了光线极强的CVPR 2024|매우 강한 빛에서는 이미지를 생성할 수 없나요? WeChat 비전팀은 확산 모델의 특이성 문제를 효과적으로 해결합니다.?微信视觉团队有效解决扩散模型奇点问题CVPR 2024|生成不了光线极强的CVPR 2024|매우 강한 빛에서는 이미지를 생성할 수 없나요? WeChat 비전팀은 확산 모델의 특이성 문제를 효과적으로 해결합니다.?微信视觉团队有效解决扩散模型奇点问题
그러나 이후 분포는 가우스 분포가 혼합되어 있어 네트워크에 적합하기 어렵습니다. 따라서 주류 확산 모델은 일반적으로 이 분포가 단일 가우스 분포로 적합할 수 있다고 가정합니다.

CVPR 2024|生成不了光线极强的CVPR 2024|매우 강한 빛에서는 이미지를 생성할 수 없나요? WeChat 비전팀은 확산 모델의 특이성 문제를 효과적으로 해결합니다.?微信视觉团队有效解决扩散模型奇点问题

CVPR 2024|生成不了光线极强的CVPR 2024|매우 강한 빛에서는 이미지를 생성할 수 없나요? WeChat 비전팀은 확산 모델의 특이성 문제를 효과적으로 해결합니다.?微信视觉团队有效解决扩散模型奇点问题

where,

이 가설을 테스트하기 위해 연구에서는 명제 1에서 이 적합도의 오류를 추정합니다.

CVPR 2024|生成不了光线极强的CVPR 2024|매우 강한 빛에서는 이미지를 생성할 수 없나요? WeChat 비전팀은 확산 모델의 특이성 문제를 효과적으로 해결합니다.?微信视觉团队有效解决扩散模型奇点问题

그러나 연구에 따르면 t=1일 때 s가 1에 가까워질수록
도 1에 가까워지며 오류를 무시할 수 없습니다. 따라서 명제 1은 t=1에서 역 가우스 속성을 증명하지 않습니다. 이 문제를 해결하기 위해 본 연구에서는 새로운 제안을 제시합니다.
CVPR 2024|生成不了光线极强的CVPR 2024|매우 강한 빛에서는 이미지를 생성할 수 없나요? WeChat 비전팀은 확산 모델의 특이성 문제를 효과적으로 해결합니다.?微信视觉团队有效解决扩散模型奇点问题
명제 2에 따르면, t=1일 때 s가 1에 가까워질수록 CVPR 2024|生成不了光线极强的CVPR 2024|매우 강한 빛에서는 이미지를 생성할 수 없나요? WeChat 비전팀은 확산 모델의 특이성 문제를 효과적으로 해결합니다.?微信视觉团队有效解决扩散模型奇点问题는 0에 가까워집니다. 따라서 본 연구에서는 특이점 모멘트를 포함한 전체 역과정이 가우스 특성을 따른다는 것을 증명하였다.

특이점 순간 샘플링

본 연구에서는 역추출 과정의 가우스 특성을 보장하면서 역표본식을 기반으로 특이점 순간 샘플링에 대한 연구를 진행하였다.

먼저 시간 t=1에서의 특이점 문제를 고려해보세요. t=1, CVPR 2024|매우 강한 빛에서는 이미지를 생성할 수 없나요? WeChat 비전팀은 확산 모델의 특이성 문제를 효과적으로 해결합니다.=0일 때 다음 샘플링 공식은 분모를 0으로 나눈 값이 됩니다.

CVPR 2024|生成不了光线极强的CVPR 2024|매우 강한 빛에서는 이미지를 생성할 수 없나요? WeChat 비전팀은 확산 모델의 특이성 문제를 효과적으로 해결합니다.?微信视觉团队有效解决扩散模型奇点问题

연구팀은 극한을 계산하면 특이점이 분리 가능한 특이점으로 변환될 수 있음을 발견했습니다.

CVPR 2024|生成不了光线极强的CVPR 2024|매우 강한 빛에서는 이미지를 생성할 수 없나요? WeChat 비전팀은 확산 모델의 특이성 문제를 효과적으로 해결합니다.?微信视觉团队有效解决扩散模型奇点问题

단, 테스트 중에는 이 한도를 계산할 수 없습니다. 이를 위해 본 연구에서는 CVPR 2024|生成不了光线极强的CVPR 2024|매우 강한 빛에서는 이미지를 생성할 수 없나요? WeChat 비전팀은 확산 모델의 특이성 문제를 효과적으로 해결합니다.?微信视觉团队有效解决扩散模型奇点问题를 시간 t=1에 맞추고 "x-예측"을 사용하여 초기 특이점에서 샘플링 문제를 해결할 수 있다고 제안합니다.

그런 다음 시간 t=0을 고려하면 가우스 분포 피팅의 역과정은 분산이 0인 가우스 분포, 즉 Dirac 함수가 됩니다:

CVPR 2024|生成不了光线极强的CVPR 2024|매우 강한 빛에서는 이미지를 생성할 수 없나요? WeChat 비전팀은 확산 모델의 특이성 문제를 효과적으로 해결합니다.?微信视觉团队有效解决扩散模型奇点问题

where CVPR 2024|生成不了光线极强的CVPR 2024|매우 강한 빛에서는 이미지를 생성할 수 없나요? WeChat 비전팀은 확산 모델의 특이성 문제를 효과적으로 해결합니다.?微信视觉团队有效解决扩散模型奇点问题. 이러한 특이점으로 인해 샘플링 프로세스가 올바른 데이터 CVPR 2024|生成不了光线极强的CVPR 2024|매우 강한 빛에서는 이미지를 생성할 수 없나요? WeChat 비전팀은 확산 모델의 특이성 문제를 효과적으로 해결합니다.?微信视觉团队有效解决扩散模型奇点问题로 수렴됩니다. 따라서 t=0에서의 특이점은 확산 모델의 좋은 특성이므로 피할 필요가 없습니다.

또한, 이 연구는 부록에서 DDIM, SDE, ODE의 특이점 문제도 탐구합니다.

플러그 앤 플레이 SingDiffusion 모듈
CVPR 2024|生成不了光线极强的CVPR 2024|매우 강한 빛에서는 이미지를 생성할 수 없나요? WeChat 비전팀은 확산 모델의 특이성 문제를 효과적으로 해결합니다.?微信视觉团队有效解决扩散模型奇点问题
특이점 샘플링은 확산 모델에서 생성된 이미지 품질에 영향을 미칩니다. 예를 들어 밝기가 높거나 낮은 단서를 입력할 때 기존 방법으로는 평균 계조의 이미지만 생성할 수 있는 경우가 많으며 이를 평균 계조 문제라고 합니다. 이 문제는 기존 방법이 t=0의 특이점에서 샘플링을 무시하고 대신 1-ϵ 시간에서 샘플링을 위한 초기 분포로 표준 가우스 분포를 사용한다는 사실에서 비롯됩니다. 그러나 위 그림에서 볼 수 있듯이 1-ϵ 시점에서는 표준 가우스 분포와 실제 데이터 분포 사이에 큰 차이가 있습니다.

CVPR 2024|生成不了光线极强的CVPR 2024|매우 강한 빛에서는 이미지를 생성할 수 없나요? WeChat 비전팀은 확산 모델의 특이성 문제를 효과적으로 해결합니다.?微信视觉团队有效解决扩散模型奇点问题

이러한 간격에서 명제 3에 따르면 기존 방법은 t=1에서 평균값이 0인 이미지, 즉 평균 회색조 이미지를 생성하는 것과 동일합니다. 따라서 기존 방식으로는 밝기가 극도로 강하거나 약한 영상을 생성하는 것이 어렵다. 이 문제를 해결하기 위해 본 연구에서는 표준 가우스 분포와 실제 데이터 분포 간의 변환을 피팅하여 이러한 격차를 해소하는 플러그 앤 플레이 SingDiffusion 방법을 제안합니다.

SingDiffuion의 알고리즘은 아래 그림과 같습니다.

CVPR 2024|生成不了光线极强的CVPR 2024|매우 강한 빛에서는 이미지를 생성할 수 없나요? WeChat 비전팀은 확산 모델의 특이성 문제를 효과적으로 해결합니다.?微信视觉团队有效解决扩散模型奇点问题

이전 섹션의 결론에 따라 본 연구에서는 샘플링 문제를 해결하기 위해 시간 t=1에서 "x - 예측" 방법을 사용했습니다. 특이한 점에서. 이미지-텍스트 데이터 쌍 CVPR 2024|生成不了光线极强的CVPR 2024|매우 강한 빛에서는 이미지를 생성할 수 없나요? WeChat 비전팀은 확산 모델의 특이성 문제를 효과적으로 해결합니다.?微信视觉团队有效解决扩散模型奇点问题의 경우 이 방법은 Unet CVPR 2024|生成不了光线极强的CVPR 2024|매우 강한 빛에서는 이미지를 생성할 수 없나요? WeChat 비전팀은 확산 모델의 특이성 문제를 효과적으로 해결합니다.?微信视觉团队有效解决扩散模型奇点问题CVPR 2024|生成不了光线极强的CVPR 2024|매우 강한 빛에서는 이미지를 생성할 수 없나요? WeChat 비전팀은 확산 모델의 특이성 문제를 효과적으로 해결합니다.?微信视觉团队有效解决扩散模型奇点问题에 맞게 교육합니다. 손실 함수는 다음과 같이 표현됩니다.

CVPR 2024|生成不了光线极强的CVPR 2024|매우 강한 빛에서는 이미지를 생성할 수 없나요? WeChat 비전팀은 확산 모델의 특이성 문제를 효과적으로 해결합니다.?微信视觉团队有效解决扩散模型奇点问题

모델이 수렴된 후 아래 DDIM 샘플링 공식을 따르고 새로 얻은 모듈 CVPR 2024|매우 강한 빛에서는 이미지를 생성할 수 없나요? WeChat 비전팀은 확산 모델의 특이성 문제를 효과적으로 해결합니다.samplingCVPR 2024|生成不了光线极强的CVPR 2024|매우 강한 빛에서는 이미지를 생성할 수 없나요? WeChat 비전팀은 확산 모델의 특이성 문제를 효과적으로 해결합니다.?微信视觉团队有效解决扩散模型奇点问题을 사용할 수 있습니다.

CVPR 2024|生成不了光线极强的CVPR 2024|매우 강한 빛에서는 이미지를 생성할 수 없나요? WeChat 비전팀은 확산 모델의 특이성 문제를 효과적으로 해결합니다.?微信视觉团队有效解决扩散模型奇点问题

DDIM의 샘플링 공식은 생성된 CVPR 2024|매우 강한 빛에서는 이미지를 생성할 수 없나요? WeChat 비전팀은 확산 모델의 특이성 문제를 효과적으로 해결합니다.가 1-ε 순간의 데이터 분포 CVPR 2024|生成不了光线极强的CVPR 2024|매우 강한 빛에서는 이미지를 생성할 수 없나요? WeChat 비전팀은 확산 모델의 특이성 문제를 효과적으로 해결합니다.?微信视觉团队有效解决扩散模型奇点问题를 준수하도록 보장하여 평균 회색조 문제를 해결합니다. 이 단계 후에 사전 훈련된 모델을 사용하여 CVPR 2024|生成不了光线极强的CVPR 2024|매우 강한 빛에서는 이미지를 생성할 수 없나요? WeChat 비전팀은 확산 모델의 특이성 문제를 효과적으로 해결합니다.?微信视觉团队有效解决扩散模型奇点问题이 생성될 때까지 후속 샘플링 단계를 수행할 수 있습니다. 이 방법은 샘플링의 첫 번째 단계에만 참여하고 후속 샘플링 프로세스와는 아무런 관련이 없으므로 SingDiffusion은 대부분의 기존 확산 모델에 적용할 수 있습니다. 또한 분류자 안내 작업이 없는 경우 발생하는 데이터 오버플로 문제를 방지하기 위해 이 방법에서는 다음과 같은 정규화 작업도 사용합니다.

CVPR 2024|生成不了光线极强的CVPR 2024|매우 강한 빛에서는 이미지를 생성할 수 없나요? WeChat 비전팀은 확산 모델의 특이성 문제를 효과적으로 해결합니다.?微信视觉团队有效解决扩散模型奇点问题

여기서 안내는 분류자 안내 작업이 없는 후의 결과를 나타내고, neg는 부정 프롬프트에서의 결과를 나타냅니다. 출력, pos는 긍정적인 프롬프트에서의 출력을 나타내고 Ω는 안내 강도를 나타냅니다.

실험

먼저, 이 연구는 SD-1.5, SD-2.0-base 및 SD-2.0의 세 가지 모델에서 평균 회색조 문제를 해결하는 SingDiffusion의 능력을 검증했습니다. 본 연구에서는 "순백색/검은색 배경", "흰색/검은색 바탕에 단색 라인아트 로고" 등 4가지 극단적인 프롬프트를 생성 조건으로 선택하고, 생성된 이미지의 평균 계조값을 아래 표와 같이 계산하였다. 표시:

CVPR 2024|生成不了光线极强的CVPR 2024|매우 강한 빛에서는 이미지를 생성할 수 없나요? WeChat 비전팀은 확산 모델의 특이성 문제를 효과적으로 해결합니다.?微信视觉团队有效解决扩散模型奇点问题

표에서 볼 수 있듯이 이 연구는 평균 회색 값 문제를 크게 해결하고 입력 텍스트 설명의 밝기와 일치하는 이미지를 생성할 수 있습니다. 또한 연구에서는 아래 그림과 같이 4가지 프롬프트 명령문에 따라 생성 결과를 시각화했습니다.

CVPR 2024|生成不了光线极强的CVPR 2024|매우 강한 빛에서는 이미지를 생성할 수 없나요? WeChat 비전팀은 확산 모델의 특이성 문제를 효과적으로 해결합니다.?微信视觉团队有效解决扩散模型奇点问题

그림에서 알 수 있듯이 이 방법을 추가하면 기존 확산 모델은 검정색 또는 흰색을 생성할 수 있습니다. 영상.

이 방법으로 달성한 이미지 품질 향상을 추가로 연구하기 위해 연구에서는 COCO 데이터 세트에 대한 테스트용 설명 30,000개를 선택했습니다. 첫째, 본 연구는 다음 표와 같이 분류자 없는 지침을 사용하지 않고 모델 자체의 생성 능력을 보여줍니다.

CVPR 2024|生成不了光线极强的CVPR 2024|매우 강한 빛에서는 이미지를 생성할 수 없나요? WeChat 비전팀은 확산 모델의 특이성 문제를 효과적으로 해결합니다.?微信视觉团队有效解决扩散模型奇点问题

표에서 볼 수 있듯이 제안된 방법은 생성된 FID를 크게 줄일 수 있습니다 이미지를 개선하고 CLIP 표시를 개선합니다. SD-1.5 모델에서 본 논문의 방법은 원래 모델에 비해 FID 지수를 33% 감소시킨다는 점에 주목할 필요가 있다.

또한 분류자 안내 없이 제안된 방법의 생성 능력을 검증하기 위해 연구에서는 다양한 안내 크기 Ω∈[1.5,2,3,4,5,6, 7,8] CLIP 대 FID의 파레토 곡선:

CVPR 2024|生成不了光线极强的CVPR 2024|매우 강한 빛에서는 이미지를 생성할 수 없나요? WeChat 비전팀은 확산 모델의 특이성 문제를 효과적으로 해결합니다.?微信视觉团队有效解决扩散模型奇点问题

그림에서 볼 수 있듯이, 동일한 CLIP 레벨에서 제안하는 방법은 더 낮은 FID 값을 얻을 수 있으며 보다 사실적인 이미지를 생성할 수 있습니다.

또한, 이 연구는 아래 그림과 같이 다양한 CIVITAI 사전 훈련 모델에서 제안된 방법의 일반화 능력을 보여줍니다.

CVPR 2024|生成不了光线极强的CVPR 2024|매우 강한 빛에서는 이미지를 생성할 수 없나요? WeChat 비전팀은 확산 모델의 특이성 문제를 효과적으로 해결합니다.?微信视觉团队有效解决扩散模型奇点问题

본 연구에서 제안한 방법이 한 번의 훈련만 하면 기존 확산 모델에 쉽게 적용하여 평균 계조 문제를 해결할 수 있습니다.

마지막으로, 본 연구에서 제안한 방법은 아래 그림과 같이 사전 훈련된 ControlNet 모델에도 원활하게 적용될 수 있습니다.

CVPR 2024|生成不了光线极强的CVPR 2024|매우 강한 빛에서는 이미지를 생성할 수 없나요? WeChat 비전팀은 확산 모델의 특이성 문제를 효과적으로 해결합니다.?微信视觉团队有效解决扩散模型奇点问题

결과에서 볼 수 있듯이 이 방법은 평균을 효과적으로 해결할 수 있습니다. ControlNet 학위 문제의 회색 문제입니다.

참고 자료:
[1] Tero Karras, Miika Aittala, Timo Aila 및 Samuli Laine 확산 기반 생성 모델의 설계 공간 설명(NeurIPS) 페이지. 26565–26577, 2022. 3

위 내용은 CVPR 2024|매우 강한 빛에서는 이미지를 생성할 수 없나요? WeChat 비전팀은 확산 모델의 특이성 문제를 효과적으로 해결합니다.의 상세 내용입니다. 자세한 내용은 PHP 중국어 웹사이트의 기타 관련 기사를 참조하세요!

성명:
이 기사는 jiqizhixin.com에서 복제됩니다. 침해가 있는 경우 admin@php.cn으로 문의하시기 바랍니다. 삭제