ICLR 2024 Spotlight | NoiseDiffusion: 확산 모델 노이즈 수정 및 보간 이미지 품질 향상-일체 포함-php.cn

집

기술 주변기기

일체 포함

ICLR 2024 Spotlight | NoiseDiffusion: 확산 모델 노이즈 수정 및 보간 이미지 품질 향상

PHPz

May 06, 2024 pm 02:01 PM

git이론

저자 | Pengfei Zheng

Unit | USTC, HKBU TMLR Group

최근 몇 년 동안 제너레이티브 AI의 급속한 발전은 텍스트-이미지 생성 등 눈길을 끄는 분야에 강력한 힘을 불어넣었습니다. 그리고 비디오 생성. 이러한 기술의 핵심은 확산 모델의 적용에 있습니다. 확산 모델은 먼저 연속적으로 노이즈를 추가하는 순방향 프로세스를 정의하여 그림을 점차적으로 가우스 노이즈로 변경한 다음, 역과정을 통해 점차적으로 가우스 노이즈를 제거하여 선명한 그림으로 변환하여 실제 샘플을 얻습니다. 확산 일반 미분 모델은 생성된 이미지의 값을 보간하는 데 사용되며, 이는 비디오 및 일부 광고 크리에이티브 생성에 큰 응용 가능성을 가지고 있습니다. 그러나 이 방법을 자연 이미지에 적용하면 보간된 이미지 효과가 만족스럽지 못한 경우가 많습니다.

일반적으로 확산 모델은 가우스 노이즈를 샘플링한 다음 점진적으로 노이즈를 제거하여 고품질 이미지를 생성합니다. 보간된 이미지의 품질이 낮다는 것은 기본 변수가 더 이상 우리가 예상하는 가우스 분포를 따르지 않는다는 것을 의미합니다. 보간된 그림의 품질을 향상하려면 기본 변수가 가우스 분포에서 더 가깝게 샘플링되도록 해야 합니다. 잠재 변수를 직접 스케일링하고 오프셋하면 결과 이미지가 심각하게 손상되며 원본 이미지의 정보를 보존하기 위해 잠재 변수를 너무 많이 수정할 수 없습니다. 따라서 기본 변수를 최대한 파괴하지 않고 보간된 이미지의 품질을 향상시키는 것은 어려운 문제가 됩니다.

먼저 잠재변수의 노이즈 레벨을 변경하여 확산 모델을 통해 어떤 잠재변수가 고품질 그림으로 복원될 수 있는지 분석하고, SDEdit 방법을 결합하여 가우시안 노이즈를 도입하여 보간된 그림의 품질을 향상시킵니다. 가우스 노이즈가 도입되면 추가 정보가 제공됩니다. 또한 우리는 접근 방식의 기초를 제공하는 고차원 공간의 잠재적 직교성을 분석합니다. 구형 선형 보간 방법과 노이즈를 직접 도입하는 방법을 결합하여 새로운 보간 방법을 제안합니다. 잠재적인 극값을 제한하고 이를 작은 가우시안 노이즈와 결합하여 예상 분포에 가깝게 만들고 원본 그림을 도입하여 정보를 완화합니다. 손실 문제. 이 보간 방법을 사용하면 원본 이미지 정보를 유지하면서 자연 이미지의 보간 결과를 크게 향상시킬 수 있습니다.

다음으로 저희의 연구 결과를 간략하게 공유해드리겠습니다.