저자 | Pengfei Zheng
Unit | USTC, HKBU TMLR Group
최근 몇 년 동안 제너레이티브 AI의 급속한 발전은 텍스트-이미지 생성 등 눈길을 끄는 분야에 강력한 힘을 불어넣었습니다. 그리고 비디오 생성. 이러한 기술의 핵심은 확산 모델의 적용에 있습니다. 확산 모델은 먼저 연속적으로 노이즈를 추가하는 순방향 프로세스를 정의하여 그림을 점차적으로 가우스 노이즈로 변경한 다음, 역과정을 통해 점차적으로 가우스 노이즈를 제거하여 선명한 그림으로 변환하여 실제 샘플을 얻습니다. 확산 일반 미분 모델은 생성된 이미지의 값을 보간하는 데 사용되며, 이는 비디오 및 일부 광고 크리에이티브 생성에 큰 응용 가능성을 가지고 있습니다. 그러나 이 방법을 자연 이미지에 적용하면 보간된 이미지 효과가 만족스럽지 못한 경우가 많습니다.
일반적으로 확산 모델은 가우스 노이즈를 샘플링한 다음 점진적으로 노이즈를 제거하여 고품질 이미지를 생성합니다. 보간된 이미지의 품질이 낮다는 것은 기본 변수가 더 이상 우리가 예상하는 가우스 분포를 따르지 않는다는 것을 의미합니다. 보간된 그림의 품질을 향상하려면 기본 변수가 가우스 분포에서 더 가깝게 샘플링되도록 해야 합니다. 잠재 변수를 직접 스케일링하고 오프셋하면 결과 이미지가 심각하게 손상되며 원본 이미지의 정보를 보존하기 위해 잠재 변수를 너무 많이 수정할 수 없습니다. 따라서 기본 변수를 최대한 파괴하지 않고 보간된 이미지의 품질을 향상시키는 것은 어려운 문제가 됩니다.
먼저 잠재변수의 노이즈 레벨을 변경하여 확산 모델을 통해 어떤 잠재변수가 고품질 그림으로 복원될 수 있는지 분석하고, SDEdit 방법을 결합하여 가우시안 노이즈를 도입하여 보간된 그림의 품질을 향상시킵니다. 가우스 노이즈가 도입되면 추가 정보가 제공됩니다. 또한 우리는 접근 방식의 기초를 제공하는 고차원 공간의 잠재적 직교성을 분석합니다. 구형 선형 보간 방법과 노이즈를 직접 도입하는 방법을 결합하여 새로운 보간 방법을 제안합니다. 잠재적인 극값을 제한하고 이를 작은 가우시안 노이즈와 결합하여 예상 분포에 가깝게 만들고 원본 그림을 도입하여 정보를 완화합니다. 손실 문제. 이 보간 방법을 사용하면 원본 이미지 정보를 유지하면서 자연 이미지의 보간 결과를 크게 향상시킬 수 있습니다.
다음으로 저희의 연구 결과를 간략하게 공유해드리겠습니다.
논문 제목: NoiseDiffusion: Correcting Noise for Image Interpolation with Diffusion Models Beyond Spherical Linear Interpolation
논문 링크: https://www.php.cn/link/68310dc294a1c38c7ba636380151daca
코드 링크: https://www.php.cn/link/fc9e5c39356354a60d33ca59499913ca
그림 1: 얼굴 이미지에 구형 선형 보간 방법 적용
확산 모델 가장 일반적으로 사용되는 이미지 보간 방법은 구형 선형 보간 방법 [1,2]:
이 방법을 자연스러운 사진에 적용합니다. 그림 2에서 볼 수 있듯이 자연 사진에 구형 선형 보간법을 적용하면 보간 효과가 크게 떨어지는 것을 확인할 수 있다.
그림 2: 자연 사진과 생성된 사진 사이의 보간 효과 비교
그림 3: 다양한 노이즈 레벨에 따른 가우스 노이즈 제거 효과
먼저 노이즈 레벨이 영상에 미치는 영향을 연구합니다. 생성된 사진. 가우시안 노이즈 수준이 노이즈 제거 수준(가운데 이미지)과 일치하는 경우에만 더 높은 품질의 이미지를 얻을 수 있는 것으로 관찰됩니다. 노이즈 레벨이 노이즈 제거 레벨(오른쪽 이미지)보다 낮거나 노이즈 제거 레벨(왼쪽 이미지)보다 높은 경우 생성된 이미지의 품질이 저하됩니다. 우리는 이 현상을 설명하기 위해 정리 1을 사용합니다:
정리 1은 고차원 공간에서 표준 가우스 잡음의 분포 특성을 설명합니다. 즉, 주로 초구체에 집중되어 있습니다. 이 하이퍼스피어 내부에서는 포인트의 확률 밀도가 상대적으로 높지만 차지하는 부피가 작기 때문에 전체적인 기여도는 중요하지 않습니다. 반면 하이퍼스피어 외부에서는 포인트의 부피가 더 크지만 확률 밀도는 거리에 따라 급격히 감소하므로 외부 지점의 기여도 무시할 수 있습니다. 따라서 확산 모델을 훈련할 때 우리가 주로 관찰하는 잠재 변수는 하이퍼스피어에 집중되어 있으며, 하이퍼스피어 내부와 외부의 잠재 변수는 이러한 이유로 효과적으로 노이즈 제거가 어렵습니다.
그림 4: 자연 그림 보간이 실패하는 이유
자연 그림에는 확산 모델이 훈련 중에 볼 수 없는 복잡한 특징이 있는 경우가 많습니다. 이로 인해 확산 모델이 자연 그림을 표준 가우스 잡음 난이도로 변환하려고 할 때 문제가 발생하게 됩니다. 특히, 이러한 이미지의 잠재 변수에는 모델의 노이즈 제거 기능 범위보다 높거나 낮은 가우스 노이즈가 포함될 수 있습니다. 그러나 확산 모델의 능력은 주로 정리 1에 설명된 초구체의 가우스 잡음을 복원하는 것으로 제한됩니다. 이 범위를 벗어나는 소음의 경우 모델이 효과적으로 처리할 수 없는 경우가 많습니다. 따라서 이미지 보간을 수행할 때 품질이 낮은 보간 이미지가 생성되는 경우가 많습니다.
그림 5: 노이즈 보간법 직접 도입
그림의 품질을 향상시키고 잠재 변수를 하이퍼스피어에 더 가깝게 만들기 위해 SDEdit[3]과 결합된 방법을 채택했습니다. 구체적으로 표준 가우스 노이즈를 이미지에 직접 추가한 다음 보간을 수행하고 마지막으로 노이즈 제거를 수행합니다. 그림 5에서 이 방법이 보간된 이미지의 품질을 크게 향상시키는 것을 분명히 볼 수 있습니다. 그러나 이 접근 방식은 그림에 표시된 대로 몇 가지 추가 정보도 제공한다는 점에 유의해야 합니다.
그림 6: NoiseDiffusion의 전체 설계
화질을 향상시키고 정보 손실을 최대한 줄이기 위해 구형 선형 보간법과 노이즈를 직접 도입하는 보간법을 혁신적으로 결합하고, 새로운 NoiseDiffusion 방법을 제안합니다. 그림 6에서 볼 수 있듯이 NoiseDiffusion의 전체 설계는 보간 과정에서 정보 유지를 고려할 뿐만 아니라 노이즈를 도입하여 화질을 향상시켜 둘 사이의 효과적인 균형을 달성합니다. 다음으로 NoiseDiffusion의 디자인 아이디어에 대해 자세히 설명하겠습니다.
그림 7: 잠재 변수의 극값 제한
통계에 따르면 특정 범위를 벗어나는 노이즈 구성 요소는 이상치로 간주될 수 있습니다. 그림 3과 결합하여 노이즈 제거 수준보다 높은 가우스 노이즈는 명백한 노이즈 포인트를 생성하며 이는 자연 사진의 보간 결과에 대한 비정상적인 색상 패치와 매우 유사하다는 것을 발견했습니다. 이러한 비정상적인 색상 패치의 생성은 잠재 변수에 의해 발생합니다. 이러한 분석을 바탕으로 우리는 이러한 비정상적인 잡음의 영향을 제어하기 위해 잠재 변수의 극값에 제약을 가합니다. 그림 7에서 볼 수 있듯이 잠재변수의 극값을 제한함으로써 이미지의 품질을 크게 향상시켰습니다.
그림 8: 원본 이미지 정보 소개
잠재 변수에 제약 조건을 적용할 때 실수로 일부 일반 구성 요소에 영향을 주어 정보가 손실될 수 있습니다. 이러한 잠재적인 정보 손실을 보상하기 위해 원본 이미지 정보를 보충 자료로 소개합니다. 그림 8에서 보는 바와 같이 원본 영상정보를 도입한 후 보간된 영상의 품질이 크게 향상되었다. 이는 원본 영상 정보가 정보 손실을 보상하는 데 중요한 역할을 한다는 것을 보여줍니다. 잠재 변수의 제약과 원본 영상 정보의 보완을 결합함으로써 영상 품질을 보장하면서 정보 손실을 줄이고 보다 정확하고 자연스러운 보간 효과를 얻을 수 있습니다.
구형 선형 보간은 두 잠재 변수 사이의 각도 계산에 의존하는 보간 방법입니다. 그러나 실제 응용에서는 이러한 잠재 변수가 거의 직교 상태를 나타내는 경우가 많습니다. 이 현상을 설명하기 위해 이론적 뒷받침으로 정리 2를 소개합니다.
그림 9: 다양한 크기의 가우스 노이즈 소개
그림 10: 디자인 1과 결합하여 도입된 가우시안 노이즈의 양을 줄였습니다.
그림 9에서 볼 수 있듯이 도입된 가우시안 노이즈의 양을 점차적으로 늘립니다. , 보간 그림의 품질이 크게 향상되었습니다. 그러나 이러한 개선에는 비용이 따르지 않습니다. 소음의 양이 증가함에 따라 추가 정보의 도입도 증가하기 때문입니다. 실제 보간 과정에서는 품질 요구 사항을 충족하면서 추가 정보 도입을 최소화하기 위해 앞서 언급한 전략을 결합하여 도입해야 하는 가우시안 노이즈의 양을 효과적으로 줄였습니다(그림 10). 원본 이미지.
그림 11: 구면 선형 보간 방법과의 비교
구면 선형 보간 방법과 제안한 방법의 결과를 비교했습니다(그림 11 참조). 보간 결과로 볼 때, 우리의 방법은 정보 손실이 거의 없이 보간된 이미지의 품질을 크게 향상시킵니다. 이는 정보 무결성을 유지하고 이미지 품질을 향상시키는 데 있어 우리 방법의 탁월한 성능을 충분히 보여줍니다.
Stable Diffusion[4]에 대한 실험도 수행했습니다. Stable Diffusion의 구조화되지 않은 잠재 공간으로 인해 부드러운 보간을 얻기가 어렵습니다(그림 12). 따라서 우리는 더 작은 시간 단계에서 보간()을 고려합니다. 이는 원본 이미지의 더 많은 특징을 유지하고 보간 결과를 더 매끄럽게 만들 수 있지만 이미지 품질이 저하됩니다(그림 13). 이 문제를 해결하기 위해 우리는 NoiseDiffusion 방법을 적용하여 잠재 변수를 수정했습니다(그림 14). 실험 결과에서 우리의 방법이 정보 변경을 줄이면서 이미지 품질을 크게 향상시키는 것을 볼 수 있습니다.
그림 12:
일 때 구면 선형 보간 사용 그림 13:
일 때 구형 선형 보간 사용 그림 14:
[2] Jiaming Song, Chenlin Meng 및 Stefano Ermon. 확산 암시적 모델. 2021.
[3] Chenlin Meng, Yutong He, Yang Song, Jiaming Song, Jiajun Wu, Jun-Yan Zhu 및 Stefano Ermon.
Sdedit: 확률적 미분을 사용한 안내 이미지 합성 및 편집 방정식. ICLR, 2022.
[4]Robin Rombach, Andreas Blattmann, Dominik Lorenz, Patrick Esser 및 Bjorn Ommer. CVPR, 2022.
[5] Weihao Xia, Yulun Zhang, Yujiu Yang, Jing-Hao Xue, Bolei Zhou 및 Ming-Hsuan Yang.
반전: 패턴 분석 및 기계 지능에 관한 IEEE 거래, 2022.
연구 그룹 소개홍콩 침례 대학교의 신뢰할 수 있는 기계 학습 및 추론 연구 그룹(TMLR 그룹)은 수많은 젊은 교수, 박사후 연구원, 박사 과정 학생, 방문 박사 과정 학생 및 연구 조교로 구성되어 있습니다. 과학 학부. 신뢰할 수 있는 표현 학습, 인과 추론을 기반으로 한 신뢰할 수 있는 학습, 신뢰할 수 있는 기본 모델 및 기타 관련 알고리즘, 이론 및 시스템 설계, 자연 과학 응용 분야를 전문으로 하는 연구 그룹입니다. 구체적인 연구 방향 및 관련 결과는 그룹의 웹 사이트에서 확인할 수 있습니다. Github(https://github.com/tmlr-group). 연구팀은 홍콩 연구 보조금 협의회 우수 청년 학자 프로그램, 중국 국립 자연 과학 재단 일반 프로젝트 및 청소년 프로젝트와 같은 정부 연구 기금 및 산업 연구 기금뿐만 아니라 Microsoft, NVIDIA의 과학 연구 기금으로 자금을 지원받습니다. Baidu, Alibaba, Tencent 및 기타 회사. 젊은 교수들과 선배 연구원들이 함께 일하고 있으며, GPU 컴퓨팅 자원은 충분하며, 박사후 연구원, 박사 과정 학생, 연구 조교, 연구 인턴을 장기 채용하고 있습니다. 또한, 최소 3~6개월 동안 자체 자금을 지원하는 방문 박사후 연구원, 박사 과정 학생 및 연구 조교의 지원도 환영하며 원격 액세스가 지원됩니다. 관심 있는 학생은 이메일(bhanml@comp.hkbu.edu.hk)로 이력서와 예비 연구 계획을 보내주시기 바랍니다.
위 내용은 ICLR 2024 Spotlight | NoiseDiffusion: 확산 모델 노이즈 수정 및 보간 이미지 품질 향상의 상세 내용입니다. 자세한 내용은 PHP 중국어 웹사이트의 기타 관련 기사를 참조하세요!