찾다
기술 주변기기일체 포함ICLR 2024 Spotlight | NoiseDiffusion: 확산 모델 노이즈 수정 및 보간 이미지 품질 향상

저자 | Pengfei Zheng

Unit | USTC, HKBU TMLR Group

최근 몇 년 동안 제너레이티브 AI의 급속한 발전은 텍스트-이미지 생성 등 눈길을 끄는 분야에 강력한 힘을 불어넣었습니다. 그리고 비디오 생성. 이러한 기술의 핵심은 확산 모델의 적용에 있습니다. 확산 모델은 먼저 연속적으로 노이즈를 추가하는 순방향 프로세스를 정의하여 그림을 점차적으로 가우스 노이즈로 변경한 다음, 역과정을 통해 점차적으로 가우스 노이즈를 제거하여 선명한 그림으로 변환하여 실제 샘플을 얻습니다. 확산 일반 미분 모델은 생성된 이미지의 값을 보간하는 데 사용되며, 이는 비디오 및 일부 광고 크리에이티브 생성에 큰 응용 가능성을 가지고 있습니다. 그러나 이 방법을 자연 이미지에 적용하면 보간된 이미지 효과가 만족스럽지 못한 경우가 많습니다.

일반적으로 확산 모델은 가우스 노이즈를 샘플링한 다음 점진적으로 노이즈를 제거하여 고품질 이미지를 생성합니다. 보간된 이미지의 품질이 낮다는 것은 기본 변수가 더 이상 우리가 예상하는 가우스 분포를 따르지 않는다는 것을 의미합니다. 보간된 그림의 품질을 향상하려면 기본 변수가 가우스 분포에서 더 가깝게 샘플링되도록 해야 합니다. 잠재 변수를 직접 스케일링하고 오프셋하면 결과 이미지가 심각하게 손상되며 원본 이미지의 정보를 보존하기 위해 잠재 변수를 너무 많이 수정할 수 없습니다. 따라서 기본 변수를 최대한 파괴하지 않고 보간된 이미지의 품질을 향상시키는 것은 어려운 문제가 됩니다.

먼저 잠재변수의 노이즈 레벨을 변경하여 확산 모델을 통해 어떤 잠재변수가 고품질 그림으로 복원될 수 있는지 분석하고, SDEdit 방법을 결합하여 가우시안 노이즈를 도입하여 보간된 그림의 품질을 향상시킵니다. 가우스 노이즈가 도입되면 추가 정보가 제공됩니다. 또한 우리는 접근 방식의 기초를 제공하는 고차원 공간의 잠재적 직교성을 분석합니다. 구형 선형 보간 방법과 노이즈를 직접 도입하는 방법을 결합하여 새로운 보간 방법을 제안합니다. 잠재적인 극값을 제한하고 이를 작은 가우시안 노이즈와 결합하여 예상 분포에 가깝게 만들고 원본 그림을 도입하여 정보를 완화합니다. 손실 문제. 이 보간 방법을 사용하면 원본 이미지 정보를 유지하면서 자연 이미지의 보간 결과를 크게 향상시킬 수 있습니다.

다음으로 저희의 연구 결과를 간략하게 공유해드리겠습니다.

ICLR 2024 Spotlight | NoiseDiffusion: 矫正扩散模型噪声,提高插值图片质量

논문 제목: NoiseDiffusion: Correcting Noise for Image Interpolation with Diffusion Models Beyond Spherical Linear Interpolation

논문 링크: https://www.php.cn/link/68310dc294a1c38c7ba636380151daca

코드 링크: https://www.php.cn/link/fc9e5c39356354a60d33ca59499913ca

Introduction

ICLR 2024 Spotlight | NoiseDiffusion: 矫正扩散模型噪声,提高插值图片质量

그림 1: 얼굴 이미지에 구형 선형 보간 방법 적용

확산 모델 가장 일반적으로 사용되는 이미지 보간 방법은 구형 선형 보간 방법 [1,2]:

ICLR 2024 Spotlight | NoiseDiffusion: 矫正扩散模型噪声,提高插值图片质量

ICLR 2024 Spotlight | NoiseDiffusion: 矫正扩散模型噪声,提高插值图片质量

이 방법을 자연스러운 사진에 적용합니다. 그림 2에서 볼 수 있듯이 자연 사진에 구형 선형 보간법을 적용하면 보간 효과가 크게 떨어지는 것을 확인할 수 있다.

ICLR 2024 Spotlight | NoiseDiffusion: 矫正扩散模型噪声,提高插值图片质量

그림 2: 자연 사진과 생성된 사진 사이의 보간 효과 비교

Analytics

ICLR 2024 Spotlight | NoiseDiffusion: 矫正扩散模型噪声,提高插值图片质量

그림 3: 다양한 노이즈 레벨에 따른 가우스 노이즈 제거 효과

먼저 노이즈 레벨이 영상에 미치는 영향을 연구합니다. 생성된 사진. 가우시안 노이즈 수준이 노이즈 제거 수준(가운데 이미지)과 일치하는 경우에만 더 높은 품질의 이미지를 얻을 수 있는 것으로 관찰됩니다. 노이즈 레벨이 노이즈 제거 레벨(오른쪽 이미지)보다 낮거나 노이즈 제거 레벨(왼쪽 이미지)보다 높은 경우 생성된 이미지의 품질이 저하됩니다. 우리는 이 현상을 설명하기 위해 정리 1을 사용합니다:

ICLR 2024 Spotlight | NoiseDiffusion: 矫正扩散模型噪声,提高插值图片质量

정리 1은 고차원 공간에서 표준 가우스 잡음의 분포 특성을 설명합니다. 즉, 주로 초구체에 집중되어 있습니다. 이 하이퍼스피어 내부에서는 포인트의 확률 밀도가 상대적으로 높지만 차지하는 부피가 작기 때문에 전체적인 기여도는 중요하지 않습니다. 반면 하이퍼스피어 외부에서는 포인트의 부피가 더 크지만 확률 밀도는 거리에 따라 급격히 감소하므로 외부 지점의 기여도 무시할 수 있습니다. 따라서 확산 모델을 훈련할 때 우리가 주로 관찰하는 잠재 변수는 하이퍼스피어에 집중되어 있으며, 하이퍼스피어 내부와 외부의 잠재 변수는 이러한 이유로 효과적으로 노이즈 제거가 어렵습니다.

ICLR 2024 Spotlight | NoiseDiffusion: 矫正扩散模型噪声,提高插值图片质量

그림 4: 자연 그림 보간이 실패하는 이유

자연 그림에는 확산 모델이 훈련 중에 볼 수 없는 복잡한 특징이 있는 경우가 많습니다. 이로 인해 확산 모델이 자연 그림을 표준 가우스 잡음 난이도로 변환하려고 할 때 문제가 발생하게 됩니다. 특히, 이러한 이미지의 잠재 변수에는 모델의 노이즈 제거 기능 범위보다 높거나 낮은 가우스 노이즈가 포함될 수 있습니다. 그러나 확산 모델의 능력은 주로 정리 1에 설명된 초구체의 가우스 잡음을 복원하는 것으로 제한됩니다. 이 범위를 벗어나는 소음의 경우 모델이 효과적으로 처리할 수 없는 경우가 많습니다. 따라서 이미지 보간을 수행할 때 품질이 낮은 보간 이미지가 생성되는 경우가 많습니다.

노이즈 소개

ICLR 2024 Spotlight | NoiseDiffusion: 矫正扩散模型噪声,提高插值图片质量

그림 5: 노이즈 보간법 직접 도입

그림의 품질을 향상시키고 잠재 변수를 하이퍼스피어에 더 가깝게 만들기 위해 SDEdit[3]과 결합된 방법을 채택했습니다. 구체적으로 표준 가우스 노이즈를 이미지에 직접 추가한 다음 보간을 수행하고 마지막으로 노이즈 제거를 수행합니다. 그림 5에서 이 방법이 보간된 이미지의 품질을 크게 향상시키는 것을 분명히 볼 수 있습니다. 그러나 이 접근 방식은 그림에 표시된 대로 몇 가지 추가 정보도 제공한다는 점에 유의해야 합니다.

Method

ICLR 2024 Spotlight | NoiseDiffusion: 矫正扩散模型噪声,提高插值图片质量

그림 6: NoiseDiffusion의 전체 설계

화질을 향상시키고 정보 손실을 최대한 줄이기 위해 구형 선형 보간법과 노이즈를 직접 도입하는 보간법을 혁신적으로 결합하고, 새로운 NoiseDiffusion 방법을 제안합니다. 그림 6에서 볼 수 있듯이 NoiseDiffusion의 전체 설계는 보간 과정에서 정보 유지를 고려할 뿐만 아니라 노이즈를 도입하여 화질을 향상시켜 둘 사이의 효과적인 균형을 달성합니다. 다음으로 NoiseDiffusion의 디자인 아이디어에 대해 자세히 설명하겠습니다.

디자인 1:

ICLR 2024 Spotlight | NoiseDiffusion: 矫正扩散模型噪声,提高插值图片质量

그림 7: 잠재 변수의 극값 제한

통계에 따르면 특정 범위를 벗어나는 노이즈 구성 요소는 이상치로 간주될 수 있습니다. 그림 3과 결합하여 노이즈 제거 수준보다 높은 가우스 노이즈는 명백한 노이즈 포인트를 생성하며 이는 자연 사진의 보간 결과에 대한 비정상적인 색상 패치와 매우 유사하다는 것을 발견했습니다. 이러한 비정상적인 색상 패치의 생성은 잠재 변수에 의해 발생합니다. 이러한 분석을 바탕으로 우리는 이러한 비정상적인 잡음의 영향을 제어하기 위해 잠재 변수의 극값에 제약을 가합니다. 그림 7에서 볼 수 있듯이 잠재변수의 극값을 제한함으로써 이미지의 품질을 크게 향상시켰습니다.

디자인 2:

ICLR 2024 Spotlight | NoiseDiffusion: 矫正扩散模型噪声,提高插值图片质量

그림 8: 원본 이미지 정보 소개

잠재 변수에 제약 조건을 적용할 때 실수로 일부 일반 구성 요소에 영향을 주어 정보가 손실될 수 있습니다. 이러한 잠재적인 정보 손실을 보상하기 위해 원본 이미지 정보를 보충 자료로 소개합니다. 그림 8에서 보는 바와 같이 원본 영상정보를 도입한 후 보간된 영상의 품질이 크게 향상되었다. 이는 원본 영상 정보가 정보 손실을 보상하는 데 중요한 역할을 한다는 것을 보여줍니다. 잠재 변수의 제약과 원본 영상 정보의 보완을 결합함으로써 영상 품질을 보장하면서 정보 손실을 줄이고 보다 정확하고 자연스러운 보간 효과를 얻을 수 있습니다.

디자인 3:

구형 선형 보간은 두 잠재 변수 사이의 각도 계산에 의존하는 보간 방법입니다. 그러나 실제 응용에서는 이러한 잠재 변수가 거의 직교 상태를 나타내는 경우가 많습니다. 이 현상을 설명하기 위해 이론적 뒷받침으로 정리 2를 소개합니다.

ICLR 2024 Spotlight | NoiseDiffusion: 矫正扩散模型噪声,提高插值图片质量

ICLR 2024 Spotlight | NoiseDiffusion: 矫正扩散模型噪声,提高插值图片质量

그림 9: 다양한 크기의 가우스 노이즈 소개

ICLR 2024 Spotlight | NoiseDiffusion: 矫正扩散模型噪声,提高插值图片质量

그림 10: 디자인 1과 결합하여 도입된 가우시안 노이즈의 양을 줄였습니다.

그림 9에서 볼 수 있듯이 도입된 가우시안 노이즈의 양을 점차적으로 늘립니다. , 보간 그림의 품질이 크게 향상되었습니다. 그러나 이러한 개선에는 비용이 따르지 않습니다. 소음의 양이 증가함에 따라 추가 정보의 도입도 증가하기 때문입니다. 실제 보간 과정에서는 품질 요구 사항을 충족하면서 추가 정보 도입을 최소화하기 위해 앞서 언급한 전략을 결합하여 도입해야 하는 가우시안 노이즈의 양을 효과적으로 줄였습니다(그림 10). 원본 이미지.

실험

ICLR 2024 Spotlight | NoiseDiffusion: 矫正扩散模型噪声,提高插值图片质量

그림 11: 구면 선형 보간 방법과의 비교

구면 선형 보간 방법과 제안한 방법의 결과를 비교했습니다(그림 11 참조). 보간 결과로 볼 때, 우리의 방법은 정보 손실이 거의 없이 보간된 이미지의 품질을 크게 향상시킵니다. 이는 정보 무결성을 유지하고 이미지 품질을 향상시키는 데 있어 우리 방법의 탁월한 성능을 충분히 보여줍니다.

Stable Diffusion[4]에 대한 실험도 수행했습니다. Stable Diffusion의 구조화되지 않은 잠재 공간으로 인해 부드러운 보간을 얻기가 어렵습니다(그림 12). 따라서 우리는 더 작은 시간 단계에서 보간()을 고려합니다. 이는 원본 이미지의 더 많은 특징을 유지하고 보간 결과를 더 매끄럽게 만들 수 있지만 이미지 품질이 저하됩니다(그림 13). 이 문제를 해결하기 위해 우리는 NoiseDiffusion 방법을 적용하여 잠재 변수를 수정했습니다(그림 14). 실험 결과에서 우리의 방법이 정보 변경을 줄이면서 이미지 품질을 크게 향상시키는 것을 볼 수 있습니다.

ICLR 2024 Spotlight | NoiseDiffusion: 矫正扩散模型噪声,提高插值图片质量

그림 12:

ICLR 2024 Spotlight | NoiseDiffusion: 矫正扩散模型噪声,提高插值图片质量

일 때 구면 선형 보간 사용 그림 13:

ICLR 2024 Spotlight | NoiseDiffusion: 矫正扩散模型噪声,提高插值图片质量

일 때 구형 선형 보간 사용 그림 14:

일 때 NoiseDiffusion 보간 사용 1 ] 송양, 자샤 Sohl-Dickstein, Diederik P. Kingma, Abhishek Kumar, Stefano Ermon 및 Ben Poole. 확률적 미분 방정식을 통한 점수 기반 생성 모델링, 2021.

[2] Jiaming Song, Chenlin Meng 및 Stefano Ermon. 확산 암시적 모델. 2021.

[3] Chenlin Meng, Yutong He, Yang Song, Jiaming Song, Jiajun Wu, Jun-Yan Zhu 및 Stefano Ermon.

Sdedit: 확률적 미분을 사용한 안내 이미지 합성 및 편집 방정식. ICLR, 2022.

[4]Robin Rombach, Andreas Blattmann, Dominik Lorenz, Patrick Esser 및 Bjorn Ommer. CVPR, 2022.

[5] Weihao Xia, Yulun Zhang, Yujiu Yang, Jing-Hao Xue, Bolei Zhou 및 Ming-Hsuan Yang.

반전: 패턴 분석 및 기계 지능에 관한 IEEE 거래, 2022.

연구 그룹 소개

홍콩 침례 대학교의 신뢰할 수 있는 기계 학습 및 추론 연구 그룹(TMLR 그룹)은 수많은 젊은 교수, 박사후 연구원, 박사 과정 학생, 방문 박사 과정 학생 및 연구 조교로 구성되어 있습니다. 과학 학부. 신뢰할 수 있는 표현 학습, 인과 추론을 기반으로 한 신뢰할 수 있는 학습, 신뢰할 수 있는 기본 모델 및 기타 관련 알고리즘, 이론 및 시스템 설계, 자연 과학 응용 분야를 전문으로 하는 연구 그룹입니다. 구체적인 연구 방향 및 관련 결과는 그룹의 웹 사이트에서 확인할 수 있습니다. Github(https://github.com/tmlr-group). 연구팀은 홍콩 연구 보조금 협의회 우수 청년 학자 프로그램, 중국 국립 자연 과학 재단 일반 프로젝트 및 청소년 프로젝트와 같은 정부 연구 기금 및 산업 연구 기금뿐만 아니라 Microsoft, NVIDIA의 과학 연구 기금으로 자금을 지원받습니다. Baidu, Alibaba, Tencent 및 기타 회사. 젊은 교수들과 선배 연구원들이 함께 일하고 있으며, GPU 컴퓨팅 자원은 충분하며, 박사후 연구원, 박사 과정 학생, 연구 조교, 연구 인턴을 장기 채용하고 있습니다. 또한, 최소 3~6개월 동안 자체 자금을 지원하는 방문 박사후 연구원, 박사 과정 학생 및 연구 조교의 지원도 환영하며 원격 액세스가 지원됩니다. 관심 있는 학생은 이메일(bhanml@comp.hkbu.edu.hk)로 이력서와 예비 연구 계획을 보내주시기 바랍니다.

위 내용은 ICLR 2024 Spotlight | NoiseDiffusion: 확산 모델 노이즈 수정 및 보간 이미지 품질 향상의 상세 내용입니다. 자세한 내용은 PHP 중국어 웹사이트의 기타 관련 기사를 참조하세요!

성명
이 기사는 机器之心에서 복제됩니다. 침해가 있는 경우 admin@php.cn으로 문의하시기 바랍니다. 삭제
메타의 새로운 AI 어시스턴트 : 생산성 부스터 또는 시간 싱크?메타의 새로운 AI 어시스턴트 : 생산성 부스터 또는 시간 싱크?May 01, 2025 am 11:18 AM

Meta는 NVIDIA, IBM 및 DELL과 같은 파트너와 함께 LLAMA 스택의 엔터프라이즈 수준 배포 통합을 확장했습니다. 보안 측면에서 Meta는 Llama Guard 4, Llamafirewall 및 Cyberseceval 4와 같은 새로운 도구를 출시했으며 AI 보안을 향상시키기 위해 LLAMA Defenders 프로그램을 시작했습니다. 또한 Meta는 공공 서비스, 건강 관리 및 교육을 개선하기 위해 노력하는 신생 기업을 포함하여 10 개의 글로벌 기관에 LLAMA Impact Grants의 150 만 달러를 배포했습니다. Llama 4에 의해 구동되는 새로운 Meta AI 응용 프로그램, Meta AI로 생각됩니다.

Gen Zers의 80%가 AI : 연구와 결혼 할 것입니다Gen Zers의 80%가 AI : 연구와 결혼 할 것입니다May 01, 2025 am 11:17 AM

인간 -AI 상호 작용을 개척하는 회사 인 Joi AI는 이러한 진화하는 관계를 설명하기 위해 "AI-Lationships"라는 용어를 도입했습니다. Joi AI의 관계 치료사 인 Jaime Bronstein은 이것이 인간 C를 대체하는 것이 아니라는 것을 분명히합니다.

AI는 인터넷의 봇 문제를 악화시키고 있습니다. 이 20 억 달러 규모의 스타트 업은 최전선에 있습니다AI는 인터넷의 봇 문제를 악화시키고 있습니다. 이 20 억 달러 규모의 스타트 업은 최전선에 있습니다May 01, 2025 am 11:16 AM

온라인 사기와 봇 공격은 비즈니스에 큰 도전을 제기합니다. 소매 업체는 봇과 싸우고, 은행은 전투 계정 인수 및 소셜 미디어 플랫폼이 사천자와 어려움을 겪고 있습니다. AI의 부상은이 문제를 악화시킨다

로봇에 판매 : 비즈니스를 만들거나 파괴 할 마케팅 혁명로봇에 판매 : 비즈니스를 만들거나 파괴 할 마케팅 혁명May 01, 2025 am 11:15 AM

AI 에이전트는 마케팅에 혁명을 일으킬 준비가되어 있으며 이전 기술 변화의 영향을 능가 할 수 있습니다. 생성 AI의 상당한 발전을 나타내는이 에이전트는 Chatgpt와 같은 정보뿐만 아니라 Actio도 취합니다.

컴퓨터 비전 기술이 NBA 플레이 오프를 혁신하는 방법컴퓨터 비전 기술이 NBA 플레이 오프를 혁신하는 방법May 01, 2025 am 11:14 AM

중요한 NBA 게임 4 결정에 대한 AI의 영향 두 가지 중추적 인 게임 4 NBA 매치업은 AI의 게임 변화 역할을 선보였습니다. 첫 번째로 덴버의 Nikola Jokic의 놓친 3 점은 Aaron Gordon의 마지막으로 골목길을 이끌었습니다. 소니의 매

AI가 재생 의학의 미래를 가속화하는 방법AI가 재생 의학의 미래를 가속화하는 방법May 01, 2025 am 11:13 AM

전통적으로 전 세계적으로 재생 의학 전문 지식을 확장하여 광범위한 여행, 실습 교육 및 수년간의 멘토링을 요구했습니다. 이제 AI는이 환경을 변화시키고 지리적 한계를 극복하고 EN을 통한 진행 상황을 가속화하고 있습니다.

Intel Foundry Direct Connect 2025의 주요 테이크 아웃Intel Foundry Direct Connect 2025의 주요 테이크 아웃May 01, 2025 am 11:12 AM

인텔은 제조 공정을 선도적 인 위치로 반환하기 위해 노력하고 있으며 팹 반도체 고객을 유치하여 팹에서 칩을 만들려고 노력하고 있습니다. 이를 위해 인텔은 프로세스의 경쟁력을 증명할뿐만 아니라 파트너가 친숙하고 성숙한 워크 플로우, 일관되고 신뢰할 수있는 방식으로 칩을 제조 할 수 있음을 보여주기 위해 업계에 대한 신뢰를 더 많이 구축해야합니다. 오늘 내가 듣는 모든 것은 인텔 이이 목표를 향해 나아가고 있다고 믿게 만듭니다. 새로운 CEO 인 탄 리바이 (Tan Libai)의 기조 연설이 그 날을 시작했다. Tan Libai는 간단하고 간결합니다. 그는 Intel의 Foundry Services에서 몇 가지 과제를 간략하게 설명하고 회사가 이러한 과제를 해결하고 향후 인텔의 파운드리 서비스를위한 성공적인 경로를 계획하기 위해 취한 조치를 취했습니다. Tan Libai는 고객을 더 많이 만들기 위해 인텔의 OEM 서비스가 구현되는 과정에 대해 이야기했습니다.

ai 잘못 되었나요? 이제 보험이 있습니다ai 잘못 되었나요? 이제 보험이 있습니다May 01, 2025 am 11:11 AM

AI 위험과 관련된 점점 더 많은 문제를 해결하기 위해, 글로벌 특수 재보험 회사 인 Chaucer Group 및 Armilla AI는 TPL (Third-Party Liability) 보험 상품을 도입하기 위해 힘을 합쳤습니다. 이 정책은 비즈니스를 보호합니다

See all articles

핫 AI 도구

Undresser.AI Undress

Undresser.AI Undress

사실적인 누드 사진을 만들기 위한 AI 기반 앱

AI Clothes Remover

AI Clothes Remover

사진에서 옷을 제거하는 온라인 AI 도구입니다.

Undress AI Tool

Undress AI Tool

무료로 이미지를 벗다

Clothoff.io

Clothoff.io

AI 옷 제거제

Video Face Swap

Video Face Swap

완전히 무료인 AI 얼굴 교환 도구를 사용하여 모든 비디오의 얼굴을 쉽게 바꾸세요!

뜨거운 도구

메모장++7.3.1

메모장++7.3.1

사용하기 쉬운 무료 코드 편집기

SublimeText3 Mac 버전

SublimeText3 Mac 버전

신 수준의 코드 편집 소프트웨어(SublimeText3)

SecList

SecList

SecLists는 최고의 보안 테스터의 동반자입니다. 보안 평가 시 자주 사용되는 다양한 유형의 목록을 한 곳에 모아 놓은 것입니다. SecLists는 보안 테스터에게 필요할 수 있는 모든 목록을 편리하게 제공하여 보안 테스트를 더욱 효율적이고 생산적으로 만드는 데 도움이 됩니다. 목록 유형에는 사용자 이름, 비밀번호, URL, 퍼징 페이로드, 민감한 데이터 패턴, 웹 셸 등이 포함됩니다. 테스터는 이 저장소를 새로운 테스트 시스템으로 간단히 가져올 수 있으며 필요한 모든 유형의 목록에 액세스할 수 있습니다.

SublimeText3 중국어 버전

SublimeText3 중국어 버전

중국어 버전, 사용하기 매우 쉽습니다.

Dreamweaver Mac版

Dreamweaver Mac版

시각적 웹 개발 도구