찾다
기술 주변기기일체 포함확산 모델 기반 이미지 생성

Part 01 이 기사에서는 VAE와 같은 당시 생성 모델에는 큰 어려움이 있음을 제안했습니다. 즉, 이러한 유형의 모델은 먼저 조건부 분포를 정의한 다음 변형 사후를 정의하여 적응하게 됩니다. 조건부 분포와 사후 변이를 동시에 최적화해야 하는 경우가 있습니다. 데이터 분포를 표준 가우스에 매핑하는 간단한 프로세스를 정의할 수 있다면 "생성기"의 작업은 이 프로세스의 역 프로세스의 각 작은 단계를 간단히 맞추는 것이 됩니다. 이것이 확산 모델의 핵심 아이디어입니다. . 하지만 이 글은 당시 별다른 파장을 일으키지 않았다.

1.2 개발2020년에는 기존 아이디어를 바탕으로 DDPM 모델(Denoising Diffusion Probabilistic Models)을 제안했으며, 저자는 기본 확산 모델과 비교하여 확산 모델과 Denoising 점수 가이드를 제안했습니다. 생성된 이미지 샘플을 적절하게 개선하는 훈련 및 샘플링 프로세스를 통해 더 간단하고 안정적인 훈련 조건에서 최종 결과를 GAN 모델과 비교할 수 있습니다.

그림 2세대 DDPM 결과

그러나 DDPM 모델은 확산 과정이 마르코프 체인이기 때문에 상대적으로 많은 수를 필요로 한다는 단점이 있습니다. 이 방법을 통해서만 상대적으로 좋은 결과를 얻을 수 있으며 이로 인해 샘플 생성이 매우 느려집니다.

그래서 2021년 Song et al.은 DDPM 확산 과정의 샘플링 방법을 변형하고 비마코프 과정에 대한 전통적인 마르코프 확산 과정을 촉진하는 DDIM(Denoising Diffusioin Implicit Model)을 제안했습니다. , 더 작은 샘플링 단계를 사용하여 샘플 생성을 가속화하여 효율성을 크게 향상시킬 수 있습니다.

확산 모델 기반 이미지 생성

VAE와 DM 모델의 결합, GAN+DM의 결합 등과 같이 확산 모델을 기존 세대 네트워크와 통합하기 위한 후속 작업에도 몇 가지 개선 사항이 있습니다. 여기서 자세히 설명하지 마세요.

1.3 Outbreak

2022년 Google은 확산 모델을 기반으로 텍스트 설명을 사실적인 이미지로 변환할 수 있는 새로운 AI 시스템을 출시했습니다.

사진 3

사진 4확산 모델 기반 이미지 생성

Google에서 제공한 회로도에서 볼 수 있듯이 입력된 text 먼저 인코딩한 후 text-to-image 확산 모델을 통해 64*64 작은 이미지로 변환합니다. 또한, 작은 이미지를 처리하기 위해 초해상도 확산 모델을 사용하며 이미지의 해상도는 다음과 같습니다. 추가적인 반복 과정을 거쳐 개선되어 최종 생성된 결과는 1024*1024 크기의 최종 이미지입니다. 이 마법의 과정은 모든 사람이 그것을 사용할 때 느끼는 것과 같습니다. 빨간색 점선 터틀넥과 파란색 체크무늬 모자를 쓴 골든 리트리버 강아지라는 텍스트를 입력하면 프로그램이 자동으로 위의 개 사진을 생성합니다. 본.

또 다른 인기 있는 현상 수준 애플리케이션인 novalAI는 원래 AI 글쓰기 전용 웹사이트였습니다. 현재 핫한 이미지 생성을 기반으로 인터넷의 사진 리소스와 결합하여 2차원 이미지 생성에 중점을 둔 웹사이트를 훈련했습니다. 모델은 효과면에서 인간 화가의 수준에 도달하기 시작했습니다.

확산 모델 기반 이미지 생성

그림 5


그림을 제작하기 위한 전통적인 텍스트 입력 외에도 AI가 참조할 수 있는 그림 입력도 지원합니다. 기존 사진을 기반으로 새로운 사진을 생성하면 AI가 생성한 결과를 통제할 수 없는 문제가 어느 정도 해결됩니다.

Part 02

원리 설명

그렇다면, 이렇게 강력한 AI 기술의 작동 과정은 어떻게 될까요? 여기서는 간단한 프로세스를 제공하기 위해 보다 고전적인 DDPM 모델을 예로 들어 보겠습니다.

2.1 순방향 프로세스

순방향 프로세스는 훈련 샘플을 구성할 목적으로 이미지에 노이즈를 추가하는 프로세스입니다. GT .

주어진 초기 데이터 분포 x0~q(x)에 대해 점차적으로 데이터 분포에 가우스 노이즈를 추가합니다. 이 프로세스는 T번이고 각 단계의 결과는 x1, x2,...입니다. xt 에서 노이즈의 표준편차는 으로 표현되며, 노이즈 추가 과정은 다음과 같이 표현될 수 있습니다. 체인 프로세스. 결국 데이터는 등방성 가우스 분포가 되는 경향이 있습니다.

2.2 역확산 과정 확산 모델 기반 이미지 생성

역 과정은 잡음 제거 과정입니다.

이면 완전한 표준 가우스 분포에서 x0을 복원할 수 있습니다.

는 가우스 분포를 만족하고

은 충분히 작습니다. 그러면 는 여전히 가우스 분포이고 확산 모델 기반 이미지 생성은 단순히 추론할 수 없으므로 매개변수가 있는 딥 러닝 모델을 사용합니다 확산 모델 기반 이미지 생성 예측해 보세요: 확산 모델 기반 이미지 생성

확산 모델 기반 이미지 생성

x0을 알고 있으면 베이지안 공식을 사용합니다.

확산 모델 기반 이미지 생성


2.3 훈련 과정

머신러닝을 위한 경우 모든 모델 훈련은 모델의 매개변수를 최적화하여 신뢰할 수 있는 평균과 분산을 얻는 것임을 알아야 합니다. 즉,

확산 모델 기반 이미지 생성

후 일련의 파생을 통해 DDPM 모델은 최종 손실 함수 표현식을 얻었습니다.

받기 입력 x0, 1...T확산 모델 기반 이미지 생성

2. 표준 가우스 분포에서 노이즈를 샘플링합니다


3.

  • 손실을 계산하고 반복적으로 최소화합니다. 기능
  • 그림 6확산 모델 기반 이미지 생성
  • 파트 03

요약 확산 모델 기반 이미지 생성

확산모델이 좋은 모습을 보여줬네요 VAE 모델과 비교하여 사후 분포를 정렬할 필요가 없으며 GAN과 같은 추가 판별자를 훈련할 필요도 없습니다. 음성 처리 및 기타 측면에 적용할 수 있습니다. 이는 AI가 조건에 따라 여러 그림을 생성할 수 있게 하고, 인간이 결과를 필터링하고 수정할 수 있도록 하여 생산 효율성을 크게 향상시킬 수 있는 2D 페인팅의 미래가 될 것입니다. 2D 디지털 자산.

그러나 AI 기술이 발전함에 따라 항상 논란은 존재하게 되는데, 이미지 생성 분야도 예외는 아니며, 생성된 이미지 구조가 잘못되거나 불합리한 등 AI 기술 자체의 문제도 예외는 아닙니다. AI 저작물 자체의 저작권 문제 등 법적 분쟁도 일부 존재한다. 기술적인 문제는 기술 자체의 발전을 통해 해결할 수 있습니다. AI 기술의 발전으로 이미지 생성이 결국 매우 높은 수준에 도달하여 대부분의 저가형 페인팅 관련 직업이 사라질 것이라고 믿을 만한 이유가 있습니다. 인간의 생산성을 크게 해방시킵니다. 저작권 문제로 인해 정부 부처는 관련 산업의 발전에 충분한 관심을 기울이고 관련 정책과 시스템을 개선해야 합니다. 이를 위해서는 AI 기술이 우리에게 더 나은 서비스를 제공할 수 있도록 신흥 분야에 대해 더 많이 생각해야 합니다.

참고자료

https://www.php.cn/link/3799b2e805a7fa8b076fc020574a73b2

https://www.php.cn/링크 /6872937617af85db5a39a5243e858d1f

https://www.php.cn/link/831da40e5907987235ebe5616446e083

위 내용은 확산 모델 기반 이미지 생성의 상세 내용입니다. 자세한 내용은 PHP 중국어 웹사이트의 기타 관련 기사를 참조하세요!

성명
이 기사는 51CTO.COM에서 복제됩니다. 침해가 있는 경우 admin@php.cn으로 문의하시기 바랍니다. 삭제
외삽에 대한 포괄적 인 가이드외삽에 대한 포괄적 인 가이드Apr 15, 2025 am 11:38 AM

소개 매일 몇 주 만에 작물의 진행 상황을 관찰하는 농부가 있다고 가정합니다. 그는 성장률을보고 몇 주 안에 식물이 얼마나 키가 커질 수 있는지에 대해 숙고하기 시작합니다. Th

소프트 AI의 부상과 오늘날 비즈니스의 의미소프트 AI의 부상과 오늘날 비즈니스의 의미Apr 15, 2025 am 11:36 AM

Soft AI-대략적인 추론, 패턴 인식 및 유연한 의사 결정을 사용하여 구체적이고 좁은 작업을 수행하도록 설계된 AI 시스템으로 정의 된 것은 모호성을 수용하여 인간과 같은 사고를 모방하려고합니다. 그러나 이것이 바이러스의 의미는 무엇입니까?

AI 국경을위한 진화 보안 프레임 워크AI 국경을위한 진화 보안 프레임 워크Apr 15, 2025 am 11:34 AM

클라우드 컴퓨팅이 클라우드 네이티브 보안 도구로의 전환이 필요했기 때문에 AI는 AI의 고유 한 요구를 위해 특별히 설계된 새로운 유형의 보안 솔루션을 요구합니다. 클라우드 컴퓨팅 및 보안 수업의 상승이 배웠습니다 th

3 가지 방법 생성 AI 기업가를 증폭시킵니다 : 평균을 조심하십시오!3 가지 방법 생성 AI 기업가를 증폭시킵니다 : 평균을 조심하십시오!Apr 15, 2025 am 11:33 AM

기업가와 AI 및 생성 AI를 사용하여 비즈니스를 개선합니다. 동시에, 모든 기술과 마찬가지로 생성 AI를 기억하는 것이 중요합니다. 앰프는 앰프입니다. 엄격한 2024 연구 o

Andrew Ng의 모델 임베딩에 대한 새로운 단기 과정Andrew Ng의 모델 임베딩에 대한 새로운 단기 과정Apr 15, 2025 am 11:32 AM

임베딩 모델의 힘 잠금 해제 : Andrew Ng의 새로운 코스에 대한 깊은 다이빙 기계가 완벽한 정확도로 질문을 이해하고 응답하는 미래를 상상해보십시오. 이것은 공상 과학이 아닙니다. AI의 발전 덕분에 R이되었습니다

대형 언어 모델 (LLMS)에서 환각이 불가피합니까?대형 언어 모델 (LLMS)에서 환각이 불가피합니까?Apr 15, 2025 am 11:31 AM

대형 언어 모델 (LLM) 및 환각의 피할 수없는 문제 Chatgpt, Claude 및 Gemini와 같은 AI 모델을 사용했을 것입니다. 이들은 대규모 텍스트 데이터 세트에 대해 교육을받은 강력한 AI 시스템의 대형 언어 모델 (LLM)의 예입니다.

60% 문제 - AI 검색이 트래픽을 배출하는 방법60% 문제 - AI 검색이 트래픽을 배출하는 방법Apr 15, 2025 am 11:28 AM

최근의 연구에 따르면 AI 개요는 산업 및 검색 유형에 따라 유기 트래픽이 15-64% 감소 할 수 있습니다. 이러한 급격한 변화로 인해 마케팅 담당자는 디지털 가시성에 관한 전체 전략을 재고하게합니다. 새로운

AI R & D의 중심에 인간 번성을하는 MIT Media LabAI R & D의 중심에 인간 번성을하는 MIT Media LabApr 15, 2025 am 11:26 AM

Elon University의 Digital Future Center를 상상 한 최근 보고서는 거의 300 명의 글로벌 기술 전문가를 조사했습니다. 결과적인 보고서 인‘2035 년에 인간이되는 것’은 대부분 AI 시스템의 심화가 T에 대한 우려가 있다고 결론지었습니다.

See all articles

핫 AI 도구

Undresser.AI Undress

Undresser.AI Undress

사실적인 누드 사진을 만들기 위한 AI 기반 앱

AI Clothes Remover

AI Clothes Remover

사진에서 옷을 제거하는 온라인 AI 도구입니다.

Undress AI Tool

Undress AI Tool

무료로 이미지를 벗다

Clothoff.io

Clothoff.io

AI 옷 제거제

AI Hentai Generator

AI Hentai Generator

AI Hentai를 무료로 생성하십시오.

인기 기사

R.E.P.O. 에너지 결정과 그들이하는 일 (노란색 크리스탈)
4 몇 주 전By尊渡假赌尊渡假赌尊渡假赌
R.E.P.O. 최고의 그래픽 설정
4 몇 주 전By尊渡假赌尊渡假赌尊渡假赌
R.E.P.O. 아무도들을 수없는 경우 오디오를 수정하는 방법
4 몇 주 전By尊渡假赌尊渡假赌尊渡假赌
R.E.P.O. 채팅 명령 및 사용 방법
4 몇 주 전By尊渡假赌尊渡假赌尊渡假赌

뜨거운 도구

mPDF

mPDF

mPDF는 UTF-8로 인코딩된 HTML에서 PDF 파일을 생성할 수 있는 PHP 라이브러리입니다. 원저자인 Ian Back은 자신의 웹 사이트에서 "즉시" PDF 파일을 출력하고 다양한 언어를 처리하기 위해 mPDF를 작성했습니다. HTML2FPDF와 같은 원본 스크립트보다 유니코드 글꼴을 사용할 때 속도가 느리고 더 큰 파일을 생성하지만 CSS 스타일 등을 지원하고 많은 개선 사항이 있습니다. RTL(아랍어, 히브리어), CJK(중국어, 일본어, 한국어)를 포함한 거의 모든 언어를 지원합니다. 중첩된 블록 수준 요소(예: P, DIV)를 지원합니다.

Atom Editor Mac 버전 다운로드

Atom Editor Mac 버전 다운로드

가장 인기 있는 오픈 소스 편집기

에디트플러스 중국어 크랙 버전

에디트플러스 중국어 크랙 버전

작은 크기, 구문 강조, 코드 프롬프트 기능을 지원하지 않음

PhpStorm 맥 버전

PhpStorm 맥 버전

최신(2018.2.1) 전문 PHP 통합 개발 도구

WebStorm Mac 버전

WebStorm Mac 버전

유용한 JavaScript 개발 도구