찾다
기술 주변기기일체 포함Stanford/Google Brain: 이중 증류, 유도 확산 모델 샘플링 속도가 256배 향상되었습니다!

최근 분류기가 없는 유도 확산 모델은 고해상도 이미지 생성에 매우 효과적이며 DALL-E 2, GLIDE 및 Imagen을 포함한 대규모 확산 프레임워크에서 널리 사용되었습니다.

그러나 분류기가 없는 유도 확산 모델의 한 가지 단점은 추론 시 계산 비용이 많이 든다는 것입니다. 클래스 조건부 모델과 무조건부 모델이라는 두 가지 확산 모델을 수백 번 평가해야 하기 때문입니다.

이 문제를 해결하기 위해 스탠포드 대학과 Google Brain의 학자들은 2단계 증류 방법을 사용하여 분류자 없는 유도 확산 모델의 샘플링 효율성을 향상시킬 것을 제안했습니다.

Stanford/Google Brain: 이중 증류, 유도 확산 모델 샘플링 속도가 256배 향상되었습니다!

논문 주소: https://arxiv.org/abs/2210.03142

분류기가 없는 유도 확산 모델을 빠른 샘플링 모델로 개선하는 방법은 무엇입니까?

먼저, 사전 훈련된 분류기 없는 안내 모델을 위해 연구원들은 먼저 조건부 모델과 무조건부 모델의 결합된 출력을 일치시키는 단일 모델을 학습했습니다.

그런 다음 연구원들은 이 모델을 점차적으로 더 적은 샘플링 단계를 통해 확산 모델로 추출했습니다.

ImageNet 64x64 및 CIFAR-10에서 이 방법을 사용하면 원본 모델과 시각적으로 비교할 수 있는 이미지를 생성할 수 있음을 알 수 있습니다.

4개의 샘플링 단계만으로 원래 모델과 비슷한 FID/IS 점수를 얻을 수 있으며 샘플링 속도는 최대 256배입니다.

Stanford/Google Brain: 이중 증류, 유도 확산 모델 샘플링 속도가 256배 향상되었습니다!

가이던스 가중치 w를 변경하면 연구자가 증류한 모델이 샘플 다양성과 품질 사이에서 균형을 이룰 수 있음을 알 수 있습니다. 단 한 번의 샘플링 단계만으로 시각적으로 만족스러운 결과를 얻을 수 있습니다.

확산 모델의 배경

데이터 분포의 샘플 x를 사용하여Stanford/Google Brain: 이중 증류, 유도 확산 모델 샘플링 속도가 256배 향상되었습니다! 노이즈 스케줄링 기능Stanford/Google Brain: 이중 증류, 유도 확산 모델 샘플링 속도가 256배 향상되었습니다!연구원들은 가중 평균 제곱 오차Stanford/Google Brain: 이중 증류, 유도 확산 모델 샘플링 속도가 256배 향상되었습니다!를 최소화하여 매개변수 θ로 확산 모델을 훈련했습니다.

Stanford/Google Brain: 이중 증류, 유도 확산 모델 샘플링 속도가 256배 향상되었습니다!

여기서 Stanford/Google Brain: 이중 증류, 유도 확산 모델 샘플링 속도가 256배 향상되었습니다!은 신호 대 잡음비이고, Stanford/Google Brain: 이중 증류, 유도 확산 모델 샘플링 속도가 256배 향상되었습니다!Stanford/Google Brain: 이중 증류, 유도 확산 모델 샘플링 속도가 256배 향상되었습니다!은 미리 지정된 가중치 함수입니다.

확산 모델 Stanford/Google Brain: 이중 증류, 유도 확산 모델 샘플링 속도가 256배 향상되었습니다!이 훈련되면 이산시간 DDIM 샘플러를 사용하여 모델에서 샘플링할 수 있습니다.

구체적으로 DDIM 샘플러는 z1 ∼ N(0,I)부터 시작하여 다음과 같이 업데이트됩니다

Stanford/Google Brain: 이중 증류, 유도 확산 모델 샘플링 속도가 256배 향상되었습니다!

여기서 N은 총 샘플링 단계 수입니다. Stanford/Google Brain: 이중 증류, 유도 확산 모델 샘플링 속도가 256배 향상되었습니다!를 사용하여 최종 샘플이 생성됩니다.

분류자 없는 안내는 조건부 확산 모델의 샘플 품질을 크게 향상시킬 수 있는 효과적인 방법으로 GLIDE, DALL·E 2 및 Imagen을 포함하여 널리 사용되었습니다.

샘플의 품질과 다양성을 측정하기 위한 지침 가중치 매개변수Stanford/Google Brain: 이중 증류, 유도 확산 모델 샘플링 속도가 256배 향상되었습니다!를 도입합니다. 샘플을 생성하기 위해 분류자 없는 지침은 각 업데이트 단계에서 Stanford/Google Brain: 이중 증류, 유도 확산 모델 샘플링 속도가 256배 향상되었습니다!을 예측 모델로 사용하여 조건부 확산 모델Stanford/Google Brain: 이중 증류, 유도 확산 모델 샘플링 속도가 256배 향상되었습니다!과 공동 훈련된 Stanford/Google Brain: 이중 증류, 유도 확산 모델 샘플링 속도가 256배 향상되었습니다!을 평가합니다.

분류기가 없는 안내를 사용한 샘플링은 각 샘플링 업데이트에 두 가지 확산 모델의 평가가 필요하므로 비용이 많이 드는 경우가 많습니다.

이 문제를 해결하기 위해 연구진은 반복 증류를 통해 확산 모델의 샘플링 속도를 높이는 방법인 점진적 증류를 사용했습니다.

이전에는 이 방법을 가이드 모델의 증류에 직접 사용할 수 없었고, 결정적 DDIM 샘플러 이외의 샘플러에도 사용할 수 없었습니다. 본 논문에서 연구진은 이러한 문제를 해결했습니다.

분류자가 없는 유도 확산 모델의 증류

그들의 방법은 분류자가 없는 유도 확산 모델을 증류하는 것입니다.

숙련된 교사 주도 모델의 경우 Stanford/Google Brain: 이중 증류, 유도 확산 모델 샘플링 속도가 256배 향상되었습니다! 두 단계를 거칩니다.

첫 번째 단계에서 연구원은 연속시간 학생 모델Stanford/Google Brain: 이중 증류, 유도 확산 모델 샘플링 속도가 256배 향상되었습니다!을 도입했습니다. 이 모델에는 임의의 시간 단계 t ∈ [0, 1]에서 교사 모델의 출력과 일치하는 학습 가능한 매개변수 eta1이 있습니다. 관심 있는 다양한 교육 강도Stanford/Google Brain: 이중 증류, 유도 확산 모델 샘플링 속도가 256배 향상되었습니다!를 지정한 후 다음 목표를 사용하여 학생 모델을 최적화했습니다.

Stanford/Google Brain: 이중 증류, 유도 확산 모델 샘플링 속도가 256배 향상되었습니다!

어느 Stanford/Google Brain: 이중 증류, 유도 확산 모델 샘플링 속도가 256배 향상되었습니다!.

지도 가중치 w를 결합하기 위해 연구원은 w가 학생 모델의 입력 역할을 하는 w 조건부 모델을 도입했습니다. 특징을 더 잘 포착하기 위해 그들은 푸리에 임베딩 w를 적용한 다음 Kingma 등이 사용한 시간 단계 방법을 사용하여 확산 모델의 백본에 통합했습니다.

초기화가 성능에 중요한 역할을 하기 때문에 연구원들은 학생 모델을 초기화할 때 교사 조건 모델과 동일한 매개변수를 사용했습니다(w-조건화와 관련하여 새로 도입된 매개변수 제외).

두 번째 단계에서 연구원은 이산 시간 단계 시나리오를 상상했고, 매번 샘플링 단계 수를 절반으로 줄여 학습 모델이 첫 번째 단계Stanford/Google Brain: 이중 증류, 유도 확산 모델 샘플링 속도가 256배 향상되었습니다!에서 점차적으로 학습 가능한 매개변수 θ2를 갖는 하나로 증류되었습니다. . 더 적은 단계의 학습 모델Stanford/Google Brain: 이중 증류, 유도 확산 모델 샘플링 속도가 256배 향상되었습니다!.

여기서 N은 샘플링 단계 수를 나타냅니다. Stanford/Google Brain: 이중 증류, 유도 확산 모델 샘플링 속도가 256배 향상되었습니다!Stanford/Google Brain: 이중 증류, 유도 확산 모델 샘플링 속도가 256배 향상되었습니다!의 경우 연구원은 2단계 DDIM 샘플링의 출력과 일치하도록 한 단계를 사용하도록 학생 모델을 훈련하기 시작합니다. 교사 모델(예: t /N에서 t - 0.5/N, t - 0.5/N에서 t - 1/N)

교사 모델의 2N 단계를 학생 모델의 N 단계로 증류한 후 새로운 N-단계 학생 모델을 새로운 교사 모델로 사용할 수 있으며, 그런 다음 동일한 과정을 반복하여 교사 모델을 N 단계로 증류할 수 있습니다. /2단계 학생 모델. 각 단계에서 연구자들은 교사 모델의 매개변수를 사용하여 화학 모델을 초기화합니다.

N단계 결정적 및 무작위 샘플링

⼀모델 Stanford/Google Brain: 이중 증류, 유도 확산 모델 샘플링 속도가 256배 향상되었습니다!이 훈련되면 Stanford/Google Brain: 이중 증류, 유도 확산 모델 샘플링 속도가 256배 향상되었습니다!에 대해 연구원은 DDIM 업데이트 규칙을 통해 샘플링을 수행할 수 있습니다. 연구원들은 증류 모델 Stanford/Google Brain: 이중 증류, 유도 확산 모델 샘플링 속도가 256배 향상되었습니다!의 경우 초기화 Stanford/Google Brain: 이중 증류, 유도 확산 모델 샘플링 속도가 256배 향상되었습니다!을 고려하면 이 샘플링 프로세스가 결정적이라는 점에 주목했습니다.

또한 연구원은 N단계 무작위 샘플링을 수행할 수도 있습니다. 원래 단계 크기의 두 배인 결정론적 샘플링 단계를 사용한 다음(즉, N/2단계 결정론적 샘플러와 동일) 원래 단계 크기를 사용하여 무작위 단계를 뒤로 이동합니다(즉, 노이즈로 교란).

Stanford/Google Brain: 이중 증류, 유도 확산 모델 샘플링 속도가 256배 향상되었습니다!, t > 1/N인 경우 다음 업데이트 규칙을 사용할 수 있습니다 -

Stanford/Google Brain: 이중 증류, 유도 확산 모델 샘플링 속도가 256배 향상되었습니다!

그 중 Stanford/Google Brain: 이중 증류, 유도 확산 모델 샘플링 속도가 256배 향상되었습니다!.

t=1/N일 때 연구원은 결정적 업데이트 공식을 사용하여 Stanford/Google Brain: 이중 증류, 유도 확산 모델 샘플링 속도가 256배 향상되었습니다!에서 Stanford/Google Brain: 이중 증류, 유도 확산 모델 샘플링 속도가 256배 향상되었습니다!을 파생합니다.

무작위 샘플링을 수행하려면 결정적 샘플러와 비교하여 약간 다른 시간 단계에서 모델을 평가해야 하며 엣지 케이스에 대한 훈련 알고리즘을 약간 수정해야 한다는 점에 주목할 가치가 있습니다.

다른 증류 방법

지도 모델에 점진적 증류를 직접 적용하는 방법도 있습니다. 즉, 교사 모델의 구조를 따라 학습 모델을 직접 합동 훈련 조건으로 증류하고 무조건적인 모델. 연구자들은 이 방법을 시도한 후 이 방법이 효과적이지 않다는 것을 발견했습니다.

실험 및 결론

모델 실험은 ImageNet(64*64)과 CIFAR 10의 두 가지 표준 데이터 세트에서 수행되었습니다.

실험에서는 유도 가중치 w의 다양한 범위를 탐색했으며 모든 범위가 비교 가능한 것으로 관찰되어 [wmin, wmax] = [0, 4]를 실험에 사용했습니다. 첫 번째 및 두 번째 단계 모델은 신호 대 잡음 손실을 사용하여 학습됩니다.

기본 표준에는 DDPM 조상 샘플링과 DDIM 샘플링이 포함됩니다.

가이던스 가중치 w를 통합하는 방법을 더 잘 이해하기 위해 고정된 w 값으로 훈련된 모델이 참조로 사용됩니다.

공정한 비교를 위해 실험에서는 모든 방법에 대해 동일한 사전 훈련된 교사 모델을 사용합니다. U-Net(Ronneberger et al., 2015) 아키텍처를 기준으로 사용하고 동일한 U-Net 백본을 사용하여 w가 포함된 구조가 2단계 학생 모델로 도입되었습니다.

Stanford/Google Brain: 이중 증류, 유도 확산 모델 샘플링 속도가 256배 향상되었습니다!

위 그림은 ImageNet 64x64에서 모든 방법의 성능을 보여줍니다. 여기서 D와 S는 각각 결정론적 샘플러와 확률론적 샘플러를 나타냅니다.

실험에서 안내 간격 w∈[0, 4]를 조건으로 하는 모델 학습은 w를 고정 값으로 사용하는 모델 학습과 동일하게 수행되었습니다. 단계 수가 적을 때 우리 방법은 DDIM 기준 성능보다 훨씬 뛰어나며 기본적으로 8~16단계에서 교사 모델의 성능 수준에 도달합니다.

Stanford/Google Brain: 이중 증류, 유도 확산 모델 샘플링 속도가 256배 향상되었습니다!

ImageNet 64x64 샘플링 품질은 FID 및 IS 점수로 평가됨

Stanford/Google Brain: 이중 증류, 유도 확산 모델 샘플링 속도가 256배 향상되었습니다!

CIFAR-10 샘플링 품질은 FID 및 IS 점수로 평가됨

교사 모델도 있습니다. 인코딩 공정을 증류하고 스타일 전달에 대한 실험을 수행했습니다. 구체적으로 두 도메인 A와 B 간의 스타일 전송을 수행하기 위해 도메인 A의 이미지는 도메인 A에서 훈련된 확산 모델을 사용하여 인코딩된 다음 도메인 B에서 훈련된 확산 모델을 사용하여 디코딩됩니다.

Stanford/Google Brain: 이중 증류, 유도 확산 모델 샘플링 속도가 256배 향상되었습니다!

Stanford/Google Brain: 이중 증류, 유도 확산 모델 샘플링 속도가 256배 향상되었습니다!

인코딩 과정은 역DDIM 샘플링 과정으로 이해될 수 있으므로 위 그림과 같이 분류자 없는 지침으로 인코더와 디코더를 모두 추출하고 DDIM 인코더 및 디코더와 비교했습니다. 또한 부팅 강도 w의 변경이 성능에 미치는 영향도 살펴봅니다.

요약하자면, 유도 확산 모델을 위한 증류 방법과 증류 모델에서 샘플링하는 랜덤 샘플러를 제안합니다. 경험적으로 우리의 방법은 단 한 단계로 시각적으로 높은 경험의 샘플링을 달성하고 단 8~16단계로 교사와 비슷한 FID/IS 점수를 얻습니다.

위 내용은 Stanford/Google Brain: 이중 증류, 유도 확산 모델 샘플링 속도가 256배 향상되었습니다!의 상세 내용입니다. 자세한 내용은 PHP 중국어 웹사이트의 기타 관련 기사를 참조하세요!

성명
이 기사는 51CTO.COM에서 복제됩니다. 침해가 있는 경우 admin@php.cn으로 문의하시기 바랍니다. 삭제
강화 조정 안내서 - 분석 Vidhya강화 조정 안내서 - 분석 VidhyaApr 28, 2025 am 09:30 AM

강화 결합은 인간의 피드백을 기반으로 조정하도록 모델을 가르치면서 AI 개발을 흔들었다. 감독 학습 기초가 보상 기반 업데이트와 혼합되어 더 안전하고 정확하며 진정으로 도움을줍니다.

Let 's Dance : 인간 신경 그물을 미세 조정하기위한 구조화 된 움직임Let 's Dance : 인간 신경 그물을 미세 조정하기위한 구조화 된 움직임Apr 27, 2025 am 11:09 AM

과학자들은 C. el 그러나 중요한 질문이 발생합니다. 새로운 AI S와 함께 효과적으로 작동하도록 우리 자신의 신경망을 어떻게 조정합니까?

새로운 Google 유출은 Gemini AI의 구독 변경을 보여줍니다새로운 Google 유출은 Gemini AI의 구독 변경을 보여줍니다Apr 27, 2025 am 11:08 AM

Google의 Gemini Advanced : 수평선의 새로운 가입 계층 현재 Gemini Advanced에 액세스하려면 $ 19.99/월 Google One AI Premium Plan이 필요합니다. 그러나 Android Authority 보고서는 다가오는 변경 사항을 암시합니다. 최신 Google p. 내 코드

데이터 분석 가속이 AI의 숨겨진 병목 현상을 해결하는 방법데이터 분석 가속이 AI의 숨겨진 병목 현상을 해결하는 방법Apr 27, 2025 am 11:07 AM

고급 AI 기능을 둘러싼 과대 광고에도 불구하고 Enterprise AI 배포 내에서 상당한 도전 과제 : 데이터 처리 병목 현상. CEO는 AI 발전을 축하하는 동안 엔지니어는 느린 쿼리 시간, 과부하 파이프 라인,

Markitdown MCP는 모든 문서를 Markdowns로 변환 할 수 있습니다!Markitdown MCP는 모든 문서를 Markdowns로 변환 할 수 있습니다!Apr 27, 2025 am 09:47 AM

문서 처리는 더 이상 AI 프로젝트에서 파일을 여는 것이 아니라 혼돈을 명확하게 전환하는 것입니다. PDF, PowerPoint 및 Word와 같은 문서는 모든 모양과 크기로 워크 플로우를 범람합니다. 구조화 된 검색

빌딩 에이전트에 Google ADK를 사용하는 방법은 무엇입니까? - 분석 Vidhya빌딩 에이전트에 Google ADK를 사용하는 방법은 무엇입니까? - 분석 VidhyaApr 27, 2025 am 09:42 AM

Google의 에이전트 개발 키트 (ADK)의 전력을 활용하여 실제 기능을 갖춘 지능형 에이전트를 만듭니다! 이 튜토리얼은 Gemini 및 GPT와 같은 다양한 언어 모델을 지원하는 ADK를 사용하여 대화 에이전트를 구축하는 것을 안내합니다. w

효과적인 문제 해결을 위해 LLM을 통해 SLM 사용 - 분석 Vidhya효과적인 문제 해결을 위해 LLM을 통해 SLM 사용 - 분석 VidhyaApr 27, 2025 am 09:27 AM

요약: SLM (Small Language Model)은 효율성을 위해 설계되었습니다. 자원 결핍, 실시간 및 개인 정보 보호 환경에서 LLM (Large Language Model)보다 낫습니다. 초점 기반 작업, 특히 도메인 특이성, 제어 성 및 해석 성이 일반적인 지식이나 창의성보다 더 중요합니다. SLM은 LLM을 대체하지는 않지만 정밀, 속도 및 비용 효율성이 중요 할 때 이상적입니다. 기술은 더 적은 자원으로 더 많은 것을 달성하는 데 도움이됩니다. 그것은 항상 운전자가 아니라 프로모터였습니다. 증기 엔진 시대부터 인터넷 버블 시대에 이르기까지 기술의 힘은 문제를 해결하는 데 도움이되는 정도입니다. 인공 지능 (AI) 및보다 최근에 생성 AI가 예외는 아닙니다.

컴퓨터 비전 작업에 Google Gemini 모델을 사용하는 방법은 무엇입니까? - 분석 Vidhya컴퓨터 비전 작업에 Google Gemini 모델을 사용하는 방법은 무엇입니까? - 분석 VidhyaApr 27, 2025 am 09:26 AM

컴퓨터 비전을위한 Google Gemini의 힘을 활용 : 포괄적 인 가이드 주요 AI 챗봇 인 Google Gemini는 강력한 컴퓨터 비전 기능을 포괄하기 위해 대화를 넘어서 기능을 확장합니다. 이 안내서는 사용 방법에 대해 자세히 설명합니다

See all articles

핫 AI 도구

Undresser.AI Undress

Undresser.AI Undress

사실적인 누드 사진을 만들기 위한 AI 기반 앱

AI Clothes Remover

AI Clothes Remover

사진에서 옷을 제거하는 온라인 AI 도구입니다.

Undress AI Tool

Undress AI Tool

무료로 이미지를 벗다

Clothoff.io

Clothoff.io

AI 옷 제거제

Video Face Swap

Video Face Swap

완전히 무료인 AI 얼굴 교환 도구를 사용하여 모든 비디오의 얼굴을 쉽게 바꾸세요!

뜨거운 도구

mPDF

mPDF

mPDF는 UTF-8로 인코딩된 HTML에서 PDF 파일을 생성할 수 있는 PHP 라이브러리입니다. 원저자인 Ian Back은 자신의 웹 사이트에서 "즉시" PDF 파일을 출력하고 다양한 언어를 처리하기 위해 mPDF를 작성했습니다. HTML2FPDF와 같은 원본 스크립트보다 유니코드 글꼴을 사용할 때 속도가 느리고 더 큰 파일을 생성하지만 CSS 스타일 등을 지원하고 많은 개선 사항이 있습니다. RTL(아랍어, 히브리어), CJK(중국어, 일본어, 한국어)를 포함한 거의 모든 언어를 지원합니다. 중첩된 블록 수준 요소(예: P, DIV)를 지원합니다.

WebStorm Mac 버전

WebStorm Mac 버전

유용한 JavaScript 개발 도구

Eclipse용 SAP NetWeaver 서버 어댑터

Eclipse용 SAP NetWeaver 서버 어댑터

Eclipse를 SAP NetWeaver 애플리케이션 서버와 통합합니다.

메모장++7.3.1

메모장++7.3.1

사용하기 쉬운 무료 코드 편집기

VSCode Windows 64비트 다운로드

VSCode Windows 64비트 다운로드

Microsoft에서 출시한 강력한 무료 IDE 편집기