최근 확산 모델은 이미지 생성 분야에서 상당한 진전을 이루어 이미지 생성 및 비디오 생성 작업에 전례 없는 개발 기회를 제공했습니다. 인상적인 결과에도 불구하고 확산 모델의 추론 프로세스에 내재된 다단계 반복 노이즈 제거 특성으로 인해 계산 비용이 높아집니다. 최근에는 확산 모델의 추론 프로세스를 가속화하기 위해 일련의 확산 모델 증류 알고리즘이 등장했습니다. 이러한 방법은 대략 두 가지 범주로 나눌 수 있습니다: i) 궤도 보존 증류, ii) 궤도 재구성 증류. 그러나 이 두 가지 유형의 방법은 제한된 효과 한계 또는 출력 도메인의 변경으로 인해 제한됩니다.
이러한 문제를 해결하기 위해 ByteDance 기술팀은 Hyper-SD라는 궤적 분할 일관성 모델을 제안했습니다. Hyper-SD의 오픈소스는 Huggingface CEO인 Clem Delangue에게도 인정을 받았습니다.
이 모델은 궤적 보존 증류와 궤적 재구성 증류의 장점을 결합하여 거의 무손실 성능을 유지하면서 노이즈 제거 단계 수를 압축하는 새로운 확산 모델 증류 프레임워크입니다. 기존 확산 모델 가속 알고리즘과 비교하여 이 방법은 우수한 가속 결과를 얻습니다. 광범위한 실험과 사용자 검토를 거친 후 Hyper-SD+는 SDXL 및 SD1.5 아키텍처 모두에서 1~8단계로 SOTA 수준의 이미지 생성 성능을 달성할 수 있습니다.
프로젝트 홈페이지: https://hyper-sd.github.io/
페이퍼 링크: https://arxiv.org/abs/2404.13686
Huggingface 링크: https:/ // /huggingface.co/ByteDance/Hyper-SD
단일 단계 생성 데모 링크: https://huggingface.co/spaces/ByteDance/Hyper-SDXL-1Step-T2I
실시간 그리기 보드 데모 링크: https: //huggingface.co/spaces/ByteDance/Hyper-SD15-Scribble
기존 증류 방법은 대략 두 가지 범주로 나눌 수 있습니다. 궤적 보존 증류 및 궤적 재구성 증류. 궤적 보존 증류 기술은 확산에 해당하는 상미분 방정식(ODE)의 원래 궤적을 유지하는 것을 목표로 합니다. 원칙은 증류된 모델과 원본 모델이 유사한 출력을 생성하도록 강제하여 추론 단계를 줄이는 것입니다. 그러나 가속을 달성할 수는 있지만 이러한 방법은 제한된 모델 용량과 학습 및 피팅 중 불가피한 오류로 인해 생성 품질이 저하될 수 있다는 점에 유의해야 합니다. 이에 비해 궤적 재구성 방법은 궤적의 중간 단계를 무시하고 궤적의 끝점이나 실제 이미지를 감독의 주요 소스로 직접 사용하며 보다 효과적인 궤적을 재구성하여 추론 단계 수를 줄이고 제한된 시간 내에 수행할 수 있습니다. . 원래 궤도의 제약에서 벗어나 단계별로 모델의 잠재력을 탐색해 보세요. 그러나 이로 인해 가속 모델의 출력 영역이 원래 모델과 일치하지 않게 되어 차선책 결과가 나오는 경우가 많습니다.
본 논문에서는 궤적 보존 전략과 재구성 전략의 장점을 결합한 궤적 분할 일관성 모델(줄여서 Hyper-SD)을 제안합니다. 특히, 알고리즘은 먼저 궤적 분할 일관성 증류를 도입하여 각 세그먼트 내에서 일관성을 강화하고 점차적으로 세그먼트 수를 줄여 전체 시간 일관성을 달성합니다. 이 전략은 모델 피팅 기능이 부족하고 추론 오류가 누적되어 일관된 모델의 성능이 최적화되지 않는 문제를 해결합니다. 그 후, 알고리즘은 인간 피드백 학습(RLHF)을 사용하여 모델 생성 효과를 향상시켜 가속 과정에서 모델 생성 효과의 손실을 보충하고 낮은 단계 추론에 더 잘 적응할 수 있도록 합니다. 마지막으로 알고리즘은 분별 증류를 사용하여 1단계 발전 성능을 향상시키고, 통합 LORA를 통해 이상적인 전시간 단계 일관성 확산 모델을 달성하여 발전 효과에서 탁월한 결과를 얻습니다.
방법
1. 궤적 분할 일관성 증류
일관적인 증류(CD) [24]와 일관된 궤적 모델(CTM) [4]은 모두 원샷 증류를 통해 확산 모델을 전체 시간 단계 범위 [0, T]에 대한 일관된 모델로 변환하는 것을 목표로 합니다. 그러나 이러한 증류 모델은 모델 피팅 기능의 한계로 인해 최적성을 달성하지 못하는 경우가 많습니다. CTM에 도입된 소프트 일관성 목표에서 영감을 받아 전체 시간 단계 범위 [0, T]를 k 세그먼트로 나누고 조각별 일관된 모델 증류를 단계별로 수행하여 학습 프로세스를 개선합니다.
첫 번째 단계에서는 k=8로 설정하고 원래 확산 모델을 사용하여 및 을 초기화합니다. 시작 시간 단계 는 에서 균일하게 무작위로 샘플링됩니다. 그런 다음 종료 시간 단계 를 샘플링합니다. 여기서 는 다음과 같이 계산됩니다.
훈련 손실은 다음과 같이 계산됩니다. 학생 모델(EMA)의 이동 평균.
이후 이전 단계의 모델 가중치를 복원하고 학습을 계속하여 k를 [4,2,1]로 점차 줄입니다. k=1이 표준 CTM 훈련 방식에 해당한다는 점은 주목할 가치가 있습니다. 거리 측정법 d의 경우 적대적 손실과 평균 제곱 오차(MSE) 손실을 혼합하여 사용합니다. 실험에서는 예측값과 목표값이 가까울 때(예: k=8, 4) MSE 손실이 더 효과적인 반면, 예측값과 목표값의 차이가 커질수록 적대적 손실이 증가하는 것을 관찰했습니다. . 더 정확해집니다(예: k=2, 1). 따라서 우리는 훈련 단계 전반에 걸쳐 적대적 손실의 가중치를 동적으로 늘리고 MSE 손실의 가중치를 줄입니다. 또한 훈련 안정성을 향상시키기 위해 소음 교란 메커니즘도 통합했습니다. 2단계 TSCD(Trajectory Segment Consensus Distillation) 프로세스를 예로 들어 보겠습니다. 아래 그림에서 볼 수 있듯이 첫 번째 단계에서는
및기간에 독립적 일관성 증류를 수행한 다음 이전 두 기간의 일관성 증류 결과를 기반으로 전역 일관성 궤적 증류를 수행합니다.
전체 알고리즘 프로세스는 다음과 같습니다.
2. 인간 피드백 학습증류 외에도 피드백 학습을 추가로 결합하여 가속 확산 모델의 성능을 향상시킵니다. 특히 인간의 미적 선호도와 기존 시각적 인식 모델의 피드백을 활용하여 가속 모델의 생성 품질을 향상합니다. 미적 피드백을 위해 우리는 아래와 같이 LAION 미적 예측기와 ImageReward에서 제공하는 미적 선호 보상 모델을 활용하여 모델이 더 많은 미적 이미지를 생성하도록 안내합니다.여기서 는 LAION 데이터 세트 및 ImageReward 모델의 미적 예측 변수를 포함한 미적 보상 모델이고, c는 텍스트 프롬프트이고, 는 ReLU 함수와 함께 힌지 손실로 사용됩니다. 미적 선호도에 대한 피드백 외에도 이미지에 대한 풍부한 사전 지식을 포함하는 기존 시각적 인식 모델도 좋은 피드백 제공자 역할을 할 수 있습니다. 경험적으로 우리는 인스턴스 분할 모델이 잘 구조화된 객체를 생성하도록 모델을 안내할 수 있음을 발견했습니다. 구체적으로, 먼저 잠재 공간에서 이미지의 노이즈를 에서 로 확산시킨 후 ImageReward와 유사하게 특정 시간 단계까지 반복적인 노이즈 제거를 수행하고 직접 예측합니다. 이어서, 지각적 인스턴스 분할 모델을 활용하여 다음과 같이 실제 이미지에 대한 인스턴스 분할 주석과 노이즈가 제거된 이미지에 대한 인스턴스 분할 예측 간의 차이를 조사하여 구조 생성 성능을 평가합니다.
여기서 는 인스턴스 분할 모델입니다. (예: 솔로). 인스턴스 분할 모델은 생성된 이미지의 구조적 결함을 보다 정확하게 캡처하고 보다 목표화된 피드백 신호를 제공할 수 있습니다. 인스턴스 분할 모델 외에도 다른 지각 모델도 적용 가능하다는 점은 주목할 가치가 있습니다. 이러한 지각 모델은 객관적인 생성 품질에 더 초점을 맞춰 주관적인 미학에 대한 보완적인 피드백 역할을 할 수 있습니다. 따라서 피드백 신호를 사용하는 최적화된 확산 모델은 다음과 같이 정의할 수 있습니다.
3. 1단계 생성 향상
일관성 손실의 고유한 한계로 인해 일관성 모델 프레임워크 내에서 1단계 생성은 불가능합니다. 이상적인. CM에서 분석한 바와 같이 일관 증류 모델은 위치 에서 궤적 끝점 을 안내하는 데 탁월한 정확도를 보여줍니다. 따라서 분별 증류는 TSCD 모델의 1단계 생성 효과를 더욱 향상시키는 데 적합하고 효과적인 방법입니다. 구체적으로는 최적화된 DMD(Distribution Matching Distillation) 기술을 통해 발전을 한층 더 발전시킵니다. DMD는 교사 모델의 분포 와 가짜 모델의 라는 두 가지 채점 기능을 활용하여 모델의 출력을 향상시킵니다. 훈련 안정성을 향상시키기 위해 평균 제곱 오차(MSE) 손실과 점수 기반 증류를 결합합니다. 이 과정에서 앞서 언급한 인간 피드백 학습 기술도 통합되어 모델을 미세 조정하여 충실도가 높은 이미지를 효과적으로 생성합니다.
이러한 전략을 통합함으로써 우리의 방법은 SD1.5와 SDXL 모두에서 우수한 저단계 추론 결과를 달성할 뿐만 아니라(분류자 지침이 필요하지 않음) 각각의 특정 숫자가 필요 없이 이상적인 전역 일관성 모델을 달성합니다. 통합된 낮은 단계 추론 모델을 달성하기 위해 UNet 또는 LoRA를 훈련하는 데 사용됩니다.
Experiments
SD1.5와 SDXL의 다양한 기존 가속 알고리즘을 정량적으로 비교한 결과, Hyper-SD가 현재의 최첨단 방식보다 훨씬 우수함을 알 수 있습니다
또한 Hyper-SD는 하나의 모델을 사용하여 다양한 낮은 단계 추론을 달성할 수 있습니다. 위의 정량적 지표는 추론을 위해 통합 모델을 사용할 때 우리 방법의 효과도 보여줍니다.
SD1.5 및 SDXL의 가속 효과 시각화는 확산 모델 추론 가속화에서 Hyper-SD의 우수성을 직관적으로 보여줍니다.
다수의 User-Study에서도 기존의 다양한 가속 알고리즘에 비해 Hyper-SD의 우수성이 입증되었습니다.
Hyper-SD로 훈련된 가속 LoRA는 다양한 스타일의 빈센트 피규어 베이스 모델과 잘 호환됩니다.
동시에 Hyper-SD의 LoRA는 기존 ControlNet에 적응하여 낮은 단계에서 제어 가능한 고품질 이미지 생성을 달성할 수도 있습니다.
요약
이 논문에서는 낮은 단계 상황에서 확산 모델의 생성 능력을 크게 향상시키고 SDXL 및 SD15를 기반으로 새로운 SOTA 성능을 달성할 수 있는 통합 확산 모델 가속 프레임워크인 Hyper-SD를 제안합니다. 이 방법은 궤적 분할 일관성 증류를 사용하여 증류 과정에서 궤적 보존 능력을 향상시키고 원래 모델에 가까운 생성 효과를 얻습니다. 그런 다음 인간 피드백 학습과 변이 분별 증류를 더욱 활용하여 매우 낮은 걸음 수에서 모델의 잠재력이 향상되어 보다 최적화되고 효율적인 모델 생성이 가능해집니다. 또한 이 백서는 생성 AI 커뮤니티의 발전을 더욱 촉진하는 것을 목표로 1~8단계 추론의 SDXL 및 SD15용 Lora 플러그인과 전용 1단계 SDXL 모델을 오픈 소스로 공개했습니다.
위 내용은 확산 모델 가속화, 가장 빠른 1단계로 SOTA 수준 이미지 생성, Byte Hyper-SD는 오픈 소스입니다.의 상세 내용입니다. 자세한 내용은 PHP 중국어 웹사이트의 기타 관련 기사를 참조하세요!