Apple의 최신 연구에 따르면 고해상도 이미지에서 확산 모델의 성능이 크게 향상되었습니다.
이 방법을 사용하면 동일한 해상도의 이미지에 대한 학습 단계 수가 70% 이상 줄어듭니다.
1024×1024의 해상도에서는 화질이 그대로 가득 차서 디테일이 선명하게 보입니다.
Apple은 이 업적에 MDM이라는 이름을 붙였는데, DM은 Diffusion Model의 약자이며 첫 번째 M은 Matryoshka를 의미합니다.
실제 마트료시카 인형처럼 MDM은 고해상도 프로세스 내에 저해상도 프로세스를 중첩하며 여러 레이어에 중첩됩니다.
고해상도 및 저해상도 확산 공정이 동시에 수행되므로 고해상도 공정에서 기존 확산 모델의 자원 소비가 크게 줄어듭니다.
배치 크기가 1024인 환경에서 256×256 해상도 이미지의 경우 기존 확산 모델에는 150만 개의 학습 단계가 필요한 반면 MDM에는 390,000개의 단계만 필요하므로 이는 70% 이상 감소합니다. .
또한 MDM은 엔드 투 엔드 교육을 사용하며 특정 데이터 세트 및 사전 교육된 모델에 의존하지 않고 생성 품질을 보장하면서 속도를 향상시키며 사용이 유연합니다.
고해상도 이미지를 그릴 수 있을 뿐만 아니라 16×256² 동영상을 합성할 수도 있습니다.
일부 네티즌들은 애플이 드디어 텍스트를 이미지로 연결했다고 댓글을 달았습니다.
그렇다면 MDM의 '마트료시카' 기술은 정확히 어떻게 작동하는 걸까요?
학습을 시작하기 전에 데이터를 전처리해야 합니다. 고해상도 이미지는 특정 알고리즘을 사용하여 리샘플링되어 다양한 해상도의 버전을 얻습니다.
그런 다음 공동 UNet 모델링을 위해 이러한 다양한 해상도의 데이터를 사용합니다. 소형 UNet은 저해상도를 처리하고 고해상도를 처리하는 대형 UNet에 중첩됩니다.
교차 해상도 연결을 통해 다양한 크기의 UNet 간에 기능과 매개변수를 공유할 수 있습니다.
MDM 교육은 단계별 과정입니다.
모델링은 공동으로 진행되지만 처음에는 고해상도에 대한 학습 과정이 진행되지 않고 점차 저해상도부터 확장될 예정입니다.
이를 통해 엄청난 양의 계산을 피할 수 있으며 저해상도 UNet의 사전 학습을 통해 고해상도 학습 프로세스를 가속화할 수도 있습니다.
훈련 과정에서 고해상도 훈련 데이터가 전체 과정에 점진적으로 추가되어 모델이 점진적으로 증가하는 해상도에 적응하고 최종 고해상도 과정으로 원활하게 전환할 수 있습니다.
그러나 전반적으로 고해상도 프로세스가 점차 추가된 후에도 MDM 교육은 여전히 엔드 투 엔드 공동 프로세스입니다.
다양한 해상도의 공동 학습에서는 여러 해상도의 손실 함수가 매개변수 업데이트에 함께 참여하여 다단계 학습으로 인한 오류 누적을 방지합니다.
각 해상도에는 데이터 항목의 해당 재구성 손실이 있으며, 생성 품질을 보장하기 위해 서로 다른 해상도의 손실에 가중치가 더 커집니다.
추론 단계에서 MDM은 병렬성과 진행성을 결합한 전략도 채택합니다.
또한 MDM은 사전 훈련된 이미지 분류 모델(CFG)을 사용하여 생성된 샘플의 최적화를 보다 합리적인 방향으로 안내하고, 저해상도 샘플에 노이즈를 추가하여 고해상도 분포에 더 가깝게 만듭니다. 견본.
그렇다면 MDM의 효과는 무엇일까요?
이미지 측면에서 ImageNet 및 CC12M 데이터 세트에서 MDM의 FID(값이 낮을수록 효과가 더 좋음) 및 CLIP 성능이 일반 확산 모델보다 훨씬 뛰어납니다.
그 중 FID는 이미지 자체의 품질을 평가하는 데 사용되며, CLIP은 이미지와 텍스트 지침 간의 일치 정도를 나타냅니다.
DALL E 및 IMAGEN과 같은 SOTA 모델과 비교할 때 MDM의 성능도 매우 비슷하지만 MDM의 훈련 매개변수는 이러한 모델보다 훨씬 적습니다.
MDM은 일반 확산 모델보다 우수할 뿐만 아니라 성능도 다른 계단식 확산 모델을 능가합니다.
Ablation 실험 결과에 따르면 저해상도 훈련 단계가 많을수록 MDM 효과 향상이 더 분명해지고 중첩 수준이 많을수록 동일한 CLIP을 달성하는 데 필요한 훈련 단계 수가 줄어듭니다. 점수.
CFG 매개변수 선택은 여러 테스트 후 FID와 CLIP 사이의 절충 결과입니다(높은 CLIP 점수는 CFG 강도의 증가에 해당함).
위 내용은 Apple의 "마트료시카" 스타일 확산 모델은 훈련 단계 수를 70% 줄입니다!의 상세 내용입니다. 자세한 내용은 PHP 중국어 웹사이트의 기타 관련 기사를 참조하세요!