Apple의 '마트료시카' 스타일 확산 모델은 훈련 단계 수를 70% 줄입니다!-일체 포함-php.cn

집

기술 주변기기

일체 포함

Apple의 '마트료시카' 스타일 확산 모델은 훈련 단계 수를 70% 줄입니다!

WBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWB

Oct 25, 2023 pm 02:13 PM

모델기차

Apple의 최신 연구에 따르면 고해상도 이미지에서 확산 모델의 성능이 크게 향상되었습니다.

이 방법을 사용하면 동일한 해상도의 이미지에 대한 학습 단계 수가 70% 이상 줄어듭니다.

1024×1024의 해상도에서는 화질이 그대로 가득 차서 디테일이 선명하게 보입니다.

Apple의 마트료시카 스타일 확산 모델은 훈련 단계 수를 70% 줄입니다!

Apple은 이 업적에 MDM이라는 이름을 붙였는데, DM은 Diffusion Model의 약자이며 첫 번째 M은 Matryoshka를 의미합니다.

실제 마트료시카 인형처럼 MDM은 고해상도 프로세스 내에 저해상도 프로세스를 중첩하며 여러 레이어에 중첩됩니다.

고해상도 및 저해상도 확산 공정이 동시에 수행되므로 고해상도 공정에서 기존 확산 모델의 자원 소비가 크게 줄어듭니다.

Apple의 마트료시카 스타일 확산 모델은 훈련 단계 수를 70% 줄입니다!

배치 크기가 1024인 환경에서 256×256 해상도 이미지의 경우 기존 확산 모델에는 150만 개의 학습 단계가 필요한 반면 MDM에는 390,000개의 단계만 필요하므로 이는 70% 이상 감소합니다. .

또한 MDM은 엔드 투 엔드 교육을 사용하며 특정 데이터 세트 및 사전 교육된 모델에 의존하지 않고 생성 품질을 보장하면서 속도를 향상시키며 사용이 유연합니다.

Apple의 마트료시카 스타일 확산 모델은 훈련 단계 수를 70% 줄입니다!

고해상도 이미지를 그릴 수 있을 뿐만 아니라 16×256² 동영상을 합성할 수도 있습니다.

Apple의 마트료시카 스타일 확산 모델은 훈련 단계 수를 70% 줄입니다!

일부 네티즌들은 애플이 드디어 텍스트를 이미지로 연결했다고 댓글을 달았습니다.

Apple의 마트료시카 스타일 확산 모델은 훈련 단계 수를 70% 줄입니다!

그렇다면 MDM의 '마트료시카' 기술은 정확히 어떻게 작동하는 걸까요?

전체 및 점진적 결합

Apple의 마트료시카 스타일 확산 모델은 훈련 단계 수를 70% 줄입니다!

학습을 시작하기 전에 데이터를 전처리해야 합니다. 고해상도 이미지는 특정 알고리즘을 사용하여 리샘플링되어 다양한 해상도의 버전을 얻습니다.

그런 다음 공동 UNet 모델링을 위해 이러한 다양한 해상도의 데이터를 사용합니다. 소형 UNet은 저해상도를 처리하고 고해상도를 처리하는 대형 UNet에 중첩됩니다.

교차 해상도 연결을 통해 다양한 크기의 UNet 간에 기능과 매개변수를 공유할 수 있습니다.

Apple의 마트료시카 스타일 확산 모델은 훈련 단계 수를 70% 줄입니다!

MDM 교육은 단계별 과정입니다.

모델링은 공동으로 진행되지만 처음에는 고해상도에 대한 학습 과정이 진행되지 않고 점차 저해상도부터 확장될 예정입니다.

이를 통해 엄청난 양의 계산을 피할 수 있으며 저해상도 UNet의 사전 학습을 통해 고해상도 학습 프로세스를 가속화할 수도 있습니다.

훈련 과정에서 고해상도 훈련 데이터가 전체 과정에 점진적으로 추가되어 모델이 점진적으로 증가하는 해상도에 적응하고 최종 고해상도 과정으로 원활하게 전환할 수 있습니다.

Apple의 마트료시카 스타일 확산 모델은 훈련 단계 수를 70% 줄입니다!

그러나 전반적으로 고해상도 프로세스가 점차 추가된 후에도 MDM 교육은 여전히 엔드 투 엔드 공동 프로세스입니다.

다양한 해상도의 공동 학습에서는 여러 해상도의 손실 함수가 매개변수 업데이트에 함께 참여하여 다단계 학습으로 인한 오류 누적을 방지합니다.

각 해상도에는 데이터 항목의 해당 재구성 손실이 있으며, 생성 품질을 보장하기 위해 서로 다른 해상도의 손실에 가중치가 더 커집니다.

추론 단계에서 MDM은 병렬성과 진행성을 결합한 전략도 채택합니다.

또한 MDM은 사전 훈련된 이미지 분류 모델(CFG)을 사용하여 생성된 샘플의 최적화를 보다 합리적인 방향으로 안내하고, 저해상도 샘플에 노이즈를 추가하여 고해상도 분포에 더 가깝게 만듭니다. 견본.

그렇다면 MDM의 효과는 무엇일까요?

SOTA와 경쟁하는 매개변수가 적습니다

이미지 측면에서 ImageNet 및 CC12M 데이터 세트에서 MDM의 FID(값이 낮을수록 효과가 더 좋음) 및 CLIP 성능이 일반 확산 모델보다 훨씬 뛰어납니다.

그 중 FID는 이미지 자체의 품질을 평가하는 데 사용되며, CLIP은 이미지와 텍스트 지침 간의 일치 정도를 나타냅니다.

Apple의 마트료시카 스타일 확산 모델은 훈련 단계 수를 70% 줄입니다!

DALL E 및 IMAGEN과 같은 SOTA 모델과 비교할 때 MDM의 성능도 매우 비슷하지만 MDM의 훈련 매개변수는 이러한 모델보다 훨씬 적습니다.

Apple의 마트료시카 스타일 확산 모델은 훈련 단계 수를 70% 줄입니다!

MDM은 일반 확산 모델보다 우수할 뿐만 아니라 성능도 다른 계단식 확산 모델을 능가합니다.

Apple의 마트료시카 스타일 확산 모델은 훈련 단계 수를 70% 줄입니다!

Ablation 실험 결과에 따르면 저해상도 훈련 단계가 많을수록 MDM 효과 향상이 더 분명해지고 중첩 수준이 많을수록 동일한 CLIP을 달성하는 데 필요한 훈련 단계 수가 줄어듭니다. 점수.

Apple의 마트료시카 스타일 확산 모델은 훈련 단계 수를 70% 줄입니다!

CFG 매개변수 선택은 여러 테스트 후 FID와 CLIP 사이의 절충 결과입니다(높은 CLIP 점수는 CFG 강도의 증가에 해당함).

Apple의 마트료시카 스타일 확산 모델은 훈련 단계 수를 70% 줄입니다!

위 내용은 Apple의 '마트료시카' 스타일 확산 모델은 훈련 단계 수를 70% 줄입니다!의 상세 내용입니다. 자세한 내용은 PHP 중국어 웹사이트의 기타 관련 기사를 참조하세요!

성명

이 기사는 51CTO.COM에서 복제됩니다. 침해가 있는 경우 admin@php.cn으로 문의하시기 바랍니다. 삭제

관련 기사

10 생성 AI 코드의 생성 AI 코딩 확장 대 코드를 탐색해야합니다.Apr 13, 2025 am 01:14 AM

이봐, 코딩 닌자! 하루 동안 어떤 코딩 관련 작업을 계획 했습니까? 이 블로그에 더 자세히 살펴보기 전에, 나는 당신이 당신의 모든 코딩 관련 문제에 대해 생각하기를 원합니다. 완료? - ’

요리 혁신 요리 : 인공 지능이 식품 서비스를 변화시키는 방법Apr 12, 2025 pm 12:09 PM

AI 식품 준비 여전히 초기 사용 중이지만 AI 시스템은 음식 준비에 점점 더 많이 사용되고 있습니다. AI 구동 로봇은 부엌에서 햄버거를 뒤집기, 피자 만들기 또는 SA 조립과 같은 음식 준비 작업을 자동화하는 데 사용됩니다

파이썬 네임 스페이스 및 가변 범위에 대한 포괄적 인 안내서Apr 12, 2025 pm 12:00 PM

소개 파이썬 기능에서 변수의 네임 스페이스, 범위 및 동작을 이해하는 것은 효율적으로 작성하고 런타임 오류 또는 예외를 피하는 데 중요합니다. 이 기사에서는 다양한 ASP를 탐구 할 것입니다

비전 언어 모델 (VLMS)에 대한 포괄적 인 안내서Apr 12, 2025 am 11:58 AM

소개 생생한 그림과 조각으로 둘러싸인 아트 갤러리를 걷는 것을 상상해보십시오. 이제 각 작품에 질문을하고 의미있는 대답을 얻을 수 있다면 어떨까요? “어떤 이야기를하고 있습니까?

Mediatek은 Kompanio Ultra 및 Dimensity 9400으로 프리미엄 라인업을 향상시킵니다.Apr 12, 2025 am 11:52 AM

제품 케이던스를 계속하면서 이번 달 Mediatek은 새로운 Kompanio Ultra and Dimensity 9400을 포함한 일련의 발표를했습니다. 이 제품은 스마트 폰 용 칩을 포함하여 Mediatek 비즈니스의 전통적인 부분을 채우고 있습니다.

이번 주 AI : Walmart는 패션 트렌드를 설정하기 전에 패션 트렌드를 설정합니다.Apr 12, 2025 am 11:51 AM

#1 Google은 Agent2agent를 시작했습니다 이야기 : 월요일 아침입니다. AI 기반 채용 담당자로서 당신은 더 똑똑하지 않고 더 똑똑하지 않습니다. 휴대 전화에서 회사의 대시 보드에 로그인합니다. 세 가지 중요한 역할이 공급되고, 검증되며, 예정된 FO가 있음을 알려줍니다.

생성 AI는 사이코브블을 만난다Apr 12, 2025 am 11:50 AM

나는 당신이되어야한다고 생각합니다. 우리 모두는 Psychobabble이 다양한 심리적 용어를 혼합하고 종종 이해할 수 없거나 완전히 무의미한 모듬 채터로 구성되어 있다는 것을 알고 있습니다. 당신이 fo를 뿌리기 위해해야 할 일

프로토 타입 : 과학자들은 종이를 플라스틱으로 바꿉니다Apr 12, 2025 am 11:49 AM

이번 주 발표 된 새로운 연구에 따르면 2022 년에 제조 된 플라스틱의 9.5%만이 재활용 재료로 만들어졌습니다. 한편, 플라스틱은 계속해서 매립지와 생태계에 전 세계에 쌓이고 있습니다. 그러나 도움이 진행 중입니다. 엥인 팀

See all articles

핫 AI 도구

뜨거운 도구

이 프로젝트는 osdn.net/projects/mingw로 마이그레이션되는 중입니다. 계속해서 그곳에서 우리를 팔로우할 수 있습니다. MinGW: GCC(GNU Compiler Collection)의 기본 Windows 포트로, 기본 Windows 애플리케이션을 구축하기 위한 무료 배포 가능 가져오기 라이브러리 및 헤더 파일로 C99 기능을 지원하는 MSVC 런타임에 대한 확장이 포함되어 있습니다. 모든 MinGW 소프트웨어는 64비트 Windows 플랫폼에서 실행될 수 있습니다.