>  기사  >  기술 주변기기  >  Stable Diffusion 3 논문이 드디어 공개되고, 아키텍처의 세부 사항이 공개되어 Sora를 재현하는 데 도움이 될까요?

Stable Diffusion 3 논문이 드디어 공개되고, 아키텍처의 세부 사항이 공개되어 Sora를 재현하는 데 도움이 될까요?

WBOY
WBOY앞으로
2024-03-06 17:34:14544검색

Stable Diffusion 3 논문이 드디어 나왔습니다!

이 모델은 2주 전에 출시되었으며 Sora와 동일한 DiT(확산 변압기) 아키텍처를 사용하여 출시되자마자 상당한 화제를 불러일으켰습니다.

이전 버전과 비교하여 Stable Diffusion 3에서 생성된 이미지 품질이 크게 향상되었습니다. 이제 다중 테마 프롬프트를 지원하고 텍스트 쓰기 효과도 개선되어 더 이상 문자가 깨지지 않습니다.

Stability AI는 Stable Diffusion 3이 매개변수 크기가 800M에서 8B까지인 일련의 모델이라고 지적했습니다. 이 매개변수 범위는 모델이 많은 휴대용 장치에서 직접 실행될 수 있음을 의미하며 대규모 AI 모델을 사용하기 위한 임계값을 크게 낮춥니다.

새로 발표된 논문에서 Stability AI는 인간의 선호도 기반 평가에서 Stable Diffusion 3가 DALL・E 3, Midjourney v6, 및 표의 문자 v1. 곧 연구의 실험 데이터, 코드 및 모델 가중치를 공개적으로 제공할 예정입니다.

Stable Diffusion 3论文终于发布,架构细节大揭秘,对复现Sora有帮助?

Stability AI는 논문에서 Stable Diffusion 3에 대해 더 자세히 공개했습니다.

Stable Diffusion 3论文终于发布,架构细节大揭秘,对复现Sora有帮助?

  • 논문 제목: 고해상도 이미지 합성을 위한 정류 변압기 스케일링
  • 논문 링크: https://stabilityai-public-packages.s3.us-west-2.amazonaws .com/Stable+Diffusion+3+Paper.pdf

아키텍처 세부정보

텍스트-이미지 생성의 경우 Stable Diffusion 3 모델은 텍스트 모드와 이미지 모드를 모두 고려해야 합니다. 따라서 이 논문의 저자는 이 새로운 아키텍처를 MMDiT라고 부르며, 이는 여러 양식을 처리할 수 있는 능력을 나타냅니다. Stable Diffusion의 이전 버전과 마찬가지로 저자는 사전 훈련된 모델을 사용하여 적합한 텍스트 및 이미지 표현을 도출합니다. 특히 그들은 세 가지 다른 텍스트 임베딩 모델(두 개의 CLIP 모델과 T5)을 사용하여 텍스트 표현을 인코딩하고 향상된 자동 인코딩 모델을 사용하여 이미지 토큰을 인코딩했습니다.

Stable Diffusion 3论文终于发布,架构细节大揭秘,对复现Sora有帮助?

Stable Diffusion 3 모델 아키텍처.

Stable Diffusion 3论文终于发布,架构细节大揭秘,对复现Sora有帮助?

향상된 다중 모드 확산 변압기: MMDiT 블록.

SD3 아키텍처는 Sora 핵심 R&D 멤버인 William Peebles와 뉴욕 대학교 컴퓨터 과학 조교수인 Xie Saining이 제안한 DiT를 기반으로 합니다. 텍스트 임베딩과 이미지 임베딩은 개념적으로 매우 다르기 때문에 SD3 작성자는 두 가지 양식에 대해 서로 다른 두 가지 가중치 세트를 사용합니다. 위 그림에서 보듯이 이는 각 양식별로 2개의 독립적인 변환기를 설정하는 것과 동일하지만 주의 연산을 위해 두 양식의 시퀀스를 결합하여 두 표현이 각자의 공간에서 작동할 수 있도록 하고, 또 다른 표현도 고려한다. .

Stable Diffusion 3论文终于发布,架构细节大揭秘,对复现Sora有帮助?

저자가 제안한 MMDiT 아키텍처는 훈련 중 시각적 충실도와 텍스트 정렬을 측정할 때 UViT 및 DiT와 같은 기존의 텍스트-이미지 백본보다 성능이 뛰어납니다.

이 접근 방식을 사용하면 이미지와 텍스트 토큰 간에 정보가 흐를 수 있으므로 모델에 대한 전반적인 이해가 향상되고 생성된 출력의 텍스트 형식이 향상됩니다. 백서에서 설명한 것처럼 이 아키텍처는 비디오와 같은 다양한 형식으로 쉽게 확장할 수도 있습니다.

Stable Diffusion 3论文终于发布,架构细节大揭秘,对复现Sora有帮助?

Stable Diffusion 3의 향상된 프롬프트 추적 기능 덕분에 새 모델은 다양한 주제와 품질에 초점을 맞춘 이미지를 생성하는 동시에 이미지 자체의 스타일도 매우 유연하게 만들 수 있습니다.

Stable Diffusion 3论文终于发布,架构细节大揭秘,对复现Sora有帮助?

재가중화를 통해 개선된 Rectified Flow

Stable Diffusion 3은 훈련 과정에서 Rectified Flow(RF) 공식을 채택하여 데이터와 노이즈가 선형 궤적으로 연결됩니다. 이렇게 하면 추론 경로가 더 직선화되어 샘플링 단계가 줄어듭니다. 또한 저자는 훈련 과정에서 새로운 궤적 샘플링 방식을 도입했습니다. 그들은 궤적의 중간 부분이 더 어려운 예측 작업을 제기할 것이라고 가정했기 때문에 이 계획은 궤적의 중간 부분에 더 많은 가중치를 부여했습니다. 그들은 여러 데이터 세트, 메트릭 및 샘플러 설정을 사용하여 비교하고 LDM, EDM 및 ADM과 같은 60개의 다른 확산 궤적에 대해 제안된 방법을 테스트했습니다. 결과는 이전 RF 공식의 성능이 몇 가지 샘플링 단계로 향상되는 반면 단계 수가 증가함에 따라 상대적 성능이 감소한다는 것을 보여줍니다. 대조적으로, 저자가 제안한 재가중 RF 변형은 지속적으로 성능을 향상시킵니다.

Stable Diffusion 3论文终于发布,架构细节大揭秘,对复现Sora有帮助?

Rectified Flow Transformer 모델 확장

저자는 재가중화된 Rectified Flow 공식과 MMDiT 백본을 사용하여 텍스트-이미지 합성에 대한 확장 연구를 수행했습니다. 그들은 450M 매개변수가 있는 15개 블록부터 8B 매개변수가 있는 38개 블록에 이르는 모델을 훈련했으며 모델 크기와 훈련 단계가 증가함에 따라 검증 손실이 원활하게 감소하는 것을 관찰했습니다(확인 위 그림의 첫 번째 부분). 이것이 모델 출력의 의미 있는 개선으로 해석되었는지 여부를 조사하기 위해 저자는 자동 이미지 정렬 측정항목(GenEval)과 인간 선호도 점수(ELO)(위 두 번째 행)도 평가했습니다. 결과는 이러한 측정항목과 검증 손실 사이에 강한 상관관계가 있음을 보여 주며, 이는 후자가 모델의 전체 성능을 잘 예측할 수 있음을 시사합니다. 더욱이, 확장 추세는 포화의 징후를 보이지 않으므로 저자는 앞으로도 모델 성능을 지속적으로 개선할 것이라고 낙관합니다.

유연한 텍스트 인코더

추론에 사용되는 메모리 집약적인 4.7B 매개변수 T5 텍스트 인코더를 제거함으로써 성능 손실을 최소화하면서 SD3의 메모리 요구 사항을 크게 줄일 수 있습니다. 표시된 대로 이 텍스트 인코더를 제거하면 시각적 미학(T5 없이 50% 승률)에 영향을 미치지 않으며 텍스트 일관성(46% 승률)만 약간 감소합니다. 그러나 저자는 T5를 추가하지 않으면 아래 그림과 같이 조판 생성 성능이 훨씬 더 떨어지는 것을 관찰했기 때문에(승률 38%) SD3의 성능을 최대한 활용하기 위해 서면 텍스트를 생성할 때 T5를 추가할 것을 권장합니다.

Stable Diffusion 3论文终于发布,架构细节大揭秘,对复现Sora有帮助?

많은 세부 사항이나 많은 양의 서면 텍스트가 포함된 매우 복잡한 프롬프트를 제시하는 경우에만 추론용 T5를 제거하면 성능이 크게 저하됩니다. 위 이미지는 각 예의 무작위 샘플 3개를 보여줍니다.

모델 성능

저자는 Stable Diffusion 3의 출력 이미지를 다양한 다른 오픈 소스 모델(SDXL, SDXL Turbo, Stable Cascade, Playground v2.5 및 Pixart-α 포함) 및 비공개 소스와 비교합니다. DALL -E 3, Midjourney v6 및 Ideogram v1)과 같은 모델을 비교하여 인간 피드백을 기반으로 성능을 평가했습니다. 이러한 테스트에서 인간 평가자에게는 각 모델의 출력 예가 제공되고 모델 출력이 주어진 프롬프트의 컨텍스트(프롬프트 따르기)를 얼마나 잘 따르는지, 텍스트가 프롬프트에 따라 얼마나 잘 렌더링되는지(타이포그래피), image 최상의 결과를 얻으려면 시각적 미학이 뛰어난 이미지가 선택됩니다.

Stable Diffusion 3论文终于发布,架构细节大揭秘,对复现Sora有帮助?

SD3에 대해 벤치마킹된 이 차트는 시각적 미학, 신속한 팔로우 및 텍스트 레이아웃에 대한 인간의 평가를 기반으로 한 승률을 간략하게 설명합니다.

테스트 결과에서 저자는 Stable Diffusion 3가 위의 모든 측면에서 현재의 최첨단 텍스트-이미지 생성 시스템과 동일하거나 그보다 더 낫다는 것을 발견했습니다.

소비자 하드웨어에 대한 초기 최적화되지 않은 추론 테스트에서 가장 큰 8B 매개변수 SD3 모델은 RTX 4090의 24GB VRAM에 적합하며 50개의 샘플링 단계를 사용하여 1024x1024 해상도의 이미지를 생성하는 데 34초가 걸립니다.

Stable Diffusion 3论文终于发布,架构细节大揭秘,对复现Sora有帮助?

또한 초기 출시 시 Stable Diffusion 3은 하드웨어 장벽을 더욱 제거하기 위해 800m에서 8B 파라메트릭 모델에 이르는 다양한 변형으로 제공될 예정입니다.

Stable Diffusion 3论文终于发布,架构细节大揭秘,对复现Sora有帮助?

Stable Diffusion 3论文终于发布,架构细节大揭秘,对复现Sora有帮助?

자세한 내용은 원문을 참고해주세요.

참고링크: https://stability.ai/news/stable-diffusion-3-research-paper

위 내용은 Stable Diffusion 3 논문이 드디어 공개되고, 아키텍처의 세부 사항이 공개되어 Sora를 재현하는 데 도움이 될까요?의 상세 내용입니다. 자세한 내용은 PHP 중국어 웹사이트의 기타 관련 기사를 참조하세요!

성명:
이 기사는 51cto.com에서 복제됩니다. 침해가 있는 경우 admin@php.cn으로 문의하시기 바랍니다. 삭제