1024 해상도의 가장 빠른 모델, ByteDance Vincent 그래프 오픈 모델 SDXL-Lightning 출시-일체 포함-php.cn

집

기술 주변기기

일체 포함

1024 해상도의 가장 빠른 모델, ByteDance Vincent 그래프 오픈 모델 SDXL-Lightning 출시

PHPz

Feb 24, 2024 pm 12:37 PM

생성 AI

모델｜https://www.php.cn/link/36ef259d4d9967f3a81aa326160128c7

종이｜https://www.php.cn/link/ca0525bfe5cab4c577 d169d 3343a5452

1024 分辨率下最快模型，字节跳动文生图开放模型 SDXL-Lightning 发布

1. 빛처럼 빠른 이미지 생성

Generative AI는 텍스트 프롬프트를 기반으로 놀라운 이미지와 비디오까지 생성하는 능력으로 전 세계의 주목을 받고 있습니다. 현재의 최첨단 생성 모델은 노이즈를 이미지 샘플로 점진적으로 변환하는 반복 프로세스인 확산에 의존합니다. 이 프로세스에는 엄청난 컴퓨팅 리소스가 필요하고 속도가 느립니다. 고품질 이미지 샘플을 생성하는 과정에서 단일 이미지의 처리 시간은 약 5초이며, 이는 일반적으로 거대한 신경망에 대한 여러(20~40) 호출이 필요합니다. . 이 속도는 빠른 실시간 생성이 필요한 애플리케이션 시나리오를 제한합니다. 속도를 높이면서 발전 품질을 향상시키는 방법 은 현재 연구의 핵심 분야이자 우리 작업의 핵심 목표입니다.

SDXL-Lightning은 혁신적인 기술인

Progressive Adversarial Distillation을 통해 이 장벽을 돌파하여 전례 없는 생성 속도를 달성합니다. 이 모델은 단 2~4단계만으로 매우 높은 품질과 해상도의 이미지를 생성할 수 있어 계산 비용과 시간을 10분의 1로 줄여줍니다. 우리의 방법은 품질이 약간 저하되기는 하지만 시간 초과에 민감한 애플리케이션의 경우 1단계로 이미지를 생성할 수도 있습니다.

SDXL-라이트닝은 속도 우위뿐 아니라 화질에서도 뛰어나 평가에서 기존 가속 기술을 뛰어넘는다. 우수한 다양성과 이미지-텍스트 일치를 유지하면서 더 높은 해상도와 풍부한 세부 정보를 제공합니다.

1024 分辨率下最快模型，字节跳动文生图开放模型 SDXL-Lightning 发布

속도 비교

원래 모델(20단계), SDXL-Lightning 모델(2단계)

2 모델 효과

SDXL-Lightning 모델을 사용할 수 있습니다. 통과 1단계, 2단계, 4단계, 8단계로 이미지를 생성합니다. 추론 단계가 많을수록 이미지 품질이 좋아집니다.

다음은 4단계의 결과입니다 -

1024 分辨率下最快模型，字节跳动文生图开放模型 SDXL-Lightning 发布

웃는 소녀

1024 分辨率下最快模型，字节跳动文生图开放模型 SDXL-Lightning 发布

산을 오르는 픽업트럭 지그재그

1024 分辨率下最快模型，字节跳动文生图开放模型 SDXL-Lightning 发布

물고기 자전거, 다채로운 예술

1024 分辨率下最快模型，字节跳动文生图开放模型 SDXL-Lightning 发布

선글라스를 낀 아시아 여성의 클로즈업

1024 分辨率下最快模型，字节跳动文生图开放模型 SDXL-Lightning 发布

아름다운 컵

1024 分辨率下最快模型，字节跳动文生图开放模型 SDXL-Lightning 发布

모나리자, 스케치

1024 分辨率下最快模型，字节跳动文生图开放模型 SDXL-Lightning 发布

팬더 수영

1024 分辨率下最快模型，字节跳动文生图开放模型 SDXL-Lightning 发布

산을 오르는 픽업트럭 지그재그

1024 分辨率下最快模型，字节跳动文生图开放模型 SDXL-Lightning 发布

사막에있는 집, 초현실적 인 풍경

다음은 2 단계의 결과입니다 - 거실을위한 감독 디자인은 아기 너구리의 영화 촬영 샷을 착용합니다. 복잡한 이탈리아 신부 가운

1024 分辨率下最快模型，字节跳动文生图开放模型 SDXL-Lightning 发布

아늑한 거실에서 장난감을 쫓는 부드러운 털과 밝은 눈을 가진 강아지

1024 分辨率下最快模型，字节跳动文生图开放模型 SDXL-Lightning 发布

구름이 담긴 찻잔

1024 分辨率下最快模型，字节跳动文生图开放模型 SDXL-Lightning 发布

가족, 미디엄 샷

🎙 이전 방법(Turbo 및 LCM)에 비해 우리의 방법으로 생성된 이미지는 세부적으로 크게 개선되었으며 원래 생성 모델의 스타일과 레이아웃에 더욱 충실합니다.

1024 分辨率下最快模型，字节跳动文生图开放模型 SDXL-Lightning 发布

3. 커뮤니티에 환원, 개방형 모델

오픈 소스와 오픈 소스의 물결은 인공 지능의 급속한 발전을 촉진하는 핵심 원동력이 되었으며, Bytedance는 이러한 커뮤니티의 일부가 된 것을 자랑스럽게 생각합니다. 이 파도. 우리 모델은 현재 가장 인기 있는 텍스트 생성 이미지 개방형 모델인 SDXL을 기반으로 하며 이미 생태계가 번성하고 있습니다. 이제 우리는 SDXL-Lightning을 전 세계의 개발자, 연구원, 크리에이티브 실무자에게 공개하여 그들이 이 모델에 액세스하고 적용하여 업계 전반에 걸쳐 혁신과 협업을 더욱 촉진할 수 있도록 하기로 결정했습니다.

1024 分辨率下最快模型，字节跳动文生图开放模型 SDXL-Lightning 发布 SDXL-Lightning을 설계할 때

오픈 모델 커뮤니티와의 호환성

을 고려했습니다. 커뮤니티의 많은 아티스트와 개발자는 만화 및 애니메이션 스타일과 같은 다양한 스타일화된 이미지 생성 모델을 만들었습니다. 이러한 모델을 지원하기 위해 SDXL-Lightning을 속도 향상 플러그인으로 제공합니다. 이 플러그인은 다양한 스타일의 SDXL 모델에 원활하게 통합되어 다양한 모델의 이미지 생성 속도를 높일 수 있습니다.

1024 分辨率下最快模型，字节跳动文生图开放模型 SDXL-Lightning 发布

SDXL-Lightning

이 모델은 현재 매우 인기 있는 제어 플러그인 ControlNet과 결합하여 매우 빠르고 제어 가능한 이미지 생성을 달성할 수도 있습니다. 1024 分辨率下最快模型，字节跳动文生图开放模型 SDXL-Lightning 发布

1024 分辨率下最快模型，字节跳动文生图开放模型 SDXL-Lightning 发布 SDXL-Lightning

이 모델은 오픈 소스 커뮤니티에서 가장 인기 있는 세대 소프트웨어인 ComfyUI도 지원합니다. 모델을 직접 로드하여 사용할 수 있습니다.

1024 分辨率下最快模型，字节跳动文生图开放模型 SDXL-Lightning 发布

4. 기술적 세부 사항 정보

이론적으로 이미지 생성은 노이즈에서 선명한 이미지로 점진적으로 변환하는 과정입니다. 이 과정에서 신경망은 변환 흐름의 다양한 위치에서 기울기를 학습합니다.

이미지를 생성하는 구체적인 단계는 다음과 같습니다.

먼저 스트림 시작점에서 노이즈 샘플을 무작위로 샘플링한 다음 신경망을 사용하여 기울기를 계산합니다. 현재 위치의 그래디언트를 기반으로 샘플을 약간 조정한 다음 프로세스를 반복합니다. 반복할 때마다 샘플은 선명한 이미지를 얻을 때까지 최종 이미지 분포에 가까워집니다.

1024 分辨率下最快模型，字节跳动文生图开放模型 SDXL-Lightning 发布

사진: 세대 흐름 프로세스(사진 출처: https://www.php.cn/link/5c9b5c47258cf1499c2dc64b7072e735

생성 흐름의 복잡성과 비선형성 직선, 생성 과정은 한 번만 해야 그라디언트 오류의 누적을 줄이기 위해 작은 단계만 수행하므로 신경망의 빈번한 계산이 필요하므로 계산량이 많은 이유입니다

1024 分辨率下最快模型，字节跳动文生图开放模型 SDXL-Lightning 发布

사진: 곡선 과정 (사진출처: https://www.php.cn/link/d7bbb6396ce5daf19ec6cf4bb4453137

이미지 생성에 필요한 단계 수를 줄이기 위해 많은 연구가 해결책을 찾기 위해 노력해 왔습니다. 일부 연구 오류를 줄일 수 있는 샘플링 방법을 제안한 반면, 다른 사람들은 생성 흐름을 보다 선형적으로 만들기 위해 노력했습니다. 이러한 방법이 발전했지만 이미지를 생성하려면 여전히 10개 이상의 추론 단계가 필요합니다.

또 다른 방법은 모델 증류입니다. 10개 미만의 추론 단계에서 고품질 이미지를 생성할 수 있습니다. 현재 흐름 위치에서 기울기를 계산하는 것과 달리 모델 추출은 다음 더 먼 흐름 위치를 직접 예측하도록 모델 예측의 목표를 변경합니다. 학생 네트워크는 다단계 추론 결과를 완성한 후 교사 네트워크를 직접 예측합니다. 이러한 전략은 이 프로세스를 반복적으로 적용함으로써 추론 단계 수를 더욱 줄일 수 있습니다.

그림: 점진적 증류, 학생 네트워크는 여러 단계를 거친 후 교사 네트워크의 결과를 예측합니다. 8단계 미만의 추론으로 인해 모델에서 생성된 이미지가 흐려지기 시작합니다.

1024 分辨率下最快模型，字节跳动文生图开放模型 SDXL-Lightning 发布 이 문제를 해결하기 위해 우리의 전략은 학생 네트워크가 예측과 정확하게 일치하도록 강요하지 않는 것입니다. 그러나 학생 네트워크가 교사 네트워크의 예측과 확률적으로 일치하도록 합니다. 즉, 학생 네트워크는 이 위치가 완전하지 않더라도 확률적으로 가능한 위치를 예측하도록 훈련됩니다. 이 목표는 적대적 훈련을 통해 달성됩니다. 학생과 교사 네트워크 출력의 분포 일치를 달성하는 데 도움이 되는 추가적인 차별적 네트워크가 도입됩니다.

이것은 우리의 연구 방법에 대한 간략한 개요입니다(https:/ /www.php.cn/link/ca0525bfe5cab4c577d169d3343a5452).

모델에 대한 보다 심층적인 이론적 분석, 훈련 전략 및 구체적인 공식화 세부 정보를 제공합니다.

5이 연구는 주로 이미지 생성을 위해 SDXL-Lightning 기술을 사용하는 방법을 탐색합니다. 그러나 제안된 점진적 적대 증류 방법의 응용 가능성은 정적 이미지에만 국한되지 않습니다. 기타 다중 모드 콘텐츠. HuggingFace 플랫폼에서 SDXL-Lightning을 경험해 보시고 여러분의 소중한 의견과 피드백을 기다리겠습니다.

모델:

https://www.php.cn/link/36ef259d4d9967f3a81aa326160128c7

논문: https://www.php.cn/link/ca0525bfe5cab4c577d169d3343a5452

위 내용은 1024 해상도의 가장 빠른 모델, ByteDance Vincent 그래프 오픈 모델 SDXL-Lightning 출시의 상세 내용입니다. 자세한 내용은 PHP 중국어 웹사이트의 기타 관련 기사를 참조하세요!

성명

이 기사는 51CTO.COM에서 복제됩니다. 침해가 있는 경우 admin@php.cn으로 문의하시기 바랍니다. 삭제

관련 기사

Let 's Dance : 인간 신경 그물을 미세 조정하기위한 구조화 된 움직임Apr 27, 2025 am 11:09 AM

과학자들은 C. el 그러나 중요한 질문이 발생합니다. 새로운 AI S와 함께 효과적으로 작동하도록 우리 자신의 신경망을 어떻게 조정합니까?

새로운 Google 유출은 Gemini AI의 구독 변경을 보여줍니다Apr 27, 2025 am 11:08 AM

Google의 Gemini Advanced : 수평선의 새로운 가입 계층 현재 Gemini Advanced에 액세스하려면 $ 19.99/월 Google One AI Premium Plan이 필요합니다. 그러나 Android Authority 보고서는 다가오는 변경 사항을 암시합니다. 최신 Google p. 내 코드

데이터 분석 가속이 AI의 숨겨진 병목 현상을 해결하는 방법Apr 27, 2025 am 11:07 AM

고급 AI 기능을 둘러싼 과대 광고에도 불구하고 Enterprise AI 배포 내에서 상당한 도전 과제 : 데이터 처리 병목 현상. CEO는 AI 발전을 축하하는 동안 엔지니어는 느린 쿼리 시간, 과부하 파이프 라인,

Markitdown MCP는 모든 문서를 Markdowns로 변환 할 수 있습니다!Apr 27, 2025 am 09:47 AM

문서 처리는 더 이상 AI 프로젝트에서 파일을 여는 것이 아니라 혼돈을 명확하게 전환하는 것입니다. PDF, PowerPoint 및 Word와 같은 문서는 모든 모양과 크기로 워크 플로우를 범람합니다. 구조화 된 검색

빌딩 에이전트에 Google ADK를 사용하는 방법은 무엇입니까? - 분석 VidhyaApr 27, 2025 am 09:42 AM

Google의 에이전트 개발 키트 (ADK)의 전력을 활용하여 실제 기능을 갖춘 지능형 에이전트를 만듭니다! 이 튜토리얼은 Gemini 및 GPT와 같은 다양한 언어 모델을 지원하는 ADK를 사용하여 대화 에이전트를 구축하는 것을 안내합니다. w

효과적인 문제 해결을 위해 LLM을 통해 SLM 사용 - 분석 VidhyaApr 27, 2025 am 09:27 AM

요약: SLM (Small Language Model)은 효율성을 위해 설계되었습니다. 자원 결핍, 실시간 및 개인 정보 보호 환경에서 LLM (Large Language Model)보다 낫습니다. 초점 기반 작업, 특히 도메인 특이성, 제어 성 및 해석 성이 일반적인 지식이나 창의성보다 더 중요합니다. SLM은 LLM을 대체하지는 않지만 정밀, 속도 및 비용 효율성이 중요 할 때 이상적입니다. 기술은 더 적은 자원으로 더 많은 것을 달성하는 데 도움이됩니다. 그것은 항상 운전자가 아니라 프로모터였습니다. 증기 엔진 시대부터 인터넷 버블 시대에 이르기까지 기술의 힘은 문제를 해결하는 데 도움이되는 정도입니다. 인공 지능 (AI) 및보다 최근에 생성 AI가 예외는 아닙니다.