>  기사  >  기술 주변기기  >  Tencent, Hunyuan Wensheng 그래프 대형 모델용 소스 교육 코드 공개 및 LoRA 및 ControlNet 플러그인 출시

Tencent, Hunyuan Wensheng 그래프 대형 모델용 소스 교육 코드 공개 및 LoRA 및 ControlNet 플러그인 출시

WBOY
WBOY원래의
2024-06-21 20:44:10975검색

6월 21일, Tencent Hunyuan Wenshengtu Large Model(이하 Hunyuan DiT 모델)은 훈련 코드를 완전히 오픈 소스화하는 동시에 Hunyuan DiT LoRA 소규모 데이터 세트 훈련 솔루션과 제어 가능한 플러그인 ControlNet.

이는 전 세계의 기업과 개인 개발자 및 창작자가 Hunyuan DiT 교육 코드를 기반으로 미세 조정하여 보다 개인화된 독점 모델을 만들고 더 자유롭게 만들거나 Hunyuan DiT 교육 코드를 기반으로 Yuan을 수정하고 최적화할 수 있음을 의미합니다. DiT의 코드는 이를 기반으로 자체 애플리케이션을 구축하고 기술의 빠른 반복과 혁신을 촉진합니다.

중국어 네이티브 모델로서 사용자는 Hunyuan DiT의 학습 코드를 통해 미세 조정 시 데이터를 영어로 번역할 필요 없이 중국어 데이터와 라벨을 직접 사용할 수 있습니다.

이전에 Tencent Hunyuanwenshengtu 대형 모델은 포괄적인 업그레이드와 오픈 소스를 발표했으며 Hugging Face 플랫폼과 Github에 출시되었으며 기업 및 개인 개발자가 무료로 상업적으로 사용할 수 있습니다. 이는 업계 최초의 중국어 기반 DiT 아키텍처 Vincentian 그래프 오픈 소스 모델로 중국어와 영어의 이중 언어 입력 및 이해를 지원합니다. 이 모델은 오픈소스로 공개된 지 한 달밖에 되지 않았으며, Github 스타 수가 2,400명에 달해 오픈소스 커뮤니티에서 가장 인기 있는 DiT 모델 중 하나가 되었습니다.

Tencent, Hunyuan Wensheng 그래프 대형 모델용 소스 교육 코드 공개 및 LoRA 및 ControlNet 플러그인 출시 Hunyuan DiT Github 프로젝트 페이지

훈련 코드는 오픈 소스이지만 LoRA 소규모 데이터 세트 훈련 솔루션과 제어 가능한 플러그인 ControlNet의 출시로 Hunyuan DiT 모델의 오픈 소스 생태계가 더욱 상상력이 풍부해졌습니다. .

LoRA 모델(전체 이름은 Low-Rank Adaptation of Large Language Models)은 대규모 언어 모델을 미세 조정하는 데 사용되는 기술입니다. Vincentian 그래프 모델에서는 LoRA를 플러그인으로 사용하여 사용자가 원본 모델을 수정하거나 모델 크기를 늘리지 않고도 적은 양의 데이터를 사용하여 특정 그림 스타일, IP 또는 문자 특성을 가진 모델을 훈련할 수 있습니다.

LoRA 기술은 Wenshengtu의 오픈 소스 분야에서 매우 인기가 높습니다. 많은 제작자가 이 기술을 사용하여 여러 장의 개인 사진을 사용하여 특정 인물 전용의 고정밀 사진 스튜디오를 생성하는 등 다양한 모델을 만듭니다. 또는 블라인드 박스, 점토 및 기타 스타일의 모델을 제작합니다.

Tencent, Hunyuan Wensheng 그래프 대형 모델용 소스 교육 코드 공개 및 LoRA 및 ControlNet 플러그인 출시

AI 이미지 커뮤니티 LiblibAI의 LoRA 모델

Hunyuan DiT가 이번에 출시한 전용 LoRA 플러그인을 사용하면 개발자는 최소 하나의 이미지로 전용 모델을 만들 수 있습니다. 예를 들어, 청화백자 사진 4장과 해당 프롬프트 단어를 가져와 모델 훈련을 완료하고 "청화백자" 생성 모델을 생성합니다. 사용자는 간단한 프롬프트 단어를 입력하여 원하는 청화백자를 생성합니다. 영상.

훈련 데이터의 일부:

Tencent, Hunyuan Wensheng 그래프 대형 모델용 소스 교육 코드 공개 및 LoRA 및 ControlNet 플러그인 출시

훈련된 모델의 추론 결과 예:

Tencent, Hunyuan Wensheng 그래프 대형 모델용 소스 교육 코드 공개 및 LoRA 및 ControlNet 플러그인 출시

훈원 DiT LoRA에서 훈련된 청화백자 세대 모델 사용

또 다른 플러그인 ControlNet 출시 이번에는 Vincentian 이미지 분야에서 사용되는 A 제어 가능한 생성 알고리즘으로, 사용자가 추가 조건을 추가하여 이미지 생성을 더 잘 제어할 수 있습니다.

현재 Tencent Hunyuan은 이미지의 가장자리(캐니), 깊이(깊이), 인간 자세(포즈) 등의 조건을 추출하고 적용할 수 있는 세 가지 첫 번째 릴리스 ControlNet 모델을 제공하여 개발자가 추론에 직접 사용할 수 있도록 합니다. 세 가지 ControlNet 플러그인은 선 그리기를 통해 풀 컬러 이미지를 생성하고, 동일한 깊이 구조를 가진 이미지를 생성하고, 동일한 자세를 가진 사람을 생성하는 기능을 실현할 수 있습니다. 동시에 Hunyuan DiT는 ControlNet 교육 솔루션도 오픈 소스로 제공하므로 개발자와 제작자는 맞춤형 ControlNet 모델을 교육할 수 있습니다.

Tencent, Hunyuan Wensheng 그래프 대형 모델용 소스 교육 코드 공개 및 LoRA 및 ControlNet 플러그인 출시

Tencent Hunyuan DiT가 출시한 세 가지 ControlNet 플러그인의 효과 시연

Hunyuan DiT 모델이 오픈 소스로 공개된 이후 많은 개발자로부터 지원과 피드백을 받았으며 Tencent Hunyuan 팀도 지속적으로 Hunyuan DiT 모델을 기반으로 모델을 개선하고 최적화합니다. Yuan DiT의 오픈 소스 구성 요소는 업계와 협력하여 차세대 비주얼 세대 오픈 소스 생태계를 구축합니다. 이달 초 Hunyuan DiT는 추론 효율성을 더욱 향상시키고 그래프 생성 시간을 75% 단축할 수 있는 독점 가속 라이브러리를 출시했습니다. 동시에 모델의 사용 편의성도 크게 향상되었습니다. 사용자는 ComfyUI의 그래픽 인터페이스를 기반으로 Hunyuan DiT를 사용하거나 Hugging Face Diffusers 일반 모델 라이브러리를 사용하여 단 3줄의 Hunyuan DiT 모델을 호출할 수 있습니다. 원본 코드 라이브러리를 다운로드하지 않고 코드를 다운로드할 수 있습니다.

Tencent의 Hunyuanwenshengtu 기능은 소재 제작, 제품 합성, 게임 그래픽 등 많은 비즈니스 및 시나리오에서 널리 사용된 것으로 이해됩니다. 올해 초 Tencent Advertising은 Tencent의 Hunyuan 모델을 기반으로 한 원스톱 AI 광고 크리에이티브 플랫폼인 Tencent Advertising Miaosi를 출시했습니다. 'CCTV 뉴스', '신화일보' 등 20개 이상의 매체에서도 뉴스 콘텐츠 제작에 Tencent Hunyuan Wenshengtu를 사용했습니다.

Tencent Hunyuan 오픈 소스 Wensheng 다이어그램 대형 모델

공식 웹사이트: https://dit.hunyuan.tencent.com/

코드: https://github.com/Tencent/HunyuanDiT

모델: https://huggingface.co/Tencent-Hunyuan/HunyuanDiT

논문 : https://tencent.github.io/HunyuanDiT/asset/Hunyuan_DiT_Tech_Report_05140553.pdf

데이터 생산 과정 : https://github.com/Tencent/HunyuanDiT/blob/main/IndexKits/docs/MakeDataset.md

위 내용은 Tencent, Hunyuan Wensheng 그래프 대형 모델용 소스 교육 코드 공개 및 LoRA 및 ControlNet 플러그인 출시의 상세 내용입니다. 자세한 내용은 PHP 중국어 웹사이트의 기타 관련 기사를 참조하세요!

성명:
본 글의 내용은 네티즌들의 자발적인 기여로 작성되었으며, 저작권은 원저작자에게 있습니다. 본 사이트는 이에 상응하는 법적 책임을 지지 않습니다. 표절이나 침해가 의심되는 콘텐츠를 발견한 경우 admin@php.cn으로 문의하세요.