Heim  >  Artikel  >  Technologie-Peripheriegeräte  >  Tencent öffnet den Quell-Trainingscode für das große Diagrammmodell Hunyuan Wensheng und veröffentlicht LoRA- und ControlNet-Plug-Ins

Tencent öffnet den Quell-Trainingscode für das große Diagrammmodell Hunyuan Wensheng und veröffentlicht LoRA- und ControlNet-Plug-Ins

WBOY
WBOYOriginal
2024-06-21 20:44:10975Durchsuche

Am 21. Juni gab Tencent Hunyuan Wenshengtu Large Model (im Folgenden als Hunyuan DiT-Modell bezeichnet) bekannt, dass es den Trainingscode vollständig als Open Source veröffentlichen wird und gleichzeitig die Hunyuan DiT LoRA-Trainingslösung für kleine Datensätze als Open Source anbieten wird das steuerbare Plug-in ControlNet.

Das bedeutet, dass Unternehmen sowie einzelne Entwickler und Entwickler auf der ganzen Welt eine Feinabstimmung auf der Grundlage des Hunyuan DiT-Trainingscodes durchführen können, um personalisiertere exklusive Modelle zu erstellen und mit größerer Freiheit zu erstellen, oder Yuan auf der Grundlage des Hunyuan DiT-Trainingscodes modifizieren und optimieren können Nutzen Sie den Code von DiT, erstellen Sie darauf basierend eigene Anwendungen und fördern Sie die schnelle Iteration und Innovation der Technologie.

Als muttersprachliches chinesisches Modell können Benutzer bei der Feinabstimmung über den Trainingscode von Hunyuan DiT direkt chinesische Daten und Beschriftungen verwenden, ohne die Daten ins Englische übersetzen zu müssen.

Zuvor hatte Tencent Hunyuanwenshengtu ein umfassendes Upgrade und Open Source angekündigt. Es wurde auf der Hugging Face-Plattform und Github veröffentlicht und kann von Unternehmen und einzelnen Entwicklern kostenlos kommerziell genutzt werden. Dies ist das erste vinzentinische Open-Source-Modell der DiT-Architektur mit chinesischer Muttersprache in der Branche, das die zweisprachige Eingabe und das Verständnis in Chinesisch und Englisch unterstützt. Nur einen Monat nach der Veröffentlichung des Modells als Open Source erreichte die Anzahl der Github-Stars 2,4.000, was es zu einem der beliebtesten DiT-Modelle in der Open-Source-Community macht.

Tencent öffnet den Quell-Trainingscode für das große Diagrammmodell Hunyuan Wensheng und veröffentlicht LoRA- und ControlNet-Plug-Ins Hunyuan DiT Github-Projektseite

Während der Trainingscode Open Source ist, macht die Veröffentlichung der LoRA-Trainingslösung für kleine Datensätze und des steuerbaren Plug-Ins ControlNet auch die Open-Source-Ökologie des Hunyuan DiT-Modells einfallsreicher .

LoRA-Modell, vollständiger Name Low-Rank Adaptation of Large Language Models, ist eine Technologie zur Feinabstimmung großer Sprachmodelle. Im Vincentian-Graphmodell wird LoRA als Plug-In verwendet, sodass Benutzer mithilfe einer kleinen Datenmenge ein Modell mit einem bestimmten Malstil, einer bestimmten IP oder Charaktereigenschaften trainieren können, ohne das Originalmodell zu ändern oder die Modellgröße zu erhöhen.

LoRA-Technologie ist im Open-Source-Bereich von Wenshengtu sehr beliebt. Eine große Anzahl von Entwicklern verwendet diese Technologie, um eine Vielzahl von Modellen zu erstellen, z. B. die Verwendung mehrerer persönlicher Fotos, um ein hochpräzises Fotostudio exklusiv für eine bestimmte Person zu erstellen. oder erstellen Wir produzieren Blindbox-, Ton- und andere Stilmodelle.

Tencent öffnet den Quell-Trainingscode für das große Diagrammmodell Hunyuan Wensheng und veröffentlicht LoRA- und ControlNet-Plug-Ins

LoRA-Modell auf der KI-Bild-Community LiblibAI

Das von Hunyuan DiT veröffentlichte exklusive LoRA-Plug-in ermöglicht es Entwicklern dieses Mal, exklusive Modelle mit mindestens einem Bild zu erstellen. Durch den Import von vier blauen und weißen Porzellanbildern und entsprechenden Aufforderungswörtern kann beispielsweise das Modelltraining abgeschlossen werden und ein Generierungsmodell für „blaues und weißes Porzellan“ erstellt werden: Der Benutzer gibt einfache Aufforderungswörter ein, um das gewünschte blaue und weiße Porzellan zu generieren Bild.

Teil der Trainingsdaten:

Tencent öffnet den Quell-Trainingscode für das große Diagrammmodell Hunyuan Wensheng und veröffentlicht LoRA- und ControlNet-Plug-Ins

Beispiel für Inferenzergebnisse des trainierten Modells:

Tencent öffnet den Quell-Trainingscode für das große Diagrammmodell Hunyuan Wensheng und veröffentlicht LoRA- und ControlNet-Plug-Ins

Modell zur Generierung von blauem und weißem Porzellan, trainiert mit Hunyuan DiT LoRA

Diesmal wurde ein weiteres Plug-in ControlNet gestartet ist ein steuerbarer Generierungsalgorithmus, der im Bereich der vinzentinischen Bilder verwendet wird und es Benutzern ermöglicht, die Bildgenerierung durch Hinzufügen zusätzlicher Bedingungen besser zu steuern.

Derzeit stellt Tencent Hunyuan drei ControlNet-Modelle der ersten Version bereit, die Bedingungen wie Kanten (canny), Tiefe (tiefe) und menschliche Haltung (Pose) von Bildern extrahieren und anwenden können, sodass Entwickler sie direkt für Schlussfolgerungen verwenden können. Die drei ControlNet-Plug-Ins ermöglichen die Generierung von Vollfarbbildern durch Strichzeichnungen, die Generierung von Bildern mit derselben Tiefenstruktur und die Generierung von Personen mit derselben Körperhaltung. Gleichzeitig hat Hunyuan DiT auch die ControlNet-Schulungslösung als Open-Source-Lösung bereitgestellt, sodass Entwickler und Entwickler benutzerdefinierte ControlNet-Modelle trainieren können.

Tencent öffnet den Quell-Trainingscode für das große Diagrammmodell Hunyuan Wensheng und veröffentlicht LoRA- und ControlNet-Plug-Ins

Demonstration der Auswirkungen von drei von Tencent Hunyuan DiT eingeführten ControlNet-Plug-Ins

Da das Hunyuan DiT-Modell Open Source war, erhielt es Unterstützung und Feedback von vielen Entwicklern, und auch das Tencent Hunyuan-Team war kontinuierlich dabei Verbesserung und Optimierung des Modells basierend auf den Open-Source-Komponenten von Hunyuan DiT. Arbeiten Sie mit der Industrie zusammen, um ein Open-Source-Ökosystem der nächsten Generation aufzubauen. Anfang dieses Monats veröffentlichte Hunyuan DiT eine exklusive Beschleunigungsbibliothek, die die Inferenzeffizienz weiter verbessern und die Zeit zur Diagrammerstellung um 75 % verkürzen kann. Gleichzeitig wurde die Benutzerfreundlichkeit des Modells erheblich verbessert. Benutzer können Hunyuan DiT basierend auf der grafischen Oberfläche von ComfyUI verwenden oder die allgemeine Modellbibliothek Hugging Face Diffusers verwenden, um das Hunyuan DiT-Modell mit nur drei Zeilen aufzurufen Code, ohne die ursprüngliche Codebibliothek herunterzuladen.

Es versteht sich, dass die Hunyuanwenshengtu-Funktionen von Tencent in vielen Unternehmen und Szenarien wie der Materialerstellung, Produktsynthese und Spielgrafiken weit verbreitet sind. Anfang dieses Jahres veröffentlichte Tencent Advertising Tencent Advertising Miaosi, eine One-Stop-Plattform für kreative KI-Werbung, die auf dem Hunyuan-Modell von Tencent basiert. Mehr als 20 Medien wie „CCTV News“ und „Xinhua Daily“ haben Tencent Hunyuan Wenshengtu ebenfalls für die Produktion von Nachrichteninhalten genutzt.

Tencent Hunyuan Open Source Wensheng-Diagramm großes Modell

Offizielle Website: https://dit.hunyuan.tencent.com/

Code: https://github.com/Tencent/HunyuanDiT

Modell: https://huggingface.co/Tencent-Hunyuan/HunyuanDiT

Papier: https://tencent.github.io/HunyuanDiT/asset/Hunyuan_DiT_Tech_Report_05140553.pdf

Datenproduktionsprozess: https://github.com/Tencent/HunyuanDiT/blob/main/IndexKits/docs/MakeDataset.md

Das obige ist der detaillierte Inhalt vonTencent öffnet den Quell-Trainingscode für das große Diagrammmodell Hunyuan Wensheng und veröffentlicht LoRA- und ControlNet-Plug-Ins. Für weitere Informationen folgen Sie bitte anderen verwandten Artikeln auf der PHP chinesischen Website!

Stellungnahme:
Der Inhalt dieses Artikels wird freiwillig von Internetnutzern beigesteuert und das Urheberrecht liegt beim ursprünglichen Autor. Diese Website übernimmt keine entsprechende rechtliche Verantwortung. Wenn Sie Inhalte finden, bei denen der Verdacht eines Plagiats oder einer Rechtsverletzung besteht, wenden Sie sich bitte an admin@php.cn