Im Jahr 2023 wird der Gaspedalknopf für die Umsetzung großer Modelle gedrückt, und vinzentinische Grafiken werden eine der heißesten Anwendungsrichtungen sein. Seit der Geburt von Stable Diffusion sind im In- und Ausland großformatige Modelle von Wenshengtu entstanden, und es fühlte sich eine Zeit lang wie ein „Kampf zwischen Göttern“ an. Jede Technologieiteration bringt schnelle Verbesserungen bei den Modellgenerierungseffekten und der Geschwindigkeit. Erst heute gab Tencent Hunyuan Model auch die neuesten Fortschritte bekannt: Die Vincentian-Grafikfunktion wurde offiziell eingeführt. Sobald wir es ausprobiert haben, haben wir gesehen, wie gut Hunyuan Model die breite und tiefgreifende chinesische Esskultur versteht. Hier habe ich mich für die „Ameise, die auf den Baum klettert“ entschieden, die viele große Modelle schwierig macht, aber der Hunyuan lässt sich leicht generieren:
Die Frage ist: Das aktuelle große Vincentian-Modell ist so groß, hat das große Hunyuan-Modell noch andere besondere Vorteile? Laut der offiziellen Einführung weist das aktuelle vinzentinische Großmodell in Bezug auf Algorithmen und Modelle noch einige Herausforderungen auf, wie z. B. unzureichendes semantisches Verständnis, unangemessene Struktur generierter Bilder, unzureichende Bilddetails und geringe Textur. Tencent hat schon lange damit begonnen, KI-generierte Bilder in Werbeszenarien zu erforschen, und die damit verbundene Anhäufung ist ziemlich tiefgreifend. Die Wenshengtu-Fähigkeit dieses Hunyuan-Großmodell-Upgrades zielt genau darauf ab, die drei Probleme „Semantik, Inhalt und Textur“ zu lösen. Berichten zufolge hat Wenshengtu von Tencent Hunyuan im Vergleich zu anderen großen Modellen offensichtliche Vorteile im Realismus von Porträts und Szenen. Gleichzeitig weist es größere Vorteile bei der Erstellung chinesischer Landschaften, Animationsspiele und anderer Szenen auf . Gute Leistung. Hands-on-Test: Hunyuan Wensheng Tu, was ist der Unterschied? Um in „Wen Sheng Tu“ gute Arbeit zu leisten, ist ein umfassendes Verständnis von „Wen“ entscheidend. In Bezug auf das semantische Verständnis übernimmt das Hunyuan Wensheng-Graphmodell ein zweisprachiges, feinkörniges Modell für Chinesisch und Englisch. Gleichzeitig wird ein zweisprachiges Verständnis auf der Grundlage der zweisprachigen Modellierung für Chinesisch und Englisch und die Fähigkeiten des Modells erreicht Die Wahrnehmung von Details wird durch Optimierungsalgorithmen verbessert und Effekte generiert. Obwohl beliebte Modelle wie Stable Diffusion ein gewisses Maß an Chinesisch unterstützten, bestand ihr Kerndatensatz LAION-5B immer noch hauptsächlich aus verwestlichten Inhalten und hatte kein Verständnis für chinesische Sprache, Essen, Kultur und Bräuche genug Verständnis. Das Hunyuan Wenshengtu-Modell ist ein einheimisches chinesisches Wenshengtu-Modell. Unabhängig von den vom Benutzer eingegebenen chinesischen Gedichten oder Redewendungen können Benutzer ihn direkt bitten, Gemälde zu erstellen. In Bezug auf die Inhaltsrationalität verbessert Hunyuanwenshengtu die Wahrnehmungsfähigkeit des Algorithmusmodells für die zweidimensionale Raumposition von Bildern und führt Vorinformationen wie das menschliche Skelett und die Struktur der menschlichen Hand in den Generierungsprozess ein, sodass das generierte The Die Bildstruktur ist vernünftiger, was das Problem der Unangemessenheit KI-generierter menschlicher Körperstrukturen und Hände verringert. In Bezug auf die
Bildtextur basiert Hunyuan Wenshengtu auf einer Multi-Modell-Fusion-Methode, um die generierte Textur zu verbessern. Nach der Optimierung wurde der Porträtmodelleffekt (Haare, Falten usw.) von Hunyuan Wenshengtu um 30 % und der Szenenmodelleffekt (Vegetation, Wellen usw.) um 25 % verbessert. Die technischen Vorteile in diesen drei Aspekten haben das Produkterlebnis des großen Hunyuan-Modells Wenshengtu offensichtlich verbessert.
Um die oben genannten Fähigkeiten zu überprüfen, stellte diese Website zunächst einige Fragen und führte einen gründlichen Test am Hunyuan-Großmodell durch.
Da Hunyuan ein gebürtiges chinesisches Modell ist, versteht es die „Sprache des alten China“ natürlich besser als andere ähnliche Produkte. Wir lassen es zunächst nach alten Gedichten zeichnen.
Wir haben ein sehr künstlerisches altes Gedicht ausgewählt: „Wenn du betrunken bist, weißt du nicht, dass der Himmel auf dem Wasser ist und das Boot voller klarer Träume ist und die Sterne überwältigend sind“, um zu testen, ob das so ist Das große Modell von Hunyuan kann Bilder mit einem ausgeprägten Bildsinn erzeugen.
In dem Gedicht „Moored at Guazhou“ beschreibt die Zeile „Die Frühlingsbrise wird wieder grün am Südufer des Flusses, wann wird der helle Mond wieder auf mich scheinen?“ das Heimweh unzähliger Wanderer. Als Ergebnis der Hunyuan-Generation werden Bilder wie „Frühlingslicht“, „Wasserbank“ und „heller Mond“ extrahiert und organisch kombiniert, sodass sich die Menschen nach dem Betrachten wie in einer poetischen Szene fühlen:
Dann wird es interessant. Machen wir in der Rubrik „Chinesische Lebensmittelmalerei“ einen klassischen Test zum Thema „Geschnetzeltes Schweinefleisch mit Fischgeschmack“:
Von der chinesischen Lebensmittelmalerei, die Menschen verrückt macht, bis Nach dem Betrachten des Bildes können wir den Grad des Essens auch spüren. Zur kontinuierlichen Weiterentwicklung der Vincent-Diagrammtechnologie.
Werfen wir einen Blick darauf, wie Hunyuan das branchenweit anerkannte Problem „realistischer Porträts“ angeht:
Wir wissen, dass der erste Hit von Midjourney auf das Foto des Paares unten zurückzuführen ist unwiderstehlich Es stellt sich heraus, dass dies nicht von KI erzeugt wurde.U Die von Midjourney V5 generierte Paarkarte
Lassen Sie uns nun die Fähigkeit des gemischten Elends untersuchen, „Betrug“ zu erzeugen. Die verwendete Eingabeaufforderung lautet: Wie stehen Sie zum Realismus? Die in der Eingabeaufforderung genannten Angaben sind unserer Meinung nach ausreichend. Das ist es, was Tencent betont: Das Hunyuan-Großmodell verbessert die Wahrnehmung von Details und den Generierungseffekt durch Optimierungsalgorithmen. Diese Fähigkeit kann nur in vielen spezifischen Szenen widergespiegelt werden. Zum Beispiel wird in der Animationsszene „ein Hirsch erzeugt, der im Wald rennt und abgefallene Blätter hochfliegen lässt, der Mond ist sehr hell und groß, Vögel fliegen am Himmel, Atmosphäre, CG-Stil, Seite.“ Perspektive". Sieht es aus wie die Szenen in den Animationen, die Sie als Kind gesehen haben? Darüber hinaus ist das Anwendungspotenzial von Wenshengtu in der Animationserstellung enorm. Die Eingabeaufforderung, die wir dem großen Hunyuan-Modell gegeben haben, lautet „3D generieren, Anime-Stil, 1 Mädchen, blondes Haar, Lächeln, kurzes Haar, Stadthintergrund“: Was halten Sie vom Generierungseffekt? ? Kann es direkt als Tapete verwendet werden? Welche selbst entwickelten Technologien stehen hinter Wenshengtu? Wenn ein Arbeiter seine Arbeit gut machen will, muss er zuerst seine Werkzeuge schärfen, und das gilt auch für große Modelle. Wir haben erfahren, dass das Hunyuan-Großmodell von Tencent neben innovativen Modellalgorithmen einen solchen kulturellen Bildeffekt erzielt, der der chinesischen Kultur entspricht, und dass er auch untrennbar mit hochwertigen Bild-Text-Matching-Daten und Selbst- entwickeltes Framework für maschinelles Lernen und eine leistungsstarke Computerinfrastruktur. Tencent Hunyuan Large Model hat einen vollständig verknüpften, selbst entwickelten Technologiepfad vom Modellalgorithmus über das Framework für maschinelles Lernen bis hin zur KI-Infrastruktur geschaffen. Die mehrstufige technologische Akkumulation bedeutet, dass die Entwicklung großer Modelle einen Schritt nach dem anderen erfordert, angefangen bei der Praxis bis hin zur Verbesserung in der Praxis. Schauen wir uns zunächst die Datentechnik an, die das Modelltraining unterstützt. Für jede KI, insbesondere für große Modelle, sind Daten eines der drei unverzichtbaren Elemente. Das Gleiche gilt für die Textgenerierungsfunktion für große Modelle. Bild- und Textdaten, insbesondere die Matching-Daten zwischen Bildern und Texten, haben einen entscheidenden Einfluss auf den Generierungseffekt. Allerdings sind nicht alle vorhandenen Daten im Internet ohne weiteres verfügbar. Das große Problem besteht darin, dass Textbeschreibungen von Bildern möglicherweise nicht korrekt sind, was zu einer schlechten Qualität der meisten Bild-Text-Übereinstimmungsdaten führt. Selbst wenn die Trainingszeit sehr lang ist, entspricht der Modellgenerierungseffekt bei Verwendung immer noch nicht den Erwartungen, was sich auch auf die Stabilität der Generierungsqualität und die anschließende Iterationseffizienz auswirkt. Daher ist die Verbesserung der Qualität von Bild- und Textdaten zur „ersten Hürde“ geworden, um die Wirkung vinzentinischer Bilder sicherzustellen. Zu diesem Zeitpunkt ist es häufig erforderlich, die Datenqualität durch technische Methoden zu verbessern, das Modelltraining, die Optimierung und das Upgrade zu unterstützen und einen Burggraben für das Algorithmusmodell zu errichten. Angesichts des Problems der Bild- und Textübereinstimmungsdaten lautet die Reaktionsstrategie des Tencent Hunyuanwenshengtu-Teams wie folgt: Verbessern Sie zunächst die chinesischen Eingabeaufforderungen auf feinkörnige Weise, verbessern Sie die Korrelation zwischen Bildern und Texten und maximieren Sie die Datenqualität; Anschließend werden Schicht- und Hierarchiestrategien zur Trainingsdatenanalyse verwendet, um das Modell schrittweise zu optimieren und die Dateneffekte zu maximieren. Schließlich wird ein Datenschwungrad aufgebaut, das der Schlüssel zur schnellen Iteration großer Modelle ist. Basierend auf dem Feedback von Online-Benutzern, die große Modelle verwenden, erstellt das Team automatisch Trainingsdaten, um die Modelliteration zu beschleunigen und die Dateneffizienz zu maximieren. Die Datenqualität, Wirkung und Effizienz wurden verbessert, was den Grundstein für gute Vincent-Diagrammeffekte legt. Ebenso wichtig ist das Framework für maschinelles Lernen, das als Nächstes besprochen wird.Ein leistungsstarkes Framework oder eine Plattform für maschinelles Lernen wird die Geschwindigkeit und Effizienz von Entwicklern beim Erstellen, Trainieren und Bereitstellen von Modellen erheblich verbessern. Tencent hat eine eigene Angel-Plattform für maschinelles Lernen für große Modelltrainings- und Inferenzszenarien entwickelt, die hauptsächlich aus zwei Teilen besteht: AngelPTM, das für das Training verantwortlich ist, und AngelHCF, das für die Inferenz verantwortlich ist. Unter anderem übernimmt AngelPTM die ZeRO-Cache-Optimierungsstrategie und wird zu einem leistungsstarken Tool für das Training sehr großer Modelle. Es erweitert die Kapazität von Einzelmaschinenmodellen durch Speicherverwaltung und verbessert die Ressourcennutzung durch asynchrone Multistreams. und verbessert die Videospeichereffizienz durch Videospeicherverwaltung. Darüber hinaus wird 4D-Parallelität verwendet, um die Obergrenze des verfügbaren Videospeichers zu erhöhen, den Kommunikationsdruck auf Kilokarten zu verringern und Rechenpotenzial freizusetzen. Der automatische Trainingserneuerungsmechanismus unterstützt die automatische Fehlertoleranz bei Kilocard-Ausfällen und reduziert die Unterbrechungszeit. Auch die Modelltrainingssituation wird in Echtzeit überwacht und der kollaborative Algorithmus optimiert die Modelltrainingsrichtung. Derzeit erreicht AngelPTM ein Hochgeschwindigkeitstraining von Hunderten Milliarden hybriden Basismodellen auf Basis des branchenweit ersten ZeRO-Cache-Mechanismus + 4D-Parallelität. Die Trainingsgeschwindigkeit ist im Vergleich zum Mainstream-Open-Source-Framework (DeepSpeed-Chat) verdoppelt ). Übersicht über ZeRO-Cache. AngelHCF verbessert die Leistung großer Modelle hauptsächlich aus fünf Aspekten: maßgeschneiderte, diversifizierte Servicestrategien, parallele Strategien, Framework-Beschleunigung (die gängige GPU-Beschleunigungsmethoden abdeckt), Modellkomprimierung (unterstützt gängige Komprimierungsmethoden in der Branche) und effizient Modell-Debugging-Funktionen. Die Inferenzgeschwindigkeit ist 1,3-mal schneller als beim Mainstream-Framework der Branche (FasterTransformer).
Tencent sagte, dass seine Angel-Plattform für maschinelles Lernen eine führende Leistung aufweist und dazu beitragen kann, ein besseres Infrastruktursystem bereitzustellen und große Modelle dabei zu unterstützen, mit hoher Geschwindigkeit zu laufen. Dadurch kann das große Hunyuan-Modell qualitativ hochwertige Bilder erzeugen und gleichzeitig die Generierungsgeschwindigkeit erheblich verbessern.
Mit hochwertigen Daten und einem effizienten Framework für maschinelles Lernen steht der kontinuierliche Betrieb großer Modelle immer noch vor der Prüfung der Rechenleistung. Denn im Zeitalter großer Modelle ist die Rechenleistung das A und O.
Die Hunyuanwenshengtu-Funktion von Tencent ist untrennbar mit der leistungsstarken Computerinfrastruktur von Tencent Cloud verbunden. Im April 2023 veröffentlichte Tencent Cloud eine neue Generation von HCC-Hochleistungs-Computing-Clustern, die die neueste Generation der von Xinghai selbst entwickelten Server verwenden und auf einer selbst entwickelten Netzwerk- und Speicherarchitektur basieren und eine ultrahohe Verbindungsbandbreite (TB) von 3,2 T erreichen -Durchsatzkapazität und 10 Millionen IOPS. Die Rechenleistung des Clusters der neuen Generation ist im Vergleich zur vorherigen Generation um das Dreifache und im Vergleich zur herkömmlichen Computing-Cluster-Lösung um mehr als das Zwölffache verbessert.
Während die zugrunde liegende Hardware gestärkt wird, müssen auch die Softwarefunktionen der oberen Ebene Hand in Hand gehen. Der HCC-Cluster der neuen Generation integriert die von Tencent Cloud selbst entwickelte TACO-Trainingsbeschleunigungs-Engine und hat zahlreiche Optimierungen auf Systemebene vorgenommen, die das Netzwerkprotokoll, die Kommunikationsstrategie, das KI-Framework und die Modellkompilierungsebene betreffen. Dieser umfassende Satz ökologischer Trainingsbeschleunigungslösungen kann Kunden nicht nur dabei helfen, die KI-Optimierungsschwelle zu senken und die KI-Trainingsleistung zu verbessern, sondern auch die Kosten für Trainingsoptimierung und Rechenleistung erheblich reduzieren. Es scheint, dass die drei Hauptfaktoren, die große Modelle einschränken: Algorithmus, Daten und Rechenleistung, im großen Modell von Tencent Hunyuan kein Problem mehr darstellen. Selbstverständlich sind auch Qualität und Wirkung der vinzentinischen Zeichnungen gewährleistet. Der Effekt ist „falsch und echt“,
Venografische Grafikfunktionen wurden in Tencent-Werbeszenen eingebettetDie Hunyuan-Großmodell-Textgrafikfunktionen, die wir heute gesehen haben, werden nicht über Nacht erreicht. sondern eine reale Realität im Evolutionsprozess.
Auf der Tencent Global Digital Ecology Conference 2023, die letzten Monat stattfand, wurde das große Modell Tencent Hunyuan offiziell vorgestellt. Jiang Jie, Vizepräsident der Tencent Group, sagte damals, dass Hunyuan immer unterwegs sei. Tencent wird die Fähigkeiten von Hunyuan weiterentwickeln und hofft, jeden Monat Überraschungen für alle zu bereiten.
Derzeit verfügt Tencent über 180 interne Unternehmen, die mit dem großen Hunyuan-Modell verbunden sind, darunter Tencent Conference, Tencent Documents, Enterprise WeChat, Tencent Advertising und WeChat Search. Gleichzeitig rufen Kunden aus verschiedenen Branchen wie Einzelhandel, Bildung, Finanzen, medizinische Versorgung, Medien, Transport, Regierungsangelegenheiten usw. auch die Tencent Hunyuan API über Tencent Cloud auf. Zu den Anwendungsbereichen gehören intelligente Fragen und Antworten sowie die Erstellung von Inhalten. Datenanalyse, Code-Assistent und andere Szenarien.
Die neu eröffnete Vincentian-Bildfunktion ist die größte Überraschung, die uns das Hunyuan-Modell von Tencent bringt, und demonstriert seine führenden Fähigkeiten im Bereich der automatischen Bilderzeugung. Natürlich entwickelt sich auch Tencent Hunyuan Wenshengtu schrittweise weiter, und in Zukunft werden weitere Wenshengtu-bezogene und Wenshengtu-Funktionen entwickelt. Wir können uns auf eine Welle davon freuen.Derzeit sind die Bildgenerierungsfunktionen von Hunyuanwen in die Werbeszenarien von Tencent eingebettet, beispielsweise in die Generierung von Produktanzeigen oder Werbebildern. In mehreren Bewertungsrunden im Werbegeschäft erreichten die Case-Excellence-Rate und die Werbekundenakzeptanzrate von Tencent Hunyuan Wenshengtu 86 % bzw. 26 %, was beide höher ist als bei ähnlichen Modellen. Schauen wir uns zunächst das folgende Beispiel an, das das große Hunyuan-Modell erfordert, um ein Hotelzimmer zu generieren. Den Effekten nach zu urteilen ist der Bildeffekt von Hunyuan Wensheng nach dem Upgrade offensichtlich besser, das Design und die Qualität wurden erheblich verbessert und die Details sind reicher. Selbst im Vergleich zu Midjourney sind die Ergebnisse vergleichbar. Szenen zur Charaktererstellung haben ebenfalls ähnliche Effekte. Nach dem Upgrade sind die von Hunyuan generierten Porträts realistischer, z. B. Gesichtshautfarbe, Falten und andere Details. Neben Werbeszenarien untersucht Tencent auch ständig andere Nachfrageszenarien für Wenshengtu, wie z. B. die Generierung von Spielelementen und Spielfiguren in Spielszenarien, die Generierung neuartiger Illustrationen und Illustrationen in Inhaltsszenarien und deren Mischung in Cloud-Geschäftsszenarien . Meta-Fähigkeiten stehen Kunden in verschiedenen Branchen offen. Egal wie leistungsfähig das Modell ist, es muss von mehr Menschen genutzt werden und weiterhin Feedback erhalten, damit es weitere Fortschritte machen kann. Es ist abzusehen, dass Tencent-Produkte in Zukunft eine Explosion der Hunyuanwentutu-Funktionen einleiten werden und Benutzer auch mehr vom Charme von AIGC erleben werden. Das obige ist der detaillierte Inhalt vonDas Hunyuan-Großmodell von Tencent wurde erneut aktualisiert, mit der schockierenden Veröffentlichung vinzentinischer Diagrammfunktionen und umfassender tatsächlicher Messungen und Analysen. Für weitere Informationen folgen Sie bitte anderen verwandten Artikeln auf der PHP chinesischen Website!