Heim  >  Artikel  >  Technologie-Peripheriegeräte  >  Schönere Bilderzeugung, Videoausgabe auf Minutenebene, eine Sprungreise der inländischen selbst entwickelten DiT-Architektur

Schönere Bilderzeugung, Videoausgabe auf Minutenebene, eine Sprungreise der inländischen selbst entwickelten DiT-Architektur

王林
王林Original
2024-07-12 18:49:141107Durchsuche
Im Handumdrehen hat das Jahr 2024 bereits die Hälfte hinter sich. Es ist nicht schwer festzustellen, dass es im Bereich der KI, insbesondere der AIGC, einen immer offensichtlicheren Trend gibt: Der Wenshengtu-Track ist in eine Phase stetiger Weiterentwicklung und beschleunigter kommerzieller Umsetzung eingetreten, gleichzeitig ist jedoch die Generierung nur statischer Bilder nicht mehr möglich Befriedigung der Nachfrage der Menschen nach generativen KI-Funktionen. Die Nachfrage nach dynamischer Videoerstellung war noch nie so hoch.
Daher ist der Wensheng-Videotrack weiterhin heiß begehrt, insbesondere seit OpenAI Anfang des Jahres Sora veröffentlichte, das Videogenerierungsmodell mit Diffusion Transformer (DiT) als zugrundeliegender Architektur hat eine rasante Periode eingeläutet. Auf diesem Weg starten in- und ausländische Hersteller von Videogenerationsmodellen stillschweigend einen Technologiewettbewerb.

In China taucht weiterhin ein im März letzten Jahres gegründetes generatives KI-Startup-Unternehmen, das sich auf den Aufbau visueller multimodaler Grundmodelle und Anwendungen konzentriert, im Blickfeld der Menschen auf. Es ist HiDream.ai. Sein selbst entwickeltes visuelles multimodales Grundmodell realisiert die Generierung und Konvertierung zwischen verschiedenen Modalitäten, unterstützt Wensheng-Bilder, Wensheng-Videos, Wensheng-Videos und Wensheng 3D und hat die One-Stop-KI-Bild- und Videogenerierung eingeführt Plattform „Pixeling“ ist für die Öffentlichkeit zum Einstieg gedacht.

Experience-Adresse: www.hidreamai.com

Seit der Einführung des großen Zhixiang-Modells im August 2023 hat es mehrere Iterationen und Verfeinerungen durchlaufen und das Basismodell optimiert, um das Modell tiefgreifend zu erforschen und zu erweitern Wensheng-Diagramm und Vincent Video sowie andere AIGC-Funktionen. Insbesondere im Bereich der Videogenerierung wurde die unterstützte Generierungszeit von anfänglich 4 Sekunden auf 15 Sekunden erhöht und auch die Bildwirkung ist sichtbar besser.

Jetzt wurde das große Modell von Zhixiang erneut aktualisiert. Die einzigartige DiT-Architektur basiert auf nativen chinesischen Versionen und bietet leistungsfähigere, stabilere und benutzerfreundlichere Bild- und Videogenerierungsfunktionen, einschließlich
mehr ästhetischer und künstlerischer Bildgenerierung , Einbetten von Text in Bilder, Generierung von Videos auf Minutenebene usw.. Schönere Bilderzeugung, Videoausgabe auf Minutenebene, eine Sprungreise der inländischen selbst entwickelten DiT-Architektur
Die Demonstration all dieser neuen Fähigkeiten zur Bild- und Videogenerierung ist untrennbar mit der technologischen Anhäufung und kontinuierlichen Innovation von Zhixiang Future im Bereich der multimodalen visuellen Generierung verbunden. „Der Generierungseffekt verbessert sich weiter.“ Die interaktive Generierungstechnologie ermöglicht eine präzise und kontrollierbare multimodale Inhaltsgenerierung und baut leistungsstarke Prototypfunktionen auf, die den Benutzern ein besseres kreatives Erlebnis auf seinen Plattformen Vincent Picture und Vincent Video ermöglichen.

Dieses
Intelligent Elephant Large Model 2.0-Gesamtupgrade weist im Vergleich zur Version 1.0 qualitative Änderungen in der zugrunde liegenden Architektur, den Trainingsdaten und Trainingsstrategien auf
, die Text, Bilder, Videos und 3D mit sich bringen. Ein weiterer Sprung in den Multimodus-Fähigkeiten und eine spürbare Verbesserung des interaktiven Erlebnisses.
Man kann sagen, dass das verbesserte Smart Elephant-Modell umfassende Verbesserungen im Bereich der Bild- und Videogenerierung eingeleitet und der One-Stop-AIGC-Generierungsplattform für multimodale Großunternehmen eine stärkere Antriebskraft verliehen hat Modellerstellung.

Die Fähigkeiten von Vincent Picture haben sich erneut weiterentwickelt. Daher hat Zhixiang in Zukunft hohe Erwartungen an Wenshengtu gesetzt und wird in seinem eigenen Tempo vielfältigere Funktionen, realistischere visuelle Effekte und ein benutzerfreundlicheres Erlebnis fördern.
Nach einer Reihe gezielter Anpassungen und Optimierungen wurde die Vincentian-Diagrammfähigkeit von Zhixiang Large Model 2.0 im Vergleich zu früheren Versionen deutlich verbessert und ist anhand mehrerer externer Präsentationseffekte leicht zu erkennen.

Zuallererst sind die von
Zhixiang Large Model 2.0 erzeugten Bilder schöner und künstlerischer
. Das aktuelle vinzentinische Großmodell kann in intuitiveren Aspekten wie dem semantischen Verständnis, der Erzeugung von Bildstrukturen und Bilddetails sehr gut abschneiden, ist jedoch in teilweise sensorischen Aspekten wie Textur, Schönheit und Kunstfertigkeit möglicherweise nicht zufriedenstellend. Daher steht das Streben nach Schönheit im Mittelpunkt dieses Vincent Picture-Upgrades. Was ist der Effekt? Wir können uns die folgenden zwei Beispiele ansehen.
Die Eingabeaufforderung für das erste Beispiel lautet „ein kleines Mädchen mit einem riesigen Hut mit vielen Burgen, Blumen, Bäumen, Vögeln, bunt, Nahaufnahme, Details, Illustrationsstil“ auf dem Hut.
Die Eingabeaufforderung im zweiten Beispiel lautet „Nahaufnahme von grünen Pflanzenblättern, dunkles Thema, Wassertropfendetails, Handyhintergrund“.

Die beiden erzeugten Bilder sehen in Bezug auf Komposition, Ton und Detailreichtum auffällig aus, was die Gesamtschönheit des Bildes erheblich verstärkt.

Schönere Bilderzeugung, Videoausgabe auf Minutenebene, eine Sprungreise der inländischen selbst entwickelten DiT-Architektur

Die erzeugten Bilder sehen nicht nur schöner aus,
die Korrelation der generierten Bilder ist auch stärker

. Dies ist auch ein Aspekt, dem jeder große Aufmerksamkeit schenkt, nachdem die Bilderzeugung ein bestimmtes Stadium erreicht hat. Schönere Bilderzeugung, Videoausgabe auf Minutenebene, eine Sprungreise der inländischen selbst entwickelten DiT-Architektur

Um die Relevanz generierter Bilder zu verbessern, konzentriert sich das große Modell von Intelligent Image auf die Stärkung des Verständnisses einiger komplexer Logiken, wie z. B. unterschiedlicher räumlicher Anordnungen, Positionsbeziehungen, verschiedener Objekttypen und der Anzahl generierter Objekte usw., diese sind ein wichtiger Faktor, um eine höhere Relevanz zu erreichen. Nach einiger Schulung kann das große Modell von Intelligent Elephant problemlos Bildgenerierungsaufgaben mit mehreren Objekten, Verteilung an mehreren Standorten und komplexer räumlicher Logik bewältigen und die tatsächlichen Bedürfnisse der Benutzer im wirklichen Leben besser erfüllen.
Schauen wir uns die folgenden Beispiele aus drei Generationen an, die ein tiefes Verständnis verschiedener Objekte und räumlicher Positionsbeziehungen erfordern. Die Ergebnisse zeigen, dass Vincent Diagram nun problemlos mit langen und kurzen Textaufforderungen mit komplexer Logik umgehen kann.

Die Eingabeaufforderung für das erste Beispiel lautet: „Auf dem Küchentisch stehen drei Körbe voller Obst. Der mittlere Korb ist mit grünen Äpfeln gefüllt. Der linke Korb ist mit Erdbeeren gefüllt. Der rechte Korb ist mit Blaubeeren gefüllt.“ Hinter dem Korb befindet sich ein weißer Hund. Der Hintergrund ist eine türkisfarbene Wand mit dem bunten Text „Pixeling v2“.

Die Eingabeaufforderung des zweiten Beispiels lautet „rechts ist eine Katze, links ist ein Hund und in der Mitte liegt ein grüner Würfel auf einer blauen Kugel“.

Die Eingabeaufforderung für das dritte Beispiel lautet: „Auf dem Mond reitet ein Astronaut auf einer Kuh, trägt einen rosa Tutu-Rock und hält einen blauen Regenschirm. Rechts von der Kuh befindet sich eine Kuh, die einen Pinguin mit Zylinderhut trägt.“ . Der Text „HiDream.Al“ steht unten.

Schönere Bilderzeugung, Videoausgabe auf Minutenebene, eine Sprungreise der inländischen selbst entwickelten DiT-Architektur

Gleichzeitig ist die Generierung von in Bildern eingebettetem Text präziser und effizienter, eine Funktion, die bei Postern oder Marketingtexten häufiger zum Einsatz kommt.

In Bezug auf die technische Umsetzung erfordert die Generierung von in Bilder eingebettetem Text ein großes Modell, um die Beschreibung des visuellen Erscheinungsbilds und den präzisen Textinhalt in der Eingabeaufforderung genau zu verstehen, um eine genaue Darstellung des Textinhalts zu erreichen und gleichzeitig die Gesamtschönheit sicherzustellen und Kunstfertigkeit des Bildes.

In einem exklusiven Interview mit dieser Website erwähnte Dr. Yao Ting, CTO von Zhixiang Future, dass frühere Versionen solche Aufgaben oft nicht generieren konnten, es aber immer noch Probleme gab. in Bezug auf generierte Zeichen oder Genauigkeit fehlen alle. Jetzt sind diese Probleme gut gelöst. Das große Modell von Zhixiang hat die Einbettung von Langtexten in Bilder realisiert, die bis zu Dutzende von Wörtern umfassen können.

Die drei generierten Beispiele von links nach rechts unten zeigen gute Texteinbettungseffekte, insbesondere auf der rechten Seite des Bildes, wo mehr als zwanzig Wörter und Satzzeichen präzise eingebettet sind.

Schönere Bilderzeugung, Videoausgabe auf Minutenebene, eine Sprungreise der inländischen selbst entwickelten DiT-Architektur

Man kann sagen, dass die Vincentian-Diagrammfunktion des Intelligent Elephant-Modells branchenweit führende Ergebnisse erzielt und eine wichtige Grundlage für die Videogenerierung gelegt hat.

Die Videoerzeugung hat das Minutenniveau erreicht

Wenn das aktualisierte Intelligent Image Model 2.0 stetige Fortschritte in Richtung vinzentinischer Grafiken erzielt hat, dann hat es einen Sprung nach vorne in Richtung vinzentinischer Videos gemacht .

Im Dezember letzten Jahres durchbrach das Vincent-Video des großen Zhixiang-Modells die 4-Sekunden-Grenze und unterstützte die Generationszeit von mehr als 15 Sekunden. Ein halbes Jahr später hat sich Wensheng Video in Bezug auf Dauer, Natürlichkeit der Bilder, Inhalt und Konsistenz der Charaktere deutlich verbessert, und dies ist der selbst entwickelten, ausgereiften DiT-Architektur zu verdanken.

Im Vergleich zu U-Net ist die DiT-Architektur flexibler und kann die Qualität der Bild- und Videoerzeugung verbessern. Das Aufkommen von Sora bestätigt dies auf intuitivere Weise. Diffusionsmodelle, die diese Art von Architektur verwenden, zeigen eine natürliche Tendenz zur Generierung qualitativ hochwertiger Bilder und Videos und bieten relative Vorteile bei der Anpassbarkeit und Steuerbarkeit der generierten Inhalte. Für das Intelligent Elephant Large Model 2.0 weist die verwendete DiT-Architektur einige einzigartige Merkmale auf.

Wir wissen, dass die zugrunde liegende Implementierung der DiT-Architektur auf Transformer basiert. Das Intelligence Model 2.0 übernimmt vollständig selbst entwickelte Module in der gesamten Transformer-Netzwerkstruktur, der Trainingsdatenzusammensetzung und der Trainingsstrategie, insbesondere im Netzwerktraining Die Strategie ist gut durchdacht.

Zuallererst übernimmt die Transformer-Netzwerkstruktur einen effizienten räumlich-zeitlichen gemeinsamen Aufmerksamkeitsmechanismus, der nicht nur die Eigenschaften von Videos sowohl im räumlichen als auch im zeitlichen Bereich berücksichtigt, sondern auch das Problem löst, mit dem der herkömmliche Aufmerksamkeitsmechanismus nicht mithalten kann die Geschwindigkeit während des eigentlichen Trainingsprozesses.

Zweitens stellt die Generierung von Totalen in KI-Videoaufgaben höhere Anforderungen an die Quelle und Überprüfung der Trainingsdaten. Daher unterstützt das große Modell von Zhixiang das Training von Videoclips von bis zu mehreren Minuten oder sogar zehn Minuten und ermöglicht so die direkte Ausgabe von minutenlangen Videos. Gleichzeitig ist es auch schwierig, Videoinhalte auf Minutenebene zu beschreiben. Zhixiang Future hat unabhängig ein Untertitelungsmodell entwickelt, um Videobeschreibungen zu generieren und eine detaillierte und genaue Beschreibungsausgabe zu erzielen.

Was schließlich die Trainingsstrategie betrifft, verwendet das Intelligent Elephant Model 2.0 aufgrund der begrenzten Videodaten mit langen Objektiven Videoclips unterschiedlicher Länge für das gemeinsame Training von Video- und Bilddaten und ändert die Abtastung von Videos dynamisch unterschiedliche Längen und anschließendes Long-Shot-Training. Gleichzeitig wird während des Trainings ein Verstärkungslernen durchgeführt, um die Modellleistung weiter zu optimieren.

Daher bietet die leistungsfähigere selbst entwickelte DiT-Architektur technische Unterstützung für die weitere Verbesserung des Wensheng-Videoeffekts.

Jetzt wurde die Videodauer, die vom Intelligent Elephant Large Model 2.0 unterstützt wird, von etwa 15 Sekunden auf Minuten erhöht und erreicht damit ein hohes Niveau in der Branche.

Neben der Videodauer, die das Minutenniveau erreicht, sind variable Dauer und Größe auch ein großes Highlight dieses Wensheng-Video-Feature-Upgrades.

Das aktuelle Videogenerierungsmodell hat normalerweise eine feste Generierungsdauer, die Benutzer nicht wählen können. Zukünftig wird Zhixiang den Benutzern die Wahl der Generierungsdauer ermöglichen, sodass sie die Dauer festlegen oder dynamische Urteile basierend auf dem Inhalt der Eingabeaufforderung treffen können. Wenn es komplexer ist, wird ein längeres Video generiert, und wenn es relativ einfach ist, wird ein kürzeres Video generiert. Durch einen solchen dynamischen Prozess können die kreativen Bedürfnisse des Benutzers adaptiv erfüllt werden. Auch die Größe des generierten Videos kann je nach Bedarf angepasst werden, was es sehr benutzerfreundlich macht.

Darüber hinaus Das allgemeine Erscheinungsbild des Bildes ist besser geworden, die Aktionen oder Bewegungen von Objekten im generierten Video sind natürlicher und flüssiger, die Details werden präziser wiedergegeben und es unterstützt 4K Ultra-Clear Bildqualität. Schönere Bilderzeugung, Videoausgabe auf Minutenebene, eine Sprungreise der inländischen selbst entwickelten DiT-Architektur
In nur einem halben Jahr kann die verbesserte Vincent Video-Funktion im Vergleich zu früheren Versionen als „wiedergeboren“ bezeichnet werden. Allerdings befinden sich nach Ansicht von Dr. Yao Ting die meisten Videogenerationen, sei es Intelligent Future oder andere, noch im Single-Lens-Stadium. Im Vergleich zu den Stufen L1 bis L5 im Bereich des autonomen Fahrens liegt Vincent Video ungefähr auf der Stufe L2. Mit Hilfe dieser Verbesserung der Grundmodellfunktionen möchte Zhixiang in Zukunft die Erzeugung von Videos mit mehreren Objektiven in höherer Qualität vorantreiben und hat außerdem einen wichtigen Schritt in Richtung Erkundung der L3-Stufe getan.

Schönere Bilderzeugung, Videoausgabe auf Minutenebene, eine Sprungreise der inländischen selbst entwickelten DiT-Architektur

Zhixiang Future gab an, dass die iterierte Vincent-Videofunktion Mitte Juli eingeführt wird. Jeder kann sich darauf freuen!

Geschrieben am Ende

Es ist seit weniger als anderthalb Jahren etabliert, sei es die kontinuierliche Iteration grundlegender Modellfähigkeiten oder die Verbesserung des tatsächlichen Erlebnisses vinzentinischer Bilder und Vincentian-Videos, Intelligent Image wird in Zukunft visueller sein und schreitet stetig und schnell in diese Richtung voran und hat eine große Anzahl von C-Seiten- und B-Seiten-Benutzern gewonnen.

Wir haben erfahren, dass die monatlichen Besuche von C-End-Benutzern von Zhixiang Future Millionen überstiegen und die Gesamtzahl der generierten KI-Bilder und -Videos ebenfalls 10 Millionen überstieg. Niedrigschwellige und gute Anwendungen sind die Merkmale des Intelligent Elephant-Modells. Auf dieser Grundlage entsteht die erste AIGC-Anwendungsplattform, die für die Öffentlichkeit am besten geeignet ist.

Auf der B-Seite arbeitet Zhixiang Future aktiv mit China Mobile, Lenovo Group, iFlytek, Shanghai Film Group, Ciwen Group, Digital China, CCTV, Evernote, Tiangong Yicai, Hangzhou Lingban und anderen Unternehmen zusammen. Erreichen Sie eine strategische Zusammenarbeit Vereinbarung zur Vertiefung der Anwendungsszenarien des Modells, zur Ausweitung der Modellfähigkeiten auf weitere Branchen, darunter Betreiber, intelligente Terminals, Film- und Fernsehproduktion, E-Commerce, Förderung des Kulturtourismus und Markenmarketing, und schließlich die Nutzung des Modells im Potenzial des Kommerzialisierungsprozesses und zur Schaffung von Werten .

Derzeit hat Zhixiang Large Model etwa 100 Top-Unternehmenskunden und hat AIGC-Dienste für 30000 + Klein- und Kleinstunternehmenskunden bereitgestellt.

Schönere Bilderzeugung, Videoausgabe auf Minutenebene, eine Sprungreise der inländischen selbst entwickelten DiT-Architektur

Vor der Veröffentlichung von Zhixiang Large Model 2.0 hat sich Zhixiang Future mit der China Mobile Migu Group zusammengetan, um die landesweite AIGC-Anwendung „AI One Word to Make a Movie“ auf den Markt zu bringen, die nicht nur normalen Benutzern Null bietet -basierte KI-Funktionen zur Erstellung von Videoklingeltönen helfen Unternehmenskunden auch dabei, reichhaltige Marken- und Marketingvideoinhalte zu generieren, sodass Unternehmen ihre eigenen Klingeltonmarken haben können, was uns das enorme Potenzial der Videogenerierung und Integration in Branchenszenarien erkennen lässt.

Darüber hinaus ist das KI-Ökosystem auch für große Modellhersteller eine wichtige Entwicklungsposition. Diesbezüglich hat Zhixiang in Zukunft eine offene Haltung und wird mit Großkunden wie Lenovo Group, iFlytek und Digital China sowie kleinen Entwicklungsteams und unabhängigen Entwicklern zusammenarbeiten, um ein breites KI-Ökosystem einschließlich Videogenerierung aufzubauen mehr Benutzer.

2024 gilt als das erste Jahr groß angelegter Modellanwendungen und ist ein wichtiger Entwicklungsknotenpunkt für alle Hersteller. Zukünftig wird Zhixiang ausführliche Artikel über leistungsfähigere Prototypfunktionen veröffentlichen.

Einerseits die Stärkung des Verständnisses und der Generierungsfähigkeiten von Bildern, Videos und 3D-Multimodalitäten in einem einheitlichen Rahmen, beispielsweise durch die weitere Optimierung der zugrunde liegenden Architektur, Algorithmen und Daten im Bereich der Videogenerierung Um Verbesserungen in Bezug auf Dauer und Qualität zu erzielen, ist es zu einem unverzichtbaren Bestandteil der künftigen allgemeinen künstlichen Intelligenz geworden. Andererseits wurden Anstrengungen in verschiedene Richtungen unternommen, z. B. in Bezug auf Benutzererfahrung, innovative Anwendungen und Branchenökologie beeinflussen.

Erobern Sie die Spitzenposition auf dem Weg zur Videogenerierung, Zhixiang ist bestens für die Zukunft gerüstet.

Das obige ist der detaillierte Inhalt vonSchönere Bilderzeugung, Videoausgabe auf Minutenebene, eine Sprungreise der inländischen selbst entwickelten DiT-Architektur. Für weitere Informationen folgen Sie bitte anderen verwandten Artikeln auf der PHP chinesischen Website!

Stellungnahme:
Der Inhalt dieses Artikels wird freiwillig von Internetnutzern beigesteuert und das Urheberrecht liegt beim ursprünglichen Autor. Diese Website übernimmt keine entsprechende rechtliche Verantwortung. Wenn Sie Inhalte finden, bei denen der Verdacht eines Plagiats oder einer Rechtsverletzung besteht, wenden Sie sich bitte an admin@php.cn