Heim >Technologie-Peripheriegeräte >KI >Kuaishous „Keling' explodiert: Ein großer Schock in ausländischen KI-Kreisen, die chinesische Version von Sora ist schwer zu finden

Kuaishous „Keling' explodiert: Ein großer Schock in ausländischen KI-Kreisen, die chinesische Version von Sora ist schwer zu finden

王林Original: 2024-06-21 01:13:40759Durchsuche

Nach nur einem Jahr sind die KI-generierten „Nudeln essen“ so natürlich und geschmeidig geworden? Dies schockierte Internetnutzer auf der ganzen Welt. P t-Quelle: https://x.com/charaspowrai/status/1799494388462063632

Kuaishous „Keling explodiert: Ein großer Schock in ausländischen KI-Kreisen, die chinesische Version von Sora ist schwer zu finden

Diese Generierungsvideos von rechts stammen alle vom gerade gestarteten Ventuson-Videoriesen.

Es handelt sich nicht um eine Vorabversion oder eine reine Demo-Sammlung, sondern um eine Anwendung auf Produktebene, die direkt zum Testen geöffnet ist und bei der sich jeder bewerben kann. Darüber hinaus unterstützt Keling die Erstellung von 1080P-Videos mit bis zu 2 Minuten und 30 Bildern pro Sekunde und konzentriert sich dabei auf die „One-Click-Konvertierung“ vom Brainstorming in veröffentlichungsfähige Werke. (Offizielle Website-Adresse: https://kling.kuaishou.com/)

Die ersten Benutzer, die es verwendeten, waren „echter Weihrauch“:

Kuaishous „Keling explodiert: Ein großer Schock in ausländischen KI-Kreisen, die chinesische Version von Sora ist schwer zu finden

^{Quelle : https://x.com/ op7418/status/1799047146089619589}

Kuaishous „Keling explodiert: Ein großer Schock in ausländischen KI-Kreisen, die chinesische Version von Sora ist schwer zu finden

^{m8Or?refer_flag=1001030103_}

Die Kommunikationsgruppe hat maximal 500 Personen und wird sich schnell füllen. Jetzt ist der Bildschirm voller TQL:

Kuaishous „Keling explodiert: Ein großer Schock in ausländischen KI-Kreisen, die chinesische Version von Sora ist schwer zu finden

Ausländische Freunde, die es noch nicht benutzt haben, können nur besorgt sein und „Bitte“ in den sozialen Medien posten:

Es ist keine Übertreibung zu sagen, dass Ke Ling ist jetzt „eine Zahl ist schwer zu finden“:

Die Nachricht verbreitete sich im Risikokapitalkreis des Silicon Valley und löste eine hitzige Diskussion aus.

Der ehemalige CEO von Stabilitäts-KI, Emad Mostaque, sagte: „Chinas KI-Technologie hat ihre eigenen Vorteile.“

^{Prompt: Une personne tapant son best croc dans son hamburger}

🔜 Ling hat in den letzten Tagen Werke erstellt . Auch diese Website hat schnellstmöglich auf den Bewerbungskanal geklickt und die Probequalifikation erhalten.

Als nächstes könnten wir es genauso gut ausprobieren und die Gründe analysieren, warum Keling so beliebt ist.

Die erste Wensheng-Videoanwendung auf Produktebene in China

Vielleicht erinnern Sie sich noch an dieses einst sehr beliebte „Balloon Man“-Video. Drei YouTuber haben fast zwei Wochen mit Sora verbracht, um dieses atemberaubende 1 Minute und 21 Sekunden lange Kurzvideo zu erstellen. Allerdings gestand Patrick Cederberg, der für die Postproduktion verantwortlich war, viele Probleme im Prozess ein, z. B. dass sich die Farbe des Ballons bei jeder Erstellung änderte, einige Fehler im Filmmaterial auftraten usw.

Sora generiert Ergebnisse. Vollständige Videoadresse: https://youtu.be/9oryIMNVtto?si=F6oDzvrhzfVcQGeh

Bei früheren Videogenerationsmodellen ist es in der Tat schwierig, mehr als 1 Minute Inhalt auf einmal zu generieren, insbesondere wenn der Bildschirm ist erforderlich. Alle Elemente bleiben konsistent.

Fu Sheng, Vorsitzender und CEO von Cheetah Mobile und Vorsitzender von Orion Star, veröffentlichte das „Balloon Man“-Video, das er mit Corin gemacht hatte, und sagte, dass es nur „zig Minuten“ gedauert habe, um den Kurzfilm „Continuity“ zu erstellen mit ausgezeichnetem Realismus und Klarheit.

Während des internen Testprozesses haben wir auch Tutorials und Demodokumente entdeckt, die spontan von einer Community professioneller Ersteller erstellt wurden, darunter Hunderte von Werken, die generiert werden können, und auch Anleitungen zum Testen von Dimensionen gegeben.

Interessierte Leser klicken bitte: https://waytoagi.feishu.cn/wiki/GevKwyEt1i4SUVk0q2JcqQFtnRd

Der folgende 2-minütige gemeinnützige Kurzfilm „A Place Far Far Away“ wurde ebenfalls vollständig von Keling produziert Ja, kannst du es sehen?

In der Arbeit „Zootopia Racing Competition“ des Schöpfers @AIGC Thirteen umfassen diese 20 Sekunden die Generation schneller Rennwagen (große Bewegungen), tiergetriebener Fahrzeuge (konzeptionelle Kombinationen, die die Fantasie auf die Probe stellen) usw. Schwierig, aber Nach den Ergebnissen zu urteilen, hat Keling diese Probleme sehr gut gelöst:

Quelle: Keling Creator @Aigc Dreizehn

Es gibt einen weiteren sehr interessanten Fall. @八级Mechanics. Die Produktion dieses 56-sekündigen Kurzvideos dauerte insgesamt 3 Stunden und umfasste 23 Aufnahmen. Fügen Sie dann zusätzlich zu den von Ke Ling generierten Ergebnissen die Synchronisation hinzu, und das humorvolle Gefühl wird sofort da sein:

Nachdem wir diese gelesen hatten, hätten wir erkennen müssen, dass der Einfluss der von Keling vertretenen Videogenerierungstechnologie weit über das Einfache hinausgeht Schaffung. Die Implementierung dieser Technologie beschleunigt sich in verschiedenen Forschungsbereichen und Branchen und bietet transformatives Potenzial für eine Vielzahl von Aufgaben, von der automatischen Inhaltsgenerierung bis hin zu komplexen Entscheidungsprozessen.

Welche Branchen werden zuerst verändert?

Traditionelle Spieleentwicklung wird oft durch vorgerenderte Umgebungen und geskriptete Ereignisse eingeschränkt. Sobald Videogenerierungsmodelle in Spiele integriert werden, wird die Art und Weise, wie Spiele entwickelt, gespielt und erlebt werden, innovativ sein und neue Möglichkeiten für das Geschichtenerzählen, die Interaktivität und immersive Erlebnisse bieten. Für Spieleentwickler besteht eine der intuitivsten Spielmöglichkeiten darin, individuelle visuelle Effekte und sogar Charakteraktionen basierend auf Benutzererzählungen zu generieren. M In der DEMO unten können wir sehen, dass Benutzer mit Hilfe von Kakao ein unvergleichliches Körpererlebnis schaffen können:

Quelle: https: //x.com/dustinhollywood /status /1800056286215553444

Kuaishous „Keling explodiert: Ein großer Schock in ausländischen KI-Kreisen, die chinesische Version von Sora ist schwer zu finden

Eine weitere Branche, die von Störungen betroffen sein wird, ist die Film- und Fernsehproduktion. Das traditionelle Filmemachen ist ein mühsamer und teurer Prozess, der oft jahrelange Anstrengungen, umfangreiche Ausrüstung und finanzielle Investitionen erfordert. Das Aufkommen der Videogenerierungstechnologie läutet eine neue „Demokratisierungszeit“ in der Filmproduktion ein. Der Traum, aus einfacher Texteingabe selbstständig persönliche Film- und Fernsehwerke zu generieren, wird Wirklichkeit.

Was wir nun mit Keling generieren, ist ein 5-Sekunden-Einzelbildclip. Da sich die Technologie weiterentwickelt, wird auch die Länge des Videos, das Benutzer gleichzeitig erstellen können, zunehmen. Beispielsweise können wir in Zukunft möglicherweise längere Videoinhalte auf einmal generieren, um die Kohärenz und das Vergnügen der Story-Szenen aufrechtzuerhalten. Die Kameratechniken können fortgeschrittener sein, wie zum Beispiel kontinuierliche Totalaufnahmen.

^{Die Silhouettenarbeit unten beweist einmal mehr einen Punkt: Das Verständnis und das ästhetische Niveau der KI in der Kunst stehen dem Menschen in nichts nach.}

Eingabeaufforderung: „Die Silhouette eines Tänzers geht nahtlos durch verschiedene Tanzstile, von Hip-Hop bis Ballett, in einer fortlaufenden Aufnahme über“

。

. Bildquelle: https://x.com/dustinhollywood/status/1799970059957555210

KI kann auch die Produktion von Luxus-Blockbustern inspirieren:
Wir können uns die Leistung der KI bei der Simulation der Nahaufnahme im Werbespot „Honey“ von Ke Ling ansehen Das Einschenken von Honig steht dem des professionellen Kamerateams in nichts nach:

Welche Technologien stecken hinter KeLing?
Wir konnten nicht genügend Sora-Forschungs- und Entwicklungsdetails aus dem kurzen technischen Bericht von OpenAI entnehmen, aber auf der offiziellen Website von Keling Large Model wurden weitere Referenzinformationen veröffentlicht, hauptsächlich einschließlich Datenvorbereitung, Modellarchitektur, Trainingsplan usw Optimierungsstrategie.
Datenvorbereitung
Auf der Grundlage von Kuaishous jahrelanger Erfahrung im Bereich der Videotechnologie hat das Keling Model-Team ein vollständiges Kennzeichnungssystem aufgebaut, das grundlegende Videoqualität, Ästhetik, Natürlichkeit usw. umfasst Charakterisieren Sie die Qualität von Videodaten und entwerfen Sie eine Vielzahl benutzerdefinierter Beschriftungsfunktionen für jede Dimension, um Trainingsdaten zu verfeinern oder die Verteilung von Trainingsdaten anzupassen.

Um den Anforderungen gepaarter Video- und Textbeschreibungen beim Training des Wensheng-Videomodells gerecht zu werden, hat das Keling Big Model-Team selbst ein Videobeschreibungsmodell entwickelt, mit dem genaue, detaillierte und strukturierte Videos generiert werden können Beschreibungen, wodurch die Videogenerierung erheblich verbessert wird. Die Reaktionsfähigkeit des Modells auf Textbefehle.

Modellarchitektur

Wie erhält das Keling-Großmodell nach der Vorbereitung der hochwertigen Annotationsdaten die Fähigkeit, die Merkmale und Konzeptkombinationen der physischen Welt zu simulieren?

Im Gesamtarchitekturdesign übernimmt Keling den derzeit beliebten Diffusion Transformer (DiT). Herkömmliche Diffusionsmodelle nutzen hauptsächlich Faltungs-U-Net, das Downsampling- und Upsampling-Blöcke enthält, als Netzwerk-Backbone zur Rauschunterdrückung. Einige Studien haben jedoch gezeigt, dass die U-Net-Architektur für die gute Leistung von Diffusionsmodellen nicht entscheidend ist. Durch die Einführung einer flexibleren Transformer-Architektur können Diffusionsmodelle mehr Trainingsdaten und größere Modellparameter verwenden. DiT ist eine der repräsentativen Arbeiten im Rahmen dieser Forschungsidee.

In den letzten Monaten hat sich die Branche darüber geeinigt, dass der Erfolg von Videogenerierungsmodellen letztendlich die Funktion des Skalierungsgesetzes ist. Dieser Konsens basiert auf den Erkenntnissen des DiT-Papiers, dass die Verwendung von Transformer die Modellgröße stetig erweitern kann: Mit zunehmender Menge an Trainingsberechnungen (die Zeit zum Trainieren des Modells nimmt zu oder das Modell nimmt zu oder beides) nimmt auch die Leistung zu entsprechend.

Das bedeutet, dass sich die Generierungsqualität bei Videogenerierungsmodellen weiter verbessern wird, solange mehr Rechenleistung und mehr Daten für die Skalierung verwendet werden.

Der Grund, warum Keling die Textaufforderungen der Benutzer in spezifische Bilder umwandeln kann, einschließlich fiktiver Szenen, die in der realen Welt nicht erscheinen, basiert auf einem tiefen Verständnis der Text-Video-Semantik und den leistungsstarken Fähigkeiten des Diffusion Transformer die Architektur . Angetrieben durch die leistungsstarken Modellierungsfähigkeiten, die von seiner selbst entwickelten Architektur und dem Skalierungsgesetz inspiriert sind, kann Keling die physikalischen Eigenschaften der realen Welt gut simulieren und Videos erzeugen, die den physikalischen Gesetzen entsprechen.

Gleichzeitig kann das großformatige Modell basierend auf dem vom Team selbst entwickelten 3D-VAE-Netzwerk Videos auf Filmniveau mit einer Auflösung von 1080p erzeugen, unabhängig davon, ob es sich um eine riesige und majestätische Szene oder eine zarte Nahaufnahme handelt. es kann lebendig sein. In natürlichen Szenen ändert sich das Licht sanft. Tester: @shanshan

^{Natürlich muss für das Videogenerierungsmodell ein weiterer Faktor berücksichtigt werden: Video ist eine Art visueller Inhalt mit einer Zeitdimension, und inkohärenter Inhalt führt dazu, dass Benutzer zuschauen. Das Erlebnis ist stark beeinträchtigt.}

Um sicherzustellen, dass die Darstellung der Bewegung im Bild angemessener ist, verwendet das große Keling-Modell einen 3D-räumlich-zeitlichen gemeinsamen Aufmerksamkeitsmechanismus, um komplexe räumlich-zeitliche Bewegungen besser zu modellieren, und kann Videoinhalte mit größerer Größe generieren Bewegungen unter Einhaltung der Bewegungsmuster.

Trainings- und Optimierungsstrategie

Wenn Sie es selbst getestet haben, werden Sie feststellen, dass Keling die Ausgabe mehrerer Videoseitenverhältnisse für denselben Inhalt während des Inferenzprozesses unterstützt. Dies liegt daran, dass Keling eine Trainingsstrategie mit variabler Auflösung anwendet, um den Anforderungen der Verwendung von Videomaterial in reichhaltigeren Szenen gerecht zu werden.

Gleichzeitig kann das Keling-Modell dank effizienter Trainingsinfrastruktur, extremer Inferenzoptimierung und skalierbarer Infrastruktur Videos mit einer Länge von bis zu 2 Minuten und einer Bildrate von 30 Bildern pro Sekunde generieren.

Videogenerierung ist kein Spiel mehr, bei dem es darum geht, „mit OpenAI gleichzuziehen“

2024 wird das Jahr der Explosion der Videogenerierungstechnologie genannt, aber vor Keling haben wir es nie auf Sora-Niveau gesehen Produkte sind verfügbar und es ist nicht bekannt, wann Sora verfügbar sein wird.

In gewissem Sinne ist Keling die erste echte „chinesische Version von Sora“ und bringt diese Technologie auf ein Niveau, in dem sie nutzbar, einfach zu bedienen und praktisch ist.

Wie Fu Sheng sagte: „Dies ist möglicherweise das beste Wensheng-Videoprodukt, das Sie heute auf der Welt verwenden können.“ Jeder, der Keling persönlich ausprobiert hat, wird verstehen, dass dies keineswegs übertrieben ist.

Das Video von Fu Sheng brachte auch einen anderen Standpunkt zum Ausdruck: „Im Gegenzug zeigt es auch, dass Sora kein technischer Durchbruch, sondern ein Produktdurchbruch ist.“

Ich erinnere mich noch an die Zeit vor ein paar Monaten, Sora hat das technische Niveau der gesamten Videoerzeugungsspur mit seinen Vorteilen von 60 Sekunden kontinuierlichem Video, hochauflösender Bildtextur, kontinuierlicher Kamerabewegung und Bewegungsmethoden angehoben und eine Welle der Konkurrenz in der vinzentinischen Videospur ausgelöst.

Wir dachten ursprünglich, dass sich der Bereich der Videogenerierung zu einem technologischen Aufholprozess zwischen inländischen und ausländischen Ländern entwickeln würde, genau wie beim Textmodell des letzten Jahres. Die Veröffentlichung von Keling bedeutet jedoch, dass die Erforschung der inländischen Wensheng-Video-Großmodelltechnologie einen neuen Höhepunkt erreicht hat und eine wesentliche Führungsrolle bei der Produktimplementierung erlangt hat. Möglicherweise müssen wir das Spiel „Aufholen mit OpenAI“ nicht noch einmal spielen.

Einige Leute sind der Meinung, dass China die Vereinigten Staaten auf dem Gebiet der künstlichen Intelligenz übertrifft.

Die Geburt von Keling könnte den Beginn einer neuen Ära bedeuten. Im Zeitalter der generativen KI ist das Erstellen und Bearbeiten von Videos möglicherweise so einfach wie heute die Verwendung von Fotos auf Mobiltelefonen, und die Grenze zwischen Vorstellung und Realität wird vollständig durchbrochen.
Aufgrund seiner Beliebtheit hat die Zahl der Personen, die derzeit in der Schlange stehen, um Corin zu testen, die 50.000-Marke überschritten. Wenn Sie sich für das Gameplay von KI-generierten Videos interessieren, sollten Sie zunächst dem „Keling AI Video Account“ folgen, um weitere hochwertige Fälle zu erhalten.

Das obige ist der detaillierte Inhalt vonKuaishous „Keling' explodiert: Ein großer Schock in ausländischen KI-Kreisen, die chinesische Version von Sora ist schwer zu finden. Für weitere Informationen folgen Sie bitte anderen verwandten Artikeln auf der PHP chinesischen Website!

架构事件人工智能 transformer https AIGC prompt

Stellungnahme：

Der Inhalt dieses Artikels wird freiwillig von Internetnutzern beigesteuert und das Urheberrecht liegt beim ursprünglichen Autor. Diese Website übernimmt keine entsprechende rechtliche Verantwortung. Wenn Sie Inhalte finden, bei denen der Verdacht eines Plagiats oder einer Rechtsverletzung besteht, wenden Sie sich bitte an admin@php.cn

Vorheriger Artikel：Von der College-Aufnahmeprüfung bis zur Olympia-Arena: der ultimative Kampf zwischen großen Models und menschlicher IntelligenzNächster Artikel：Von der College-Aufnahmeprüfung bis zur Olympia-Arena: der ultimative Kampf zwischen großen Models und menschlicher Intelligenz

In Verbindung stehende Artikel

Mehr sehen