Heim >Technologie-Peripheriegeräte >KI >700.000 Menschen strömten herbei, um es zu erleben! Der neue König der Videogeneration „Keling AI' wurde erneut verbessert
Ist es möglich, dass die Ära der KI-generierten Kurzdramen wirklich kommt?
Vor Kurzem sind die von verschiedenen KIs zur Videogenerierung veröffentlichten Demos umwerfend. Vom Spielen mit Memes und Längen bis hin zur Beachtung echter physikalischer Logik ist es schwer, zwischen der endlosen Kreativität der künstlichen Intelligenz zu unterscheiden, und alle müssen mit Sora konkurrieren. Zu diesem Zeitpunkt machte plötzlich jemand einen Schritt voraus, um die Aufführung auf „Filmebene“ durchzuführen:
Aus dem echten Stil des Licht- und Schatteneffekts:
Quelle: https://x.com/ i/status/1806383419661730197 In der reichen Fantasie sind die Elemente vollständig, Sie können es bekommen:
Ich hatte nicht erwartet, dass Batman in den Augen der KI dazu führen könnte, dass sich der Clown nicht mehr strecken kann. Quelle: https://x.com/blizaine/status/1806383419661730197
Einige Menschen versuchen bereits, diese Fähigkeit zu nutzen, um komplexe Aufgaben zu erledigen. Mit der KI zur Videogenerierung, der KI zur Musikgenerierung und etwas PS und AE können wir ein komplettes MV erstellen.
Quelle: https://twitter.com/Arata_Fukoe/status/1809840865063629292
Sie fragen Internetnutzer, was sie von diesem Generationseffekt halten? zu fragen: „Was denkst du?“ Hollywood?"
Der durch diese Art von KI-Videos erzeugte Effekt ist seidig und präzise und zieht eine große Anzahl von Likes an. Bei genauerem Hinsehen gibt es viele damit produzierte Kurzvideos in sozialen Netzwerken.Laut der Zusammenfassung der Internetnutzer besteht der Hauptvorteil der neuen KI darin, dass sie bei der Erzeugung großflächiger Bewegungen weniger abgelenkt wird. Ein weiteres Beispiel ist die Erstellung eines Videos eines laufenden Zentauren:
Die generative KI hinter diesen Videos ist
Kuaishous großes Modell „Kling“ (Kling) , das vor einigen Wochen im globalen Internet zu explodieren begann. Damals hieß es: „Die Nummer eins ist schwer zu finden.“ Richtig, dies ist keine Demo, die zuerst für die PPT-Veröffentlichung veröffentlicht wurde, sondern eine Anwendung auf Produktebene, die direkt von Anfang an geöffnet wird. Jetzt hat Keling AI die Webversion auf den Markt gebracht, wobei der Schwerpunkt auf Einfachheit und Benutzerfreundlichkeit liegt
.Den neuesten Daten zufolge hat sich die Zahl der Benutzer, die sich für Keling AI bewerben, auf 700.000
belaufen, was es zum beliebtesten Videogenerierungsmodell im gesamten Netzwerk macht.Mehrere Upgrades im Januar, Keling AIs rasante Entwicklung
Dieses Jahr ist das erste Jahr der generativen KI. Bereits im Februar hat Sora von OpenAI die Konkurrenz auf das Niveau der Videogenerierung gehoben. Aber heimische Technologieunternehmen waren die ersten, die es umgesetzt haben.
Seit seinem offiziellen Debüt am 6. Juni, in nur einem Monat, hat Kuaishou Keling AI, das erste groß angelegte inländische Modell, das in ausländischen KI-Kreisen für hitzige Diskussionen gesorgt hat, drei iterative Aktualisierungen durchlaufen.Von den Anfängen der Wensheng-Videos bis zur Unterstützung von Tusheng-Videos, der Videofortsetzung und der Auswahl mehrerer Größen zwei Wochen später ist Keling AI immer herausragender und umfassender geworden. Verschiedene Anforderungen an die Videogenerierung scheinen unbewusst gelöst worden zu sein.
Erst letztes Wochenende leitete Keling AI auf der World Artificial Intelligence Conference WAIC 2024 sein drittes großes Upgrade ein und veröffentlichte eine Reihe neuer Funktionen, die die Textur, Schönheit und Abspielbarkeit der Videogenerierung erheblich verbesserten und einen weiteren Sprung in das kreative Erlebnis brachten . Gai Kun, Senior Vice President von Kuaishou und Leiter der wichtigsten Website-Geschäfts- und Community-Wissenschaftslinie von Kuaishou, stellte die drei Highlights dieses Keling AI-Upgrades vor, darunter
High-Definition-Version, Steuerung des ersten und letzten Bildes und Steuerung des Kameraobjektivs.
. Nach dem Upgrade hat die Qualität der generierten Videos im Vergleich zum Vorgängermodell einen qualitativen Sprung gemacht.
Gleichzeitig hat sich Keling AI dank der höheren räumlich-zeitlichen Auflösung des Trainings in Bezug auf die Generierung von Details, die Komposition, die Ästhetik der Linsenbewegung sowie Licht und Schatten erheblich verbessert.
Aus dem Vergleich der Bildqualität unten können wir den Unterschied zwischen den Vorgängermodellen von Keling AI und den neuesten Modellen deutlich erkennen.
Zweitens hat Keling AI eine praktische und stark nachgefragte Funktion „First and Last Frame Control“ im Bereich Tusheng-Videos hinzugefügt, wodurch Tusheng-Videos mit Echo des ersten und letzten Frames Realität werden.
Durch die Anpassung der Startbild- und Endbildbilder können Benutzer den reibungslosen Übergang von Aufnahmen zwischen verschiedenen Videoclips genau steuern und so Effekte wie eine Aufnahme bis zum Ende erzielen. Den tatsächlich erzeugten Ergebnissen nach zu urteilen, sind nicht nur die Bewegungen natürlich und flüssig, sondern auch die Bildqualität ist garantiert. Die Einführung dieser Funktion ermöglicht Benutzern ein intuitiveres und bequemeres Bearbeitungserlebnis und erfüllt die Anforderungen personalisierter Tusheng-Videos.
Generieren Sie beispielsweise ein Video aus den folgenden zwei Bildern:
Der Effekt ist wie folgt:
Schließlich fügt Keling AI Spiegelbewegungssteuerung und automatische Hauptobjektivbewegungsfunktionen hinzu. In der Videowelt kann die Kombination mehrerer Objektive mehr Bilder aufnehmen und den Gesamteindruck verbessern.
Keling AI stellt sechs Sätze klassischer Objektivsteuerungsmethoden vor, darunter Rollen, Neigen, Schwenken, Vertikal, Horizontal und Zoom, für verschiedene Zwecke und bietet eine Fülle von Auswahlmöglichkeiten. Benutzer können auch die positiven und negativen Parameter dieser Bewegungen anpassen, um die Intensität oder Sanftheit der Bewegung sowie die umgekehrte Bewegung usw. zu steuern. Gleichzeitig tragen meisterhafte Kamerabewegungen dazu bei, auffällige Blockbuster mit vollem Kinocharakter zu produzieren.
Es ist ersichtlich, dass Keling AI durch die Hinzufügung dieser neuen Funktionen sichtbare Verbesserungen bei der Videoklarheit, der ästhetischen Leistung und der Kontrolle der Inhaltsanpassung erzielt hat.
Darüber hinaus integriert die Keling AI-Webversion, die offiziell für Benutzer verfügbar ist, Vincent-Bilder, Vincent-Videos und Videobearbeitungsfunktionen, die in naher Zukunft unterstützt werden, und wird so zu einer One-Stop-Plattform für die Erstellung visueller Inhalte die sofort nach der Veröffentlichung verwendet werden können.
Die neu hinzugefügten Funktionen „First and Last Frame Control“ und „Mirror Movement Control“ sind derzeit auf der Webseite verfügbar. Freunde, die es erleben möchten, können sich schnell bewerben!
Klingai AI-Webversionsadresse: klingai.kuaishou.com
Es ist keine Übertreibung, das Upgrade von Keling AI als „voller Aufrichtigkeit“ zu bezeichnen. Natürlich ist es untrennbar mit Kuaishous Fähigkeiten und kontinuierlicher Innovation verbunden Durchbrüche.
Die KI-Generierung auf „Filmebene“ ist die gesamte Technologie, die dahinter steckt. Im Vergleich zur bereits sehr ausgereiften Bildgenerierung ist die Aufgabe der Videogenerierung in der Praxis komplexer und erfordert Authentizität, Handlungskohärenz und Bildglätte . , Detailgenauigkeit, Szenen-, Charakter- und Licht- und Schattenkonsistenz, physikalische Genauigkeit und Zeitbeschränkungen und viele andere Herausforderungen.
Wie gut diese Herausforderungen gemeistert werden, entscheidet direkt über die Praktikabilität und Benutzerfreundlichkeit des Modells. Offensichtlich hat die verbesserte Keling-KI in diesen Aspekten radikale Veränderungen erfahren. Zusammenfassend lässt sich sagen, dassKeling AI sieben Hauptfähigkeiten hervorhebt
.Leiter des Kuaishou Visual Generation and Interaction Center Wan Pengfei
analysierte diese Fähigkeiten einzeln, die die Fähigkeiten von Keling AI in Bezug auf Videoqualität, Bilderzeugung, Bewegungserzeugung, Erzeugungszeit, physikalische Gesetze und Befehlsreaktion, Videosteuerbarkeit und andere ausmachen Aspekte der zentralen Wettbewerbsfähigkeit und schufen die heute allmächtige Keling-KI. Gleichzeitig freute sich Wan Pengfei auch auf die zukünftige Entwicklung. Er sagte, dass sich die Effekte bei der Videoerzeugung sehr schnell verbessern und sich allmählich dem Grafik-Rendering und der Kameraaufnahme nähern, was der Pan-Video-Branche neue Möglichkeiten eröffnen wird.
Unter anderem ist die Funktion zur Generierung hochauflösender Bilder auf Filmniveau in der Lage, großartige Naturlandschaften, menschliche oder tierische Bewegungen und Ausdrücke sowie andere großartige oder subtile Szenen mit hoher Wiedergabetreue und Lebendigkeit darzustellen, was dem Ganzen das Gefühl eines echten Blockbusters verleiht.
Führende grafische Videofunktionen können statische Bilder animieren und in lebendige 5-Sekunden-Kurzvideos umwandeln. Gleichzeitig wird es mit verschiedenen Texteingaben gepaart, um Tusheng-Videos kreativer und „was auch immer Sie wollen“ zu machen.
Konvertieren Sie beispielsweise ein Bild eines schwimmenden Welpen in ein Video:
Der Effekt ist wie folgt:
Ausgezeichnete Steuerbarkeit der Videogenerierung gibt dem Benutzer eine anspruchsvollere Videoerstellung in die Hände. Zusätzlich zu dieser Steuerung des Kameraobjektivs wird Keling AI in Zukunft auch kontrollierbare Anpassungen in weiteren Aspekten wie Stimm-Gesichtsanpassung, Beibehaltung der Charakter-ID und Steuerung der Entwicklung des Bildschirms und Layouts durch einfache Strichansagen erreichen. Das Training des Modells ist abgeschlossen und diese Funktionen werden in Kürze online verfügbar sein.
Gleichzeitig wurde Keling AI auch in seinen anderen vier Hauptfunktionen wie Bewegungserzeugung, Erzeugungsdauer, physikalischen Gesetzen und Befehlsreaktion weiter verbessert.
Erstens verfügt Keling AI über umfangreiche und vernünftige Fähigkeiten zur Bewegungserzeugung. Durch die Modellierung komplexer räumlich-zeitlicher Bewegungen kann Keling AI Bewegungen mit größerer Amplitude erzeugen, die den Bewegungsgesetzen entsprechen.
Dank eines adäquateren Modelltrainings ist der von Keling AI erzeugte Gesamtbewegungseffekt flexibler und unterstützt einen größeren Bewegungsbereich, ohne die Rationalität zu schwächen. Die unten gezeigten Dreh- und Gehhaltungen des Kätzchens sind alle sehr natürlich und vernünftig und stimmen mit den physikalischen Gegebenheiten überein. Die zweite Möglichkeit ist dieFunktion zur Generierung von langen Videos auf Minutenebene. Mittlerweile ist die Dauer auf Minutenebene zu einer wichtigen Messgröße für die Bewertung eines Videogenerierungsmodells geworden, das eine effizientere Multi-Shot-Verarbeitung, längeres Storytelling und konsistentere Bewegungserweiterungsfunktionen erfordert.
Derzeit kann Keling AI mehrere Minuten 1080p-Videos mit 30 Bildern pro Sekunde erzeugen. Gleichzeitig wird die Videofortsetzungsfunktion geöffnet, die den Anweisungen des Benutzers folgt. Eine einzelne Fortsetzung verzögert die Videobewegung um 4 bis 5 Sekunden. Es können auch mehrere Fortsetzungen erstellt werden kann während der Fortsetzung fortgesetzt werden. Geben Sie die Richtung der späteren Entwicklung der Geschichte an, um die Verwendung zu vereinfachen.Nach diesem Upgrade hat Keling AI eine gemeinsame tiefgreifende Optimierung auf Algorithmus- und Technikebene durchgeführt, wodurch die Länge eines einzelnen generierten Videos von 5 Sekunden auf 10 Sekunden erhöht wurde und damit die längste Dauer unter den verfügbaren Produkten erreicht wurde Benutzer können eine umfassendere Handlung präsentieren und Benutzern einen größeren kreativen Raum bieten.
Seine Sankeling-KI kann
komplexe physikalische Welteigenschaften simulieren. Seit Sora legen verschiedene Videogenerierungsmodelle großen Wert auf die Generierung von Videos, die den physikalischen Gesetzen entsprechen, was die Obergrenze der Fähigkeiten des Modells bestimmt.
Keling AI ist seit seiner Veröffentlichung in der Lage, reale Eigenschaften genau zu modellieren und zu simulieren, wodurch die generierten Videos realitätsnah werden, wie beispielsweise das Baden eines Kätzchens.
Mit der Unterstützung eines umfassenderen Modelltrainings haben die Modellierungs- und Simulationsfähigkeiten von Keling AI für interaktive physikalische Gesetze nun ein neues Niveau erreicht.
Die Konzeptkombinations- und Befehlsreaktionsfähigkeiten von Qixikeling AI sind sehr stark
. Was die technische Umsetzung betrifft, kann Keling AI durch ein tiefes Verständnis der modalübergreifenden Semantik von Text zu Video die reiche Vorstellungskraft der Benutzer problemlos in spezifische Videobilder umwandeln und ihnen so die Möglichkeit geben, ihrer Fantasie freien Lauf zu lassen, beispielsweise bei Kaffeetassenvulkanen.Die aktualisierte Keling-KI hat bessere Textdaten und Codierungsschemata übernommen, was natürlich ihre Reaktionsfähigkeit auf vom Benutzer eingegebene Wörter verbessert und bessere visuelle Rendering-Effekte bietet.
所有這些能力又源自於可靈AI 在視訊生成技術路線(採用DiT 架構)、模型設計(如隱空間編解碼、時序資訊建模、文字擴展及編碼)、資料保障(如多維度標籤體系、影片描述模型)、運算效率(如分散式訓練集群、分階段訓練策略)、能力擴展(如視訊時序延展、多模態輸入可控)等方面的技術累積和獨到創新。
可以說,如今的可靈 AI 在技術層面做到了先進且可靠,怪不得技術一落地就受到了人們的追捧。
生成式 AI 時代,快手有備而來
過去一年多的時間裡,整個大模型領域可以說是非常的捲。去年都在談基座模型的研發,今年大家又都在討論應用。最近幾天 WAIC 大會開幕,我們又目睹了一波「模型派」和「應用派」之間的爭論。
在這波浪潮中,快手又是怎麼做的?
首先,它玩的是體系。從底層的 IDC 算力中心到網路架構、AI 平台,到中層的基礎核心大模型,再到應用層的各類應用探索,快手實現了全套自行研發。在談到這個體系時,快手副總裁大模型團隊負責人張迪認為,堅定投入自主研發長期來說會帶來「技術雪球」效應以及巨大的成本優勢。快手一個非常大的優勢就是在上層擁有大量的 AI 應用場景,這將為大模型帶來非常多的落地機會。
基礎模型技術研究和商業應用落地並舉的策略。基礎模型決定了 AI 能力的上限,研究投入的量變可以引發質變;另一方面,商業化應用能夠滾起技術的雪球,把新技術階段性投入應用,不斷收穫回饋,才能逐漸形成良性循環。 去年開始,快手提出了「快意」大模型(KwaiYi),很快就從早期的 13B 參數量發展到了 175B,並推出了多模態版本。在多個版本的迭代後,快意大模型已經在快手內部的素材創作、AI 互動、內容生產等場景中開始發揮作用,在今年 6 月,基於快意的 AIGC 行銷素材單日消耗超過了 2000 萬。
有了基礎模型,在更多的場景上,快手逐漸發展出了自己的差異化能力。
具體來說,在文生圖上,快手的「可圖」已成為業界頂尖的模型之一,擁有強大的語意理解和指令跟隨能力。由於在文字表徵方面的創新,以及影像資料對齊的大量工作,可圖可以畫出攝影級的畫面質感,經過強化學習的訓練,美學也和人類的普遍標準實現了對齊。
而在影片的生成上,「可靈 AI」燃起了全球視訊生成領域的新一輪競爭。它可以進行文生視頻、圖生視頻,又具有豐富的圖像編輯能力,在視頻生成的可控性、質感、美感、運動合理度方面保持業內優秀。快手的工程師們正在持續進行工程演算法的最佳化,試圖不斷降低影片生成 AI 的門檻。 說到打下門檻,新技術的最佳化是目前生成式 AI 面臨的重要挑戰之一。作擁國民級短視頻應用,快手的優勢在於擁有大量 AI 應用場景,這就為落地實踐帶來了場景和機會。 在技術落地上,快手實現了一系列里程碑: 快手在APP 評論區內測的對話模型應用“AI 小快
”,可以理解視頻中的內容並與你互動,至今已經累積了超過1000 萬的粉絲量。 在電商的直播間裡,利用文生圖 AI「視頻生成模型“
從內容的生產、理解到推薦等不同層面,從個人再到電商,快手的生成式 AI 能力已經做到了對於主體業務的全覆蓋,持續推進著快手生態的不斷發展。
最後還有新的嘗試。在 WAIC 上,快手預告首部 AIGC 短劇《山海奇鏡之劈波斬浪》將在本月正式發布。
該劇由可靈 AI 提供深度技術支持,以賽博風格來復現山海經裡的上古神話世界。從預告片來看,山脈到海洋、森林到天際等場景都呈現了震撼的視覺效果。在以往,如此效果可能需要專業的特效團隊,現在,視覺生成 AI 就能帶來震撼的視覺體驗了。
沒錯,半年前我們還在暢想未來,現在 AI 真的開始拍電影了。
當前大模型的浪潮中,最能證明技術能力的莫過於大規模落地。
而快手全方位的實踐讓我們再次確認:AI 的生產力已在不知不覺間,改變著我們的生活。
Das obige ist der detaillierte Inhalt von700.000 Menschen strömten herbei, um es zu erleben! Der neue König der Videogeneration „Keling AI' wurde erneut verbessert. Für weitere Informationen folgen Sie bitte anderen verwandten Artikeln auf der PHP chinesischen Website!