Heim >Technologie-Peripheriegeräte >KI >Eine weitere „inländische Version von Sora' wird weltweit eingeführt! Dank des Unternehmerteams von Tsinghua Zhu Jun dauert die Videoerstellung nur 30 Sekunden

Eine weitere „inländische Version von Sora' wird weltweit eingeführt! Dank des Unternehmerteams von Tsinghua Zhu Jun dauert die Videoerstellung nur 30 Sekunden

WBOY
WBOYOriginal
2024-08-05 15:46:59666Durchsuche
Der KI-Videokreis „bekämpft sich gegenseitig“.

Luma und Runway aus dem Ausland, Kuaishou Keling, Byte Dream, Zhipu Qingying aus China ... du singst einfach und ich werde erscheinen. Ausnahmslos alle haben es auf die legendäre Sora abgesehen.

Tatsächlich ist Vidu von Shengshu Technology unverzichtbar, wenn es um Soras globale Herausforderer geht.

Bereits vor drei Monaten, als der Bereich der Videoerzeugung im In- und Ausland noch „still“ war, enthüllte Shengshu Technology plötzlich das Werbevideo seines neuesten großformatigen Videomodells Vidu Leistung steht Sora in nichts nach. Der Effekt überraschte viele Internetnutzer.

Gerade heute wird Vidu offiziell eingeführt. Es ist keine Bewerbung erforderlich, solange Sie über eine E-Mail-Adresse verfügen, können Sie loslegen. (Link zur offiziellen Website von Vidu: www.vidu.studio)

Zum Beispiel spielen Pikachu und Doraemon „Cheap Kill“:

Eine weitere „inländische Version von Sora wird weltweit eingeführt! Dank des Unternehmerteams von Tsinghua Zhu Jun dauert die Videoerstellung nur 30 Sekunden

Die männlichen und weiblichen Protagonisten von „Twilight“ zeigen ihre Zuneigung:

Eine weitere „inländische Version von Sora wird weltweit eingeführt! Dank des Unternehmerteams von Tsinghua Zhu Jun dauert die Videoerstellung nur 30 Sekunden

Es löst sogar das Problem, dass KI nicht schreiben kann:

Eine weitere „inländische Version von Sora wird weltweit eingeführt! Dank des Unternehmerteams von Tsinghua Zhu Jun dauert die Videoerstellung nur 30 Sekunden

Darüber hinaus ist Vidus Generierungseffizienz ebenfalls erstaunlich, da es die schnellste Inferenzgeschwindigkeit in der Branche erreicht und es nur 30 Sekunden dauert, um ein 4- zweites Filmmaterial.

Als nächstes werden wir die neueste Rezension aus erster Hand liefern, um zu sehen, wie stark dieser „heimische Sora“ ist.

Hands-on-Test: Die Linsensprache ist fett und das Bild kollabiert nicht!

Dieses Mal zeigte Vidu seine einzigartigen Fähigkeiten.

Es setzt nicht nur die im April dieses Jahres demonstrierten Vorteile von hoher Dynamik, hoher Wiedergabetreue und hoher Konsistenz fort, sondern fügt auch neue Funktionen wie Animationsstil, Text- und Spezialeffekt-Bildschirmgenerierung sowie Charakterkonsistenz hinzu.

Das Hauptthema ist: Ich möchte die Funktionen haben, die andere haben, und ich möchte auch die Funktionen haben, die andere nicht haben.

Oh nein, es erkennt tatsächlich Zeichen und Zahlen

Zu diesem Zeitpunkt verfügt Vidu über zwei Kernfunktionen: Wen Sheng-Video und Tuxing-Video.

Eine weitere „inländische Version von Sora wird weltweit eingeführt! Dank des Unternehmerteams von Tsinghua Zhu Jun dauert die Videoerstellung nur 30 Sekunden

Bietet zwei Daueroptionen von 4 Sekunden und 8 Sekunden mit einer Auflösung von bis zu 1080P. Stilistisch gibt es zwei Möglichkeiten: realistisch und animiert.

Eine weitere „inländische Version von Sora wird weltweit eingeführt! Dank des Unternehmerteams von Tsinghua Zhu Jun dauert die Videoerstellung nur 30 Sekunden

Schauen Sie sich zuerst Tushengs Video an.

Die Geschichte wieder zum Leben zu erwecken, ist derzeit die beliebteste Art zu spielen. Dabei handelt es sich um das berühmte Werk „Porträt des Malers und seiner Tochter“ der französischen Malerin Elisabeth Louise Verry.

Eine weitere „inländische Version von Sora wird weltweit eingeführt! Dank des Unternehmerteams von Tsinghua Zhu Jun dauert die Videoerstellung nur 30 Sekunden

Wir geben das Eingabeaufforderungswort ein: Porträt von Maler und Tochter, Mutter und Tochter umarmen sich fest. Eine weitere „inländische Version von Sora wird weltweit eingeführt! Dank des Unternehmerteams von Tsinghua Zhu Jun dauert die Videoerstellung nur 30 Sekunden

Die erzeugte hochauflösende Version ist ein Blickfang. Die Charaktere bewegen sich weit und sogar ihre Augen verändern sich, aber der Effekt ist ganz natürlich.

Probieren Sie noch einmal Leonardo da Vincis „Die Frau mit dem silbernen Wiesel“.

Eine weitere „inländische Version von Sora wird weltweit eingeführt! Dank des Unternehmerteams von Tsinghua Zhu Jun dauert die Videoerstellung nur 30 Sekunden

Eindringliches Wort: Die Frau, die das silberne Frettchen hält, lächelt. Eine weitere „inländische Version von Sora wird weltweit eingeführt! Dank des Unternehmerteams von Tsinghua Zhu Jun dauert die Videoerstellung nur 30 Sekunden
In dem 8 Sekunden langen Video bewegen sich die Frau und das Haustier weit, insbesondere die Handberührungsbewegungen der Frau sowie Körper- und Gesichtsveränderungen, aber nichts davon beeinträchtigt die Natürlichkeit und Glätte des Bildes.

Große und präzise Bewegungen helfen dabei, die Handlung des Videos und die Emotionen der Charaktere besser auszudrücken. Sobald jedoch der Bewegungsbereich größer wird, besteht die Gefahr, dass der Bildschirm zusammenbricht. Daher opfern einige Modelle die Amplitude, um die Glätte zu gewährleisten, aber Vidu löst dieses Problem besser.

Es simuliert die Bewegung der realen physischen Welt, was wirklich gut ist. Stellen Sie zum Beispiel eine Szene nach, die Kubricks „2001: Odyssee im Weltraum“ ähnelt!

Eine weitere „inländische Version von Sora wird weltweit eingeführt! Dank des Unternehmerteams von Tsinghua Zhu Jun dauert die Videoerstellung nur 30 SekundenEine weitere „inländische Version von Sora wird weltweit eingeführt! Dank des Unternehmerteams von Tsinghua Zhu Jun dauert die Videoerstellung nur 30 Sekunden                                                                                                                                                                         Aufforderungswort: Unter der langen Linse langsam verschwinden.长: Erinnerungswort: Unter der langen Linse schwebend, langsam schwebend am Ende. Eine weitere „inländische Version von Sora wird weltweit eingeführt! Dank des Unternehmerteams von Tsinghua Zhu Jun dauert die Videoerstellung nur 30 SekundenNeben Tusheng-Videos gibt es auch Vincent-Videos.朵 Tipps: Zwei Blumen blühen langsam auf dem schwarzen Hintergrund und zeigen zarte Blütenblätter und Staubblätter.

ヒント: 今回は彼女は一人で、桜の奥深くのブランコに一人で座っていて、ピンクの春のシャツを着て、わずかに揺れています。振幅は非常に小さく、ロッキングチェアに座って少し頭を下げているようです。少し退屈 彼はゆっくりと足を伸ばし、地面の草を少しずつ蹴りました。桜の花が彼女の体や頭の上に落ちましたが、彼女はそれを手で払いのけませんでした。それは徐々に蓄積され、彼女のドレスの色に溶け込みました。遠くから見ると、彼女の全身が桜でできているように見えました。 。

Vidu は意味をよく理解しており、プロンプトで一度に複数のショットのクリップ要件を理解することもできます。

例えば、この写真には海の家のクローズアップと、カメラを海に向けたときの海の遠景が含まれており、カメラの切り替えによって写真に独特の物語性を与えています。 Eine weitere „inländische Version von Sora wird weltweit eingeführt! Dank des Unternehmerteams von Tsinghua Zhu Jun dauert die Videoerstellung nur 30 Sekunden
ヒント: アンティークな海辺の小屋では、部屋に太陽が降り注ぎ、カメラは静かな海を見下ろすバルコニーにゆっくりと移動し、最後にカメラは浮かぶ海、ヨット、反射する雲の上で静止します。

Vidu は、一人称写真やタイムラプス写真などのレンズ言語を正確に理解して表現することもでき、プロンプトの言葉を調整するだけでビデオの制御性が大幅に向上します。 ️ . 。 Eine weitere „inländische Version von Sora wird weltweit eingeführt! Dank des Unternehmerteams von Tsinghua Zhu Jun dauert die Videoerstellung nur 30 Sekunden
Vidu は、数字などの語彙を正確に理解して生成できるビデオ ジェネレーターです。块 ヒント: ろうそくが立てられた誕生日ケーキ。ろうそくの数字は「32」です。

ケーキの「ハッピーバースデー」の文字を変更すると、保存されます。

Eine weitere „inländische Version von Sora wird weltweit eingeführt! Dank des Unternehmerteams von Tsinghua Zhu Jun dauert die Videoerstellung nur 30 Sekunden

プロンプトワード:
「HAPPY BIRTHDAY」と書かれたケーキ。

Eine weitere „inländische Version von Sora wird weltweit eingeführt! Dank des Unternehmerteams von Tsinghua Zhu Jun dauert die Videoerstellung nur 30 Sekunden

アニメスタイルは使いやすい 現在市場に出ているAIビデオツールのほとんどは、リアルなスタイルまたはリアルな想像力に基づいていることに限定されていますが、Viduはリアルなスタイルだけをサポートしているわけではありません、アニメスタイルもサポートしています。

アニメーションモデルを選択し、プロンプトワードを直接入力してアニメーションスタイルのビデオを出力します。
たとえば、プロンプトワード: アニメスタイル、キッチンに立って野菜を切っている小さな女の子。

正直、この画風は宮崎駿の味があります。ヴィドゥは即座に言われた言葉を理解し、少女はスムーズに野菜を切ったが、彼女の指とナイフは依然として不注意で変形していた。

プロンプトワード: アニメスタイル、ヘッドフォンをした小さな女の子が踊っています。

Vidu は非常に豊かな想像力を持っており、背景を噴水のある公園に設定したため、ビデオが単調になりませんでした。

Eine weitere „inländische Version von Sora wird weltweit eingeführt! Dank des Unternehmerteams von Tsinghua Zhu Jun dauert die Videoerstellung nur 30 Sekunden もちろん、アニメの参考画像をアップロードして、プロンプトの単語を入力すると、画像内のアニメのキャラクターが動くようにすることもできます。

たとえば、クレヨンしんちゃんの静止画像をアップロードし、プロンプトワードを入力します: クレヨンしんちゃんは笑って、小さな花を手に上げました。画像の使用方法は「開始フレームとして使用」を選択してください。

Eine weitere „inländische Version von Sora wird weltweit eingeführt! Dank des Unternehmerteams von Tsinghua Zhu Jun dauert die Videoerstellung nur 30 Sekunden

効果を見てみましょう: Eine weitere „inländische Version von Sora wird weltweit eingeführt! Dank des Unternehmerteams von Tsinghua Zhu Jun dauert die Videoerstellung nur 30 Sekunden
かわいいピカチュウの画像をアップロードし、「ピカチュウは喜んで飛び上がる」というプロンプトの単語を入力します。画像の使用方法は「開始フレームとして使用」を選択してください。

Eine weitere „inländische Version von Sora wird weltweit eingeführt! Dank des Unternehmerteams von Tsinghua Zhu Jun dauert die Videoerstellung nur 30 Sekunden

エフェクトの適用を続けます: Eine weitere „inländische Version von Sora wird weltweit eingeführt! Dank des Unternehmerteams von Tsinghua Zhu Jun dauert die Videoerstellung nur 30 Sekunden
「ワンピース」のルフィの画像をアップロードし、プロンプトの言葉を与えます: 少年は突然泣き始めました。

Eine weitere „inländische Version von Sora wird weltweit eingeführt! Dank des Unternehmerteams von Tsinghua Zhu Jun dauert die Videoerstellung nur 30 Sekunden

その効果は次のとおりです: Eine weitere „inländische Version von Sora wird weltweit eingeführt! Dank des Unternehmerteams von Tsinghua Zhu Jun dauert die Videoerstellung nur 30 Sekunden
Vidu のアニメーション効果は非常に素晴らしいと言わざるを得ませんが、スタイルの一貫性を維持しながら、画像の安定性と滑らかさが大幅に向上します。変形や崩壊、または6本指の狂人や不明瞭な左右の足などの「邪悪な」シーンはありません。

ミームと顔文字は退屈になってきています

「Tusheng Video」セクションでは、最初のフレーム画像のアップロードをサポートすることに加えて、今回 Vidu は新機能も導入しました - 文字の一貫性 (キャラクターからビデオへ)。

いわゆるキャラクターの一貫性とは、キャラクター画像をアップロードすると、キャラクターを指定してどのシーンでも任意のアクションを実行できるようにすることです。

Eine weitere „inländische Version von Sora wird weltweit eingeführt! Dank des Unternehmerteams von Tsinghua Zhu Jun dauert die Videoerstellung nur 30 Sekunden

ウージンを例に挙げてみましょう。 comp迅速な言葉:宇宙船では、ウージンが宇宙服を着てカメラに手を振っています。

Eine weitere „inländische Version von Sora wird weltweit eingeführt! Dank des Unternehmerteams von Tsinghua Zhu Jun dauert die Videoerstellung nur 30 Sekunden

Eine weitere „inländische Version von Sora wird weltweit eingeführt! Dank des Unternehmerteams von Tsinghua Zhu Jun dauert die Videoerstellung nur 30 Sekunden

Eine weitere „inländische Version von Sora wird weltweit eingeführt! Dank des Unternehmerteams von Tsinghua Zhu Jun dauert die Videoerstellung nur 30 Sekunden

最初のフレーム画像のアップロードがシーンの一貫性のあるビデオを作成するのに適している場合、役の一貫性機能を使用すると、俳優は SF の役から現代のドラマまで 72 回簡単に変更できます。
さらに、文字一貫性機能により、一般ユーザーでも楽しく「ミーム」や「顔文字」を作成できます!

たとえば、「忘れられない」北米のジャスティン・ビーバーとセレーナは関係を更新しました:

「武林外伝」では、トン・シャンユーとバイ・ザンタンがメロンの種を食べながら、東府旅館のゴシップについておしゃべりしていました。 :

『沈桓伝』には悔しそうに泣いた皇后もいる:

Eine weitere „inländische Version von Sora wird weltweit eingeführt! Dank des Unternehmerteams von Tsinghua Zhu Jun dauert die Videoerstellung nur 30 Sekunden

あなたの想像力が十分に大きい限り、ヴィドゥは地下鉄で老人に携帯電話を食べさせたり、アオバイとウェイシャオバオにボーをさせたり、ロンおばあちゃんに紫微鶏のドラムスティックを食べさせたりすることができます。

一言だけ、早く!

ビデオ生成プロセス中にユーザーにとって最も迷惑なことは何ですか?もちろん、それは這うプログレスバーです。

想像してみてください。コンピューターの前に横たわり、数秒のビデオを 10 分間待っていると、どんなにせっかちな人でも防御を崩さないのは難しいでしょう。

現在、市場で主流の AI ビデオ ツールは約 4 秒のビデオ クリップを生成しますが、通常は 1 ~ 5 分、あるいはそれ以上かかります。

たとえば、Runway の最新の Gen-3 ツールは 5 秒のビデオ生成を完了するのに 1 分かかりますが、Keling は 2 ~ 3 分かかり、Vidu はこの待機時間を 30 秒に短縮します。これは業界最速よりも高速です。 Gen-3 は 2 倍高速です。

Eine weitere „inländische Version von Sora wird weltweit eingeführt! Dank des Unternehmerteams von Tsinghua Zhu Jun dauert die Videoerstellung nur 30 Sekunden

完全に自社開発されたU-ViTアーキテクチャに基づいて、商用利用のために慎重にレイアウトされています

「Vidu」の最下層は、完全に自社開発されたU-ViTアーキテクチャに基づいており、 Sora よりも早く採用された DiT アーキテクチャは、Diffusion と Transformer を統合した世界初のアーキテクチャです。

Eine weitere „inländische Version von Sora wird weltweit eingeführt! Dank des Unternehmerteams von Tsinghua Zhu Jun dauert die Videoerstellung nur 30 Sekunden

DiT 論文が発表される 2 か月前、清華大学の Zhu Jun のチームは「All are Worth Words: A ViT Backbone for Diffusion Models」という論文を提出しました。この論文では、CNN ベースの U-Net を置き換えるために Transformer を使用するネットワーク アーキテクチャ U-ViT を提案します。これが「Vidu」の最も重要な技術基盤です。

中間フレームの挿入や結合などの多段階の処理を含まないため、テキストからビデオへの変換はよりワンショットであり、最初から最後まで連続的にビデオが生成されます。フレーム挿入の痕跡なし。 「Vidu」は、基盤となるアーキテクチャの革新に加え、Shengshu Technology が過去に蓄積したエンジニアリングの経験と能力も再利用しています。

Shengshu Technology はかつて、グラフ タスクの統合からビデオ機能の統合まで、「Vidu」はより多様で長いビデオ コンテンツの生成をサポートできる普遍的なビジュアル モデルとみなすことができると述べました。また、「Vidu」は現在も反復的な改善を加速していることも明らかにした。将来に向けて、「Vidu」の柔軟なモデル アーキテクチャは、より幅広いマルチモーダル機能とも互換性を持つようになります。

Shengshu Technology は 2023 年 3 月に設立されました。中心メンバーは清華大学人工知能研究所の出身であり、世界をリードする制御可能なマルチモーダル汎用大型モデルの独自開発に取り組んでいます。 2023年の設立以来、チームはAnt Group、Qiming Venture Partners、BV Baidu Ventures、Byte Jinqiu Fundなどの多くの著名な業界機関から認められ、数億元の資金調達を完了しました。神舟テクノロジーは現在、中国のマルチモーダル大型モデルトラックで最も高い評価を得ている起業家チームであると報告されています。

同社の主任科学者は、清華大学人工知能研究所の副所長、Zhu Jun 氏です。
CEO の Tang Jiayu 氏は、清華大学コンピューター サイエンス学部を卒業し、THUNLP グループの CTO Bao Fan 氏です。清華大学コンピューターサイエンス学部の博士課程の学生であり、Zhu Jun 教授 研究チームのメンバーであり、長年拡散モデルの分野の研究に携わっており、U-ViT と UniDiffuser の両方の完成を主導しました。

今年1月、Shengshu Technologyが所有するビジュアルクリエイティブデザインプラットフォームであるPixWeaverは、4秒の審美性の高いショートビデオコンテンツをサポートするショートビデオ生成機能を開始しました。 2 月に Sora を発表した後、Shengshu Technology はオリジナルのビデオの方向での研究開発の進捗を加速するために社内研究チームを設立し、1 か月足らずで社内で 8 秒のビデオ生成を達成し、その後 16 秒のビデオ生成を達成しました。 - 4 月に 2 回目のビデオ生成を行い、生成の品質と長さのあらゆる面で画期的な成果を達成しました。

4月のモデルリリースがビデオ生成機能におけるViduのリーダーシップを実証したとすれば、今回正式にリリースされた製品は、商業化におけるViduの慎重なレイアウトを実証しています。 Shengshu Technology は現在、モデル層とアプリケーション層の双方向モデルを採用しています。

一方では、テキスト、画像、ビデオ、3D モデルなどのマルチモーダル機能をカバーする低レベルの汎用大規模モデルを構築し、B サイドにモデル サービス機能を提供します。

一方、バーティカルアプリケーションは、画像生成やビデオ生成などのシナリオ向けに作成され、サブスクリプション形式で課金されます。アプリケーションの方向性は、主にゲーム制作や映画、テレビなどのコンテンツ制作シナリオ向けです。ポストプロダクション。

関連読書:
現時点最強の国内ソラ!清華チームは 16 秒のビデオを突破し、マルチレンズ言語を理解し、物理法則をシミュレートできます

Shengshu Technology の Tang Jiayu への独占インタビュー: 清華チームは 1 億近い資金を受け取り、Transformer を使用しましたマルチモーダルな大型モデルを構築する

「国内企業がSoraを作ると期待されていますか?」清華大学の大規模モデルチームが希望を与えます

参考リンク:

Vidu公式サイトリンク:www.vidu.studio

Das obige ist der detaillierte Inhalt vonEine weitere „inländische Version von Sora' wird weltweit eingeführt! Dank des Unternehmerteams von Tsinghua Zhu Jun dauert die Videoerstellung nur 30 Sekunden. Für weitere Informationen folgen Sie bitte anderen verwandten Artikeln auf der PHP chinesischen Website!

Stellungnahme:
Der Inhalt dieses Artikels wird freiwillig von Internetnutzern beigesteuert und das Urheberrecht liegt beim ursprünglichen Autor. Diese Website übernimmt keine entsprechende rechtliche Verantwortung. Wenn Sie Inhalte finden, bei denen der Verdacht eines Plagiats oder einer Rechtsverletzung besteht, wenden Sie sich bitte an admin@php.cn