ホームページ  >  記事  >  テクノロジー周辺機器  >  もう一つの「国内版Sora」がグローバルに登場! Tsinghua Zhu Jun の起業家チーム、ビデオ生成にかかる時間はわずか 30 秒

もう一つの「国内版Sora」がグローバルに登場! Tsinghua Zhu Jun の起業家チーム、ビデオ生成にかかる時間はわずか 30 秒

WBOY
WBOYオリジナル
2024-08-05 15:46:59416ブラウズ
AIビデオサークルは「互いに戦っています」。

海外からはLumaとRunway、中国からはKuaishou Keling、Byte Dream、Zhipu Qingying…あなたが歌うだけで私が登場します。彼らは例外なく伝説のソラを狙う。

実際、Sora の世界的な挑戦者と言えば、Shengshu Technology の Vidu は欠かせません。

国内外のビデオ生成分野がまだ「沈黙」していた3か月前に、Shengshu Technologyは最新の大型ビデオモデルViduのプロモーションビデオを突然公開し、その効果は多くのネチズンを驚かせました。 。

本日、Vidu が正式にリリースされました。申し込みは不要で、メールアドレスがあればすぐに始められます。 (Vidu 公式 Web サイトのリンク: www.vidu.studio)

たとえば、ピカチュウとドラえもんは「チープキル」をプレイします:

もう一つの「国内版Sora」がグローバルに登場! Tsinghua Zhu Jun の起業家チーム、ビデオ生成にかかる時間はわずか 30 秒

「トワイライト」の男性と女性の主人公は愛情を示します:

もう一つの「国内版Sora」がグローバルに登場! Tsinghua Zhu Jun の起業家チーム、ビデオ生成にかかる時間はわずか 30 秒

AI が書けないという問題も解決します:

もう一つの「国内版Sora」がグローバルに登場! Tsinghua Zhu Jun の起業家チーム、ビデオ生成にかかる時間はわずか 30 秒

さらに、Vidu の生成効率も素晴らしく、業界最速の推論速度を達成しており、4- 2番目の映像。

次に、この「国産空」がどれほど強いのか、最新の直接レビューをお届けします。

実践テスト: レンズ言語は大胆で、画像は崩れません。

今回は、ヴィドゥがユニークなスキルを披露しました。

今年 4 月に実証された高ダイナミクス、高忠実度、高一貫性の利点を継続するだけでなく、アニメーション スタイル、テキストおよび特殊効果画面の生成、キャラクターの一貫性などの新機能も追加されています。

メインテーマは、他人が持っている機能を持ちたい、そして他人が持っていない機能も持ちたい。

なんと、実際に文字や数字を認識することができるんです

この段階では、ViduにはWen ShengビデオとTu Shengビデオという2つのコア機能があります。

もう一つの「国内版Sora」がグローバルに登場! Tsinghua Zhu Jun の起業家チーム、ビデオ生成にかかる時間はわずか 30 秒

最大1080Pの解像度で、4秒と8秒の2つの継続時間オプションを提供します。スタイルに関しては、リアルとアニメーションの 2 つのオプションがあります。

もう一つの「国内版Sora」がグローバルに登場! Tsinghua Zhu Jun の起業家チーム、ビデオ生成にかかる時間はわずか 30 秒

まず Tusheng のビデオをご覧ください。

歴史を再び生き返らせるのは、現時点で最も人気のある遊び方です。フランスの画家エリザベート・ルイーズ・ヴェリーの有名な作品「画家と娘の肖像」です。

もう一つの「国内版Sora」がグローバルに登場! Tsinghua Zhu Jun の起業家チーム、ビデオ生成にかかる時間はわずか 30 秒

プロンプトの単語を入力します:画家と娘の肖像画、しっかりと抱き合う母と娘。 もう一つの「国内版Sora」がグローバルに登場! Tsinghua Zhu Jun の起業家チーム、ビデオ生成にかかる時間はわずか 30 秒

生成された高解像度バージョンでは、キャラクターが大きく動き、目も変化しますが、その効果は非常に自然です。

レオナルド・ダ・ヴィンチの「銀のイタチを持つ女」をもう一度試してみましょう。

もう一つの「国内版Sora」がグローバルに登場! Tsinghua Zhu Jun の起業家チーム、ビデオ生成にかかる時間はわずか 30 秒

即言: シルバーフェレットを抱いた女性は微笑んでいます。 もう一つの「国内版Sora」がグローバルに登場! Tsinghua Zhu Jun の起業家チーム、ビデオ生成にかかる時間はわずか 30 秒
8 秒間のビデオでは、女性とペットが大きく動き、特に女性の手が触れる動きや体や顔の変化が見られますが、それらはどれも写真の自然さと滑らかさに影響を与えません。

大きくて正確な動きは、ビデオのプロットとキャラクターの感情をよりよく表現するのに役立ちます。ただし、可動範囲が大きくなると画面が崩れやすくなります。したがって、一部のモデルでは滑らかさを確保するために振幅を犠牲にしますが、Vidu はこの問題をより適切に解決します。

実際の物理世界の動きをシミュレートしており、非常に優れています。たとえば、キュ​​ーブリックの「2001年宇宙の旅」のようなシーンを再現してみましょう。 compment単語:長いレンズの下で、ゆっくりと消えます。长 : 思い出の言葉:長いレンズの下で、浮かんで、最後にゆっくりと浮かんでいます。

もう一つの「国内版Sora」がグローバルに登場! Tsinghua Zhu Jun の起業家チーム、ビデオ生成にかかる時間はわずか 30 秒もう一つの「国内版Sora」がグローバルに登場! Tsinghua Zhu Jun の起業家チーム、ビデオ生成にかかる時間はわずか 30 秒Tusheng のビデオに加えて、Vincent のビデオもあります。朵 ヒント: 黒い背景に 2 つの花がゆっくりと咲き、繊細な花びらとおしべが見えます。

提示语:这次只她一人,独自坐在樱花深处的秋千架上,穿着粉红的春衫,轻微荡着秋千,幅度很小,像坐摇椅一般,微垂着头,有点百无聊赖的样子,缓缓伸足一点一点踢着地上的青草。那樱花片片飘落在她身上头上,她也不以手去拂,渐渐积得多了,和她衣裙的颜色相融,远远望去仿佛她整个人都是由樱花砌成似的。

Vidu 语义理解能力不错,还可以理解提示中一次包含多个镜头的片段要求。

比如,画面中既有海边小屋的特写,还有运镜转向海面远眺的远景,通过镜头切换,赋予画面一种鲜明的叙事感。もう一つの「国内版Sora」がグローバルに登場! Tsinghua Zhu Jun の起業家チーム、ビデオ生成にかかる時間はわずか 30 秒
提示语:在一个古色古香的海边小屋里,阳光沐浴着房间,镜头缓慢过渡到一个阳台,俯瞰着宁静的大海,最后镜头定格在漂浮着大海、帆船和倒影般的云彩。

对于第一人称、延时摄影等镜头语言,Vidu 也能准确理解和表达,用户只需细化提示词,即可大幅提升视频的可控性。もう一つの「国内版Sora」がグローバルに登場! Tsinghua Zhu Jun の起業家チーム、ビデオ生成にかかる時間はわずか 30 秒
                        提示词:第一人称视角,女友牵着我的手,一起漫步在海边。

Vidu 是一款能够准确理解和生成一些词汇的视频生成器,比如数字。

もう一つの「国内版Sora」がグローバルに登場! Tsinghua Zhu Jun の起業家チーム、ビデオ生成にかかる時間はわずか 30 秒

                          提示词:一块生日蛋糕,上面插着蜡烛,蜡烛是数字 “32”。

蛋糕上换成「Happy Birthday」的字样,它也能hold住。

もう一つの「国内版Sora」がグローバルに登場! Tsinghua Zhu Jun の起業家チーム、ビデオ生成にかかる時間はわずか 30 秒

                        提示词:一块蛋糕,上面写着"HAPPY BIRTHDAY"。

动漫风格嘎嘎好用

目前市面上的 AI 视频工具大多局限于写实风格或源于现实的想象,而 Vidu 除了写实风格外,还支持动漫风格。

我们选择动画模型,直接输入提示词即可输出动漫风格视频。

例如,提示词:动漫风格,小女孩站在厨房里切菜。

もう一つの「国内版Sora」がグローバルに登場! Tsinghua Zhu Jun の起業家チーム、ビデオ生成にかかる時間はわずか 30 秒

说实话,这画风有宫崎骏老爷子的味道。Vidu 读懂了提示词,小女孩切菜动作一气呵成,就是手指和刀具在不经意间仍有变形。

提示词:动漫风格,一个戴着耳机的小女孩在跳舞。

もう一つの「国内版Sora」がグローバルに登場! Tsinghua Zhu Jun の起業家チーム、ビデオ生成にかかる時間はわずか 30 秒

Vidu 的想象力还挺丰富,自个儿把背景设置为带有喷泉的公园,这也让视频画面不那么单调。

当然,我们还可以上传一张动漫参考图片,再输入提示词,如此一来,图片中的动漫人物就能动起来啦。

例如,我们上传一张蜡笔小新的静态图,然后输入提示词:蜡笔小新大笑着举起手里的小花。图片用途选择「用作起始帧」。

もう一つの「国内版Sora」がグローバルに登場! Tsinghua Zhu Jun の起業家チーム、ビデオ生成にかかる時間はわずか 30 秒

我们来瞅瞅效果:もう一つの「国内版Sora」がグローバルに登場! Tsinghua Zhu Jun の起業家チーム、ビデオ生成にかかる時間はわずか 30 秒
再上传一张呆萌皮卡丘的图像,输入提示词为「皮卡丘开心地蹦起来」。图片用途选择「用作起始帧」。

もう一つの「国内版Sora」がグローバルに登場! Tsinghua Zhu Jun の起業家チーム、ビデオ生成にかかる時間はわずか 30 秒

继续上效果:もう一つの「国内版Sora」がグローバルに登場! Tsinghua Zhu Jun の起業家チーム、ビデオ生成にかかる時間はわずか 30 秒
上传《海贼王》路飞的图像,再喂给它提示词:男孩突然哭起来。

もう一つの「国内版Sora」がグローバルに登場! Tsinghua Zhu Jun の起業家チーム、ビデオ生成にかかる時間はわずか 30 秒

效果如下:もう一つの「国内版Sora」がグローバルに登場! Tsinghua Zhu Jun の起業家チーム、ビデオ生成にかかる時間はわずか 30 秒
不得不说, Vidu 的动漫效果相当惊艳,在保持风格一致性的同时,显着提高了画面的稳定性和流畅性,没有出现变形、崩坏或者六指狂魔、左右腿不分等「邪门」画面。

梗图、表情包燥起来

在「图生视频」板块中,除了支持首帧图上传,Vidu 这次还上新一项功能—— 角色一致性( Charactor To Video)。

所谓角色一致性,就是上传一个角色图像,然后可以指定该角色在任意场景中做出任意动作。

もう一つの「国内版Sora」がグローバルに登場! Tsinghua Zhu Jun の起業家チーム、ビデオ生成にかかる時間はわずか 30 秒

我们就拿吴京为例。

もう一つの「国内版Sora」がグローバルに登場! Tsinghua Zhu Jun の起業家チーム、ビデオ生成にかかる時間はわずか 30 秒

もう一つの「国内版Sora」がグローバルに登場! Tsinghua Zhu Jun の起業家チーム、ビデオ生成にかかる時間はわずか 30 秒

                           提示词:在一艘宇宙飞船里,吴京正穿着太空服,对镜头挥手。

もう一つの「国内版Sora」がグローバルに登場! Tsinghua Zhu Jun の起業家チーム、ビデオ生成にかかる時間はわずか 30 秒

                           提示词:吴京穿着唐装,站在一条古街上,向镜头挥手。

如果说,首帧图上传适合创作场景一致性的视频,那么,有了角色一致性功能,从科幻角色到现代剧,演员七十二变,信手拈来。

此外,有了角色一致性功能,普通用户创作「梗图」、「表情包」可以燥起来了!

比如让北美「意难忘」贾斯汀・比伯和赛琳娜再续前缘:

もう一つの「国内版Sora」がグローバルに登場! Tsinghua Zhu Jun の起業家チーム、ビデオ生成にかかる時間はわずか 30 秒

《武林外传》中佟湘玉和白展堂嗑着瓜子,聊着同福客栈的八卦:

もう一つの「国内版Sora」がグローバルに登場! Tsinghua Zhu Jun の起業家チーム、ビデオ生成にかかる時間はわずか 30 秒

还有《甄嬛传》皇后娘娘委屈大哭:

もう一つの「国内版Sora」がグローバルに登場! Tsinghua Zhu Jun の起業家チーム、ビデオ生成にかかる時間はわずか 30 秒

只要脑洞够大,什么地铁老人吃手机、鳌拜和韦小宝打啵、容嬷嬷喂紫薇吃鸡腿,Vidu 都能整出来。

就一个字,快!

视频生成过程中,用户最烦啥?当然是龟速爬行的进度条。

试想,为了一段几秒的视频,愣是趴在电脑前等个十分钟,再慢性子的人也很难不破防。

目前,市面上主流 AI 视频工具生成一段 4 秒左右的视频片段,通常需要 1 到 5 分钟,甚至更长。

例如,Runway 最新推出的 Gen-3 工具需要 1 分钟来完成 5s 视频生成,可灵需要 2-3 分钟,而 Vidu 将这一等待时间缩短至 30 秒,速度比业内最快水平的 Gen-3 还要再快一倍。

もう一つの「国内版Sora」がグローバルに登場! Tsinghua Zhu Jun の起業家チーム、ビデオ生成にかかる時間はわずか 30 秒

基于完全自研的 U-ViT 架构,商用精心布局

「Vidu」底层基于完全自研的 U-ViT 架构,该架构由团队在 2022 年 9 月提出,早于 Sora 采用的 DiT 架构,是全球首个 Diffusion 和 Transformer 融合的架构。

もう一つの「国内版Sora」がグローバルに登場! Tsinghua Zhu Jun の起業家チーム、ビデオ生成にかかる時間はわずか 30 秒

在 DiT 论文发布两个月前,清华大学的朱军团队提交了一篇论文 ——《All are Worth Words: A ViT Backbone for Diffusion Models》。这篇论文提出了用 Transformer 替代基于 CNN 的 U-Net 的网络架构 U-ViT。这是「Vidu」最重要的技术基础。

由于不涉及中间的插帧和拼接等多步骤的处理,文本到视频的转换是直接且连续的,「Vidu」 的作品感官上更加一镜到底,视频从头到尾连续生成,没有插帧痕迹。除了底层架构上的创新,「Vidu」也复用了生数科技过往积累下的工程化经验和能力。

生数科技曾称,从图任务的统一到融合视频能力,「Vidu」可被视为一款通用视觉模型,能够支持生成更加多样化、更长时长的视频内容。他们也透露,「Vidu」还在加速迭代提升。面向未来,「Vidu」灵活的模型架构也将能够兼容更广泛的多模态能力。

生数科技成立于 2023 年 3 月,核心成员来自清华大学人工智能研究院,致力于自主研发世界领先的可控多模态通用大模型。自 2023 年成立以来,团队已获得蚂蚁集团、启明创投、BV 百度风投、字节系锦秋基金等多家知名产业机构的认可,完成数亿元融资。据悉,生数科技是目前国内在多模态大模型赛道估值最高的创业团队。

公司首席科学家由清华人工智能研究院副院长朱军担任;CEO 唐家渝本硕就读于清华大学计算机系,是 THUNLP 组成员;CTO 鲍凡是清华大学计算机系博士生、朱军教授的课题组成员,长期关注扩散模型领域研究,U-ViT 和 UniDiffuser 两项工作均是由他主导完成的。

今年 1 月,生数科技旗下视觉创意设计平台 PixWeaver 上线了短视频生成功能,支持 4 秒高美学性的短视频内容。2 月份 Sora 推出后,生数科技内部成立攻坚小组,加快了原本视频方向的研发进度,不到一个月的时间,内部就实现了 8 秒的视频生成,紧接着 4 月份就突破了 16 秒生成,生成质量与时长全方面取得突破。

如果说 4 月份的模型发布展示了 Vidu 在视频生成能力上的领先,这次正式发布的产品则展示了 Vidu 在商业化方面的精心布局。生数科技目前采取模型层和应用层两条路走路的模式。

一方面,构建覆盖文本、图像、视频、3D 模型等多模态能力的底层通用大模型,面向 B 端提供模型服务能力。

另一方面,面向图像生成、视频生成等场景打造垂类应用,按照订阅等形式收费,应用方向主要是游戏制作、影视后期等内容创作场景。

相关阅读:

当前最强国产Sora!清华团队突破16秒长视频,懂多镜头语言,会模拟物理规律

专访生数科技唐家渝:清华系团队拿到近亿融资,用Transformer来做多模态大模型

《国内公司有望做出Sora吗?这支清华系大模型团队给出了希望

参考链接:

Vidu官网链接:www.vidu.studio

以上がもう一つの「国内版Sora」がグローバルに登場! Tsinghua Zhu Jun の起業家チーム、ビデオ生成にかかる時間はわずか 30 秒の詳細内容です。詳細については、PHP 中国語 Web サイトの他の関連記事を参照してください。

声明:
この記事の内容はネチズンが自主的に寄稿したものであり、著作権は原著者に帰属します。このサイトは、それに相当する法的責任を負いません。盗作または侵害の疑いのあるコンテンツを見つけた場合は、admin@php.cn までご連絡ください。