搜索
首页科技周边人工智能Stable Video Diffusion问世!3D合成功能引关注,网友:进步太快

稳定扩散官方终于开始处理视频——

发布生成式视频模型Stable Video Diffusion(SVD)

Stable Video Diffusion问世!3D合成功能引关注,网友:进步太快

Stability AI官方博客显示,全新SVD支持文本到视频、图像到视频生成:

Stable Video Diffusion问世!3D合成功能引关注,网友:进步太快

并且还支持物体从单一视角到多视角的转化,也就是3D合成

Stable Video Diffusion问世!3D合成功能引关注,网友:进步太快

根据外部评估,官方宣称SVD甚至比runway和Pika的视频生成AI更受用户欢迎。

尽管目前只发布了基础模型,但官方透露“正计划继续扩展,建立类似于稳定扩散的生态系统”

目前论文代码权重已上线。

Stable Video Diffusion问世!3D合成功能引关注,网友:进步太快

近期视频生成领域不断涌现新的玩法,如今轮到了Stable Diffusion的出现,以至于网友们纷纷感叹“快”,这样进步的速度太快了!

Stable Video Diffusion问世!3D合成功能引关注,网友:进步太快

但仅从Demo效果来说,更多网友们表示并没有感到很惊喜。

虽然我喜欢SD,而且这些Demo也很棒……但也存在一些缺陷,光影不对、而且整体不连贯(视频帧与帧之间闪烁)

Stable Video Diffusion问世!3D合成功能引关注,网友:进步太快

总归来说这是个开始,网友对SVD的3D合成功能还满是看好:

我敢保证,很快就会有更好的东西问世,只需要简单描述一下,就能够呈现一个完整的3D场景

Stable Video Diffusion问世!3D合成功能引关注,网友:进步太快

SD视频官方版来袭

除了以上所展示的,官方还发布了更多的演示,下面来先看一下:

Stable Video Diffusion问世!3D合成功能引关注,网友:进步太快

太空漫步也安排上:

Stable Video Diffusion问世!3D合成功能引关注,网友:进步太快

保持背景静止,只让两只鸟移动也可以:

Stable Video Diffusion问世!3D合成功能引关注,网友:进步太快

SVD的研究论文目前也已发布,据介绍SVD基于Stable Diffusion 2.1,用约6亿个样本的视频数据集预训练了基础模型。

可轻松适应各种下游任务,包括通过对多视图数据集进行微调从单个图像进行多视图合成。

经过微调后,官方公布了两种图像到视频模型。这些模型可以根据用户的需求,以每秒3到30帧的自定义帧速率生成14帧(SVD)和25帧(SVD-XT)的视频

Stable Video Diffusion问世!3D合成功能引关注,网友:进步太快

对多视角视频生成模型进行了微调后,我们将其命名为SVD-MV

Stable Video Diffusion问世!3D合成功能引关注,网友:进步太快

根据测试结果,在GSO数据集上,SVD-MV得分优于多视角生成模型Zero123、Zero123XL、SyncDreamer:

Stable Video Diffusion问世!3D合成功能引关注,网友:进步太快

值得一提的是,Stability AI表示SVD目前仅限于研究,不适用于实际或商业应用。SVD目前也不是所有人都可以使用,但已开放用户候补名单注册。

视频生成大爆发

近期,视频生成领域出现了一种“混战”状态

前有PikaLabs开发的文生视频AI:

Stable Video Diffusion问世!3D合成功能引关注,网友:进步太快

后又有号称“史上最强大的视频生成AIMoonvalley推出:

Stable Video Diffusion问世!3D合成功能引关注,网友:进步太快

最近Gen-2的“运动笔刷”功能也正式上线,指哪画哪:

Stable Video Diffusion问世!3D合成功能引关注,网友:进步太快

这不现在SVD又出现了,又有要卷3D视频生成的可能。

但文本到3D生成方面好像还没有太多进展,网友对这一现象也很是困惑。

Stable Video Diffusion问世!3D合成功能引关注,网友:进步太快

有人认为数据是阻碍发展的瓶颈:

Stable Video Diffusion问世!3D合成功能引关注,网友:进步太快

还有一些网友认为问题在于强化学习的能力还不够强

Stable Video Diffusion问世!3D合成功能引关注,网友:进步太快

家人们对这方面的最新进展有了解吗?欢迎评论区分享~

论文链接:https://static1.squarespace.com/static/6213c340453c3f502425776e/t/655ce779b9d47d342a93c890/1700587395994/stable_video_diffusion.pdf 需要重新写的内容是:

以上是Stable Video Diffusion问世!3D合成功能引关注,网友:进步太快的详细内容。更多信息请关注PHP中文网其他相关文章!

声明
本文转载于:51CTO.COM。如有侵权,请联系admin@php.cn删除
外推指南外推指南Apr 15, 2025 am 11:38 AM

介绍 假设有一个农民每天在几周内观察农作物的进展。他研究了增长率,并开始思考他的植物在几周内可以生长的高度。从Th

软AI的兴起及其对当今企业的意义软AI的兴起及其对当今企业的意义Apr 15, 2025 am 11:36 AM

软AI(被定义为AI系统,旨在使用近似推理,模式识别和灵活的决策执行特定的狭窄任务 - 试图通过拥抱歧义来模仿类似人类的思维。 但是这对业务意味着什么

为AI前沿的不断发展的安全框架为AI前沿的不断发展的安全框架Apr 15, 2025 am 11:34 AM

答案很明确 - 只是云计算需要向云本地安全工具转变,AI需要专门为AI独特需求而设计的新型安全解决方案。 云计算和安全课程的兴起 在

生成AI的3种方法放大了企业家:当心平均值!生成AI的3种方法放大了企业家:当心平均值!Apr 15, 2025 am 11:33 AM

企业家,并使用AI和Generative AI来改善其业务。同时,重要的是要记住生成的AI,就像所有技术一样,都是一个放大器 - 使得伟大和平庸,更糟。严格的2024研究O

Andrew Ng的新简短课程Andrew Ng的新简短课程Apr 15, 2025 am 11:32 AM

解锁嵌入模型的力量:深入研究安德鲁·NG的新课程 想象一个未来,机器可以完全准确地理解和回答您的问题。 这不是科幻小说;多亏了AI的进步,它已成为R

大语言模型(LLM)中的幻觉是不可避免的吗?大语言模型(LLM)中的幻觉是不可避免的吗?Apr 15, 2025 am 11:31 AM

大型语言模型(LLM)和不可避免的幻觉问题 您可能使用了诸如Chatgpt,Claude和Gemini之类的AI模型。 这些都是大型语言模型(LLM)的示例,在大规模文本数据集上训练的功能强大的AI系统

60%的问题 -  AI搜索如何消耗您的流量60%的问题 - AI搜索如何消耗您的流量Apr 15, 2025 am 11:28 AM

最近的研究表明,根据行业和搜索类型,AI概述可能导致有机交通下降15-64%。这种根本性的变化导致营销人员重新考虑其在数字可见性方面的整个策略。 新的

麻省理工学院媒体实验室将人类蓬勃发展成为AI R&D的核心麻省理工学院媒体实验室将人类蓬勃发展成为AI R&D的核心Apr 15, 2025 am 11:26 AM

埃隆大学(Elon University)想象的数字未来中心的最新报告对近300名全球技术专家进行了调查。由此产生的报告“ 2035年成为人类”,得出的结论是,大多数人担心AI系统加深的采用

See all articles

热AI工具

Undresser.AI Undress

Undresser.AI Undress

人工智能驱动的应用程序,用于创建逼真的裸体照片

AI Clothes Remover

AI Clothes Remover

用于从照片中去除衣服的在线人工智能工具。

Undress AI Tool

Undress AI Tool

免费脱衣服图片

Clothoff.io

Clothoff.io

AI脱衣机

AI Hentai Generator

AI Hentai Generator

免费生成ai无尽的。

热门文章

R.E.P.O.能量晶体解释及其做什么(黄色晶体)
4 周前By尊渡假赌尊渡假赌尊渡假赌
R.E.P.O.最佳图形设置
4 周前By尊渡假赌尊渡假赌尊渡假赌
R.E.P.O.如果您听不到任何人,如何修复音频
4 周前By尊渡假赌尊渡假赌尊渡假赌
WWE 2K25:如何解锁Myrise中的所有内容
1 个月前By尊渡假赌尊渡假赌尊渡假赌

热工具

SublimeText3汉化版

SublimeText3汉化版

中文版,非常好用

Atom编辑器mac版下载

Atom编辑器mac版下载

最流行的的开源编辑器

VSCode Windows 64位 下载

VSCode Windows 64位 下载

微软推出的免费、功能强大的一款IDE编辑器

禅工作室 13.0.1

禅工作室 13.0.1

功能强大的PHP集成开发环境

DVWA

DVWA

Damn Vulnerable Web App (DVWA) 是一个PHP/MySQL的Web应用程序,非常容易受到攻击。它的主要目标是成为安全专业人员在合法环境中测试自己的技能和工具的辅助工具,帮助Web开发人员更好地理解保护Web应用程序的过程,并帮助教师/学生在课堂环境中教授/学习Web应用程序安全。DVWA的目标是通过简单直接的界面练习一些最常见的Web漏洞,难度各不相同。请注意,该软件中