给我一张图，生成30秒视频！

给我一张图，生成30秒视频！

WBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWB

Apr 13, 2023 am 08:43 AM

框架视觉

AI又进阶了？

而且是一张图生成连贯30秒视频的那种。

emm....这质量是不是有点太糊了

要知道这只是从单个图像（第一帧）生成的，而且没有任何显示的几何信息。

这是DeepMind最近提出的一种基于概率帧预测的图像建模和视觉任务的通用框架——Transframer。

简单讲，就是用Transframer来预测任意帧的概率。

这些帧可以以一个或者多个带标注的上下文帧为条件，既可以是先前的视频帧、时间标记或者摄像机标记的视图场景。

Transframer架构

先来看看这个神奇的Transframer的架构是怎么运作的。

论文地址就贴在下面了，感兴趣的童鞋可以看看~https://arxiv.org/abs/2203.09494

为了估计目标图像上的预测分布，我们需要一个能够生产多样化、高质量输出的表达生成模型。

尽管DC Transformer在单个图像域上的结果可以满足需求，但并非以我们需要的多图像文本集 {(In,an)}n 为条件。

因此，我们对DC Transformer进行了扩展，以启用图像和注释条件预测。

我们替换了DC Transformer 的Vision-Transformer风格的编码器，该编码器使用多帧 U-Net 架构对单个DCT图像进行操作，用于处理一组带注释的帧以及部分隐藏的目标DCT图像。

下面看看Transframer架构是如何工作的。

（a）Transframer将DCT图像（a1和a2）以及部分隐藏的目标DCT图像（aT）和附加注释作为输入，由多帧U-Net编码器处理。接下来，U-Net输出通过交叉注意力传递给DC-Transformer解码器，该解码器则自动回归生成与目标图像的隐藏部分对应的DCT Token序列（绿色字母）。（b）多帧U-Net block由NF-Net卷积块、多帧自注意力块组成，它们在输入帧之间交换信息和 Transformer式的残差MLP。

再来看看处理图像输入的Multi-Frame U-Net。

U-Net的输入是由N个DCT帧和部分隐藏目标DCT帧组成的序列，注释信息以与每个输入帧相关联的向量的形式提供。

U-Net的核心组件是一个计算块，它首先将一个共享的NF-ResNet 卷积块应用于每个输入帧，然后应用一个Transformer样式的自我注意块来聚合跨帧的信息。（图2 b）

NF-ResNet块由分组卷积和挤压和激发层组成，旨在提高TPU的性能。

下面，图(a)比较了RoboNet (128x128) 和KITTI视频的绝对和残差DCT表征的稀疏性。

由于RoboNet由只有少数运动元素的静态视频组成，因此残差帧表征的稀疏性显著增加。

而KITTI视频通常具有移动摄像头，导致连续帧中几乎所有地方都存在差异。

但在这种情况下，稀疏性小带来的好处也随之弱化。

多视觉任务强者

通过一系列数据集和任务的测试，结果显示Transframer可以应用在多个广泛任务上。

其中就包括视频建模、新视图合成、语义分割、对象识别、深度估计、光流预测等等。

视频建模

通过Transframer在给定一系列输入视频帧的情况下预测下一帧。

研究人员分别在KITTI和RoboNet两个数据集上，训练了Transframer在视频生成上的性能如何。

对于KITTI，给定5个上下文帧和25采样帧，结果显示，Transframer模型在所有指标上的性能都有所提高，其中LPIPS和FVD的改进是最显而易见的。

在RoboNet上，研究人员给定2个上下文帧和10个采样帧，分别以64x64 和 128x128 的分辨率进行训练，最终也取得了非常好的结果。

视图合成

在视图合成方面，研究者通过提供相机视图作为表 1（第 3 行）中描述的上下文和目标注释，以及统一采样多个上下文视图，直到指定的最大值。

通过提供1-2个上下文视图，在ShapeNet 基准上评估模型Transframer，明显优于PixelNeRF和SRN。

此外在数据集Objectron进行评估后，可以看出当给定单个输入视图时，模型会产生连贯的输出，但会遗漏一些特征，比如交叉的椅子腿。

当给出1个上下文视图，以128×128分辨率合成的视图如下：

当再给出2个上下文视图，以128×128分辨率合成的视图如下：

多视觉任务

不同的计算机视觉任务通常使用复杂的架构和损失函数来处理。

这里，研究人员在8个不同的任务和数据集上使用相同的损失函数联合训练了Transframer模型。

这8个任务分别是：单个图像的光流预测、对象分类、检测和分割、语义分割（在2个数据集上）、未来帧预测和深度估计。

结果显示，Transframer学会在完全不同的任务中生成不同的样本，在某些任务中，比如 Cityscapes，该模型产生了质量上好的输出。

但是，在未来帧预测和边界框检测等任务上的模型输出质量参差不齐，这表明在此设置中建模更具挑战性。

以上是给我一张图，生成30秒视频！的详细内容。更多信息请关注PHP中文网其他相关文章！

声明

本文转载于：51CTO.COM。如有侵权，请联系admin@php.cn删除

及时工程中的思想图是什么

及时工程中的思想图是什么Apr 13, 2025 am 11:53 AM

介绍在迅速的工程中，“思想图”是指使用图理论来构建和指导AI的推理过程的新方法。与通常涉及线性S的传统方法不同

优化您的组织与Genai代理商的电子邮件营销

优化您的组织与Genai代理商的电子邮件营销Apr 13, 2025 am 11:44 AM

介绍恭喜！您经营一家成功的业务。通过您的网页，社交媒体活动，网络研讨会，会议，免费资源和其他来源，您每天收集5000个电子邮件ID。下一个明显的步骤是

Apache Pinot实时应用程序性能监视

Apache Pinot实时应用程序性能监视Apr 13, 2025 am 11:40 AM

介绍在当今快节奏的软件开发环境中，确保最佳应用程序性能至关重要。监视实时指标，例如响应时间，错误率和资源利用率可以帮助MAIN

Chatgpt击中了10亿用户？ Openai首席执行官说：'短短几周内翻了一番

Chatgpt击中了10亿用户？ Openai首席执行官说：'短短几周内翻了一番Apr 13, 2025 am 11:23 AM

“您有几个用户？”他扮演。阿尔特曼回答说：“我认为我们上次说的是每周5亿个活跃者，而且它正在迅速增长。” “你告诉我，就像在短短几周内翻了一番，”安德森继续说道。 “我说那个私人

pixtral -12b：Mistral AI＆＃039;第一个多模型模型 - 分析Vidhya

pixtral -12b：Mistral AI＆＃039;第一个多模型模型 - 分析VidhyaApr 13, 2025 am 11:20 AM

介绍 Mistral发布了其第一个多模式模型，即Pixtral-12b-2409。该模型建立在Mistral的120亿参数Nemo 12B之上。是什么设置了该模型？现在可以拍摄图像和Tex

生成AI应用的代理框架 - 分析Vidhya

生成AI应用的代理框架 - 分析VidhyaApr 13, 2025 am 11:13 AM

想象一下，拥有一个由AI驱动的助手，不仅可以响应您的查询，还可以自主收集信息，执行任务甚至处理多种类型的数据（TEXT，图像和代码）。听起来有未来派？在这个a

生成AI在金融部门的应用

生成AI在金融部门的应用Apr 13, 2025 am 11:12 AM

介绍金融业是任何国家发展的基石，因为它通过促进有效的交易和信贷可用性来推动经济增长。交易的便利和信贷

在线学习和被动攻击算法指南

在线学习和被动攻击算法指南Apr 13, 2025 am 11:09 AM

介绍数据是从社交媒体，金融交易和电子商务平台等来源的前所未有的速度生成的。处理这种连续的信息流是一个挑战，但它提供了

See all articles

热AI工具

Undresser.AI Undress

Undresser.AI Undress

人工智能驱动的应用程序，用于创建逼真的裸体照片

AI Clothes Remover

AI Clothes Remover

用于从照片中去除衣服的在线人工智能工具。

Undress AI Tool

Undress AI Tool

免费脱衣服图片

Clothoff.io

Clothoff.io

AI脱衣机

AI Hentai Generator

AI Hentai Generator

免费生成ai无尽的。

热门文章

R.E.P.O.能量晶体解释及其做什么（黄色晶体）

3 周前By尊渡假赌尊渡假赌尊渡假赌

R.E.P.O.最佳图形设置

3 周前By尊渡假赌尊渡假赌尊渡假赌

刺客信条阴影：贝壳谜语解决方案

2 周前ByDDD

R.E.P.O.如果您听不到任何人，如何修复音频

3 周前By尊渡假赌尊渡假赌尊渡假赌

WWE 2K25：如何解锁Myrise中的所有内容

4 周前By尊渡假赌尊渡假赌尊渡假赌

热工具

Atom编辑器mac版下载

Atom编辑器mac版下载

最流行的的开源编辑器

ZendStudio 13.5.1 Mac

ZendStudio 13.5.1 Mac

功能强大的PHP集成开发环境

SublimeText3汉化版

SublimeText3汉化版

中文版，非常好用

WebStorm Mac版

WebStorm Mac版

好用的JavaScript开发工具

VSCode Windows 64位下载

VSCode Windows 64位下载

微软推出的免费、功能强大的一款IDE编辑器

热门话题

gmail邮箱登陆入口在哪里

7488

15

1377

52

steam的账户名称是什么格式

77

11

win11激活密钥永久

51

19

NYT连接提示和答案

19

39