搜索
首页科技周边人工智能推出免费的个性化学术论文推荐系统——德国高校顶级视觉团队的「arXiv定制平台」

10毫秒生成一张图像,1分钟6000张图像,这是什么概念?

下图中,就可以深刻感受到AI的超能力。

推出免费的个性化学术论文推荐系统——德国高校顶级视觉团队的「arXiv定制平台」图片

甚至,当你在二次元小姐姐图片生成的提示中,不断加入新的元素,各种风格的图片更迭也是瞬间闪过。

推出免费的个性化学术论文推荐系统——德国高校顶级视觉团队的「arXiv定制平台」图片

如此惊人的图片实时生成速度,便是来自UC伯克利、日本筑波大学等研究人员提出StreamDiffusion带来的结果。

这个全新的解决方案是一种扩散模型流程,能够以超过100fps的速度,实现实时交互式图像生成。

推出免费的个性化学术论文推荐系统——德国高校顶级视觉团队的「arXiv定制平台」图片

论文地址:https://arxiv.org/abs/2312.12491

StreamDiffusion开源后直接霸榜GitHub,狂揽3.7k星。

推出免费的个性化学术论文推荐系统——德国高校顶级视觉团队的「arXiv定制平台」图片

StreamDiffusion创新性采用了批处理策略,而非序列去噪,比传统方法快大约1.5倍。而且作者提出的新型剩余无分类器引导(RCFG)算法能够比传统无分类引导快2.05倍。

最值得一提的是,新方法在RTX 4090上,图像到图像的生成速度可达91.07fps。

推出免费的个性化学术论文推荐系统——德国高校顶级视觉团队的「arXiv定制平台」图片

未来,在元宇宙、视频游戏图形渲染、直播视频流等不同场景中,StreamDiffusion快速生成能够满足这些应用的高吞吐量的需求。

尤其,实时的图像生成,能够为那些游戏开发、视频渲染的打工人们,提供了强大的编辑和创作能力。

推出免费的个性化学术论文推荐系统——德国高校顶级视觉团队的「arXiv定制平台」图片

专为实时图像生成设计

目前,在各个领域中,扩散模型的应用需要具备高吞吐量和低延迟的扩散管道,以确保人机交互的高效性

一个典型的例子是,用扩散模型创建虚拟角色VTuber——能够对用户的输入做出流畅的反应。

推出免费的个性化学术论文推荐系统——德国高校顶级视觉团队的「arXiv定制平台」图片

为了提高高吞吐量和实时交互能力,目前研究的方向主要集中在,减少去噪迭代次数,比如从50次迭代减少到几次,甚至一次。

常见的策略是将多步扩散模型提炼成几个步骤,用神经常微分方程(ODE)重新构建扩散过程。为提高效率,也有人对扩散模型进行了量化。

最新论文中,研究人员从正交方向(orthogonal direction)开始,引入了StreamDiffusion——一种实时扩散管道,专为互动式图像生成的高吞吐量而设计。

现有的模型设计工作可以与StreamDiffusion集成,同时还可以使用N步去噪扩散模型,以保持高吞吐量,并为用户提供更灵活的选择

推出免费的个性化学术论文推荐系统——德国高校顶级视觉团队的「arXiv定制平台」图片

实时图像生成|第一列和第二列:AI辅助实时绘图的示例,第三列:从3D头像实时渲染2D插图。第四列和第五列:实时相机滤镜。 实时图像生成|第一列和第二列展示了AI辅助实时绘图的示例,第三列展示了通过实时渲染3D头像生成2D插图的过程。第四列和第五列展示了实时相机滤镜的效果

具体是如何实现的?

StreamDiffusion架构

StreamDiffusion是一种新的扩散管道,旨在提高吞吐量。

它由若干关键部分组成:

流批处理策略、剩余无分类器引导(RCFG)、输入输出队列、随机相似滤波(Stochastic Similarity Filter)、预计算程序、微型自动编码器的模型加速工具。

批处理去噪

在扩散模型中,去噪步骤是按顺序进行的,这就导致了U-Net的处理时间,与步骤数成比例增加。

然而,为了生成高保真的图像,就不得不增加步数。

为了解决交互式扩散中的高延迟生成的问题,研究人员提出了一种叫做Stream Batch的方法。

如下图所示,在最新的方法中,在处理下一个输入图像之前,不会等待单个图像完全去噪,而是在每个去噪步骤后接受下一个输入图像。

这样就形成了一个去噪批次,每个图像的去噪步骤交错进行。

通过将这些交错的去噪步骤串联成一个批次,研究人员就能使用U-Net高效地处理连续输入的批次。

在时间步t处编码的输入图像在时间步t+n处生成并解码,其中n是去噪步骤的数目。

推出免费的个性化学术论文推荐系统——德国高校顶级视觉团队的「arXiv定制平台」图片

剩余无分类器引导(RCFG)

常见的无分类器指导(CFG)是一种,通过在无条件或否定条件项和原条件项之间执行向量计算。来增强原条件的效果的算法。

推出免费的个性化学术论文推荐系统——德国高校顶级视觉团队的「arXiv定制平台」图片

这可以带来诸如加强提示的效果之类的好处。

然而,为了计算负条件剩余噪声,需要将每个输入潜变量与负条件嵌入配对,并在每个推理时间将其传递给U-Net。

为了解决这个问题,作者引入了一种创新的剩余无分类器引导(RCFG)

这种方法利用虚拟剩余噪声来逼近负条件,使得我们只需要在过程的初始阶段就能够计算负条件噪声,从而显著降低了负条件嵌入时额外的U-Net推理计算成本

输入输出队列

将输入图像转换为管道可管理的张量数据格式,反过来,将解码后的张量转换回输出图像,都需要不可忽略的额外处理时间。

为了避免将这些图像处理时间添加到神经网络推理流程中,我们将图像预处理和后处理分离到不同的线程中,从而实现并行处理。

此外,通过使用输入张量队列,还能应对因设备故障或通信错误造成的输入图像临时中断,从而实现流畅的流式传输。

推出免费的个性化学术论文推荐系统——德国高校顶级视觉团队的「arXiv定制平台」图片

随机相似滤波(Stochastic Similarity Filter)

如下图是,核心扩散推理管道,包含VAE和U-Net。

通过引入去噪批处理和预先计算的提示嵌入缓存、采样噪声缓存和调度器值缓存,提高了推理流水线的速度,实现了实时图像生成。

随机相似滤波(SSF)是为了节省GPU功耗而设计的,可以动态关闭扩散模型管道,进而实现了快速高效的实时推理。

推出免费的个性化学术论文推荐系统——德国高校顶级视觉团队的「arXiv定制平台」图片

预计算

U-Net架构既需要输入潜在变量,也需要条件嵌入。

通常情况下,条件嵌入来源于「提示嵌入」,在不同帧之间保持不变。

为了优化这一点,研究人员预先计算提示嵌入,并将其存储在缓存中。在交互或流模式下,这个预先计算的提示嵌入缓存会被召回。

在U-Net中,每一帧的键和值的计算是基于预先计算的提示嵌入实现的

因此,研究人员对U-Net进行修改,以存储这些键和值对,使其可以重复使用。每当输入提示更新时,研究人员都会在U-Net内重新计算和更新这些键和值对。

模型加速和微型自动编码器

为了优化速度,我们将系统配置为使用静态批大小和固定输入大小(高度和宽度)。

这种方法确保计算图和内存分配针对特定的输入大小进行优化,从而加快处理速度。

然而,这意味着如果需要处理不同形状的图像(即不同的高度和宽度),使用不同的批大小(包括去噪步骤的批次大小)。

实验评估

去噪批的定量评估

图8展示了批量去噪和原始顺序U-Net循环的效率比较

在实施批去噪策略时,研究人员发现处理时间有了显著改善。与顺序去噪步骤的传统U-Net循环相比,减少了一半的时间。

即使应用了神经模块加速工具TensorRT,研究人员提出的流批处理在不同的去噪步骤中仍能大幅提高原始顺序扩散管道的效率。

推出免费的个性化学术论文推荐系统——德国高校顶级视觉团队的「arXiv定制平台」图片

此外,研究人员还将最新方法与Huggingface Diffusers开发的AutoPipeline-ForImage2Image管道进行了比较。

平均推理时间比较见表1,最新管道显示速度有了大幅提升。

在使用TensorRT时,StreamDiffusion能够在运行10个去噪步骤时实现13倍的速度提升。而在只涉及单个去噪步骤的情况下,速度提升可达59.6倍

即使没有TensorRT,StreamDiffusion在使用单步去噪时也比AutoPipeline提高了29.7倍,在使用10步去噪时提高了8.3倍。

推出免费的个性化学术论文推荐系统——德国高校顶级视觉团队的「arXiv定制平台」图片

表2比较了使用RCFG和常规CFG的流扩散管道的推理时间。

在单步去噪的情况下,Onetime-Negative RCFG和传统CFG的推理时间几乎相同。

所以One-time RCFG和传统CFG在单步去噪时推理时间差不多。但是随着去噪步骤增加,从传统CFG到RCFG的推理速度提升变得更明显。

在第5步去噪时,Self-Negative RCFG比传统CFG快2.05倍,Onetime-Negative RCFG比传统CFG快1.79倍。

推出免费的个性化学术论文推荐系统——德国高校顶级视觉团队的「arXiv定制平台」图片

推出免费的个性化学术论文推荐系统——德国高校顶级视觉团队的「arXiv定制平台」图片

在此之后,研究人员对所提出的SSF的能耗进行了全面评估。这一过程的结果可以在图6和图7中看到

这些图展示了在输入视频中应用SSF(将阈值η设为0.98)到包含周期性静态特征场景时GPU的使用模式

对比分析表明,在输入图像主要是静态图像且具有高度相似性的情况下,采用SSF可以显着降低GPU的使用率。

推出免费的个性化学术论文推荐系统——德国高校顶级视觉团队的「arXiv定制平台」图片

消融研究

不同模块对不同去噪步骤下平均推理时间的影响如表3。可以看得见,不同模块的消减在图像到图像的生成过程中得到了验证。

推出免费的个性化学术论文推荐系统——德国高校顶级视觉团队的「arXiv定制平台」图片

定性结果

在图10中展示了使用剩余无分类器导引(RCFG)对生成的图像进行快速条件调整的对齐过程

生成的图像,没有使用任何形式的CFG,显示弱对齐提示,特别是在方面,如颜色变化或添加不存在的元素,这是没有得到有效实现。

相比之下,CFG或RCFG的使用增强了修改原始图像的能力,例如改变头发颜色,添加身体模式,甚至包含像眼镜这样的物体。值得注意的是,与标准CFG相比,RCFG的使用可以加强提示的影响。

推出免费的个性化学术论文推荐系统——德国高校顶级视觉团队的「arXiv定制平台」图片

最后,标准文本到图像生成结果的质量如图11所示。

使用sd-turbo模型,只需一步就可以生成像图11所示的那样的高质量图像。

当在GPU: RTX 4090,CPU: Core i9-13900K,OS: Ubuntu 22.04.3 LTS的环境中,使用研究人员提出的流扩散管道和sd-turbo模型生成图像时,以超100fps的速率生成这种高质量的图像是可行的。

推出免费的个性化学术论文推荐系统——德国高校顶级视觉团队的「arXiv定制平台」图片

网友上手,一大波二次元小姐姐来了

最新项目的代码已经开源,在Github已经收揽3.7k星。

推出免费的个性化学术论文推荐系统——德国高校顶级视觉团队的「arXiv定制平台」图片

项目地址:https://github.com/cumulo-autumn/StreamDiffusion

许多网友已经开始生成自己的二次元老婆了。

推出免费的个性化学术论文推荐系统——德国高校顶级视觉团队的「arXiv定制平台」图片

还有真人变实时动画。

推出免费的个性化学术论文推荐系统——德国高校顶级视觉团队的「arXiv定制平台」图片

10倍速手绘生成。

推出免费的个性化学术论文推荐系统——德国高校顶级视觉团队的「arXiv定制平台」图片

推出免费的个性化学术论文推荐系统——德国高校顶级视觉团队的「arXiv定制平台」图片

推出免费的个性化学术论文推荐系统——德国高校顶级视觉团队的「arXiv定制平台」图片

感兴趣的童鞋们,不如自己动手吧。

参考资料:

https://www.php.cn/link/f9d8bf6b7414e900118caa579ea1b7be

https://www.php.cn/link/75a6e5993aefba4f6cb07254637a6133

以上是推出免费的个性化学术论文推荐系统——德国高校顶级视觉团队的「arXiv定制平台」的详细内容。更多信息请关注PHP中文网其他相关文章!

声明
本文转载于:51CTO.COM。如有侵权,请联系admin@php.cn删除
如何使用Huggingface Smollm建立个人AI助手如何使用Huggingface Smollm建立个人AI助手Apr 18, 2025 am 11:52 AM

利用“设备” AI的力量:建立个人聊天机器人CLI 在最近的过去,个人AI助手的概念似乎是科幻小说。 想象一下科技爱好者亚历克斯(Alex)梦见一个聪明的本地AI同伴 - 不依赖

通过斯坦福大学激动人心的新计划,精神健康的AI专心分析通过斯坦福大学激动人心的新计划,精神健康的AI专心分析Apr 18, 2025 am 11:49 AM

他们的首届AI4MH发射于2025年4月15日举行,著名的精神科医生兼神经科学家汤姆·因斯尔(Tom Insel)博士曾担任开幕式演讲者。 Insel博士因其在心理健康研究和技术方面的杰出工作而闻名

2025年WNBA选秀课程进入联盟成长并与在线骚扰作斗争2025年WNBA选秀课程进入联盟成长并与在线骚扰作斗争Apr 18, 2025 am 11:44 AM

恩格伯特说:“我们要确保WNBA仍然是每个人,球员,粉丝和公司合作伙伴,感到安全,重视和授权的空间。” anno

Python内置数据结构的综合指南 - 分析VidhyaPython内置数据结构的综合指南 - 分析VidhyaApr 18, 2025 am 11:43 AM

介绍 Python擅长使用编程语言,尤其是在数据科学和生成AI中。 在处理大型数据集时,有效的数据操作(存储,管理和访问)至关重要。 我们以前涵盖了数字和ST

与替代方案相比,Openai新型号的第一印象与替代方案相比,Openai新型号的第一印象Apr 18, 2025 am 11:41 AM

潜水之前,一个重要的警告:AI性能是非确定性的,并且特定于高度用法。简而言之,您的里程可能会有所不同。不要将此文章(或任何其他)文章作为最后一句话 - 目的是在您自己的情况下测试这些模型

AI投资组合|如何为AI职业建立投资组合?AI投资组合|如何为AI职业建立投资组合?Apr 18, 2025 am 11:40 AM

建立杰出的AI/ML投资组合:初学者和专业人士指南 创建引人注目的投资组合对于确保在人工智能(AI)和机器学习(ML)中的角色至关重要。 本指南为建立投资组合提供了建议

代理AI对安全操作可能意味着什么代理AI对安全操作可能意味着什么Apr 18, 2025 am 11:36 AM

结果?倦怠,效率低下以及检测和作用之间的差距扩大。这一切都不应该令任何从事网络安全工作的人感到震惊。 不过,代理AI的承诺已成为一个潜在的转折点。这个新课

Google与Openai:AI为学生打架Google与Openai:AI为学生打架Apr 18, 2025 am 11:31 AM

直接影响与长期伙伴关系? 两周前,Openai提出了强大的短期优惠,在2025年5月底之前授予美国和加拿大大学生免费访问Chatgpt Plus。此工具包括GPT-4O,A A A A A

See all articles

热AI工具

Undresser.AI Undress

Undresser.AI Undress

人工智能驱动的应用程序,用于创建逼真的裸体照片

AI Clothes Remover

AI Clothes Remover

用于从照片中去除衣服的在线人工智能工具。

Undress AI Tool

Undress AI Tool

免费脱衣服图片

Clothoff.io

Clothoff.io

AI脱衣机

AI Hentai Generator

AI Hentai Generator

免费生成ai无尽的。

热工具

SublimeText3汉化版

SublimeText3汉化版

中文版,非常好用

MinGW - 适用于 Windows 的极简 GNU

MinGW - 适用于 Windows 的极简 GNU

这个项目正在迁移到osdn.net/projects/mingw的过程中,你可以继续在那里关注我们。MinGW:GNU编译器集合(GCC)的本地Windows移植版本,可自由分发的导入库和用于构建本地Windows应用程序的头文件;包括对MSVC运行时的扩展,以支持C99功能。MinGW的所有软件都可以在64位Windows平台上运行。

Dreamweaver CS6

Dreamweaver CS6

视觉化网页开发工具

mPDF

mPDF

mPDF是一个PHP库,可以从UTF-8编码的HTML生成PDF文件。原作者Ian Back编写mPDF以从他的网站上“即时”输出PDF文件,并处理不同的语言。与原始脚本如HTML2FPDF相比,它的速度较慢,并且在使用Unicode字体时生成的文件较大,但支持CSS样式等,并进行了大量增强。支持几乎所有语言,包括RTL(阿拉伯语和希伯来语)和CJK(中日韩)。支持嵌套的块级元素(如P、DIV),

禅工作室 13.0.1

禅工作室 13.0.1

功能强大的PHP集成开发环境