搜索
首页科技周边人工智能二次元专用超分AI模型APISR:在线可用,入选CVPR

动漫作品如《龙珠》、《神奇宝贝》、《新世纪福音战士》等上个世纪开播的动漫是许多人童年回忆的一部分,它们曾给我们带来了充满了热血、友情与梦想的视觉之旅。某些时候,我们会突然有重温这些童年回忆的冲动,但我们却可能会遗憾地发现这些童年回忆的辨识率非常低,根本无法在宽屏电视上创建出良好的视觉体验,以至于阻碍我们与在高清分辨率数字世界中成长的孩子分享这些童年回忆。

对于这种的恶性竞争(以及潜在的市场),一种做法是由动画公司制作重制版。这项任务的人力和资金成本都不低,但可能比忽视此问题和失去市场份额更加值得。

多模态人工智能的性能日益强大,借用基于AI的超分辨率技术来提升动漫分辨率也成为了一个值得探索的方向。此技术能够根据少量的低分辨率图像重建出高分辨率的图像,使得动漫画面更加清晰、精细。这一方法通过训练大量样本数据,利用深度

近日,密西根大学、耶鲁大学和浙江大学的一个联合团队通过分析动漫的制作过程,为动漫超分辨率任务创造出了一套相当实用的新方法。其中包括数据集、模型和一些改进措施。这项研究已被CVPR 2024会议接收。该团队还开源了相关代码,并在Huggingface上线了一个试用模型。

二次元专用超分AI模型APISR:在线可用,入选CVPR

  • 论文标题:APISR: Anime Production Inspired Real-World Anime Super-Resolution

  • 论文地址:https://arxiv.org/pdf/2403.01598.pdf

  • 代码地址:https://github.com/Kiteretsu77/APISR

  • 试用模型:https://huggingface.co/spaces/HikariDawn/APISR

下图是本站用《龙珠》第一集片头截图尝试的结果,效果肉眼可见的好。

二次元专用超分AI模型APISR:在线可用,入选CVPR

另外也已经有人尝试使用该技术来提升视频分辨率,结果非常棒:

二次元专用超分AI模型APISR:在线可用,入选CVPR

动漫制作流程

为了了解这套新方法的创新之处,我们先看看动漫一般是怎么制作的。

首先,由人类在纸上绘出草图,然后通过计算机图像生成(CGI)处理来进行上色和增强。然后,将这些经过处理的草图连接起来,做成视频。

不过,由于绘图这道工序非常耗费人力且人眼对运动并不敏感,因此在合成视频时,业内的标准做法是让单张图像重复用于多个连续帧。

通过分析此流程,这个联合团队不禁开始怀疑是否有必要使用视频模型和视频数据集来训练动漫超分辨率模型:完全可以对图像执行超分辨率,然后再把这些图像连起来嘛!

于是他们决定使用基于图像的方法和数据集打造一个适用于图像和视频的统一的超分辨率和恢复框架。

新提出的方法

面向动漫制作的图像超分辨率(API SR)数据集

该团队提出了 API SR 数据集,这里简单介绍一下其收集整理方法。该方法利用了动漫视频的特点(见图 2),可以从视频中选出被压缩最少且信息最丰富的帧。

二次元专用超分AI模型APISR:在线可用,入选CVPR

基于 I 帧的图像收集:视频压缩涉及到视频质量和数据规模的权衡。而现在视频压缩的标准有很多,每一种都有各自的复杂工程系统,但它们都有一个类似的主干设计。

这些特点导致每一帧的压缩质量是不一样的。视频压缩过程会指定一些关键帧(即 I 帧)作为单个的压缩单元。在实践中,I 帧是场景变化时的第一帧。这些 I 帧可以占据较大的数据量。而非 I 帧(即 P 帧和 B 帧)则有更高的压缩率,它们在压缩过程中需要以 I 帧为参照,引入随时间的变化情况。如图 3a 所示,在该团队收集的动漫视频中,I 帧的数据大小一般都高于非 I 帧,并且 I 帧的质量也确实更高。因此,该团队使用视频处理工具 ffmpeg 从视频源提取出了所有 I 帧并将其作为初始数据池。

二次元专用超分AI模型APISR:在线可用,入选CVPR

基于图像复杂度进行选取:该团队基于图像复杂度评估(ICA)对初始的 I 帧池进行了筛选,这是一个更适合动漫的指标,见图 4。

二次元专用超分AI模型APISR:在线可用,入选CVPR

API 数据集:该团队人工收集了 562 段高质量动漫视频。然后基于上述两步从每段视频收集了 10 个得分最高的帧。然后再进行了一番筛选,去除了不合适的图像,最终得到了一个包含 3740 张高质量图像的数据集。图 5 展示了一些图像示例。另外也能从图 3b 看到 API 数据集在图像复杂度方面的优势。

二次元专用超分AI模型APISR:在线可用,入选CVPR

回到最初的 720P 分辨率:通过研究动画制作流程,可以看到大多数动漫制作都采用了 720P 的格式(即图像高 720 像素)。但是,在真实世界场景中,为了实现多媒体格式的标准化,动漫往往会被错误地上调到 1080P 或其它格式。该团队通过实验发现,将所有动漫图像的尺寸重新调整为原始的 720P 可以提供创作者设想的特征密度,同时还有更紧凑的动漫手绘线条和 CGI 信息。

一个动漫的实用退化模型

在现实世界的超分辨率任务中,退化模型(degradation model)的设计非常重要。基于高阶退化模型和近期的一种基于图像的视频压缩恢复模型,该团队提出了两种改进方案,可以恢复扭曲的手绘线条和各种压缩伪影,还能增强退化模型的表征。图 6a 展示了这个退化模型。

二次元专用超分AI模型APISR:在线可用,入选CVPR

面向预测的压缩:对视频压缩伪影的动画恢复任务而言,使用图像退化模型会构成难题。这是因为 JPEG 图像格式的压缩方式和视频压缩方式的原理是不一样的。

为了应对这样的难题,该团队设计了一种在图像退化模型中使用的面向预测的压缩模型。该模块需要视频压缩算法来在压缩单帧的输入。

凭借此方法,图像退化模型能够合成类似于典型的多帧视频压缩中观察到的压缩伪影,如图 7 所示。之后,通过将这些合成的图像输入图像超分辨率网络,系统就能有效地学习各种压缩伪影的模式并进行恢复。

二次元专用超分AI模型APISR:在线可用,入选CVPR

打乱大小调整模块的顺序:真实世界超分辨率领域的退化模型需要考虑模糊、大小调整、噪声和压缩模块。模糊、噪声和压缩是可以通过清楚的数学模型或算法合成的真实世界伪影。但是,大小调整模块的逻辑全然不同。大小调整并不是自然图像生成的一部分,而是为超分辨率的成对数据集专门引入的。因此,之前固定大小的大小调整模块并不非常合适。该团队提出了一种更稳健和有效的解决方案,其中涉及到在退化模型中按不同顺序随机放置大小调整操作。

增强动漫的手绘线条

该团队的选择是直接提取锐化过的手绘线条信息并将其与基本真值(GT/ground-truth)融合,从而形成伪 GT。通过将这种专门针对性增强过的伪 GT 引入到超分辨率训练过程中,网络无需引入额外的神经网络模块或单独的后处理网络也能生成锐利的手绘线条。

为了更好地提取手绘线条,该团队使用了 XDoG,这是一种基于逐像素高斯核的草图提取算法,可以提取出锐化的 GT 的边缘图。

然而,XDoG 边缘图存在过多噪声的问题,其中包含离群像素和破碎的线条表征。为了解决这个问题,该团队提出了一种离群值过滤技术,还搭配了一种定制设计的被动扩张方法。通过这种方式,可以得到更加连贯且未扰乱的手绘线条表征。

该团队通过实验发现,过度锐化的预处理 GT 可以让手绘线条边缘比其它无关的阴影边缘细节更容易注意到,这使得离群值过滤器可以更轻松地分辨它们的差异。为此,该团队提出首先为 GT 进行三轮去锐化掩码操作。图 8 给出了这个过程的简单图示。

二次元专用超分AI模型APISR:在线可用,入选CVPR

用于动漫的平衡双感知损失

另外还有出现多余颜色伪影的问题,这主要是由于生成器和感知损失之间的训练中数据域不一致。

为了解决这个问题以及弥补之前方法的不足,该团队的做法是使用一个预训练的 ResNet,其在 Danbooru 数据集上进行了动漫目标分类任务的训练。Danbooru 数据集是一个动漫插图数据库,包含大量且丰富的标注。由于这个预训练网络是 ResNet50 而不是 VGG,因此该团队也提出了一种类似的中间层比较。

但是,如果只使用基于 ResNet 的损失,可能会出现视觉结果差的问题这是由 Danbooru 数据集中的固有偏差导致的 —— 该数据集中大部分图像都是人物面部或相对简单的插图。因此,该团队权衡之下,决定使用真实世界特征作为辅助来引导训练过程中基于 ResNet 的感知损失。这种方法可得到视觉效果好的图像,同时还能解决出现多余颜色的问题。

实验

实现细节

实验中,该团队使用了新提出的 API 数据集作为图像网络的训练数据集。至于图像网络,则是使用了 GRL 的一个微型版本,其中带有最近卷积上采样模块。

更多细节和参数请参看原论文。

与当前最佳方法比较

该团队将新提出的 APISR 与其它一些先进方法进行了定量与定性比较,包括 Real-ESRGAN、BSRGAN、RealBasicVSR、AnimeSR 和 VQD-SR。

定量比较

如表 1 所示,新模型的网络规模最小,参数量只有 1.03M,但在所有指标上的表现超过了其它所有方法。

二次元专用超分AI模型APISR:在线可用,入选CVPR

该团队尤其强调了面向预测的压缩模型的作用。

另外,还需指出,仅凭借 AnimeSR 和 VQDSR 分别 13.3% 和 25% 的训练样本复杂度,新方法就达到了这样的结果。这主要是得益于数据集整理过程引入了图像复杂度评估,其能通过选取信息丰富的图像来提高学习动漫图像表征的效果。此外,得益于新设计的显式退化模型,退化模型方面就无需训练了。

定性比较

如图 10 所示,APISR 得到的视觉质量远胜过其他方法。

二次元专用超分AI模型APISR:在线可用,入选CVPR

该团队也进行了消融研究,验证了新数据集、退化模型和损失设计的有效性,详见原论文。

以上是二次元专用超分AI模型APISR:在线可用,入选CVPR的详细内容。更多信息请关注PHP中文网其他相关文章!

声明
本文转载于:机器之心。如有侵权,请联系admin@php.cn删除
最新的最佳及时工程技术的年度汇编最新的最佳及时工程技术的年度汇编Apr 10, 2025 am 11:22 AM

对于那些可能是我专栏新手的人,我广泛探讨了AI的最新进展,包括体现AI,AI推理,AI中的高科技突破,及时的工程,AI培训,AI,AI RE RE等主题

欧洲的AI大陆行动计划:Gigafactories,Data Labs和Green AI欧洲的AI大陆行动计划:Gigafactories,Data Labs和Green AIApr 10, 2025 am 11:21 AM

欧洲雄心勃勃的AI大陆行动计划旨在将欧盟确立为人工智能的全球领导者。 一个关键要素是建立了AI Gigafactories网络,每个网络都有大约100,000个高级AI芯片 - 2倍的自动化合物的四倍

微软的直接代理商故事是否足以创造更多的粉丝?微软的直接代理商故事是否足以创造更多的粉丝?Apr 10, 2025 am 11:20 AM

微软对AI代理申请的统一方法:企业的明显胜利 微软最近公告的新AI代理能力清晰而统一的演讲给人留下了深刻的印象。 与许多技术公告陷入困境不同

向员工出售AI策略:Shopify首席执行官的宣言向员工出售AI策略:Shopify首席执行官的宣言Apr 10, 2025 am 11:19 AM

Shopify首席执行官TobiLütke最近的备忘录大胆地宣布AI对每位员工的基本期望是公司内部的重大文化转变。 这不是短暂的趋势。这是整合到P中的新操作范式

IBM启动具有完整AI集成的Z17大型机IBM启动具有完整AI集成的Z17大型机Apr 10, 2025 am 11:18 AM

IBM的Z17大型机:集成AI用于增强业务运营 上个月,在IBM的纽约总部,我收到了Z17功能的预览。 以Z16的成功为基础(于2022年推出并证明持续的收入增长

5 Chatgpt提示取决于别人并完全相信自己5 Chatgpt提示取决于别人并完全相信自己Apr 10, 2025 am 11:17 AM

解锁不可动摇的信心,消除了对外部验证的需求! 这五个CHATGPT提示将指导您完全自力更生和自我感知的变革转变。 只需复制,粘贴和自定义包围

AI与您的思想危险相似AI与您的思想危险相似Apr 10, 2025 am 11:16 AM

人工智能安全与研究公司 Anthropic 最近的一项[研究]开始揭示这些复杂过程的真相,展现出一种令人不安地与我们自身认知领域相似的复杂性。自然智能和人工智能可能比我们想象的更相似。 窥探内部:Anthropic 可解释性研究 Anthropic 进行的研究的新发现代表了机制可解释性领域的重大进展,该领域旨在反向工程 AI 的内部计算——不仅仅观察 AI 做了什么,而是理解它在人工神经元层面如何做到这一点。 想象一下,试图通过绘制当有人看到特定物体或思考特定想法时哪些神经元会放电来理解大脑。A

龙翼展示高通的边缘动力龙翼展示高通的边缘动力Apr 10, 2025 am 11:14 AM

高通的龙翼:企业和基础设施的战略飞跃 高通公司通过其新的Dragonwing品牌在全球范围内积极扩展其范围,以全球为目标。 这不仅仅是雷布兰

See all articles

热AI工具

Undresser.AI Undress

Undresser.AI Undress

人工智能驱动的应用程序,用于创建逼真的裸体照片

AI Clothes Remover

AI Clothes Remover

用于从照片中去除衣服的在线人工智能工具。

Undress AI Tool

Undress AI Tool

免费脱衣服图片

Clothoff.io

Clothoff.io

AI脱衣机

AI Hentai Generator

AI Hentai Generator

免费生成ai无尽的。

热门文章

R.E.P.O.能量晶体解释及其做什么(黄色晶体)
3 周前By尊渡假赌尊渡假赌尊渡假赌
R.E.P.O.最佳图形设置
3 周前By尊渡假赌尊渡假赌尊渡假赌
R.E.P.O.如果您听不到任何人,如何修复音频
3 周前By尊渡假赌尊渡假赌尊渡假赌
WWE 2K25:如何解锁Myrise中的所有内容
3 周前By尊渡假赌尊渡假赌尊渡假赌

热工具

WebStorm Mac版

WebStorm Mac版

好用的JavaScript开发工具

DVWA

DVWA

Damn Vulnerable Web App (DVWA) 是一个PHP/MySQL的Web应用程序,非常容易受到攻击。它的主要目标是成为安全专业人员在合法环境中测试自己的技能和工具的辅助工具,帮助Web开发人员更好地理解保护Web应用程序的过程,并帮助教师/学生在课堂环境中教授/学习Web应用程序安全。DVWA的目标是通过简单直接的界面练习一些最常见的Web漏洞,难度各不相同。请注意,该软件中

SublimeText3 Linux新版

SublimeText3 Linux新版

SublimeText3 Linux最新版

安全考试浏览器

安全考试浏览器

Safe Exam Browser是一个安全的浏览器环境,用于安全地进行在线考试。该软件将任何计算机变成一个安全的工作站。它控制对任何实用工具的访问,并防止学生使用未经授权的资源。

螳螂BT

螳螂BT

Mantis是一个易于部署的基于Web的缺陷跟踪工具,用于帮助产品缺陷跟踪。它需要PHP、MySQL和一个Web服务器。请查看我们的演示和托管服务。