search
HomeTechnology peripheralsAIAPISR, a two-dimensional dedicated super-resolution AI model: available online, selected by CVPR

Animation works such as "Dragon Ball", "Pokémon", "Neon Genesis Evangelion" and other animations that were aired in the last century are part of many people's childhood memories. They have brought us full of passion, friendship and dreams. visual journey. At some point, we will suddenly have the urge to revisit these childhood memories, but we may regretfully find that the recognition rate of these childhood memories is very low, and it is impossible to create a good visual experience on a widescreen TV, so that it hinders us. Share these childhood memories with children growing up in a digital world with HD resolution.

For this kind of vicious competition (and potential market), one way is to have animation companies produce remakes. This task will be costly in both human and financial terms, but may be worth more than ignoring the problem and losing market share.

The performance of multi-modal artificial intelligence is becoming increasingly powerful, and using AI-based super-resolution technology to improve animation resolution has become a direction worth exploring. This technology can reconstruct high-resolution images from a small number of low-resolution images, making animation images clearer and more detailed. This method uses depth by training a large number of sample data. Recently, a joint team from the University of Michigan, Yale University and Zhejiang University created a set of tools for animation super-resolution tasks by analyzing the animation production process. A very practical new method. This includes datasets, models, and some improvements. This research has been accepted into the CVPR 2024 conference. The team also open sourced the relevant code and launched a trial model on Huggingface.

APISR, a two-dimensional dedicated super-resolution AI model: available online, selected by CVPR

    Paper title: APISR: Anime Production Inspired Real-World Anime Super-Resolution
  • Paper address :https://arxiv.org/pdf/2403.01598.pdf
  • Code address: https://github.com/Kiteretsu77/APISR
  • Trial model: https://huggingface.co/spaces/HikariDawn/APISR
  • The picture below is the result of this site’s attempt using the screenshot of the first episode of "Dragon Ball". The effect is visible to the naked eye. Visible good.

APISR, a two-dimensional dedicated super-resolution AI model: available online, selected by CVPR In addition, some people have tried to use this technology to improve video resolution, and the results are great:

APISR, a two-dimensional dedicated super-resolution AI model: available online, selected by CVPR

anime production process

In order to understand the innovation of this new method, let’s first take a look at how animation is generally produced.

First, a human sketches on paper, which is then colored and enhanced through computer generated image (CGI) processing. These processed sketches are then connected to create a video.

However, because the drawing process is very labor-intensive and the human eye is not sensitive to motion, when compositing videos, the industry standard practice is to reuse a single image for multiple consecutive frames.

By analyzing this process, the joint team couldn’t help but wonder whether it was necessary to use video models and video datasets to train animation super-resolution models: it is entirely possible to perform super-resolution on images and then concatenate these images. Get up!

So they decided to use image-based methods and data sets to create a unified super-resolution and restoration framework suitable for images and videos.

New proposed method

Image super-resolution (API SR) data set for animation production

The team The API SR data set is proposed, and its collection and organization method is briefly introduced here. This method takes advantage of the characteristics of animation videos (see Figure 2) and can select the least compressed and most informative frames from the video.

APISR, a two-dimensional dedicated super-resolution AI model: available online, selected by CVPRI-frame based image collection: Video compression involves a trade-off between video quality and data size. There are many video compression standards now, each with its own complex engineering system, but they all have a similar backbone design.

These characteristics cause the compression quality of each frame to be different. The video compression process designates a number of key frames (i.e., I-frames) as individual compression units. In practice, the I-frame is the first frame when the scene changes. These I-frames can occupy a large amount of data. Non-I frames (i.e. P frames and B frames) have higher compression rates, and they need to use the I frame as a reference during the compression process to introduce changes over time. As shown in Figure 3a, in the animation videos collected by the team, the data size of I frames is generally higher than that of non-I frames, and the quality of I frames is indeed higher. Therefore, the team used the video processing tool ffmpeg to extract all I-frames from the video source and use them as an initial data pool.

画像の複雑さに基づく選択: チームは、アニメーションにより適した指標である画像複雑性評価 (ICA) に基づいて初期 I フレーム プールをスクリーニングしました (図 4 を参照)。

APISR, a two-dimensional dedicated super-resolution AI model: available online, selected by CVPR

API データセット: チームは 562 個の高品質のアニメ ビデオを手動で収集しました。上記の 2 つの手順に基づいて、各ビデオから最高スコアの 10 フレームが収集されました。その後、不適切な画像を除去するためにいくつかのフィルタリングが実行され、最終的に 3740 枚の高品質画像を含むデータセットが取得されました。図 5 にいくつかの画像の例を示します。さらに、図 3b からは、画像の複雑さに関する API データ セットの利点もわかります。

APISR, a two-dimensional dedicated super-resolution AI model: available online, selected by CVPR

元の 720P 解像度に戻る: アニメーション制作プロセスを調査すると、ほとんどのアニメーション制作で 720P 形式が使用されていることがわかります (つまり、画像の高さは 720 ピクセルです) )。しかし、現実のシナリオでは、マルチメディア形式を標準化するために、アニメが誤って 1080P または他の形式にアップスケールされることがよくあります。チームは実験的に、すべてのアニメ画像のサイズをネイティブ 720P に変更すると、クリエイターが思い描いた機能密度が提供され、より緻密なアニメ手描きの線と CGI 情報が得られることを発見しました。

#アニメーション用の実用的な劣化モデル

現実世界の超解像タスクでは、劣化モデルの設計が非常に重要です。研究チームは、高次の劣化モデルと最近の画像ベースのビデオ圧縮回復モデルに基づいて、歪んだ手描きの線やさまざまな圧縮アーティファクトを復元し、劣化モデルの表現を強化できる 2 つの改善を提案しました。図 6a は、この劣化モデルを示しています。

APISR, a two-dimensional dedicated super-resolution AI model: available online, selected by CVPR

予測指向の圧縮: ビデオ圧縮アーティファクトのアニメーション復元タスクでは、画像劣化モデルを使用すると難しい問題が生じます。これは、JPEG画像形式の圧縮方式とビデオ圧縮の原理が異なるためです。

このような問題に対処するために、チームは画像劣化モデルで使用される予測指向の圧縮モデルを設計しました。このモジュールには、入力の単一フレームを圧縮するビデオ圧縮アルゴリズムが必要です。

このアプローチを使用すると、画像劣化モデルは、図 7 に示すように、一般的なマルチフレーム ビデオ圧縮で観察されるものと同様の圧縮アーティファクトを合成できます。次に、これらの合成画像を画像超解像度ネットワークに入力することで、システムはさまざまな圧縮アーティファクトのパターンを効果的に学習し、それらを回復できます。

APISR, a two-dimensional dedicated super-resolution AI model: available online, selected by CVPR

サイズ変更モジュールの順序を入れ替える: 現実世界の超解像度ドメインの縮退モデルでは、ぼかし、サイズ変更、ノイズ、および圧縮モジュールを考慮する必要があります。ブラー、ノイズ、圧縮は現実世界のアーティファクトであり、明確な数学的モデルまたはアルゴリズムを通じて合成できます。ただし、サイズ変更モジュールのロジックはまったく異なります。サイズ変更は自然な画像生成の一部ではありませんが、特にペアごとのデータセットの超解像度のために導入されています。したがって、以前の固定サイズ変更モジュールはあまり適していませんでした。チームは、縮退モデル内でサイズ変更操作を異なる順序でランダムに配置する、より堅牢で効率的なソリューションを提案しました。

アニメーション用に手描きの線を強化する

チームの選択は、鮮明になった手描きの線情報を直接抽出し、それをグラウンド トゥルース (GT/ground) と比較することです。 -truth ) を融合し、擬似 GT を形成します。この特別にターゲットを絞った強化された擬似 GT を超解像度トレーニング プロセスに導入することで、追加のニューラル ネットワーク モジュールや別個の後処理ネットワークを導入することなく、ネットワークは鮮明な手描きの線を生成できます。

手描きの線をより適切に抽出するために、チームは、GT のシャープなエッジ マップを抽出できる、ピクセル単位のガウス カーネルに基づくスケッチ抽出アルゴリズムである XDoG を使用しました。

ただし、XDoG エッジ マップには、異常値のピクセルや破線表現を含む過度のノイズが発生します。この問題を解決するために、チームは、カスタム設計のパッシブ拡張法と組み合わせた外れ値フィルタリング手法を提案しました。このようにして、手描きの線のより一貫性のある、乱れのない表現が得られます。

チームは、前処理された GT を過度にシャープ化すると、手描きの線のエッジが他の無関係なシャドウ エッジの詳細よりも目立つようになり、外れ値フィルターがそれらを区別しやすくなる可能性があることを実験的に発見しました。これを行うために、チームはまず GT 上で 3 ラウンドのデシャープニング マスキング操作を実行することを提案しました。図 8 は、このプロセスを簡単に示しています。

APISR, a two-dimensional dedicated super-resolution AI model: available online, selected by CVPR

アニメーション向けのバランスのとれたデュアル知覚損失

主にトレーニング内データが原因で、不要なカラー アーティファクトの問題もあります。ジェネレーターと知覚損失の間のドメインの不一致。

この問題を解決し、以前の方法の欠点を補うために、チームのアプローチは、Danbooru データ セットのアニメーション ターゲット分類タスクでトレーニングされた事前トレーニング済み ResNet を使用することでした。 Danbooru データセットは、大規模で豊富な注釈を含むアニメ イラスト データベースです。この事前トレーニング済みネットワークは VGG ではなく ResNet50 であるため、チームは同様の中間層の比較も提案しました。

ただし、ResNet ベースの損失のみを使用する場合は、視覚的な結果が不十分になる可能性があります。これは、Danbooru データセットに固有のバイアスが原因で発生します。このデータセット内のほとんどの画像は人間の顔か、比較的単純なものです。 .イラスト。したがって、チームは検討を加え、トレーニング中の ResNet ベースの知覚損失をガイドする補助として現実世界の特徴を使用することを決定しました。この方法により、視覚的に心地よい画像が得られると同時に、不要な色の問題も解決されます。

実験

実装の詳細

実験では、チームは新しく提案された API データ セットを画像ネットワークとして使用しました。トレーニングデータセット。画像ネットワークに関しては、GRL の小型バージョンが最も近い畳み込みアップサンプリング モジュールとともに使用されます。

詳細とパラメータについては、元の論文を参照してください。

現在の最良の方法との比較

チームは、新しく提案された APISR を、Real-ESRGAN、BSRGAN、RealBasicVSR、AnimeSR などの他の高度な方法と定量的および定性的に比較しました。そしてVQD-SR。

定量的比較

表 1 に示すように、新しいモデルのネットワーク サイズは最小であり、パラメーターは 103 万個のみですが、すべての指標でのパフォーマンスは他のすべてを上回っています。 。 方法。

APISR, a two-dimensional dedicated super-resolution AI model: available online, selected by CVPR

チームは、予測指向の圧縮モデルの役割を特に強調しました。

さらに、新しい方法では、AnimeSR と VQDSR のトレーニング サンプルの複雑さがそれぞれ 13.3% と 25% の場合にのみこのような結果が得られることを指摘しておく必要があります。これは主に、データセットの並べ替えプロセスに画像の複雑さ評価が導入されたことによるもので、情報が豊富な画像を選択することでアニメーション画像表現の学習効果を向上させることができます。さらに、新たに設計された明示的な劣化モデルにより、劣化モデル側のトレーニングは不要です。

定性的比較

図 10 に示すように、APISR によって得られる視覚的な品質は、他の方法よりもはるかに優れています。

APISR, a two-dimensional dedicated super-resolution AI model: available online, selected by CVPR

チームはまた、新しいデータセット、劣化モデル、損失設計の有効性を検証するためにアブレーション研究も実施しました。詳細については元の論文を参照してください。

The above is the detailed content of APISR, a two-dimensional dedicated super-resolution AI model: available online, selected by CVPR. For more information, please follow other related articles on the PHP Chinese website!

Statement
This article is reproduced at:机器之心. If there is any infringement, please contact admin@php.cn delete
4090生成器:与A100平台相比,token生成速度仅低于18%,上交推理引擎赢得热议4090生成器:与A100平台相比,token生成速度仅低于18%,上交推理引擎赢得热议Dec 21, 2023 pm 03:25 PM

PowerInfer提高了在消费级硬件上运行AI的效率上海交大团队最新推出了超强CPU/GPULLM高速推理引擎PowerInfer。PowerInfer和llama.cpp都在相同的硬件上运行,并充分利用了RTX4090上的VRAM。这个推理引擎速度有多快?在单个NVIDIARTX4090GPU上运行LLM,PowerInfer的平均token生成速率为13.20tokens/s,峰值为29.08tokens/s,仅比顶级服务器A100GPU低18%,可适用于各种LLM。PowerInfer与

思维链CoT进化成思维图GoT,比思维树更优秀的提示工程技术诞生了思维链CoT进化成思维图GoT,比思维树更优秀的提示工程技术诞生了Sep 05, 2023 pm 05:53 PM

要让大型语言模型(LLM)充分发挥其能力,有效的prompt设计方案是必不可少的,为此甚至出现了promptengineering(提示工程)这一新兴领域。在各种prompt设计方案中,思维链(CoT)凭借其强大的推理能力吸引了许多研究者和用户的眼球,基于其改进的CoT-SC以及更进一步的思维树(ToT)也收获了大量关注。近日,苏黎世联邦理工学院、Cledar和华沙理工大学的一个研究团队提出了更进一步的想法:思维图(GoT)。让思维从链到树到图,为LLM构建推理过程的能力不断得到提升,研究者也通

FATE 2.0发布:实现异构联邦学习系统互联FATE 2.0发布:实现异构联邦学习系统互联Jan 16, 2024 am 11:48 AM

FATE2.0全面升级,推动隐私计算联邦学习规模化应用FATE开源平台宣布发布FATE2.0版本,作为全球领先的联邦学习工业级开源框架。此次更新实现了联邦异构系统之间的互联互通,持续增强了隐私计算平台的互联互通能力。这一进展进一步推动了联邦学习与隐私计算规模化应用的发展。FATE2.0以全面互通为设计理念,采用开源方式对应用层、调度、通信、异构计算(算法)四个层面进行改造,实现了系统与系统、系统与算法、算法与算法之间异构互通的能力。FATE2.0的设计兼容了北京金融科技产业联盟的《金融业隐私计算

复旦NLP团队发布80页大模型Agent综述,一文纵览AI智能体的现状与未来复旦NLP团队发布80页大模型Agent综述,一文纵览AI智能体的现状与未来Sep 23, 2023 am 09:01 AM

近期,复旦大学自然语言处理团队(FudanNLP)推出LLM-basedAgents综述论文,全文长达86页,共有600余篇参考文献!作者们从AIAgent的历史出发,全面梳理了基于大型语言模型的智能代理现状,包括:LLM-basedAgent的背景、构成、应用场景、以及备受关注的代理社会。同时,作者们探讨了Agent相关的前瞻开放问题,对于相关领域的未来发展趋势具有重要价值。论文链接:https://arxiv.org/pdf/2309.07864.pdfLLM-basedAgent论文列表:

吞吐量提升5倍,联合设计后端系统和前端语言的LLM接口来了吞吐量提升5倍,联合设计后端系统和前端语言的LLM接口来了Mar 01, 2024 pm 10:55 PM

大型语言模型(LLM)被广泛应用于需要多个链式生成调用、高级提示技术、控制流以及与外部环境交互的复杂任务。尽管如此,目前用于编程和执行这些应用程序的高效系统却存在明显的不足之处。研究人员最近提出了一种新的结构化生成语言(StructuredGenerationLanguage),称为SGLang,旨在改进与LLM的交互性。通过整合后端运行时系统和前端语言的设计,SGLang使得LLM的性能更高、更易控制。这项研究也获得了机器学习领域的知名学者、CMU助理教授陈天奇的转发。总的来说,SGLang的

大模型也有小偷?为保护你的参数,上交大给大模型制作「人类可读指纹」大模型也有小偷?为保护你的参数,上交大给大模型制作「人类可读指纹」Feb 02, 2024 pm 09:33 PM

将不同的基模型象征为不同品种的狗,其中相同的「狗形指纹」表明它们源自同一个基模型。大模型的预训练需要耗费大量的计算资源和数据,因此预训练模型的参数成为各大机构重点保护的核心竞争力和资产。然而,与传统软件知识产权保护不同,对预训练模型参数盗用的判断存在以下两个新问题:1)预训练模型的参数,尤其是千亿级别模型的参数,通常不会开源。预训练模型的输出和参数会受到后续处理步骤(如SFT、RLHF、continuepretraining等)的影响,这使得判断一个模型是否基于另一个现有模型微调得来变得困难。无

220亿晶体管,IBM机器学习专用处理器NorthPole,能效25倍提升220亿晶体管,IBM机器学习专用处理器NorthPole,能效25倍提升Oct 23, 2023 pm 03:13 PM

IBM再度发力。随着AI系统的飞速发展,其能源需求也在不断增加。训练新系统需要大量的数据集和处理器时间,因此能耗极高。在某些情况下,执行一些训练好的系统,智能手机就能轻松胜任。但是,执行的次数太多,能耗也会增加。幸运的是,有很多方法可以降低后者的能耗。IBM和英特尔已经试验过模仿实际神经元行为设计的处理器。IBM还测试了在相变存储器中执行神经网络计算,以避免重复访问RAM。现在,IBM又推出了另一种方法。该公司的新型NorthPole处理器综合了上述方法的一些理念,并将其与一种非常精简的计算运行

14秒就能重建视频,还能变换角色,Meta让视频合成提速44倍14秒就能重建视频,还能变换角色,Meta让视频合成提速44倍Dec 27, 2023 pm 06:35 PM

Meta的视频合成新框架给我们带来了一些惊喜就今天的人工智能发展水平来说,文生图、图生视频、图像/视频风格迁移都已经不算什么难事。生成式AI天赋异禀,能够毫不费力地创建或修改内容。尤其是图像编辑,在以十亿规模数据集为基础预训练的文本到图像扩散模型的推动下,经历了重大发展。这股浪潮催生了大量图像编辑和内容创建应用。基于图像的生成模型所取得的成就基础上,下一个挑战的领域必然是为其增加「时间维度」,从而实现轻松而富有创意的视频编辑。一种直接策略是使用图像模型逐帧处理视频,然而,生成式图像编辑本身就具有

See all articles

Hot AI Tools

Undresser.AI Undress

Undresser.AI Undress

AI-powered app for creating realistic nude photos

AI Clothes Remover

AI Clothes Remover

Online AI tool for removing clothes from photos.

Undress AI Tool

Undress AI Tool

Undress images for free

Clothoff.io

Clothoff.io

AI clothes remover

AI Hentai Generator

AI Hentai Generator

Generate AI Hentai for free.

Hot Article

Repo: How To Revive Teammates
1 months agoBy尊渡假赌尊渡假赌尊渡假赌
R.E.P.O. Energy Crystals Explained and What They Do (Yellow Crystal)
2 weeks agoBy尊渡假赌尊渡假赌尊渡假赌
Hello Kitty Island Adventure: How To Get Giant Seeds
1 months agoBy尊渡假赌尊渡假赌尊渡假赌

Hot Tools

Dreamweaver Mac version

Dreamweaver Mac version

Visual web development tools

MantisBT

MantisBT

Mantis is an easy-to-deploy web-based defect tracking tool designed to aid in product defect tracking. It requires PHP, MySQL and a web server. Check out our demo and hosting services.

Notepad++7.3.1

Notepad++7.3.1

Easy-to-use and free code editor

SAP NetWeaver Server Adapter for Eclipse

SAP NetWeaver Server Adapter for Eclipse

Integrate Eclipse with SAP NetWeaver application server.

SublimeText3 Mac version

SublimeText3 Mac version

God-level code editing software (SublimeText3)