search
HomeTechnology peripheralsAIECCV 2024|BlazeBVD, a general method for blind video de-flickering, is here, jointly proposed by Meitu and the National University of Science and Technology of China

ECCV 2024|盲视频去闪烁通用方法BlazeBVD来了,美图&国科大联合提出
The AIxiv column is a column where this site publishes academic and technical content. In the past few years, the AIxiv column of this site has received more than 2,000 reports, covering top laboratories from major universities and companies around the world, effectively promoting academic exchanges and dissemination. If you have excellent work that you want to share, please feel free to contribute or contact us for reporting. Submission email: liyazhou@jiqizhixin.com; zhaoyunfeng@jiqizhixin.com

In recent years, the short video ecosystem has rapidly emerged, and creative and editing tools around short videos are constantly emerging. Meitu’s professional Wink, a mobile video editing tool, takes the lead with its unique video quality restoration capabilities, and the number of users at home and abroad continues to rise.

Behind the popularity of Wink’s image quality repair function is Meitu’s insight into users’ video creation pain points such as blurry images, severe noise, and low image quality amid the accelerated release of demand for video editing applications. At the same time, it is also based on the powerful video restoration and video enhancement technology support of Meitu Imaging Research Institute (MT Lab). It has currently launched Image Quality Restoration - HD, Image Quality Restoration - Ultra HD, Image Quality Restoration - Portrait Enhancement, and Resolution. Rate improvement and other functions.

Recently, Meitu Imaging Research Institute (MT Lab) and the University of Chinese Academy of Sciences have proposed a new blind video deflickering (BVD) method based on STE, BlazeBVD, to deal with illumination flicker degradation. Unknown low-quality video, keeping the integrity of the original video content and color as much as possible, has been accepted by the top computer vision conference ECCV 2024.

ECCV 2024|盲视频去闪烁通用方法BlazeBVD来了,美图&国科大联合提出

  • 論文リンク: https://arxiv.org/pdf/2403.06243v1

BlazeBVD は、ビデオのちらつきが時間の一貫性に影響を与えやすいシナリオを目的としていますが、時間の一貫性は高品質であることが必要です。ビデオ出力の条件によっては、ビデオのちらつきが弱い場合でも、視聴体験に重大な影響を与える可能性があります。その原因は一般的に劣悪な撮影環境や撮影機材のハードウェア制限によって引き起こされますが、ビデオフレームに画像処理技術が適用されると、この問題はさらに悪化することがよくあります。さらに、敵対的生成ネットワーク (GAN) や拡散モデル (DM) に基づくものなど、最近のビデオ生成タスクでも、ちらつきアーティファクトや色の歪みの問題が頻繁に発生します。したがって、さまざまなビデオ処理シナリオでは、ビデオのちらつきを排除し、ビデオ コンテンツの整合性を維持するためにブラインド ビデオ デフリッカー (BVD) を検討することが重要です。

BVD タスクはビデオのちらつきの原因や程度に影響されず、現在主に古い映画の復元、高速カメラ撮影、色の歪み処理など幅広い応用が期待されています。 、などとビデオのフリッカー タイプ、フリッカーの程度とは関係のないタスク、およびビデオのフリッカー タイプや参照ビデオ入力などの追加のガイダンス情報を必要とせずに、単一のフリッカー ビデオを操作するだけでよいタスク。さらに、BVD は現在、従来のフィルタリング、強制時間的整合性、およびアトラス手法に主に焦点を当てています。そのため、深層学習手法は BVD タスクにおいて大幅な進歩を遂げていますが、事前知識の欠如により、アプリケーション レベルでは大きな妨げとなっています。 BVD は依然として多くの課題に直面しています。

BlazeBVD: ブラインド ビデオのフリッカー除去効果を効果的に改善します

古典的なフリッカー除去方法であるスケールタイム イコライゼーション (STE) からインスピレーションを得た BlazeBVD は、ヒストグラム支援ソリューションを導入しています。画像ヒストグラムは、ピクセル値の分布として定義され、任意のビデオに対して、ガウス フィルタリングを使用してヒストグラムを平滑化し、ヒストグラム イコライゼーションを使用して各画像を補正することができます。フレーム内のピクセル値を変更することで、ビデオの視覚的な安定性が向上します。 STE は一部の軽微なちらつきに対してのみ効果がありますが、次のことが検証されます。

  1. ヒストグラムはピクセル値よりもはるかにコンパクトで、光とちらつきの情報を適切に描写できます。
  2. ヒストグラムシーケンスの平滑化後のビデオには、視覚的に明らかなちらつきはありません。

したがって、STE とヒストグラムからの手がかりを利用して、ブラインド ビデオのちらつき除去の品質と速度を向上させることが可能です。

BlazeBVD は、これらのヒストグラムを平滑化することにより、特異なフレーム コレクション、フィルターされたライト マップ、および露出マスク マップを生成し、照明の変動や露出過多または露出不足が存在する場合でも、高速かつ安定したテクスチャ回復を実現します。以前のディープ ラーニング手法と比較して、BlazeBVD はヒストグラムを慎重に使用して BVD タスクの学習の複雑さを初めて軽減し、ビデオ データの学習の複雑さとリソース消費を簡素化します。その中心は、A フィルター処理を含む STE の前にフリッカーを使用することです。グローバルなフリッカーの除去をガイドするイルミネーション マップ、フリッカー フレーム インデックスを特定する単一フレーム セット、および露出過度や暗さによって局所的に影響を受ける領域を特定する露出マップです。

同時に、BlazeBVD はフリッカー事前分布を使用して、グローバル フリッカー除去モジュール (GFRM) とローカル フリッカー除去モジュール (LFRM) を組み合わせて、個々の隣接フレームのグローバル イルミネーションとローカル露出テクスチャを効果的に補正します。さらに、フレーム間の一貫性を高めるために、軽量タイミング ネットワーク (TCM) が統合されており、多くの時間を費やすことなくパフォーマンスが向上します。

ECCV 2024|盲视频去闪烁通用方法BlazeBVD来了,美图&国科大联合提出

️図 1: ブラインド ビデオのフリッカー除去タスクにおける BlazeBVD 手法と既存の手法の結果の比較
具体的には、BlazeBVD には 3 つのステージが含まれています:

まず、STE を導入します。照明空間内のビデオ フレームのヒストグラム シーケンスが修正され、特異なフレーム セット、フィルタリングされた照明マップ、および露出マップを含むフリッカ プリアが抽出されます。
  • 第 2 に、フィルタリングされたイルミネーション マップは安定した時間パフォーマンスを備えているため、ビデオ フレームの色補正をガイドする 2D ネットワークを含むグローバル フリッカー除去モジュール (GFRM) のキュー条件として使用されます。一方、ローカル フリッカー除去モジュール (LFRM) は、オプティカル フロー情報に基づいて、ローカル露出マップによってマークされた露出過度または暗いエリアを回復します。
  • 最後に、すべてのフレームを処理するために軽量テンポラル ネットワーク (TCM) が導入され、ビデオの一貫性を向上させるために適応型マスク重み付け損失が設計されています。
合成ビデオ、実際のビデオ、生成されたビデオに関する包括的な実験を通じて、BlazeBVD の優れた定性的および定量的結果を実証し、最先端のモデルよりも 10 倍速いモデル推論速度を達成しました。推論速度。

ECCV 2024|盲视频去闪烁通用方法BlazeBVD来了,美图&国科大联合提出

図 2: BlazeBVD のトレーニングと推論のプロセス

実験結果
多数の実験により、ブラインドビデオフラッシュタスクの一般的な方法であるBlazeBVDが、データセットや実際のデータセットに関する以前の研究よりも優れており、アブレーション実験でもBlazeBVDによって設計されたモジュールの有効性が検証されています。

ECCV 2024|盲视频去闪烁通用方法BlazeBVD来了,美图&国科大联合提出

図 3: ベースライン手法との視覚的な比較

ECCV 2024|盲视频去闪烁通用方法BlazeBVD来了,美图&国科大联合提出

図 4: アブレーション実験

ECCV 2024|盲视频去闪烁通用方法BlazeBVD来了,美图&国科大联合提出画像技術を使用して生産性を向上

これこの論文では、2D ネットワークを使用して、照明の変化やビデオの局所的な露出の問題によって影響を受ける低品質のフリッカーを修復する、ブラインド ビデオ フリッカー タスク用の一般的な方法 BlazeBVD を提案しています。その核心は、照明空間の STE フィルター内でフリッカー事前処理を前処理し、これらの事前処理をグローバル フリッカー除去モジュール (GFRM) およびローカル フリッカー除去モジュール (LFRM) と組み合わせて使用​​し、グローバル フリッカーとローカル露出テクスチャを補正することです。最後に、軽量テンポラル ネットワーク (TCM) を使用してビデオの一貫性とフレーム間の一貫性を向上させ、モデル推論で 10 倍の高速化も実現します。

中国のイメージングとデザイン分野の探求者として、Meitu は中核となる研究開発センター、Meitu Imaging Research Institute (MT Lab) として、便利で効率的な AI 機能をリリースし続け、革新的なサービスとエクスペリエンスをユーザーに提供します。今後も AI 機能を繰り返しアップグレードして、ビデオクリエイターに新しいビデオ作成方法を提供し、より広い世界を切り開いていきます。

The above is the detailed content of ECCV 2024|BlazeBVD, a general method for blind video de-flickering, is here, jointly proposed by Meitu and the National University of Science and Technology of China. For more information, please follow other related articles on the PHP Chinese website!

Statement
The content of this article is voluntarily contributed by netizens, and the copyright belongs to the original author. This site does not assume corresponding legal responsibility. If you find any content suspected of plagiarism or infringement, please contact admin@php.cn
4090生成器:与A100平台相比,token生成速度仅低于18%,上交推理引擎赢得热议4090生成器:与A100平台相比,token生成速度仅低于18%,上交推理引擎赢得热议Dec 21, 2023 pm 03:25 PM

PowerInfer提高了在消费级硬件上运行AI的效率上海交大团队最新推出了超强CPU/GPULLM高速推理引擎PowerInfer。PowerInfer和llama.cpp都在相同的硬件上运行,并充分利用了RTX4090上的VRAM。这个推理引擎速度有多快?在单个NVIDIARTX4090GPU上运行LLM,PowerInfer的平均token生成速率为13.20tokens/s,峰值为29.08tokens/s,仅比顶级服务器A100GPU低18%,可适用于各种LLM。PowerInfer与

思维链CoT进化成思维图GoT,比思维树更优秀的提示工程技术诞生了思维链CoT进化成思维图GoT,比思维树更优秀的提示工程技术诞生了Sep 05, 2023 pm 05:53 PM

要让大型语言模型(LLM)充分发挥其能力,有效的prompt设计方案是必不可少的,为此甚至出现了promptengineering(提示工程)这一新兴领域。在各种prompt设计方案中,思维链(CoT)凭借其强大的推理能力吸引了许多研究者和用户的眼球,基于其改进的CoT-SC以及更进一步的思维树(ToT)也收获了大量关注。近日,苏黎世联邦理工学院、Cledar和华沙理工大学的一个研究团队提出了更进一步的想法:思维图(GoT)。让思维从链到树到图,为LLM构建推理过程的能力不断得到提升,研究者也通

复旦NLP团队发布80页大模型Agent综述,一文纵览AI智能体的现状与未来复旦NLP团队发布80页大模型Agent综述,一文纵览AI智能体的现状与未来Sep 23, 2023 am 09:01 AM

近期,复旦大学自然语言处理团队(FudanNLP)推出LLM-basedAgents综述论文,全文长达86页,共有600余篇参考文献!作者们从AIAgent的历史出发,全面梳理了基于大型语言模型的智能代理现状,包括:LLM-basedAgent的背景、构成、应用场景、以及备受关注的代理社会。同时,作者们探讨了Agent相关的前瞻开放问题,对于相关领域的未来发展趋势具有重要价值。论文链接:https://arxiv.org/pdf/2309.07864.pdfLLM-basedAgent论文列表:

吞吐量提升5倍,联合设计后端系统和前端语言的LLM接口来了吞吐量提升5倍,联合设计后端系统和前端语言的LLM接口来了Mar 01, 2024 pm 10:55 PM

大型语言模型(LLM)被广泛应用于需要多个链式生成调用、高级提示技术、控制流以及与外部环境交互的复杂任务。尽管如此,目前用于编程和执行这些应用程序的高效系统却存在明显的不足之处。研究人员最近提出了一种新的结构化生成语言(StructuredGenerationLanguage),称为SGLang,旨在改进与LLM的交互性。通过整合后端运行时系统和前端语言的设计,SGLang使得LLM的性能更高、更易控制。这项研究也获得了机器学习领域的知名学者、CMU助理教授陈天奇的转发。总的来说,SGLang的

FATE 2.0发布:实现异构联邦学习系统互联FATE 2.0发布:实现异构联邦学习系统互联Jan 16, 2024 am 11:48 AM

FATE2.0全面升级,推动隐私计算联邦学习规模化应用FATE开源平台宣布发布FATE2.0版本,作为全球领先的联邦学习工业级开源框架。此次更新实现了联邦异构系统之间的互联互通,持续增强了隐私计算平台的互联互通能力。这一进展进一步推动了联邦学习与隐私计算规模化应用的发展。FATE2.0以全面互通为设计理念,采用开源方式对应用层、调度、通信、异构计算(算法)四个层面进行改造,实现了系统与系统、系统与算法、算法与算法之间异构互通的能力。FATE2.0的设计兼容了北京金融科技产业联盟的《金融业隐私计算

大模型也有小偷?为保护你的参数,上交大给大模型制作「人类可读指纹」大模型也有小偷?为保护你的参数,上交大给大模型制作「人类可读指纹」Feb 02, 2024 pm 09:33 PM

将不同的基模型象征为不同品种的狗,其中相同的「狗形指纹」表明它们源自同一个基模型。大模型的预训练需要耗费大量的计算资源和数据,因此预训练模型的参数成为各大机构重点保护的核心竞争力和资产。然而,与传统软件知识产权保护不同,对预训练模型参数盗用的判断存在以下两个新问题:1)预训练模型的参数,尤其是千亿级别模型的参数,通常不会开源。预训练模型的输出和参数会受到后续处理步骤(如SFT、RLHF、continuepretraining等)的影响,这使得判断一个模型是否基于另一个现有模型微调得来变得困难。无

220亿晶体管,IBM机器学习专用处理器NorthPole,能效25倍提升220亿晶体管,IBM机器学习专用处理器NorthPole,能效25倍提升Oct 23, 2023 pm 03:13 PM

IBM再度发力。随着AI系统的飞速发展,其能源需求也在不断增加。训练新系统需要大量的数据集和处理器时间,因此能耗极高。在某些情况下,执行一些训练好的系统,智能手机就能轻松胜任。但是,执行的次数太多,能耗也会增加。幸运的是,有很多方法可以降低后者的能耗。IBM和英特尔已经试验过模仿实际神经元行为设计的处理器。IBM还测试了在相变存储器中执行神经网络计算,以避免重复访问RAM。现在,IBM又推出了另一种方法。该公司的新型NorthPole处理器综合了上述方法的一些理念,并将其与一种非常精简的计算运行

何恺明和谢赛宁团队成功跟随解构扩散模型探索,最终创造出备受赞誉的去噪自编码器何恺明和谢赛宁团队成功跟随解构扩散模型探索,最终创造出备受赞誉的去噪自编码器Jan 29, 2024 pm 02:15 PM

去噪扩散模型(DDM)是目前广泛应用于图像生成的一种方法。最近,XinleiChen、ZhuangLiu、谢赛宁和何恺明四人团队对DDM进行了解构研究。通过逐步剥离其组件,他们发现DDM的生成能力逐渐下降,但表征学习能力仍然保持一定水平。这说明DDM中的某些组件对于表征学习的作用可能并不重要。针对当前计算机视觉等领域的生成模型,去噪被认为是一种核心方法。这类方法通常被称为去噪扩散模型(DDM),通过学习一个去噪自动编码器(DAE),能够通过扩散过程有效地消除多个层级的噪声。这些方法实现了出色的图

See all articles

Hot AI Tools

Undresser.AI Undress

Undresser.AI Undress

AI-powered app for creating realistic nude photos

AI Clothes Remover

AI Clothes Remover

Online AI tool for removing clothes from photos.

Undress AI Tool

Undress AI Tool

Undress images for free

Clothoff.io

Clothoff.io

AI clothes remover

AI Hentai Generator

AI Hentai Generator

Generate AI Hentai for free.

Hot Article

R.E.P.O. Energy Crystals Explained and What They Do (Yellow Crystal)
2 weeks agoBy尊渡假赌尊渡假赌尊渡假赌
Repo: How To Revive Teammates
4 weeks agoBy尊渡假赌尊渡假赌尊渡假赌
Hello Kitty Island Adventure: How To Get Giant Seeds
4 weeks agoBy尊渡假赌尊渡假赌尊渡假赌

Hot Tools

DVWA

DVWA

Damn Vulnerable Web App (DVWA) is a PHP/MySQL web application that is very vulnerable. Its main goals are to be an aid for security professionals to test their skills and tools in a legal environment, to help web developers better understand the process of securing web applications, and to help teachers/students teach/learn in a classroom environment Web application security. The goal of DVWA is to practice some of the most common web vulnerabilities through a simple and straightforward interface, with varying degrees of difficulty. Please note that this software

PhpStorm Mac version

PhpStorm Mac version

The latest (2018.2.1) professional PHP integrated development tool

SublimeText3 Mac version

SublimeText3 Mac version

God-level code editing software (SublimeText3)

MinGW - Minimalist GNU for Windows

MinGW - Minimalist GNU for Windows

This project is in the process of being migrated to osdn.net/projects/mingw, you can continue to follow us there. MinGW: A native Windows port of the GNU Compiler Collection (GCC), freely distributable import libraries and header files for building native Windows applications; includes extensions to the MSVC runtime to support C99 functionality. All MinGW software can run on 64-bit Windows platforms.

ZendStudio 13.5.1 Mac

ZendStudio 13.5.1 Mac

Powerful PHP integrated development environment