搜尋
首頁科技週邊人工智慧「花果山名場面」有了高清畫質版,NTU提出影片超分框架Upscale-A-Video

擴散模型在影像生成方面取得了顯著成功,但將其應用於視訊超解析度仍存在挑戰。視訊超解析度要求輸出保真度和時間一致性,而擴散模型的固有隨機性使這變得複雜。因此,有效地將擴散模型應用於視訊超解析度仍是一個具有挑戰性的任務。

來自南洋理工大學 S-Lab 的研究團隊提出了一個名為Upscale-A-Video的文本指導潛在擴散框架,用於視訊超分。該框架透過兩個關鍵機制確保時間一致性。首先,在局部範圍內,它將時間層整合到U-Net和VAE-Decoder中,以保持短序列的一致性。其次,在全局範圍內,該框架引入了串流指導循環潛在傳播模組,無需訓練即可在整個序列中傳播和融合潛在,從而增強整體視訊的穩定性。這種框架的提出為視訊超分提供了一種新的解決方案,具有較好的時間一致性和整體穩定性。

「花果山名場面」有了高清畫質版,NTU提出影片超分框架Upscale-A-Video

論文地址:https://arxiv.org/abs/2312.06640

透過擴散範式,Upscale-A-Video 獲得了很大的靈活性。它允許使用文字 prompt 來指導紋理的創建,並且可以調節噪音水平,以在恢復和生成之間平衡保真度和品質。這項特性使得該技術在保持原始內容意義不變的同時,能夠微調細節,從而實現更精確的結果。

實驗結果表明,Upscale-A-Video在合成和現實世界基準上的表現超過了現有方法,呈現出令人印象深刻的視覺真實感和時間一致性。

我們先來看幾個具體例子,例如,借助Upscale-A-Video,「花果山名場面」有了高清畫質版:

「花果山名場面」有了高清畫質版,NTU提出影片超分框架Upscale-A-Video

比起StableSR,Upscale-A-Video 讓影片中的松鼠毛髮紋理清晰可見:

「花果山名場面」有了高清畫質版,NTU提出影片超分框架Upscale-A-Video

##方法簡介# #一些研究透過引入時間一致性策略來優化影像擴散模型以適應視訊任務。這些策略包括以下兩種方法:首先,透過時間層微調視訊模型,如3D卷積和時間注意力,來提升視訊處理效能。其次,使用零樣本機制,例如跨幀注意力和流指導注意力,來在預訓練模型中進行調整,以提高視訊任務的表現。這些方法的引入使得影像擴散模型能夠更好地處理視訊任務,從而提升視訊處理的效果。

儘管這些解決方案顯著提高了視訊穩定性,但仍存在兩個主要問題:

    目前在U-Net 特徵或潛在空間中運行的方法難以保持低階一致性,紋理閃爍等問題仍然存在。 
  • 現有的時間層和注意力機制只能對短的局部輸入序列施加約束,限制了它們確保較長視訊中全局時間一致性的能力。
  • 為了解決這些問題,Upscale-A-Video 採用局部-全域策略來維持視訊重建中的時間一致性,重點在於細粒度紋理和整體一致性。在局部視訊剪輯上,研究探索使用視訊資料上的附加時間層來微調預訓練影像 ×4 超分模型。

具體來說,在潛在擴散框架內,研究首先使用整合的3D 卷積和時間注意力層對U-Net 進行微調,然後使用視訊條件輸入和3D 卷積來調整VAE 解碼器。前者顯著實現了局部序列的結構穩定性,後者進一步提高了低階一致性,減少了紋理閃爍。在全局範圍內,該研究引入了一種新穎的、免訓練的流指導循環潛在傳播模組,在推理過程中雙向進行逐幀傳播和潛在融合,促進長視頻的整體穩定性。

Upscale-A-Video 模型可以利用文字 prompt 作為可選條件來指導模型產生更真實、更高品質的細節,如圖 1 所示。

「花果山名場面」有了高清畫質版,NTU提出影片超分框架Upscale-A-VideoUpscale-A-Video 將影片劃分為多個片段,並使用具有時間層的 U-Net 進行處理,以實現片段內的一致性。在使用者指定的全域細化擴散期間,使用循環潛在傳播模組來增強片段間的一致性。最後,經過微調的 VAE 解碼器可減少閃爍偽影,實現低階一致性。
「花果山名場面」有了高清畫質版,NTU提出影片超分框架Upscale-A-Video
「花果山名場面」有了高清畫質版,NTU提出影片超分框架Upscale-A-Video

实验结果

Upscale-A-Video 在现有基准上实现了SOTA性能,展现出卓越的视觉真实感和时间一致性。

定量评估。如表 1 所示,Upscale-A-Video在所有四个合成数据集中实现了最高的 PSNR,表明其具有出色的重建能力。

「花果山名場面」有了高清畫質版,NTU提出影片超分框架Upscale-A-Video

定性评估。该研究分别在图 4 和图 5 中展示了合成和真实世界视频的视觉结果。Upscale-A-Video 在伪影去除和细节生成方面都显著优于现有的 CNN 和基于扩散的方法。

「花果山名場面」有了高清畫質版,NTU提出影片超分框架Upscale-A-Video

「花果山名場面」有了高清畫質版,NTU提出影片超分框架Upscale-A-Video

以上是「花果山名場面」有了高清畫質版,NTU提出影片超分框架Upscale-A-Video的詳細內容。更多資訊請關注PHP中文網其他相關文章!

陳述
本文轉載於:机器之心。如有侵權,請聯絡admin@php.cn刪除
4090生成器:与A100平台相比,token生成速度仅低于18%,上交推理引擎赢得热议4090生成器:与A100平台相比,token生成速度仅低于18%,上交推理引擎赢得热议Dec 21, 2023 pm 03:25 PM

PowerInfer提高了在消费级硬件上运行AI的效率上海交大团队最新推出了超强CPU/GPULLM高速推理引擎PowerInfer。PowerInfer和llama.cpp都在相同的硬件上运行,并充分利用了RTX4090上的VRAM。这个推理引擎速度有多快?在单个NVIDIARTX4090GPU上运行LLM,PowerInfer的平均token生成速率为13.20tokens/s,峰值为29.08tokens/s,仅比顶级服务器A100GPU低18%,可适用于各种LLM。PowerInfer与

思维链CoT进化成思维图GoT,比思维树更优秀的提示工程技术诞生了思维链CoT进化成思维图GoT,比思维树更优秀的提示工程技术诞生了Sep 05, 2023 pm 05:53 PM

要让大型语言模型(LLM)充分发挥其能力,有效的prompt设计方案是必不可少的,为此甚至出现了promptengineering(提示工程)这一新兴领域。在各种prompt设计方案中,思维链(CoT)凭借其强大的推理能力吸引了许多研究者和用户的眼球,基于其改进的CoT-SC以及更进一步的思维树(ToT)也收获了大量关注。近日,苏黎世联邦理工学院、Cledar和华沙理工大学的一个研究团队提出了更进一步的想法:思维图(GoT)。让思维从链到树到图,为LLM构建推理过程的能力不断得到提升,研究者也通

复旦NLP团队发布80页大模型Agent综述,一文纵览AI智能体的现状与未来复旦NLP团队发布80页大模型Agent综述,一文纵览AI智能体的现状与未来Sep 23, 2023 am 09:01 AM

近期,复旦大学自然语言处理团队(FudanNLP)推出LLM-basedAgents综述论文,全文长达86页,共有600余篇参考文献!作者们从AIAgent的历史出发,全面梳理了基于大型语言模型的智能代理现状,包括:LLM-basedAgent的背景、构成、应用场景、以及备受关注的代理社会。同时,作者们探讨了Agent相关的前瞻开放问题,对于相关领域的未来发展趋势具有重要价值。论文链接:https://arxiv.org/pdf/2309.07864.pdfLLM-basedAgent论文列表:

吞吐量提升5倍,联合设计后端系统和前端语言的LLM接口来了吞吐量提升5倍,联合设计后端系统和前端语言的LLM接口来了Mar 01, 2024 pm 10:55 PM

大型语言模型(LLM)被广泛应用于需要多个链式生成调用、高级提示技术、控制流以及与外部环境交互的复杂任务。尽管如此,目前用于编程和执行这些应用程序的高效系统却存在明显的不足之处。研究人员最近提出了一种新的结构化生成语言(StructuredGenerationLanguage),称为SGLang,旨在改进与LLM的交互性。通过整合后端运行时系统和前端语言的设计,SGLang使得LLM的性能更高、更易控制。这项研究也获得了机器学习领域的知名学者、CMU助理教授陈天奇的转发。总的来说,SGLang的

大模型也有小偷?为保护你的参数,上交大给大模型制作「人类可读指纹」大模型也有小偷?为保护你的参数,上交大给大模型制作「人类可读指纹」Feb 02, 2024 pm 09:33 PM

将不同的基模型象征为不同品种的狗,其中相同的「狗形指纹」表明它们源自同一个基模型。大模型的预训练需要耗费大量的计算资源和数据,因此预训练模型的参数成为各大机构重点保护的核心竞争力和资产。然而,与传统软件知识产权保护不同,对预训练模型参数盗用的判断存在以下两个新问题:1)预训练模型的参数,尤其是千亿级别模型的参数,通常不会开源。预训练模型的输出和参数会受到后续处理步骤(如SFT、RLHF、continuepretraining等)的影响,这使得判断一个模型是否基于另一个现有模型微调得来变得困难。无

FATE 2.0发布:实现异构联邦学习系统互联FATE 2.0发布:实现异构联邦学习系统互联Jan 16, 2024 am 11:48 AM

FATE2.0全面升级,推动隐私计算联邦学习规模化应用FATE开源平台宣布发布FATE2.0版本,作为全球领先的联邦学习工业级开源框架。此次更新实现了联邦异构系统之间的互联互通,持续增强了隐私计算平台的互联互通能力。这一进展进一步推动了联邦学习与隐私计算规模化应用的发展。FATE2.0以全面互通为设计理念,采用开源方式对应用层、调度、通信、异构计算(算法)四个层面进行改造,实现了系统与系统、系统与算法、算法与算法之间异构互通的能力。FATE2.0的设计兼容了北京金融科技产业联盟的《金融业隐私计算

220亿晶体管,IBM机器学习专用处理器NorthPole,能效25倍提升220亿晶体管,IBM机器学习专用处理器NorthPole,能效25倍提升Oct 23, 2023 pm 03:13 PM

IBM再度发力。随着AI系统的飞速发展,其能源需求也在不断增加。训练新系统需要大量的数据集和处理器时间,因此能耗极高。在某些情况下,执行一些训练好的系统,智能手机就能轻松胜任。但是,执行的次数太多,能耗也会增加。幸运的是,有很多方法可以降低后者的能耗。IBM和英特尔已经试验过模仿实际神经元行为设计的处理器。IBM还测试了在相变存储器中执行神经网络计算,以避免重复访问RAM。现在,IBM又推出了另一种方法。该公司的新型NorthPole处理器综合了上述方法的一些理念,并将其与一种非常精简的计算运行

制作莫比乌斯环,最少需要多长纸带?50年来的谜题被解开了制作莫比乌斯环,最少需要多长纸带?50年来的谜题被解开了Oct 07, 2023 pm 06:17 PM

自己动手做过莫比乌斯带吗?莫比乌斯带是一种奇特的数学结构。要构造一个这样美丽的单面曲面其实非常简单,即使是小孩子也可以轻松完成。你只需要取一张纸带,扭曲一次,然后将两端粘在一起。然而,这样容易制作的莫比乌斯带却有着复杂的性质,长期吸引着数学家们的兴趣。最近,研究人员一直被一个看似简单的问题困扰着,那就是关于制作莫比乌斯带所需纸带的最短长度?布朗大学RichardEvanSchwartz谈到,对于莫比乌斯带来说,这个问题没有解决,因为它们是「嵌入的」而不是「浸入的」,这意味着它们不会相互渗透或自我

See all articles

熱AI工具

Undresser.AI Undress

Undresser.AI Undress

人工智慧驅動的應用程序,用於創建逼真的裸體照片

AI Clothes Remover

AI Clothes Remover

用於從照片中去除衣服的線上人工智慧工具。

Undress AI Tool

Undress AI Tool

免費脫衣圖片

Clothoff.io

Clothoff.io

AI脫衣器

AI Hentai Generator

AI Hentai Generator

免費產生 AI 無盡。

熱門文章

R.E.P.O.能量晶體解釋及其做什麼(黃色晶體)
3 週前By尊渡假赌尊渡假赌尊渡假赌
R.E.P.O.最佳圖形設置
3 週前By尊渡假赌尊渡假赌尊渡假赌
R.E.P.O.如果您聽不到任何人,如何修復音頻
3 週前By尊渡假赌尊渡假赌尊渡假赌
WWE 2K25:如何解鎖Myrise中的所有內容
3 週前By尊渡假赌尊渡假赌尊渡假赌

熱工具

SecLists

SecLists

SecLists是最終安全測試人員的伙伴。它是一個包含各種類型清單的集合,這些清單在安全評估過程中經常使用,而且都在一個地方。 SecLists透過方便地提供安全測試人員可能需要的所有列表,幫助提高安全測試的效率和生產力。清單類型包括使用者名稱、密碼、URL、模糊測試有效載荷、敏感資料模式、Web shell等等。測試人員只需將此儲存庫拉到新的測試機上,他就可以存取所需的每種類型的清單。

記事本++7.3.1

記事本++7.3.1

好用且免費的程式碼編輯器

Dreamweaver CS6

Dreamweaver CS6

視覺化網頁開發工具

Atom編輯器mac版下載

Atom編輯器mac版下載

最受歡迎的的開源編輯器

SublimeText3漢化版

SublimeText3漢化版

中文版,非常好用