搜尋
首頁科技週邊人工智慧「花果山名場面」有了高清畫質版,NTU提出影片超分框架Upscale-A-Video

擴散模型在影像生成方面取得了顯著成功,但將其應用於視訊超解析度仍存在挑戰。視訊超解析度要求輸出保真度和時間一致性,而擴散模型的固有隨機性使這變得複雜。因此,有效地將擴散模型應用於視訊超解析度仍是一個具有挑戰性的任務。

來自南洋理工大學 S-Lab 的研究團隊提出了一個名為Upscale-A-Video的文本指導潛在擴散框架,用於視訊超分。該框架透過兩個關鍵機制確保時間一致性。首先,在局部範圍內,它將時間層整合到U-Net和VAE-Decoder中,以保持短序列的一致性。其次,在全局範圍內,該框架引入了串流指導循環潛在傳播模組,無需訓練即可在整個序列中傳播和融合潛在,從而增強整體視訊的穩定性。這種框架的提出為視訊超分提供了一種新的解決方案,具有較好的時間一致性和整體穩定性。

「花果山名場面」有了高清畫質版,NTU提出影片超分框架Upscale-A-Video

論文地址:https://arxiv.org/abs/2312.06640

透過擴散範式,Upscale-A-Video 獲得了很大的靈活性。它允許使用文字 prompt 來指導紋理的創建,並且可以調節噪音水平,以在恢復和生成之間平衡保真度和品質。這項特性使得該技術在保持原始內容意義不變的同時,能夠微調細節,從而實現更精確的結果。

實驗結果表明,Upscale-A-Video在合成和現實世界基準上的表現超過了現有方法,呈現出令人印象深刻的視覺真實感和時間一致性。

我們先來看幾個具體例子,例如,借助Upscale-A-Video,「花果山名場面」有了高清畫質版:

「花果山名場面」有了高清畫質版,NTU提出影片超分框架Upscale-A-Video

比起StableSR,Upscale-A-Video 讓影片中的松鼠毛髮紋理清晰可見:

「花果山名場面」有了高清畫質版,NTU提出影片超分框架Upscale-A-Video

##方法簡介# #一些研究透過引入時間一致性策略來優化影像擴散模型以適應視訊任務。這些策略包括以下兩種方法:首先,透過時間層微調視訊模型,如3D卷積和時間注意力,來提升視訊處理效能。其次,使用零樣本機制,例如跨幀注意力和流指導注意力,來在預訓練模型中進行調整,以提高視訊任務的表現。這些方法的引入使得影像擴散模型能夠更好地處理視訊任務,從而提升視訊處理的效果。

儘管這些解決方案顯著提高了視訊穩定性,但仍存在兩個主要問題:

    目前在U-Net 特徵或潛在空間中運行的方法難以保持低階一致性,紋理閃爍等問題仍然存在。 
  • 現有的時間層和注意力機制只能對短的局部輸入序列施加約束,限制了它們確保較長視訊中全局時間一致性的能力。
  • 為了解決這些問題,Upscale-A-Video 採用局部-全域策略來維持視訊重建中的時間一致性,重點在於細粒度紋理和整體一致性。在局部視訊剪輯上,研究探索使用視訊資料上的附加時間層來微調預訓練影像 ×4 超分模型。

具體來說,在潛在擴散框架內,研究首先使用整合的3D 卷積和時間注意力層對U-Net 進行微調,然後使用視訊條件輸入和3D 卷積來調整VAE 解碼器。前者顯著實現了局部序列的結構穩定性,後者進一步提高了低階一致性,減少了紋理閃爍。在全局範圍內,該研究引入了一種新穎的、免訓練的流指導循環潛在傳播模組,在推理過程中雙向進行逐幀傳播和潛在融合,促進長視頻的整體穩定性。

Upscale-A-Video 模型可以利用文字 prompt 作為可選條件來指導模型產生更真實、更高品質的細節,如圖 1 所示。

「花果山名場面」有了高清畫質版,NTU提出影片超分框架Upscale-A-VideoUpscale-A-Video 將影片劃分為多個片段,並使用具有時間層的 U-Net 進行處理,以實現片段內的一致性。在使用者指定的全域細化擴散期間,使用循環潛在傳播模組來增強片段間的一致性。最後,經過微調的 VAE 解碼器可減少閃爍偽影,實現低階一致性。
「花果山名場面」有了高清畫質版,NTU提出影片超分框架Upscale-A-Video
「花果山名場面」有了高清畫質版,NTU提出影片超分框架Upscale-A-Video

实验结果

Upscale-A-Video 在现有基准上实现了SOTA性能,展现出卓越的视觉真实感和时间一致性。

定量评估。如表 1 所示,Upscale-A-Video在所有四个合成数据集中实现了最高的 PSNR,表明其具有出色的重建能力。

「花果山名場面」有了高清畫質版,NTU提出影片超分框架Upscale-A-Video

定性评估。该研究分别在图 4 和图 5 中展示了合成和真实世界视频的视觉结果。Upscale-A-Video 在伪影去除和细节生成方面都显著优于现有的 CNN 和基于扩散的方法。

「花果山名場面」有了高清畫質版,NTU提出影片超分框架Upscale-A-Video

「花果山名場面」有了高清畫質版,NTU提出影片超分框架Upscale-A-Video

以上是「花果山名場面」有了高清畫質版,NTU提出影片超分框架Upscale-A-Video的詳細內容。更多資訊請關注PHP中文網其他相關文章!

陳述
本文轉載於:机器之心。如有侵權,請聯絡admin@php.cn刪除
最新的最佳及時工程技術的年度彙編最新的最佳及時工程技術的年度彙編Apr 10, 2025 am 11:22 AM

對於那些可能是我專欄新手的人,我廣泛探討了AI的最新進展,包括體現AI,AI推理,AI中的高科技突破,及時的工程,AI培訓,AI,AI RE RE等主題

歐洲的AI大陸行動計劃:Gigafactories,Data Labs和Green AI歐洲的AI大陸行動計劃:Gigafactories,Data Labs和Green AIApr 10, 2025 am 11:21 AM

歐洲雄心勃勃的AI大陸行動計劃旨在將歐盟確立為人工智能的全球領導者。 一個關鍵要素是建立了AI Gigafactories網絡,每個網絡都有大約100,000個高級AI芯片 - 2倍的自動化合物的四倍

微軟的直接代理商故事是否足以創造更多的粉絲?微軟的直接代理商故事是否足以創造更多的粉絲?Apr 10, 2025 am 11:20 AM

微軟對AI代理申請的統一方法:企業的明顯勝利 微軟最近公告的新AI代理能力清晰而統一的演講給人留下了深刻的印象。 與許多技術公告陷入困境不同

向員工出售AI策略:Shopify首席執行官的宣言向員工出售AI策略:Shopify首席執行官的宣言Apr 10, 2025 am 11:19 AM

Shopify首席執行官TobiLütke最近的備忘錄大膽地宣布AI對每位員工的基本期望是公司內部的重大文化轉變。 這不是短暫的趨勢。這是整合到P中的新操作範式

IBM啟動具有完整AI集成的Z17大型機IBM啟動具有完整AI集成的Z17大型機Apr 10, 2025 am 11:18 AM

IBM的Z17大型機:集成AI用於增強業務運營 上個月,在IBM的紐約總部,我收到了Z17功能的預覽。 以Z16的成功為基礎(於2022年推出並證明持續的收入增長

5 Chatgpt提示取決於別人並完全相信自己5 Chatgpt提示取決於別人並完全相信自己Apr 10, 2025 am 11:17 AM

解鎖不可動搖的信心,消除了對外部驗證的需求! 這五個CHATGPT提示將指導您完全自力更生和自我感知的變革轉變。 只需複制,粘貼和自定義包圍

AI與您的思想危險相似AI與您的思想危險相似Apr 10, 2025 am 11:16 AM

人工智能安全與研究公司 Anthropic 最近的一項[研究]開始揭示這些複雜過程的真相,展現出一種令人不安地與我們自身認知領域相似的複雜性。自然智能和人工智能可能比我們想像的更相似。 窺探內部:Anthropic 可解釋性研究 Anthropic 進行的研究的新發現代表了機制可解釋性領域的重大進展,該領域旨在反向工程 AI 的內部計算——不僅僅觀察 AI 做了什麼,而是理解它在人工神經元層面如何做到這一點。 想像一下,試圖通過繪製當有人看到特定物體或思考特定想法時哪些神經元會放電來理解大腦。 A

龍翼展示高通的邊緣動力龍翼展示高通的邊緣動力Apr 10, 2025 am 11:14 AM

高通的龍翼:企業和基礎設施的戰略飛躍 高通公司通過其新的Dragonwing品牌在全球範圍內積極擴展其範圍,以全球為目標。 這不僅僅是雷布蘭

See all articles

熱AI工具

Undresser.AI Undress

Undresser.AI Undress

人工智慧驅動的應用程序,用於創建逼真的裸體照片

AI Clothes Remover

AI Clothes Remover

用於從照片中去除衣服的線上人工智慧工具。

Undress AI Tool

Undress AI Tool

免費脫衣圖片

Clothoff.io

Clothoff.io

AI脫衣器

AI Hentai Generator

AI Hentai Generator

免費產生 AI 無盡。

熱門文章

R.E.P.O.能量晶體解釋及其做什麼(黃色晶體)
3 週前By尊渡假赌尊渡假赌尊渡假赌
R.E.P.O.最佳圖形設置
3 週前By尊渡假赌尊渡假赌尊渡假赌
R.E.P.O.如果您聽不到任何人,如何修復音頻
3 週前By尊渡假赌尊渡假赌尊渡假赌
WWE 2K25:如何解鎖Myrise中的所有內容
3 週前By尊渡假赌尊渡假赌尊渡假赌

熱工具

mPDF

mPDF

mPDF是一個PHP庫,可以從UTF-8編碼的HTML產生PDF檔案。原作者Ian Back編寫mPDF以從他的網站上「即時」輸出PDF文件,並處理不同的語言。與原始腳本如HTML2FPDF相比,它的速度較慢,並且在使用Unicode字體時產生的檔案較大,但支援CSS樣式等,並進行了大量增強。支援幾乎所有語言,包括RTL(阿拉伯語和希伯來語)和CJK(中日韓)。支援嵌套的區塊級元素(如P、DIV),

SublimeText3 Linux新版

SublimeText3 Linux新版

SublimeText3 Linux最新版

MantisBT

MantisBT

Mantis是一個易於部署的基於Web的缺陷追蹤工具,用於幫助產品缺陷追蹤。它需要PHP、MySQL和一個Web伺服器。請查看我們的演示和託管服務。

SublimeText3漢化版

SublimeText3漢化版

中文版,非常好用

Safe Exam Browser

Safe Exam Browser

Safe Exam Browser是一個安全的瀏覽器環境,安全地進行線上考試。該軟體將任何電腦變成一個安全的工作站。它控制對任何實用工具的訪問,並防止學生使用未經授權的資源。