搜尋
首頁科技週邊人工智慧二次元專用超分AI模型APISR:線上可用,入選CVPR

動漫作品如《七龍珠》、《神奇寶貝》、《新世紀福音戰士》等上個世紀開播的動漫是許多人童年回憶的一部分,它們曾給我們帶來了充滿了熱血、友誼與夢想的視覺之旅。某些時候,我們會突然有重溫這些童年回憶的衝動,但我們可能會遺憾地發現這些童年回憶的辨識率非常低,根本無法在寬屏電視上創造出良好的視覺體驗,以至於阻礙我們與在高清解析度數位世界中成長的孩子分享這些童年回憶。

對於這種的惡性競爭(以及潛在的市場),一種做法是由動畫公司製作重製版。這項任務的人力和資金成本都不低,但可能比忽視此問題和失去市場份額更值得。

多模態人工智慧的表現日益強大,借用基於AI的超解析度技術來提升動漫解析度也成為了一個值得探索的方向。此技術能夠根據少量的低解析度影像重建出高解析度的影像,使得動漫畫面更加清晰、精細。這項方法透過訓練大量樣本數據,利用深度

近日,密歇根大學、耶魯大學和浙江大學的一個聯合團隊透過分析動漫的製作過程,為動漫超解析度任務創造出了一套相當實用的新方法。其中包括資料集、模型和一些改進措施。這項研究已被CVPR 2024會議接收。團隊也開源了相關程式碼,並在Huggingface上線了一個試用模型。

二次元專用超分AI模型APISR:線上可用,入選CVPR

  • 論文標題:APISR: Anime Production Inspired Real-World Anime Super-Resolution

  • 論文位址:https://arxiv.org/pdf/2403.01598.pdf

  • 程式碼位址:https://github.com/Kiteretsu77/APISR

  • #試用模型:https://huggingface.co/spaces/HikariDawn/APISR

下圖是本站用《七龍珠》第一集片頭截圖嘗試的結果,效果肉眼可見的好。

二次元專用超分AI模型APISR:線上可用,入選CVPR

另外也已經有人嘗試使用該技術來提升視訊分辨率,結果非常棒:

二次元專用超分AI模型APISR:線上可用,入選CVPR

# #動畫製作流程

為了了解這套新方法的創新之處,我們先來看看動漫一般是怎麼製作的。

首先,由人類在紙上繪出草圖,然後透過電腦影像產生(CGI)處理來進行上色和增強。然後,將這些經過處理的草圖連接起來,做成影片。

不過,由於繪圖這道工序非常耗費人力且人眼對運動並不敏感,因此在合成影片時,業界的標準做法是讓單張影像重複用於多個連續影格。

透過分析此流程,這個聯合團隊不禁開始懷疑是否有必要使用視訊模型和視訊資料集來訓練動漫超解析度模型:完全可以對影像執行超分辨率,然後再把這些影像連起來嘛!

於是他們決定使用基於影像的方法和資料集來打造一個適用於影像和影片的統一的超解析度和復原框架。

新提出的方法

針對動畫製作的圖像超解析度(API SR)資料集

該團隊提出了API SR 資料集,這裡簡單介紹一下其收集整理方法。此方法利用了動漫影片的特色(見圖 2),可以從影片中選出被壓縮最少且資訊最豐富的影格。

二次元專用超分AI模型APISR:線上可用,入選CVPR

基於 I 幀的影像收集:視訊壓縮涉及視訊品質和資料規模的權衡。而現在視訊壓縮的標準很多,每一種都有各自的複雜工程系統,但它們都有類似的主幹設計。

這些特點導致每一幀的壓縮品質是不一樣的。視訊壓縮過程會指定一些關鍵影格(即 I 幀)作為單一的壓縮單元。在實踐中,I 幀是場景變化時的第一幀。這些 I 幀可以佔據較大的資料量。而非 I 幀(即 P 幀和 B 幀)則有更高的壓縮率,它們在壓縮過程中需要以 I 幀為參照,引入隨時間的變化。如圖 3a 所示,在該團隊收集的動漫影片中,I 幀的資料大小一般都高於非 I 幀,且 I 幀的品質也確實更高。因此,該團隊使用視訊處理工具 ffmpeg 從視訊來源中提取出了所有 I 幀並將其作為初始資料池。

二次元專用超分AI模型APISR:線上可用,入選CVPR

基於影像複雜度進行選取:該團隊基於影像複雜度評估(ICA)對初始的 I 幀池進行了篩選,這是一個更適合動畫的指標,見圖 4。

二次元專用超分AI模型APISR:線上可用,入選CVPR

API 資料集:團隊手動收集了 562 段高品質動畫影片。然後基於上述兩步從每段影片收集了 10 個得分最高的幀。然後再進行了一番篩選,去除了不合適的影像,最終得到了一個包含 3740 張高品質影像的資料集。圖 5 展示了一些圖像範例。另外也能從圖 3b 看到 API 資料集在影像複雜度上的優勢。

二次元專用超分AI模型APISR:線上可用,入選CVPR

回到最初的 720P 解析度:透過研究動畫製作流程,可以看到大多數動漫製作都採用了 720P 的格式(即圖像高 720 像素)。但是,在真實世界場景中,為了實現多媒體格式的標準化,動漫往往會被錯誤地上調到 1080P 或其它格式。團隊透過實驗發現,將所有動漫影像的尺寸重新調整為原始的 720P 可以提供創作者設想的特徵密度,同時還有更緊湊的動漫手繪線條和 CGI​​ 資訊。

一個動畫的實用退化模型

在現實世界的超解析度任務中,退化模型(degradation model)的設計非常重要。基於高階退化模型和近期的一種基於影像的視訊壓縮恢復模型,該團隊提出了兩種改進方案,可以恢復扭曲的手繪線條和各種壓縮偽影,還能增強退化模型的表徵。圖 6a 展示了這個退化模型。

二次元專用超分AI模型APISR:線上可用,入選CVPR

以預測為導向的壓縮:對影片壓縮偽影的動畫復原任務而言,使用影像退化模型會構成難題。這是因為 JPEG 影像格式的壓縮方式和視訊壓縮方式的原理是不一樣的。

為了回應這樣的難題,團隊設計了一個在影像退化模型中使用的以預測為導向的壓縮模型。此模組需要視訊壓縮演算法來在壓縮單幀的輸入。

憑藉此方法,影像退化模型能夠合成類似於典型的多幀視訊壓縮中觀察到的壓縮偽影,如圖 7 所示。之後,透過將這些合成的影像輸入影像超解析度網絡,系統就能有效地學習各種壓縮偽影的模式並進行恢復。

二次元專用超分AI模型APISR:線上可用,入選CVPR

打亂大小調整模組的順序:真實世界超解析度領域的退化模型需要考慮模糊、大小調整、雜訊和壓縮模組。模糊、雜訊和壓縮是可以透過清楚的數學模型或演算法合成的真實世界偽影。但是,大小調整模組的邏輯全然不同。大小調整並不是自然影像生成的一部分,而是專門為超解析度的成對資料集引入的。因此,先前固定大小的大小調整模組並不非常合適。該團隊提出了一種更穩健和有效的解決方案,其中涉及在退化模型中以不同順序隨機放置大小調整操作。

增強動畫的手繪線條

該團隊的選擇是直接提取銳化過的手繪線條資訊並將其與基本真值(GT/ground-truth )融合,從而形成偽GT。透過將此專門針對性增強過的偽 GT​​ 引入到超解析度訓練過程中,網路無需引入額外的神經網路模組或單獨的後處理網路也能產生銳利的手繪線條。

為了更好地提取手繪線條,該團隊使用了 XDoG,這是一種基於逐像素高斯核的草圖提取演算法,可以提取銳化的 GT 的邊緣圖。

然而,XDoG 邊緣圖存在過多雜訊的問題,其中包含離群像素和破碎的線條表徵。為了解決這個問題,團隊提出了一種離群值過濾技術,也搭配了一種客製化設計的被動擴張方法。透過這種方式,可以得到更連貫且未擾亂的手繪線條表徵。

團隊透過實驗發現,過度銳利化的預處理GT 可以讓手繪線條邊緣比其它無關的陰影邊緣細節更容易注意到,這使得離群值過濾器可以更輕鬆地分辨它們的差異。為此,團隊提出首先為 GT 進行三輪去銳化遮罩操作。圖 8 給出了這個過程的簡單圖示。

二次元專用超分AI模型APISR:線上可用,入選CVPR

用於動畫的平衡雙感知損失

#另外還有出現多餘色彩偽影的問題,這主要是由於生成器和感知損失之間的訓練中資料域不一致。

為了解決這個問題以及彌補先前方法的不足,團隊的做法是使用一個預先訓練的 ResNet,其在 Danbooru 資料集上進行了動漫目標分類任務的訓練。 Danbooru 資料集是一個動漫插圖資料庫,包含大量且豐富的標註。由於這個預訓練網路是 ResNet50 而非 VGG,因此團隊也提出了類似的中間層比較。

但是,如果只使用基於ResNet 的損失,可能會出現視覺結果差的問題這是由Danbooru 數據集中的固有偏差導致的—— 該數據集中大部分圖像都是人物面部或相對簡單的插圖。因此,團隊權衡之下,決定使用真實世界特徵作為輔助來引導訓練過程中基於 ResNet 的感知損失。這種方法可得到視覺效果良好的影像,同時也能解決出現多餘顏色的問題。

實驗

實現細節

#實驗中,該團隊使用了新提出的API 資料集作為影像網路的訓練資料集。至於影像網絡,則是使用了 GRL 的一個微型版本,其中帶有最近卷積上採樣模組。

更多細節和參數請參考原論文。

與目前最佳方法比較

該團隊將新提出的APISR 與其它一些先進方法進行了定量與定性比較,包括Real-ESRGAN、BSRGAN、 RealBasicVSR、AnimeSR 和VQD-SR。

定量比較

如表1 所示,新模型的網路規模最小,參數量只有1.03M,但在所有指標上的表現超過了其它所有方法。

二次元專用超分AI模型APISR:線上可用,入選CVPR

該團隊尤其強調了以預測導向的壓縮模型的作用。

另外,還需指出,僅憑藉 AnimeSR 和 VQDSR 分別 13.3% 和 25% 的訓練樣本複雜度,新方法就達到了這樣的結果。這主要是因為資料集整理過程引入了影像複雜度評估,其能透過選取資訊豐富的影像來提高學習動漫影像表徵的效果。此外,由於新設計的顯式退化模型,退化模型方面就無需訓練了。

定性比較

如圖 10 所示,APISR 得到的視覺品質遠勝於其他方法。

二次元專用超分AI模型APISR:線上可用,入選CVPR

團隊也進行了消融研究,驗證了新資料集、退化模型和損失設計的有效性,詳見原始論文。

以上是二次元專用超分AI模型APISR:線上可用,入選CVPR的詳細內容。更多資訊請關注PHP中文網其他相關文章!

陳述
本文轉載於:机器之心。如有侵權,請聯絡admin@php.cn刪除
讓我們跳舞:結構化運動以微調我們的人類神經網讓我們跳舞:結構化運動以微調我們的人類神經網Apr 27, 2025 am 11:09 AM

科學家已經廣泛研究了人類和更簡單的神經網絡(如秀麗隱桿線蟲中的神經網絡),以了解其功能。 但是,出現了一個關鍵問題:我們如何使自己的神經網絡與新穎的AI一起有效地工作

新的Google洩漏揭示了雙子AI的訂閱更改新的Google洩漏揭示了雙子AI的訂閱更改Apr 27, 2025 am 11:08 AM

Google的雙子座高級:新的訂閱層即將到來 目前,訪問Gemini Advanced需要$ 19.99/月Google One AI高級計劃。 但是,Android Authority報告暗示了即將發生的變化。 最新的Google P中的代碼

數據分析加速度如何求解AI的隱藏瓶頸數據分析加速度如何求解AI的隱藏瓶頸Apr 27, 2025 am 11:07 AM

儘管圍繞高級AI功能炒作,但企業AI部署中潛伏的巨大挑戰:數據處理瓶頸。首席執行官慶祝AI的進步時,工程師努力應對緩慢的查詢時間,管道超載,一個

Markitdown MCP可以將任何文檔轉換為Markdowns!Markitdown MCP可以將任何文檔轉換為Markdowns!Apr 27, 2025 am 09:47 AM

處理文檔不再只是在您的AI項目中打開文件,而是將混亂變成清晰度。諸如PDF,PowerPoints和Word之類的文檔以各種形狀和大小淹沒了我們的工作流程。檢索結構化

如何使用Google ADK進行建築代理? - 分析Vidhya如何使用Google ADK進行建築代理? - 分析VidhyaApr 27, 2025 am 09:42 AM

利用Google的代理開發套件(ADK)的力量創建具有現實世界功能的智能代理!該教程通過使用ADK來構建對話代理,並支持Gemini和GPT等各種語言模型。 w

在LLM上使用SLM進行有效解決問題-Analytics Vidhya在LLM上使用SLM進行有效解決問題-Analytics VidhyaApr 27, 2025 am 09:27 AM

摘要: 小型語言模型 (SLM) 專為效率而設計。在資源匱乏、實時性和隱私敏感的環境中,它們比大型語言模型 (LLM) 更勝一籌。 最適合專注型任務,尤其是在領域特異性、控制性和可解釋性比通用知識或創造力更重要的情況下。 SLM 並非 LLMs 的替代品,但在精度、速度和成本效益至關重要時,它們是理想之選。 技術幫助我們用更少的資源取得更多成就。它一直是推動者,而非驅動者。從蒸汽機時代到互聯網泡沫時期,技術的威力在於它幫助我們解決問題的程度。人工智能 (AI) 以及最近的生成式 AI 也不例

如何將Google Gemini模型用於計算機視覺任務? - 分析Vidhya如何將Google Gemini模型用於計算機視覺任務? - 分析VidhyaApr 27, 2025 am 09:26 AM

利用Google雙子座的力量用於計算機視覺:綜合指南 領先的AI聊天機器人Google Gemini擴展了其功能,超越了對話,以涵蓋強大的計算機視覺功能。 本指南詳細說明瞭如何利用

Gemini 2.0 Flash vs O4-Mini:Google可以比OpenAI更好嗎?Gemini 2.0 Flash vs O4-Mini:Google可以比OpenAI更好嗎?Apr 27, 2025 am 09:20 AM

2025年的AI景觀正在充滿活力,而Google的Gemini 2.0 Flash和Openai的O4-Mini的到來。 這些尖端的車型分開了幾週,具有可比的高級功能和令人印象深刻的基準分數。這個深入的比較

See all articles

熱AI工具

Undresser.AI Undress

Undresser.AI Undress

人工智慧驅動的應用程序,用於創建逼真的裸體照片

AI Clothes Remover

AI Clothes Remover

用於從照片中去除衣服的線上人工智慧工具。

Undress AI Tool

Undress AI Tool

免費脫衣圖片

Clothoff.io

Clothoff.io

AI脫衣器

Video Face Swap

Video Face Swap

使用我們完全免費的人工智慧換臉工具,輕鬆在任何影片中換臉!

熱工具

SecLists

SecLists

SecLists是最終安全測試人員的伙伴。它是一個包含各種類型清單的集合,這些清單在安全評估過程中經常使用,而且都在一個地方。 SecLists透過方便地提供安全測試人員可能需要的所有列表,幫助提高安全測試的效率和生產力。清單類型包括使用者名稱、密碼、URL、模糊測試有效載荷、敏感資料模式、Web shell等等。測試人員只需將此儲存庫拉到新的測試機上,他就可以存取所需的每種類型的清單。

mPDF

mPDF

mPDF是一個PHP庫,可以從UTF-8編碼的HTML產生PDF檔案。原作者Ian Back編寫mPDF以從他的網站上「即時」輸出PDF文件,並處理不同的語言。與原始腳本如HTML2FPDF相比,它的速度較慢,並且在使用Unicode字體時產生的檔案較大,但支援CSS樣式等,並進行了大量增強。支援幾乎所有語言,包括RTL(阿拉伯語和希伯來語)和CJK(中日韓)。支援嵌套的區塊級元素(如P、DIV),

WebStorm Mac版

WebStorm Mac版

好用的JavaScript開發工具

SublimeText3 Mac版

SublimeText3 Mac版

神級程式碼編輯軟體(SublimeText3)

禪工作室 13.0.1

禪工作室 13.0.1

強大的PHP整合開發環境