動漫作品如《七龍珠》、《神奇寶貝》、《新世紀福音戰士》等上個世紀開播的動漫是許多人童年回憶的一部分,它們曾給我們帶來了充滿了熱血、友誼與夢想的視覺之旅。某些時候,我們會突然有重溫這些童年回憶的衝動,但我們可能會遺憾地發現這些童年回憶的辨識率非常低,根本無法在寬屏電視上創造出良好的視覺體驗,以至於阻礙我們與在高清解析度數位世界中成長的孩子分享這些童年回憶。
對於這種的惡性競爭(以及潛在的市場),一種做法是由動畫公司製作重製版。這項任務的人力和資金成本都不低,但可能比忽視此問題和失去市場份額更值得。
多模態人工智慧的表現日益強大,借用基於AI的超解析度技術來提升動漫解析度也成為了一個值得探索的方向。此技術能夠根據少量的低解析度影像重建出高解析度的影像,使得動漫畫面更加清晰、精細。這項方法透過訓練大量樣本數據,利用深度
近日,密歇根大學、耶魯大學和浙江大學的一個聯合團隊透過分析動漫的製作過程,為動漫超解析度任務創造出了一套相當實用的新方法。其中包括資料集、模型和一些改進措施。這項研究已被CVPR 2024會議接收。團隊也開源了相關程式碼,並在Huggingface上線了一個試用模型。
論文標題:APISR: Anime Production Inspired Real-World Anime Super-Resolution
論文位址:https://arxiv.org/pdf/2403.01598.pdf
程式碼位址:https://github.com/Kiteretsu77/APISR
#試用模型:https://huggingface.co/spaces/HikariDawn/APISR
下圖是本站用《七龍珠》第一集片頭截圖嘗試的結果,效果肉眼可見的好。
另外也已經有人嘗試使用該技術來提升視訊分辨率,結果非常棒:
# #動畫製作流程
為了了解這套新方法的創新之處,我們先來看看動漫一般是怎麼製作的。 首先,由人類在紙上繪出草圖,然後透過電腦影像產生(CGI)處理來進行上色和增強。然後,將這些經過處理的草圖連接起來,做成影片。 不過,由於繪圖這道工序非常耗費人力且人眼對運動並不敏感,因此在合成影片時,業界的標準做法是讓單張影像重複用於多個連續影格。 透過分析此流程,這個聯合團隊不禁開始懷疑是否有必要使用視訊模型和視訊資料集來訓練動漫超解析度模型:完全可以對影像執行超分辨率,然後再把這些影像連起來嘛! 於是他們決定使用基於影像的方法和資料集來打造一個適用於影像和影片的統一的超解析度和復原框架。新提出的方法
針對動畫製作的圖像超解析度(API SR)資料集
該團隊提出了API SR 資料集,這裡簡單介紹一下其收集整理方法。此方法利用了動漫影片的特色(見圖 2),可以從影片中選出被壓縮最少且資訊最豐富的影格。 基於 I 幀的影像收集:視訊壓縮涉及視訊品質和資料規模的權衡。而現在視訊壓縮的標準很多,每一種都有各自的複雜工程系統,但它們都有類似的主幹設計。 這些特點導致每一幀的壓縮品質是不一樣的。視訊壓縮過程會指定一些關鍵影格(即 I 幀)作為單一的壓縮單元。在實踐中,I 幀是場景變化時的第一幀。這些 I 幀可以佔據較大的資料量。而非 I 幀(即 P 幀和 B 幀)則有更高的壓縮率,它們在壓縮過程中需要以 I 幀為參照,引入隨時間的變化。如圖 3a 所示,在該團隊收集的動漫影片中,I 幀的資料大小一般都高於非 I 幀,且 I 幀的品質也確實更高。因此,該團隊使用視訊處理工具 ffmpeg 從視訊來源中提取出了所有 I 幀並將其作為初始資料池。基於影像複雜度進行選取:該團隊基於影像複雜度評估(ICA)對初始的 I 幀池進行了篩選,這是一個更適合動畫的指標,見圖 4。
API 資料集:團隊手動收集了 562 段高品質動畫影片。然後基於上述兩步從每段影片收集了 10 個得分最高的幀。然後再進行了一番篩選,去除了不合適的影像,最終得到了一個包含 3740 張高品質影像的資料集。圖 5 展示了一些圖像範例。另外也能從圖 3b 看到 API 資料集在影像複雜度上的優勢。
回到最初的 720P 解析度:透過研究動畫製作流程,可以看到大多數動漫製作都採用了 720P 的格式(即圖像高 720 像素)。但是,在真實世界場景中,為了實現多媒體格式的標準化,動漫往往會被錯誤地上調到 1080P 或其它格式。團隊透過實驗發現,將所有動漫影像的尺寸重新調整為原始的 720P 可以提供創作者設想的特徵密度,同時還有更緊湊的動漫手繪線條和 CGI 資訊。
一個動畫的實用退化模型
在現實世界的超解析度任務中,退化模型(degradation model)的設計非常重要。基於高階退化模型和近期的一種基於影像的視訊壓縮恢復模型,該團隊提出了兩種改進方案,可以恢復扭曲的手繪線條和各種壓縮偽影,還能增強退化模型的表徵。圖 6a 展示了這個退化模型。
以預測為導向的壓縮:對影片壓縮偽影的動畫復原任務而言,使用影像退化模型會構成難題。這是因為 JPEG 影像格式的壓縮方式和視訊壓縮方式的原理是不一樣的。
為了回應這樣的難題,團隊設計了一個在影像退化模型中使用的以預測為導向的壓縮模型。此模組需要視訊壓縮演算法來在壓縮單幀的輸入。
憑藉此方法,影像退化模型能夠合成類似於典型的多幀視訊壓縮中觀察到的壓縮偽影,如圖 7 所示。之後,透過將這些合成的影像輸入影像超解析度網絡,系統就能有效地學習各種壓縮偽影的模式並進行恢復。
打亂大小調整模組的順序:真實世界超解析度領域的退化模型需要考慮模糊、大小調整、雜訊和壓縮模組。模糊、雜訊和壓縮是可以透過清楚的數學模型或演算法合成的真實世界偽影。但是,大小調整模組的邏輯全然不同。大小調整並不是自然影像生成的一部分,而是專門為超解析度的成對資料集引入的。因此,先前固定大小的大小調整模組並不非常合適。該團隊提出了一種更穩健和有效的解決方案,其中涉及在退化模型中以不同順序隨機放置大小調整操作。
增強動畫的手繪線條
該團隊的選擇是直接提取銳化過的手繪線條資訊並將其與基本真值(GT/ground-truth )融合,從而形成偽GT。透過將此專門針對性增強過的偽 GT 引入到超解析度訓練過程中,網路無需引入額外的神經網路模組或單獨的後處理網路也能產生銳利的手繪線條。
為了更好地提取手繪線條,該團隊使用了 XDoG,這是一種基於逐像素高斯核的草圖提取演算法,可以提取銳化的 GT 的邊緣圖。
然而,XDoG 邊緣圖存在過多雜訊的問題,其中包含離群像素和破碎的線條表徵。為了解決這個問題,團隊提出了一種離群值過濾技術,也搭配了一種客製化設計的被動擴張方法。透過這種方式,可以得到更連貫且未擾亂的手繪線條表徵。
團隊透過實驗發現,過度銳利化的預處理GT 可以讓手繪線條邊緣比其它無關的陰影邊緣細節更容易注意到,這使得離群值過濾器可以更輕鬆地分辨它們的差異。為此,團隊提出首先為 GT 進行三輪去銳化遮罩操作。圖 8 給出了這個過程的簡單圖示。
用於動畫的平衡雙感知損失
#另外還有出現多餘色彩偽影的問題,這主要是由於生成器和感知損失之間的訓練中資料域不一致。
為了解決這個問題以及彌補先前方法的不足,團隊的做法是使用一個預先訓練的 ResNet,其在 Danbooru 資料集上進行了動漫目標分類任務的訓練。 Danbooru 資料集是一個動漫插圖資料庫,包含大量且豐富的標註。由於這個預訓練網路是 ResNet50 而非 VGG,因此團隊也提出了類似的中間層比較。
但是,如果只使用基於ResNet 的損失,可能會出現視覺結果差的問題這是由Danbooru 數據集中的固有偏差導致的—— 該數據集中大部分圖像都是人物面部或相對簡單的插圖。因此,團隊權衡之下,決定使用真實世界特徵作為輔助來引導訓練過程中基於 ResNet 的感知損失。這種方法可得到視覺效果良好的影像,同時也能解決出現多餘顏色的問題。
實驗
實現細節
#實驗中,該團隊使用了新提出的API 資料集作為影像網路的訓練資料集。至於影像網絡,則是使用了 GRL 的一個微型版本,其中帶有最近卷積上採樣模組。
更多細節和參數請參考原論文。
與目前最佳方法比較
該團隊將新提出的APISR 與其它一些先進方法進行了定量與定性比較,包括Real-ESRGAN、BSRGAN、 RealBasicVSR、AnimeSR 和VQD-SR。
定量比較
如表1 所示,新模型的網路規模最小,參數量只有1.03M,但在所有指標上的表現超過了其它所有方法。
該團隊尤其強調了以預測導向的壓縮模型的作用。
另外,還需指出,僅憑藉 AnimeSR 和 VQDSR 分別 13.3% 和 25% 的訓練樣本複雜度,新方法就達到了這樣的結果。這主要是因為資料集整理過程引入了影像複雜度評估,其能透過選取資訊豐富的影像來提高學習動漫影像表徵的效果。此外,由於新設計的顯式退化模型,退化模型方面就無需訓練了。
定性比較
如圖 10 所示,APISR 得到的視覺品質遠勝於其他方法。
團隊也進行了消融研究,驗證了新資料集、退化模型和損失設計的有效性,詳見原始論文。
以上是二次元專用超分AI模型APISR:線上可用,入選CVPR的詳細內容。更多資訊請關注PHP中文網其他相關文章!