動漫作品如《七龍珠》、《神奇寶貝》、《新世紀福音戰士》等上個世紀開播的動漫是許多人童年回憶的一部分,它們曾給我們帶來了充滿了熱血、友誼與夢想的視覺之旅。某些時候,我們會突然有重溫這些童年回憶的衝動,但我們可能會遺憾地發現這些童年回憶的辨識率非常低,根本無法在寬屏電視上創造出良好的視覺體驗,以至於阻礙我們與在高清解析度數位世界中成長的孩子分享這些童年回憶。
對於這種的惡性競爭(以及潛在的市場),一種做法是由動畫公司製作重製版。這項任務的人力和資金成本都不低,但可能比忽視此問題和失去市場份額更值得。
多模態人工智慧的表現日益強大,借用基於AI的超解析度技術來提升動漫解析度也成為了一個值得探索的方向。此技術能夠根據少量的低解析度影像重建出高解析度的影像,使得動漫畫面更加清晰、精細。這項方法透過訓練大量樣本數據,利用深度
近日,密歇根大學、耶魯大學和浙江大學的一個聯合團隊透過分析動漫的製作過程,為動漫超解析度任務創造出了一套相當實用的新方法。其中包括資料集、模型和一些改進措施。這項研究已被CVPR 2024會議接收。團隊也開源了相關程式碼,並在Huggingface上線了一個試用模型。
論文標題:APISR: Anime Production Inspired Real-World Anime Super-Resolution
論文位址:https://arxiv.org/pdf/2403.01598.pdf
程式碼位址:https://github.com/Kiteretsu77/APISR
#試用模型:https://huggingface.co/spaces/HikariDawn/APISR
下圖是本站用《七龍珠》第一集片頭截圖嘗試的結果,效果肉眼可見的好。
另外也已經有人嘗試使用該技術來提升視訊分辨率,結果非常棒:
# #動畫製作流程
為了了解這套新方法的創新之處,我們先來看看動漫一般是怎麼製作的。 首先,由人類在紙上繪出草圖,然後透過電腦影像產生(CGI)處理來進行上色和增強。然後,將這些經過處理的草圖連接起來,做成影片。 不過,由於繪圖這道工序非常耗費人力且人眼對運動並不敏感,因此在合成影片時,業界的標準做法是讓單張影像重複用於多個連續影格。 透過分析此流程,這個聯合團隊不禁開始懷疑是否有必要使用視訊模型和視訊資料集來訓練動漫超解析度模型:完全可以對影像執行超分辨率,然後再把這些影像連起來嘛! 於是他們決定使用基於影像的方法和資料集來打造一個適用於影像和影片的統一的超解析度和復原框架。新提出的方法
針對動畫製作的圖像超解析度(API SR)資料集
該團隊提出了API SR 資料集,這裡簡單介紹一下其收集整理方法。此方法利用了動漫影片的特色(見圖 2),可以從影片中選出被壓縮最少且資訊最豐富的影格。基於影像複雜度進行選取:該團隊基於影像複雜度評估(ICA)對初始的 I 幀池進行了篩選,這是一個更適合動畫的指標,見圖 4。
API 資料集:團隊手動收集了 562 段高品質動畫影片。然後基於上述兩步從每段影片收集了 10 個得分最高的幀。然後再進行了一番篩選,去除了不合適的影像,最終得到了一個包含 3740 張高品質影像的資料集。圖 5 展示了一些圖像範例。另外也能從圖 3b 看到 API 資料集在影像複雜度上的優勢。
回到最初的 720P 解析度:透過研究動畫製作流程,可以看到大多數動漫製作都採用了 720P 的格式(即圖像高 720 像素)。但是,在真實世界場景中,為了實現多媒體格式的標準化,動漫往往會被錯誤地上調到 1080P 或其它格式。團隊透過實驗發現,將所有動漫影像的尺寸重新調整為原始的 720P 可以提供創作者設想的特徵密度,同時還有更緊湊的動漫手繪線條和 CGI 資訊。
一個動畫的實用退化模型
在現實世界的超解析度任務中,退化模型(degradation model)的設計非常重要。基於高階退化模型和近期的一種基於影像的視訊壓縮恢復模型,該團隊提出了兩種改進方案,可以恢復扭曲的手繪線條和各種壓縮偽影,還能增強退化模型的表徵。圖 6a 展示了這個退化模型。
以預測為導向的壓縮:對影片壓縮偽影的動畫復原任務而言,使用影像退化模型會構成難題。這是因為 JPEG 影像格式的壓縮方式和視訊壓縮方式的原理是不一樣的。
為了回應這樣的難題,團隊設計了一個在影像退化模型中使用的以預測為導向的壓縮模型。此模組需要視訊壓縮演算法來在壓縮單幀的輸入。
憑藉此方法,影像退化模型能夠合成類似於典型的多幀視訊壓縮中觀察到的壓縮偽影,如圖 7 所示。之後,透過將這些合成的影像輸入影像超解析度網絡,系統就能有效地學習各種壓縮偽影的模式並進行恢復。
打亂大小調整模組的順序:真實世界超解析度領域的退化模型需要考慮模糊、大小調整、雜訊和壓縮模組。模糊、雜訊和壓縮是可以透過清楚的數學模型或演算法合成的真實世界偽影。但是,大小調整模組的邏輯全然不同。大小調整並不是自然影像生成的一部分,而是專門為超解析度的成對資料集引入的。因此,先前固定大小的大小調整模組並不非常合適。該團隊提出了一種更穩健和有效的解決方案,其中涉及在退化模型中以不同順序隨機放置大小調整操作。
增強動畫的手繪線條
該團隊的選擇是直接提取銳化過的手繪線條資訊並將其與基本真值(GT/ground-truth )融合,從而形成偽GT。透過將此專門針對性增強過的偽 GT 引入到超解析度訓練過程中,網路無需引入額外的神經網路模組或單獨的後處理網路也能產生銳利的手繪線條。
為了更好地提取手繪線條,該團隊使用了 XDoG,這是一種基於逐像素高斯核的草圖提取演算法,可以提取銳化的 GT 的邊緣圖。
然而,XDoG 邊緣圖存在過多雜訊的問題,其中包含離群像素和破碎的線條表徵。為了解決這個問題,團隊提出了一種離群值過濾技術,也搭配了一種客製化設計的被動擴張方法。透過這種方式,可以得到更連貫且未擾亂的手繪線條表徵。
團隊透過實驗發現,過度銳利化的預處理GT 可以讓手繪線條邊緣比其它無關的陰影邊緣細節更容易注意到,這使得離群值過濾器可以更輕鬆地分辨它們的差異。為此,團隊提出首先為 GT 進行三輪去銳化遮罩操作。圖 8 給出了這個過程的簡單圖示。
用於動畫的平衡雙感知損失
#另外還有出現多餘色彩偽影的問題,這主要是由於生成器和感知損失之間的訓練中資料域不一致。
為了解決這個問題以及彌補先前方法的不足,團隊的做法是使用一個預先訓練的 ResNet,其在 Danbooru 資料集上進行了動漫目標分類任務的訓練。 Danbooru 資料集是一個動漫插圖資料庫,包含大量且豐富的標註。由於這個預訓練網路是 ResNet50 而非 VGG,因此團隊也提出了類似的中間層比較。
但是,如果只使用基於ResNet 的損失,可能會出現視覺結果差的問題這是由Danbooru 數據集中的固有偏差導致的—— 該數據集中大部分圖像都是人物面部或相對簡單的插圖。因此,團隊權衡之下,決定使用真實世界特徵作為輔助來引導訓練過程中基於 ResNet 的感知損失。這種方法可得到視覺效果良好的影像,同時也能解決出現多餘顏色的問題。
實驗
實現細節
#實驗中,該團隊使用了新提出的API 資料集作為影像網路的訓練資料集。至於影像網絡,則是使用了 GRL 的一個微型版本,其中帶有最近卷積上採樣模組。
更多細節和參數請參考原論文。
與目前最佳方法比較
該團隊將新提出的APISR 與其它一些先進方法進行了定量與定性比較,包括Real-ESRGAN、BSRGAN、 RealBasicVSR、AnimeSR 和VQD-SR。
定量比較
如表1 所示,新模型的網路規模最小,參數量只有1.03M,但在所有指標上的表現超過了其它所有方法。
該團隊尤其強調了以預測導向的壓縮模型的作用。
另外,還需指出,僅憑藉 AnimeSR 和 VQDSR 分別 13.3% 和 25% 的訓練樣本複雜度,新方法就達到了這樣的結果。這主要是因為資料集整理過程引入了影像複雜度評估,其能透過選取資訊豐富的影像來提高學習動漫影像表徵的效果。此外,由於新設計的顯式退化模型,退化模型方面就無需訓練了。
定性比較
如圖 10 所示,APISR 得到的視覺品質遠勝於其他方法。
團隊也進行了消融研究,驗證了新資料集、退化模型和損失設計的有效性,詳見原始論文。
以上是二次元專用超分AI模型APISR:線上可用,入選CVPR的詳細內容。更多資訊請關注PHP中文網其他相關文章!

對於那些可能是我專欄新手的人,我廣泛探討了AI的最新進展,包括體現AI,AI推理,AI中的高科技突破,及時的工程,AI培訓,AI,AI RE RE等主題

歐洲雄心勃勃的AI大陸行動計劃旨在將歐盟確立為人工智能的全球領導者。 一個關鍵要素是建立了AI Gigafactories網絡,每個網絡都有大約100,000個高級AI芯片 - 2倍的自動化合物的四倍

微軟對AI代理申請的統一方法:企業的明顯勝利 微軟最近公告的新AI代理能力清晰而統一的演講給人留下了深刻的印象。 與許多技術公告陷入困境不同

Shopify首席執行官TobiLütke最近的備忘錄大膽地宣布AI對每位員工的基本期望是公司內部的重大文化轉變。 這不是短暫的趨勢。這是整合到P中的新操作範式

IBM的Z17大型機:集成AI用於增強業務運營 上個月,在IBM的紐約總部,我收到了Z17功能的預覽。 以Z16的成功為基礎(於2022年推出並證明持續的收入增長

解鎖不可動搖的信心,消除了對外部驗證的需求! 這五個CHATGPT提示將指導您完全自力更生和自我感知的變革轉變。 只需複制,粘貼和自定義包圍

人工智能安全與研究公司 Anthropic 最近的一項[研究]開始揭示這些複雜過程的真相,展現出一種令人不安地與我們自身認知領域相似的複雜性。自然智能和人工智能可能比我們想像的更相似。 窺探內部:Anthropic 可解釋性研究 Anthropic 進行的研究的新發現代表了機制可解釋性領域的重大進展,該領域旨在反向工程 AI 的內部計算——不僅僅觀察 AI 做了什麼,而是理解它在人工神經元層面如何做到這一點。 想像一下,試圖通過繪製當有人看到特定物體或思考特定想法時哪些神經元會放電來理解大腦。 A

高通的龍翼:企業和基礎設施的戰略飛躍 高通公司通過其新的Dragonwing品牌在全球範圍內積極擴展其範圍,以全球為目標。 這不僅僅是雷布蘭


熱AI工具

Undresser.AI Undress
人工智慧驅動的應用程序,用於創建逼真的裸體照片

AI Clothes Remover
用於從照片中去除衣服的線上人工智慧工具。

Undress AI Tool
免費脫衣圖片

Clothoff.io
AI脫衣器

AI Hentai Generator
免費產生 AI 無盡。

熱門文章

熱工具

WebStorm Mac版
好用的JavaScript開發工具

禪工作室 13.0.1
強大的PHP整合開發環境

SublimeText3 英文版
推薦:為Win版本,支援程式碼提示!

SublimeText3 Mac版
神級程式碼編輯軟體(SublimeText3)

DVWA
Damn Vulnerable Web App (DVWA) 是一個PHP/MySQL的Web應用程序,非常容易受到攻擊。它的主要目標是成為安全專業人員在合法環境中測試自己的技能和工具的輔助工具,幫助Web開發人員更好地理解保護網路應用程式的過程,並幫助教師/學生在課堂環境中教授/學習Web應用程式安全性。 DVWA的目標是透過簡單直接的介面練習一些最常見的Web漏洞,難度各不相同。請注意,該軟體中