許多內容製作項目需要將簡單的草圖轉換為逼真的圖片,這涉及圖像到圖像的轉換(image-to-image translation),它使用深度生成模型學習給定輸入的自然圖片的條件分佈。
影像到影像轉換的基本概念是利用預先訓練的神經網路來捕捉自然圖片流形(manifold)。影像轉換類似於遍歷流形並定位可行的輸入語義點。系統使用許多圖片對合成網路進行預訓練,以從其潛在空間的任何採樣中提供可靠的輸出。透過預先訓練的合成網絡,下游訓練將使用者輸入調整為模型的潛在表徵。
多年來,我們已經看到許多特定於任務的方法達到了 SOTA 水平,但目前的解決方案還是難以創建用於實際使用的高保真圖片。
在最近的一篇論文中,香港科技大學和微軟亞洲研究院的研究者認為,對於圖像到圖像的轉換,預訓練才是All you need 。以往方法需要專門的架構設計,並從頭開始訓練單一轉換模型,因而難以高品質地產生複雜場景,尤其是在配對訓練資料不充足的情況下。
因此,研究者將每個影像到影像的轉換問題視為下游任務,並引入了一個簡單通用框架,該框架採用預訓練的擴散模型來適應各種影像到影像的轉換。他們將提出的預訓練影像到影像轉換模型稱為 PITI(pretraining-based image-to-image translation)。此外,研究者也提出以對抗訓練來增強擴散模型訓練中的紋理合成,並與歸一化指導採樣結合以提升生成品質。
最後,研究者在ADE20K、COCO-Stuff 和DIODE 等具有挑戰性的基準上對各種任務進行了廣泛的實證比較,表明PITI 合成的圖像顯示出了前所未有的真實感和忠實度。
作者沒有使用在特定領域表現最佳的GAN,而是使用了擴散模型,合成了廣泛多樣的圖片。其次,它應該從兩種類型的潛在代碼中產生圖片:一種描述視覺語義,另一種針對圖像波動進行調整。語意、低維度潛在對於下游任務至關重要。否則,就不可能將模態輸入轉換為複雜的潛在空間。有鑑於此,他們使用 GLIDE 作為預訓練的生成先驗,這是一種可以產生不同圖片的資料驅動模型。由於 GLIDE 使用了潛在的文本,它允許語義潛在空間。
擴散和基於分數的方法表現出跨基準的生成品質。在類別條件 ImageNet 上,這些模型在視覺品質和取樣多樣性方面與基於 GAN 的方法相媲美。最近,用大規模文字圖像配對訓練的擴散模型顯示出驚人的能力。訓練有素的擴散模型可以為合成提供一個通用的生成先驗。
作者可以使用前置(pretext)任務對大量資料進行預訓練,並開發一個非常有意義的潛在空間來預測圖片統計。
對於下游任務,他們有條件地微調語義空間以映射特定於任務的環境。該機器根據預先訓練的資訊創建可信的視覺效果。
作者建議使用語意輸入對擴散模型進行預訓練。他們使用文字條件、圖像訓練的 GLIDE 模型。 Transformer 網路對文字輸入進行編碼,並為擴散模型輸出 token。按照計劃,文字嵌入空間是有意義的。
上圖是作者的作品。與從頭開始的技術相比,預訓練模型提高了圖片品質和多樣性。由於 COCO 資料集具有眾多類別和組合,因此基本方法無法透過引人注目的架構提供美觀的結果。他們的方法可以為困難的場景創建具有精確語義的豐富細節。圖片展示了他們方法的多功能性。
表 1 显示,该研究所提方法性能始终优于其他模型。与较为领先的 OASIS 相比,在掩码到图像合成方面,PITI 在 FID 方面获得了显著的改进。此外,该方法在草图到图像和几何到图像合成任务中也显示出良好的性能。
图 3 展示了该研究在不同任务上的可视化结果。实验可得,与从头开始训练的方法相比,预训练模型显著提高了生成图像的质量和多样性。该研究所用方法可以产生生动的细节和正确的语义,即使是具有挑战性的生成任务。
该研究还在 Amazon Mechanical Turk 上的 COCO-Stuff 上进行了一项关于掩码到图像合成的用户研究,获得了 20 名参与者的 3000 票。参与者一次会得到两张图片,并被要求选择一张更真实的进行投票。如表 2 所示,所建议的方法在很大程度上优于从零开始的模型和其他基线。
条件图像合成可创建符合条件的高质量图片。计算机视觉和图形学领域使用它来创建和操作信息。大规模预训练改进了图片分类、对象识别和语义分割。未知的是大规模预训练是否有利于一般生成任务。
能源使用和碳排放是图片预训练的关键问题。预训练是耗能的,但只需要一次。条件微调让下游任务可以使用相同的预训练模型。预训练允许用更少的训练数据训练生成模型,当数据由于隐私问题或昂贵的注释成本而受到限制时,可以提升图像合成效果。
以上是港科大&MSRA研究:關於圖片到圖片轉換,Finetuning is all you need的詳細內容。更多資訊請關注PHP中文網其他相關文章!