模型|https://www.php.cn/link/36ef259d4d9967f3a81aa326160128c7
論文| https://www.php.cn/link/ca0525bfe5cab4c577d169d3343a5452
生成式AI 正憑藉其根據文字提示(text prompts)創造出驚艷圖像乃至影片的能力,贏得全球的矚目。目前最先進的生成模型依賴擴散過程(diffusion),這是一個將雜訊逐步轉換為影像樣本的迭代過程。這個過程需要耗費龐大的運算資源且速度較慢,在產生高品質影像樣本的過程中,單張影像的處理時間約為5 秒,其中通常需要多次(20 到40 次)呼叫龐大的神經網路。這樣的速度限制了有快速、即時產生需求的應用場景。 如何在提升生成品質的同時加快速度,是目前研究的熱點領域,也是我們工作的核心目標。
SDXL-Lightning 透過創新技術——漸進式對抗蒸餾(Progressive Adversarial Distillation)——突破了這一障礙,實現了前所未有的生成速度。該模型能夠在短短 2 步或 4 步內產生極高品質和解析度的影像,將計算成本和時間降低十倍。我們的方法甚至可以在 1 步驟內為超時敏感的應用程式產生影像,雖然可能會稍微犧牲一些品質。
SDXL-Lightning 不僅具有速度優勢,而且在影像品質方面表現出色,在評估中超越了先前的加速技術。它能夠實現更高的解析度和更豐富的細節,同時保持良好的多樣性和圖文匹配度。
速度比較示意
# 原始模型(20 步驟),SDXL-Lightning 模型(2 步驟)
SDXL-Lightning 模型可以透過1 步、2 步、4 步和8 步來生成圖像。推理步驟越多,影像品質越好。
以下是4 步驟產生結果-
A girl smiling
A pickup truck going up a mountain switchback
#A fish on a bicycle, colorful art
A close-up of an Asian lady with sunglasses
A beautiful cup
Mona Lisa, sketch
##A panda swimming
A pickup truck going up a mountain switchbackHouse in the desert, surreal landscapes
以下是 2 步生成结果——
Furniture design for a living room
A cinematic shot of a baby raccoon wearing an intricate Italian priest robe
A dog with soft fur and bright eyes jumping after a toy, in a cozy living room
A tea cup containing clouds
A family, medium shot
Baby playing with toys in the snow
An old man and a dog are walking in the park
Dragon driving a car
A monkey making latte art
与以前的方法(Turbo 和 LCM)相比,我们的方法生成的图像在细节上有显著改进,并且更忠实于原始生成模型的风格和布局。
开源开放的浪潮已经成为推动人工智能迅猛发展的关键力量,字节跳动也自豪地成为这股浪潮的一部分。我们的模型基于目前最流行的文字生成图像开放模型 SDXL,该模型已经拥有一个繁荣的生态系统。现在,我们决定将 SDXL-Lightning 开放给全球的开发者、研究人员和创意从业者,以便他们能访问并运用这一模型,进一步推动整个行业的创新和协作。
在设计 SDXL-Lightning 时,我们就考虑到与开放模型社区的兼容。社区中已有众多艺术家和开发者创建了各种各样的风格化图像生成模型,例如卡通和动漫风格等。为了支持这些模型,我们提供 SDXL-Lightning 作为一个增速插件,它可以无缝地整合到这些多样风格的 SDXL 模型中,为各种不同模型加快图像生成的速度。
SDXL-Lightning 模型也可以和目前非常流行的控制插件 ControlNet 相结合,实现极速可控的图片生成。
SDXL-Lightning 模型也支持开源社区里目前最流行的生成软件 ComfyUI,模型可以被直接加载来使用:
#從理論上來說,影像生成是一個由雜訊到清晰影像的逐步轉換過程。在這過程中,神經網路學習在這個轉換流(flow)中各個位置上的梯度。
產生影像的具體步驟是這樣的:
首先我們在流的起點,隨機取樣一個雜訊樣本,接著用神經網路計算出梯度。根據目前位置上的梯度,我們對樣本進行微小的調整,然後不斷重複這個過程。每一次迭代,樣本都會更接近最終的影像分佈,直到獲得一張清晰的影像。
圖:生成流##https://www .php.cn/link/5c9b5c47258cf1499c2dc64b7072e735
由於生成流複雜且非直線,生成過程必須一次只走一小步以減少梯度誤差累積,所以需要神經網路的頻繁計算,這就是計算量大的原因。
圖:曲線流程(圖片來自:# https://www.php.cn/link/d7bbb6396ce5daf19ec6cf4bb4453137
為了減少生成影像所需的步驟數量,許多研究致力於尋找解決方案。一些研究提出了減少誤差的採樣方法,而其他研究則試圖使生成流更加直線化。儘管這些方法有所進展,但它們仍然需要超過10 個推理步驟來生成圖像。
另一種方法是模型蒸餾,它能夠在少於10 個推理步驟的情況下產生高品質影像。不同於計算當前流位置下的梯度,模型蒸餾改變模型預測的目標,直接讓其預測下一個更遠的流位置。具體來說,我們訓練一個學生網路直接預測老師網路完成了多步驟推理後的結果。這樣的策略可以大幅減少所需的推理步驟數量。透過反覆應用這個過程,我們可以進一步降低推理步驟的數量。這種方法被先前的研究稱之為漸進式蒸餾。
圖:漸進式蒸餾,學生網路預測老師網路多步驟後的結果
在實際操作中,學生網路往往難以精確預測未來的流位置。誤差隨著每一步的累積而放大,導致在少於8 步推理的情況下,模型產生的圖像開始變得模糊不清。
為了解決這個問題,我們的策略是不強求學生網路精確匹配教師網路的預測,而是讓學生網路在機率分佈上與教師網路保持一致。換言之,學生網路被訓練來預測一個機率上可能的位置,即使這個位置並不完全準確,我們也不會對它進行懲罰。這個目標是透過對抗訓練來實現的,引入了一個額外的判別網路來幫助實現學生網路和教師網路輸出的分佈匹配。這是我們研究方法的簡要概述。在技術論文(https://www.php.cn/link /ca0525bfe5cab4c577d169d3343a5452
5、SDXL-Lightning 之外
儘管本研究主要探討瞭如何利用SDXL-Lightning 技術進行圖像生成,但我們所提出的漸進式對抗蒸餾方法的應用潛力不局限於靜態影像的範疇。這項創新技術也可以被運用於快速且高品質產生視訊、音訊以及其他多模態內容。我們誠摯邀請您在 HuggingFace 平台上體驗 SDXL-Lightning,並期待您寶貴的意見和回饋。 模型:https://www.php.cn/link/36ef259d4d9967f3a81aa326160128c7
#######以上是1024 解析度下最快模型,位元組跳動文生圖開放模型 SDXL-Lightning 發布的詳細內容。更多資訊請關注PHP中文網其他相關文章!