首頁 >科技週邊 >人工智慧 >推出免費的個人化學術論文推薦系統-德國高校頂級視覺團隊的「arXiv客製化平台」

推出免費的個人化學術論文推薦系統-德國高校頂級視覺團隊的「arXiv客製化平台」

王林
王林轉載
2023-12-27 17:49:401188瀏覽

10毫秒產生一張影像,1分鐘6000張影像,這是什麼概念?

下圖中,就可以深刻感受到AI的超能力。

推出免費的個人化學術論文推薦系統-德國高校頂級視覺團隊的「arXiv客製化平台」圖片

甚至,當你在二次元小姐姐圖片產生的提示中,不斷加入新的元素,各種風格的圖片更迭也是瞬間閃過。

推出免費的個人化學術論文推薦系統-德國高校頂級視覺團隊的「arXiv客製化平台」圖片

如此驚人的圖片即時產生速度,便是來自UC伯克利、日本筑波大學等研究人員提出StreamDiffusion帶來的結果。

這個全新的解決方案是一種擴散模型流程,能夠以超過100fps的速度,實現即時互動式影像生成。

推出免費的個人化學術論文推薦系統-德國高校頂級視覺團隊的「arXiv客製化平台」圖片

論文網址:https://arxiv.org/abs/2312.12491

#StreamDiffusion開源後直接霸榜GitHub,狂攬3.7k顆星。

推出免費的個人化學術論文推薦系統-德國高校頂級視覺團隊的「arXiv客製化平台」圖片

StreamDiffusion創新性採用了批次策略,而非序列去噪,比傳統方法快大約1.5倍。而作者提出的新型剩餘無分類器引導(RCFG)演算法能夠比傳統無分類引導快2.05倍。

最值得一提的是,新方法在RTX 4090上,影像到影像的產生速度可達91.07fps。

推出免費的個人化學術論文推薦系統-德國高校頂級視覺團隊的「arXiv客製化平台」圖片

未來,在元宇宙、電玩遊戲圖形渲染、直播視訊串流等不同場景中,StreamDiffusion快速生成能夠滿足這些應用的高吞吐量的需求。

尤其,即時的影像生成,能夠為那些遊戲開發、影片渲染的打工人們,提供了強大的編輯和創作能力。

推出免費的個人化學術論文推薦系統-德國高校頂級視覺團隊的「arXiv客製化平台」圖片

專為即時影像產生設計

目前,在各個領域中,擴散模型的應用需要具備高吞吐量和低延遲的擴散管道,以確保人機互動的高效性

一個典型的例子是,用擴散模型創建虛擬角色VTuber——能夠對使用者的輸入做出流暢的反應。

推出免費的個人化學術論文推薦系統-德國高校頂級視覺團隊的「arXiv客製化平台」圖片

為了提高高吞吐量和即時互動能力,目前研究的方向主要集中在,減少去雜訊迭代次數,例如從50次迭代減少到幾次,甚至一次。

常見的策略是將多步驟擴散模型提煉成幾個步驟,用神經常微分方程(ODE)重新建構擴散過程。為提高效率,也有人對擴散模型進行了量化。

最新論文中,研究人員從正交方向(orthogonal direction)開始,引入了StreamDiffusion——一種實時擴散管道,專為互動式圖像生成的高吞吐量而設計。

現有的模型設計工作可以與StreamDiffusion集成,同時還可以使用N步驟去噪擴散模型,以保持高吞吐量,並為用戶提供更靈活的選擇

推出免費的個人化學術論文推薦系統-德國高校頂級視覺團隊的「arXiv客製化平台」圖片

即時影像產生|第一列和第二列:AI輔助即時繪圖的範例,第三列:從3D頭像即時渲染2D插圖。第四列和第五列:即時相機濾鏡。 即時影像產生|第一列和第二列展示了AI輔助即時繪圖的範例,第三列展示了透過即時渲染3D頭像產生2D插圖的過程。第四列和第五列展示了即時相機濾鏡的效果

具體是如何實現的?

StreamDiffusion架構

StreamDiffusion是一種新的擴散管道,旨在提高吞吐量。

它由若干關鍵部分組成:

流批次策略、剩餘無分類器引導(RCFG)、輸入輸出佇列、隨機相似濾波(Stochastic Similarity Filter)、預計算程式、微型自動編碼器的模型加速工具。

批次去雜訊

在擴散模型中,去雜訊步驟是按順序進行的,這就導致了U-Net的處理時間,與步驟數成比例增加。

然而,為了產生高保真的圖像,就不得不增加步數。

為了解決互動式擴散中的高延遲產生的問題,研究人員提出了一種稱為Stream Batch的方法。

如下圖所示,在最新的方法中,在處理下一個輸入影像之前,不會等待單一影像完全去噪,而是在每個去噪步驟後接受下一個輸入影像。

這樣就形成了一個去雜訊批次,每個影像的去雜訊步驟交錯進行。

透過將這些交錯的去噪步驟串聯成一個批次,研究人員就能使用U-Net高效率地處理連續輸入的批次。

在時間步t處編碼的輸入影像在時間步t n處產生並解碼,其中n是去雜訊步驟的數目。

推出免費的個人化學術論文推薦系統-德國高校頂級視覺團隊的「arXiv客製化平台」圖片

剩餘無分類器引導(RCFG)

常見的無分類器指導(CFG)是一種,透過在無條件或否定條件項和原條件項之間執行向量計算。來增強原條件的效果的演算法。

推出免費的個人化學術論文推薦系統-德國高校頂級視覺團隊的「arXiv客製化平台」圖片

這可以帶來諸如加強提示的效果之類的好處。

然而,為了計算負條件剩餘噪聲,需要將每個輸入潛變數與負條件嵌入配對,並在每個推理時間將其傳遞給U-Net。

為了解決這個問題,作者引入了一種創新的剩餘無分類器引導(RCFG)

這種方法利用虛擬剩餘噪聲來逼近負條件,使得我們只需要在過程的初始階段就能夠計算負條件噪聲,從而顯著降低了負條件嵌入時額外的U-Net推理計算成本

輸入輸出佇列

將輸入影像轉換為管道可管理的張量資料格式,反過來,將解碼後的張量轉換回輸出影像,都需要不可忽略的額外處理時間。

為了避免將這些影像處理時間加入到神經網路推理流程中,我們將影像預處理和後處理分離到不同的執行緒中,從而實現並行處理。

此外,透過使用輸入張量佇列,還能應對因裝置故障或通訊錯誤造成的輸入影像暫時中斷,從而實現流暢的串流。

推出免費的個人化學術論文推薦系統-德國高校頂級視覺團隊的「arXiv客製化平台」圖片

隨機相似濾波(Stochastic Similarity Filter)

如下圖是,核心擴散推理管道,包含VAE和U-Net。

透過引入去噪批次處理和預先計算的提示嵌入快取、取樣雜訊快取和調度器值緩存,提高了推理管線的速度,實現了即時影像產生。

隨機相似濾波(SSF)是為了節省GPU功耗而設計的,可以動態關閉擴散模型管道,進而實現了快速高效的即時推理。

推出免費的個人化學術論文推薦系統-德國高校頂級視覺團隊的「arXiv客製化平台」圖片

預計算

U-Net架構既需要輸入潛在變量,也需要條件嵌入。

通常情況下,條件嵌入來自「提示嵌入」,在不同影格之間保持不變。

為了優化這一點,研究人員預先計算提示嵌入,並將其儲存在快取中。在互動或串流模式下,這個預先計算的提示嵌入快取會被召回。

在U-Net中,每一幀的鍵和值的計算是基於預先計算的提示嵌入實現的

因此,研究人員對U-Net進行修改,以儲存這些鍵和值對,使其可以重複使用。每當輸入提示更新時,研究人員都會在U-Net內重新計算和更新這些鍵和值對。

模型加速和微型自動編碼器

為了最佳化速度,我們將系統配置為使用靜態批次大小和固定輸入大小(高度和寬度)。

這種方法可確保計算圖和記憶體分配針對特定的輸入大小進行最佳化,從而加快處理速度。

然而,這表示如果需要處理不同形狀的圖像(即不同的高度和寬度),請使用不同的批次大小(包括去噪步驟的批次大小)。

實驗評估

去噪批的定量評估

圖8展示了批量去雜訊和原始順序U- Net循環的效率比較

在實施批次去雜訊策略時,研究人員發現處理時間有了顯著改善。與順序去噪步驟的傳統U-Net循環相比,減少了一半的時間。

即使應用了神經模組加速工具TensorRT,研究人員提出的串流批次在不同的去雜訊步驟中仍能大幅提高原始順序擴散管道的效率。

推出免費的個人化學術論文推薦系統-德國高校頂級視覺團隊的「arXiv客製化平台」圖片

此外,研究人員也將最新方法與Huggingface Diffusers開發的AutoPipeline-ForImage2Image管道進行了比較。

平均推理時間比較見表1,最新管道顯示速度有了大幅提升。

在使用TensorRT時,StreamDiffusion能夠在執行10個去噪步驟時達到13倍的速度提升。而在只涉及單一去噪步驟的情況下,速度提升可達59.6倍

即使沒有TensorRT,StreamDiffusion在使用單步去噪時也比AutoPipeline提高了29.7倍,使用10步去雜訊時提高了8.3倍。

推出免費的個人化學術論文推薦系統-德國高校頂級視覺團隊的「arXiv客製化平台」圖片

表2比較了使用RCFG和常規CFG的流擴散管道的推理時間。

在單步去噪的情況下,Onetime-Negative RCFG和傳統CFG的推理時間幾乎相同。

所以One-time RCFG和傳統CFG在單步驟去雜訊時推理時間差不多。但是隨著去噪步驟增加,從傳統CFG到RCFG的推理速度提升變得更明顯。

在第5步去噪時,Self-Negative RCFG比傳統CFG快2.05倍,Onetime-Negative RCFG比傳統CFG快1.79倍。

推出免費的個人化學術論文推薦系統-德國高校頂級視覺團隊的「arXiv客製化平台」图片

推出免費的個人化學術論文推薦系統-德國高校頂級視覺團隊的「arXiv客製化平台」图片

在此之后,研究人员对所提出的SSF的能耗进行了全面评估。这一过程的结果可以在图6和图7中看到

这些图展示了在输入视频中应用 SSF(将阈值η设为0.98)到包含周期性静态特征场景时GPU的使用模式

对比分析表明,在输入图像主要是静态图像且具有高度相似性的情况下,采用SSF可以显著降低GPU的使用率。

推出免費的個人化學術論文推薦系統-德國高校頂級視覺團隊的「arXiv客製化平台」图片

消融研究

不同模块对不同去噪步骤下平均推理时间的影响如表3。可以看得见,不同模块的消减在图像到图像的生成过程中得到了验证。

推出免費的個人化學術論文推薦系統-德國高校頂級視覺團隊的「arXiv客製化平台」图片

定性结果

在图10中展示了使用剩余无分类器导引(RCFG)对生成的图像进行快速条件调整的对齐过程

生成的图像,没有使用任何形式的CFG,显示弱对齐提示,特别是在方面,如颜色变化或添加不存在的元素,这是没有得到有效实现。

相比之下,CFG或RCFG的使用增强了修改原始图像的能力,例如改变头发颜色,添加身体模式,甚至包含像眼镜这样的物体。值得注意的是,与标准CFG相比,RCFG的使用可以加强提示的影响。

推出免費的個人化學術論文推薦系統-德國高校頂級視覺團隊的「arXiv客製化平台」图片

最后,标准文本到图像生成结果的质量如图11所示。

使用sd-turbo模型,只需一步就可以生成像图11所示的那样的高质量图像。

当在 GPU: RTX 4090,CPU: Core i9-13900K,OS: Ubuntu 22.04.3 LTS的环境中,使用研究人员提出的流扩散管道和sd-turbo模型生成图像时,以超100fps的速率生成这种高质量的图像是可行的。

推出免費的個人化學術論文推薦系統-德國高校頂級視覺團隊的「arXiv客製化平台」图片

网友上手,一大波二次元小姐姐来了

最新项目的代码已经开源,在Github已经收揽3.7k星。

推出免費的個人化學術論文推薦系統-德國高校頂級視覺團隊的「arXiv客製化平台」图片

项目地址:https://github.com/cumulo-autumn/StreamDiffusion

许多网友已经开始生成自己的二次元老婆了。

推出免費的個人化學術論文推薦系統-德國高校頂級視覺團隊的「arXiv客製化平台」图片

还有真人变实时动画。

推出免費的個人化學術論文推薦系統-德國高校頂級視覺團隊的「arXiv客製化平台」图片

10倍速手绘生成。

推出免費的個人化學術論文推薦系統-德國高校頂級視覺團隊的「arXiv客製化平台」圖片

推出免費的個人化學術論文推薦系統-德國高校頂級視覺團隊的「arXiv客製化平台」圖片

推出免費的個人化學術論文推薦系統-德國高校頂級視覺團隊的「arXiv客製化平台」

#有興趣的童鞋們,不如自己動手吧。

參考資料:###############https://www.php.cn/link/f9d8bf6b7414e900118caa579ea1b7be####################################################################################### ###########https://www.php.cn/link/75a6e5993aefba4f6cb07254637a6133##########

以上是推出免費的個人化學術論文推薦系統-德國高校頂級視覺團隊的「arXiv客製化平台」的詳細內容。更多資訊請關注PHP中文網其他相關文章!

陳述:
本文轉載於:51cto.com。如有侵權,請聯絡admin@php.cn刪除