搜尋
首頁科技週邊人工智慧推出免費的個人化學術論文推薦系統-德國高校頂級視覺團隊的「arXiv客製化平台」

10毫秒產生一張影像,1分鐘6000張影像,這是什麼概念?

下圖中,就可以深刻感受到AI的超能力。

推出免費的個人化學術論文推薦系統-德國高校頂級視覺團隊的「arXiv客製化平台」圖片

甚至,當你在二次元小姐姐圖片產生的提示中,不斷加入新的元素,各種風格的圖片更迭也是瞬間閃過。

推出免費的個人化學術論文推薦系統-德國高校頂級視覺團隊的「arXiv客製化平台」圖片

如此驚人的圖片即時產生速度,便是來自UC伯克利、日本筑波大學等研究人員提出StreamDiffusion帶來的結果。

這個全新的解決方案是一種擴散模型流程,能夠以超過100fps的速度,實現即時互動式影像生成。

推出免費的個人化學術論文推薦系統-德國高校頂級視覺團隊的「arXiv客製化平台」圖片

論文網址:https://arxiv.org/abs/2312.12491

#StreamDiffusion開源後直接霸榜GitHub,狂攬3.7k顆星。

推出免費的個人化學術論文推薦系統-德國高校頂級視覺團隊的「arXiv客製化平台」圖片

StreamDiffusion創新性採用了批次策略,而非序列去噪,比傳統方法快大約1.5倍。而作者提出的新型剩餘無分類器引導(RCFG)演算法能夠比傳統無分類引導快2.05倍。

最值得一提的是,新方法在RTX 4090上,影像到影像的產生速度可達91.07fps。

推出免費的個人化學術論文推薦系統-德國高校頂級視覺團隊的「arXiv客製化平台」圖片

未來,在元宇宙、電玩遊戲圖形渲染、直播視訊串流等不同場景中,StreamDiffusion快速生成能夠滿足這些應用的高吞吐量的需求。

尤其,即時的影像生成,能夠為那些遊戲開發、影片渲染的打工人們,提供了強大的編輯和創作能力。

推出免費的個人化學術論文推薦系統-德國高校頂級視覺團隊的「arXiv客製化平台」圖片

專為即時影像產生設計

目前,在各個領域中,擴散模型的應用需要具備高吞吐量和低延遲的擴散管道,以確保人機互動的高效性

一個典型的例子是,用擴散模型創建虛擬角色VTuber——能夠對使用者的輸入做出流暢的反應。

推出免費的個人化學術論文推薦系統-德國高校頂級視覺團隊的「arXiv客製化平台」圖片

為了提高高吞吐量和即時互動能力,目前研究的方向主要集中在,減少去雜訊迭代次數,例如從50次迭代減少到幾次,甚至一次。

常見的策略是將多步驟擴散模型提煉成幾個步驟,用神經常微分方程(ODE)重新建構擴散過程。為提高效率,也有人對擴散模型進行了量化。

最新論文中,研究人員從正交方向(orthogonal direction)開始,引入了StreamDiffusion——一種實時擴散管道,專為互動式圖像生成的高吞吐量而設計。

現有的模型設計工作可以與StreamDiffusion集成,同時還可以使用N步驟去噪擴散模型,以保持高吞吐量,並為用戶提供更靈活的選擇

推出免費的個人化學術論文推薦系統-德國高校頂級視覺團隊的「arXiv客製化平台」圖片

即時影像產生|第一列和第二列:AI輔助即時繪圖的範例,第三列:從3D頭像即時渲染2D插圖。第四列和第五列:即時相機濾鏡。 即時影像產生|第一列和第二列展示了AI輔助即時繪圖的範例,第三列展示了透過即時渲染3D頭像產生2D插圖的過程。第四列和第五列展示了即時相機濾鏡的效果

具體是如何實現的?

StreamDiffusion架構

StreamDiffusion是一種新的擴散管道,旨在提高吞吐量。

它由若干關鍵部分組成:

流批次策略、剩餘無分類器引導(RCFG)、輸入輸出佇列、隨機相似濾波(Stochastic Similarity Filter)、預計算程式、微型自動編碼器的模型加速工具。

批次去雜訊

在擴散模型中,去雜訊步驟是按順序進行的,這就導致了U-Net的處理時間,與步驟數成比例增加。

然而,為了產生高保真的圖像,就不得不增加步數。

為了解決互動式擴散中的高延遲產生的問題,研究人員提出了一種稱為Stream Batch的方法。

如下圖所示,在最新的方法中,在處理下一個輸入影像之前,不會等待單一影像完全去噪,而是在每個去噪步驟後接受下一個輸入影像。

這樣就形成了一個去雜訊批次,每個影像的去雜訊步驟交錯進行。

透過將這些交錯的去噪步驟串聯成一個批次,研究人員就能使用U-Net高效率地處理連續輸入的批次。

在時間步t處編碼的輸入影像在時間步t n處產生並解碼,其中n是去雜訊步驟的數目。

推出免費的個人化學術論文推薦系統-德國高校頂級視覺團隊的「arXiv客製化平台」圖片

剩餘無分類器引導(RCFG)

常見的無分類器指導(CFG)是一種,透過在無條件或否定條件項和原條件項之間執行向量計算。來增強原條件的效果的演算法。

推出免費的個人化學術論文推薦系統-德國高校頂級視覺團隊的「arXiv客製化平台」圖片

這可以帶來諸如加強提示的效果之類的好處。

然而,為了計算負條件剩餘噪聲,需要將每個輸入潛變數與負條件嵌入配對,並在每個推理時間將其傳遞給U-Net。

為了解決這個問題,作者引入了一種創新的剩餘無分類器引導(RCFG)

這種方法利用虛擬剩餘噪聲來逼近負條件,使得我們只需要在過程的初始階段就能夠計算負條件噪聲,從而顯著降低了負條件嵌入時額外的U-Net推理計算成本

輸入輸出佇列

將輸入影像轉換為管道可管理的張量資料格式,反過來,將解碼後的張量轉換回輸出影像,都需要不可忽略的額外處理時間。

為了避免將這些影像處理時間加入到神經網路推理流程中,我們將影像預處理和後處理分離到不同的執行緒中,從而實現並行處理。

此外,透過使用輸入張量佇列,還能應對因裝置故障或通訊錯誤造成的輸入影像暫時中斷,從而實現流暢的串流。

推出免費的個人化學術論文推薦系統-德國高校頂級視覺團隊的「arXiv客製化平台」圖片

隨機相似濾波(Stochastic Similarity Filter)

如下圖是,核心擴散推理管道,包含VAE和U-Net。

透過引入去噪批次處理和預先計算的提示嵌入快取、取樣雜訊快取和調度器值緩存,提高了推理管線的速度,實現了即時影像產生。

隨機相似濾波(SSF)是為了節省GPU功耗而設計的,可以動態關閉擴散模型管道,進而實現了快速高效的即時推理。

推出免費的個人化學術論文推薦系統-德國高校頂級視覺團隊的「arXiv客製化平台」圖片

預計算

U-Net架構既需要輸入潛在變量,也需要條件嵌入。

通常情況下,條件嵌入來自「提示嵌入」,在不同影格之間保持不變。

為了優化這一點,研究人員預先計算提示嵌入,並將其儲存在快取中。在互動或串流模式下,這個預先計算的提示嵌入快取會被召回。

在U-Net中,每一幀的鍵和值的計算是基於預先計算的提示嵌入實現的

因此,研究人員對U-Net進行修改,以儲存這些鍵和值對,使其可以重複使用。每當輸入提示更新時,研究人員都會在U-Net內重新計算和更新這些鍵和值對。

模型加速和微型自動編碼器

為了最佳化速度,我們將系統配置為使用靜態批次大小和固定輸入大小(高度和寬度)。

這種方法可確保計算圖和記憶體分配針對特定的輸入大小進行最佳化,從而加快處理速度。

然而,這表示如果需要處理不同形狀的圖像(即不同的高度和寬度),請使用不同的批次大小(包括去噪步驟的批次大小)。

實驗評估

去噪批的定量評估

圖8展示了批量去雜訊和原始順序U- Net循環的效率比較

在實施批次去雜訊策略時,研究人員發現處理時間有了顯著改善。與順序去噪步驟的傳統U-Net循環相比,減少了一半的時間。

即使應用了神經模組加速工具TensorRT,研究人員提出的串流批次在不同的去雜訊步驟中仍能大幅提高原始順序擴散管道的效率。

推出免費的個人化學術論文推薦系統-德國高校頂級視覺團隊的「arXiv客製化平台」圖片

此外,研究人員也將最新方法與Huggingface Diffusers開發的AutoPipeline-ForImage2Image管道進行了比較。

平均推理時間比較見表1,最新管道顯示速度有了大幅提升。

在使用TensorRT時,StreamDiffusion能夠在執行10個去噪步驟時達到13倍的速度提升。而在只涉及單一去噪步驟的情況下,速度提升可達59.6倍

即使沒有TensorRT,StreamDiffusion在使用單步去噪時也比AutoPipeline提高了29.7倍,使用10步去雜訊時提高了8.3倍。

推出免費的個人化學術論文推薦系統-德國高校頂級視覺團隊的「arXiv客製化平台」圖片

表2比較了使用RCFG和常規CFG的流擴散管道的推理時間。

在單步去噪的情況下,Onetime-Negative RCFG和傳統CFG的推理時間幾乎相同。

所以One-time RCFG和傳統CFG在單步驟去雜訊時推理時間差不多。但是隨著去噪步驟增加,從傳統CFG到RCFG的推理速度提升變得更明顯。

在第5步去噪時,Self-Negative RCFG比傳統CFG快2.05倍,Onetime-Negative RCFG比傳統CFG快1.79倍。

推出免費的個人化學術論文推薦系統-德國高校頂級視覺團隊的「arXiv客製化平台」图片

推出免費的個人化學術論文推薦系統-德國高校頂級視覺團隊的「arXiv客製化平台」图片

在此之后,研究人员对所提出的SSF的能耗进行了全面评估。这一过程的结果可以在图6和图7中看到

这些图展示了在输入视频中应用 SSF(将阈值η设为0.98)到包含周期性静态特征场景时GPU的使用模式

对比分析表明,在输入图像主要是静态图像且具有高度相似性的情况下,采用SSF可以显著降低GPU的使用率。

推出免費的個人化學術論文推薦系統-德國高校頂級視覺團隊的「arXiv客製化平台」图片

消融研究

不同模块对不同去噪步骤下平均推理时间的影响如表3。可以看得见,不同模块的消减在图像到图像的生成过程中得到了验证。

推出免費的個人化學術論文推薦系統-德國高校頂級視覺團隊的「arXiv客製化平台」图片

定性结果

在图10中展示了使用剩余无分类器导引(RCFG)对生成的图像进行快速条件调整的对齐过程

生成的图像,没有使用任何形式的CFG,显示弱对齐提示,特别是在方面,如颜色变化或添加不存在的元素,这是没有得到有效实现。

相比之下,CFG或RCFG的使用增强了修改原始图像的能力,例如改变头发颜色,添加身体模式,甚至包含像眼镜这样的物体。值得注意的是,与标准CFG相比,RCFG的使用可以加强提示的影响。

推出免費的個人化學術論文推薦系統-德國高校頂級視覺團隊的「arXiv客製化平台」图片

最后,标准文本到图像生成结果的质量如图11所示。

使用sd-turbo模型,只需一步就可以生成像图11所示的那样的高质量图像。

当在 GPU: RTX 4090,CPU: Core i9-13900K,OS: Ubuntu 22.04.3 LTS的环境中,使用研究人员提出的流扩散管道和sd-turbo模型生成图像时,以超100fps的速率生成这种高质量的图像是可行的。

推出免費的個人化學術論文推薦系統-德國高校頂級視覺團隊的「arXiv客製化平台」图片

网友上手,一大波二次元小姐姐来了

最新项目的代码已经开源,在Github已经收揽3.7k星。

推出免費的個人化學術論文推薦系統-德國高校頂級視覺團隊的「arXiv客製化平台」图片

项目地址:https://github.com/cumulo-autumn/StreamDiffusion

许多网友已经开始生成自己的二次元老婆了。

推出免費的個人化學術論文推薦系統-德國高校頂級視覺團隊的「arXiv客製化平台」图片

还有真人变实时动画。

推出免費的個人化學術論文推薦系統-德國高校頂級視覺團隊的「arXiv客製化平台」图片

10倍速手绘生成。

推出免費的個人化學術論文推薦系統-德國高校頂級視覺團隊的「arXiv客製化平台」圖片

推出免費的個人化學術論文推薦系統-德國高校頂級視覺團隊的「arXiv客製化平台」圖片

推出免費的個人化學術論文推薦系統-德國高校頂級視覺團隊的「arXiv客製化平台」

#有興趣的童鞋們,不如自己動手吧。

參考資料:###############https://www.php.cn/link/f9d8bf6b7414e900118caa579ea1b7be####################################################################################### ###########https://www.php.cn/link/75a6e5993aefba4f6cb07254637a6133##########

以上是推出免費的個人化學術論文推薦系統-德國高校頂級視覺團隊的「arXiv客製化平台」的詳細內容。更多資訊請關注PHP中文網其他相關文章!

陳述
本文轉載於:51CTO.COM。如有侵權,請聯絡admin@php.cn刪除
META的新AI助手:生產力助推器還是時間下沉?META的新AI助手:生產力助推器還是時間下沉?May 01, 2025 am 11:18 AM

Meta攜手Nvidia、IBM和Dell等合作夥伴,拓展了Llama Stack的企業級部署整合。在安全方面,Meta推出了Llama Guard 4、LlamaFirewall和CyberSecEval 4等新工具,並啟動了Llama Defenders計劃,以增強AI安全性。此外,Meta還向10個全球機構(包括致力於改善公共服務、醫療保健和教育的初創企業)發放了總額150萬美元的Llama Impact Grants。 由Llama 4驅動的全新Meta AI應用,被設想為Meta AI

80%的Zers將嫁給AI:研究80%的Zers將嫁給AI:研究May 01, 2025 am 11:17 AM

公司開創性的人類互動公司Joi AI介紹了“ AI-Iatsionship”一詞來描述這些不斷發展的關係。 Joi AI的關係治療師Jaime Bronstein澄清說,這並不是要取代人類C

AI使互聯網的機器人問題變得更糟。這家耗資20億美元的創業公司在前線AI使互聯網的機器人問題變得更糟。這家耗資20億美元的創業公司在前線May 01, 2025 am 11:16 AM

在線欺詐和機器人攻擊對企業構成了重大挑戰。 零售商與機器人ho積產品,銀行戰斗帳戶接管以及社交媒體平台與模仿者鬥爭。 AI的興起加劇了這個問題,Rende

賣給機器人:將創造或破壞業務的營銷革命賣給機器人:將創造或破壞業務的營銷革命May 01, 2025 am 11:15 AM

AI代理人有望徹底改變營銷,並可能超過以前技術轉變的影響。 這些代理代表了生成AI的重大進步,不僅是處理諸如chatgpt之類的處理信息,而且還採取了Actio

計算機視覺技術如何改變NBA季后賽主持人計算機視覺技術如何改變NBA季后賽主持人May 01, 2025 am 11:14 AM

人工智能對關鍵NBA遊戲4決策的影響 兩場關鍵遊戲4 NBA對決展示了AI在主持儀式中改變遊戲規則的角色。 首先,丹佛的尼古拉·喬基奇(Nikola Jokic)錯過了三分球,導致亞倫·戈登(Aaron Gordon)的最後一秒鐘。 索尼的鷹

AI如何加速再生醫學的未來AI如何加速再生醫學的未來May 01, 2025 am 11:13 AM

傳統上,擴大重生醫學專業知識在全球範圍內要求廣泛的旅行,動手培訓和多年指導。 現在,AI正在改變這一景觀,克服地理局限性並通過EN加速進步

Intel Foundry Direct Connect 2025的關鍵要點Intel Foundry Direct Connect 2025的關鍵要點May 01, 2025 am 11:12 AM

英特爾正努力使其製造工藝重回領先地位,同時努力吸引無晶圓廠半導體客戶在其晶圓廠製造芯片。為此,英特爾必須在業界建立更多信任,不僅要證明其工藝的競爭力,還要證明合作夥伴能夠以熟悉且成熟的工作流程、一致且高可靠性地製造芯片。今天我聽到的一切都讓我相信英特爾正在朝著這個目標前進。 新任首席執行官譚立柏的主題演講拉開了當天的序幕。譚立柏直率而簡潔。他概述了英特爾代工服務的若干挑戰,以及公司為應對這些挑戰、為英特爾代工服務的未來規劃成功路線而採取的措施。譚立柏談到了英特爾代工服務正在實施的流程,以更以客

AI出了問題嗎?現在在那里為此保險AI出了問題嗎?現在在那里為此保險May 01, 2025 am 11:11 AM

全球專業再保險公司Chaucer Group和Armilla AI解決了圍繞AI風險的日益嚴重的問題,已聯手引入了新型的第三方責任(TPL)保險產品。 該政策保護業務不利

See all articles

熱AI工具

Undresser.AI Undress

Undresser.AI Undress

人工智慧驅動的應用程序,用於創建逼真的裸體照片

AI Clothes Remover

AI Clothes Remover

用於從照片中去除衣服的線上人工智慧工具。

Undress AI Tool

Undress AI Tool

免費脫衣圖片

Clothoff.io

Clothoff.io

AI脫衣器

Video Face Swap

Video Face Swap

使用我們完全免費的人工智慧換臉工具,輕鬆在任何影片中換臉!

熱工具

VSCode Windows 64位元 下載

VSCode Windows 64位元 下載

微軟推出的免費、功能強大的一款IDE編輯器

DVWA

DVWA

Damn Vulnerable Web App (DVWA) 是一個PHP/MySQL的Web應用程序,非常容易受到攻擊。它的主要目標是成為安全專業人員在合法環境中測試自己的技能和工具的輔助工具,幫助Web開發人員更好地理解保護網路應用程式的過程,並幫助教師/學生在課堂環境中教授/學習Web應用程式安全性。 DVWA的目標是透過簡單直接的介面練習一些最常見的Web漏洞,難度各不相同。請注意,該軟體中

Atom編輯器mac版下載

Atom編輯器mac版下載

最受歡迎的的開源編輯器

記事本++7.3.1

記事本++7.3.1

好用且免費的程式碼編輯器

SublimeText3 英文版

SublimeText3 英文版

推薦:為Win版本,支援程式碼提示!