搜尋
首頁科技週邊人工智慧ControlNet作者新作:AI繪畫能分圖層了!專案未開源就斬獲660 Star

「絕不是簡單的摳圖。」

ControlNet作者最新推出的研究受到了一波高度關注—

給一句prompt,用Stable Diffusion可以直接產生單一或多個透明圖層(PNG)

例如來一句:

頭髮凌亂的女性,在臥室裡。
Woman with messy hair, in the bedroom.

ControlNet作者新作:AI绘画能分图层了!项目未开源就斩获660 Star

#可以看到,AI不僅產生了符合prompt的完整圖像,就連背景和人物也能分開

而且把人物PNG圖像放大細看,髮絲那叫一個根根分明。

ControlNet作者新作:AI绘画能分图层了!项目未开源就斩获660 Star

再看一個例子:

燃燒的柴火,在一張桌子上,在鄉下。
Burning firewood, on a table, in the countryside.

ControlNet作者新作:AI绘画能分图层了!项目未开源就斩获660 Star

#同樣,放大「燃燒的火柴」的PNG,就連火焰週邊的黑煙都能分離出來:

ControlNet作者新作:AI绘画能分图层了!项目未开源就斩获660 Star

這就是ControlNet作者提出的新方法-LayerDiffusion,允許大規模預訓練的潛在擴散模型(Latent Diffusion Model)產生透明影像。

ControlNet作者新作:AI绘画能分图层了!项目未开源就斩获660 Star

值得再強調一次的是,LayerDiffusion絕不是摳圖那麼簡單,重點在於生成

如網友所說:

這是現在動畫、影片製作最核心的工序之一。這一步能夠過,可以說SD一致性就不再是問題了。

ControlNet作者新作:AI绘画能分图层了!项目未开源就斩获660 Star

還有網友以為類似這樣的工作並不難,只是「順便加上alpha通道」的事,但令他意外的是:

結果這麼久才有出來的。

ControlNet作者新作:AI绘画能分图层了!项目未开源就斩获660 Star

那麼LayerDiffusion到底是如何實現的呢?

PNG,現在開始走生成路線了

LayerDiffusion的核心,是一種叫做潛在透明度(latent transparency)的方法。

簡單來說,它可以允許在不破壞預訓練潛在擴散模型(如Stable Diffusion)的潛在分佈的前提下,為模型添加透明度。

ControlNet作者新作:AI绘画能分图层了!项目未开源就斩获660 Star

在具體實現上,可以理解為在潛在圖像上添加一個精心設計過的小擾動(offset),這種擾動被編碼為一個額外的通道,與RGB通道一起構成完整的潛在圖像。

為了實現透明度的編碼和解碼,作者訓練了兩個獨立的神經網路模型:一個是潛在透明度編碼器(latent transparency encoder),另一個是潛在透明度解碼器(latent transparency decoder)

編碼器接收原始影像的RGB通道和alpha通道作為輸入,將透明度資訊轉換為潛在空間中的一個偏移量。

而解碼器則接收調整後的潛在影像和重建的RGB影像,從潛在空間中提取出透明度訊息,以重建原始的透明影像。

為了確保添加的潛在透明度不會破壞預訓練模型的潛在分佈,作者提出了一種「無害性」(harmlessness)度量。

這個測量值透過比較原始預訓練模型的解碼器對調整後潛在影像的解碼結果與原始影像的差異,來評估潛在透明度的影響。

ControlNet作者新作:AI绘画能分图层了!项目未开源就斩获660 Star

在訓練過程中,作者也使用了一個聯合損失函數(joint loss function),它結合了重建損失( reconstruction loss)、身分損失(identity loss)和判別器損失(discriminator loss)

它們的作用分別是:

  • 重建損失:用於確保解碼後的圖像與原始圖像盡可能相似;
  • 身份損失:用於確保調整後的潛在影像能夠被預先訓練的解碼器正確解碼;
  • 判別器損失:則是用來提高生成影像的真實感。

透過此方法,任何潛在擴散模型都可以轉換為透明影像產生器,只需對其進行微調以適應調整後的潛在空間。

ControlNet作者新作:AI绘画能分图层了!项目未开源就斩获660 Star

潛在透明度的概念還可以擴展到生成多個透明圖層,以及與其他條件控制系統結合,實現更複雜的影像生成任務,如前景/背景條件產生、聯合圖層產生、圖層內容的結構控制等。

ControlNet作者新作:AI绘画能分图层了!项目未开源就斩获660 Star
ControlNet作者新作:AI绘画能分图层了!项目未开源就斩获660 Star
ControlNet作者新作:AI绘画能分图层了!项目未开源就斩获660 Star

值得一提的是,作者也展示如何把ControlNet引入進來,豐富LayerDiffusion的功能:

ControlNet作者新作:AI绘画能分图层了!项目未开源就斩获660 Star

與傳統摳圖的區別

至於LayerDiffusion與傳統摳圖上的區別,我們可以簡單歸整為以下幾點。

原生生成 vs. 後處理

LayerDiffusion是一種原生的透明圖像生成方法,它直接在生成過程中考慮並編碼透明度資訊。這意味著模型在生成圖像的同時就創建了透明度通道(alpha channel),從而產生了具有透明度的圖像。

傳統的摳圖方法通常涉及先生成或獲取一個圖像,然後透過圖像編輯技術(如色鍵、邊緣檢測、用戶指定的遮罩等)來分離前景和背景。這種方法通常需要額外的步驟來處理透明度,並且可能在複雜背景或邊緣產生不自然的過渡。

潛在空間操作 vs. 像素空間操作

#

LayerDiffusion在潛在空間(latent space)中進行操作,這是一個中間表示,它允許模型學習並產生更複雜的圖像特徵。透過在潛在空間中編碼透明度,模型可以在生成過程中自然地處理透明度,而不需要在像素層級上進行複雜的計算。

傳統的摳圖技術通常在像素空間中進行,這可能涉及對原始影像的直接編輯,如顏色替換、邊緣平滑等。這些方法可能在處理半透明效果(如火焰、煙霧)或複雜邊緣時遇到困難。

資料集和訓練

LayerDiffusion使用了一個大規模的資料集進行訓練,這個資料集包含了透明影像對,使得模型能夠學習到生成高品質透明影像所需的複雜分佈。

傳統的摳圖方法可能依賴較小的資料集或特定的訓練集,這可能限制了它們處理多樣化場景的能力。

靈活性和控制

LayerDiffusion提供了更高的靈活性和控制能力,因為它允許使用者透過文字提示(text prompts)來指導圖像的生成,並且可以生成多個圖層,這些圖層可以被混合和組合以創建複雜的場景。

傳統的摳圖方法可能在控制方面更為有限,尤其是在處理複雜的影像內容和透明度時。

品質比較

用戶研究顯示,LayerDiffusion產生的透明圖像在大多數情況下(97%)被用戶偏好,這表明其產生的透明內容在視覺上與商業透明資產相當,甚至可能更優。

傳統的摳圖方法可能在某些情況下無法達到相同的質量,尤其是在處理具有挑戰性的透明度和邊緣時。

總而言之,LayerDiffusion提供的是一種更先進且靈活的方法來產生和處理透明影像。

它在生成過程中直接編碼透明度,並且能夠產生高品質的結果,這在傳統的摳圖方法中是很難實現的。

關於作者

正如我們剛才提到的,這項研究的作者之一,正是大名鼎鼎的ControlNet的發明人-張呂敏

他本科就畢業於蘇州大學,大一的時候就發表了與AI繪畫相關的論文,本科期間更是發了10篇頂會一作。

目前張呂敏在史丹佛大學攻讀博士,但他為人可以說是非常低調,連Google Scholar都沒有註冊。

ControlNet作者新作:AI绘画能分图层了!项目未开源就斩获660 Star

就目前來看,LayerDiffusion在GitHub中並沒有開源,但即便如此也擋不住大家的關注,已經斬獲660顆星。

ControlNet作者新作:AI绘画能分图层了!项目未开源就斩获660 Star

畢竟張呂敏也被網友調侃為“時間管理大師”,對LayerDiffusion感興趣的小伙伴可以提前mark一波了。

ControlNet作者新作:AI绘画能分图层了!项目未开源就斩获660 Star

以上是ControlNet作者新作:AI繪畫能分圖層了!專案未開源就斬獲660 Star的詳細內容。更多資訊請關注PHP中文網其他相關文章!

陳述
本文轉載於:51CTO.COM。如有侵權,請聯絡admin@php.cn刪除
META的新AI助手:生產力助推器還是時間下沉?META的新AI助手:生產力助推器還是時間下沉?May 01, 2025 am 11:18 AM

Meta攜手Nvidia、IBM和Dell等合作夥伴,拓展了Llama Stack的企業級部署整合。在安全方面,Meta推出了Llama Guard 4、LlamaFirewall和CyberSecEval 4等新工具,並啟動了Llama Defenders計劃,以增強AI安全性。此外,Meta還向10個全球機構(包括致力於改善公共服務、醫療保健和教育的初創企業)發放了總額150萬美元的Llama Impact Grants。 由Llama 4驅動的全新Meta AI應用,被設想為Meta AI

80%的Zers將嫁給AI:研究80%的Zers將嫁給AI:研究May 01, 2025 am 11:17 AM

公司開創性的人類互動公司Joi AI介紹了“ AI-Iatsionship”一詞來描述這些不斷發展的關係。 Joi AI的關係治療師Jaime Bronstein澄清說,這並不是要取代人類C

AI使互聯網的機器人問題變得更糟。這家耗資20億美元的創業公司在前線AI使互聯網的機器人問題變得更糟。這家耗資20億美元的創業公司在前線May 01, 2025 am 11:16 AM

在線欺詐和機器人攻擊對企業構成了重大挑戰。 零售商與機器人ho積產品,銀行戰斗帳戶接管以及社交媒體平台與模仿者鬥爭。 AI的興起加劇了這個問題,Rende

賣給機器人:將創造或破壞業務的營銷革命賣給機器人:將創造或破壞業務的營銷革命May 01, 2025 am 11:15 AM

AI代理人有望徹底改變營銷,並可能超過以前技術轉變的影響。 這些代理代表了生成AI的重大進步,不僅是處理諸如chatgpt之類的處理信息,而且還採取了Actio

計算機視覺技術如何改變NBA季后賽主持人計算機視覺技術如何改變NBA季后賽主持人May 01, 2025 am 11:14 AM

人工智能對關鍵NBA遊戲4決策的影響 兩場關鍵遊戲4 NBA對決展示了AI在主持儀式中改變遊戲規則的角色。 首先,丹佛的尼古拉·喬基奇(Nikola Jokic)錯過了三分球,導致亞倫·戈登(Aaron Gordon)的最後一秒鐘。 索尼的鷹

AI如何加速再生醫學的未來AI如何加速再生醫學的未來May 01, 2025 am 11:13 AM

傳統上,擴大重生醫學專業知識在全球範圍內要求廣泛的旅行,動手培訓和多年指導。 現在,AI正在改變這一景觀,克服地理局限性並通過EN加速進步

Intel Foundry Direct Connect 2025的關鍵要點Intel Foundry Direct Connect 2025的關鍵要點May 01, 2025 am 11:12 AM

英特爾正努力使其製造工藝重回領先地位,同時努力吸引無晶圓廠半導體客戶在其晶圓廠製造芯片。為此,英特爾必須在業界建立更多信任,不僅要證明其工藝的競爭力,還要證明合作夥伴能夠以熟悉且成熟的工作流程、一致且高可靠性地製造芯片。今天我聽到的一切都讓我相信英特爾正在朝著這個目標前進。 新任首席執行官譚立柏的主題演講拉開了當天的序幕。譚立柏直率而簡潔。他概述了英特爾代工服務的若干挑戰,以及公司為應對這些挑戰、為英特爾代工服務的未來規劃成功路線而採取的措施。譚立柏談到了英特爾代工服務正在實施的流程,以更以客

AI出了問題嗎?現在在那里為此保險AI出了問題嗎?現在在那里為此保險May 01, 2025 am 11:11 AM

全球專業再保險公司Chaucer Group和Armilla AI解決了圍繞AI風險的日益嚴重的問題,已聯手引入了新型的第三方責任(TPL)保險產品。 該政策保護業務不利

See all articles

熱AI工具

Undresser.AI Undress

Undresser.AI Undress

人工智慧驅動的應用程序,用於創建逼真的裸體照片

AI Clothes Remover

AI Clothes Remover

用於從照片中去除衣服的線上人工智慧工具。

Undress AI Tool

Undress AI Tool

免費脫衣圖片

Clothoff.io

Clothoff.io

AI脫衣器

Video Face Swap

Video Face Swap

使用我們完全免費的人工智慧換臉工具,輕鬆在任何影片中換臉!

熱工具

SublimeText3 Linux新版

SublimeText3 Linux新版

SublimeText3 Linux最新版

SublimeText3漢化版

SublimeText3漢化版

中文版,非常好用

Dreamweaver CS6

Dreamweaver CS6

視覺化網頁開發工具

EditPlus 中文破解版

EditPlus 中文破解版

體積小,語法高亮,不支援程式碼提示功能

WebStorm Mac版

WebStorm Mac版

好用的JavaScript開發工具