「絕不是簡單的摳圖。」
ControlNet作者最新推出的研究受到了一波高度關注—
給一句prompt,用Stable Diffusion可以直接產生單一或多個透明圖層(PNG)!
例如來一句:
頭髮凌亂的女性,在臥室裡。
Woman with messy hair, in the bedroom.
#可以看到,AI不僅產生了符合prompt的完整圖像,就連背景和人物也能分開。
而且把人物PNG圖像放大細看,髮絲那叫一個根根分明。
再看一個例子:
燃燒的柴火,在一張桌子上,在鄉下。
Burning firewood, on a table, in the countryside.
#同樣,放大「燃燒的火柴」的PNG,就連火焰週邊的黑煙都能分離出來:
這就是ControlNet作者提出的新方法-LayerDiffusion,允許大規模預訓練的潛在擴散模型(Latent Diffusion Model)產生透明影像。
值得再強調一次的是,LayerDiffusion絕不是摳圖那麼簡單,重點在於生成。
如網友所說:
這是現在動畫、影片製作最核心的工序之一。這一步能夠過,可以說SD一致性就不再是問題了。
還有網友以為類似這樣的工作並不難,只是「順便加上alpha通道」的事,但令他意外的是:
結果這麼久才有出來的。
那麼LayerDiffusion到底是如何實現的呢?
PNG,現在開始走生成路線了
LayerDiffusion的核心,是一種叫做潛在透明度(latent transparency)的方法。
簡單來說,它可以允許在不破壞預訓練潛在擴散模型(如Stable Diffusion)的潛在分佈的前提下,為模型添加透明度。
在具體實現上,可以理解為在潛在圖像上添加一個精心設計過的小擾動(offset),這種擾動被編碼為一個額外的通道,與RGB通道一起構成完整的潛在圖像。
為了實現透明度的編碼和解碼,作者訓練了兩個獨立的神經網路模型:一個是潛在透明度編碼器(latent transparency encoder),另一個是潛在透明度解碼器(latent transparency decoder)。
編碼器接收原始影像的RGB通道和alpha通道作為輸入,將透明度資訊轉換為潛在空間中的一個偏移量。
而解碼器則接收調整後的潛在影像和重建的RGB影像,從潛在空間中提取出透明度訊息,以重建原始的透明影像。
為了確保添加的潛在透明度不會破壞預訓練模型的潛在分佈,作者提出了一種「無害性」(harmlessness)度量。
這個測量值透過比較原始預訓練模型的解碼器對調整後潛在影像的解碼結果與原始影像的差異,來評估潛在透明度的影響。
在訓練過程中,作者也使用了一個聯合損失函數(joint loss function),它結合了重建損失( reconstruction loss)、身分損失(identity loss)和判別器損失(discriminator loss)。
它們的作用分別是:
- 重建損失:用於確保解碼後的圖像與原始圖像盡可能相似;
- 身份損失:用於確保調整後的潛在影像能夠被預先訓練的解碼器正確解碼;
- 判別器損失:則是用來提高生成影像的真實感。
透過此方法,任何潛在擴散模型都可以轉換為透明影像產生器,只需對其進行微調以適應調整後的潛在空間。
潛在透明度的概念還可以擴展到生成多個透明圖層,以及與其他條件控制系統結合,實現更複雜的影像生成任務,如前景/背景條件產生、聯合圖層產生、圖層內容的結構控制等。
值得一提的是,作者也展示如何把ControlNet引入進來,豐富LayerDiffusion的功能:
與傳統摳圖的區別
至於LayerDiffusion與傳統摳圖上的區別,我們可以簡單歸整為以下幾點。
原生生成 vs. 後處理
LayerDiffusion是一種原生的透明圖像生成方法,它直接在生成過程中考慮並編碼透明度資訊。這意味著模型在生成圖像的同時就創建了透明度通道(alpha channel),從而產生了具有透明度的圖像。
傳統的摳圖方法通常涉及先生成或獲取一個圖像,然後透過圖像編輯技術(如色鍵、邊緣檢測、用戶指定的遮罩等)來分離前景和背景。這種方法通常需要額外的步驟來處理透明度,並且可能在複雜背景或邊緣產生不自然的過渡。
潛在空間操作 vs. 像素空間操作
#LayerDiffusion在潛在空間(latent space)中進行操作,這是一個中間表示,它允許模型學習並產生更複雜的圖像特徵。透過在潛在空間中編碼透明度,模型可以在生成過程中自然地處理透明度,而不需要在像素層級上進行複雜的計算。
傳統的摳圖技術通常在像素空間中進行,這可能涉及對原始影像的直接編輯,如顏色替換、邊緣平滑等。這些方法可能在處理半透明效果(如火焰、煙霧)或複雜邊緣時遇到困難。
資料集和訓練
LayerDiffusion使用了一個大規模的資料集進行訓練,這個資料集包含了透明影像對,使得模型能夠學習到生成高品質透明影像所需的複雜分佈。
傳統的摳圖方法可能依賴較小的資料集或特定的訓練集,這可能限制了它們處理多樣化場景的能力。
靈活性和控制
LayerDiffusion提供了更高的靈活性和控制能力,因為它允許使用者透過文字提示(text prompts)來指導圖像的生成,並且可以生成多個圖層,這些圖層可以被混合和組合以創建複雜的場景。
傳統的摳圖方法可能在控制方面更為有限,尤其是在處理複雜的影像內容和透明度時。
品質比較
用戶研究顯示,LayerDiffusion產生的透明圖像在大多數情況下(97%)被用戶偏好,這表明其產生的透明內容在視覺上與商業透明資產相當,甚至可能更優。
傳統的摳圖方法可能在某些情況下無法達到相同的質量,尤其是在處理具有挑戰性的透明度和邊緣時。
總而言之,LayerDiffusion提供的是一種更先進且靈活的方法來產生和處理透明影像。
它在生成過程中直接編碼透明度,並且能夠產生高品質的結果,這在傳統的摳圖方法中是很難實現的。
關於作者
正如我們剛才提到的,這項研究的作者之一,正是大名鼎鼎的ControlNet的發明人-張呂敏。
他本科就畢業於蘇州大學,大一的時候就發表了與AI繪畫相關的論文,本科期間更是發了10篇頂會一作。
目前張呂敏在史丹佛大學攻讀博士,但他為人可以說是非常低調,連Google Scholar都沒有註冊。
就目前來看,LayerDiffusion在GitHub中並沒有開源,但即便如此也擋不住大家的關注,已經斬獲660顆星。
畢竟張呂敏也被網友調侃為“時間管理大師”,對LayerDiffusion感興趣的小伙伴可以提前mark一波了。
以上是ControlNet作者新作:AI繪畫能分圖層了!專案未開源就斬獲660 Star的詳細內容。更多資訊請關注PHP中文網其他相關文章!

1 前言在发布DALL·E的15个月后,OpenAI在今年春天带了续作DALL·E 2,以其更加惊艳的效果和丰富的可玩性迅速占领了各大AI社区的头条。近年来,随着生成对抗网络(GAN)、变分自编码器(VAE)、扩散模型(Diffusion models)的出现,深度学习已向世人展现其强大的图像生成能力;加上GPT-3、BERT等NLP模型的成功,人类正逐步打破文本和图像的信息界限。在DALL·E 2中,只需输入简单的文本(prompt),它就可以生成多张1024*1024的高清图像。这些图像甚至

Wav2vec 2.0 [1],HuBERT [2] 和 WavLM [3] 等语音预训练模型,通过在多达上万小时的无标注语音数据(如 Libri-light )上的自监督学习,显著提升了自动语音识别(Automatic Speech Recognition, ASR),语音合成(Text-to-speech, TTS)和语音转换(Voice Conversation,VC)等语音下游任务的性能。然而这些模型都没有公开的中文版本,不便于应用在中文语音研究场景。 WenetSpeech [4] 是

“Making large models smaller”这是很多语言模型研究人员的学术追求,针对大模型昂贵的环境和训练成本,陈丹琦在智源大会青源学术年会上做了题为“Making large models smaller”的特邀报告。报告中重点提及了基于记忆增强的TRIME算法和基于粗细粒度联合剪枝和逐层蒸馏的CofiPruning算法。前者能够在不改变模型结构的基础上兼顾语言模型困惑度和检索速度方面的优势;而后者可以在保证下游任务准确度的同时实现更快的处理速度,具有更小的模型结构。陈丹琦 普

由于复杂的注意力机制和模型设计,大多数现有的视觉 Transformer(ViT)在现实的工业部署场景中不能像卷积神经网络(CNN)那样高效地执行。这就带来了一个问题:视觉神经网络能否像 CNN 一样快速推断并像 ViT 一样强大?近期一些工作试图设计 CNN-Transformer 混合架构来解决这个问题,但这些工作的整体性能远不能令人满意。基于此,来自字节跳动的研究者提出了一种能在现实工业场景中有效部署的下一代视觉 Transformer——Next-ViT。从延迟 / 准确性权衡的角度看,

3月27号,Stability AI的创始人兼首席执行官Emad Mostaque在一条推文中宣布,Stable Diffusion XL 现已可用于公开测试。以下是一些事项:“XL”不是这个新的AI模型的官方名称。一旦发布稳定性AI公司的官方公告,名称将会更改。与先前版本相比,图像质量有所提高与先前版本相比,图像生成速度大大加快。示例图像让我们看看新旧AI模型在结果上的差异。Prompt: Luxury sports car with aerodynamic curves, shot in a

译者 | 李睿审校 | 孙淑娟近年来, Transformer 机器学习模型已经成为深度学习和深度神经网络技术进步的主要亮点之一。它主要用于自然语言处理中的高级应用。谷歌正在使用它来增强其搜索引擎结果。OpenAI 使用 Transformer 创建了著名的 GPT-2和 GPT-3模型。自从2017年首次亮相以来,Transformer 架构不断发展并扩展到多种不同的变体,从语言任务扩展到其他领域。它们已被用于时间序列预测。它们是 DeepMind 的蛋白质结构预测模型 AlphaFold

人工智能就是一个「拼财力」的行业,如果没有高性能计算设备,别说开发基础模型,就连微调模型都做不到。但如果只靠拼硬件,单靠当前计算性能的发展速度,迟早有一天无法满足日益膨胀的需求,所以还需要配套的软件来协调统筹计算能力,这时候就需要用到「智能计算」技术。最近,来自之江实验室、中国工程院、国防科技大学、浙江大学等多达十二个国内外研究机构共同发表了一篇论文,首次对智能计算领域进行了全面的调研,涵盖了理论基础、智能与计算的技术融合、重要应用、挑战和未来前景。论文链接:https://spj.scien

说起2010年南非世界杯的最大网红,一定非「章鱼保罗」莫属!这只位于德国海洋生物中心的神奇章鱼,不仅成功预测了德国队全部七场比赛的结果,还顺利地选出了最终的总冠军西班牙队。不幸的是,保罗已经永远地离开了我们,但它的「遗产」却在人们预测足球比赛结果的尝试中持续存在。在艾伦图灵研究所(The Alan Turing Institute),随着2022年卡塔尔世界杯的持续进行,三位研究员Nick Barlow、Jack Roberts和Ryan Chan决定用一种AI算法预测今年的冠军归属。预测模型图


熱AI工具

Undresser.AI Undress
人工智慧驅動的應用程序,用於創建逼真的裸體照片

AI Clothes Remover
用於從照片中去除衣服的線上人工智慧工具。

Undress AI Tool
免費脫衣圖片

Clothoff.io
AI脫衣器

AI Hentai Generator
免費產生 AI 無盡。

熱門文章

熱工具

Atom編輯器mac版下載
最受歡迎的的開源編輯器

Dreamweaver CS6
視覺化網頁開發工具

Dreamweaver Mac版
視覺化網頁開發工具

記事本++7.3.1
好用且免費的程式碼編輯器

MinGW - Minimalist GNU for Windows
這個專案正在遷移到osdn.net/projects/mingw的過程中,你可以繼續在那裡關注我們。 MinGW:GNU編譯器集合(GCC)的本機Windows移植版本,可自由分發的導入函式庫和用於建置本機Windows應用程式的頭檔;包括對MSVC執行時間的擴展,以支援C99功能。 MinGW的所有軟體都可以在64位元Windows平台上運作。