自从Midjourney发布v5之后,在生成图像的人物真实程度、手指细节等方面都有了显著改善,并且在prompt理解的准确性、审美多样性和语言理解方面也都取得了进步。
相比之下,Stable Diffusion虽然免费、开源,但每次都要写一大长串的prompt,想生成高质量的图像全靠多次抽卡。
最近Stability AI的官宣,正在研发的Stable Diffusion XL开始面向公众测试,目前可以在Clipdrop平台免费试用。
试用链接:https://clipdrop.co/stable-diffusion
Stability AI的创始人兼首席执行官Emad Mostaque表示,目前该模型仍然处于训练阶段,等参数稳定后将会开源;SD-XL在「握手」等图像细节方面会表现更好,几乎完全可控。
Stable Diffusion XL也并不是最终发布版的名字,并且也并非是v3,因为SD-XL的架构和SD-v2系列的模型架构非常相似。
Minimalistic home gym with rubber flooring, wall-mounted TV, weight bench, medicine ball, dumbbells, yoga mats, high-tech equipment, high detail, organized and efficient.
简约的家庭健身房,橡胶地板,壁挂式电视,举重凳,药球,哑铃,瑜伽垫,高科技设备,高细节,组织和效率
下面几张SD-XL官方发布的例图,可以看出图像的质量已经非常能打了。
不过有时候less并不代表more,有网友认为SD-XL为了摆脱「糟糕的品味」,设定了太多的规则,定制化空间越来越小,不符合大多数人的喜好。目前v1.5的Stable Diffusion仍然是社区内最流行的基座模型。
网友表示希望新版SD能够和SD 2.1版本的嵌入、hypernetworkds和Lora模型保持兼容,再从零开始重训的话就太难受了。
也有网友认为,SD-XL的表现和civit网站上网友分享的模型差不多,新模型的效果也并不是特别惊艳,也就是平均水平。
SD-XL:開源版Midjourney
關於Stable Diffusion XL模型的具體信息,官方並沒有透露太多,目前只知道是與v2模型架構相似、但規模和參數量較大的模型。
SD-v2.1包含9億參數,SD-XL大約有23億參數,Emad表示正式版可能會額外發表一個較小的蒸餾版本。
SD-XL相比先前版本的改進如下:
- #使用較短的描述性prompt即可產生高品質圖像
- 可以產生更貼合prompt的圖像
- #圖片中的人體結構更合理
- 與v2.1和v1.5版本(程度較輕)相比,SD-XL產生的圖片更符合大眾美學
- 負面提示詞(negative prompt)是可選項
- 產生的肖像圖更逼真
- #圖片中的文字更清晰
要注意的是,SD-XL可能與先前版本的插件不相容。
清晰可讀的文字
在v1系列和v2.1版本的Stable Diffusion模型中,並不具備在圖片中生成可讀文本的能力。
雖然SD-XL產生的文字訊息並不總是準確,但確實得到了巨大的提升。
Photo of a woman sitting in a restaurant holding a menu that says “Menu”
一個女人坐在餐廳裡拿著寫著「Menu」的選單
Photo of a man holding a sign that says “Stable Diffusion”
##一個男人寫著寫著“ Stable Diffusion」的牌子
a young female holding a sign that says “Stable Diffusion”, highlights in hair, sitting outside restaurant, brown eyes, wearing a dress , side light
一個年輕的女性舉著一個牌子,上面寫著“Stable Diffusion”,頭髮高亮,坐在餐廳外面,棕色的眼睛,穿著裙子,側燈
更好的人體結構
Stable Diffusion在產生人體解剖結構方面一直存在諸多問題,多幾條腿、少個手臂實在是太常見不過的問題,通常需要使用inpaint功能進一步對圖像細節進行修正;或者是使用ControlNet的Open Pose功能從參考圖像中復制人體的姿態。
比如說SD-v1.5產生瑜珈的圖像,常常會出現扭曲的人體。
Photo of a woman in yoga outfit, triangle pose, beach in evening, rim lighting
#一個女人的照片在瑜珈服裝,三角形的姿勢,海灘在晚上,邊緣照明
SD-XL虽然生成的图像并不完美,不过在人体姿态方面已经有了显著的进步。
更有美感(more aesthetic)
比如同样以屋子为主题,SD-XL可以生成更对称、视觉效果更好的照片。
SD-XL在肖像照片上也有显著改进。
photo shot of a woman
一个女人的照片
更贴合prompt的图像
SD-XL可以更好地理解输入的prompt,并生成更精确的图像。
比如以duotone(双色)为例,SD-v1.5只会生成黑白图像,而SD-XL则可以生成具有多种颜色的双色调图像。
与 v1模型相比,理解提示符的能力有所提高。
duotone portrait of a woman
一个女人的双色调肖像
因为SD-XL同属v2系列模型,所以文本模型尺寸更大,可以比v1模型更好地理解提示词。
比如下面的例子中,v1.5模型始终无法理解图像中的两个主题(机器人和人类),但SD-XL模型可以生成正常的图像(虽然机器人还是不够big)。
big robot friend sitting next to a human, ghost in the shell style, anime wallpaper
大机器人朋友坐在人类旁边攻壳机动队风格的动漫壁纸
a young man, highlights in hair, brown eyes, in white shirt and blue jean on a beach with a volcano in background
一个年轻人,头发染得很亮,棕色眼睛,穿着白衬衫和蓝色牛仔裤,站在海滩上,背景是一座火山
艺术风格
在艺术风格上,SD-XL并没有显著改进,和之前的版本各有千秋。
比如两个模型以不同的角度生成了Edward Hopper风格的图像。
New York city by Edward Hopper
Edward Hopper繪製的紐約
Leonid Afmov 的風格中,SD-v1.5更準確,SD-XL缺少了不同顏色的筆刷(unmistakable colorful board brushstrokes)。
New York city by Leonid Afremov
Leonid Afemov在繪製的紐約
William-Adolphe Bouguereau風格中,V1.5和SDXL都可以產生一些類似的內容,其中SD-XL更接近Bouguereau創作的經典學院派繪畫,並且臉部細節更多。
Portrait of beautiful woman by William-Adolphe Bouguereau
William-Adolphe Bouguereau繪製的美女肖像
風格轉變問題
在添加一些無關緊要的關鍵字後,模型的風格可能會突然轉變。
例如先生成一張照片風格的圖像。
a young man, highlights in hair, brown eyes, in white shirt and blue jean on a beach with a volcano in background
一個年輕人,頭髮染得很亮,棕色眼睛,穿著白襯衫和藍色牛仔褲,站在海灘上,背景是一座火山
再增加一條黃色的圍巾後,圖像風格就變成了卡通風格。
a young man, highlights in hair, brown eyes, wearing a yellow scarf, in white shirt and blue jean on a beach with a volcano in background
一個年輕人,頭髮染得很亮,棕色的眼睛,圍著黃色的圍巾,穿著白襯衫和藍色牛仔褲,站在一個火山為背景的海灘上
問題的故障可能源於預覽問題,在正式發布後該問題不知能否得到解決。
以上是Stable Diffusion-XL開啟公測,讓你擺脫繁瑣的長prompt!的詳細內容。更多資訊請關注PHP中文網其他相關文章!

由於AI的快速整合而加劇了工作場所的迅速危機危機,要求戰略轉變以外的增量調整。 WTI的調查結果強調了這一點:68%的員工在工作量上掙扎,導致BUR

約翰·塞爾(John Searle)的中國房間論點:對AI理解的挑戰 Searle的思想實驗直接質疑人工智能是否可以真正理解語言或具有真正意識。 想像一個人,對下巴一無所知

與西方同行相比,中國的科技巨頭在AI開發方面的課程不同。 他們不專注於技術基準和API集成,而是優先考慮“屏幕感知” AI助手 - AI T

MCP:賦能AI系統訪問外部工具 模型上下文協議(MCP)讓AI應用能夠通過標準化接口與外部工具和數據源交互。由Anthropic開發並得到主要AI提供商的支持,MCP允許語言模型和智能體發現可用工具並使用合適的參數調用它們。然而,實施MCP服務器存在一些挑戰,包括環境衝突、安全漏洞以及跨平台行為不一致。 Forbes文章《Anthropic的模型上下文協議是AI智能體發展的一大步》作者:Janakiram MSVDocker通過容器化解決了這些問題。基於Docker Hub基礎設施構建的Doc

有遠見的企業家採用的六種策略,他們利用尖端技術和精明的商業敏銳度來創造高利潤的可擴展公司,同時保持控制。本指南是針對有抱負的企業家的,旨在建立一個

Google Photos的新型Ultra HDR工具:改變圖像增強的遊戲規則 Google Photos推出了一個功能強大的Ultra HDR轉換工具,將標準照片轉換為充滿活力的高動態範圍圖像。這種增強功能受益於攝影師

技術架構解決了新興的身份驗證挑戰 代理身份集線器解決了許多組織僅在開始AI代理實施後發現的問題,即傳統身份驗證方法不是為機器設計的

(注意:Google是我公司的諮詢客戶,Moor Insights&Strateging。) AI:從實驗到企業基金會 Google Cloud Next 2025展示了AI從實驗功能到企業技術的核心組成部分的演變,


熱AI工具

Undresser.AI Undress
人工智慧驅動的應用程序,用於創建逼真的裸體照片

AI Clothes Remover
用於從照片中去除衣服的線上人工智慧工具。

Undress AI Tool
免費脫衣圖片

Clothoff.io
AI脫衣器

Video Face Swap
使用我們完全免費的人工智慧換臉工具,輕鬆在任何影片中換臉!

熱門文章

熱工具

EditPlus 中文破解版
體積小,語法高亮,不支援程式碼提示功能

記事本++7.3.1
好用且免費的程式碼編輯器

SublimeText3漢化版
中文版,非常好用

Dreamweaver Mac版
視覺化網頁開發工具

MinGW - Minimalist GNU for Windows
這個專案正在遷移到osdn.net/projects/mingw的過程中,你可以繼續在那裡關注我們。 MinGW:GNU編譯器集合(GCC)的本機Windows移植版本,可自由分發的導入函式庫和用於建置本機Windows應用程式的頭檔;包括對MSVC執行時間的擴展,以支援C99功能。 MinGW的所有軟體都可以在64位元Windows平台上運作。