ホームページ > 記事 > テクノロジー周辺機器 > Stable Diffusion-XL はパブリック ベータ版として公開されており、長くて面倒なプロンプトから解放されます。
Midjourney が v5 をリリースして以来、生成された画像内の文字や指の細部のリアリズムが大幅に改善され、迅速な理解、美的多様性、言語理解の精度も向上しました。
対照的に、Stable Diffusion は無料でオープンソースですが、毎回プロンプトの長いリストを作成する必要があり、高品質の画像を生成するにはカードを何度も描画する必要があります。
最近、Stability AI は、開発中の Stable Diffusion XL が一般向けにテストを開始し、現在無料トライアルで利用できることを正式に発表しました。 Clipdrop プラットフォーム上で。
#トライアルリンク: https://clipdrop.co/stable-diffusion
Stability AI の創設者兼 CEO の Emad Mostaque 氏は、モデルはまだトレーニング段階にあり、パラメーターが安定したらオープンソース化される予定であると述べ、SD-XL は「ハンドシェイク」などの画像の詳細でより優れたパフォーマンスを発揮すると述べました。 , ほぼ完全に制御可能。
Stable Diffusion XL は最終リリースの名前ではなく、SD-XL と SD-XL のアーキテクチャのため v3 ではありません。 v2 シリーズ モデルのアーキテクチャは非常に似ています。
##ゴム製の床、壁掛けテレビ、ウェイトベンチ、メディシン ボール、ダンベル、ヨガ マット、ハイテク機器を備えたミニマルなホーム ジムシンプルなホームジム、ゴム製の床、壁掛けテレビ、ウェイトベンチ、メディシン ボール、ダンベル、ヨガ マット、高-技術機器、高度な詳細、組織性と効率
# SD-XL が正式にリリースした次の例では、画像の品質がすでに非常に優れていることがわかります。 。
##しかし、少ないことが多くを意味するとは限りません。一部のネチズンは、SD-XL は「悪趣味」を取り除くためにあまりにも多くのルールを設定しており、カスタマイズの余地はますます小さくなっていると信じています。ほとんどの人の好みに沿っています。 Stable Diffusion (現在 v1.5) は、依然としてコミュニティで最も人気のある基本モデルです。
ネットユーザーは、新しいバージョンの SD が、SD 2.1 バージョンの埋め込み、ハイパーネットワーク、および Lora モデルとの互換性を維持できることを期待しています。一から再訓練するのは難しすぎます。気分が悪いです。
一部のネチズンは、SD-XL のパフォーマンスが、civit ウェブサイトでネチズンによって共有されているモデルに似ていると信じています。新しいモデルの効果は、特別すごいというわけではなく、平均的です。
公式は Stable Diffusion XL の具体的な情報についてあまり明らかにしていませんでした。現時点では、これが v2 モデルと同様のアーキテクチャを持つモデルであることだけがわかっていますが、スケールとパラメータ数がより大きくなっています。
SD-v2.1 には 9 億個のパラメータが含まれており、SD-XL には約 23 億個のパラメータが含まれていますが、Emad 氏によると、正式版にはさらに小規模な抽出バージョンがリリースされる可能性があるとのことです。
以前のバージョンと比較した SD-XL の改善点は次のとおりです:
明確で読みやすいテキスト
SD-XL によって生成されるテキスト情報は必ずしも正確ではありませんが、大幅な改善をもたらします。
「Menu」と書かれたメニューを持ってレストランに座っている女性の写真
「Menu」と書かれたメニューを持った女性がレストランに座っています
##「安定拡散」と書かれた看板を持った男性の写真
「安定拡散」ブランド
「安定拡散」と書かれた看板を持った若い女性、髪にハイライトを入れ、レストランの外に座って、茶色の目、ドレスを着て、サイドライトを付けています
#「安定拡散」と書かれた看板を持ち、ハイライトされた髪と茶色の目をした若い女性がレストランの外に座っており、スカートとサイドライトを履いています
#より良い人間の解剖学Stable Diffusion では、人間の解剖学を生成する際に常に多くの問題があり、脚が増えて腕が少なくなるという非常に一般的な問題があります。インペイント機能を使用して画像の詳細をさらに修正するか、ControlNet の Open Pose 機能を使用して参照画像から人体の姿勢をコピーする必要があります。
##ヨガの衣装を着た女性の写真、三角のポーズ、夕方のビーチ、リム照明
ヨガウェアを着た女性の写真、三角形のポーズ、夜のビーチ、エッジ照明## SD-XL によって生成された画像は完璧ではありませんが、人間の姿勢において大幅な進歩をもたらしました。 たとえば、同じ家のテーマ、SD-XL を使用すると、写真が生成されます。より対称的で、視覚効果が向上します。 SD-XL では、ポートレート写真も大幅に改善されています。 ##女性の写真ショット 写真 SD-XL は入力プロンプトをよりよく理解し、より正確な画像を生成できます。 たとえば、デュオトーン (2 色) を例にとると、SD-v1.5 は白黒画像のみを生成しますが、SD-XL はデュアルトーン画像を生成できます。複数の色。 プロンプトを理解する能力は、v1 モデルと比較して向上しました。 女性のダブルトーンポートレート ツートーンポートレート #SD-XL は v2 シリーズ モデルに属しているため、v1 モデルよりもテキスト モデルのサイズが大きく、プロンプトの単語がよりよく理解できます。 たとえば、以下の例では、v1.5 モデルは画像内の 2 つの被写体 (ロボットと人間) を決して理解できませんが、 SD-XL このモデルは通常の画像を生成できます (ただし、ロボットはまだ十分大きくありません)。 人間の隣に座る大きなロボットの友達、攻殻機動隊スタイル、アニメの壁紙 人間の隣に座る大きなロボットの友達、攻殻機動隊スタイルのアニメ壁紙 若い男、髪のハイライト、茶色の目、白いシャツとブルー ジーンズを着て、火山を背景にビーチにいる 髪を染めた若い男非常に明るい茶色の目、白いシャツとブルー ジーンズを着て、火山を背景にビーチに立っています たとえば、2 つのモデルは、異なる角度からエドワード ホッパー スタイルの画像を生成します。
#ニューヨーク市 by エドワード ホッパー #ニューヨーク市 by エドワード ホッパー Leonid Afmov のスタイルでは、SD-v1.5 の方が正確ですが、SD-XL には紛れもないカラフルなボード ブラシストロークが欠けています。 ##レオニード・アフレモフによるニューヨーク市 William-Adolphe Bouguereau のスタイルでは、V1.5 と SDXL の両方で同様のコンテンツを生成できますが、その中で SD-XL は古典的なアカデミック スタイルに近いです。ブーグロー絵画によって作成され、顔の詳細が追加されました。
美しい女性の肖像 – ウィリアム・アドルフ・ブーグロー作 #ウィリアム・アドルフ・ブーグローが描いた美女の肖像 スタイルの変化の問題 たとえば、まず写真風の画像を生成します。 #火山を背景にビーチにいる若い男性、髪にハイライト、茶色の目、白いシャツとブルー ジーンズを着た
髪を明るく染め、茶色の目をした白いシャツとブルー ジーンズを着た若い男が、火山を背景にビーチに立っています。 #黄色のスカーフを追加すると、画像のスタイルが漫画のスタイルになります。 ##若い男性、髪にハイライト、茶色の目、黄色のスカーフを着用、 明るく染めた髪と茶色の目を持ち、黄色のスカーフを巻き、白いシャツとブルー ジーンズを着た若い男が立っています。火山を背景にしたビーチより美的
プロンプトによりよく適合する画像
芸術的なスタイルの点では、SD-XL は大幅に改善されておらず、以前のバージョンとは異なります。 無関係なキーワードをいくつか追加した後、モデルはスタイルを変更します。突然変わるかもしれません。
以上がStable Diffusion-XL はパブリック ベータ版として公開されており、長くて面倒なプロンプトから解放されます。の詳細内容です。詳細については、PHP 中国語 Web サイトの他の関連記事を参照してください。