ホームページ  >  記事  >  テクノロジー周辺機器  >  Stable Diffusion-XL はパブリック ベータ版として公開されており、長くて面倒なプロンプトから解放されます。

Stable Diffusion-XL はパブリック ベータ版として公開されており、長くて面倒なプロンプトから解放されます。

WBOY
WBOY転載
2023-04-23 10:16:071585ブラウズ

Midjourney が v5 をリリースして以来、生成された画像内の文字や指の細部のリアリズムが大幅に改善され、迅速な理解、美的多様性、言語理解の精度も向上しました。

対照的に、Stable Diffusion は無料でオープンソースですが、毎回プロンプトの長いリストを作成する必要があり、高品質の画像を生成するにはカードを何度も描画する必要があります。

Midjourney危!Stable Diffusion-XL开启公测:会画手、能写字,再也不用写长prompt了

最近、Stability AI は、開発中の Stable Diffusion XL が一般向けにテストを開始し、現在無料トライアルで利用できることを正式に発表しました。 Clipdrop プラットフォーム上で。

Midjourney危!Stable Diffusion-XL开启公测:会画手、能写字,再也不用写长prompt了

#トライアルリンク: https://clipdrop.co/stable-diffusion

Stability AI の創設者兼 CEO の Emad Mostaque 氏は、モデルはまだトレーニング段階にあり、パラメーターが安定したらオープンソース化される予定であると述べ、SD-XL は「ハンドシェイク」などの画像の詳細でより優れたパフォーマンスを発揮すると述べました。 , ほぼ完全に制御可能。

Midjourney危!Stable Diffusion-XL开启公测:会画手、能写字,再也不用写长prompt了

Stable Diffusion XL は最終リリースの名前ではなく、SD-XL と SD-XL のアーキテクチャのため v3 ではありません。 v2 シリーズ モデルのアーキテクチャは非常に似ています。

Midjourney危!Stable Diffusion-XL开启公测:会画手、能写字,再也不用写长prompt了

##ゴム製の床、壁掛けテレビ、ウェイトベンチ、メディシン ボール、ダンベル、ヨガ マット、ハイテク機器を備えたミニマルなホーム ジムシンプルなホームジム、ゴム製の床、壁掛けテレビ、ウェイトベンチ、メディシン ボール、ダンベル、ヨガ マット、高-技術機器、高度な詳細、組織性と効率

# SD-XL が正式にリリースした次の例では、画像の品質がすでに非常に優れていることがわかります。 。

Midjourney危!Stable Diffusion-XL开启公测:会画手、能写字,再也不用写长prompt了

##しかし、少ないことが多くを意味するとは限りません。一部のネチズンは、SD-XL は「悪趣味」を取り除くためにあまりにも多くのルールを設定しており、カスタマイズの余地はますます小さくなっていると信じています。ほとんどの人の好みに沿っています。 Stable Diffusion (現在 v1.5) は、依然としてコミュニティで最も人気のある基本モデルです。 Midjourney危!Stable Diffusion-XL开启公测:会画手、能写字,再也不用写长prompt了

Midjourney危!Stable Diffusion-XL开启公测:会画手、能写字,再也不用写长prompt了

ネットユーザーは、新しいバージョンの SD が、SD 2.1 バージョンの埋め込み、ハイパーネットワーク、および Lora モデルとの互換性を維持できることを期待しています。一から再訓練するのは難しすぎます。気分が悪いです。

Midjourney危!Stable Diffusion-XL开启公测:会画手、能写字,再也不用写长prompt了

一部のネチズンは、SD-XL のパフォーマンスが、civit ウェブサイトでネチズンによって共有されているモデルに似ていると信じています。新しいモデルの効果は、特別すごいというわけではなく、平均的です。

Midjourney危!Stable Diffusion-XL开启公测:会画手、能写字,再也不用写长prompt了

SD-XL: Midjourney のオープンソース バージョン

公式は Stable Diffusion XL の具体的な情報についてあまり明らかにしていませんでした。現時点では、これが v2 モデルと同様のアーキテクチャを持つモデルであることだけがわかっていますが、スケールとパラメータ数がより大きくなっています。

SD-v2.1 には 9 億個のパラメータが含まれており、SD-XL には約 23 億個のパラメータが含まれていますが、Emad 氏によると、正式版にはさらに小規模な抽出バージョンがリリースされる可能性があるとのことです。

以前のバージョンと比較した SD-XL の改善点は次のとおりです:

  • 短い説明プロンプトを使用して高品質の画像を生成します。
  • #プロンプトによりよく適合する画像を生成できます
  • #画像内の人体の構造はより合理的です
  • v2.1 および v1.5 バージョンと比較すると (程度は低いですが)、SD-XL によって生成された画像は公共の美学により一致しています
  • 否定的なプロンプト言葉 (否定的なプロンプト) を使用できます オプション
  • #結果として得られるポートレートはより現実的になります
  • #画像内のテキストはより鮮明になります
  • SD-XL は以前のバージョンのプラグインと互換性がない可能性があることに注意してください。

明確で読みやすいテキスト

安定拡散モデルの v1 シリーズおよび v2.1 バージョンでは、これを生成することはできません。画像内 文字を読む能力。

SD-XL によって生成されるテキスト情報は必ずしも正確ではありませんが、大幅な改善をもたらします。

Midjourney危!Stable Diffusion-XL开启公测:会画手、能写字,再也不用写长prompt了「Menu」と書かれたメニューを持ってレストランに座っている女性の写真

「Menu」と書かれたメニューを持った女性がレストランに座っています

##「安定拡散」と書かれた看板を持った男性の写真 Midjourney危!Stable Diffusion-XL开启公测:会画手、能写字,再也不用写长prompt了

「安定拡散」ブランド

「安定拡散」と書かれた看板を持った若い女性、髪にハイライトを入れ、レストランの外に座って、茶色の目、ドレスを着て、サイドライトを付けています

#「安定拡散」と書かれた看板を持ち、ハイライトされた髪と茶色の目をした若い女性がレストランの外に座っており、スカートとサイドライトを履いています

#より良い人間の解剖学Stable Diffusion では、人間の解剖学を生成する際に常に多くの問題があり、脚が増えて腕が少なくなるという非常に一般的な問題があります。インペイント機能を使用して画像の詳細をさらに修正するか、ControlNet の Open Pose 機能を使用して参照画像から人体の姿勢をコピーする必要があります。

たとえば、SD-v1.5 でヨガ画像を生成すると、歪んだ人体が表示されることがよくあります。

##ヨガの衣装を着た女性の写真、三角のポーズ、夕方のビーチ、リム照明

Midjourney危!Stable Diffusion-XL开启公测:会画手、能写字,再也不用写长prompt了

ヨガウェアを着た女性の写真、三角形のポーズ、夜のビーチ、エッジ照明##

SD-XL によって生成された画像は完璧ではありませんが、人間の姿勢において大幅な進歩をもたらしました。

Midjourney危!Stable Diffusion-XL开启公测:会画手、能写字,再也不用写长prompt了

より美的

たとえば、同じ家のテーマ、SD-XL を使用すると、写真が生成されます。より対称的で、視覚効果が向上します。

Midjourney危!Stable Diffusion-XL开启公测:会画手、能写字,再也不用写长prompt了

SD-XL では、ポートレート写真も大幅に改善されています。

Midjourney危!Stable Diffusion-XL开启公测:会画手、能写字,再也不用写长prompt了

##女性の写真ショット

写真

プロンプトによりよく適合する画像

SD-XL は入力プロンプトをよりよく理解し、より正確な画像を生成できます。

たとえば、デュオトーン (2 色) を例にとると、SD-v1.5 は白黒画像のみを生成しますが、SD-XL はデュアルトーン画像を生成できます。複数の色。

プロンプトを理解する能力は、v1 モデルと比較して向上しました。

Midjourney危!Stable Diffusion-XL开启公测:会画手、能写字,再也不用写长prompt了

女性のダブルトーンポートレート

ツートーンポートレート

#SD-XL は v2 シリーズ モデルに属しているため、v1 モデルよりもテキスト モデルのサイズが大きく、プロンプトの単語がよりよく理解できます。

Midjourney危!Stable Diffusion-XL开启公测:会画手、能写字,再也不用写长prompt了

たとえば、以下の例では、v1.5 モデルは画像内の 2 つの被写体 (ロボットと人間) を決して理解できませんが、 SD-XL このモデルは通常の画像を生成できます (ただし、ロボットはまだ十分大きくありません)。

Midjourney危!Stable Diffusion-XL开启公测:会画手、能写字,再也不用写长prompt了

人間の隣に座る大きなロボットの友達、攻殻機動隊スタイル、アニメの壁紙

人間の隣に座る大きなロボットの友達、攻殻機動隊スタイルのアニメ壁紙

Midjourney危!Stable Diffusion-XL开启公测:会画手、能写字,再也不用写长prompt了

若い男、髪のハイライト、茶色の目、白いシャツとブルー ジーンズを着て、火山を背景にビーチにいる

髪を染めた若い男非常に明るい茶色の目、白いシャツとブルー ジーンズを着て、火山を背景にビーチに立っています

芸術的なスタイル

芸術的なスタイルの点では、SD-XL は大幅に改善されておらず、以前のバージョンとは異なります。

たとえば、2 つのモデルは、異なる角度からエドワード ホッパー スタイルの画像を生成します。

Midjourney危!Stable Diffusion-XL开启公测:会画手、能写字,再也不用写长prompt了

#ニューヨーク市 by エドワード ホッパー

#ニューヨーク市 by エドワード ホッパー

Leonid Afmov のスタイルでは、SD-v1.5 の方が正確ですが、SD-XL には紛れもないカラフルなボード ブラシストロークが欠けています。

Midjourney危!Stable Diffusion-XL开启公测:会画手、能写字,再也不用写长prompt了

##レオニード・アフレモフによるニューヨーク市

#レオニード・アフレモフNew York

William-Adolphe Bouguereau のスタイルでは、V1.5 と SDXL の両方で同様のコンテンツを生成できますが、その中で SD-XL は古典的なアカデミック スタイルに近いです。ブーグロー絵画によって作成され、顔の詳細が追加されました。

Midjourney危!Stable Diffusion-XL开启公测:会画手、能写字,再也不用写长prompt了美しい女性の肖像 – ウィリアム・アドルフ・ブーグロー作

#ウィリアム・アドルフ・ブーグローが描いた美女の肖像

スタイルの変化の問題

無関係なキーワードをいくつか追加した後、モデルはスタイルを変更します。突然変わるかもしれません。

たとえば、まず写真風の画像を生成します。

#火山を背景にビーチにいる若い男性、髪にハイライト、茶色の目、白いシャツとブルー ジーンズを着た

Midjourney危!Stable Diffusion-XL开启公测:会画手、能写字,再也不用写长prompt了

髪を明るく染め、茶色の目をした白いシャツとブルー ジーンズを着た若い男が、火山を背景にビーチに立っています。

#黄色のスカーフを追加すると、画像のスタイルが漫画のスタイルになります。

##若い男性、髪にハイライト、茶色の目、黄色のスカーフを着用、

白いシャツと青を着ています。火山を背景にした浜辺のジーンズ

Midjourney危!Stable Diffusion-XL开启公测:会画手、能写字,再也不用写长prompt了

明るく染めた髪と茶色の目を持ち、黄色のスカーフを巻き、白いシャツとブルー ジーンズを着た若い男が立っています。火山を背景にしたビーチ

#この問題はプレビューの問題が原因である可能性がありますが、正式リリース後に問題が解決されるかどうかは不明です。 。

以上がStable Diffusion-XL はパブリック ベータ版として公開されており、長くて面倒なプロンプトから解放されます。の詳細内容です。詳細については、PHP 中国語 Web サイトの他の関連記事を参照してください。

声明:
この記事は51cto.comで複製されています。侵害がある場合は、admin@php.cn までご連絡ください。