Stable Diffusion-XL はパブリックベータ版として公開されており、長くて面倒なプロンプトから解放されます。-AI-php.cn

ホームページ

テクノロジー周辺機器

Stable Diffusion-XL はパブリックベータ版として公開されており、長くて面倒なプロンプトから解放されます。

WBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWB

Apr 23, 2023 am 10:16 AM

オープンソース

Midjourney が v5 をリリースして以来、生成された画像内の文字や指の細部のリアリズムが大幅に改善され、迅速な理解、美的多様性、言語理解の精度も向上しました。

対照的に、Stable Diffusion は無料でオープンソースですが、毎回プロンプトの長いリストを作成する必要があり、高品質の画像を生成するにはカードを何度も描画する必要があります。

Midjourney危！Stable Diffusion-XL开启公测：会画手、能写字，再也不用写长prompt了

最近、Stability AI は、開発中の Stable Diffusion XL が一般向けにテストを開始し、現在無料トライアルで利用できることを正式に発表しました。 Clipdrop プラットフォーム上で。

Midjourney危！Stable Diffusion-XL开启公测：会画手、能写字，再也不用写长prompt了

#トライアルリンク: https://clipdrop.co/stable-diffusion

Stability AI の創設者兼 CEO の Emad Mostaque 氏は、モデルはまだトレーニング段階にあり、パラメーターが安定したらオープンソース化される予定であると述べ、SD-XL は「ハンドシェイク」などの画像の詳細でより優れたパフォーマンスを発揮すると述べました。 , ほぼ完全に制御可能。

Midjourney危！Stable Diffusion-XL开启公测：会画手、能写字，再也不用写长prompt了

Stable Diffusion XL は最終リリースの名前ではなく、SD-XL と SD-XL のアーキテクチャのため v3 ではありません。 v2 シリーズモデルのアーキテクチャは非常に似ています。

Midjourney危！Stable Diffusion-XL开启公测：会画手、能写字，再也不用写长prompt了

##ゴム製の床、壁掛けテレビ、ウェイトベンチ、メディシンボール、ダンベル、ヨガマット、ハイテク機器を備えたミニマルなホームジムシンプルなホームジム、ゴム製の床、壁掛けテレビ、ウェイトベンチ、メディシンボール、ダンベル、ヨガマット、高-技術機器、高度な詳細、組織性と効率

# SD-XL が正式にリリースした次の例では、画像の品質がすでに非常に優れていることがわかります。。

Midjourney危！Stable Diffusion-XL开启公测：会画手、能写字，再也不用写长prompt了

##しかし、少ないことが多くを意味するとは限りません。一部のネチズンは、SD-XL は「悪趣味」を取り除くためにあまりにも多くのルールを設定しており、カスタマイズの余地はますます小さくなっていると信じています。ほとんどの人の好みに沿っています。 Stable Diffusion (現在 v1.5) は、依然としてコミュニティで最も人気のある基本モデルです。 Midjourney危！Stable Diffusion-XL开启公测：会画手、能写字，再也不用写长prompt了

Midjourney危！Stable Diffusion-XL开启公测：会画手、能写字，再也不用写长prompt了

ネットユーザーは、新しいバージョンの SD が、SD 2.1 バージョンの埋め込み、ハイパーネットワーク、および Lora モデルとの互換性を維持できることを期待しています。一から再訓練するのは難しすぎます。気分が悪いです。

Midjourney危！Stable Diffusion-XL开启公测：会画手、能写字，再也不用写长prompt了

一部のネチズンは、SD-XL のパフォーマンスが、civit ウェブサイトでネチズンによって共有されているモデルに似ていると信じています。新しいモデルの効果は、特別すごいというわけではなく、平均的です。

Midjourney危！Stable Diffusion-XL开启公测：会画手、能写字，再也不用写长prompt了

SD-XL: Midjourney のオープンソースバージョン

公式は Stable Diffusion XL の具体的な情報についてあまり明らかにしていませんでした。現時点では、これが v2 モデルと同様のアーキテクチャを持つモデルであることだけがわかっていますが、スケールとパラメータ数がより大きくなっています。

SD-v2.1 には 9 億個のパラメータが含まれており、SD-XL には約 23 億個のパラメータが含まれていますが、Emad 氏によると、正式版にはさらに小規模な抽出バージョンがリリースされる可能性があるとのことです。

以前のバージョンと比較した SD-XL の改善点は次のとおりです:

短い説明プロンプトを使用して高品質の画像を生成します。
#プロンプトによりよく適合する画像を生成できます
#結果として得られるポートレートはより現実的になります
#画像内のテキストはより鮮明になります
SD-XL は以前のバージョンのプラグインと互換性がない可能性があることに注意してください。

明確で読みやすいテキスト

安定拡散モデルの v1 シリーズおよび v2.1 バージョンでは、これを生成することはできません。画像内文字を読む能力。

SD-XL によって生成されるテキスト情報は必ずしも正確ではありませんが、大幅な改善をもたらします。

Midjourney危！Stable Diffusion-XL开启公测：会画手、能写字，再也不用写长prompt了「Menu」と書かれたメニューを持ってレストランに座っている女性の写真

「Menu」と書かれたメニューを持った女性がレストランに座っています

##「安定拡散」と書かれた看板を持った男性の写真 Midjourney危！Stable Diffusion-XL开启公测：会画手、能写字，再也不用写长prompt了

「安定拡散」ブランド

「安定拡散」と書かれた看板を持った若い女性、髪にハイライトを入れ、レストランの外に座って、茶色の目、ドレスを着て、サイドライトを付けています

#「安定拡散」と書かれた看板を持ち、ハイライトされた髪と茶色の目をした若い女性がレストランの外に座っており、スカートとサイドライトを履いています

#より良い人間の解剖学Stable Diffusion では、人間の解剖学を生成する際に常に多くの問題があり、脚が増えて腕が少なくなるという非常に一般的な問題があります。インペイント機能を使用して画像の詳細をさらに修正するか、ControlNet の Open Pose 機能を使用して参照画像から人体の姿勢をコピーする必要があります。

たとえば、SD-v1.5 でヨガ画像を生成すると、歪んだ人体が表示されることがよくあります。

##ヨガの衣装を着た女性の写真、三角のポーズ、夕方のビーチ、リム照明

Midjourney危！Stable Diffusion-XL开启公测：会画手、能写字，再也不用写长prompt了

ヨガウェアを着た女性の写真、三角形のポーズ、夜のビーチ、エッジ照明##

SD-XL によって生成された画像は完璧ではありませんが、人間の姿勢において大幅な進歩をもたらしました。

Midjourney危！Stable Diffusion-XL开启公测：会画手、能写字，再也不用写长prompt了

より美的

たとえば、同じ家のテーマ、SD-XL を使用すると、写真が生成されます。より対称的で、視覚効果が向上します。

Midjourney危！Stable Diffusion-XL开启公测：会画手、能写字，再也不用写长prompt了

SD-XL では、ポートレート写真も大幅に改善されています。

Midjourney危！Stable Diffusion-XL开启公测：会画手、能写字，再也不用写长prompt了

##女性の写真ショット

写真

プロンプトによりよく適合する画像

SD-XL は入力プロンプトをよりよく理解し、より正確な画像を生成できます。

たとえば、デュオトーン (2 色) を例にとると、SD-v1.5 は白黒画像のみを生成しますが、SD-XL はデュアルトーン画像を生成できます。複数の色。

プロンプトを理解する能力は、v1 モデルと比較して向上しました。

Midjourney危！Stable Diffusion-XL开启公测：会画手、能写字，再也不用写长prompt了

女性のダブルトーンポートレート

ツートーンポートレート

#SD-XL は v2 シリーズモデルに属しているため、v1 モデルよりもテキストモデルのサイズが大きく、プロンプトの単語がよりよく理解できます。

Midjourney危！Stable Diffusion-XL开启公测：会画手、能写字，再也不用写长prompt了

たとえば、以下の例では、v1.5 モデルは画像内の 2 つの被写体 (ロボットと人間) を決して理解できませんが、 SD-XL このモデルは通常の画像を生成できます (ただし、ロボットはまだ十分大きくありません)。

Midjourney危！Stable Diffusion-XL开启公测：会画手、能写字，再也不用写长prompt了

人間の隣に座る大きなロボットの友達、攻殻機動隊スタイル、アニメの壁紙

人間の隣に座る大きなロボットの友達、攻殻機動隊スタイルのアニメ壁紙

Midjourney危！Stable Diffusion-XL开启公测：会画手、能写字，再也不用写长prompt了

若い男、髪のハイライト、茶色の目、白いシャツとブルージーンズを着て、火山を背景にビーチにいる

髪を染めた若い男非常に明るい茶色の目、白いシャツとブルージーンズを着て、火山を背景にビーチに立っています

芸術的なスタイル

芸術的なスタイルの点では、SD-XL は大幅に改善されておらず、以前のバージョンとは異なります。

たとえば、2 つのモデルは、異なる角度からエドワードホッパースタイルの画像を生成します。

Midjourney危！Stable Diffusion-XL开启公测：会画手、能写字，再也不用写长prompt了

#ニューヨーク市 by エドワードホッパー

Leonid Afmov のスタイルでは、SD-v1.5 の方が正確ですが、SD-XL には紛れもないカラフルなボードブラシストロークが欠けています。

Midjourney危！Stable Diffusion-XL开启公测：会画手、能写字，再也不用写长prompt了

##レオニード・アフレモフによるニューヨーク市

#レオニード・アフレモフNew York

William-Adolphe Bouguereau のスタイルでは、V1.5 と SDXL の両方で同様のコンテンツを生成できますが、その中で SD-XL は古典的なアカデミックスタイルに近いです。ブーグロー絵画によって作成され、顔の詳細が追加されました。

Midjourney危！Stable Diffusion-XL开启公测：会画手、能写字，再也不用写长prompt了美しい女性の肖像 – ウィリアム・アドルフ・ブーグロー作

#ウィリアム・アドルフ・ブーグローが描いた美女の肖像

スタイルの変化の問題

無関係なキーワードをいくつか追加した後、モデルはスタイルを変更します。突然変わるかもしれません。

たとえば、まず写真風の画像を生成します。

#火山を背景にビーチにいる若い男性、髪にハイライト、茶色の目、白いシャツとブルージーンズを着た

Midjourney危！Stable Diffusion-XL开启公测：会画手、能写字，再也不用写长prompt了

髪を明るく染め、茶色の目をした白いシャツとブルージーンズを着た若い男が、火山を背景にビーチに立っています。

#黄色のスカーフを追加すると、画像のスタイルが漫画のスタイルになります。

##若い男性、髪にハイライト、茶色の目、黄色のスカーフを着用、

白いシャツと青を着ています。火山を背景にした浜辺のジーンズ

Midjourney危！Stable Diffusion-XL开启公测：会画手、能写字，再也不用写长prompt了

明るく染めた髪と茶色の目を持ち、黄色のスカーフを巻き、白いシャツとブルージーンズを着た若い男が立っています。火山を背景にしたビーチ

#この問題はプレビューの問題が原因である可能性がありますが、正式リリース後に問題が解決されるかどうかは不明です。。

以上がStable Diffusion-XL はパブリックベータ版として公開されており、長くて面倒なプロンプトから解放されます。の詳細内容です。詳細については、PHP 中国語 Web サイトの他の関連記事を参照してください。

声明

この記事は51CTO.COMで複製されています。侵害がある場合は、admin@php.cn までご連絡ください。

AIセラピストがここにいます：あなたが知る必要がある14の画期的なメンタルヘルスツールApr 30, 2025 am 11:17 AM

訓練を受けたセラピストの人間のつながりと直観を提供することはできませんが、多くの人々は、比較的顔のない匿名のAIボットと心配や懸念を共有することを快適に共有していることが研究で示されています。これが常に良いかどうか

食料品の通路にAIを呼びますApr 30, 2025 am 11:16 AM

数十年の技術である人工知能（AI）は、食品小売業界に革命をもたらしています。大規模な効率性の向上とコスト削減から、さまざまなビジネス機能にわたる合理化されたプロセスまで、AIの影響はUndeniablです

あなたの精神を持ち上げるために生成的なAIからPEPの話をするApr 30, 2025 am 11:15 AM

それについて話しましょう。革新的なAIブレークスルーのこの分析は、さまざまなインパクトのあるAIの複雑さを特定して説明するなど、最新のAIで進行中のForbes列のカバレッジの一部です（こちらのリンクを参照）。さらに、私のコンプのために

AI駆動のハイパーパーソナリゼーションがすべてのビジネスにとって必須である理由Apr 30, 2025 am 11:14 AM

プロの画像を維持するには、時折ワードローブの更新が必要です。オンラインショッピングは便利ですが、対面の試練の確実性がありません。私の解決策？ AI駆動のパーソナライズ。衣類の選択をキュレーションするAIアシスタントが想像しています

Duolingoを忘れてください：Google Translateの新しいAI機能は言語を教えていますApr 30, 2025 am 11:13 AM

Google Translateは言語学習機能を追加します Android Authorityによると、App Expert AssemberBugは、Google Translateアプリの最新バージョンには、パーソナライズされたアクティビティを通じてユーザーが言語スキルを向上させるように設計された新しい「実践」モードのテストコードが含まれていることを発見しました。この機能は現在、ユーザーには見えませんが、AssembleDebugはそれを部分的にアクティブにして、新しいユーザーインターフェイス要素の一部を表示できます。アクティブ化すると、この機能は、「ベータ」バッジでマークされた画面の下部に新しい卒業キャップアイコンを追加し、「実践」機能が最初に実験形式でリリースされることを示します。関連するポップアッププロンプトは、「あなたのために調整されたアクティビティを練習してください！」を示しています。つまり、Googleがカスタマイズされたことを意味します

彼らはAIのためにTCP/IPを作成しており、Nandaと呼ばれていますApr 30, 2025 am 11:12 AM

MITの研究者は、AIエージェント向けに設計された画期的なWebプロトコルであるNandaを開発しています。ネットワークエージェントと分散型AIの略であるNandaは、インターネット機能を追加することにより、人類のモデルコンテキストプロトコル（MCP）に基づいて構築され、AI Agenを可能にします

プロンプト：Deepfake Detectionは活況を呈しているビジネスですApr 30, 2025 am 11:11 AM

メタの最新のベンチャー：chatgptに匹敵するAIアプリ Facebook、Instagram、WhatsApp、およびThreadsの親会社であるMetaは、新しいAIを搭載したアプリケーションを立ち上げています。このスタンドアロンアプリであるMeta AIは、OpenaiのChatGptと直接競争することを目指しています。レバー

ビジネスリーダーのためのAIサイバーセキュリティでの次の2年間Apr 30, 2025 am 11:10 AM

AIサイバー攻撃の上昇する潮をナビゲートします最近、人類のためのCISOであるジェイソン・クリントンは、機械間通信が増殖すると、これらの「アイデンティティ」を保護するために、非人間のアイデンティティに結びついた新たなリスクを強調しました。

See all articles

ホットAIツール

Undresser.AI Undress

リアルなヌード写真を作成する AI 搭載アプリ

AI Clothes Remover

写真から衣服を削除するオンライン AI ツール。

Undress AI Tool

脱衣画像を無料で

Clothoff.io

AI衣類リムーバー

Video Face Swap

完全無料の AI 顔交換ツールを使用して、あらゆるビデオの顔を簡単に交換できます。

ホットツール

ゼンドスタジオ 13.0.1

強力な PHP 統合開発環境

MantisBT

Mantis は、製品の欠陥追跡を支援するために設計された、導入が簡単な Web ベースの欠陥追跡ツールです。 PHP、MySQL、Web サーバーが必要です。デモおよびホスティングサービスをチェックしてください。

mPDF

mPDF は、UTF-8 でエンコードされた HTML から PDF ファイルを生成できる PHP ライブラリです。オリジナルの作者である Ian Back は、Web サイトから「オンザフライ」で PDF ファイルを出力し、さまざまな言語を処理するために mPDF を作成しました。 HTML2FPDF などのオリジナルのスクリプトよりも遅く、Unicode フォントを使用すると生成されるファイルが大きくなりますが、CSS スタイルなどをサポートし、多くの機能強化が施されています。 RTL (アラビア語とヘブライ語) や CJK (中国語、日本語、韓国語) を含むほぼすべての言語をサポートします。ネストされたブロックレベル要素 (P、DIV など) をサポートします。