検索
ホームページテクノロジー周辺機器AIStable Diffusion-XL はパブリック ベータ版として公開されており、長くて面倒なプロンプトから解放されます。

Midjourney が v5 をリリースして以来、生成された画像内の文字や指の細部のリアリズムが大幅に改善され、迅速な理解、美的多様性、言語理解の精度も向上しました。

対照的に、Stable Diffusion は無料でオープンソースですが、毎回プロンプトの長いリストを作成する必要があり、高品質の画像を生成するにはカードを何度も描画する必要があります。

Midjourney危!Stable Diffusion-XL开启公测:会画手、能写字,再也不用写长prompt了

最近、Stability AI は、開発中の Stable Diffusion XL が一般向けにテストを開始し、現在無料トライアルで利用できることを正式に発表しました。 Clipdrop プラットフォーム上で。

Midjourney危!Stable Diffusion-XL开启公测:会画手、能写字,再也不用写长prompt了

#トライアルリンク: https://clipdrop.co/stable-diffusion

Stability AI の創設者兼 CEO の Emad Mostaque 氏は、モデルはまだトレーニング段階にあり、パラメーターが安定したらオープンソース化される予定であると述べ、SD-XL は「ハンドシェイク」などの画像の詳細でより優れたパフォーマンスを発揮すると述べました。 , ほぼ完全に制御可能。

Midjourney危!Stable Diffusion-XL开启公测:会画手、能写字,再也不用写长prompt了

Stable Diffusion XL は最終リリースの名前ではなく、SD-XL と SD-XL のアーキテクチャのため v3 ではありません。 v2 シリーズ モデルのアーキテクチャは非常に似ています。

Midjourney危!Stable Diffusion-XL开启公测:会画手、能写字,再也不用写长prompt了

##ゴム製の床、壁掛けテレビ、ウェイトベンチ、メディシン ボール、ダンベル、ヨガ マット、ハイテク機器を備えたミニマルなホーム ジムシンプルなホームジム、ゴム製の床、壁掛けテレビ、ウェイトベンチ、メディシン ボール、ダンベル、ヨガ マット、高-技術機器、高度な詳細、組織性と効率

# SD-XL が正式にリリースした次の例では、画像の品質がすでに非常に優れていることがわかります。 。

Midjourney危!Stable Diffusion-XL开启公测:会画手、能写字,再也不用写长prompt了

##しかし、少ないことが多くを意味するとは限りません。一部のネチズンは、SD-XL は「悪趣味」を取り除くためにあまりにも多くのルールを設定しており、カスタマイズの余地はますます小さくなっていると信じています。ほとんどの人の好みに沿っています。 Stable Diffusion (現在 v1.5) は、依然としてコミュニティで最も人気のある基本モデルです。 Midjourney危!Stable Diffusion-XL开启公测:会画手、能写字,再也不用写长prompt了

Midjourney危!Stable Diffusion-XL开启公测:会画手、能写字,再也不用写长prompt了

ネットユーザーは、新しいバージョンの SD が、SD 2.1 バージョンの埋め込み、ハイパーネットワーク、および Lora モデルとの互換性を維持できることを期待しています。一から再訓練するのは難しすぎます。気分が悪いです。

Midjourney危!Stable Diffusion-XL开启公测:会画手、能写字,再也不用写长prompt了

一部のネチズンは、SD-XL のパフォーマンスが、civit ウェブサイトでネチズンによって共有されているモデルに似ていると信じています。新しいモデルの効果は、特別すごいというわけではなく、平均的です。

Midjourney危!Stable Diffusion-XL开启公测:会画手、能写字,再也不用写长prompt了

SD-XL: Midjourney のオープンソース バージョン

公式は Stable Diffusion XL の具体的な情報についてあまり明らかにしていませんでした。現時点では、これが v2 モデルと同様のアーキテクチャを持つモデルであることだけがわかっていますが、スケールとパラメータ数がより大きくなっています。

SD-v2.1 には 9 億個のパラメータが含まれており、SD-XL には約 23 億個のパラメータが含まれていますが、Emad 氏によると、正式版にはさらに小規模な抽出バージョンがリリースされる可能性があるとのことです。

以前のバージョンと比較した SD-XL の改善点は次のとおりです:

  • 短い説明プロンプトを使用して高品質の画像を生成します。
  • #プロンプトによりよく適合する画像を生成できます
  • #画像内の人体の構造はより合理的です
  • v2.1 および v1.5 バージョンと比較すると (程度は低いですが)、SD-XL によって生成された画像は公共の美学により一致しています
  • 否定的なプロンプト言葉 (否定的なプロンプト) を使用できます オプション
  • #結果として得られるポートレートはより現実的になります
  • #画像内のテキストはより鮮明になります
  • SD-XL は以前のバージョンのプラグインと互換性がない可能性があることに注意してください。

明確で読みやすいテキスト

安定拡散モデルの v1 シリーズおよび v2.1 バージョンでは、これを生成することはできません。画像内 文字を読む能力。

SD-XL によって生成されるテキスト情報は必ずしも正確ではありませんが、大幅な改善をもたらします。

Midjourney危!Stable Diffusion-XL开启公测:会画手、能写字,再也不用写长prompt了「Menu」と書かれたメニューを持ってレストランに座っている女性の写真

「Menu」と書かれたメニューを持った女性がレストランに座っています

##「安定拡散」と書かれた看板を持った男性の写真 Midjourney危!Stable Diffusion-XL开启公测:会画手、能写字,再也不用写长prompt了

「安定拡散」ブランド

「安定拡散」と書かれた看板を持った若い女性、髪にハイライトを入れ、レストランの外に座って、茶色の目、ドレスを着て、サイドライトを付けています

#「安定拡散」と書かれた看板を持ち、ハイライトされた髪と茶色の目をした若い女性がレストランの外に座っており、スカートとサイドライトを履いています

#より良い人間の解剖学Stable Diffusion では、人間の解剖学を生成する際に常に多くの問題があり、脚が増えて腕が少なくなるという非常に一般的な問題があります。インペイント機能を使用して画像の詳細をさらに修正するか、ControlNet の Open Pose 機能を使用して参照画像から人体の姿勢をコピーする必要があります。

たとえば、SD-v1.5 でヨガ画像を生成すると、歪んだ人体が表示されることがよくあります。

##ヨガの衣装を着た女性の写真、三角のポーズ、夕方のビーチ、リム照明

Midjourney危!Stable Diffusion-XL开启公测:会画手、能写字,再也不用写长prompt了

ヨガウェアを着た女性の写真、三角形のポーズ、夜のビーチ、エッジ照明##

SD-XL によって生成された画像は完璧ではありませんが、人間の姿勢において大幅な進歩をもたらしました。

Midjourney危!Stable Diffusion-XL开启公测:会画手、能写字,再也不用写长prompt了

より美的

たとえば、同じ家のテーマ、SD-XL を使用すると、写真が生成されます。より対称的で、視覚効果が向上します。

Midjourney危!Stable Diffusion-XL开启公测:会画手、能写字,再也不用写长prompt了

SD-XL では、ポートレート写真も大幅に改善されています。

Midjourney危!Stable Diffusion-XL开启公测:会画手、能写字,再也不用写长prompt了

##女性の写真ショット

写真

プロンプトによりよく適合する画像

SD-XL は入力プロンプトをよりよく理解し、より正確な画像を生成できます。

たとえば、デュオトーン (2 色) を例にとると、SD-v1.5 は白黒画像のみを生成しますが、SD-XL はデュアルトーン画像を生成できます。複数の色。

プロンプトを理解する能力は、v1 モデルと比較して向上しました。

Midjourney危!Stable Diffusion-XL开启公测:会画手、能写字,再也不用写长prompt了

女性のダブルトーンポートレート

ツートーンポートレート

#SD-XL は v2 シリーズ モデルに属しているため、v1 モデルよりもテキスト モデルのサイズが大きく、プロンプトの単語がよりよく理解できます。

Midjourney危!Stable Diffusion-XL开启公测:会画手、能写字,再也不用写长prompt了

たとえば、以下の例では、v1.5 モデルは画像内の 2 つの被写体 (ロボットと人間) を決して理解できませんが、 SD-XL このモデルは通常の画像を生成できます (ただし、ロボットはまだ十分大きくありません)。

Midjourney危!Stable Diffusion-XL开启公测:会画手、能写字,再也不用写长prompt了

人間の隣に座る大きなロボットの友達、攻殻機動隊スタイル、アニメの壁紙

人間の隣に座る大きなロボットの友達、攻殻機動隊スタイルのアニメ壁紙

Midjourney危!Stable Diffusion-XL开启公测:会画手、能写字,再也不用写长prompt了

若い男、髪のハイライト、茶色の目、白いシャツとブルー ジーンズを着て、火山を背景にビーチにいる

髪を染めた若い男非常に明るい茶色の目、白いシャツとブルー ジーンズを着て、火山を背景にビーチに立っています

芸術的なスタイル

芸術的なスタイルの点では、SD-XL は大幅に改善されておらず、以前のバージョンとは異なります。

たとえば、2 つのモデルは、異なる角度からエドワード ホッパー スタイルの画像を生成します。

Midjourney危!Stable Diffusion-XL开启公测:会画手、能写字,再也不用写长prompt了

#ニューヨーク市 by エドワード ホッパー

#ニューヨーク市 by エドワード ホッパー

Leonid Afmov のスタイルでは、SD-v1.5 の方が正確ですが、SD-XL には紛れもないカラフルなボード ブラシストロークが欠けています。

Midjourney危!Stable Diffusion-XL开启公测:会画手、能写字,再也不用写长prompt了

##レオニード・アフレモフによるニューヨーク市

#レオニード・アフレモフNew York

William-Adolphe Bouguereau のスタイルでは、V1.5 と SDXL の両方で同様のコンテンツを生成できますが、その中で SD-XL は古典的なアカデミック スタイルに近いです。ブーグロー絵画によって作成され、顔の詳細が追加されました。

Midjourney危!Stable Diffusion-XL开启公测:会画手、能写字,再也不用写长prompt了美しい女性の肖像 – ウィリアム・アドルフ・ブーグロー作

#ウィリアム・アドルフ・ブーグローが描いた美女の肖像

スタイルの変化の問題

無関係なキーワードをいくつか追加した後、モデルはスタイルを変更します。突然変わるかもしれません。

たとえば、まず写真風の画像を生成します。

#火山を背景にビーチにいる若い男性、髪にハイライト、茶色の目、白いシャツとブルー ジーンズを着た

Midjourney危!Stable Diffusion-XL开启公测:会画手、能写字,再也不用写长prompt了

髪を明るく染め、茶色の目をした白いシャツとブルー ジーンズを着た若い男が、火山を背景にビーチに立っています。

#黄色のスカーフを追加すると、画像のスタイルが漫画のスタイルになります。

##若い男性、髪にハイライト、茶色の目、黄色のスカーフを着用、

白いシャツと青を着ています。火山を背景にした浜辺のジーンズ

Midjourney危!Stable Diffusion-XL开启公测:会画手、能写字,再也不用写长prompt了

明るく染めた髪と茶色の目を持ち、黄色のスカーフを巻き、白いシャツとブルー ジーンズを着た若い男が立っています。火山を背景にしたビーチ

#この問題はプレビューの問題が原因である可能性がありますが、正式リリース後に問題が解決されるかどうかは不明です。 。

以上がStable Diffusion-XL はパブリック ベータ版として公開されており、長くて面倒なプロンプトから解放されます。の詳細内容です。詳細については、PHP 中国語 Web サイトの他の関連記事を参照してください。

声明
この記事は51CTO.COMで複製されています。侵害がある場合は、admin@php.cn までご連絡ください。
YOLOv6又快又准的目标检测框架已经开源了YOLOv6又快又准的目标检测框架已经开源了May 09, 2023 pm 02:52 PM

作者:楚怡、凯衡等近日,美团视觉智能部研发了一款致力于工业应用的目标检测框架YOLOv6,能够同时专注于检测的精度和推理效率。在研发过程中,视觉智能部不断进行了探索和优化,同时吸取借鉴了学术界和工业界的一些前沿进展和科研成果。在目标检测权威数据集COCO上的实验结果显示,YOLOv6在检测精度和速度方面均超越其他同体量的算法,同时支持多种不同平台的部署,极大简化工程部署时的适配工作。特此开源,希望能帮助到更多的同学。1.概述YOLOv6是美团视觉智能部研发的一款目标检测框架,致力于工业应用。

基于开源的 ChatGPT Web UI 项目,快速构建属于自己的 ChatGPT 站点基于开源的 ChatGPT Web UI 项目,快速构建属于自己的 ChatGPT 站点Apr 15, 2023 pm 07:43 PM

作为一个技术博主,了不起比较喜欢各种折腾,之前给大家介绍过ChatGPT​接入微信,钉钉和知识星球(如果没看过的可以翻翻前面的文章),最近再看开源项目的时候,发现了一个ChatGPTWebUI项目。想着刚好之前没有将ChatGPT​接入过WebUI,有了这个开源项目可以拿来使用,真是不错,下面是实操的安装步骤,分享给大家。安装官方在Github​的项目文档上提供了很多中的安装方式,包括手动安装,docker​部署,以及远程部署等方法,了不起在选择部署方式的时候,一开始为了简单想着

MLC LLM:开源AI聊天机器人,支持离线运行,适用于集成显卡电脑和iPhone。MLC LLM:开源AI聊天机器人,支持离线运行,适用于集成显卡电脑和iPhone。May 06, 2023 pm 03:46 PM

5月2日消息,目前大多数AI聊天机器人都需要连接到云端进行处理,即使可以本地运行的也配置要求极高。那么是否有轻量化的、无需联网的聊天机器人呢?一个名为MLCLLM的全新开源项目已在GitHub上线,完全本地运行无需联网,甚至集显老电脑、苹果iPhone手机都能运行。MLCLLM项目介绍称:“MLCLLM是一种通用解决方案,它允许将任何语言模型本地部署在一组不同的硬件后端和本地应用程序上,此外还有一个高效的框架,供每个人进一步优化自己用例的模型性能。一切都在本地运行,无需服务器支持,并通过手机和笔

仅需1% Embedding参数,硬件成本降低十倍,开源方案单GPU训练超大推荐模型仅需1% Embedding参数,硬件成本降低十倍,开源方案单GPU训练超大推荐模型Apr 12, 2023 pm 03:46 PM

深度推荐模型(DLRMs)已经成为深度学习在互联网公司应用的最重要技术场景,如视频推荐、购物搜索、广告推送等流量变现业务,极大改善了用户体验和业务商业价值。但海量的用户和业务数据,频繁地迭代更新需求,以及高昂的训练成本,都对 DLRM 训练提出了严峻挑战。在 DLRM 中,需要先在嵌入表(EmbeddingBags)中进行查表(lookup),再完成下游计算。嵌入表常常贡献 DLRM 中 99% 以上的内存需求,却只贡献 1% 的计算量。借助于 GPU 片上高速内存(High Bandwidth

用图像对齐所有模态,Meta开源多感官AI基础模型,实现大一统用图像对齐所有模态,Meta开源多感官AI基础模型,实现大一统May 11, 2023 pm 07:25 PM

在人类的感官中,一张图片可以将很多体验融合到一起,比如一张海滩图片可以让我们想起海浪的声音、沙子的质地、拂面而来的微风,甚至可以激发创作一首诗的灵感。图像的这种「绑定」(binding)属性通过与自身相关的任何感官体验对齐,为学习视觉特征提供了大量监督来源。理想情况下,对于单个联合嵌入空间,视觉特征应该通过对齐所有感官来学习。然而这需要通过同一组图像来获取所有感官类型和组合的配对数据,显然不可行。最近,很多方法学习与文本、音频等对齐的图像特征。这些方法使用单对模态或者最多几种视觉模态。最终嵌入仅

首个大众可用PyTorch版AlphaFold2复现,哥大开源,star量破千首个大众可用PyTorch版AlphaFold2复现,哥大开源,star量破千Apr 13, 2023 am 09:58 AM

刚刚,哥伦比亚大学系统生物学助理教授 Mohammed AlQuraishi 在推特上宣布,他们从头训练了一个名为 OpenFold 的模型,该模型是 AlphaFold2 的可训练 PyTorch 复现版本。Mohammed AlQuraishi 还表示,这是第一个大众可用的 AlphaFold2 复现。AlphaFold2 可以周期性地以原子精度预测蛋白质结构,在技术上利用多序列对齐和深度学习算法设计,并结合关于蛋白质结构的物理和生物学知识提升了预测效果。它实现了 2/3 蛋白质结构预测的卓

Stable Diffusion-XL开启公测,让你摆脱繁琐的长prompt!Stable Diffusion-XL开启公测,让你摆脱繁琐的长prompt!Apr 23, 2023 am 10:16 AM

自从Midjourney发布v5之后,在生成图像的人物真实程度、手指细节等方面都有了显著改善,并且在prompt理解的准确性、审美多样性和语言理解方面也都取得了进步。相比之下,StableDiffusion虽然免费、开源,但每次都要写一大长串的prompt,想生成高质量的图像全靠多次抽卡。最近StabilityAI的官宣,正在研发的StableDiffusionXL开始面向公众测试,目前可以在Clipdrop平台免费试用。试用链接:​https://clipdrop.co/stable-diff

伯克利开源首个泊车场景下的高清数据集和预测模型,支持目标识别、轨迹预测伯克利开源首个泊车场景下的高清数据集和预测模型,支持目标识别、轨迹预测Apr 12, 2023 pm 11:40 PM

在自动驾驶技术不断迭代的当下,车辆的行为和轨迹预测对高效、安全驾驶有着极为重要的意义。动力学模型推演、可达性分析等传统的轨迹预测的方法虽然有着形式明晰、可解释性强的优点,但在复杂的交通环境中,其对于环境和物体交互的建模能力较为有限。因此,近年来大量研究和应用都基于各种深度学习方法(例如 LSTM、CNN、Transformer、GNN 等),各类数据集例如 BDD100K、nuScenes、Stanford Drone、ETH/UCY、INTERACTION、ApolloScape 等也纷纷涌现

See all articles

ホットAIツール

Undresser.AI Undress

Undresser.AI Undress

リアルなヌード写真を作成する AI 搭載アプリ

AI Clothes Remover

AI Clothes Remover

写真から衣服を削除するオンライン AI ツール。

Undress AI Tool

Undress AI Tool

脱衣画像を無料で

Clothoff.io

Clothoff.io

AI衣類リムーバー

AI Hentai Generator

AI Hentai Generator

AIヘンタイを無料で生成します。

ホットツール

ドリームウィーバー CS6

ドリームウィーバー CS6

ビジュアル Web 開発ツール

SecLists

SecLists

SecLists は、セキュリティ テスターの究極の相棒です。これは、セキュリティ評価中に頻繁に使用されるさまざまな種類のリストを 1 か所にまとめたものです。 SecLists は、セキュリティ テスターが必要とする可能性のあるすべてのリストを便利に提供することで、セキュリティ テストをより効率的かつ生産的にするのに役立ちます。リストの種類には、ユーザー名、パスワード、URL、ファジング ペイロード、機密データ パターン、Web シェルなどが含まれます。テスターはこのリポジトリを新しいテスト マシンにプルするだけで、必要なあらゆる種類のリストにアクセスできるようになります。

Safe Exam Browser

Safe Exam Browser

Safe Exam Browser は、オンライン試験を安全に受験するための安全なブラウザ環境です。このソフトウェアは、あらゆるコンピュータを安全なワークステーションに変えます。あらゆるユーティリティへのアクセスを制御し、学生が無許可のリソースを使用するのを防ぎます。

EditPlus 中国語クラック版

EditPlus 中国語クラック版

サイズが小さく、構文の強調表示、コード プロンプト機能はサポートされていません

mPDF

mPDF

mPDF は、UTF-8 でエンコードされた HTML から PDF ファイルを生成できる PHP ライブラリです。オリジナルの作者である Ian Back は、Web サイトから「オンザフライ」で PDF ファイルを出力し、さまざまな言語を処理するために mPDF を作成しました。 HTML2FPDF などのオリジナルのスクリプトよりも遅く、Unicode フォントを使用すると生成されるファイルが大きくなりますが、CSS スタイルなどをサポートし、多くの機能強化が施されています。 RTL (アラビア語とヘブライ語) や CJK (中国語、日本語、韓国語) を含むほぼすべての言語をサポートします。ネストされたブロックレベル要素 (P、DIV など) をサポートします。