Midjourney が v5 をリリースして以来、生成された画像内の文字や指の細部のリアリズムが大幅に改善され、迅速な理解、美的多様性、言語理解の精度も向上しました。
対照的に、Stable Diffusion は無料でオープンソースですが、毎回プロンプトの長いリストを作成する必要があり、高品質の画像を生成するにはカードを何度も描画する必要があります。
最近、Stability AI は、開発中の Stable Diffusion XL が一般向けにテストを開始し、現在無料トライアルで利用できることを正式に発表しました。 Clipdrop プラットフォーム上で。
#トライアルリンク: https://clipdrop.co/stable-diffusion
Stability AI の創設者兼 CEO の Emad Mostaque 氏は、モデルはまだトレーニング段階にあり、パラメーターが安定したらオープンソース化される予定であると述べ、SD-XL は「ハンドシェイク」などの画像の詳細でより優れたパフォーマンスを発揮すると述べました。 , ほぼ完全に制御可能。
Stable Diffusion XL は最終リリースの名前ではなく、SD-XL と SD-XL のアーキテクチャのため v3 ではありません。 v2 シリーズ モデルのアーキテクチャは非常に似ています。
##ゴム製の床、壁掛けテレビ、ウェイトベンチ、メディシン ボール、ダンベル、ヨガ マット、ハイテク機器を備えたミニマルなホーム ジムシンプルなホームジム、ゴム製の床、壁掛けテレビ、ウェイトベンチ、メディシン ボール、ダンベル、ヨガ マット、高-技術機器、高度な詳細、組織性と効率
# SD-XL が正式にリリースした次の例では、画像の品質がすでに非常に優れていることがわかります。 。
##しかし、少ないことが多くを意味するとは限りません。一部のネチズンは、SD-XL は「悪趣味」を取り除くためにあまりにも多くのルールを設定しており、カスタマイズの余地はますます小さくなっていると信じています。ほとんどの人の好みに沿っています。 Stable Diffusion (現在 v1.5) は、依然としてコミュニティで最も人気のある基本モデルです。
一部のネチズンは、SD-XL のパフォーマンスが、civit ウェブサイトでネチズンによって共有されているモデルに似ていると信じています。新しいモデルの効果は、特別すごいというわけではなく、平均的です。
SD-XL: Midjourney のオープンソース バージョン
公式は Stable Diffusion XL の具体的な情報についてあまり明らかにしていませんでした。現時点では、これが v2 モデルと同様のアーキテクチャを持つモデルであることだけがわかっていますが、スケールとパラメータ数がより大きくなっています。
SD-v2.1 には 9 億個のパラメータが含まれており、SD-XL には約 23 億個のパラメータが含まれていますが、Emad 氏によると、正式版にはさらに小規模な抽出バージョンがリリースされる可能性があるとのことです。
以前のバージョンと比較した SD-XL の改善点は次のとおりです:
- 短い説明プロンプトを使用して高品質の画像を生成します。
- #プロンプトによりよく適合する画像を生成できます #画像内の人体の構造はより合理的です
- v2.1 および v1.5 バージョンと比較すると (程度は低いですが)、SD-XL によって生成された画像は公共の美学により一致しています
- 否定的なプロンプト言葉 (否定的なプロンプト) を使用できます オプション
- #結果として得られるポートレートはより現実的になります
- #画像内のテキストはより鮮明になります
- SD-XL は以前のバージョンのプラグインと互換性がない可能性があることに注意してください。
明確で読みやすいテキスト
安定拡散モデルの v1 シリーズおよび v2.1 バージョンでは、これを生成することはできません。画像内 文字を読む能力。
SD-XL によって生成されるテキスト情報は必ずしも正確ではありませんが、大幅な改善をもたらします。
「Menu」と書かれたメニューを持ってレストランに座っている女性の写真
「Menu」と書かれたメニューを持った女性がレストランに座っています
##「安定拡散」と書かれた看板を持った男性の写真
「安定拡散」ブランド
「安定拡散」と書かれた看板を持った若い女性、髪にハイライトを入れ、レストランの外に座って、茶色の目、ドレスを着て、サイドライトを付けています
#「安定拡散」と書かれた看板を持ち、ハイライトされた髪と茶色の目をした若い女性がレストランの外に座っており、スカートとサイドライトを履いています
#より良い人間の解剖学Stable Diffusion では、人間の解剖学を生成する際に常に多くの問題があり、脚が増えて腕が少なくなるという非常に一般的な問題があります。インペイント機能を使用して画像の詳細をさらに修正するか、ControlNet の Open Pose 機能を使用して参照画像から人体の姿勢をコピーする必要があります。
たとえば、SD-v1.5 でヨガ画像を生成すると、歪んだ人体が表示されることがよくあります。
##ヨガの衣装を着た女性の写真、三角のポーズ、夕方のビーチ、リム照明
ヨガウェアを着た女性の写真、三角形のポーズ、夜のビーチ、エッジ照明## SD-XL によって生成された画像は完璧ではありませんが、人間の姿勢において大幅な進歩をもたらしました。 たとえば、同じ家のテーマ、SD-XL を使用すると、写真が生成されます。より対称的で、視覚効果が向上します。 SD-XL では、ポートレート写真も大幅に改善されています。 ##女性の写真ショット 写真 SD-XL は入力プロンプトをよりよく理解し、より正確な画像を生成できます。 たとえば、デュオトーン (2 色) を例にとると、SD-v1.5 は白黒画像のみを生成しますが、SD-XL はデュアルトーン画像を生成できます。複数の色。 プロンプトを理解する能力は、v1 モデルと比較して向上しました。 女性のダブルトーンポートレート ツートーンポートレート #SD-XL は v2 シリーズ モデルに属しているため、v1 モデルよりもテキスト モデルのサイズが大きく、プロンプトの単語がよりよく理解できます。 たとえば、以下の例では、v1.5 モデルは画像内の 2 つの被写体 (ロボットと人間) を決して理解できませんが、 SD-XL このモデルは通常の画像を生成できます (ただし、ロボットはまだ十分大きくありません)。 人間の隣に座る大きなロボットの友達、攻殻機動隊スタイル、アニメの壁紙 人間の隣に座る大きなロボットの友達、攻殻機動隊スタイルのアニメ壁紙 若い男、髪のハイライト、茶色の目、白いシャツとブルー ジーンズを着て、火山を背景にビーチにいる 髪を染めた若い男非常に明るい茶色の目、白いシャツとブルー ジーンズを着て、火山を背景にビーチに立っています たとえば、2 つのモデルは、異なる角度からエドワード ホッパー スタイルの画像を生成します。 #ニューヨーク市 by エドワード ホッパー #ニューヨーク市 by エドワード ホッパー Leonid Afmov のスタイルでは、SD-v1.5 の方が正確ですが、SD-XL には紛れもないカラフルなボード ブラシストロークが欠けています。 ##レオニード・アフレモフによるニューヨーク市 William-Adolphe Bouguereau のスタイルでは、V1.5 と SDXL の両方で同様のコンテンツを生成できますが、その中で SD-XL は古典的なアカデミック スタイルに近いです。ブーグロー絵画によって作成され、顔の詳細が追加されました。
#ウィリアム・アドルフ・ブーグローが描いた美女の肖像 スタイルの変化の問題 たとえば、まず写真風の画像を生成します。 #火山を背景にビーチにいる若い男性、髪にハイライト、茶色の目、白いシャツとブルー ジーンズを着た 髪を明るく染め、茶色の目をした白いシャツとブルー ジーンズを着た若い男が、火山を背景にビーチに立っています。 #黄色のスカーフを追加すると、画像のスタイルが漫画のスタイルになります。 ##若い男性、髪にハイライト、茶色の目、黄色のスカーフを着用、 明るく染めた髪と茶色の目を持ち、黄色のスカーフを巻き、白いシャツとブルー ジーンズを着た若い男が立っています。火山を背景にしたビーチより美的
プロンプトによりよく適合する画像
芸術的なスタイルの点では、SD-XL は大幅に改善されておらず、以前のバージョンとは異なります。 美しい女性の肖像 – ウィリアム・アドルフ・ブーグロー作
無関係なキーワードをいくつか追加した後、モデルはスタイルを変更します。突然変わるかもしれません。
以上がStable Diffusion-XL はパブリック ベータ版として公開されており、長くて面倒なプロンプトから解放されます。の詳細内容です。詳細については、PHP 中国語 Web サイトの他の関連記事を参照してください。

作者:楚怡、凯衡等近日,美团视觉智能部研发了一款致力于工业应用的目标检测框架YOLOv6,能够同时专注于检测的精度和推理效率。在研发过程中,视觉智能部不断进行了探索和优化,同时吸取借鉴了学术界和工业界的一些前沿进展和科研成果。在目标检测权威数据集COCO上的实验结果显示,YOLOv6在检测精度和速度方面均超越其他同体量的算法,同时支持多种不同平台的部署,极大简化工程部署时的适配工作。特此开源,希望能帮助到更多的同学。1.概述YOLOv6是美团视觉智能部研发的一款目标检测框架,致力于工业应用。

作为一个技术博主,了不起比较喜欢各种折腾,之前给大家介绍过ChatGPT接入微信,钉钉和知识星球(如果没看过的可以翻翻前面的文章),最近再看开源项目的时候,发现了一个ChatGPTWebUI项目。想着刚好之前没有将ChatGPT接入过WebUI,有了这个开源项目可以拿来使用,真是不错,下面是实操的安装步骤,分享给大家。安装官方在Github的项目文档上提供了很多中的安装方式,包括手动安装,docker部署,以及远程部署等方法,了不起在选择部署方式的时候,一开始为了简单想着

5月2日消息,目前大多数AI聊天机器人都需要连接到云端进行处理,即使可以本地运行的也配置要求极高。那么是否有轻量化的、无需联网的聊天机器人呢?一个名为MLCLLM的全新开源项目已在GitHub上线,完全本地运行无需联网,甚至集显老电脑、苹果iPhone手机都能运行。MLCLLM项目介绍称:“MLCLLM是一种通用解决方案,它允许将任何语言模型本地部署在一组不同的硬件后端和本地应用程序上,此外还有一个高效的框架,供每个人进一步优化自己用例的模型性能。一切都在本地运行,无需服务器支持,并通过手机和笔

深度推荐模型(DLRMs)已经成为深度学习在互联网公司应用的最重要技术场景,如视频推荐、购物搜索、广告推送等流量变现业务,极大改善了用户体验和业务商业价值。但海量的用户和业务数据,频繁地迭代更新需求,以及高昂的训练成本,都对 DLRM 训练提出了严峻挑战。在 DLRM 中,需要先在嵌入表(EmbeddingBags)中进行查表(lookup),再完成下游计算。嵌入表常常贡献 DLRM 中 99% 以上的内存需求,却只贡献 1% 的计算量。借助于 GPU 片上高速内存(High Bandwidth

在人类的感官中,一张图片可以将很多体验融合到一起,比如一张海滩图片可以让我们想起海浪的声音、沙子的质地、拂面而来的微风,甚至可以激发创作一首诗的灵感。图像的这种「绑定」(binding)属性通过与自身相关的任何感官体验对齐,为学习视觉特征提供了大量监督来源。理想情况下,对于单个联合嵌入空间,视觉特征应该通过对齐所有感官来学习。然而这需要通过同一组图像来获取所有感官类型和组合的配对数据,显然不可行。最近,很多方法学习与文本、音频等对齐的图像特征。这些方法使用单对模态或者最多几种视觉模态。最终嵌入仅

刚刚,哥伦比亚大学系统生物学助理教授 Mohammed AlQuraishi 在推特上宣布,他们从头训练了一个名为 OpenFold 的模型,该模型是 AlphaFold2 的可训练 PyTorch 复现版本。Mohammed AlQuraishi 还表示,这是第一个大众可用的 AlphaFold2 复现。AlphaFold2 可以周期性地以原子精度预测蛋白质结构,在技术上利用多序列对齐和深度学习算法设计,并结合关于蛋白质结构的物理和生物学知识提升了预测效果。它实现了 2/3 蛋白质结构预测的卓

自从Midjourney发布v5之后,在生成图像的人物真实程度、手指细节等方面都有了显著改善,并且在prompt理解的准确性、审美多样性和语言理解方面也都取得了进步。相比之下,StableDiffusion虽然免费、开源,但每次都要写一大长串的prompt,想生成高质量的图像全靠多次抽卡。最近StabilityAI的官宣,正在研发的StableDiffusionXL开始面向公众测试,目前可以在Clipdrop平台免费试用。试用链接:https://clipdrop.co/stable-diff

在自动驾驶技术不断迭代的当下,车辆的行为和轨迹预测对高效、安全驾驶有着极为重要的意义。动力学模型推演、可达性分析等传统的轨迹预测的方法虽然有着形式明晰、可解释性强的优点,但在复杂的交通环境中,其对于环境和物体交互的建模能力较为有限。因此,近年来大量研究和应用都基于各种深度学习方法(例如 LSTM、CNN、Transformer、GNN 等),各类数据集例如 BDD100K、nuScenes、Stanford Drone、ETH/UCY、INTERACTION、ApolloScape 等也纷纷涌现


ホットAIツール

Undresser.AI Undress
リアルなヌード写真を作成する AI 搭載アプリ

AI Clothes Remover
写真から衣服を削除するオンライン AI ツール。

Undress AI Tool
脱衣画像を無料で

Clothoff.io
AI衣類リムーバー

AI Hentai Generator
AIヘンタイを無料で生成します。

人気の記事

ホットツール

ドリームウィーバー CS6
ビジュアル Web 開発ツール

SecLists
SecLists は、セキュリティ テスターの究極の相棒です。これは、セキュリティ評価中に頻繁に使用されるさまざまな種類のリストを 1 か所にまとめたものです。 SecLists は、セキュリティ テスターが必要とする可能性のあるすべてのリストを便利に提供することで、セキュリティ テストをより効率的かつ生産的にするのに役立ちます。リストの種類には、ユーザー名、パスワード、URL、ファジング ペイロード、機密データ パターン、Web シェルなどが含まれます。テスターはこのリポジトリを新しいテスト マシンにプルするだけで、必要なあらゆる種類のリストにアクセスできるようになります。

Safe Exam Browser
Safe Exam Browser は、オンライン試験を安全に受験するための安全なブラウザ環境です。このソフトウェアは、あらゆるコンピュータを安全なワークステーションに変えます。あらゆるユーティリティへのアクセスを制御し、学生が無許可のリソースを使用するのを防ぎます。

EditPlus 中国語クラック版
サイズが小さく、構文の強調表示、コード プロンプト機能はサポートされていません

mPDF
mPDF は、UTF-8 でエンコードされた HTML から PDF ファイルを生成できる PHP ライブラリです。オリジナルの作者である Ian Back は、Web サイトから「オンザフライ」で PDF ファイルを出力し、さまざまな言語を処理するために mPDF を作成しました。 HTML2FPDF などのオリジナルのスクリプトよりも遅く、Unicode フォントを使用すると生成されるファイルが大きくなりますが、CSS スタイルなどをサポートし、多くの機能強化が施されています。 RTL (アラビア語とヘブライ語) や CJK (中国語、日本語、韓国語) を含むほぼすべての言語をサポートします。ネストされたブロックレベル要素 (P、DIV など) をサポートします。
