ホームページ >テクノロジー周辺機器 >AI >ControlNet 作者の新作: AI ペイントはレイヤーに分割可能!このプロジェクトはオープンソースではないにもかかわらず 660 個の星を獲得しました

ControlNet 作者の新作: AI ペイントはレイヤーに分割可能!このプロジェクトはオープンソースではないにもかかわらず 660 個の星を獲得しました

WBOY
WBOY転載
2024-03-01 15:01:26496ブラウズ

「これは決して単純な切り抜きではありません。」

ControlNet 著者最新の研究は高い注目を集めています---

プロンプトを表示します。安定拡散を使用して、単一または複数の透明レイヤー (PNG) を直接生成できます。

例:

髪がボサボサの女性が寝室にいます。

ControlNet作者新作:AI绘画能分图层了!项目未开源就斩获660 Star

ご覧のとおり、AI はプロンプトに準拠した完全な画像を生成しただけでなく、 背景は文字 から分離することもできます。

そして、キャラクター PNG 画像を拡大してよく見てみると、髪束が明確に定義されていることがわかります。

ControlNet作者新作:AI绘画能分图层了!项目未开源就斩获660 Star

別の例を見てみましょう:

田舎のテーブルの上で薪を燃やしています。
田舎のテーブルの上で薪を燃やしています。

ControlNet作者新作:AI绘画能分图层了!项目未开源就斩获660 Star

同様に、「燃えているマッチ」の PNG (黒煙まで) を拡大してください。

ControlNet作者新作:AI绘画能分图层了!项目未开源就斩获660 Star

これは、ControlNet の作者によって提案された新しい方法です - LayerDiffusion により、大規模な事前処理が可能になります。潜在拡散モデル (潜在拡散モデル) のトレーニングにより、透明な画像が生成されます。

ControlNet作者新作:AI绘画能分图层了!项目未开源就斩获660 Star

LayerDiffusion は決してカットアウトほど単純ではなく、を生成することに焦点を当てていることを再度強調する価値があります。

ネチズンが言ったように:

これは、現在のアニメーションとビデオ制作の中核プロセスの 1 つです。このステップを通過できれば、SD の整合性は問題ではなくなったと言えます。

ControlNet作者新作:AI绘画能分图层了!项目未开源就斩获660 Star

# 一部のネチズンは、このような作業は難しいものではなく、単に「アルファ チャンネルを追加する」だけだと考えていましたが、彼が驚いたのは:

結果が出るまでにとても時間がかかりました。

ControlNet作者新作:AI绘画能分图层了!项目未开源就斩获660 Star

#では、LayerDiffusion はどのように実装されるのでしょうか?

PNG、生成ルートを取り始めました

LayerDiffusion の核となるのは、

潜在透明度 (潜在透明度) と呼ばれるメソッドです。

簡単に言えば、事前トレーニングされた潜在拡散モデル

(安定拡散など) の潜在分布を破壊することなく、モデルに透明性を追加することができます。

ControlNet作者新作:AI绘画能分图层了!项目未开源就斩获660 Star

具体的な実装に関しては、慎重に設計された小さな摂動 (オフセット) を潜像に追加すると理解できます。この摂動は追加のチャネルとしてエンコードされ、RGB チャネルとともに構成されます。完全な潜在的なイメージ。

透明度のエンコードとデコードを実現するために、著者は 2 つの独立したニューラル ネットワーク モデルをトレーニングしました。1 つは 潜在透明度エンコーダー(潜在透明度エンコーダー)、もう 1 つは 潜在透明度エンコーダー (潜在透明度エンコーダー)もう 1 つは

潜在透明デコーダ

(潜在透明デコーダ)

です。

エンコーダは、元の画像の RGB チャネルとアルファ チャネルを入力として受け取り、透明度情報を潜在空間内のオフセットに変換します。 デコーダは、調整された潜像と再構築された RGB 画像を受け取り、潜像空間から透明度情報を抽出して元の透明度画像を再構築します。

追加された潜在的な透明性が事前トレーニングされたモデルの基礎となる分布を破壊しないことを保証するために、著者らは「無害性」の尺度

を提案しています。

ControlNet作者新作:AI绘画能分图层了!项目未开源就斩获660 Starこのメトリクスは、元の事前トレーニング済みモデルのデコーダーによる調整された潜在画像のデコード結果を元の画像と比較することにより、潜在透明度の影響を評価します。

トレーニング プロセス中に、著者は結合損失関数 (結合損失関数) も使用します。これは、再構成損失 ( 再構築loss)

、アイデンティティ損失 (アイデンティティ損失)、および識別子損失

    それらの機能は次のとおりです:
  • 再構成損失: デコードされた画像が元の画像にできるだけ類似していることを確認するために使用されます;
  • アイデンティティ損失:調整された潜像が事前トレーニングされたデコーダによって正しくデコードできることを確認します。
識別子損失: 生成された画像のリアリズムを向上させるために使用されます。

このアプローチを使用すると、調整された潜在空間に合わせて微調整するだけで、あらゆる潜在拡散モデルを透明画像ジェネレーターに変換できます。 ControlNet作者新作:AI绘画能分图层了!项目未开源就斩获660 Star

潜在透明度の概念は、複数の透明レイヤーを生成するように拡張することもできます。また、他の条件付き制御システムと組み合わせて、前景/背景 条件付き生成、ジョイントレイヤー生成、レイヤー内容の構造制御などControlNet作者新作:AI绘画能分图层了!项目未开源就斩获660 Star
ControlNet作者新作:AI绘画能分图层了!项目未开源就斩获660 Star
ControlNet作者新作:AI绘画能分图层了!项目未开源就斩获660 Star

著者は、LayerDiffusion の機能を強化するために ControlNet を導入する方法も示していることは注目に値します。

ControlNet作者新作:AI绘画能分图层了!项目未开源就斩获660 Star

従来のカットアウトとの違い

##LayerDiffusion と従来のカットアウトの違いを簡単にまとめると以下の点になります。

ネイティブ生成と後処理

LayerDiffusion は、生成プロセス中に透明度情報を直接考慮してエンコードする、ネイティブの透明イメージ生成方法です。これは、モデルが画像生成時にアルファ チャネルを作成し、透明度のある画像を生成することを意味します。 従来のマット方法では通常、最初に画像を生成または取得し、次に画像編集技術

(クロマ キー、エッジ検出、ユーザー指定のマスクなど)

を使用して画像を分離します。前景と背景。このアプローチでは、透明度を処理するために追加の手順が必要になることが多く、複雑な背景やエッジに不自然な遷移が生じる可能性があります。

潜在空間操作とピクセル空間操作

LayerDiffusion は、潜在空間 (潜在空間) で動作します。これは、モデルがより複雑な画像特徴を学習して生成できるようにする中間表現です。潜在空間で透明度をエンコードすることにより、モデルはピクセル レベルでの複雑な計算を必要とせずに、生成中に透明度を自然に処理できます。

従来のカットアウト技術は通常、ピクセル空間で実行され、色の置換やエッジのスムージングなど、元の画像の直接編集が含まれる場合があります。これらの方法では、半透明のエフェクト (火、煙など) や複雑なエッジの処理が難しい場合があります。

データセットとトレーニング

LayerDiffusion はトレーニングに大規模なデータセットを使用します。このデータセットには透明な画像のペアが含まれており、モデルが高精細度の生成を学習できるようになります。高品質の透明画像には複雑な分散が必要です。

従来のマッティング手法は、より小規模なデータ セットや特定のトレーニング セットに依存する可能性があり、多様なシナリオを処理する能力が制限される可能性があります。

柔軟性と制御

LayerDiffusion では、ユーザーがテキスト (テキスト プロンプト) を介してプロンプトを表示できるため、柔軟性と制御が向上します。画像を生成し、ブレンドして組み合わせて複雑なシーンを作成できる複数のレイヤーを生成できます。

従来のカットアウト方法は、特に複雑な画像コンテンツや透明度を扱う場合、制御がより制限される可能性があります。

品質比較

ユーザー調査によると、LayerDiffusion によって生成された透明な画像は、ほとんどの場合、ユーザーに好まれることがわかっています (97%) 。これは、透明度が高いことを示しています。生成されるコンテンツは、商用の透明な資産と視覚的に同等か、場合によってはそれよりも優れています。

従来のカットアウト方法では、特に難しい透明度やエッジを扱う場合、同じ品質を達成できない場合があります。

つまり、LayerDiffusion は、透明なイメージを生成および処理するための、より高度で柔軟な方法を提供します。

生成プロセス中に透明度を直接エンコードし、従来のマット方法では達成が困難な高品質の結果を生成できます。

著者について

先ほど述べたように、この研究の著者の 1 人は、有名な ControlNet-

Zhang Lumin の発明者です。

蘇州大学を卒業し、1年生の時にAI絵画に関する論文を発表し、学部時代にトップレベルの作品を10冊発表しました。

Zhang Lumin さんは現在、スタンフォード大学で博士号取得を目指して勉強していますが、非常に控えめな人物であり、Google Scholar にも登録していないと言えます。

ControlNet作者新作:AI绘画能分图层了!项目未开源就斩获660 Star

現時点では、LayerDiffusion は GitHub でオープンソースではありませんが、それでもみんなの注目を集めることができず、すでに 660 個のスターを獲得しています。

ControlNet作者新作:AI绘画能分图层了!项目未开源就斩获660 Star

結局のところ、張魯民はネチズンから「時間管理の達人」とも嘲笑されているので、LayerDiffusion に興味のある友人は、事前にマークすることができます。

ControlNet作者新作:AI绘画能分图层了!项目未开源就斩获660 Star

以上がControlNet 作者の新作: AI ペイントはレイヤーに分割可能!このプロジェクトはオープンソースではないにもかかわらず 660 個の星を獲得しましたの詳細内容です。詳細については、PHP 中国語 Web サイトの他の関連記事を参照してください。

声明:
この記事は51cto.comで複製されています。侵害がある場合は、admin@php.cn までご連絡ください。