ControlNet 作者の新作: AI ペイントはレイヤーに分割可能!このプロジェクトはオープンソースではないにもかかわらず 660 個の星を獲得しました-AI-php.cn

ホームページ

テクノロジー周辺機器

ControlNet 作者の新作: AI ペイントはレイヤーに分割可能!このプロジェクトはオープンソースではないにもかかわらず 660 個の星を獲得しました

WBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWB

Mar 01, 2024 pm 03:01 PM

モデル電車

「これは決して単純な切り抜きではありません。」

ControlNet 著者最新の研究は高い注目を集めています---

プロンプトを表示します。安定拡散を使用して、単一または複数の透明レイヤー (PNG) を直接生成できます。

例:

髪がボサボサの女性が寝室にいます。

ControlNet作者新作：AI绘画能分图层了！项目未开源就斩获660 Star

ご覧のとおり、AI はプロンプトに準拠した完全な画像を生成しただけでなく、 背景は文字 から分離することもできます。

そして、キャラクター PNG 画像を拡大してよく見てみると、髪束が明確に定義されていることがわかります。

ControlNet作者新作：AI绘画能分图层了！项目未开源就斩获660 Star

別の例を見てみましょう:

田舎のテーブルの上で薪を燃やしています。
田舎のテーブルの上で薪を燃やしています。

ControlNet作者新作：AI绘画能分图层了！项目未开源就斩获660 Star

同様に、「燃えているマッチ」の PNG (黒煙まで) を拡大してください。

ControlNet作者新作：AI绘画能分图层了！项目未开源就斩获660 Star

これは、ControlNet の作者によって提案された新しい方法です - LayerDiffusion により、大規模な事前処理が可能になります。潜在拡散モデル (潜在拡散モデル) のトレーニングにより、透明な画像が生成されます。

ControlNet作者新作：AI绘画能分图层了！项目未开源就斩获660 Star

LayerDiffusion は決してカットアウトほど単純ではなく、を生成することに焦点を当てていることを再度強調する価値があります。

ネチズンが言ったように:

これは、現在のアニメーションとビデオ制作の中核プロセスの 1 つです。このステップを通過できれば、SD の整合性は問題ではなくなったと言えます。

ControlNet作者新作：AI绘画能分图层了！项目未开源就斩获660 Star

# 一部のネチズンは、このような作業は難しいものではなく、単に「アルファチャンネルを追加する」だけだと考えていましたが、彼が驚いたのは:

結果が出るまでにとても時間がかかりました。

ControlNet作者新作：AI绘画能分图层了！项目未开源就斩获660 Star

#では、LayerDiffusion はどのように実装されるのでしょうか?

PNG、生成ルートを取り始めました

LayerDiffusion の核となるのは、

潜在透明度 (潜在透明度) と呼ばれるメソッドです。

簡単に言えば、事前トレーニングされた潜在拡散モデル

(安定拡散など) の潜在分布を破壊することなく、モデルに透明性を追加することができます。

ControlNet作者新作：AI绘画能分图层了！项目未开源就斩获660 Star

具体的な実装に関しては、慎重に設計された小さな摂動 (オフセット) を潜像に追加すると理解できます。この摂動は追加のチャネルとしてエンコードされ、RGB チャネルとともに構成されます。完全な潜在的なイメージ。

透明度のエンコードとデコードを実現するために、著者は 2 つの独立したニューラルネットワークモデルをトレーニングしました。1 つは 潜在透明度エンコーダー(潜在透明度エンコーダー)、もう 1 つは 潜在透明度エンコーダー (潜在透明度エンコーダー)もう 1 つは

潜在透明デコーダ

(潜在透明デコーダ)

です。

エンコーダは、元の画像の RGB チャネルとアルファチャネルを入力として受け取り、透明度情報を潜在空間内のオフセットに変換します。デコーダは、調整された潜像と再構築された RGB 画像を受け取り、潜像空間から透明度情報を抽出して元の透明度画像を再構築します。

追加された潜在的な透明性が事前トレーニングされたモデルの基礎となる分布を破壊しないことを保証するために、著者らは「無害性」の尺度

を提案しています。

ControlNet作者新作：AI绘画能分图层了！项目未开源就斩获660 Star このメトリクスは、元の事前トレーニング済みモデルのデコーダーによる調整された潜在画像のデコード結果を元の画像と比較することにより、潜在透明度の影響を評価します。

トレーニングプロセス中に、著者は結合損失関数 (結合損失関数) も使用します。これは、再構成損失 ( 再構築loss)

、アイデンティティ損失 (アイデンティティ損失)、および識別子損失

。

再構成損失: デコードされた画像が元の画像にできるだけ類似していることを確認するために使用されます;
アイデンティティ損失:調整された潜像が事前トレーニングされたデコーダによって正しくデコードできることを確認します。

識別子損失: 生成された画像のリアリズムを向上させるために使用されます。

このアプローチを使用すると、調整された潜在空間に合わせて微調整するだけで、あらゆる潜在拡散モデルを透明画像ジェネレーターに変換できます。 ControlNet作者新作：AI绘画能分图层了！项目未开源就斩获660 Star

潜在透明度の概念は、複数の透明レイヤーを生成するように拡張することもできます。また、他の条件付き制御システムと組み合わせて、前景/背景条件付き生成、ジョイントレイヤー生成、レイヤー内容の構造制御など ControlNet作者新作：AI绘画能分图层了！项目未开源就斩获660 Star

著者は、LayerDiffusion の機能を強化するために ControlNet を導入する方法も示していることは注目に値します。

ControlNet作者新作：AI绘画能分图层了！项目未开源就斩获660 Star

従来のカットアウトとの違い

##LayerDiffusion と従来のカットアウトの違いを簡単にまとめると以下の点になります。

ネイティブ生成と後処理

LayerDiffusion は、生成プロセス中に透明度情報を直接考慮してエンコードする、ネイティブの透明イメージ生成方法です。これは、モデルが画像生成時にアルファチャネルを作成し、透明度のある画像を生成することを意味します。従来のマット方法では通常、最初に画像を生成または取得し、次に画像編集技術

(クロマキー、エッジ検出、ユーザー指定のマスクなど)

を使用して画像を分離します。前景と背景。このアプローチでは、透明度を処理するために追加の手順が必要になることが多く、複雑な背景やエッジに不自然な遷移が生じる可能性があります。

潜在空間操作とピクセル空間操作

LayerDiffusion は、潜在空間 (潜在空間) で動作します。これは、モデルがより複雑な画像特徴を学習して生成できるようにする中間表現です。潜在空間で透明度をエンコードすることにより、モデルはピクセルレベルでの複雑な計算を必要とせずに、生成中に透明度を自然に処理できます。

従来のカットアウト技術は通常、ピクセル空間で実行され、色の置換やエッジのスムージングなど、元の画像の直接編集が含まれる場合があります。これらの方法では、半透明のエフェクト (火、煙など) や複雑なエッジの処理が難しい場合があります。

データセットとトレーニング

LayerDiffusion はトレーニングに大規模なデータセットを使用します。このデータセットには透明な画像のペアが含まれており、モデルが高精細度の生成を学習できるようになります。高品質の透明画像には複雑な分散が必要です。

従来のマッティング手法は、より小規模なデータセットや特定のトレーニングセットに依存する可能性があり、多様なシナリオを処理する能力が制限される可能性があります。

柔軟性と制御

LayerDiffusion では、ユーザーがテキスト (テキストプロンプト) を介してプロンプトを表示できるため、柔軟性と制御が向上します。画像を生成し、ブレンドして組み合わせて複雑なシーンを作成できる複数のレイヤーを生成できます。

従来のカットアウト方法は、特に複雑な画像コンテンツや透明度を扱う場合、制御がより制限される可能性があります。

品質比較

ユーザー調査によると、LayerDiffusion によって生成された透明な画像は、ほとんどの場合、ユーザーに好まれることがわかっています (97%) 。これは、透明度が高いことを示しています。生成されるコンテンツは、商用の透明な資産と視覚的に同等か、場合によってはそれよりも優れています。
従来のカットアウト方法では、特に難しい透明度やエッジを扱う場合、同じ品質を達成できない場合があります。
つまり、LayerDiffusion は、透明なイメージを生成および処理するための、より高度で柔軟な方法を提供します。
生成プロセス中に透明度を直接エンコードし、従来のマット方法では達成が困難な高品質の結果を生成できます。
著者について
先ほど述べたように、この研究の著者の 1 人は、有名な ControlNet-
Zhang Lumin の発明者です。
蘇州大学を卒業し、1年生の時にAI絵画に関する論文を発表し、学部時代にトップレベルの作品を10冊発表しました。
Zhang Lumin さんは現在、スタンフォード大学で博士号取得を目指して勉強していますが、非常に控えめな人物であり、Google Scholar にも登録していないと言えます。

現時点では、LayerDiffusion は GitHub でオープンソースではありませんが、それでもみんなの注目を集めることができず、すでに 660 個のスターを獲得しています。

結局のところ、張魯民はネチズンから「時間管理の達人」とも嘲笑されているので、LayerDiffusion に興味のある友人は、事前にマークすることができます。

以上がControlNet 作者の新作: AI ペイントはレイヤーに分割可能!このプロジェクトはオープンソースではないにもかかわらず 660 個の星を獲得しましたの詳細内容です。詳細については、PHP 中国語 Web サイトの他の関連記事を参照してください。

声明

この記事は51CTO.COMで複製されています。侵害がある場合は、admin@php.cn までご連絡ください。

AIセラピストがここにいます：あなたが知る必要がある14の画期的なメンタルヘルスツールApr 30, 2025 am 11:17 AM

訓練を受けたセラピストの人間のつながりと直観を提供することはできませんが、多くの人々は、比較的顔のない匿名のAIボットと心配や懸念を共有することを快適に共有していることが研究で示されています。これが常に良いかどうか

食料品の通路にAIを呼びますApr 30, 2025 am 11:16 AM

数十年の技術である人工知能（AI）は、食品小売業界に革命をもたらしています。大規模な効率性の向上とコスト削減から、さまざまなビジネス機能にわたる合理化されたプロセスまで、AIの影響はUndeniablです

あなたの精神を持ち上げるために生成的なAIからPEPの話をするApr 30, 2025 am 11:15 AM

それについて話しましょう。革新的なAIブレークスルーのこの分析は、さまざまなインパクトのあるAIの複雑さを特定して説明するなど、最新のAIで進行中のForbes列のカバレッジの一部です（こちらのリンクを参照）。さらに、私のコンプのために

AI駆動のハイパーパーソナリゼーションがすべてのビジネスにとって必須である理由Apr 30, 2025 am 11:14 AM

プロの画像を維持するには、時折ワードローブの更新が必要です。オンラインショッピングは便利ですが、対面の試練の確実性がありません。私の解決策？ AI駆動のパーソナライズ。衣類の選択をキュレーションするAIアシスタントが想像しています

Duolingoを忘れてください：Google Translateの新しいAI機能は言語を教えていますApr 30, 2025 am 11:13 AM

Google Translateは言語学習機能を追加します Android Authorityによると、App Expert AssemberBugは、Google Translateアプリの最新バージョンには、パーソナライズされたアクティビティを通じてユーザーが言語スキルを向上させるように設計された新しい「実践」モードのテストコードが含まれていることを発見しました。この機能は現在、ユーザーには見えませんが、AssembleDebugはそれを部分的にアクティブにして、新しいユーザーインターフェイス要素の一部を表示できます。アクティブ化すると、この機能は、「ベータ」バッジでマークされた画面の下部に新しい卒業キャップアイコンを追加し、「実践」機能が最初に実験形式でリリースされることを示します。関連するポップアッププロンプトは、「あなたのために調整されたアクティビティを練習してください！」を示しています。つまり、Googleがカスタマイズされたことを意味します

彼らはAIのためにTCP/IPを作成しており、Nandaと呼ばれていますApr 30, 2025 am 11:12 AM

MITの研究者は、AIエージェント向けに設計された画期的なWebプロトコルであるNandaを開発しています。ネットワークエージェントと分散型AIの略であるNandaは、インターネット機能を追加することにより、人類のモデルコンテキストプロトコル（MCP）に基づいて構築され、AI Agenを可能にします

プロンプト：Deepfake Detectionは活況を呈しているビジネスですApr 30, 2025 am 11:11 AM

メタの最新のベンチャー：chatgptに匹敵するAIアプリ Facebook、Instagram、WhatsApp、およびThreadsの親会社であるMetaは、新しいAIを搭載したアプリケーションを立ち上げています。このスタンドアロンアプリであるMeta AIは、OpenaiのChatGptと直接競争することを目指しています。レバー