ホームページ > 記事 > テクノロジー周辺機器 > AI 次元削減が人間のペインターを攻撃し、ヴィンセント グラフが ControlNet に導入され、深さとエッジ情報が完全に再利用可能になります
大規模なテキスト画像モデルの出現により、魅力的な画像の生成は非常に簡単になり、ユーザーは指の動きで簡単なプロンプトを入力するだけで済みます。一連の操作を通じてイメージを取得した後、必然的にいくつかの疑問が生じます。プロンプトに基づいて生成されたイメージは要件を満たしているか?ユーザーから提起されるさまざまな要件に対処するには、どのようなアーキテクチャを構築する必要があるか?大規模なモデルでも、特定のタスクにおいて数十億の画像から得られる利点と機能を維持できるでしょうか?
これらの質問に答えるために、スタンフォードの研究者はさまざまな画像処理アプリケーションについて多数の調査を実施し、次の 3 つの発見に至りました。
まず第一に、特定のフィールドで利用可能なデータは、実際には一般的なモデルをトレーニングするためのデータよりも少ないです。これは主に、たとえば、特定の問題 (ジェスチャー理解、など) は通常 100k 未満で、大規模データセットよりも小さいです。マルチモーダル テキスト画像データセット LAION 5B は 5 × 10^4 桁小さいです。これには、ニューラル ネットワークがモデルの過剰適合を回避するために堅牢であること、および特定の問題を対象とする場合に適切な一般化ができることが必要です。
第 2 に、画像タスクのデータ駆動型処理を使用する場合、大規模なコンピューティング クラスターが常に利用できるとは限りません。ここで、高速トレーニング方法、つまり許容可能な時間とメモリ空間内で特定のタスクに合わせて大規模なモデルを最適化できる方法が重要になります。さらに、後続の処理で微調整、転移学習、その他の操作が必要になる場合があります。
最後に、画像処理プロセスで遭遇するさまざまな問題には、さまざまな定義形式があります。これらの問題を解決する際、画像拡散アルゴリズムは「手続き型」の方法で調整することができます。たとえば、ノイズ除去プロセスの制約、多頭注意の活性化の編集などですが、これらの手作りのルールは基本的に人間の指示によって指示されます。深度画像、ポーズ人物などのいくつかの特定のタスクを考慮すると、これらの問題は基本的に生の入力を解釈してオブジェクト レベルまたはシーン レベルで理解する必要があるため、手作りの手続き型アプローチは実現可能性が低くなります。したがって、複数のタスクでソリューションを提供するには、エンドツーエンドの学習が不可欠です。
上記の発見に基づいて、この論文では、追加の条件を追加することで拡散モデル (安定拡散など) を制御できるエンドツーエンドのニューラル ネットワーク アーキテクチャ ControlNet を提案します。グラフの改善や、線画からのフルカラー画像の生成、同じ奥行き構造の画像の生成、手のキーポイントによる手の生成の最適化などが可能です。
論文アドレス: https://arxiv.org/pdf/2302.05543.pdf
プロジェクトアドレス: https://github.com/lllyasviel/ControlNet
それでは、ControlNet の効果とは何でしょうか?
キャニーエッジ検出:元画像から線画を抽出することで、同じ構図の画像を生成できます。
#奥行き検出: 元の画像の奥行き情報を抽出することで、同じ奥行き構造を持つマップを生成できます。 。
セマンティック セグメンテーションを使用した ControlNet:
学習ベースの使用ハフ変換は Places2 から直線を検出し、BLIP を使用して字幕を生成します。
#HED エッジ検出の図。#人間の姿勢認識の図。
ControlNet は、タスク固有の条件で事前トレーニングされた画像拡散モデルを強化するニューラル ネットワーク アーキテクチャです。まず、ControlNet の基本構造を見てみましょう。
ControlNet は、ニューラル ネットワーク ブロックの入力条件を操作し、それによってニューラル ネットワーク全体の全体的な動作をさらに制御します。ここで「ネットワーク ブロック」とは、resnet ブロック、マルチヘッド アテンション ブロック、Transformer ブロックなど、ニューラル ネットワークを構築するための共通の単位としてまとめられるニューラル層のグループを指します。
2D 特徴を例として、特徴マップ x ϵ R^h×w×c を指定します。ここで、{h, w, c} は高さ、幅、チャネル数です。それぞれ。パラメータ Θ のセットを持つニューラル ネットワーク ブロック F (・; Θ) は、以下の式 (1) に示すように、x を別の特徴マップ y に変換します。
#このプロセスを以下の図 2-(a) に示します。
#ニューラル ネットワーク ブロックは、重み 1×1 である「ゼロ畳み込み」と呼ばれる独自の畳み込み層によって接続されます。初期化とバイアスがゼロの畳み込み層。研究者は、ゼロ畳み込み演算を Z (・;・) で表し、次の式 (2) に示すように、2 つのパラメーター インスタンス {Θ_z1, Θ_z2} を使用して ControlNet 構造を形成します。ここで、y_c は、以下の図 2-(b) に示すように、ニューラル ネットワーク ブロックの出力になります。
#画像拡散モデルにおける ControlNet
#研究者は、安定拡散を例として、ControlNet コントロールの使用方法を紹介しました。 - タスク固有の条件を備えたスケール拡散モデル。安定拡散は、数十億の画像でトレーニングされた大規模なテキストから画像への拡散モデルであり、本質的にはエンコーダー、中間ブロック、および残差接続デコーダーで構成される U-net です。
以下の図 3 に示すように、研究者は ControlNet を使用して U-net の各層を制御します。ここでの ControlNet の接続方法は計算効率が高いことに注意してください。元の重みがロックされているため、元のエンコーダーでの勾配計算にはトレーニングが必要ありません。また、元のモデルの勾配計算の半分が削減されるため、トレーニングが高速化され、GPU メモリが節約されます。 ControlNet を使用して安定拡散モデルをトレーニングするには、トレーニング反復ごとに約 23% 多くの GPU メモリと 34% 多くの時間を必要とするだけです (単一の Nvidia A100 PCIE 40G でテスト)。
#具体的には、研究者らは ControlNet を使用して、トレーニング可能なコピーである 12 個のエンコード ブロックと 1 個の安定拡散中間ブロックを作成しました。 12 のコーディング ブロックには、64×64、32×32、16×16、および 8×8 の 4 つの解像度があり、各解像度に 3 つのブロックがあります。出力は、12 の残りの接続と 1 つの中間ブロックとともに U-net に追加されます。 Stable Diffusion は典型的な U-net 構造であるため、この ControlNet アーキテクチャは他の拡散モデルでも使用できる可能性があります。
トレーニングとトレーニングの強化
画像 z_0 が与えられると、拡散アルゴリズムは画像に徐々にノイズを追加し、ノイズ画像 z_t、t はノイズを追加する回数です。 t が十分に大きい場合、画像は純粋なノイズに近似します。以下の式 (10) に示すように、タイム ステップ t、テキスト プロンプト c_t、およびタスク固有の条件 c_f を含む一連の条件が与えられると、画像拡散アルゴリズムはネットワーク ϵ_θ を学習して、ノイズのある画像 z_t に追加されるノイズを予測します。
トレーニング プロセス中に、研究者らはテキスト プロンプト c_t の 50% を空の文字列にランダムに置き換えました。これは、入力条件マップからセマンティック コンテンツを識別する ControlNet の機能にとって有益です。
さらに、研究者らは、特にコンピューティング デバイスが非常に限られている場合 (ラップトップなど)、または非常に強力な場合 (大規模なコンピュータなど)、ControlNet のトレーニングを改善するためのいくつかの戦略についても議論しました。 GPU が利用可能)、コンピューティング クラスター)。
技術的な詳細については、元の論文を参照してください。
以上がAI 次元削減が人間のペインターを攻撃し、ヴィンセント グラフが ControlNet に導入され、深さとエッジ情報が完全に再利用可能になりますの詳細内容です。詳細については、PHP 中国語 Web サイトの他の関連記事を参照してください。