ホームページ >テクノロジー周辺機器 >AI >ミッドジャーニーのライバル登場! GoogleのStyleDropエース「カスタマイズマスター」がAIアート界に爆発をもたらす
Google StyleDrop は登場するとすぐにインターネットに登場しました。
ゴッホの星月夜を考えると、AI はゴッホ巨匠に変身し、この抽象的なスタイルをトップレベルで理解した後、無数の同様の絵画を作成しました。
#別の漫画スタイルでは、私が描きたいオブジェクトはもっとかわいいです。
#細部まで正確に制御し、オリジナルのスタイルのロゴをデザインできます。StyleDrop の魅力は、参照として必要な画像が 1 枚だけで、どんなに複雑な芸術的なスタイルであっても分解して再構築できることです。は。
ネチズンは、これもデザイナーを排除する AI ツールであると表明しました。
StyleDrop ホットリサーチは、Google 研究チームによる最新の製品です。
論文アドレス: https://arxiv.org/pdf/2306.00983.pdf
##現在、StyleDrop のようなツールを使用すると、より制御して描画できるだけでなく、ロゴの描画など、以前は想像できなかった細かい作業を完了することもできます。
NVIDIA の科学者でさえ、これを「驚異的な」結果と呼んでいました。
「カスタマイズ」マスター
論文の著者は、StyleDrop のインスピレーションの源を次のように紹介しました。スポイト(色吸収)/カラーピッカーツール)です。同様に、StyleDrop は、誰もが 1 つまたは少数の参照画像からすばやく簡単にスタイルを「選択」し、そのスタイルの画像を生成できることを望んでいます。
ナマケモノには 18 のスタイルがあります:
パンダには 24 のスタイルがあります:
子供が描いた水彩画、紙も含めて StyleDrop が完璧に制御します。復元されました。
言わざるを得ません、それは強すぎます。
さまざまなスタイルの英語文字のデザインを参照する StyleDrop もあります:
## もゴッホ風の文字です。
#線画もあります。線画は抽象度が高く、画面構成に非常に合理性が要求されるため、これまでの手法では成功することが困難でした。
元の画像のチーズの影のストロークが、各画像のオブジェクトに復元されます。
# Android ロゴの作成を参照してください。さらに、研究者らは、StyleDrop の機能も拡張し、DreamBooth と組み合わせてスタイルをカスタマイズするだけでなく、コンテンツもカスタマイズできるようにしました。 。
たとえば、ゴッホ スタイルのまま、小さなコーギー用に同様のスタイルの絵画を生成します。
こちらももうひとつ、下のコーギーはエジプトのピラミッドの「スフィンクス」のような感じです。 ########################どのように動作します?
StyleDrop は Muse 上に構築されており、2 つの重要な部分で構成されています。
1 つは、視覚的な Transformer を生成するパラメータの効果的な微調整です。もう 1 つはフィードバック トレインによる反復です。
研究者らはその後、2 つの微調整されたモデルから画像を合成しました。Muse は、マスク生成画像 Transformer に基づいた最新のテキストから画像への合成モデルです。基本画像生成 (256 × 256) と超解像度 (512 × 512 または 1024 × 1024) のための 2 つの合成モジュールが含まれています。
#各モジュールは、テキスト エンコーダー T、トランスフォーマー G、サンプラー S、イメージ エンコーダーで構成されます。デコーダ E とデコーダ D の
T は、テキスト プロンプト t∈T を連続埋め込み空間 E にマップします。 G はテキスト埋め込み e ∈ E を処理して、ビジュアル トークン シーケンス l ∈ L の対数を生成します。 S は、テキスト埋め込み e と前のステップからデコードされたビジュアル トークンに条件付けされたトランスフォーマー推論のいくつかのステップを実行する反復デコードを通じて、対数からビジュアル トークン シーケンス v ∈ V を抽出します。 最後に、D は離散トークン シーケンスをピクセル空間 I にマッピングします。要約すると、テキスト プロンプト t が与えられた場合、画像 I の構成は次のようになります。
図 2 は、簡略化された Muse トランスフォーマ層アーキテクチャです。 Parameter Efficient Fine-tuning (PEFT) とアダプターをサポートするために部分的に変更されました。
L層のトランスフォーマーを使用して、テキスト埋め込みeの条件で緑色に表示されたビジュアルトークン列を処理します。学習されたパラメータ θ は、アダプター調整の重みを構築するために使用されます。
θ をトレーニングするために、多くの場合、研究者はスタイルの参考として画像を与えるだけかもしれません。
研究者はテキスト プロンプトを手動で添付する必要があります。彼らは、コンテンツの説明とそれに続く説明スタイルのフレーズで構成されるテキスト プロンプトを構築するための、シンプルなテンプレート化されたアプローチを提案しました。
たとえば、研究者は表 1 のオブジェクトを説明するために「猫」を使用し、スタイルの説明として「水彩画」を追加します。
テキスト プロンプトにコンテンツとスタイルの説明を含めることは、コンテンツとスタイルを分離するのに役立つため重要です。これが調査の主な目的です。職員。
図 3 は、フィードバックを伴う反復トレーニングを示しています。
単一のスタイル参照画像 (オレンジ色のボックス) でトレーニングする場合、StyleDrop によって生成された一部の画像には、スタイル参照画像から抽出されたコンテンツが表示される場合があります (赤いボックス、画像の背景には類似した家が含まれています)スタイルイメージに)。
他の画像 (青いボックス) では、スタイルとコンテンツをより適切に分離できます。良好なサンプル (青色のボックス) で StyleDrop を反復トレーニングすると、スタイルとテキストの忠実性 (緑色のボックス) のバランスが向上します。
研究者らはここでも 2 つの方法を使用しました:
- CLIP スコア
##この方法は、画像とテキストの配置を測定するために使用されます。したがって、CLIP スコア (つまり、視覚的およびテキストの CLIP 埋め込みのコサイン類似性) を測定することで、生成された画像の品質を評価できます。研究者は、最高スコアの CLIP 画像を選択できます。彼らはこの方法を CLIP フィードバック反復トレーニング (CF) と呼んでいます。
実験の結果、研究者らは、CLIP スコアを使用して合成画像の品質を評価することが、スタイルの忠実度を過度に損なうことなく再現率 (つまり、テキストの忠実度) を向上させる効果的な方法であることを発見しました。
しかし、一方で、CLIP スコアは人間の意図と完全に一致しない場合や、微妙なスタイルの属性を捕捉できない場合があります。
-HF
ヒューマン フィードバック (HF) は、ユーザーの意図を合成画質評価に直接注入する方法です。より直接的な方法で。強化学習のための LLM 微調整において、HF はその威力と有効性を証明しています。
HF は、CLIP スコアが微妙なスタイル属性をキャプチャできないことを補うために使用できます。
現在、大量の研究が、複数の個人的なスタイルを含む画像を合成するためのテキストから画像への拡散モデルの個人化問題に焦点を当てています。
研究者たちは、DreamBooth と StyleDrop を簡単な方法で組み合わせて、スタイルとコンテンツの両方をパーソナライズする方法を示しています。
これは、スタイルとコンテンツの参照画像にそれぞれ独立して、スタイルの θs とコンテンツの θc に基づいて、2 つの修正された生成分布からサンプリングすることによって実現されます。
既存の製品とは異なり、このチームのアプローチでは、複数の概念に関する学習可能なパラメーターを共同トレーニングする必要がなく、組み合わせ機能の向上につながります。事前トレーニングされたアダプターは個別のトピックとスタイルに基づいてトレーニングされるため、別々に。
研究者らの全体的なサンプリング プロセスは、式 (1) の反復デコードに従い、各デコード ステップで異なる方法で対数がサンプリングされます。
t がテキスト プロンプト、c がスタイル記述子のないテキスト プロンプトで、対数がステップ k で次のように計算されるとします。 ここで: γ は StyleDrop と DreamBooth のバランスをとるために使用されます。γ が 0 の場合は StyleDrop を取得し、1 の場合は DreamBooth を取得します。 γを適切に設定することで、適切な画像を得ることができます。 #実験設定 これまでのところ、テキスト画像生成モデルのスタイル調整は広く研究されています。 したがって、研究者らは新しい実験計画を提案しました: -データ収集 研究者たちは、水彩画や油絵、平面イラスト、3D レンダリングからさまざまな素材の彫刻に至るまで、さまざまなスタイルの数十枚の写真を収集しました。 -モデル構成 研究者はアダプターを使用して Muse ベースの StyleDrop を調整します。すべての実験では、Adam オプティマイザーを使用して、学習率 0.00003 で 1000 ステップのアダプターの重みを更新しました。特に明記されていない限り、研究者らは StyleDrop を使用してモデルの第 2 ラウンドを表現します。このモデルは、人間のフィードバックを使用して 10 を超える合成画像でトレーニングされました。 - 評価 CLIP に基づく研究レポートの定量的評価。スタイルの一貫性とテキストの整合性を測定します。さらに、研究者らはスタイルの一貫性とテキストの配置を評価するためにユーザーの好みの調査を実施しました。 写真に示すように、研究者が収集したさまざまなスタイルの 18 枚の写真を StyleDrop 処理した結果です。 ご覧のとおり、StyleDrop はさまざまなスタイルのテクスチャ、シェーディング、構造のニュアンスをキャプチャできるため、以前よりもスタイルをより適切に制御できるようになります。
比較のために、研究者らは、Imagen に関する DreamBooth、安定拡散および LoRA 実現に関する DreamBooth の結果とテキストも紹介しました。反転結果。
#具体的な結果を表に示します。人間の画像とテキストの配置 (Text) およびビジュアル スタイルの配置 (スタイル) スコア (上) と CLIP スコア (下) の評価指標。
(a) DreamBooth、(b) StyleDrop、および (c) DreamBooth StyleDrop の定性的比較:ここで、研究者らは、テキスト スコアとスタイル スコアという、前述の CLIP スコアの 2 つの指標を適用しました。
テキスト スコアの場合、研究者は画像とテキストの埋め込み間のコサイン類似性を測定します。スタイルスコアについては、研究者らはスタイル参照と合成画像埋め込みの間のコサイン類似度を測定します。
研究者らは、190 個のテキスト プロンプトに対して合計 1520 個の画像を生成しました。研究者らは最終スコアがもっと高くなるだろうと期待していましたが、測定基準は完璧ではありません。 そして、反復トレーニング (IT) によりテキスト スコアが向上し、研究者の目標と一致しました。 ただし、トレードオフとして、合成画像でトレーニングされ、スタイルが選択バイアスによって偏っている可能性があるため、第 1 ラウンドのモデルのスタイル スコアは低下します。 Imagen の DreamBooth は、スタイル スコアにおいて StyleDrop ほど良くありません (HF の 0.644 対 0.694)。 研究者らは、Imagen 上の DreamBooth のスタイル スコアの増加は明らかではない (0.569 → 0.644) のに対し、Muse 上の StyleDrop の増加はより明らかである (0.556 → 0.694) ことに気づきました。 研究者らは、Muse でのスタイルの微調整が Imagen でのスタイル微調整よりも効果的であると分析しました。 さらに、StyleDrop は、きめ細かい制御のために、カラー オフセット、グラデーション、鋭角の制御などの微妙なスタイルの違いをキャプチャします。
デザイナーが StyleDrop を導入すれば、作業効率は 10 倍速くなるそしてそれはすでに出発しています。
AI の 1 日は人間の生活の 10 年に相当し、AIGC は光の速さで発展しています。人の目を眩ませる光の速さ!
#ツールはトレンドに従うだけで、排除されるべきものはとっくの昔に排除されています。このツールは、ロゴを作成する場合、Midjourney よりもはるかに使いやすいです。
以上がミッドジャーニーのライバル登場! GoogleのStyleDropエース「カスタマイズマスター」がAIアート界に爆発をもたらすの詳細内容です。詳細については、PHP 中国語 Web サイトの他の関連記事を参照してください。