検索
ホームページテクノロジー周辺機器AIミッドジャーニーのライバル登場! GoogleのStyleDropエース「カスタマイズマスター」がAIアート界に爆発をもたらす

Google StyleDrop は登場するとすぐにインターネットに登場しました。

ゴッホの星月夜を考えると、AI はゴッホ巨匠に変身し、この抽象的なスタイルをトップレベルで理解した後、無数の同様の絵画を作成しました。

Midjourney劲敌来了! 谷歌StyleDrop王牌「定制大师」引爆AI艺术圈

#別の漫画スタイルでは、私が描きたいオブジェクトはもっとかわいいです。

Midjourney劲敌来了! 谷歌StyleDrop王牌「定制大师」引爆AI艺术圈

#細部まで正確に制御し、オリジナルのスタイルのロゴをデザインできます。

Midjourney劲敌来了! 谷歌StyleDrop王牌「定制大师」引爆AI艺术圈

StyleDrop の魅力は、参照として必要な画像が 1 枚だけで、どんなに複雑な芸術的なスタイルであっても分解して再構築できることです。は。

ネチズンは、これもデザイナーを排除する AI ツールであると表明しました。

StyleDrop ホットリサーチは、Google 研究チームによる最新の製品です。

Midjourney劲敌来了! 谷歌StyleDrop王牌「定制大师」引爆AI艺术圈

論文アドレス: https://arxiv.org/pdf/2306.00983.pdf

##現在、StyleDrop のようなツールを使用すると、より制御して描画できるだけでなく、ロゴの描画など、以前は想像できなかった細かい作業を完了することもできます。

NVIDIA の科学者でさえ、これを「驚異的な」結果と呼んでいました。

「カスタマイズ」マスター

Midjourney劲敌来了! 谷歌StyleDrop王牌「定制大师」引爆AI艺术圈

論文の著者は、StyleDrop のインスピレーションの源を次のように紹介しました。スポイト(色吸収)/カラーピッカーツール)です。

同様に、StyleDrop は、誰もが 1 つまたは少数の参照画像からすばやく簡単にスタイルを「選択」し、そのスタイルの画像を生成できることを望んでいます。

ナマケモノには 18 のスタイルがあります:

Midjourney劲敌来了! 谷歌StyleDrop王牌「定制大师」引爆AI艺术圈

パンダには 24 のスタイルがあります:

Midjourney劲敌来了! 谷歌StyleDrop王牌「定制大师」引爆AI艺术圈

子供が描いた水彩画、紙も含めて StyleDrop が完璧に制御します。復元されました。

Midjourney劲敌来了! 谷歌StyleDrop王牌「定制大师」引爆AI艺术圈

言わざるを得ません、それは強すぎます。

さまざまなスタイルの英語文字のデザインを参照する StyleDrop もあります:

Midjourney劲敌来了! 谷歌StyleDrop王牌「定制大师」引爆AI艺术圈

## もゴッホ風の文字です。

Midjourney劲敌来了! 谷歌StyleDrop王牌「定制大师」引爆AI艺术圈

#線画もあります。線画は抽象度が高く、画面構成に非常に合理性が要求されるため、これまでの手法では成功することが困難でした。

Midjourney劲敌来了! 谷歌StyleDrop王牌「定制大师」引爆AI艺术圈

元の画像のチーズの影のストロークが、各画像のオブジェクトに復元されます。

Midjourney劲敌来了! 谷歌StyleDrop王牌「定制大师」引爆AI艺术圈

# Android ロゴの作成を参照してください。

Midjourney劲敌来了! 谷歌StyleDrop王牌「定制大师」引爆AI艺术圈

さらに、研究者らは、StyleDrop の機能も拡張し、DreamBooth と組み合わせてスタイルをカスタマイズするだけでなく、コンテンツもカスタマイズできるようにしました。 。

たとえば、ゴッホ スタイルのまま、小さなコーギー用に同様のスタイルの絵画を生成します。

Midjourney劲敌来了! 谷歌StyleDrop王牌「定制大师」引爆AI艺术圈

こちらももうひとつ、下のコーギーはエジプトのピラミッドの「スフィンクス」のような感じです。 ########################どのように動作します?

StyleDrop は Muse 上に構築されており、2 つの重要な部分で構成されています。

Midjourney劲敌来了! 谷歌StyleDrop王牌「定制大师」引爆AI艺术圈1 つは、視覚的な Transformer を生成するパラメータの効果的な微調整です。もう 1 つはフィードバック トレインによる反復です。

研究者らはその後、2 つの微調整されたモデルから画像を合成しました。

Muse は、マスク生成画像 Transformer に基づいた最新のテキストから画像への合成モデルです。基本画像生成 (256 × 256) と超解像度 (512 × 512 または 1024 × 1024) のための 2 つの合成モジュールが含まれています。

#各モジュールは、テキスト エンコーダー T、トランスフォーマー G、サンプラー S、イメージ エンコーダーで構成されます。デコーダ E とデコーダ D の

T は、テキスト プロンプト t∈T を連続埋め込み空間 E にマップします。 G はテキスト埋め込み e ∈ E を処理して、ビジュアル トークン シーケンス l ∈ L の対数を生成します。 S は、テキスト埋め込み e と前のステップからデコードされたビジュアル トークンに条件付けされたトランスフォーマー推論のいくつかのステップを実行する反復デコードを通じて、対数からビジュアル トークン シーケンス v ∈ V を抽出します。

Midjourney劲敌来了! 谷歌StyleDrop王牌「定制大师」引爆AI艺术圈

最後に、D は離散トークン シーケンスをピクセル空間 I にマッピングします。要約すると、テキスト プロンプト t が与えられた場合、画像 I の構成は次のようになります。

図 2 は、簡略化された Muse トランスフォーマ層アーキテクチャです。 Parameter Efficient Fine-tuning (PEFT) とアダプターをサポートするために部分的に変更されました。

L層のトランスフォーマーを使用して、テキスト埋め込みeの条件で緑色に表示されたビジュアルトークン列を処理します。学習されたパラメータ θ は、アダプター調整の重みを構築するために使用されます。

Midjourney劲敌来了! 谷歌StyleDrop王牌「定制大师」引爆AI艺术圈

θ をトレーニングするために、多くの場合、研究者はスタイルの参考として画像を与えるだけかもしれません。

研究者はテキスト プロンプトを手動で添付する必要があります。彼らは、コンテンツの説明とそれに続く説明スタイルのフレーズで構成されるテキスト プロンプトを構築するための、シンプルなテンプレート化されたアプローチを提案しました。

たとえば、研究者は表 1 のオブジェクトを説明するために「猫」を使用し、スタイルの説明として「水彩画」を追加します。

Midjourney劲敌来了! 谷歌StyleDrop王牌「定制大师」引爆AI艺术圈

テキスト プロンプトにコンテンツとスタイルの説明を含めることは、コンテンツとスタイルを分離するのに役立つため重要です。これが調査の主な目的です。職員。

図 3 は、フィードバックを伴う反復トレーニングを示しています。

単一のスタイル参照画像 (オレンジ色のボックス) でトレーニングする場合、StyleDrop によって生成された一部の画像には、スタイル参照画像から抽出されたコンテンツが表示される場合があります (赤いボックス、画像の背景には類似した家が含まれています)スタイルイメージに)。

他の画像 (青いボックス) では、スタイルとコンテンツをより適切に分離できます。良好なサンプル (青色のボックス) で StyleDrop を反復トレーニングすると、スタイルとテキストの忠実性 (緑色のボックス) のバランスが向上します。

Midjourney劲敌来了! 谷歌StyleDrop王牌「定制大师」引爆AI艺术圈

研究者らはここでも 2 つの方法を使用しました:

- CLIP スコア

##この方法は、画像とテキストの配置を測定するために使用されます。したがって、CLIP スコア (つまり、視覚的およびテキストの CLIP 埋め込みのコサイン類似性) を測定することで、生成された画像の品質を評価できます。

研究者は、最高スコアの CLIP 画像を選択できます。彼らはこの方法を CLIP フィードバック反復トレーニング (CF) と呼んでいます。

実験の結果、研究者らは、CLIP スコアを使用して合成画像の品質を評価することが、スタイルの忠実度を過度に損なうことなく再現率 (つまり、テキストの忠実度) を向上させる効果的な方法であることを発見しました。

しかし、一方で、CLIP スコアは人間の意図と完全に一致しない場合や、微妙なスタイルの属性を捕捉できない場合があります。

-HF

ヒューマン フィードバック (HF) は、ユーザーの意図を合成画質評価に直接注入する方法です。より直接的な方法で。

強化学習のための LLM 微調整において、HF はその威力と有効性を証明しています。

HF は、CLIP スコアが微妙なスタイル属性をキャプチャできないことを補うために使用できます。

現在、大量の研究が、複数の個人的なスタイルを含む画像を合成するためのテキストから画像への拡散モデルの個人化問題に焦点を当てています。

研究者たちは、DreamBooth と StyleDrop を簡単な方法で組み合わせて、スタイルとコンテンツの両方をパーソナライズする方法を示しています。

これは、スタイルとコンテンツの参照画像にそれぞれ独立して、スタイルの θs とコンテンツの θc に基づいて、2 つの修正された生成分布からサンプリングすることによって実現されます。

既存の製品とは異なり、このチームのアプローチでは、複数の概念に関する学習可能なパラメーターを共同トレーニングする必要がなく、組み合わせ機能の向上につながります。事前トレーニングされたアダプターは個別のトピックとスタイルに基づいてトレーニングされるため、別々に。

研究者らの全体的なサンプリング プロセスは、式 (1) の反復デコードに従い、各デコード ステップで異なる方法で対数がサンプリングされます。

t がテキスト プロンプト、c がスタイル記述子のないテキスト プロンプトで、対数がステップ k で次のように計算されるとします。

Midjourney劲敌来了! 谷歌StyleDrop王牌「定制大师」引爆AI艺术圈

Midjourney劲敌来了! 谷歌StyleDrop王牌「定制大师」引爆AI艺术圈

ここで: γ は StyleDrop と DreamBooth のバランスをとるために使用されます。γ が 0 の場合は StyleDrop を取得し、1 の場合は DreamBooth を取得します。

γを適切に設定することで、適切な画像を得ることができます。

#実験設定

これまでのところ、テキスト画像生成モデルのスタイル調整は広く研究されています。

したがって、研究者らは新しい実験計画を提案しました:

-データ収集

研究者たちは、水彩画や油絵、平面イラスト、3D レンダリングからさまざまな素材の彫刻に至るまで、さまざまなスタイルの数十枚の写真を収集しました。

-モデル構成

研究者はアダプターを使用して Muse ベースの StyleDrop を調整します。すべての実験では、Adam オプティマイザーを使用して、学習率 0.00003 で 1000 ステップのアダプターの重みを更新しました。特に明記されていない限り、研究者らは StyleDrop を使用してモデルの第 2 ラウンドを表現します。このモデルは、人間のフィードバックを使用して 10 を超える合成画像でトレーニングされました。

- 評価

CLIP に基づく研究レポートの定量的評価。スタイルの一貫性とテキストの整合性を測定します。さらに、研究者らはスタイルの一貫性とテキストの配置を評価するためにユーザーの好みの調査を実施しました。

写真に示すように、研究者が収集したさまざまなスタイルの 18 枚の写真を StyleDrop 処理した結果です。

ご覧のとおり、StyleDrop はさまざまなスタイルのテクスチャ、シェーディング、構造のニュアンスをキャプチャできるため、以前よりもスタイルをより適切に制御できるようになります。

Midjourney劲敌来了! 谷歌StyleDrop王牌「定制大师」引爆AI艺术圈

比較のために、研究者らは、Imagen に関する DreamBooth、安定拡散および LoRA 実現に関する DreamBooth の結果とテキストも紹介しました。反転結果。

Midjourney劲敌来了! 谷歌StyleDrop王牌「定制大师」引爆AI艺术圈

#具体的な結果を表に示します。人間の画像とテキストの配置 (Text) およびビジュアル スタイルの配置 (スタイル) スコア (上) と CLIP スコア (下) の評価指標。

Midjourney劲敌来了! 谷歌StyleDrop王牌「定制大师」引爆AI艺术圈

(a) DreamBooth、(b) StyleDrop、および (c) DreamBooth StyleDrop の定性的比較:

Midjourney劲敌来了! 谷歌StyleDrop王牌「定制大师」引爆AI艺术圈

ここで、研究者らは、テキスト スコアとスタイル スコアという、前述の CLIP スコアの 2 つの指標を適用しました。

テキスト スコアの場合、研究者は画像とテキストの埋め込み間のコサイン類似性を測定します。スタイルスコアについては、研究者らはスタイル参照と合成画像埋め込みの間のコサイン類似度を測定します。

研究者らは、190 個のテキスト プロンプトに対して合計 1520 個の画像を生成しました。研究者らは最終スコアがもっと高くなるだろうと期待していましたが、測定基準は完璧ではありません。

そして、反復トレーニング (IT) によりテキスト スコアが向上し、研究者の目標と一致しました。

ただし、トレードオフとして、合成画像でトレーニングされ、スタイルが選択バイアスによって偏っている可能性があるため、第 1 ラウンドのモデルのスタイル スコアは低下します。

Imagen の DreamBooth は、スタイル スコアにおいて StyleDrop ほど良くありません (HF の 0.644 対 0.694)。

研究者らは、Imagen 上の DreamBooth のスタイル スコアの増加は明らかではない (0.569 → 0.644) のに対し、Muse 上の StyleDrop の増加はより明らかである (0.556 → 0.694) ことに気づきました。

研究者らは、Muse でのスタイルの微調整が Imagen でのスタイル微調整よりも効果的であると分析しました。

さらに、StyleDrop は、きめ細かい制御のために、カラー オフセット、グラデーション、鋭角の制御などの微妙なスタイルの違いをキャプチャします。

Midjourney劲敌来了! 谷歌StyleDrop王牌「定制大师」引爆AI艺术圈

#ネチズンの熱いコメント

デザイナーが StyleDrop を導入すれば、作業効率は 10 倍速くなるそしてそれはすでに出発しています。

Midjourney劲敌来了! 谷歌StyleDrop王牌「定制大师」引爆AI艺术圈

AI の 1 日は人間の生活の 10 年に相当し、AIGC は光の速さで発展しています。人の目を眩ませる光の速さ!

Midjourney劲敌来了! 谷歌StyleDrop王牌「定制大师」引爆AI艺术圈

#ツールはトレンドに従うだけで、排除されるべきものはとっくの昔に排除されています。

Midjourney劲敌来了! 谷歌StyleDrop王牌「定制大师」引爆AI艺术圈

このツールは、ロゴを作成する場合、Midjourney よりもはるかに使いやすいです。

Midjourney劲敌来了! 谷歌StyleDrop王牌「定制大师」引爆AI艺术圈

以上がミッドジャーニーのライバル登場! GoogleのStyleDropエース「カスタマイズマスター」がAIアート界に爆発をもたらすの詳細内容です。詳細については、PHP 中国語 Web サイトの他の関連記事を参照してください。

声明
この記事は51CTO.COMで複製されています。侵害がある場合は、admin@php.cn までご連絡ください。
Microsoft Work Trend Index 2025は、職場の容量の緊張を示していますMicrosoft Work Trend Index 2025は、職場の容量の緊張を示していますApr 24, 2025 am 11:19 AM

AIの急速な統合により悪化した職場での急成長能力の危機は、増分調整を超えて戦略的な変化を要求します。 これは、WTIの調査結果によって強調されています。従業員の68%がワークロードに苦労しており、BURにつながります

AIは理解できますか?中国の部屋の議論はノーと言っていますが、それは正しいですか?AIは理解できますか?中国の部屋の議論はノーと言っていますが、それは正しいですか?Apr 24, 2025 am 11:18 AM

ジョン・サールの中国の部屋の議論:AIの理解への挑戦 Searleの思考実験は、人工知能が真に言語を理解できるのか、それとも真の意識を持っているのかを直接疑問に思っています。 チャインを無知な人を想像してください

中国の「スマート」AIアシスタントは、マイクロソフトのリコールのプライバシーの欠陥をエコーし​​ます中国の「スマート」AIアシスタントは、マイクロソフトのリコールのプライバシーの欠陥をエコーし​​ますApr 24, 2025 am 11:17 AM

中国のハイテク大手は、西部のカウンターパートと比較して、AI開発の別のコースを図っています。 技術的なベンチマークとAPI統合のみに焦点を当てるのではなく、「スクリーン認識」AIアシスタントを優先しています。

Dockerは、おなじみのコンテナワークフローをAIモデルとMCPツールにもたらしますDockerは、おなじみのコンテナワークフローをAIモデルとMCPツールにもたらしますApr 24, 2025 am 11:16 AM

MCP:AIシステムに外部ツールにアクセスできるようになります モデルコンテキストプロトコル(MCP)により、AIアプリケーションは標準化されたインターフェイスを介して外部ツールとデータソースと対話できます。人類によって開発され、主要なAIプロバイダーによってサポートされているMCPは、言語モデルとエージェントが利用可能なツールを発見し、適切なパラメーターでそれらを呼び出すことができます。ただし、環境紛争、セキュリティの脆弱性、一貫性のないクロスプラットフォーム動作など、MCPサーバーの実装にはいくつかの課題があります。 Forbesの記事「人類のモデルコンテキストプロトコルは、AIエージェントの開発における大きなステップです」著者:Janakiram MSVDockerは、コンテナ化を通じてこれらの問題を解決します。 Docker Hubインフラストラクチャに基づいて構築されたドキュメント

6億ドルのスタートアップを構築するために6つのAIストリートスマート戦略を使用する6億ドルのスタートアップを構築するために6つのAIストリートスマート戦略を使用するApr 24, 2025 am 11:15 AM

最先端のテクノロジーと巧妙なビジネスの洞察力を活用して、コントロールを維持しながら非常に収益性の高いスケーラブルな企業を作成する先見の明のある起業家によって採用された6つの戦略。このガイドは、建設を目指している起業家向けのためのものです

Googleフォトの更新は、すべての写真の見事なウルトラHDRのロックを解除しますGoogleフォトの更新は、すべての写真の見事なウルトラHDRのロックを解除しますApr 24, 2025 am 11:14 AM

Google Photosの新しいウルトラHDRツール:画像強化のゲームチェンジャー Google Photosは、強力なウルトラHDR変換ツールを導入し、標準的な写真を活気のある高ダイナミックレンジ画像に変換しました。この強化は写真家に利益をもたらします

Descopeは、AIエージェント統合の認証フレームワークを構築しますDescopeは、AIエージェント統合の認証フレームワークを構築しますApr 24, 2025 am 11:13 AM

技術アーキテクチャは、新たな認証の課題を解決します エージェントアイデンティティハブは、AIエージェントの実装を開始した後にのみ多くの組織が発見した問題に取り組んでいます。

Google Cloud Next2025と現代の仕事の接続された未来Google Cloud Next2025と現代の仕事の接続された未来Apr 24, 2025 am 11:12 AM

(注:Googleは私の会社であるMoor Insights&Strategyのアドバイザリークライアントです。) AI:実験からエンタープライズ財団まで Google Cloud Next 2025は、実験機能からエンタープライズテクノロジーのコアコンポーネント、ストリームへのAIの進化を紹介しました

See all articles

ホットAIツール

Undresser.AI Undress

Undresser.AI Undress

リアルなヌード写真を作成する AI 搭載アプリ

AI Clothes Remover

AI Clothes Remover

写真から衣服を削除するオンライン AI ツール。

Undress AI Tool

Undress AI Tool

脱衣画像を無料で

Clothoff.io

Clothoff.io

AI衣類リムーバー

Video Face Swap

Video Face Swap

完全無料の AI 顔交換ツールを使用して、あらゆるビデオの顔を簡単に交換できます。

ホットツール

VSCode Windows 64 ビットのダウンロード

VSCode Windows 64 ビットのダウンロード

Microsoft によって発売された無料で強力な IDE エディター

ZendStudio 13.5.1 Mac

ZendStudio 13.5.1 Mac

強力な PHP 統合開発環境

MantisBT

MantisBT

Mantis は、製品の欠陥追跡を支援するために設計された、導入が簡単な Web ベースの欠陥追跡ツールです。 PHP、MySQL、Web サーバーが必要です。デモおよびホスティング サービスをチェックしてください。

メモ帳++7.3.1

メモ帳++7.3.1

使いやすく無料のコードエディター

mPDF

mPDF

mPDF は、UTF-8 でエンコードされた HTML から PDF ファイルを生成できる PHP ライブラリです。オリジナルの作者である Ian Back は、Web サイトから「オンザフライ」で PDF ファイルを出力し、さまざまな言語を処理するために mPDF を作成しました。 HTML2FPDF などのオリジナルのスクリプトよりも遅く、Unicode フォントを使用すると生成されるファイルが大きくなりますが、CSS スタイルなどをサポートし、多くの機能強化が施されています。 RTL (アラビア語とヘブライ語) や CJK (中国語、日本語、韓国語) を含むほぼすべての言語をサポートします。ネストされたブロックレベル要素 (P、DIV など) をサポートします。