ホームページ >テクノロジー周辺機器 >AI >かつて人気だった InstantID には、オープンソース化された様式化された画像の生成という新しい遊び方があります。

かつて人気だった InstantID には、オープンソース化された様式化された画像の生成という新しい遊び方があります。

WBOY
WBOY転載
2024-04-15 15:58:20717ブラウズ
InstantID 元のチームは、スタイル移行の新しい方法である InstantStyle を立ち上げました。

スタイル化された画像の生成はスタイル転送と呼ばれることがあり、その目標は、参照画像とスタイルが一致し、元の画像コンテンツと一致する画像を生成することです。このテクノロジーは、同じスタイル データのバッチ トレーニングのための拡散手法 (LoRA など) に基づいており、新しいスタイルに移行することはできません。または、反転操作 (StyleAlign など) に基づいて、スタイル イメージを潜在ノイズに復元することにより、順伝播によって取得された K と V を使用して、生成時にスタイル イメージを置き換えます。この方法では、反転操作により生成スタイルが劣化することがよくあります。

最近、InstantID の元のチームは、スタイル移行の新しい方法である InstantStyle を開始しました。 Face ID とは異なり、これは一般的な画像スタイル挿入フレームワークであり、2 つのシンプルだが非常に効果的な手法を使用して、参照画像からスタイルとコンテンツを効果的に分離します。この方法は、参照画像からスタイルとコンテンツを効果的に分離し、スタイルとコンテンツの効果的な融合を実現するための、シンプルですが非常に効果的な手法を提供します。

曾爆火的 InstantID又有了新玩法:风格化图像生成,已开源

  • 論文: InstantStyle: テキストから画像への生成におけるスタイル保持に向けた無料のランチ

  • 論文のアドレス: https://huggingface.co/papers/2404.02733

  • プロジェクトのホームページ: https://instantstyle.github.io/

  • # #コードリンク: https://github.com/InstantStyle/InstantStyle

  • デモアドレス: https://huggingface.co/spaces/InstantX/InstantStyle

曾爆火的 InstantID又有了新玩法:风格化图像生成,已开源

自動導入の動機としては、 (1) まず、スタイルは未定義であり、それを定義するための明確な基準がありません。色などの多くの要素が含まれています。 (2) 以前の反転ベースの方法では、スタイルの劣化が明らかであり、テクスチャなどの一部のスタイルでは許容できません。 3) 画像スタイル挿入。最も重要な問題は、スタイル挿入の強度と参照画像のコンテンツ漏洩のバランスをどのように取るかです。

曾爆火的 InstantID又有了新玩法:风格化图像生成,已开源

これに関して、著者のチームは一連の実験分析を実施し、IP アダプターの問題が、著者が手動でのみ行ったものであることを発見しました。画像を調整しました 機能注入の重みにより、ほとんどの論文で主張されているコンテンツ漏洩の問題が解決されます。それにもかかわらず、場合によっては、IP アダプターがバランスをとるための適切なしきい値を見つけることが依然として難しい場合があります。現在のアダプタベースの手法は一般に CLIP を使用して画像特徴を抽出するため、著者は画像検索の例を通じて、CLIP 特徴空間では画像とテキストの特徴を加算および減算できることを確認しました。その答えは明白です。ネットワークに挿入する前に特徴を表示します。漏洩する可能性のあるコンテンツ情報を差し引いて、画像の特徴からコンテンツとスタイルを分離するにはどうすればよいですか?

最後に、B-LoRA 手法に触発されて、著者は各層での IP アダプター インジェクションの効果を注意深く分析しました。その結果、スタイルと空間レイアウト情報に応答する 2 つの独立した層があることを発見して驚きました。それぞれ。この目的を達成するために、著者らは提案手法を紹介する。

メソッドの紹介

上記の観察と実験に基づいて、著者は、図に示すように、InstantStyle メソッドを提案しました。このメソッドの中核には、次の 2 つのモジュールが含まれています。

曾爆火的 InstantID又有了新玩法:风格化图像生成,已开源

(1) 特徴減算: CLIP のアイドル機能を使用して特徴減算を明示的に実行し、画像特徴内のコンテンツ情報を削除し、参照画像の影響を軽減します。生成された画像のコンテンツ。スタイルの決定が不十分である場合と比較して、コンテンツ情報はテキストを通じて単純に説明するのが簡単であることが多いため、CLIP のテキスト エンコーダーを使用してコンテンツの特徴を抽出し、分離することができます。

(2) スタイル レイヤー インジェクションのみ: 機能インジェクションは特定のスタイル レイヤー内でのみ完了し、暗黙的にスタイルとコンテンツの分離を実現します。 UNet の中間ブロック付近で、著者はスタイルと空間レイアウトをそれぞれ制御する 2 つの特定のレイヤーを発見し、一部のスタイルでは空間レイアウトもスタイルの一種である可能性があることを発見しました。

全体として、InstantStyle のアイデアは非常にシンプルで理解しやすく、わずか数行のコードで、スタイルの移行における最も厄介なコンテンツ漏洩の問題を軽減します。

実験結果

著者は記事の中で 2 つの戦略の生成結果を示しています。これら 2 つの戦略は特定のモデルに限定されず、個別に使用できます。どちらも素晴らしい結果が得られました。

特徴減算の結果:

曾爆火的 InstantID又有了新玩法:风格化图像生成,已开源

スタイル レイヤー インジェクションのみ:

曾爆火的 InstantID又有了新玩法:风格化图像生成,已开源

曾爆火的 InstantID又有了新玩法:风格化图像生成,已开源

現在の主要な方法との比較:

曾爆火的 InstantID又有了新玩法:风格化图像生成,已开源

元の画像に基づくスタイル化:

曾爆火的 InstantID又有了新玩法:风格化图像生成,已开源

コミュニティ ゲームプレイ

InstantStyle Wenshengtu、Tushengtu、Inpainting などの豊富なコード実装が提供されており、開発者は GitHub を通じて直接それらを見つけることができます。最近では、ビデオ生成プロジェクト AnyV2V の推奨スタイル ツールとしても使用されています。コミュニティ ユーザーの場合、InstantStyle は ComfyUI もネイティブにサポートしており (このノードの作成者は InstantStyle の共同作成者でもあります)、ユーザーは IP アダプター ノードを更新することですぐにそれを試すことができます。

曾爆火的 InstantID又有了新玩法:风格化图像生成,已开源

InstantID の作成者として、なぜ私たちは InstantID と共同ブランド化されていないのでしょうか? 生成されたスタイルを制御するためにテキストのみを使用する InstantID と比較して、InstantStyle は間違いなく、スタイルがより多様になります。 GitHub スターが 1,000 に達した後、作者チームは顔のスタイル化機能を正式にサポートする予定です。

曾爆火的 InstantID又有了新玩法:风格化图像生成,已开源

#作者は、Huggingface Demo も公式にサポートしており、オンラインで試すことができます。

曾爆火的 InstantID又有了新玩法:风格化图像生成,已开源

以上がかつて人気だった InstantID には、オープンソース化された様式化された画像の生成という新しい遊び方があります。の詳細内容です。詳細については、PHP 中国語 Web サイトの他の関連記事を参照してください。

声明:
この記事はjiqizhixin.comで複製されています。侵害がある場合は、admin@php.cn までご連絡ください。