ホームページ  >  記事  >  テクノロジー周辺機器  >  画像生成中の「打ち切り」: 安定拡散の失敗ケースは 4 つの主要な要因の影響を受ける

画像生成中の「打ち切り」: 安定拡散の失敗ケースは 4 つの主要な要因の影響を受ける

WBOY
WBOY転載
2023-06-13 14:26:391027ブラウズ

安定拡散、DALL-E 2、ミッドジャーニーなどのテキストから画像への拡散生成モデルは、精力的に開発されており、強力なテキストから画像への生成機能を備えていますが、"ひっくり返った』というケースもたまに出てきます。

下の図に示すように、「イボイノシシの写真」というテキスト プロンプトが与えられると、安定拡散モデルは、対応する鮮明でリアルなイボイノシシの写真を生成できます。ただし、このテキスト プロンプトを少し修正して、「イボイノシシと裏切り者の写真」に変更すると、イボイノシシはどうなるでしょうか?それはどのようにして車になったのでしょうか?

画像生成中の「打ち切り」: 安定拡散の失敗ケースは 4 つの主要な要因の影響を受ける

次のいくつかの例を見てみましょう。これらの新種は何でしょうか?

画像生成中の「打ち切り」: 安定拡散の失敗ケースは 4 つの主要な要因の影響を受ける

#これらの奇妙な現象は何が原因で起こるのでしょうか?これらの生成失敗例はすべて、最近出版された論文「安定拡散は不安定である」から来ています。

画像生成中の「打ち切り」: 安定拡散の失敗ケースは 4 つの主要な要因の影響を受ける


  • ##論文アドレス: https://arxiv.org/abs/2306.02583
この論文の内容 勾配ベースの敵対的テキストから画像へのモデルのアルゴリズムが初めて提案されました。このアルゴリズムは、効率的かつ効果的に多数の攻撃的なテキスト プロンプトを生成でき、安定拡散モデルの不安定性を効果的に調査できます。このアルゴリズムは、短いテキスト プロンプトに対して 91.1%、長いテキスト プロンプトに対して 81.2% の攻撃成功率を達成しました。さらに、このアルゴリズムは、テキストから画像への生成モデルの故障モードを研究するための豊富なケースを提供し、画像生成の制御性に関する研究の基礎を築きます。

このアルゴリズムによって生成された多数の生成失敗事例に基づいて、研究者は生成失敗の 4 つの理由を要約しました。

生成速度の違い

    粗粒度特徴量の類似性
  • 言葉の曖昧さ
  • プロンプト内の単語の位置
  • 生成速度の違い
  • プロンプト (プロンプト) に複数の生成ターゲットが含まれる場合、よく遭遇する問題があります。生成の過程で特定のターゲットが消滅してしまう問題が発生しております。理論的には、同じキュー内のすべてのターゲットは同じ初期ノイズを共有する必要があります。図 4 に示すように、研究者らは、初期ノイズを固定した条件下で、ImageNet 上に 1,000 個のカテゴリ ターゲットを生成しました。彼らは、各ターゲットによって生成された最後のイメージを参照イメージとして使用し、各タイム ステップで生成されたイメージと最後のステップで生成されたイメージの間の構造類似性インデックス (SSIM) スコアを計算して、さまざまなターゲットを実証しました。

大まかな特徴の類似性

画像生成中の「打ち切り」: 安定拡散の失敗ケースは 4 つの主要な要因の影響を受ける拡散生成プロセスにおいて、研究者は、 2 種類のターゲット間にグローバルまたはローカルの粗い特徴の類似性がある場合、クロス アテンションの重みを計算するときに問題が発生します。これは、2 つのターゲット名詞が同じ画像の同じブロックに同時に焦点を合わせ、その結果、特徴量のもつれが生じる可能性があるためです。たとえば、図 6 では、フェザーとシルバー サーモンには粗粒度の特徴において一定の類似点があり、その結果、フェザーはシルバー サーモンに基づく生成プロセスの 8 番目のステップで生成タスクを完了し続けることができます。シルバーサーモンとマジシャンのような絡みのない 2 種類のターゲットの場合、マジシャンはシルバーサーモンに基づく中間ステップ画像で生成タスクを完了できません。

画像生成中の「打ち切り」: 安定拡散の失敗ケースは 4 つの主要な要因の影響を受ける

多義性

この章では、研究者は、単語が生成されるまでに複数の意味を持つ場合に何が起こるかを詳しく調査します。彼らが発見したのは、外部からの混乱がなければ、結果として得られる画像がその単語の特定の意味を表す場合が多いということでした。 「イボイノシシ」を例にすると、図 A4 の最初の行は「イボイノシシ」という単語の意味に基づいて生成されます。

画像生成中の「打ち切り」: 安定拡散の失敗ケースは 4 つの主要な要因の影響を受ける

ただし、研究者らは、元のプロンプトに他の単語が挿入されると、意味上の変化を引き起こす可能性があります。たとえば、「イボイノシシ」を説明するプロンプトに「裏切り者」という単語が導入されると、生成された画像コンテンツは「イボイノシシ」の本来の意味から逸脱し、まったく新しいコンテンツが生成される可能性があります。

プロンプト内の単語の位置

図 10 で、研究者は興味深い現象を観察しました。人間の観点からは、異なる順序で配置されたプロンプトは通常同じ意味を持ちますが、それらはすべて猫、下駄、およびピストルの絵を説明しています。ただし、言語モデル、つまり CLIP テキスト エンコーダの場合、単語の順序はテキストの理解にある程度影響し、生成される画像の内容も変化します。この現象は、説明が意味的に一貫しているにもかかわらず、単語の順序が異なるため、モデルが異なる理解と生成結果を生成する可能性があることを示しています。これは、モデルが言語を処理し意味論を理解する方法が人間とは異なることを明らかにするだけでなく、そのようなモデルを設計および使用する際には語順の影響にもっと注意を払う必要があることを思い出させます。

画像生成中の「打ち切り」: 安定拡散の失敗ケースは 4 つの主要な要因の影響を受ける

#モデル構造

下の図 1 に示すように、元のターゲット名詞を変更せずに、この前提の下で,研究者はガンベルソフトマックス分布を学習することによって単語置換または拡張の離散的プロセスを連続化し,それによって摂動生成の微分可能性を確保した.画像生成後,CLIP分類器とマージン損失を使用してωを最適化することを目的としたCLIP を生成する 正しく分類できない画像の場合、攻撃的なキューがクリーンなキューと一定の類似性を持っていることを確認するために、研究者はさらに意味的類似性制約とテキスト流暢性制約を使用しました。

この分布を学習すると、アルゴリズムは、同じクリーン テキスト プロンプトに対して攻撃効果のある複数のテキスト プロンプトをサンプリングできるようになります。

画像生成中の「打ち切り」: 安定拡散の失敗ケースは 4 つの主要な要因の影響を受ける

画像生成中の「打ち切り」: 安定拡散の失敗ケースは 4 つの主要な要因の影響を受ける

# 詳細については、元の記事を参照してください。

以上が画像生成中の「打ち切り」: 安定拡散の失敗ケースは 4 つの主要な要因の影響を受けるの詳細内容です。詳細については、PHP 中国語 Web サイトの他の関連記事を参照してください。

声明:
この記事は51cto.comで複製されています。侵害がある場合は、admin@php.cn までご連絡ください。