画像生成中の「打ち切り」: 安定拡散の失敗ケースは 4 つの主要な要因の影響を受ける-AI-php.cn

ホームページ

テクノロジー周辺機器

画像生成中の「打ち切り」: 安定拡散の失敗ケースは 4 つの主要な要因の影響を受ける

WBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWB

Jun 13, 2023 pm 02:26 PM

画像モデル

安定拡散、DALL-E 2、ミッドジャーニーなどのテキストから画像への拡散生成モデルは、精力的に開発されており、強力なテキストから画像への生成機能を備えていますが、"ひっくり返った』というケースもたまに出てきます。

下の図に示すように、「イボイノシシの写真」というテキストプロンプトが与えられると、安定拡散モデルは、対応する鮮明でリアルなイボイノシシの写真を生成できます。ただし、このテキストプロンプトを少し修正して、「イボイノシシと裏切り者の写真」に変更すると、イボイノシシはどうなるでしょうか?それはどのようにして車になったのでしょうか？

画像生成中の「打ち切り」: 安定拡散の失敗ケースは 4 つの主要な要因の影響を受ける

次のいくつかの例を見てみましょう。これらの新種は何でしょうか?

画像生成中の「打ち切り」: 安定拡散の失敗ケースは 4 つの主要な要因の影響を受ける

#これらの奇妙な現象は何が原因で起こるのでしょうか？これらの生成失敗例はすべて、最近出版された論文「安定拡散は不安定である」から来ています。

画像生成中の「打ち切り」: 安定拡散の失敗ケースは 4 つの主要な要因の影響を受ける

##論文アドレス: https://arxiv.org/abs/2306.02583

この論文の内容勾配ベースの敵対的テキストから画像へのモデルのアルゴリズムが初めて提案されました。このアルゴリズムは、効率的かつ効果的に多数の攻撃的なテキストプロンプトを生成でき、安定拡散モデルの不安定性を効果的に調査できます。このアルゴリズムは、短いテキストプロンプトに対して 91.1%、長いテキストプロンプトに対して 81.2% の攻撃成功率を達成しました。さらに、このアルゴリズムは、テキストから画像への生成モデルの故障モードを研究するための豊富なケースを提供し、画像生成の制御性に関する研究の基礎を築きます。

このアルゴリズムによって生成された多数の生成失敗事例に基づいて、研究者は生成失敗の 4 つの理由を要約しました。

生成速度の違い

プロンプト (プロンプト) に複数の生成ターゲットが含まれる場合、よく遭遇する問題があります。生成の過程で特定のターゲットが消滅してしまう問題が発生しております。理論的には、同じキュー内のすべてのターゲットは同じ初期ノイズを共有する必要があります。図 4 に示すように、研究者らは、初期ノイズを固定した条件下で、ImageNet 上に 1,000 個のカテゴリターゲットを生成しました。彼らは、各ターゲットによって生成された最後のイメージを参照イメージとして使用し、各タイムステップで生成されたイメージと最後のステップで生成されたイメージの間の構造類似性インデックス (SSIM) スコアを計算して、さまざまなターゲットを実証しました。

大まかな特徴の類似性

画像生成中の「打ち切り」: 安定拡散の失敗ケースは 4 つの主要な要因の影響を受ける拡散生成プロセスにおいて、研究者は、 2 種類のターゲット間にグローバルまたはローカルの粗い特徴の類似性がある場合、クロスアテンションの重みを計算するときに問題が発生します。これは、2 つのターゲット名詞が同じ画像の同じブロックに同時に焦点を合わせ、その結果、特徴量のもつれが生じる可能性があるためです。たとえば、図 6 では、フェザーとシルバーサーモンには粗粒度の特徴において一定の類似点があり、その結果、フェザーはシルバーサーモンに基づく生成プロセスの 8 番目のステップで生成タスクを完了し続けることができます。シルバーサーモンとマジシャンのような絡みのない 2 種類のターゲットの場合、マジシャンはシルバーサーモンに基づく中間ステップ画像で生成タスクを完了できません。

画像生成中の「打ち切り」: 安定拡散の失敗ケースは 4 つの主要な要因の影響を受ける

多義性

この章では、研究者は、単語が生成されるまでに複数の意味を持つ場合に何が起こるかを詳しく調査します。彼らが発見したのは、外部からの混乱がなければ、結果として得られる画像がその単語の特定の意味を表す場合が多いということでした。「イボイノシシ」を例にすると、図 A4 の最初の行は「イボイノシシ」という単語の意味に基づいて生成されます。

画像生成中の「打ち切り」: 安定拡散の失敗ケースは 4 つの主要な要因の影響を受ける

ただし、研究者らは、元のプロンプトに他の単語が挿入されると、意味上の変化を引き起こす可能性があります。たとえば、「イボイノシシ」を説明するプロンプトに「裏切り者」という単語が導入されると、生成された画像コンテンツは「イボイノシシ」の本来の意味から逸脱し、まったく新しいコンテンツが生成される可能性があります。

プロンプト内の単語の位置

図 10 で、研究者は興味深い現象を観察しました。人間の観点からは、異なる順序で配置されたプロンプトは通常同じ意味を持ちますが、それらはすべて猫、下駄、およびピストルの絵を説明しています。ただし、言語モデル、つまり CLIP テキストエンコーダの場合、単語の順序はテキストの理解にある程度影響し、生成される画像の内容も変化します。この現象は、説明が意味的に一貫しているにもかかわらず、単語の順序が異なるため、モデルが異なる理解と生成結果を生成する可能性があることを示しています。これは、モデルが言語を処理し意味論を理解する方法が人間とは異なることを明らかにするだけでなく、そのようなモデルを設計および使用する際には語順の影響にもっと注意を払う必要があることを思い出させます。

画像生成中の「打ち切り」: 安定拡散の失敗ケースは 4 つの主要な要因の影響を受ける

#モデル構造

下の図 1 に示すように、元のターゲット名詞を変更せずに、この前提の下で,研究者はガンベルソフトマックス分布を学習することによって単語置換または拡張の離散的プロセスを連続化し,それによって摂動生成の微分可能性を確保した.画像生成後,CLIP分類器とマージン損失を使用してωを最適化することを目的としたCLIP を生成する正しく分類できない画像の場合、攻撃的なキューがクリーンなキューと一定の類似性を持っていることを確認するために、研究者はさらに意味的類似性制約とテキスト流暢性制約を使用しました。

この分布を学習すると、アルゴリズムは、同じクリーンテキストプロンプトに対して攻撃効果のある複数のテキストプロンプトをサンプリングできるようになります。

画像生成中の「打ち切り」: 安定拡散の失敗ケースは 4 つの主要な要因の影響を受ける

# 詳細については、元の記事を参照してください。

以上が画像生成中の「打ち切り」: 安定拡散の失敗ケースは 4 つの主要な要因の影響を受けるの詳細内容です。詳細については、PHP 中国語 Web サイトの他の関連記事を参照してください。

声明

この記事は51CTO.COMで複製されています。侵害がある場合は、admin@php.cn までご連絡ください。

生成エンジン最適化に関するビジネスリーダーのガイド（GEO）May 03, 2025 am 11:14 AM

Googleはこのシフトをリードしています。その「AIの概要」機能はすでに10億人以上のユーザーにサービスを提供しており、誰もがリンクをクリックする前に完全な回答を提供しています。[^2] 他のプレイヤーも速く地位を獲得しています。 ChatGpt、Microsoft Copilot、およびPE

このスタートアップは、AIエージェントを使用して悪意のある広告となりすましアカウントと戦っていますMay 03, 2025 am 11:13 AM

2022年、彼はソーシャルエンジニアリング防衛のスタートアップDoppelを設立してまさにそれを行いました。そして、サイバー犯罪者が攻撃をターボチャージするためのより高度なAIモデルをハーネスするにつれて、DoppelのAIシステムは、企業が大規模に戦うのに役立ちました。

世界モデルがどのように生成AIとLLMの未来を根本的に再形成しているかMay 03, 2025 am 11:12 AM

出来上がりは、適切な世界モデルとの対話を介して、生成AIとLLMを実質的に後押しすることができます。それについて話しましょう。革新的なAIブレークスルーのこの分析は、最新のAIで進行中のForbes列のカバレッジの一部であり、

2050年5月：私たちは祝うために何を残しましたか？May 03, 2025 am 11:11 AM

労働者2050年。全国の公園は、ノスタルジックなパレードが街の通りを通り抜ける一方で、伝統的なバーベキューを楽しんでいる家族でいっぱいです。しかし、お祝いは現在、博物館のような品質を持っています。

あなたが聞いたことがないディープフェイク検出器はそれが98％正確ですMay 03, 2025 am 11:10 AM

この緊急かつ不安な傾向に対処するために、TEM Journalの2025年2月版の査読済みの記事は、その技術のディープフェイクが現在存在する場所に関する最も明確でデータ駆動型の評価の1つを提供します。研究者

Quantum Talent Wars：The Hidden Crisis Treatenting Tech＆＃x27;の次のフロンティアMay 03, 2025 am 11:09 AM

新薬を策定するのにかかる時間を大幅に短縮することから、より環境に優しいエネルギーを生み出すまで、企業が新境地を破る大きな機会があります。しかし、大きな問題があります：スキルを持っている人々が深刻な不足があります

プロトタイプ：これらの細菌は電気を生成できますMay 03, 2025 am 11:08 AM

数年前、科学者は、特定の種類のバクテリアが酸素を摂取するのではなく、電気を生成することで呼吸するように見えることを発見しましたが、どのようにしたのかは謎でした。 Journal Cellに掲載された新しい研究は、これがどのように起こるかを特定しています：微生物

AIとサイバーセキュリティ：新政権の100日間の計算May 03, 2025 am 11:07 AM

今週のRSAC 2025会議で、SNYKは「The First 100 Days：How AI、Policy＆Cybersecurity Collide」というタイトルのタイムリーなパネルを開催しました。ニコール・ペルロス、元ジャーナリストとパートネ

See all articles

ホットAIツール

Undresser.AI Undress

リアルなヌード写真を作成する AI 搭載アプリ

AI Clothes Remover

写真から衣服を削除するオンライン AI ツール。

Undress AI Tool

脱衣画像を無料で

Clothoff.io

AI衣類リムーバー

Video Face Swap

完全無料の AI 顔交換ツールを使用して、あらゆるビデオの顔を簡単に交換できます。

ホットツール

SublimeText3 中国語版

中国語版、とても使いやすい

MantisBT

Mantis は、製品の欠陥追跡を支援するために設計された、導入が簡単な Web ベースの欠陥追跡ツールです。 PHP、MySQL、Web サーバーが必要です。デモおよびホスティングサービスをチェックしてください。

MinGW - Minimalist GNU for Windows

このプロジェクトは osdn.net/projects/mingw に移行中です。引き続きそこでフォローしていただけます。 MinGW: GNU Compiler Collection (GCC) のネイティブ Windows ポートであり、ネイティブ Windows アプリケーションを構築するための自由に配布可能なインポートライブラリとヘッダーファイルであり、C99 機能をサポートする MSVC ランタイムの拡張機能が含まれています。すべての MinGW ソフトウェアは 64 ビット Windows プラットフォームで実行できます。

mPDF

mPDF は、UTF-8 でエンコードされた HTML から PDF ファイルを生成できる PHP ライブラリです。オリジナルの作者である Ian Back は、Web サイトから「オンザフライ」で PDF ファイルを出力し、さまざまな言語を処理するために mPDF を作成しました。 HTML2FPDF などのオリジナルのスクリプトよりも遅く、Unicode フォントを使用すると生成されるファイルが大きくなりますが、CSS スタイルなどをサポートし、多くの機能強化が施されています。 RTL (アラビア語とヘブライ語) や CJK (中国語、日本語、韓国語) を含むほぼすべての言語をサポートします。ネストされたブロックレベル要素 (P、DIV など) をサポートします。