安定拡散、DALL-E 2、ミッドジャーニーなどのテキストから画像への拡散生成モデルは、精力的に開発されており、強力なテキストから画像への生成機能を備えていますが、"ひっくり返った』というケースもたまに出てきます。
下の図に示すように、「イボイノシシの写真」というテキスト プロンプトが与えられると、安定拡散モデルは、対応する鮮明でリアルなイボイノシシの写真を生成できます。ただし、このテキスト プロンプトを少し修正して、「イボイノシシと裏切り者の写真」に変更すると、イボイノシシはどうなるでしょうか?それはどのようにして車になったのでしょうか?
次のいくつかの例を見てみましょう。これらの新種は何でしょうか?
#これらの奇妙な現象は何が原因で起こるのでしょうか?これらの生成失敗例はすべて、最近出版された論文「安定拡散は不安定である」から来ています。
- ##論文アドレス: https://arxiv.org/abs/2306.02583
このアルゴリズムによって生成された多数の生成失敗事例に基づいて、研究者は生成失敗の 4 つの理由を要約しました。
生成速度の違い
- 粗粒度特徴量の類似性
- 言葉の曖昧さ
- プロンプト内の単語の位置
- 生成速度の違い
- プロンプト (プロンプト) に複数の生成ターゲットが含まれる場合、よく遭遇する問題があります。生成の過程で特定のターゲットが消滅してしまう問題が発生しております。理論的には、同じキュー内のすべてのターゲットは同じ初期ノイズを共有する必要があります。図 4 に示すように、研究者らは、初期ノイズを固定した条件下で、ImageNet 上に 1,000 個のカテゴリ ターゲットを生成しました。彼らは、各ターゲットによって生成された最後のイメージを参照イメージとして使用し、各タイム ステップで生成されたイメージと最後のステップで生成されたイメージの間の構造類似性インデックス (SSIM) スコアを計算して、さまざまなターゲットを実証しました。
大まかな特徴の類似性
拡散生成プロセスにおいて、研究者は、 2 種類のターゲット間にグローバルまたはローカルの粗い特徴の類似性がある場合、クロス アテンションの重みを計算するときに問題が発生します。これは、2 つのターゲット名詞が同じ画像の同じブロックに同時に焦点を合わせ、その結果、特徴量のもつれが生じる可能性があるためです。たとえば、図 6 では、フェザーとシルバー サーモンには粗粒度の特徴において一定の類似点があり、その結果、フェザーはシルバー サーモンに基づく生成プロセスの 8 番目のステップで生成タスクを完了し続けることができます。シルバーサーモンとマジシャンのような絡みのない 2 種類のターゲットの場合、マジシャンはシルバーサーモンに基づく中間ステップ画像で生成タスクを完了できません。
多義性
この章では、研究者は、単語が生成されるまでに複数の意味を持つ場合に何が起こるかを詳しく調査します。彼らが発見したのは、外部からの混乱がなければ、結果として得られる画像がその単語の特定の意味を表す場合が多いということでした。 「イボイノシシ」を例にすると、図 A4 の最初の行は「イボイノシシ」という単語の意味に基づいて生成されます。
ただし、研究者らは、元のプロンプトに他の単語が挿入されると、意味上の変化を引き起こす可能性があります。たとえば、「イボイノシシ」を説明するプロンプトに「裏切り者」という単語が導入されると、生成された画像コンテンツは「イボイノシシ」の本来の意味から逸脱し、まったく新しいコンテンツが生成される可能性があります。
プロンプト内の単語の位置
図 10 で、研究者は興味深い現象を観察しました。人間の観点からは、異なる順序で配置されたプロンプトは通常同じ意味を持ちますが、それらはすべて猫、下駄、およびピストルの絵を説明しています。ただし、言語モデル、つまり CLIP テキスト エンコーダの場合、単語の順序はテキストの理解にある程度影響し、生成される画像の内容も変化します。この現象は、説明が意味的に一貫しているにもかかわらず、単語の順序が異なるため、モデルが異なる理解と生成結果を生成する可能性があることを示しています。これは、モデルが言語を処理し意味論を理解する方法が人間とは異なることを明らかにするだけでなく、そのようなモデルを設計および使用する際には語順の影響にもっと注意を払う必要があることを思い出させます。
下の図 1 に示すように、元のターゲット名詞を変更せずに、この前提の下で,研究者はガンベルソフトマックス分布を学習することによって単語置換または拡張の離散的プロセスを連続化し,それによって摂動生成の微分可能性を確保した.画像生成後,CLIP分類器とマージン損失を使用してωを最適化することを目的としたCLIP を生成する 正しく分類できない画像の場合、攻撃的なキューがクリーンなキューと一定の類似性を持っていることを確認するために、研究者はさらに意味的類似性制約とテキスト流暢性制約を使用しました。
この分布を学習すると、アルゴリズムは、同じクリーン テキスト プロンプトに対して攻撃効果のある複数のテキスト プロンプトをサンプリングできるようになります。
以上が画像生成中の「打ち切り」: 安定拡散の失敗ケースは 4 つの主要な要因の影響を受けるの詳細内容です。詳細については、PHP 中国語 Web サイトの他の関連記事を参照してください。

Googleはこのシフトをリードしています。その「AIの概要」機能はすでに10億人以上のユーザーにサービスを提供しており、誰もがリンクをクリックする前に完全な回答を提供しています。[^2] 他のプレイヤーも速く地位を獲得しています。 ChatGpt、Microsoft Copilot、およびPE

2022年、彼はソーシャルエンジニアリング防衛のスタートアップDoppelを設立してまさにそれを行いました。そして、サイバー犯罪者が攻撃をターボチャージするためのより高度なAIモデルをハーネスするにつれて、DoppelのAIシステムは、企業が大規模に戦うのに役立ちました。

出来上がりは、適切な世界モデルとの対話を介して、生成AIとLLMを実質的に後押しすることができます。 それについて話しましょう。 革新的なAIブレークスルーのこの分析は、最新のAIで進行中のForbes列のカバレッジの一部であり、

労働者2050年。全国の公園は、ノスタルジックなパレードが街の通りを通り抜ける一方で、伝統的なバーベキューを楽しんでいる家族でいっぱいです。しかし、お祝いは現在、博物館のような品質を持っています。

この緊急かつ不安な傾向に対処するために、TEM Journalの2025年2月版の査読済みの記事は、その技術のディープフェイクが現在存在する場所に関する最も明確でデータ駆動型の評価の1つを提供します。 研究者

新薬を策定するのにかかる時間を大幅に短縮することから、より環境に優しいエネルギーを生み出すまで、企業が新境地を破る大きな機会があります。 しかし、大きな問題があります:スキルを持っている人々が深刻な不足があります

数年前、科学者は、特定の種類のバクテリアが酸素を摂取するのではなく、電気を生成することで呼吸するように見えることを発見しましたが、どのようにしたのかは謎でした。 Journal Cellに掲載された新しい研究は、これがどのように起こるかを特定しています:微生物

今週のRSAC 2025会議で、SNYKは「The First 100 Days:How AI、Policy&Cybersecurity Collide」というタイトルのタイムリーなパネルを開催しました。ニコール・ペルロス、元ジャーナリストとパートネ


ホットAIツール

Undresser.AI Undress
リアルなヌード写真を作成する AI 搭載アプリ

AI Clothes Remover
写真から衣服を削除するオンライン AI ツール。

Undress AI Tool
脱衣画像を無料で

Clothoff.io
AI衣類リムーバー

Video Face Swap
完全無料の AI 顔交換ツールを使用して、あらゆるビデオの顔を簡単に交換できます。

人気の記事

ホットツール

SublimeText3 中国語版
中国語版、とても使いやすい

MantisBT
Mantis は、製品の欠陥追跡を支援するために設計された、導入が簡単な Web ベースの欠陥追跡ツールです。 PHP、MySQL、Web サーバーが必要です。デモおよびホスティング サービスをチェックしてください。

MinGW - Minimalist GNU for Windows
このプロジェクトは osdn.net/projects/mingw に移行中です。引き続きそこでフォローしていただけます。 MinGW: GNU Compiler Collection (GCC) のネイティブ Windows ポートであり、ネイティブ Windows アプリケーションを構築するための自由に配布可能なインポート ライブラリとヘッダー ファイルであり、C99 機能をサポートする MSVC ランタイムの拡張機能が含まれています。すべての MinGW ソフトウェアは 64 ビット Windows プラットフォームで実行できます。

mPDF
mPDF は、UTF-8 でエンコードされた HTML から PDF ファイルを生成できる PHP ライブラリです。オリジナルの作者である Ian Back は、Web サイトから「オンザフライ」で PDF ファイルを出力し、さまざまな言語を処理するために mPDF を作成しました。 HTML2FPDF などのオリジナルのスクリプトよりも遅く、Unicode フォントを使用すると生成されるファイルが大きくなりますが、CSS スタイルなどをサポートし、多くの機能強化が施されています。 RTL (アラビア語とヘブライ語) や CJK (中国語、日本語、韓国語) を含むほぼすべての言語をサポートします。ネストされたブロックレベル要素 (P、DIV など) をサポートします。

AtomエディタMac版ダウンロード
最も人気のあるオープンソースエディター

ホットトピック









