非常に強い光で画像を生成することはできませんか? WeChatビジョンチームが拡散モデルの特異点問題を効果的に解決-AI-php.cn

ホームページ

テクノロジー周辺機器

非常に強い光で画像を生成することはできませんか? WeChatビジョンチームが拡散モデルの特異点問題を効果的に解決

王林

Mar 28, 2024 pm 03:06 PM

aiデータ

拡散モデルは画像生成における色表現に役割を果たし、生成モデルの新時代を推進します。 Stable Diffusion、DALLE、Imagen、SORA などの大規模なモデルが登場し、生成 AI のアプリケーション背景がさらに充実しました。しかし、現在の拡散モデルは理論的には完璧ではなく、サンプリング期間の終点における未定義の特異点の問題に注目した研究はほとんどありません。さらに、アプリケーションの特異点問題によって引き起こされる平均グレーレベルや、生成される画像の品質に影響を与えるその他の問題は解決されていません。

この問題を解決するために、WeChat ビジョンチームは中山大学と協力して拡散モデルの特異点問題を共同で調査し、プラグアンドプレイ手法を提案しました。初期段階のサンプリング問題は解決されます。この方法は、平均グレーレベルの問題を解決し、既存の拡散モデルの生成能力を大幅に向上させます。この研究結果はCVPR 2024カンファレンスで発表されました。

拡散モデルは、画像、音声、テキスト、ビデオの生成など、マルチモーダルなコンテンツ生成タスクで目覚ましい成功を収めています。これらのモデルのモデリングが成功するかどうかは、主に、 拡散プロセスの逆プロセスもガウス特性 に準拠するという仮定に依存しています。ただし、この仮説は完全には証明されていません。特にエンドポイント、つまり t=0 または t=1 では特異点の問題が発生し、特異点でのサンプリングを研究する既存の方法が制限されます。

さらに、特異点問題は拡散モデルの生成能力にも影響し、モデルに 平均グレースケール問題が発生します。以下に示すように、明るさが強いまたは弱い画像を生成することは困難です。これにより、現在の普及モデルの適用範囲もある程度制限されます。

時間エンドポイントにおける拡散モデルの特異点問題を解決するために、WeChat ビジュアルチームは中山大学と協力し、理論と実践の両方から徹底的な研究を実施しました。側面。まず、チームは、特異点の瞬間における逆過程の近似ガウス分布を含む誤差上限を提案しました。これは、その後の研究に理論的基礎を提供しました。この理論的保証に基づいて、チームは特異点でのサンプリングを研究し、2 つの重要な結論に達しました。1) t=1 の特異点は、極限を見つけることで分離可能な特異点に変換できる、2) t=0 での特異点これは拡散モデルの固有の特性であり、回避する必要はありません。これらの結論に基づいて、チームは初期瞬間における拡散モデルのサンプリングの問題を解決するためのプラグアンドプレイ手法 SingDiffusion を提案しました。

多数の実験を通じて、SingDiffusion モジュールは 1 回のトレーニングだけで既存の拡散モデルにシームレスに適用でき、平均グレー値の問題を大幅に解決できることが証明されています。 SingDiffusion は、分類器のないガイダンス技術を使用せずに、現在の手法の生成品質を大幅に向上させることができ、特に Stable Diffusion 1.5 (SD-1.5) に適用した後、生成される画像の品質は 33% 向上しました。

非常に強い光で画像を生成することはできませんか? WeChatビジョンチームが拡散モデルの特異点問題を効果的に解決

論文アドレス: https://arxiv.org/pdf/2403.08381.pdf

プロジェクトアドレス: https://pangzecheung.github.io/SingDiffusion/

論文のタイトル: 拡散モデルにおける時間間隔の終点における特異点への取り組み

逆過程のガウス特性

拡散モデルの特異点問題を研究するには、過程全体の特異点における逆過程が成り立つことを検証する必要があります。ガウス特性を満たします。まず非常に強い光で画像を生成することはできませんか? WeChatビジョンチームが拡散モデルの特異点問題を効果的に解決 # を拡散モデルのトレーニングサンプルとして定義します。トレーニングサンプルの分布は次のように表現できます:

非常に強い光で画像を生成することはできませんか? WeChatビジョンチームが拡散モデルの特異点問題を効果的に解決

ここで、δはディラック関数を表します。 [1] の連続時間拡散モデルの定義によれば、任意の 2 つの瞬間 0≤s,t≤1 について、順方向プロセスは次のように表すことができます:

非常に強い光で画像を生成することはできませんか? WeChatビジョンチームが拡散モデルの特異点問題を効果的に解決

その中で非常に強い光で画像を生成することはできませんか? WeChatビジョンチームが拡散モデルの特異点問題を効果的に解決、、、時間の経過とともに単調になる1から0に変化します。先ほど定義したトレーニングサンプル分布を考慮すると、非常に強い光で画像を生成することはできませんか? WeChatビジョンチームが拡散モデルの特異点問題を効果的に解決の単一瞬間周辺確率密度は次のように表すことができます。

非常に強い光で画像を生成することはできませんか? WeChatビジョンチームが拡散モデルの特異点問題を効果的に解決

##したがって、逆プロセスの条件付き分布はベイズの公式を通じて計算できます。

非常に強い光で画像を生成することはできませんか? WeChatビジョンチームが拡散モデルの特異点問題を効果的に解決

# ただし、得られた分布は混合ガウス分布です。ネットワークを使用してフィッティングを実行するのは困難です。したがって、主流の拡散モデルは通常、この分布が単一のガウス分布に適合すると仮定します。この仮説を検証するために、研究では命題 1 のこのフィッティングの誤差を推定します。

非常に強い光で画像を生成することはできませんか? WeChatビジョンチームが拡散モデルの特異点問題を効果的に解決

ただし、研究では、t=1 の場合、s が 1 に近づくにつれて、非常に強い光で画像を生成することはできませんか? WeChatビジョンチームが拡散モデルの特異点問題を効果的に解決も 1 に近づくことがわかりました。、エラーは無視できません。したがって、命題 1 は t=1 における逆ガウス特性を証明しません。この問題を解決するために、この研究は新しい命題を与えます:

非常に強い光で画像を生成することはできませんか? WeChatビジョンチームが拡散モデルの特異点問題を効果的に解決

命題 2 によると、t=1 のとき、s は次のようになります。 1、非常に強い光で画像を生成することはできませんか? WeChatビジョンチームが拡散モデルの特異点問題を効果的に解決は 0 に近づきます。したがって、本研究は特異点モーメントを含む逆過程全体がガウス特性に従うことを証明した。

特異点の瞬間におけるサンプリング非常に強い光で画像を生成することはできませんか? WeChatビジョンチームが拡散モデルの特異点問題を効果的に解決

逆過程のガウス特性が保証されているため、この研究は特異点のサンプリングに基づいています。逆サンプリング公式に基づくモーメントの研究が開始されました。非常に強い光で画像を生成することはできませんか? WeChatビジョンチームが拡散モデルの特異点問題を効果的に解決まず、時間 t=1 における特異点の問題を考えます。 t=1、

=0 の場合、次のサンプリング式では分母が 0 で除算されます。

研究チームは、次のことを発見しました。極限を計算すると、特異点は非特異点に変換できます:

非常に強い光で画像を生成することはできませんか? WeChatビジョンチームが拡散モデルの特異点問題を効果的に解決

ただし、この制限はテスト中に計算できません。この目的を達成するために、この研究では、非常に強い光で画像を生成することはできませんか? WeChatビジョンチームが拡散モデルの特異点問題を効果的に解決を時間 t=1 でフィッティングすることができ、「x - 予測」を使用して初期特異点でのサンプリング問題を解決できることを提案します。

# 次に、時刻 t=0 を考えます。ガウス分布フィッティングの逆プロセスは、分散 0 のガウス分布、つまりディラック関数になります。 ## ＃＃＃＃＃＃＃＃＃＃＃＃＃＃＃＃で＃＃＃＃＃＃＃＃＃。このような特異点により、サンプリングプロセスが正しいデータに収束します

。したがって、t=0 での特異点は拡散モデルの優れた特性であり、回避する必要はありません。非常に強い光で画像を生成することはできませんか? WeChatビジョンチームが拡散モデルの特異点問題を効果的に解決

さらに、この調査では、付録で DDIM、SDE、および ODE の特異点の問題についても調査しています。非常に強い光で画像を生成することはできませんか? WeChatビジョンチームが拡散モデルの特異点問題を効果的に解決プラグアンドプレイ SingDiffusion モジュール

特異点でのサンプリングは拡散モデルの生成に影響します画像品質。たとえば、高輝度または低輝度のキューを入力する場合、既存の方法では多くの場合、平均グレースケールの画像しか生成できません。これは、平均グレースケール問題と呼ばれます。この問題は、既存の方法が t=0 の特異点でのサンプリングを無視し、1-ϵ の瞬間でのサンプリングの初期分布として

標準ガウス分布

を使用するという事実に起因します。ただし、上の図に示すように、標準のガウス分布と 1-ϵ 時間の実際のデータ分布の間には大きなギャップがあります。

非常に強い光で画像を生成することはできませんか? WeChatビジョンチームが拡散モデルの特異点問題を効果的に解決

このようなギャップの下では、命題 3 によれば、既存の方法は t= で平均値 0 の画像に向かって移動することと等価です。 1 つまり、平均的なグレースケール画像を生成します。したがって、既存の手法では、明るさが極端に強い画像や弱い画像を生成することは困難です。この問題を解決するために、この研究では、標準的なガウス分布と実際のデータ分布の間の変換をフィッティングすることによってこのギャップを埋めるプラグアンドプレイの SingDiffusion 手法を提案します。 SingDiffuion のアルゴリズムは次の図に示されています。

非常に強い光で画像を生成することはできませんか? WeChatビジョンチームが拡散モデルの特異点問題を効果的に解決

の結論によると、前のセクション、この研究「x - 予測」法は、特異点でのサンプリング問題を解くために時間 t=1 で使用されます。画像とテキストのデータペア

の場合、このメソッドは

に適合するように Unet 非常に強い光で画像を生成することはできませんか? WeChatビジョンチームが拡散モデルの特異点問題を効果的に解決

をトレーニングします。損失関数は次のように表されます: 非常に強い光で画像を生成することはできませんか? WeChatビジョンチームが拡散モデルの特異点問題を効果的に解決モデルが収束したら、以下の DDIM サンプリング式に従い、新しく取得したモジュールを使用できますサンプリング非常に強い光で画像を生成することはできませんか? WeChatビジョンチームが拡散モデルの特異点問題を効果的に解決。

非常に強い光で画像を生成することはできませんか? WeChatビジョンチームが拡散モデルの特異点問題を効果的に解決

DDIM のサンプリング式は、生成された非常に強い光で画像を生成することはできませんか? WeChatビジョンチームが拡散モデルの特異点問題を効果的に解決が 1-ε 時間でのデータ分布に一致することを保証します。これにより、平均グレースケールの問題。このステップの後、事前トレーニングされたモデルを使用して、非常に強い光で画像を生成することはできませんか? WeChatビジョンチームが拡散モデルの特異点問題を効果的に解決が生成されるまで後続のサンプリングステップを実行できます。このメソッドはサンプリングの最初のステップにのみ関与し、その後のサンプリングプロセスとは何の関係もないため、SingDiffusion はほとんどの既存の拡散モデルに適用できることに注意してください。さらに、分類子ガイダンス操作がないことによって引き起こされるデータオーバーフローの問題を回避するために、このメソッドは次の正規化操作も使用します。分類子ガイダンス操作を行わなかった後の結果、neg は否定的なプロンプトの下での出力を表し、pos は肯定的なプロンプトの下での出力を表し、ω はガイダンスの強度を表します。

非常に強い光で画像を生成することはできませんか? WeChatビジョンチームが拡散モデルの特異点問題を効果的に解決実験

まず、この研究では、SD-1.5、SD-2.0 ベース、SD-2.0 の 3 つのモデルで SingDiffusion を検証しました。平均グレースケールの問題を解決します。今回の研究では、生成条件として「真っ白/黒背景」「白/黒背景にモノクロ線画ロゴ」を含む4つの極端なプロンプトを選択し、生成された画像の平均グレースケール値を計算したところ、下表のようになりました。表示:

#表からわかるように、この研究は平均グレー値の問題を大幅に解決し、明るさに一致する色を生成できます。入力テキストの説明の画像。さらに、この研究では、次の図に示すように、これら 4 つのプロンプトステートメントに基づく生成結果も視覚化しました。図にあるように、このメソッドを追加すると、既存の拡散モデルで白または黒の画像を生成できるようになります。

非常に強い光で画像を生成することはできませんか? WeChatビジョンチームが拡散モデルの特異点問題を効果的に解決この方法によって達成される画質の向上をさらに研究するために、研究では COCO データセットでのテストのために 30,000 の記述を選択しました。まず、この研究では、次の表に示すように、分類子を使用しないガイダンスを使用せずにモデル自体の生成機能を実証しています。表提案手法により、生成された画像の FID が大幅に削減され、CLIP インデックスが向上することがわかります。 SD-1.5 モデルでは、この論文の方法により、元のモデルと比較して FID インデックスが 33% 減少することは注目に値します。

さらに、分類器ガイダンスなしで提案された方法の生成能力を検証するために、この研究では、さまざまなガイダンスサイズ ω∈[1.5,2,3 ,4,5,6,7,8] CLIP 対 FID のパレート曲線:

非常に強い光で画像を生成することはできませんか? WeChatビジョンチームが拡散モデルの特異点問題を効果的に解決

図からわかるように、At同じCLIPレベルであれば、提案手法はより低いFID値を取得し、より現実的な画像を生成できます。

さらに、この研究では、次の図に示すように、さまざまな CIVITAI 事前トレーニングモデルの下で提案された方法の一般化能力も実証しています。

この研究で提案された方法は 1 回のトレーニングのみを必要とし、既存の拡散モデルに簡単に適用して平均グレースケール問題を解決できることがわかります。

最後に、この調査で提案された方法は、次の図に示すように、事前トレーニングされた ControlNet モデルにもシームレスに適用できます。

##結果から、この方法が ControlNet の平均グレースケール問題を効果的に解決できることがわかります。非常に強い光で画像を生成することはできませんか? WeChatビジョンチームが拡散モデルの特異点問題を効果的に解決

以上が非常に強い光で画像を生成することはできませんか? WeChatビジョンチームが拡散モデルの特異点問題を効果的に解決の詳細内容です。詳細については、PHP 中国語 Web サイトの他の関連記事を参照してください。

声明

この記事は51CTO.COMで複製されています。侵害がある場合は、admin@php.cn までご連絡ください。

AI内部展開の隠された危険：ガバナンスのギャップと壊滅的なリスクApr 28, 2025 am 11:12 AM

Apollo Researchの新しいレポートによると、高度なAIシステムの未確認の内部展開は、重大なリスクをもたらします。主要なAI企業の間で一般的なこの監視の欠如は、Uncontに及ぶ潜在的な壊滅的な結果を可能にします

AIポリグラフの構築Apr 28, 2025 am 11:11 AM

従来の嘘検出器は時代遅れです。リストバンドで接続されたポインターに依存すると、被験者のバイタルサインと身体的反応を印刷する嘘発見器は、嘘を識別するのに正確ではありません。これが、嘘の検出結果が通常裁判所で採用されない理由ですが、多くの罪のない人々が投獄されています。対照的に、人工知能は強力なデータエンジンであり、その実用的な原則はすべての側面を観察することです。これは、科学者がさまざまな方法で真実を求めるアプリケーションに人工知能を適用できることを意味します。 1つのアプローチは、嘘発見器のように尋問されている人の重要な符号応答を分析することですが、より詳細かつ正確な比較分析を行います。別のアプローチは、言語マークアップを使用して、人々が実際に言うことを分析し、論理と推論を使用することです。ことわざにあるように、ある嘘は別の嘘を繁殖させ、最終的に

AIは航空宇宙産業の離陸のためにクリアされていますか？Apr 28, 2025 am 11:10 AM

イノベーションの先駆者である航空宇宙産業は、AIを活用して、最も複雑な課題に取り組んでいます。近代的な航空の複雑さの増加は、AIの自動化とリアルタイムのインテリジェンス機能を必要とします。

北京の春のロボットレースを見ていますApr 28, 2025 am 11:09 AM

ロボット工学の急速な発展により、私たちは魅力的なケーススタディをもたらしました。 NoetixのN2ロボットの重量は40ポンドを超えており、高さは3フィートで、逆流できると言われています。 UnitreeのG1ロボットの重量は、N2のサイズの約2倍で、高さは約4フィートです。また、競争に参加している多くの小さなヒューマノイドロボットがあり、ファンによって前進するロボットさえあります。データ解釈ハーフマラソンは12,000人以上の観客を惹きつけましたが、21人のヒューマノイドロボットのみが参加しました。政府は、参加しているロボットが競争前に「集中トレーニング」を実施したと指摘したが、すべてのロボットが競争全体を完了したわけではない。チャンピオン - 北京ヒューマノイドロボットイノベーションセンターによって開発されたティアンゴニ

ミラートラップ：AI倫理と人間の想像力の崩壊Apr 28, 2025 am 11:08 AM

人工知能は、現在の形式では、真にインテリジェントではありません。既存のデータを模倣して洗練するのに熟達しています。私たちは人工知能を作成するのではなく、人工的な推論を作成しています。情報を処理するマシン、人間は

新しいGoogleリークは、便利なGoogle写真機能の更新を明らかにしますApr 28, 2025 am 11:07 AM

レポートでは、更新されたインターフェイスがGoogle Photos Androidバージョン7.26のコードに隠されていることがわかり、写真を見るたびに、新しく検出された顔のサムネイルの行が画面の下部に表示されます。新しいフェイシャルサムネイルには名前タグが欠落しているため、検出された各人に関する詳細情報を見るには、個別にクリックする必要があると思います。今のところ、この機能は、Googleフォトが画像で見つけた人々以外の情報を提供しません。この機能はまだ利用できないため、Googleが正確にどのように使用するかはわかりません。 Googleはサムネイルを使用して、選択した人のより多くの写真を見つけるためにスピードアップしたり、編集して個人を選択するなど、他の目的に使用することもできます。待って見てみましょう。今のところ

補強能力のガイド - 分析VidhyaApr 28, 2025 am 09:30 AM

補強能力は、人間のフィードバックに基づいて調整するためにモデルを教えることにより、AI開発を揺さぶりました。それは、監督された学習基盤と報酬ベースの更新をブレンドして、より安全で、より正確に、そして本当に助けます

踊りましょう：私たちの人間のニューラルネットを微調整するための構造化された動きApr 27, 2025 am 11:09 AM

科学者は、彼らの機能を理解するために、人間とより単純なニューラルネットワーク（C. elegansのものと同様）を広く研究してきました。ただし、重要な疑問が生じます。新しいAIと一緒に効果的に作業するために独自のニューラルネットワークをどのように適応させるのか

See all articles

ホットAIツール

Undresser.AI Undress

リアルなヌード写真を作成する AI 搭載アプリ

AI Clothes Remover

写真から衣服を削除するオンライン AI ツール。

Undress AI Tool

脱衣画像を無料で

Clothoff.io

AI衣類リムーバー

Video Face Swap

完全無料の AI 顔交換ツールを使用して、あらゆるビデオの顔を簡単に交換できます。

ホットツール

メモ帳++7.3.1

使いやすく無料のコードエディター

DVWA

Damn Vulnerable Web App (DVWA) は、非常に脆弱な PHP/MySQL Web アプリケーションです。その主な目的は、セキュリティ専門家が法的環境でスキルとツールをテストするのに役立ち、Web 開発者が Web アプリケーションを保護するプロセスをより深く理解できるようにし、教師/生徒が教室環境で Web アプリケーションを教え/学習できるようにすることです。安全。 DVWA の目標は、シンプルでわかりやすいインターフェイスを通じて、さまざまな難易度で最も一般的な Web 脆弱性のいくつかを実践することです。このソフトウェアは、

Dreamweaver Mac版

ビジュアル Web 開発ツール

SecLists

SecLists は、セキュリティテスターの究極の相棒です。これは、セキュリティ評価中に頻繁に使用されるさまざまな種類のリストを 1 か所にまとめたものです。 SecLists は、セキュリティテスターが必要とする可能性のあるすべてのリストを便利に提供することで、セキュリティテストをより効率的かつ生産的にするのに役立ちます。リストの種類には、ユーザー名、パスワード、URL、ファジングペイロード、機密データパターン、Web シェルなどが含まれます。テスターはこのリポジトリを新しいテストマシンにプルするだけで、必要なあらゆる種類のリストにアクセスできるようになります。