拡散モデルは画像生成における色表現に役割を果たし、生成モデルの新時代を推進します。 Stable Diffusion、DALLE、Imagen、SORA などの大規模なモデルが登場し、生成 AI のアプリケーション背景がさらに充実しました。しかし、現在の拡散モデルは理論的には完璧ではなく、サンプリング期間の終点における未定義の特異点の問題に注目した研究はほとんどありません。さらに、アプリケーションの特異点問題によって引き起こされる平均グレーレベルや、生成される画像の品質に影響を与えるその他の問題は解決されていません。
この問題を解決するために、WeChat ビジョン チームは中山大学と協力して拡散モデルの特異点問題を共同で調査し、プラグアンドプレイ手法を提案しました。初期段階のサンプリング問題は解決されます。この方法は、平均グレーレベルの問題を解決し、既存の拡散モデルの生成能力を大幅に向上させます。この研究結果はCVPR 2024カンファレンスで発表されました。
拡散モデルは、画像、音声、テキスト、ビデオの生成など、マルチモーダルなコンテンツ生成タスクで目覚ましい成功を収めています。これらのモデルのモデリングが成功するかどうかは、主に、 拡散プロセスの逆プロセスもガウス特性 に準拠するという仮定に依存しています。ただし、この仮説は完全には証明されていません。特にエンドポイント、つまり t=0 または t=1 では特異点の問題が発生し、特異点でのサンプリングを研究する既存の方法が制限されます。
さらに、特異点問題は拡散モデルの生成能力にも影響し、モデルに 平均グレースケール問題が発生します。以下に示すように、明るさが強いまたは弱い画像を生成することは困難です。これにより、現在の普及モデルの適用範囲もある程度制限されます。
時間エンドポイントにおける拡散モデルの特異点問題を解決するために、WeChat ビジュアル チームは中山大学と協力し、理論と実践の両方から徹底的な研究を実施しました。側面。まず、チームは、特異点の瞬間における逆過程の近似ガウス分布を含む誤差上限を提案しました。これは、その後の研究に理論的基礎を提供しました。この理論的保証に基づいて、チームは特異点でのサンプリングを研究し、2 つの重要な結論に達しました。1) t=1 の特異点は、極限を見つけることで分離可能な特異点に変換できる、2) t=0 での特異点これは拡散モデルの固有の特性であり、回避する必要はありません。これらの結論に基づいて、チームは初期瞬間における拡散モデルのサンプリングの問題を解決するためのプラグアンドプレイ手法 SingDiffusion を提案しました。
多数の実験を通じて、SingDiffusion モジュールは 1 回のトレーニングだけで既存の拡散モデルにシームレスに適用でき、平均グレー値の問題を大幅に解決できることが証明されています。 SingDiffusion は、分類器のないガイダンス技術を使用せずに、現在の手法の生成品質を大幅に向上させることができ、特に Stable Diffusion 1.5 (SD-1.5) に適用した後、生成される画像の品質は 33% 向上しました。
論文アドレス: https://arxiv.org/pdf/2403.08381.pdf
プロジェクトアドレス: https://pangzecheung.github.io/SingDiffusion/
論文のタイトル: 拡散モデルにおける時間間隔の終点における特異点への取り組み
逆過程のガウス特性
拡散モデルの特異点問題を研究するには、過程全体の特異点における逆過程が成り立つことを検証する必要があります。ガウス特性を満たします。まず # を拡散モデルのトレーニング サンプルとして定義します。トレーニング サンプルの分布は次のように表現できます:
ここで、δはディラック関数を表します。 [1] の連続時間拡散モデルの定義によれば、任意の 2 つの瞬間 0≤s,t≤1 について、順方向プロセスは次のように表すことができます:
その中で、
、
、
時間の経過とともに単調になる1から0に変化します。先ほど定義したトレーニング サンプル分布を考慮すると、
の単一瞬間周辺確率密度は次のように表すことができます。
##したがって、逆プロセスの条件付き分布はベイズの公式を通じて計算できます。
# ただし、得られた分布は混合ガウス分布です。ネットワークを使用してフィッティングを実行するのは困難です。したがって、主流の拡散モデルは通常、この分布が単一のガウス分布に適合すると仮定します。この仮説を検証するために、研究では命題 1 のこのフィッティングの誤差を推定します。
ただし、研究では、t=1 の場合、s が 1 に近づくにつれて、 も 1 に近づくことがわかりました。 、エラーは無視できません。したがって、命題 1 は t=1 における逆ガウス特性を証明しません。この問題を解決するために、この研究は新しい命題を与えます:
命題 2 によると、t=1 のとき、s は次のようになります。 1、 は 0 に近づきます。したがって、本研究は特異点モーメントを含む逆過程全体がガウス特性に従うことを証明した。
特異点の瞬間におけるサンプリング
逆過程のガウス特性が保証されているため、この研究は特異点のサンプリングに基づいています。逆サンプリング公式に基づくモーメントの研究が開始されました。 まず、時間 t=1 における特異点の問題を考えます。 t=1、
研究チームは、次のことを発見しました。極限を計算すると、特異点は非特異点に変換できます:
ただし、この制限はテスト中に計算できません。この目的を達成するために、この研究では、 を時間 t=1 でフィッティングすることができ、「x - 予測」を使用して初期特異点でのサンプリング問題を解決できることを提案します。
# 次に、時刻 t=0 を考えます。ガウス分布フィッティングの逆プロセスは、分散 0 のガウス分布、つまりディラック関数になります。 ## #### ############で#########。このような特異点により、サンプリング プロセスが正しいデータに収束します
。したがって、t=0 での特異点は拡散モデルの優れた特性であり、回避する必要はありません。
さらに、この調査では、付録で DDIM、SDE、および ODE の特異点の問題についても調査しています。 プラグアンドプレイ SingDiffusion モジュール
特異点でのサンプリングは拡散モデルの生成に影響します 画像品質。たとえば、高輝度または低輝度のキューを入力する場合、既存の方法では多くの場合、平均グレースケールの画像しか生成できません。これは、平均グレースケール問題と呼ばれます。この問題は、既存の方法が t=0 の特異点でのサンプリングを無視し、1-ϵ の瞬間でのサンプリングの初期分布として
標準ガウス分布を使用するという事実に起因します。ただし、上の図に示すように、標準のガウス分布と 1-ϵ 時間の実際のデータ分布の間には大きなギャップがあります。
このようなギャップの下では、命題 3 によれば、既存の方法は t= で平均値 0 の画像に向かって移動することと等価です。 1 つまり、平均的なグレースケール画像を生成します。したがって、既存の手法では、明るさが極端に強い画像や弱い画像を生成することは困難です。この問題を解決するために、この研究では、標準的なガウス分布と実際のデータ分布の間の変換をフィッティングすることによってこのギャップを埋めるプラグアンドプレイの SingDiffusion 手法を提案します。 SingDiffuion のアルゴリズムは次の図に示されています。
の結論によると、前のセクション、この研究 「x - 予測」法は、特異点でのサンプリング問題を解くために時間 t=1 で使用されます。画像とテキストのデータ ペア
の場合、このメソッドは
に適合するように Unet
をトレーニングします。損失関数は次のように表されます: モデルが収束したら、以下の DDIM サンプリング式に従い、新しく取得したモジュールを使用できますサンプリング
。
DDIM のサンプリング式は、生成された が 1-ε 時間でのデータ分布に一致することを保証します。
これにより、平均グレースケールの問題。このステップの後、事前トレーニングされたモデルを使用して、
が生成されるまで後続のサンプリング ステップを実行できます。このメソッドはサンプリングの最初のステップにのみ関与し、その後のサンプリング プロセスとは何の関係もないため、SingDiffusion はほとんどの既存の拡散モデルに適用できることに注意してください。さらに、分類子ガイダンス操作がないことによって引き起こされるデータ オーバーフローの問題を回避するために、このメソッドは次の正規化操作も使用します。分類子ガイダンス操作を行わなかった後の結果、neg は否定的なプロンプトの下での出力を表し、pos は肯定的なプロンプトの下での出力を表し、ω はガイダンスの強度を表します。
実験
まず、この研究では、SD-1.5、SD-2.0 ベース、SD-2.0 の 3 つのモデルで SingDiffusion を検証しました。平均グレースケールの問題を解決します。今回の研究では、生成条件として「真っ白/黒背景」「白/黒背景にモノクロ線画ロゴ」を含む4つの極端なプロンプトを選択し、生成された画像の平均グレースケール値を計算したところ、下表のようになりました。表示:
#表からわかるように、この研究は平均グレー値の問題を大幅に解決し、明るさに一致する色を生成できます。入力テキストの説明の画像。さらに、この研究では、次の図に示すように、これら 4 つのプロンプト ステートメントに基づく生成結果も視覚化しました。図 にあるように、このメソッドを追加すると、既存の拡散モデルで白または黒の画像を生成できるようになります。
この方法によって達成される画質の向上をさらに研究するために、研究では COCO データセットでのテストのために 30,000 の記述を選択しました。まず、この研究では、次の表に示すように、分類子を使用しないガイダンスを使用せずにモデル自体の生成機能を実証しています。表 提案手法により、生成された画像の FID が大幅に削減され、CLIP インデックスが向上することがわかります。 SD-1.5 モデルでは、この論文の方法により、元のモデルと比較して FID インデックスが 33% 減少することは注目に値します。
さらに、分類器ガイダンスなしで提案された方法の生成能力を検証するために、この研究では、さまざまなガイダンス サイズ ω∈[1.5,2,3 ,4,5,6,7,8] CLIP 対 FID のパレート曲線:
図からわかるように、At同じCLIPレベルであれば、提案手法はより低いFID値を取得し、より現実的な画像を生成できます。
さらに、この研究では、次の図に示すように、さまざまな CIVITAI 事前トレーニング モデルの下で提案された方法の一般化能力も実証しています。
この研究で提案された方法は 1 回のトレーニングのみを必要とし、既存の拡散モデルに簡単に適用して平均グレースケール問題を解決できることがわかります。
最後に、この調査で提案された方法は、次の図に示すように、事前トレーニングされた ControlNet モデルにもシームレスに適用できます。
##結果から、この方法が ControlNet の平均グレースケール問題を効果的に解決できることがわかります。
以上が非常に強い光で画像を生成することはできませんか? WeChatビジョンチームが拡散モデルの特異点問題を効果的に解決の詳細内容です。詳細については、PHP 中国語 Web サイトの他の関連記事を参照してください。

译者 | 布加迪审校 | 孙淑娟目前,没有用于构建和管理机器学习(ML)应用程序的标准实践。机器学习项目组织得不好,缺乏可重复性,而且从长远来看容易彻底失败。因此,我们需要一套流程来帮助自己在整个机器学习生命周期中保持质量、可持续性、稳健性和成本管理。图1. 机器学习开发生命周期流程使用质量保证方法开发机器学习应用程序的跨行业标准流程(CRISP-ML(Q))是CRISP-DM的升级版,以确保机器学习产品的质量。CRISP-ML(Q)有六个单独的阶段:1. 业务和数据理解2. 数据准备3. 模型

人工智能(AI)在流行文化和政治分析中经常以两种极端的形式出现。它要么代表着人类智慧与科技实力相结合的未来主义乌托邦的关键,要么是迈向反乌托邦式机器崛起的第一步。学者、企业家、甚至活动家在应用人工智能应对气候变化时都采用了同样的二元思维。科技行业对人工智能在创建一个新的技术乌托邦中所扮演的角色的单一关注,掩盖了人工智能可能加剧环境退化的方式,通常是直接伤害边缘人群的方式。为了在应对气候变化的过程中充分利用人工智能技术,同时承认其大量消耗能源,引领人工智能潮流的科技公司需要探索人工智能对环境影响的

Wav2vec 2.0 [1],HuBERT [2] 和 WavLM [3] 等语音预训练模型,通过在多达上万小时的无标注语音数据(如 Libri-light )上的自监督学习,显著提升了自动语音识别(Automatic Speech Recognition, ASR),语音合成(Text-to-speech, TTS)和语音转换(Voice Conversation,VC)等语音下游任务的性能。然而这些模型都没有公开的中文版本,不便于应用在中文语音研究场景。 WenetSpeech [4] 是

条形统计图用“直条”呈现数据。条形统计图是用一个单位长度表示一定的数量,根据数量的多少画成长短不同的直条,然后把这些直条按一定的顺序排列起来;从条形统计图中很容易看出各种数量的多少。条形统计图分为:单式条形统计图和复式条形统计图,前者只表示1个项目的数据,后者可以同时表示多个项目的数据。

arXiv论文“Sim-to-Real Domain Adaptation for Lane Detection and Classification in Autonomous Driving“,2022年5月,加拿大滑铁卢大学的工作。虽然自主驾驶的监督检测和分类框架需要大型标注数据集,但光照真实模拟环境生成的合成数据推动的无监督域适应(UDA,Unsupervised Domain Adaptation)方法则是低成本、耗时更少的解决方案。本文提出对抗性鉴别和生成(adversarial d

数据通信中的信道传输速率单位是bps,它表示“位/秒”或“比特/秒”,即数据传输速率在数值上等于每秒钟传输构成数据代码的二进制比特数,也称“比特率”。比特率表示单位时间内传送比特的数目,用于衡量数字信息的传送速度;根据每帧图像存储时所占的比特数和传输比特率,可以计算数字图像信息传输的速度。

数据分析方法有4种,分别是:1、趋势分析,趋势分析一般用于核心指标的长期跟踪;2、象限分析,可依据数据的不同,将各个比较主体划分到四个象限中;3、对比分析,分为横向对比和纵向对比;4、交叉分析,主要作用就是从多个维度细分数据。

在日常开发中,对数据进行序列化和反序列化是常见的数据操作,Python提供了两个模块方便开发者实现数据的序列化操作,即 json 模块和 pickle 模块。这两个模块主要区别如下:json 是一个文本序列化格式,而 pickle 是一个二进制序列化格式;json 是我们可以直观阅读的,而 pickle 不可以;json 是可互操作的,在 Python 系统之外广泛使用,而 pickle 则是 Python 专用的;默认情况下,json 只能表示 Python 内置类型的子集,不能表示自定义的


ホットAIツール

Undresser.AI Undress
リアルなヌード写真を作成する AI 搭載アプリ

AI Clothes Remover
写真から衣服を削除するオンライン AI ツール。

Undress AI Tool
脱衣画像を無料で

Clothoff.io
AI衣類リムーバー

AI Hentai Generator
AIヘンタイを無料で生成します。

人気の記事

ホットツール

MinGW - Minimalist GNU for Windows
このプロジェクトは osdn.net/projects/mingw に移行中です。引き続きそこでフォローしていただけます。 MinGW: GNU Compiler Collection (GCC) のネイティブ Windows ポートであり、ネイティブ Windows アプリケーションを構築するための自由に配布可能なインポート ライブラリとヘッダー ファイルであり、C99 機能をサポートする MSVC ランタイムの拡張機能が含まれています。すべての MinGW ソフトウェアは 64 ビット Windows プラットフォームで実行できます。

Safe Exam Browser
Safe Exam Browser は、オンライン試験を安全に受験するための安全なブラウザ環境です。このソフトウェアは、あらゆるコンピュータを安全なワークステーションに変えます。あらゆるユーティリティへのアクセスを制御し、学生が無許可のリソースを使用するのを防ぎます。

SAP NetWeaver Server Adapter for Eclipse
Eclipse を SAP NetWeaver アプリケーション サーバーと統合します。

SublimeText3 英語版
推奨: Win バージョン、コードプロンプトをサポート!

mPDF
mPDF は、UTF-8 でエンコードされた HTML から PDF ファイルを生成できる PHP ライブラリです。オリジナルの作者である Ian Back は、Web サイトから「オンザフライ」で PDF ファイルを出力し、さまざまな言語を処理するために mPDF を作成しました。 HTML2FPDF などのオリジナルのスクリプトよりも遅く、Unicode フォントを使用すると生成されるファイルが大きくなりますが、CSS スタイルなどをサポートし、多くの機能強化が施されています。 RTL (アラビア語とヘブライ語) や CJK (中国語、日本語、韓国語) を含むほぼすべての言語をサポートします。ネストされたブロックレベル要素 (P、DIV など) をサポートします。

ホットトピック



