拡散モデルに基づく画像生成-AI-php.cn

ホームページ

テクノロジー周辺機器

拡散モデルに基づく画像生成

王林

Apr 14, 2023 pm 02:58 PM

Part 01 #● 開発の歴史

##1.1 起源

2015 年、論文「非平衡熱力学を使用した教師なし学習」の中で、VAE などの当時の生成モデルには大きな問題があったことが提案されました。このタイプのモデルは、最初に条件付き分布を定義し、次に適応のための変分事後分布を定義するため、最終的には条件付き分布と変分事後分布を同時に最適化する必要がありますが、これは非常に困難です。データ分布を標準ガウスにマッピングする単純なプロセスを定義できれば、「ジェネレーター」のタスクは、このプロセスの逆プロセスの各小さなステップを単純にフィッティングするだけになります。これが拡散モデルの中心的な考え方です。。しかし、この記事は当時、何の話題にもなりませんでした。

1.2 開発

先人たちの考えをもとに、2020 年に DDPM モデル (Denoising Diffusion Probabilistic Models) )、基本的な拡散モデルと比較して、作成者は拡散モデルとノイズ除去スコアを組み合わせてトレーニングとサンプリングのプロセスをガイドし、生成された画像サンプルに適切な改善をもたらし、トレーニングをより簡単かつ安定させます。結果は GAN モデルと同等です。

拡散モデルに基づく画像生成

#図 2 - DDPM の生成結果

ただし、DDPM モデルは完全ではなく、拡散プロセスはマルコフ連鎖であるため、より良い結果を得るには比較的多くの拡散ステップが必要となり、サンプル生成が非常に遅くなるという欠点があります。

そこで、DDPM の後、2021 年に、Song らは DDIM (Denoising Diffusioin Implicit Model) を提案しました。これは、DDPM の拡散プロセスを変革しました。サンプリング手法は、従来の手法を拡張します。マルコフ拡散プロセスを非マルコフプロセスに変換し、より小さなサンプリングステップを使用してサンプル生成を加速し、効率を大幅に向上させることができます。

また、VAE モデルと DM モデルの組み合わせなど、拡散モデルを従来の生成ネットワークと統合するためのフォローアップ作業にもいくつかの改善が加えられています。 GAN DM などの組み合わせについては、ここでは詳しく説明しません。

1.3 アウトブレイク

2022 年、Google は、テキストによる説明を可能にする普及モデルに基づいた新しい AI システムを開始しました。リアルな映像に生まれ変わりました。

拡散モデルに基づく画像生成 #画像 3

拡散モデルに基づく画像生成 #図 4

Google が提供する模式図から、入力テキストはまずエンコードされ、テキストから画像への拡散モデルによって 64*64 の小さな画像に変換されることがわかります。解像度拡散モデル、画像の解像度はさらなる反復プロセスで改善され、最終的に生成された結果 (1024*1024 の最終画像) が得られます。この魔法のようなプロセスは、誰もが使用時に感じるものとまったく同じです。赤い点のタートルネックと青い市松模様の帽子をかぶったゴールデンレトリバーの犬のテキストを入力すると、プログラムが上記のテキストを自動的に生成します。見た。

もう 1 つの人気のある現象レベルのアプリケーション - novalAI、これはもともと AI ライティング専用の Web サイトでした。現在注目の画像生成に基づいて、インターネット上の画像リソースを組み合わせてトレーニングします。画像生成モデルに焦点を当てています。二次元上の絵画が開発され、その効果は人間の画家のレベルに達し始めています。

拡散モデルに基づく画像生成

#図 5

画像を生成するための従来のテキスト入力に加えて、参照として画像を入力することもサポートされており、AI が既知の画像に基づいて新しい画像を生成できるようになります。これにより、AI によって生成された制御不能な結果の問題がある程度解決されます。

#パート 02

##●

原理の説明 #それでは、このような強力な AI テクノロジーの作業プロセスはどのようなものなのでしょうか?ここでは、より古典的な DDPM モデルを例として、簡単なプロセスを示します。

2.1 転送プロセス

フォワード処理は、トレーニングサンプルGTを構築するために画像にノイズを加える処理である。

与えられた初期データ分布 x0~q(x) に対して、データ分布にガウスノイズを徐々に追加します。このプロセスには T 回、各ステップがかかります。結果は x1、

##前述したように、これはマルコフ連鎖プロセスです。最終的に、データは等方性ガウス分布になる傾向があります。

#2.2 逆拡散プロセス拡散モデルに基づく画像生成

逆拡散プロセスはノイズ除去プロセスです。

#, x0 は完全な標準ガウス分布から復元できます。

がガウス分布と ## を満たしている場合、x0 は証明されています。

# が十分に小さい場合、は依然としてガウス分布であり、拡散モデルに基づく画像生成は単純に推論できません。パラメーター # を含む深層学習モデルを使用して予測するため、次のようになります。

拡散モデルに基づく画像生成

#x0 が既知の場合は、ベイジアン公式を使用します:

拡散モデルに基づく画像生成

##2.3 トレーニングプロセス

機械学習についてある程度の知識がある読者は、すべてのモデルのトレーニングが、信頼できる平均と分散を取得するためにモデルのパラメーターを最適化することであることを知っているはずです。モデルの予測分布の対数を最大化します。尤度、つまり:

拡散モデルに基づく画像生成一連の導出の後、DDPM モデルは最終的な損失関数式を取得しました。

拡散モデルに基づく画像生成

## トレーニングプロセスを要約します。

#1.

入力 x0 を取得し、t をランダムにサンプリングします from 1...T 2. 標準ガウス分布からノイズをサンプリングします
3.
損失を計算し、損失関数を繰り返し最小化します

#図 6 拡散モデルに基づく画像生成

パート 03

●

概要

● 普及モデルは大きな可能性を示しています。VAEとの比較モデルを使用すると、事後分布を揃える必要がなく、GAN のような追加の識別器をトレーニングする必要もありません。コンピュータビジョン、バイオインフォマティクス、音声処理が含まれます。画像生成やその他の側面に応用できます。画像生成への応用は役立ちます。画像作成の効率が向上します。AI が条件に基づいて複数の絵を生成し、人間がその結果をフィルタリングおよび修正できるようになる可能性があります。これは、将来 2D ペインティングの分野における新しいトレンドとなるでしょう。 2D デジタルアセットの生産効率を向上させます。

しかし、AI技術の発展に伴い、画像生成の分野においても例外ではなく、AI技術そのものの問題だけでなく、生成された画像構造が間違っていたり不合理だったり、AI作品自体の著作権問題など、いくつかの法的紛争も伴います。技術的な問題は技術自体の開発によって解決できますが、AI 技術の発展により、最終的には画像生成が非常に高いレベルに達し、それによって下位の塗装関連の仕事のほとんどが排除されると考える理由があります。人間の生産性を大きく解放します。著作権問題を解決するには、政府部門が関連産業の発展に十分な注意を払い、関連する政策や制度を改善する必要があり、そのためには、AI技術が私たちに役立つよう、新興分野についてもっと考える必要がある。

参考文献

https://www.php.cn/link/3799b2e805a7fa8b076fc020574a73b2

https://www.php.cn/link/6872937617af85db5a39a5243e858d1f

##https://www.php.cn/link/831da40e5907987235ebe5616446e083

以上が拡散モデルに基づく画像生成の詳細内容です。詳細については、PHP 中国語 Web サイトの他の関連記事を参照してください。

声明

この記事は51CTO.COMで複製されています。侵害がある場合は、admin@php.cn までご連絡ください。

あなたは無知のベールの後ろに職場AIを構築する必要がありますApr 29, 2025 am 11:15 AM

ジョン・ロールズの独創的な1971年の著書「正義の理論」で、彼は私たちが今日のAIデザインの核となり、意思決定を使用するべきであるという思考実験を提案しました：無知のベール。この哲学は、公平性を理解するための簡単なツールを提供し、リーダーがこの理解を使用してAIを公平に設計および実装するための青写真を提供します。あなたが新しい社会のルールを作っていると想像してください。しかし、前提があります。この社会でどのような役割を果たすかは事前にわかりません。過半数または限界少数派に属している、金持ちまたは貧弱、健康、または障害者になることがあります。この「無知のベール」の下で活動することで、ルールメーカーが自分自身に利益をもたらす決定を下すことができません。それどころか、人々はより公衆を策定する意欲があります

決定、決定…実用的な応用AIの次のステップApr 29, 2025 am 11:14 AM

ロボットプロセスオートメーション（RPA）を専門とする多くの企業は、繰り返しタスクを自動化するためのボットを提供しています。一方、プロセスマイニング、オーケストレーション、インテリジェントドキュメント処理スペシャル

エージェントが来ています - 私たちがAIパートナーの隣ですることについてもっとApr 29, 2025 am 11:13 AM

AIの未来は、単純な単語の予測と会話シミュレーションを超えて動いています。 AIエージェントは出現しており、独立したアクションとタスクの完了が可能です。このシフトは、AnthropicのClaudeのようなツールですでに明らかです。 AIエージェント：研究a

共感がAI主導の未来におけるリーダーのコントロールよりも重要である理由Apr 29, 2025 am 11:12 AM

急速な技術の進歩は、仕事の未来に関する将来の見通しの視点を必要とします。 AIが単なる生産性向上を超えて、私たちの社会構造の形成を開始するとどうなりますか？ Topher McDougalの今後の本、Gaia Wakes：

製品分類のためのAI：マシンは税法を習得できますか？Apr 29, 2025 am 11:11 AM

多くの場合、Harmonized System（HS）などのシステムからの「HS 8471.30」などの複雑なコードを含む製品分類は、国際貿易と国内販売に不可欠です。これらのコードは、すべてのINVに影響を与える正しい税申請を保証します

データセンターの要求は、気候技術のリバウンドを引き起こす可能性がありますか？Apr 29, 2025 am 11:10 AM

データセンターと気候技術投資におけるエネルギー消費の将来この記事では、AIが推進するデータセンターのエネルギー消費の急増と気候変動への影響を調査し、この課題に対処するための革新的なソリューションと政策の推奨事項を分析します。エネルギー需要の課題：大規模で超大規模なデータセンターは、数十万の普通の北米の家族の合計に匹敵する巨大な力を消費し、新たなAIの超大規模なセンターは、これよりも数十倍の力を消費します。 2024年の最初の8か月で、Microsoft、Meta、Google、Amazonは、AIデータセンターの建設と運用に約1,250億米ドルを投資しました（JP Morgan、2024）（表1）。エネルギー需要の成長は、挑戦と機会の両方です。カナリアメディアによると、迫り来る電気

AIとハリウッドの次の黄金時代Apr 29, 2025 am 11:09 AM

生成AIは、映画とテレビの制作に革命をもたらしています。 LumaのRay 2モデル、滑走路のGen-4、OpenaiのSora、GoogleのVEO、その他の新しいモデルは、前例のない速度で生成されたビデオの品質を向上させています。これらのモデルは、複雑な特殊効果と現実的なシーンを簡単に作成できます。短いビデオクリップやカメラ認知モーション効果も達成されています。これらのツールの操作と一貫性を改善する必要がありますが、進歩の速度は驚くべきものです。生成ビデオは独立した媒体になりつつあります。アニメーション制作が得意なモデルもあれば、実写画像が得意なモデルもあります。 AdobeのFireflyとMoonvalleyのMAであることは注目に値します

ChatGptはゆっくりとAIの最大のYES-MANになりますか？Apr 29, 2025 am 11:08 AM

ChatGptユーザーエクスペリエンスは低下します：それはモデルの劣化ですか、それともユーザーの期待ですか？最近、多数のCHATGPT有料ユーザーがパフォーマンスの劣化について不満を述べています。ユーザーは、モデルへの応答が遅く、答えが短い、助けの欠如、さらに多くの幻覚を報告しました。一部のユーザーは、ソーシャルメディアに不満を表明し、ChatGptは「お世辞になりすぎて」、重要なフィードバックを提供するのではなく、ユーザービューを検証する傾向があることを指摘しています。これは、ユーザーエクスペリエンスに影響を与えるだけでなく、生産性の低下やコンピューティングリソースの無駄など、企業の顧客に実際の損失をもたらします。パフォーマンスの劣化の証拠多くのユーザーは、特にGPT-4などの古いモデル（今月末にサービスから廃止される）で、ChatGPTパフォーマンスの大幅な分解を報告しています。これ

See all articles

ホットAIツール

Undresser.AI Undress

リアルなヌード写真を作成する AI 搭載アプリ

AI Clothes Remover

写真から衣服を削除するオンライン AI ツール。

Undress AI Tool

脱衣画像を無料で

Clothoff.io

AI衣類リムーバー

Video Face Swap

完全無料の AI 顔交換ツールを使用して、あらゆるビデオの顔を簡単に交換できます。

ホットツール

MinGW - Minimalist GNU for Windows

このプロジェクトは osdn.net/projects/mingw に移行中です。引き続きそこでフォローしていただけます。 MinGW: GNU Compiler Collection (GCC) のネイティブ Windows ポートであり、ネイティブ Windows アプリケーションを構築するための自由に配布可能なインポートライブラリとヘッダーファイルであり、C99 機能をサポートする MSVC ランタイムの拡張機能が含まれています。すべての MinGW ソフトウェアは 64 ビット Windows プラットフォームで実行できます。