Part 01
#● 開発の歴史
##1.1 起源
2015 年、論文「非平衡熱力学を使用した教師なし学習」の中で、VAE などの当時の生成モデルには大きな問題があったことが提案されました。このタイプのモデルは、最初に条件付き分布を定義し、次に適応のための変分事後分布を定義するため、最終的には条件付き分布と変分事後分布を同時に最適化する必要がありますが、これは非常に困難です。データ分布を標準ガウスにマッピングする単純なプロセスを定義できれば、「ジェネレーター」のタスクは、このプロセスの逆プロセスの各小さなステップを単純にフィッティングするだけになります。これが拡散モデルの中心的な考え方です。 。しかし、この記事は当時、何の話題にもなりませんでした。
1.2 開発
先人たちの考えをもとに、2020 年に DDPM モデル (Denoising Diffusion Probabilistic Models) )、基本的な拡散モデルと比較して、作成者は拡散モデルとノイズ除去スコアを組み合わせてトレーニングとサンプリングのプロセスをガイドし、生成された画像サンプルに適切な改善をもたらし、トレーニングをより簡単かつ安定させます。結果は GAN モデルと同等です。
#図 2 - DDPM の生成結果
ただし、DDPM モデルは完全ではなく、拡散プロセスはマルコフ連鎖であるため、より良い結果を得るには比較的多くの拡散ステップが必要となり、サンプル生成が非常に遅くなるという欠点があります。
そこで、DDPM の後、2021 年に、Song らは DDIM (Denoising Diffusioin Implicit Model) を提案しました。これは、DDPM の拡散プロセスを変革しました。サンプリング手法は、従来の手法を拡張します。マルコフ拡散プロセスを非マルコフプロセスに変換し、より小さなサンプリングステップを使用してサンプル生成を加速し、効率を大幅に向上させることができます。
また、VAE モデルと DM モデルの組み合わせなど、拡散モデルを従来の生成ネットワークと統合するためのフォローアップ作業にもいくつかの改善が加えられています。 GAN DM などの組み合わせについては、ここでは詳しく説明しません。
1.3 アウトブレイク2022 年、Google は、テキストによる説明を可能にする普及モデルに基づいた新しい AI システムを開始しました。リアルな映像に生まれ変わりました。
#画像 3
#図 4
Google が提供する模式図から、入力テキストはまずエンコードされ、テキストから画像への拡散モデルによって 64*64 の小さな画像に変換されることがわかります。解像度拡散モデル、画像の解像度はさらなる反復プロセスで改善され、最終的に生成された結果 (1024*1024 の最終画像) が得られます。この魔法のようなプロセスは、誰もが使用時に感じるものとまったく同じです。赤い点のタートルネックと青い市松模様の帽子をかぶったゴールデンレトリバーの犬のテキストを入力すると、プログラムが上記のテキストを自動的に生成します。見た。
もう 1 つの人気のある現象レベルのアプリケーション - novalAI、これはもともと AI ライティング専用の Web サイトでした。現在注目の画像生成に基づいて、インターネット上の画像リソースを組み合わせてトレーニングします。画像生成モデルに焦点を当てています。二次元上の絵画が開発され、その効果は人間の画家のレベルに達し始めています。
#図 5
画像を生成するための従来のテキスト入力に加えて、参照として画像を入力することもサポートされており、AI が既知の画像に基づいて新しい画像を生成できるようになります。これにより、AI によって生成された制御不能な結果の問題がある程度解決されます。
#パート 02##●
原理の説明 #それでは、このような強力な AI テクノロジーの作業プロセスはどのようなものなのでしょうか?ここでは、より古典的な DDPM モデルを例として、簡単なプロセスを示します。
2.1 転送プロセス
フォワード処理は、トレーニングサンプルGTを構築するために画像にノイズを加える処理である。
与えられた初期データ分布 x0~q(x) に対して、データ分布にガウス ノイズを徐々に追加します。このプロセスには T 回、各ステップがかかります。結果は x1、
##前述したように、これはマルコフ連鎖プロセスです。最終的に、データは等方性ガウス分布になる傾向があります。
#2.2 逆拡散プロセス
#, x0 は完全な標準ガウス分布から復元できます。
がガウス分布と ## を満たしている場合、x0 は証明されています。
# が十分に小さい場合、 は依然としてガウス分布であり、 #x0 が既知の場合は、ベイジアン公式を使用します:
## トレーニング プロセスを要約します。 #1. #図 6 パート 03 しかし、AI技術の発展に伴い、画像生成の分野においても例外ではなく、AI技術そのものの問題だけでなく、生成された画像構造が間違っていたり不合理だったり、AI作品自体の著作権問題など、いくつかの法的紛争も伴います。技術的な問題は技術自体の開発によって解決できますが、AI 技術の発展により、最終的には画像生成が非常に高いレベルに達し、それによって下位の塗装関連の仕事のほとんどが排除されると考える理由があります。人間の生産性を大きく解放します。著作権問題を解決するには、政府部門が関連産業の発展に十分な注意を払い、関連する政策や制度を改善する必要があり、そのためには、AI技術が私たちに役立つよう、新興分野についてもっと考える必要がある。 https://www.php.cn/link/3799b2e805a7fa8b076fc020574a73b2 は単純に推論できません。パラメーター
# を含む深層学習モデルを使用して予測するため、次のようになります。
##2.3 トレーニングプロセス
機械学習についてある程度の知識がある読者は、すべてのモデルのトレーニングが、信頼できる平均と分散を取得するためにモデルのパラメーターを最適化することであることを知っているはずです。モデルの予測分布の対数を最大化します。尤度、つまり: 一連の導出の後、DDPM モデルは最終的な損失関数式を取得しました。
● 概要
● 普及モデルは大きな可能性を示しています。VAEとの比較モデルを使用すると、事後分布を揃える必要がなく、GAN のような追加の識別器をトレーニングする必要もありません。コンピュータ ビジョン、バイオインフォマティクス、音声処理が含まれます。画像生成やその他の側面に応用できます。画像生成への応用は役立ちます。画像作成の効率が向上します。AI が条件に基づいて複数の絵を生成し、人間がその結果をフィルタリングおよび修正できるようになる可能性があります。これは、将来 2D ペインティングの分野における新しいトレンドとなるでしょう。 2D デジタル アセットの生産効率を向上させます。
参考文献
以上が拡散モデルに基づく画像生成の詳細内容です。詳細については、PHP 中国語 Web サイトの他の関連記事を参照してください。

大規模な言語モデル(LLM)は人気が急増しており、ツールコール機能は単純なテキスト生成を超えて機能を劇的に拡大しています。 これで、LLMSは動的なUI作成や自律的なaなどの複雑な自動化タスクを処理できます。

ビデオゲームは不安を緩和したり、ADHDの子供を焦点を合わせたり、サポートしたりできますか? ヘルスケアの課題が世界的に急増しているため、特に若者の間では、イノベーターはありそうもないツールであるビデオゲームに目を向けています。現在、世界最大のエンターテイメントインダスの1つです

「歴史は、技術の進歩が経済成長を促進する一方で、それ自体が公平な所得分布を確保したり、包括的な人間開発を促進したりしないことを示しています」とUNCTADの事務総長であるRebeca Grynspanは前文で書いています。

簡単な、Generative AIを交渉の家庭教師およびスパーリングパートナーとして使用してください。 それについて話しましょう。 革新的なAIブレークスルーのこの分析は、最新のAIに関する私の進行中のフォーブス列のカバレッジの一部であり、特定と説明を含む

バンクーバーで開催されたTED2025会議は、昨日4月11日の第36版を締めくくりました。サム・アルトマン、エリック・シュミット、パーマー・ラッキーを含む60か国以上の80人の講演者が登場しました。テッドのテーマ「人類が再考された」は、仕立てられたものでした

ジョセフ・スティグリッツは、2001年にノーベル経済賞を受賞した経済学者であり、2001年にノーベル経済賞を受賞しています。スティグリッツは、AIが既存の不平等を悪化させ、いくつかの支配的な企業の手に統合した力を悪化させ、最終的に経済を損なうと仮定しています。

グラフデータベース:関係を通じてデータ管理に革命をもたらす データが拡大し、その特性がさまざまなフィールドで進化するにつれて、グラフデータベースは、相互接続されたデータを管理するための変換ソリューションとして浮上しています。伝統とは異なり

大規模な言語モデル(LLM)ルーティング:インテリジェントタスク分布によるパフォーマンスの最適 LLMSの急速に進化する風景は、それぞれが独自の長所と短所を備えた多様なモデルを提供します。 創造的なコンテンツGenに優れている人もいます


ホットAIツール

Undresser.AI Undress
リアルなヌード写真を作成する AI 搭載アプリ

AI Clothes Remover
写真から衣服を削除するオンライン AI ツール。

Undress AI Tool
脱衣画像を無料で

Clothoff.io
AI衣類リムーバー

AI Hentai Generator
AIヘンタイを無料で生成します。

人気の記事

ホットツール

ドリームウィーバー CS6
ビジュアル Web 開発ツール

VSCode Windows 64 ビットのダウンロード
Microsoft によって発売された無料で強力な IDE エディター

Dreamweaver Mac版
ビジュアル Web 開発ツール

MinGW - Minimalist GNU for Windows
このプロジェクトは osdn.net/projects/mingw に移行中です。引き続きそこでフォローしていただけます。 MinGW: GNU Compiler Collection (GCC) のネイティブ Windows ポートであり、ネイティブ Windows アプリケーションを構築するための自由に配布可能なインポート ライブラリとヘッダー ファイルであり、C99 機能をサポートする MSVC ランタイムの拡張機能が含まれています。すべての MinGW ソフトウェアは 64 ビット Windows プラットフォームで実行できます。

SAP NetWeaver Server Adapter for Eclipse
Eclipse を SAP NetWeaver アプリケーション サーバーと統合します。
