拡散 + 超解像度モデルの強力な組み合わせ、Google の画像生成ツール Imagen を支えるテクノロジー-AI-php.cn

ホームページ

テクノロジー周辺機器

拡散 + 超解像度モデルの強力な組み合わせ、Google の画像生成ツール Imagen を支えるテクノロジー

王林

Apr 10, 2023 am 10:21 AM

モデル研究

近年、マルチモーダル学習、特にテキストと画像の合成と画像とテキストの対比学習の 2 つの方向が注目されています。 OpenAIが発表したテキスト画像モデルDALL・EやDALL-E 2、NVIDIAのGauGANやGauGAN2など、一部のAIモデルはクリエイティブな画像生成や編集への応用で広く注目を集めています。

Google も負けじと、独自のテキストから画像への変換モデル Imagen を 5 月末にリリースしました。これにより、キャプション条件付き画像生成の境界がさらに拡大されるようです。

拡散 + 超解像度モデルの強力な組み合わせ、Google の画像生成ツール Imagen を支えるテクノロジー

シーンの説明だけを与えると、そのシーンが現実世界で意味をなすかどうかに関係なく、Imagen は高品質、高解像度の画像を生成できます。次の図は、Imagen のテキスト生成画像のいくつかの例を示しており、対応する字幕が画像の下に表示されています。

拡散 + 超解像度モデルの強力な組み合わせ、Google の画像生成ツール Imagen を支えるテクノロジー

#これらの印象的な生成された画像を見ると、「Imagen はどのように機能するの?」と疑問に思うでしょう。

最近、開発者講師の Ryan O'Connor が AssemblyAI ブログに「Imagen の実際の仕組み」という長い記事を書き、Imagen の動作原理を詳細に説明し、Imagen の概要を説明し、その高機能を分析して理解しました。レベルのコンポーネントとそれらの間の関係。

Imagen の動作原理の概要

このパートでは、著者は Imagen の全体的なアーキテクチャを示し、他の動作原理の概要を説明し、その後、Imagen の各機能をより徹底的に分析します。順番に、コンポーネント。次のアニメーションは、Imagen のワークフローを示しています。

拡散 + 超解像度モデルの強力な組み合わせ、Google の画像生成ツール Imagen を支えるテクノロジー

まず、

字幕をテキストエンコーダに入力します。このエンコーダは、テキストサブタイトルを、テキスト内の意味情報をカプセル化する数値表現に変換します。 Imagen のテキストエンコーダーは Transformer エンコーダーであり、セルフアテンションメソッドを使用して、テキストエンコーディングが字幕内の単語が相互にどのように関連しているかを確実に理解します。

Imagen が単語間の関連性ではなく、個々の単語のみに焦点を当てている場合、字幕の個々の要素を捉えることができる高品質の画像は取得できますが、これらの画像を記述することは、字幕の意味論を適切な方法で反映することができません。以下の例に示すように、単語間の関連性を考慮しない場合は、まったく異なる生成効果が発生します。

拡散 + 超解像度モデルの強力な組み合わせ、Google の画像生成ツール Imagen を支えるテクノロジー

テキストエンコーダは Imagen の字幕入力に役立つ表現を生成しますが、この表現を使用する画像、つまり

Image を生成する方法を考案する必要があります。発生器＃＃＃。これを行うために、Imagen は拡散モデル を使用します。これは、複数のタスクに対する SOTA パフォーマンスのおかげで近年人気が高まっている生成モデルです。拡散モデルは、トレーニングを達成するためにノイズを追加することでトレーニングデータを破壊し、その後、このノイズプロセスを逆にすることでデータを回復することを学習します。入力画像が与えられると、拡散モデルは一連のタイムステップにわたってガウスノイズで画像を繰り返し破損し、最終的にはガウスノイズまたは TV が静止したままになります。次の図は、拡散モデルの反復ノイズプロセスを示しています。

拡散 + 超解像度モデルの強力な組み合わせ、Google の画像生成ツール Imagen を支えるテクノロジー拡散モデルは逆方向に動作し、各タイムステップでノイズを分離して除去する方法を学習し、キャンセルします。破壊プロセスで発生したノイズを消します。トレーニングが完了すると、モデルを 2 つに分割できます。このようにして、次の図に示すように、ガウスノイズのランダムなサンプリングから開始し、拡散モデルを使用して徐々にノイズを除去して画像を生成できます。

拡散 + 超解像度モデルの強力な組み合わせ、Google の画像生成ツール Imagen を支えるテクノロジー

總之，經過訓練的擴散模型從高斯雜訊開始，然後迭代地產生與訓練影像類似的影像。很明顯的是，無法控制影像的實際輸出，只是將高斯雜訊輸入到模型中，並且它會輸出一張看起來屬於訓練資料集的隨機影像。

但是，目標是建立能夠將輸入到 Imagen 的字幕的語義資訊封裝起來的影像，因此需要將字幕合併到擴散過程中的方法。如何做到這一點呢？

上文提到文字編碼器產生了代表性的字幕編碼，而這種編碼其實就是向量序列。為了將此編碼資訊注入到擴散模型中，這些向量被聚合在一起，並在它們的基礎上調整擴散模型。透過調整此向量，擴散模型學習如何調整其去噪過程以產生與字幕匹配良好的影像。過程視覺化圖如下所示：

拡散 + 超解像度モデルの強力な組み合わせ、Google の画像生成ツール Imagen を支えるテクノロジー

由於影像產生器或基礎模型輸出一個小的64x64 影像，為了將此模型上取樣到最終的1024x1024 版本，使用超解析度模型智慧地對影像進行上取樣。

對於超解析度模型，Imagen 再次使用了擴散模型。整體流程與基礎模型基本相同，除了僅基於字幕編碼調整外，還以正在上採樣的更小圖像來調整。整個過程的視覺化圖如下所示：

拡散 + 超解像度モデルの強力な組み合わせ、Google の画像生成ツール Imagen を支えるテクノロジー

這個超解析度模型的輸出其實並不是最終輸出，而是一個中等大小的圖像。為了將該圖像放大到最終的 1024x1024 分辨率，又使用了另一個超解析度模型。兩個超解析度架構大致相同，因此不再贅述。而第二個超解析度模型的輸出才是 Imagen 的最終輸出。

為什麼 Imagen 比 DALL-E 2 好？

確切地回答為什麼 Imagen 比 DALL-E 2 更好是困難的。然而，性能差距中不可忽視的一部分源於字幕以及提示差異。 DALL-E 2 使用對比目標來確定文字編碼與影像（本質上是 CLIP）的相關程度。文字和圖像編碼器調整它們的參數，使得相似的字幕 - 圖像對的餘弦相似度最大化，而不同的字幕 - 圖像對的餘弦相似度最小化。

效能差距的一個顯著部分源自於 Imagen 的文字編碼器比 DALL-E 2 的文字編碼器大得多，並且接受了更多資料的訓練。作為這一假設的證據，我們可以在文字編碼器擴展時檢查 Imagen 的性能。下面為 Imagen 效能的帕累托曲線：

拡散 + 超解像度モデルの強力な組み合わせ、Google の画像生成ツール Imagen を支えるテクノロジー

放大文字編碼器的效果高得驚人，而放大 U-Net 的效果卻低得驚人。這一結果表明，相對簡單的擴散模型只要以強大的編碼為條件，就可以產生高品質的結果。

鑑於T5 文字編碼器比CLIP 文字編碼器大得多，再加上自然語言訓練資料必然比圖像- 字幕對更豐富這一事實，大部分效能差距可能歸因於這種差異。

除此之外，作者還列出了 Imagen 的幾個關鍵要點，包括以下內容：

擴展文字編碼器是非常有效的；
擴展文字編碼器比擴展U-Net 大小更重要；
#動態閾值至關重要；
噪音條件增強在超解析度模型中至關重要；
將交叉注意用於文字條件反射至關重要；
高效率的U-Net 至關重要。

這些見解為正在研究擴散模型的研究人員提供了有價值的方向，而不是只在文字到圖像的子領域有用。

以上が拡散 + 超解像度モデルの強力な組み合わせ、Google の画像生成ツール Imagen を支えるテクノロジーの詳細内容です。詳細については、PHP 中国語 Web サイトの他の関連記事を参照してください。

声明

この記事は51CTO.COMで複製されています。侵害がある場合は、admin@php.cn までご連絡ください。

AIのスキルギャップは、サプライチェーンのダウンを遅くしていますApr 26, 2025 am 11:13 AM

「AI-Ready労働力」という用語は頻繁に使用されますが、サプライチェーン業界ではどういう意味ですか？サプライチェーン管理協会（ASCM）のCEOであるAbe Eshkenaziによると、批評家ができる専門家を意味します

1つの会社がAIを永遠に変えるために静かに取り組んでいる方法Apr 26, 2025 am 11:12 AM

分散型AI革命は静かに勢いを増しています。今週の金曜日、テキサス州オースティンでは、ビテンサーのエンドゲームサミットは極めて重要な瞬間を示し、理論から実用的な応用に分散したAI（DEAI）を移行します。派手なコマーシャルとは異なり

Nvidiaは、AIエージェント開発を合理化するためにNEMOマイクロサービスをリリースしますApr 26, 2025 am 11:11 AM

エンタープライズAIはデータ統合の課題に直面していますエンタープライズAIの適用は、ビジネスデータを継続的に学習することで正確性と実用性を維持できるシステムを構築する大きな課題に直面しています。 NEMOマイクロサービスは、NVIDIAが「データフライホイール」と呼んでいるものを作成することにより、この問題を解決し、AIシステムがエンタープライズ情報とユーザーインタラクションへの継続的な露出を通じて関連性を維持できるようにします。この新しく発売されたツールキットには、5つの重要なマイクロサービスが含まれています。 NEMOカスタマイザーは、より高いトレーニングスループットを備えた大規模な言語モデルの微調整を処理します。 NEMO評価者は、カスタムベンチマークのAIモデルの簡素化された評価を提供します。 Nemo Guardrailsは、コンプライアンスと適切性を維持するためにセキュリティ管理を実装しています

aiは芸術とデザインの未来のために新しい絵を描きますApr 26, 2025 am 11:10 AM

AI：芸術とデザインの未来人工知能（AI）は、前例のない方法で芸術とデザインの分野を変えており、その影響はもはやアマチュアに限定されませんが、より深く影響を与えています。 AIによって生成されたアートワークとデザインスキームは、広告、ソーシャルメディアの画像生成、Webデザインなど、多くのトランザクションデザインアクティビティで従来の素材画像とデザイナーに迅速に置き換えられています。ただし、プロのアーティストやデザイナーもAIの実用的な価値を見つけています。 AIを補助ツールとして使用して、新しい美的可能性を探求し、さまざまなスタイルをブレンドし、新しい視覚効果を作成します。 AIは、アーティストやデザイナーが繰り返しタスクを自動化し、さまざまなデザイン要素を提案し、創造的な入力を提供するのを支援します。 AIはスタイル転送をサポートします。これは、画像のスタイルを適用することです

エージェントAIとのズームがどのように革命を起こしているか：会議からマイルストーンまでApr 26, 2025 am 11:09 AM

最初はビデオ会議プラットフォームで知られていたZoomは、エージェントAIの革新的な使用で職場革命をリードしています。 ZoomのCTOであるXD Huangとの最近の会話は、同社の野心的なビジョンを明らかにしました。エージェントAIの定義 huang d

大学に対する実存的な脅威Apr 26, 2025 am 11:08 AM

AIは教育に革命をもたらしますか？この質問は、教育者と利害関係者の間で深刻な反省を促しています。 AIの教育への統合は、機会と課題の両方をもたらします。 Tech Edvocate NotesのMatthew Lynch、Universitとして

プロトタイプ：アメリカの科学者は海外の仕事を探していますApr 26, 2025 am 11:07 AM

米国における科学的研究と技術の開発は、おそらく予算削減のために課題に直面する可能性があります。 Natureによると、海外の雇用を申請するアメリカの科学者の数は、2024年の同じ期間と比較して、2025年1月から3月まで32％増加しました。以前の世論調査では、調査した研究者の75％がヨーロッパとカナダでの仕事の検索を検討していることが示されました。 NIHとNSFの助成金は過去数か月で終了し、NIHの新しい助成金は今年約23億ドル減少し、3分の1近く減少しました。リークされた予算の提案は、トランプ政権が科学機関の予算を急激に削減していることを検討しており、最大50％の削減の可能性があることを示しています。基礎研究の分野での混乱は、米国の主要な利点の1つである海外の才能を引き付けることにも影響を与えています。 35

Openaiは、強力なGPT-4.1シリーズを発表しました。実際のアプリケーション向けに設計された3つの高度な言語モデルのファミリー。この大幅な飛躍は、より速い応答時間、理解の強化、およびTと比較した大幅に削減されたコストを提供します

See all articles

ホットAIツール

Undresser.AI Undress

リアルなヌード写真を作成する AI 搭載アプリ

AI Clothes Remover

写真から衣服を削除するオンライン AI ツール。

Undress AI Tool

脱衣画像を無料で

Clothoff.io

AI衣類リムーバー

Video Face Swap

完全無料の AI 顔交換ツールを使用して、あらゆるビデオの顔を簡単に交換できます。

ホットツール

ドリームウィーバー CS6

ビジュアル Web 開発ツール

SublimeText3 英語版

推奨: Win バージョン、コードプロンプトをサポート!

mPDF

mPDF は、UTF-8 でエンコードされた HTML から PDF ファイルを生成できる PHP ライブラリです。オリジナルの作者である Ian Back は、Web サイトから「オンザフライ」で PDF ファイルを出力し、さまざまな言語を処理するために mPDF を作成しました。 HTML2FPDF などのオリジナルのスクリプトよりも遅く、Unicode フォントを使用すると生成されるファイルが大きくなりますが、CSS スタイルなどをサポートし、多くの機能強化が施されています。 RTL (アラビア語とヘブライ語) や CJK (中国語、日本語、韓国語) を含むほぼすべての言語をサポートします。ネストされたブロックレベル要素 (P、DIV など) をサポートします。