検索
ホームページテクノロジー周辺機器AI拡散 + 超解像度モデルの強力な組み合わせ、Google の画像生成ツール Imagen を支えるテクノロジー

近年、マルチモーダル学習、特にテキストと画像の合成と画像とテキストの対比学習の 2 つの方向が注目されています。 OpenAIが発表したテキスト画像モデルDALL・EやDALL-E 2、NVIDIAのGauGANやGauGAN2など、一部のAIモデルはクリエイティブな画像生成や編集への応用で広く注目を集めています。

Google も負けじと、独自のテキストから画像への変換モデル Imagen を 5 月末にリリースしました。これにより、キャプション条件付き画像生成の境界がさらに拡大されるようです。

拡散 + 超解像度モデルの強力な組み合わせ、Google の画像生成ツール Imagen を支えるテクノロジー

シーンの説明だけを与えると、そのシーンが現実世界で意味をなすかどうかに関係なく、Imagen は高品質、高解像度の画像を生成できます。次の図は、Imagen のテキスト生成画像のいくつかの例を示しており、対応する字幕が画像の下に表示されています。

拡散 + 超解像度モデルの強力な組み合わせ、Google の画像生成ツール Imagen を支えるテクノロジー

#これらの印象的な生成された画像を見ると、「Imagen はどのように機能するの?」と疑問に思うでしょう。

最近、開発者講師の Ryan O'Connor が AssemblyAI ブログに「Imagen の実際の仕組み」という長い記事を書き、Imagen の動作原理を詳細に説明し、Imagen の概要を説明し、その高機能を分析して理解しました。レベルのコンポーネントとそれらの間の関係。

Imagen の動作原理の概要

このパートでは、著者は Imagen の全体的なアーキテクチャを示し、他の動作原理の概要を説明し、その後、Imagen の各機能をより徹底的に分析します。順番に、コンポーネント。次のアニメーションは、Imagen のワークフローを示しています。

拡散 + 超解像度モデルの強力な組み合わせ、Google の画像生成ツール Imagen を支えるテクノロジー

まず、

字幕をテキスト エンコーダに入力します。このエンコーダは、テキスト サブタイトルを、テキスト内の意味情報をカプセル化する数値表現に変換します。 Imagen のテキスト エンコーダーは Transformer エンコーダーであり、セルフ アテンション メソッドを使用して、テキスト エンコーディングが字幕内の単語が相互にどのように関連しているかを確実に理解します。

Imagen が単語間の関連性ではなく、個々の単語のみに焦点を当てている場合、字幕の個々の要素を捉えることができる高品質の画像は取得できますが、これらの画像を記述することは、字幕の意味論を適切な方法で反映することができません。以下の例に示すように、単語間の関連性を考慮しない場合は、まったく異なる生成効果が発生します。

拡散 + 超解像度モデルの強力な組み合わせ、Google の画像生成ツール Imagen を支えるテクノロジー

テキスト エンコーダは Imagen の字幕入力に役立つ表現を生成しますが、この表現を使用する画像、つまり

Image を生成する方法を考案する必要があります。発生器###。これを行うために、Imagen は拡散モデル を使用します。これは、複数のタスクに対する SOTA パフォーマンスのおかげで近年人気が高まっている生成モデルです。 拡散モデルは、トレーニングを達成するためにノイズを追加することでトレーニング データを破壊し、その後、このノイズ プロセスを逆にすることでデータを回復することを学習します。入力画像が与えられると、拡散モデルは一連のタイム ステップにわたってガウス ノイズで画像を繰り返し破損し、最終的にはガウス ノイズまたは TV が静止したままになります。次の図は、拡散モデルの反復ノイズ プロセスを示しています。

拡散 + 超解像度モデルの強力な組み合わせ、Google の画像生成ツール Imagen を支えるテクノロジー拡散モデルは逆方向に動作し、各タイム ステップでノイズを分離して除去する方法を学習し、キャンセルします。破壊プロセスで発生したノイズを消します。トレーニングが完了すると、モデルを 2 つに分割できます。このようにして、次の図に示すように、ガウス ノイズのランダムなサンプリングから開始し、拡散モデルを使用して徐々にノイズを除去して画像を生成できます。

拡散 + 超解像度モデルの強力な組み合わせ、Google の画像生成ツール Imagen を支えるテクノロジー

總之,經過訓練的擴散模型從高斯雜訊開始,然後迭代地產生與訓練影像類似的影像。很明顯的是,無法控制影像的實際輸出,只是將高斯雜訊輸入到模型中,並且它會輸出一張看起來屬於訓練資料集的隨機影像。

但是,目標是建立能夠將輸入到 Imagen 的字幕的語義資訊封裝起來的影像,因此需要將字幕合併到擴散過程中的方法。如何做到這一點呢?

上文提到文字編碼器產生了代表性的字幕編碼,而這種編碼其實就是向量序列。為了將此編碼資訊注入到擴散模型中,這些向量被聚合在一起,並在它們的基礎上調整擴散模型。透過調整此向量,擴散模型學習如何調整其去噪過程以產生與字幕匹配良好的影像。過程視覺化圖如下所示:

拡散 + 超解像度モデルの強力な組み合わせ、Google の画像生成ツール Imagen を支えるテクノロジー

由於影像產生器或基礎模型輸出一個小的64x64 影像,為了將此模型上取樣到最終的1024x1024 版本,使用超解析度模型智慧地對影像進行上取樣

對於超解析度模型,Imagen 再次使用了擴散模型。整體流程與基礎模型基本相同,除了僅基於字幕編碼調整外,還以正在上採樣的更小圖像來調整。整個過程的視覺化圖如下所示:

拡散 + 超解像度モデルの強力な組み合わせ、Google の画像生成ツール Imagen を支えるテクノロジー

這個超​​解析度模型的輸出其實並不是最終輸出,而是一個中等大小的圖像。為了將該圖像放大到最終的 1024x1024 分辨率,又使用了另一個超解析度模型。兩個超解析度架構大致相同,因此不再贅述。而第二個超解析度模型的輸出才是 Imagen 的最終輸出。

為什麼 Imagen 比 DALL-E 2 好?

確切地回答為什麼 Imagen 比 DALL-E 2 更好是困難的。然而,性能差距中不可忽視的一部分源於字幕以及提示差異。 DALL-E 2 使用對比目標來確定文字編碼與影像(本質上是 CLIP)的相關程度。文字和圖像編碼器調整它們的參數,使得相似的字幕 - 圖像對的餘弦相似度最大化,而不同的字幕 - 圖像對的餘弦相似度最小化。

效能差距的一個顯著部分源自於 Imagen 的文字編碼器比 DALL-E 2 的文字編碼器大得多,並且接受了更多資料的訓練。作為這一假設的證據,我們可以在文字編碼器擴展時檢查 Imagen 的性能。下面為 Imagen 效能的帕累托曲線:

拡散 + 超解像度モデルの強力な組み合わせ、Google の画像生成ツール Imagen を支えるテクノロジー

放大文字編碼器的效果高得驚人,而放大 U-Net 的效果卻低得驚人。這一結果表明,相對簡單的擴散模型只要以強大的編碼為條件,就可以產生高品質的結果。

鑑於T5 文字編碼器比CLIP 文字編碼器大得多,再加上自然語言訓練資料必然比圖像- 字幕對更豐富這一事實,大部分效能差距可能歸因於這種差異。

除此之外,作者還列出了 Imagen 的幾個關鍵要點,包括以下內容:

  • 擴展文字編碼器是非常有效的;
  • 擴展文字編碼器比擴展U-Net 大小更重要;
  • #動態閾值至關重要;
  • 噪音條件增強在超解析度模型中至關重要;
  • 將交叉注意用於文字條件反射至關重要;
  • 高效率的U-Net 至關重要。

這些見解為正在研究擴散模型的研究人員提供了有價值的方向,而不是只在文字到圖像的子領域有用。

以上が拡散 + 超解像度モデルの強力な組み合わせ、Google の画像生成ツール Imagen を支えるテクノロジーの詳細内容です。詳細については、PHP 中国語 Web サイトの他の関連記事を参照してください。

声明
この記事は51CTO.COMで複製されています。侵害がある場合は、admin@php.cn までご連絡ください。
革新を調理する:人工知能がフードサービスを変革する方法革新を調理する:人工知能がフードサービスを変革する方法Apr 12, 2025 pm 12:09 PM

食品の準備を強化するAI まだ初期の使用中ですが、AIシステムは食品の準備にますます使用されています。 AI駆動型のロボットは、ハンバーガーの製造、SAの組み立てなど、食品の準備タスクを自動化するためにキッチンで使用されています

Pythonネームスペースと可変スコープに関する包括的なガイドPythonネームスペースと可変スコープに関する包括的なガイドApr 12, 2025 pm 12:00 PM

導入 Python関数における変数の名前空間、スコープ、および動作を理解することは、効率的に記述し、ランタイムエラーや例外を回避するために重要です。この記事では、さまざまなASPを掘り下げます

ビジョン言語モデル(VLM)の包括的なガイドビジョン言語モデル(VLM)の包括的なガイドApr 12, 2025 am 11:58 AM

導入 鮮やかな絵画や彫刻に囲まれたアートギャラリーを歩くことを想像してください。さて、各ピースに質問をして意味のある答えを得ることができたらどうでしょうか?あなたは尋ねるかもしれません、「あなたはどんな話を言っていますか?

MediaTekは、Kompanio UltraとDimenity 9400でプレミアムラインナップをブーストしますMediaTekは、Kompanio UltraとDimenity 9400でプレミアムラインナップをブーストしますApr 12, 2025 am 11:52 AM

製品のケイデンスを継続して、今月MediaTekは、新しいKompanio UltraやDimenity 9400を含む一連の発表を行いました。これらの製品は、スマートフォン用のチップを含むMediaTekのビジネスのより伝統的な部分を埋めます

今週のAIで:Walmartがファッションのトレンドを設定する前に設定します今週のAIで:Walmartがファッションのトレンドを設定する前に設定しますApr 12, 2025 am 11:51 AM

#1 GoogleはAgent2Agentを起動しました 物語:月曜日の朝です。 AI駆動のリクルーターとして、あなたはより賢く、難しくありません。携帯電話の会社のダッシュボードにログインします。それはあなたに3つの重要な役割が調達され、吟味され、予定されていることを伝えます

生成AIは精神障害に会います生成AIは精神障害に会いますApr 12, 2025 am 11:50 AM

私はあなたがそうであるに違いないと思います。 私たちは皆、精神障害がさまざまな心理学の用語を混ぜ合わせ、しばしば理解できないか完全に無意味であることが多い、さまざまなおしゃべりで構成されていることを知っているようです。 FOを吐き出すために必要なことはすべてです

プロトタイプ:科学者は紙をプラスチックに変えますプロトタイプ:科学者は紙をプラスチックに変えますApr 12, 2025 am 11:49 AM

今週公開された新しい研究によると、2022年に製造されたプラスチックの9.5%のみがリサイクル材料から作られていました。一方、プラスチックは埋め立て地や生態系に積み上げられ続けています。 しかし、助けが近づいています。エンジンのチーム

AIアナリストの台頭:これがAI革命で最も重要な仕事になる理由AIアナリストの台頭:これがAI革命で最も重要な仕事になる理由Apr 12, 2025 am 11:41 AM

主要なエンタープライズ分析プラットフォームAlteryxのCEOであるAndy Macmillanとの私の最近の会話は、AI革命におけるこの重要でありながら過小評価されている役割を強調しました。 MacMillanが説明するように、生のビジネスデータとAI-Ready情報のギャップ

See all articles

ホットAIツール

Undresser.AI Undress

Undresser.AI Undress

リアルなヌード写真を作成する AI 搭載アプリ

AI Clothes Remover

AI Clothes Remover

写真から衣服を削除するオンライン AI ツール。

Undress AI Tool

Undress AI Tool

脱衣画像を無料で

Clothoff.io

Clothoff.io

AI衣類リムーバー

AI Hentai Generator

AI Hentai Generator

AIヘンタイを無料で生成します。

ホットツール

SublimeText3 Mac版

SublimeText3 Mac版

神レベルのコード編集ソフト(SublimeText3)

DVWA

DVWA

Damn Vulnerable Web App (DVWA) は、非常に脆弱な PHP/MySQL Web アプリケーションです。その主な目的は、セキュリティ専門家が法的環境でスキルとツールをテストするのに役立ち、Web 開発者が Web アプリケーションを保護するプロセスをより深く理解できるようにし、教師/生徒が教室環境で Web アプリケーションを教え/学習できるようにすることです。安全。 DVWA の目標は、シンプルでわかりやすいインターフェイスを通じて、さまざまな難易度で最も一般的な Web 脆弱性のいくつかを実践することです。このソフトウェアは、

SublimeText3 中国語版

SublimeText3 中国語版

中国語版、とても使いやすい

mPDF

mPDF

mPDF は、UTF-8 でエンコードされた HTML から PDF ファイルを生成できる PHP ライブラリです。オリジナルの作者である Ian Back は、Web サイトから「オンザフライ」で PDF ファイルを出力し、さまざまな言語を処理するために mPDF を作成しました。 HTML2FPDF などのオリジナルのスクリプトよりも遅く、Unicode フォントを使用すると生成されるファイルが大きくなりますが、CSS スタイルなどをサポートし、多くの機能強化が施されています。 RTL (アラビア語とヘブライ語) や CJK (中国語、日本語、韓国語) を含むほぼすべての言語をサポートします。ネストされたブロックレベル要素 (P、DIV など) をサポートします。

EditPlus 中国語クラック版

EditPlus 中国語クラック版

サイズが小さく、構文の強調表示、コード プロンプト機能はサポートされていません