ホームページ >テクノロジー周辺機器 >AI >拡散 + 超解像度モデルの強力な組み合わせ、Google の画像生成ツール Imagen を支えるテクノロジー
近年、マルチモーダル学習、特にテキストと画像の合成と画像とテキストの対比学習の 2 つの方向が注目されています。 OpenAIが発表したテキスト画像モデルDALL・EやDALL-E 2、NVIDIAのGauGANやGauGAN2など、一部のAIモデルはクリエイティブな画像生成や編集への応用で広く注目を集めています。
Google も負けじと、独自のテキストから画像への変換モデル Imagen を 5 月末にリリースしました。これにより、キャプション条件付き画像生成の境界がさらに拡大されるようです。
シーンの説明だけを与えると、そのシーンが現実世界で意味をなすかどうかに関係なく、Imagen は高品質、高解像度の画像を生成できます。次の図は、Imagen のテキスト生成画像のいくつかの例を示しており、対応する字幕が画像の下に表示されています。
#これらの印象的な生成された画像を見ると、「Imagen はどのように機能するの?」と疑問に思うでしょう。 最近、開発者講師の Ryan O'Connor が AssemblyAI ブログに「Imagen の実際の仕組み」という長い記事を書き、Imagen の動作原理を詳細に説明し、Imagen の概要を説明し、その高機能を分析して理解しました。レベルのコンポーネントとそれらの間の関係。 Imagen の動作原理の概要このパートでは、著者は Imagen の全体的なアーキテクチャを示し、他の動作原理の概要を説明し、その後、Imagen の各機能をより徹底的に分析します。順番に、コンポーネント。次のアニメーションは、Imagen のワークフローを示しています。 まず、字幕をテキスト エンコーダに入力します。このエンコーダは、テキスト サブタイトルを、テキスト内の意味情報をカプセル化する数値表現に変換します。 Imagen のテキスト エンコーダーは Transformer エンコーダーであり、セルフ アテンション メソッドを使用して、テキスト エンコーディングが字幕内の単語が相互にどのように関連しているかを確実に理解します。
Imagen が単語間の関連性ではなく、個々の単語のみに焦点を当てている場合、字幕の個々の要素を捉えることができる高品質の画像は取得できますが、これらの画像を記述することは、字幕の意味論を適切な方法で反映することができません。以下の例に示すように、単語間の関連性を考慮しない場合は、まったく異なる生成効果が発生します。 テキスト エンコーダは Imagen の字幕入力に役立つ表現を生成しますが、この表現を使用する画像、つまりImage を生成する方法を考案する必要があります。発生器###。これを行うために、Imagen は拡散モデル を使用します。これは、複数のタスクに対する SOTA パフォーマンスのおかげで近年人気が高まっている生成モデルです。 拡散モデルは、トレーニングを達成するためにノイズを追加することでトレーニング データを破壊し、その後、このノイズ プロセスを逆にすることでデータを回復することを学習します。入力画像が与えられると、拡散モデルは一連のタイム ステップにわたってガウス ノイズで画像を繰り返し破損し、最終的にはガウス ノイズまたは TV が静止したままになります。次の図は、拡散モデルの反復ノイズ プロセスを示しています。
拡散モデルは逆方向に動作し、各タイム ステップでノイズを分離して除去する方法を学習し、キャンセルします。破壊プロセスで発生したノイズを消します。トレーニングが完了すると、モデルを 2 つに分割できます。このようにして、次の図に示すように、ガウス ノイズのランダムなサンプリングから開始し、拡散モデルを使用して徐々にノイズを除去して画像を生成できます。
總之,經過訓練的擴散模型從高斯雜訊開始,然後迭代地產生與訓練影像類似的影像。很明顯的是,無法控制影像的實際輸出,只是將高斯雜訊輸入到模型中,並且它會輸出一張看起來屬於訓練資料集的隨機影像。
但是,目標是建立能夠將輸入到 Imagen 的字幕的語義資訊封裝起來的影像,因此需要將字幕合併到擴散過程中的方法。如何做到這一點呢?
上文提到文字編碼器產生了代表性的字幕編碼,而這種編碼其實就是向量序列。為了將此編碼資訊注入到擴散模型中,這些向量被聚合在一起,並在它們的基礎上調整擴散模型。透過調整此向量,擴散模型學習如何調整其去噪過程以產生與字幕匹配良好的影像。過程視覺化圖如下所示:
由於影像產生器或基礎模型輸出一個小的64x64 影像,為了將此模型上取樣到最終的1024x1024 版本,使用超解析度模型智慧地對影像進行上取樣。
對於超解析度模型,Imagen 再次使用了擴散模型。整體流程與基礎模型基本相同,除了僅基於字幕編碼調整外,還以正在上採樣的更小圖像來調整。整個過程的視覺化圖如下所示:
這個超解析度模型的輸出其實並不是最終輸出,而是一個中等大小的圖像。為了將該圖像放大到最終的 1024x1024 分辨率,又使用了另一個超解析度模型。兩個超解析度架構大致相同,因此不再贅述。而第二個超解析度模型的輸出才是 Imagen 的最終輸出。
確切地回答為什麼 Imagen 比 DALL-E 2 更好是困難的。然而,性能差距中不可忽視的一部分源於字幕以及提示差異。 DALL-E 2 使用對比目標來確定文字編碼與影像(本質上是 CLIP)的相關程度。文字和圖像編碼器調整它們的參數,使得相似的字幕 - 圖像對的餘弦相似度最大化,而不同的字幕 - 圖像對的餘弦相似度最小化。
效能差距的一個顯著部分源自於 Imagen 的文字編碼器比 DALL-E 2 的文字編碼器大得多,並且接受了更多資料的訓練。作為這一假設的證據,我們可以在文字編碼器擴展時檢查 Imagen 的性能。下面為 Imagen 效能的帕累托曲線:
放大文字編碼器的效果高得驚人,而放大 U-Net 的效果卻低得驚人。這一結果表明,相對簡單的擴散模型只要以強大的編碼為條件,就可以產生高品質的結果。
鑑於T5 文字編碼器比CLIP 文字編碼器大得多,再加上自然語言訓練資料必然比圖像- 字幕對更豐富這一事實,大部分效能差距可能歸因於這種差異。
除此之外,作者還列出了 Imagen 的幾個關鍵要點,包括以下內容:
這些見解為正在研究擴散模型的研究人員提供了有價值的方向,而不是只在文字到圖像的子領域有用。
以上が拡散 + 超解像度モデルの強力な組み合わせ、Google の画像生成ツール Imagen を支えるテクノロジーの詳細内容です。詳細については、PHP 中国語 Web サイトの他の関連記事を参照してください。