ホームページ > 記事 > テクノロジー周辺機器 > He Kaiming 氏が MIT と協力: シンプルなフレームワークが無条件画像生成における最新のブレークスルーを実現
上司の何開明氏は正式にMITに加わっていないが、MITとの最初の共同研究が発表された :
彼はMITと共同で開発した教師と生徒 自己条件付き画像生成フレームワークが開発され、RCG という名前が付けられました (コードはオープンソースです)。
このフレームワーク構造は非常にシンプルですが、効果は抜群で、ImageNet-1K データセット上で無条件画像生成の 新しい SOTA を直接実装しています。
生成される画像には人間による注釈 (つまり、プロンプトの単語、クラス ラベルなど) が必要なく、両方の忠実度を実現できます。そして多様性を持つこと。
このようにして、無条件画像生成のレベルを大幅に向上させるだけでなく、現在の最良の条件付き生成方法と競合することもできます。
何開明氏のチームの言葉:
条件付き生成タスクと無条件生成タスクの間の長年にわたるパフォーマンスの差が、この瞬間についに縮まりました。
それでは、具体的にはどのように行われるのでしょうか?
まず、いわゆる無条件生成とは、モデルが入力信号の助けを借りずにデータ分布の生成内容を直接取得することを意味します。
このトレーニング方法は難しいため、教師なし学習と教師あり学習を比較できないのと同じように、条件付き生成には常に大きなパフォーマンスの差がありました。
自己教師あり学習の出現とまったく同じです。
#無条件画像生成の分野では、自己教師あり学習の概念に似た自己条件生成手法もあります。 ノイズ分布を画像分布に単純にマッピングする従来の無条件生成と比較して、この方法は主にデータ分布自体から導出される表現分布に基づいてピクセル生成プロセスを設定します。 条件付き画像生成を超えて、人間による注釈を必要としない
分子設計や創薬などのアプリケーションの開発を促進することが期待されています(これが条件付き画像生成の理由ですは開発されています。これは良いことです。無条件生成にも注意を払う必要があります)。 さて、この自己条件付き生成の概念に基づいて、He Kaiming のチームは最初に
表現拡散モデル RDMを開発しました。 自己教師あり画像エンコーダを通じて画像からインターセプトされ、主に低次元の自己教師あり画像表現を生成するために使用されます
そのコア アーキテクチャは次のとおりです。
最初の層は、表現を隠れ次元 C に投影する役割を担う入力層で、次に N 個の完全に接続されたブロックが続き、最後に出力層があり、潜在的な特徴を再投影する役割を果たします。非表示レイヤー(変換)
元の表現次元へ。各層には、LayerNorm 層、SiLU 層、および線形層が含まれます。
このような RDM には 2 つの利点があります。
その特徴の 1 つは、強い多様性があること、もう 1 つは計算オーバーヘッドが非常に少ないことです。 その後、チームは RDM の助けを借りて今日の主役である表現条件付き画像生成アーキテクチャ RCG を提案しました。これは、3 つの# で構成される単純な自己条件付き生成フレームワークです。 ## コンポーネント
は次のもので構成されます: 1 つは SSL 画像エンコーダ
で、画像分布をコンパクトな表現分布に変換するために使用されます。 。 1 つは RDM
で、分布のモデル化とサンプリングに使用されます。 最後に、ピクセル ジェネレーター MAGE
があります。これは、表現に従って画像を処理するために使用されます。 #MAGE は、トークン化された画像にランダム マスクを追加し、同じ画像から抽出された表現を条件として欠落したトークンを再構築するようネットワークに要求することで機能します。
#テストの結果、この自己条件付き生成フレームワークの構造はシンプルであるにもかかわらず、その効果は非常に優れていることが最終結果でわかりました。ImageNet 256×256 上で、RCG はを達成しました。 FID は 3.56、IS
(インセプション スコア)スコアは 186.9 でした。 これと比較すると、以前の最も強力な無条件生成メソッドの FID スコアは 7.04、IS スコアは 123.5 でした。
RCG の場合、条件付き生成で優れたパフォーマンスを発揮するだけでなく、現場のベースライン モデルと比較した場合、同じレベルまたはそれを上回るパフォーマンスを発揮します。
最後に、分類子のガイダンスがなければ、RCG の結果は次のようになります。さらに 3.31(FID) と 253.4(IS) に改良されました。
チームは次のように述べています:
これらの結果は、条件付き画像生成モデルには大きな可能性があり、この分野に今後の新時代の到来を告げる可能性があることを示しています
この記事には 3 人の著者がいます:
## 最初の著者は MIT の博士課程の学生、Li Tianhong です。彼は清華大学八尾クラスを学士号を取得して卒業しました。の研究方向は、クロスモーダル統合センシング技術です。
彼の個人的なホームページは非常に興味深いもので、レシピ集もあります。研究と料理が彼が最も情熱を注いでいる 2 つのことです。 もう 1 つ著者は、MIT の電気工学およびコンピュータ サイエンス学科 (EECS) の教授であり、MIT ワイヤレス ネットワークおよびモバイル コンピューティング センターの所長であるディナ カタビ氏で、今年のスローン賞の受賞者であり、学会会員に選出されています。国立科学アカデミー。
最後に、責任著者のHe Yuming氏は来年正式に学術界に復帰し、Meta社を離れてMITの電気工学およびコンピュータサイエンス学部に移り、そこで同僚となる予定です。ディナ・カタビと。
論文を表示するには、次のリンクをクリックしてください: https://arxiv.org/abs/2312.03701
以上がHe Kaiming 氏が MIT と協力: シンプルなフレームワークが無条件画像生成における最新のブレークスルーを実現の詳細内容です。詳細については、PHP 中国語 Web サイトの他の関連記事を参照してください。