ホームページ >テクノロジー周辺機器 >AI >He Kaiming と Xie Saining のチームは、解体拡散モデルの探索に成功し、最終的に高く評価されたノイズ除去オートエンコーダーを作成しました。
ノイズ除去拡散モデル (DDM) は、現在画像生成で広く使用されている方法です。最近、Xinlei Chen、Zhuang Liu、Xie Saining、He Kaiming の 4 人チームが DDM の解体研究を実施しました。徐々に構成要素を取り除いていくと、DDMの生成能力は徐々に低下するものの、表現学習能力は一定レベルを維持していることが判明した。これは、DDM の一部のコンポーネントが表現学習にとって重要ではない可能性があることを示しています。
ノイズ除去は、コンピューター ビジョンなどの分野における現在の生成モデルの中核的な手法と考えられています。このタイプの方法は、ノイズ除去拡散モデル (DDM) と呼ばれることが多く、ノイズ除去オートエンコーダー (DAE) を学習することで、拡散プロセスを通じて複数のレベルのノイズを効果的に除去できます。
これらの方法は、優れた画像生成品質を実現し、高解像度の写真のような模擬実画像の生成に特に適しています。これらの生成モデルのパフォーマンスは非常に優れているため、強力な認識能力と、生成された視覚コンテンツを理解する能力を備えているとほぼ考えられます。
DAE は現在の生成モデルの中核ですが、最初の論文「ノイズ除去オートエンコーダーによる堅牢な特徴の抽出と合成」では、教師あり手法を通じてデータの表現を学習することが目的でした。本稿では、ロバストな特徴を抽出・結合できる手法を提案する。ノイズ除去オートエンコーダーを通じて入力データの有用な表現を学習することで、教師あり学習タスクのパフォーマンスを向上させることを目的としています。このアプローチの適用が成功したことは、生成モデルにおける DAE の重要性を示しています。
現在の表現学習コミュニティでは、言語内の欠落テキスト (BERT など) や画像内の欠落タイルの予測など、「マスク ノイズ」に基づくバリアントが最も成功した DAE であると考えられています。
マスクベースのバリアントは何が未知で何が既知であるかを明示的に指定しますが、付加的なノイズを除去するタスクとは大きく異なります。加法性ノイズを分離するタスクでは、処理のガイドとなる明示的な情報はありません。ただし、現在の生成タスク用の DDM は主に加法性ノイズに基づいているため、表現を学習するときに未知のコンテンツと既知のコンテンツが明示的にラベル付けされない可能性があります。したがって、この違いにより、マスクベースのバリアントが加法性ノイズの処理において異なる効果を示す可能性があります。
最近、DDM (Deep Denoising Model) の表現学習機能に関する研究が増えています。これらの研究では、事前にトレーニングされた DDM モデル (元々は生成タスクに使用されていた) を直接採用し、認識タスクにおけるその表現品質を評価します。これらの生成指向モデルの適用により、刺激的な結果がもたらされました。
しかし、これらの先駆的な研究は、いくつかの未解決の問題も明らかにしました。これらの既存のモデルは、認識タスクではなく生成タスク用に設計されているため、その表現能力が拡散駆動によってどのように改善されるのかを判断できません。ノイズ駆動も拡散駆動によって得られます。プロセス。
Xinlei Chenらによるこの研究は、この研究の方向性において大きな一歩を踏み出しました。
論文タイトル: 自己教師あり学習のためのノイズ除去拡散モデルの分解
論文アドレス: https: //arxiv.org/pdf/2401.14404.pdf
既存の世代指向の DDM を使用する代わりに、認識指向のモデルをトレーニングしました。この研究の核となるアイデアは、DDM を分解し、古典的な DAE になるまで段階的に修正することです。
この脱構築研究プロセスを通じて、彼らは学習表現の目標における現代の DDM のあらゆる側面を注意深く調査しました。この研究プロセスにより、AI コミュニティは、DAE が適切な表現を学習するためにどのような重要なコンポーネントが必要かについて新たな理解をもたらしました。
驚くべきことに、主要な主要コンポーネントはトークナイザーであり、その機能は低次元の潜在空間を作成することであることがわかりました。興味深いことに、この観察は特定のトークナイザーとはほとんど独立しており、標準の VAE、タイル レベルの VAE、タイル レベルの AE、タイル レベルの PCA エンコーダを調査しました。彼らは、DAE を適切に表現できるのは、特定のトークナイザーではなく、低次元の潜在空間であることを発見しました。
PCA の有効性のおかげで、チームはそれを徹底的に分解し、最終的に従来の DAE によく似たシンプルなアーキテクチャを取得しました (図 1 を参照)。
タイルレベルの PCA を使用して画像を潜在空間に投影し、ノイズを追加して、逆 PCA を通じて投影し直します。次に、オートエンコーダーがトレーニングされて、ノイズ除去された画像を予測します。
彼らはこのアーキテクチャを潜在ノイズ除去オートエンコーダー (l-DAE) と呼んでいます。これは潜在ノイズ除去オートエンコーダーです。
チームの分解プロセスでは、DDM と従来の DAE の間の他の多くの興味深い特性も明らかになりました。
例として、単一のノイズ レベル (つまり、DDM を使用しないノイズ スケジューリング) を使用する場合でも、l-DAE を使用すると良好な結果が達成できることがわかりました。マルチレベル ノイズの使用は、ある種のデータ拡張のように機能し、有益な場合もありますが、寄与要因ではありません。
これらの観察に基づいて、チームは、DDM の特性評価機能は主に、拡散主導のプロセスではなく、ノイズ除去主導のプロセスを通じて得られると考えています。
最後に、チームは結果を以前のベンチマークと比較しました。一方で、新しい結果は以前に利用可能な方法よりも優れています。これらのモデルは分解プロセスの開始点であったため、これは予想通りです。一方、新しいアーキテクチャの結果は、ベースラインの対照学習方法やマスクベースの方法ほど良くはありませんが、その差は少し縮小しています。これは、DAE と DDM の研究方向にさらなる研究の余地があることも示しています。
背景: ノイズ除去拡散モデル
この解体研究の開始点はノイズ除去拡散モデル (DDM) です。
DDM については、論文「画像合成で拡散モデルが GAN に勝る」および「トランスフォーマーを使用したスケーラブルな拡散モデル」およびこのサイトの関連レポートを参照してください。 ## Dominance Diffusion モデルの U-Net を置き換えます Xie Saining らは Transformer を導入し、DiT》を提案しました。
ノイズ除去拡散モデルの分解
ここで注目するのはその分解プロセスです。このプロセスは 3 つの段階に分かれています。 1 つ目は、DiT の世代中心の設定を自己教師あり学習に合わせた設定に変更することです。次に、トークナイザーを徐々に分解して単純化してみましょう。最後に、モデルを古典的な DAE に近づけるために、DDM 駆動の設計を可能な限りリバース エンジニアリングしようとしました。DDM を自己教師あり学習に戻そう
DDM は概念的には DAE の一種ですが、実際にはもともと画像生成タスク用に開発されました。 DDM の設計の多くは生成タスクを対象としています。一部のデザインは本質的に自己教師あり学習に適していません (例: カテゴリ ラベルを含む)。その他のデザインは、視覚的な品質が考慮されない場合には必要ありません。 このセクションでは、チームは DDM の目的を自己教師あり学習に合わせて調整します。表 1 は、このフェーズの進行を示しています。トークナイザーの分解
次に、多くの単純化を行って VAE トークナイザーを分解します。彼らは、オートエンコーダの 4 つのバリアントをトークナイザとして比較し、それぞれが前のものの簡易バージョンです:タイルの操作は簡単なので、チームはタイル空間内の 3 つのタイルレベルのトークナイザーのフィルターを視覚化しました (図 4 を参照)。
#表 2 は、これら 4 つのトークナイザー バリアントを使用した場合の DiT の線形検出精度をまとめたものです。
クラシックになるノイズ除去オートエンコーダ
分解の次のステップは、モデルを従来の DAE にできる限り近づけることです。つまり、現在の PCA ベースの DDM と従来の DAE の違いを削除します。概要
要約すると、チームは最新の DDM を解体し、従来の DAE に変換しました。
彼らは多くの現代的な設計を削除し、概念的には現代の DDM から継承された 2 つの設計だけを保持しました。それは、低次元の暗黙的な空間 (ここにノイズが追加される) とマルチレベル ノイズです。
表 3 の最後の項目を最終 DAE インスタンスとして使用します (図 1 を参照)。彼らはこの方法を潜在ノイズ除去オートエンコーダー (潜在ノイズ除去オートエンコーダー) と呼び、l-DAE と略されます。
分析と比較
暗黙的なノイズの可視化
概念的には、l-DAE は、空間に追加されたノイズを除去するために学習できる DAE の形式です。暗黙の空間。 PCA は単純であるため、逆 PCA に含まれるノイズを簡単に視覚化できます。
図 7 は、ピクセルに追加されたノイズと潜在空間に追加されたノイズを比較しています。ピクセル ノイズとは異なり、暗黙的ノイズは画像の解像度にほとんど依存しません。タイルレベルの PCA がトークナイザーとして使用される場合、暗黙的ノイズのパターンは主にタイル サイズによって決まります。
ノイズ除去結果
図 8 は、l-DAE に基づくノイズ除去結果のその他の例を示しています。新しい方法は、ノイズが強い場合でも、より良い予測結果が得られることがわかります。
データ拡張
ここで指定されているすべてのモデルはデータ拡張を使用していないことに注意してください。画像の中央領域のみがトリミングされています。 、ランダムなサイズ調整や色のディザリングはありません。チームはさらなる研究を行い、最終的な l-DAE に対して穏やかなデータ拡張を使用してテストしました。
結果はわずかに改善されました。これは、l-DAE の表現学習機能がデータ拡張にほとんど依存していないことを示しています。同様の動作が MAE でも観察されています。He Kaiming らの論文「Masked autoencoders are scalable vision learners」を参照してください。これは対照学習法とはまったく異なります。
トレーニング エポック
これまでのすべての実験は 400 エポックのトレーニングに基づいています。 MAE の設計に従って、チームは 800 および 1600 エポックのトレーニングも研究しました。
#対照的に、エポック数が 400 から 800 に増加すると、MAE はには大幅なゲイン (4%) がありましたが、MoCo v3 ではエポック番号が 300 から 600 に増加すると、ゲインはほとんどありません (0.2%)。
モデル サイズ
以前のモデルはすべて DiT-L バリアントに基づいており、そのエンコーダーとデコーダーは ViT-1/2L (ViT-L の半分の深さ) でした。チームはさらに、ViT-B または ViT-L のエンコーダーを使用して、さまざまなサイズのモデルをトレーニングしました (デコーダーは常にエンコーダーと同じサイズです):
Yes 参照:モデルサイズを ViT-B から ViT-L に拡大すると、10.6% という大きなゲインが得られます。
以前のベースライン モデルの比較
最後に、さまざまなタイプの自己教師あり学習方法の効果をより深く理解するために、チームは比較を実施しました。その結果を表 4 に示します。
以上がHe Kaiming と Xie Saining のチームは、解体拡散モデルの探索に成功し、最終的に高く評価されたノイズ除去オートエンコーダーを作成しました。の詳細内容です。詳細については、PHP 中国語 Web サイトの他の関連記事を参照してください。