検索
ホームページテクノロジー周辺機器AICMU が Adob​​e と提携: GAN モデルは事前トレーニングの時代を到来させ、トレーニング サンプルのわずか 1% しか必要としません

事前トレーニング時代に入ってから、視覚認識モデルの性能は急速に発展しましたが、敵対的生成ネットワーク (GAN) などの画像生成モデルは遅れを取っているようです。

通常、GAN トレーニングは教師なしでゼロから行われるため、時間と労力がかかり、大規模な事前トレーニングでビッグデータから学習した「知識」は活用されません。それは大きな損失ですか?

さらに、画像生成自体が、現実世界の視覚現象における複雑な統計データをキャプチャしてシミュレートできる必要があります。そうでない場合、生成された画像は物理世界の法則に準拠せず、直接識別されてしまいます。一目見て「偽物」とわかります。

CMU が Adob​​e と提携: GAN モデルは事前トレーニングの時代を到来させ、トレーニング サンプルのわずか 1% しか必要としません

事前トレーニング済みモデルは知識を提供し、GAN モデルは生成機能を提供します。この 2 つの組み合わせはおそらく素晴らしいものです。

問題は、どの事前トレーニング済みモデルとそれらをどのように組み合わせることで GAN モデルの生成能力を向上できるのかということです。

最近、CMU と Adob​​e の研究者は、事前トレーニング モデルと「選択」による GAN モデルのトレーニングを組み合わせた記事を CVPR 2022 に発表しました。

CMU が Adob​​e と提携: GAN モデルは事前トレーニングの時代を到来させ、トレーニング サンプルのわずか 1% しか必要としません

論文リンク: https://arxiv.org/abs/2112.09130

プロジェクトリンク: https://github.com/nupurkmr9/vision- aided-gan

ビデオリンク: https://www.youtube.com/watch?v=oHdyJNdQ9E4

GAN モデルのトレーニング プロセスは、弁別器と生成器で構成されます。 discriminator ジェネレーターは、実際のサンプルと生成されたサンプルを区別する関連統計を学習するために使用されますが、ジェネレーターの目的は、生成された画像を実際の分布と可能な限り一致させることです。

理想的には、識別器は、生成された画像と実際の画像の間の分布ギャップを測定できる必要があります。

しかし、データ量が非常に限られている場合、大規模な事前トレーニング済みモデルを識別子として直接使用すると、ジェネレーターが「容赦なく潰され」、その後「過剰適合」してしまう可能性が簡単にあります。

FFHQ 1k データセットでの実験によると、最新の微分可能データ拡張手法を使用した場合でも、識別器は依然として過学習状態になります。トレーニング セットのパフォーマンスは非常に強力ですが、検証セットではパフォーマンスが非常に低くなります。 。 違い。

CMU が Adob​​e と提携: GAN モデルは事前トレーニングの時代を到来させ、トレーニング サンプルのわずか 1% しか必要としません

# さらに、識別子は、人間には識別できないが機械には明らかな変装に焦点を当てる場合があります。

ディスクリミネーターとジェネレーターの機能のバランスをとるために、研究者は、事前トレーニングされたモデルの異なるセットの表現をディスクリミネーターとして組み立てることを提案しました。

CMU が Adob​​e と提携: GAN モデルは事前トレーニングの時代を到来させ、トレーニング サンプルのわずか 1% しか必要としません

この方法には 2 つの利点があります:

1. 事前にトレーニングされた特徴に基づいて浅い分類器をトレーニングすることで、深いネットワークを小規模なスケールに適応させることができます。過学習を抑えながらデータセットの最適化を実現します。

つまり、事前学習モデルのパラメータを固定し、最上位層に軽量な分類ネットワークを追加する限り、安定した学習プロセスを提供できます。

たとえば、上記の実験の Ours 曲線から、検証セットの精度が StyleGAN2-ADA と比較して大幅に向上していることがわかります。

2. いくつかの最近の研究では、ディープ ネットワークが、低レベルの視覚的手がかり (エッジやテクスチャ) から高レベルの概念 (オブジェクトやオブジェクトのパーツ) に至るまで、意味のある視覚概念をキャプチャできることが証明されています。

これらの特徴に基づく識別子は、人間の知覚により一致する可能性があります。

そして、複数の事前トレーニング済みモデルを組み合わせることで、ジェネレーターが異なる相補的な特徴空間における実際の分布と一致するように促進できます。

最適な事前トレーニング ネットワークを選択するために、研究者らはまず、分類用の VGG-16 と検出とセグメンテーション用の Swin-T を含む、複数の sota モデルを収集して「モデル バンク」を形成しました。

CMU が Adob​​e と提携: GAN モデルは事前トレーニングの時代を到来させ、トレーニング サンプルのわずか 1% しか必要としません

次に、特徴空間内の本物の画像と偽の画像の線形セグメンテーションに基づいて、自動モデル検索戦略が提案され、ラベルの平滑化と微分可能な強化技術が使用されて、さらにモデルのトレーニングを安定させて過学習を軽減します。

具体的には、実際のトレーニング サンプルと生成された画像の結合は、トレーニング セットと検証セットに分割されます。

事前トレーニングされたモデルごとに、論理線形弁別器をトレーニングして、サンプルが実際のサンプルからのものであるか、生成されたサンプルからのものであるかを分類し、検証分割で「負のバイナリ クロスエントロピー損失」を使用して、分布ギャップを計算し、誤差が最小のモデルを返します。

検証誤差が低いほど、線形検出精度が高くなります。これは、これらの機能が実際のサンプルと生成されたサンプルを区別するのに役立つことを示しており、これらの機能を使用すると、ジェネレーターにより有用なフィードバックを提供できます。

研究者 私たちは、FFHQ および LSUN CAT データセットからの 1000 個のトレーニング サンプルを使用して、GAN トレーニングを経験的に検証しました。

CMU が Adob​​e と提携: GAN モデルは事前トレーニングの時代を到来させ、トレーニング サンプルのわずか 1% しか必要としません

CMU が Adob​​e と提携: GAN モデルは事前トレーニングの時代を到来させ、トレーニング サンプルのわずか 1% しか必要としません結果は、事前トレーニング済みモデルでトレーニングされた GAN の線形検出精度が高く、一般的に言えば、より優れた FID 指標を達成できることを示しています。

複数の既製モデルからのフィードバックを組み込むために、この記事では 2 つのモデル選択および統合戦略についても検討します。

1) K 固定モデル選択戦略。K 個の最適なモデルを選択します。トレーニングの開始 既製のモデルと収束までトレーニング;

2) K-プログレッシブ モデル選択戦略、固定回数の反復後に最もパフォーマンスの高い未使用のモデルを繰り返し選択して追加します。

実験結果は、K 固定戦略と比較して、プログレッシブ アプローチは計算の複雑さが低く、データ分布の違いを捉える事前トレーニング済みモデルの選択にも役立つことを示しています。たとえば、プログレッシブ戦略によって選択される最初の 2 つのモデルは、通常、自己教師ありモデルと教師ありモデルのペアです。

この記事の実験は主に進歩的なものです。

最終トレーニング アルゴリズムでは、最初に標準的な敵対的損失で GAN をトレーニングします。

CMU が Adob​​e と提携: GAN モデルは事前トレーニングの時代を到来させ、トレーニング サンプルのわずか 1% しか必要としません

CMU が Adob​​e と提携: GAN モデルは事前トレーニングの時代を到来させ、トレーニング サンプルのわずか 1% しか必要としませんベースライン ジェネレーターが与えられた場合、線形プローブを使用して、最適な事前トレーニング済みモデルを検索し、トレーニング中に損失目的関数を導入できます。

K プログレッシブ戦略では、利用可能な実際のトレーニング サンプルの数に比例する固定回数の反復でトレーニングした後、スナップショット内の最適なトレーニング セットを使用して、新しい視覚的補助識別器が前のステージに追加されます。 FIDの。

トレーニング プロセス中、データ拡張は水平反転によって実行され、微分可能拡張手法と片側ラベル平滑化が正則化用語として使用されます。

また、既製のモデルのみを識別子として使用すると発散が生じる一方、オリジナルの識別子と事前トレーニングされたモデルを組み合わせることでこの状況を改善できることも観察できます。

最後の実験は、FFHQ、LSUN CAT、および LSUN CHURCH データセットのトレーニング サンプルが 1k から 10k まで変化した場合の結果を示しています。

CMU が Adob​​e と提携: GAN モデルは事前トレーニングの時代を到来させ、トレーニング サンプルのわずか 1% しか必要としません

CMU が Adob​​e と提携: GAN モデルは事前トレーニングの時代を到来させ、トレーニング サンプルのわずか 1% しか必要としませんすべての設定において、FID は大幅な改善を達成でき、限られたデータ シナリオにおけるこの方法の有効性を証明します。

この方法と StyleGAN2-ADA の違いを定性的に分析するために、2 つの方法で生成されたサンプルの品質に従って、記事で提案されている新しい方法は、特に最悪のサンプルの品質を改善できます。 FFHQ および LSUN CAT の場合

CMU が Adob​​e と提携: GAN モデルは事前トレーニングの時代を到来させ、トレーニング サンプルのわずか 1% しか必要としません

CMU が Adob​​e と提携: GAN モデルは事前トレーニングの時代を到来させ、トレーニング サンプルのわずか 1% しか必要としません次の識別子を徐々に追加すると、事前トレーニングされたモデルの特徴に対する線形検出の精度が徐々に減少、つまりジェネレーターが強くなります。

CMU が Adob​​e と提携: GAN モデルは事前トレーニングの時代を到来させ、トレーニング サンプルのわずか 1% しか必要としません

CMU が Adob​​e と提携: GAN モデルは事前トレーニングの時代を到来させ、トレーニング サンプルのわずか 1% しか必要としません 全体として、わずか 10,000 個のトレーニング サンプルを使用したこの方法は、160 万枚の画像でトレーニングするよりも、LSUN CAT の FID でのパフォーマンスが優れています。StyleGAN2 のパフォーマンスも同様です。

CMU が Adob​​e と提携: GAN モデルは事前トレーニングの時代を到来させ、トレーニング サンプルのわずか 1% しか必要としません

CMU が Adob​​e と提携: GAN モデルは事前トレーニングの時代を到来させ、トレーニング サンプルのわずか 1% しか必要としません 完全なデータセットでは、この方法により、LSUN の猫、教会、馬のカテゴリで FID が 1.5 ~ 2 倍向上します。

CMU が Adob​​e と提携: GAN モデルは事前トレーニングの時代を到来させ、トレーニング サンプルのわずか 1% しか必要としませんCMU が Adob​​e と提携: GAN モデルは事前トレーニングの時代を到来させ、トレーニング サンプルのわずか 1% しか必要としません

著者のリチャード・チャンは、カリフォルニア大学バークレー校で博士号を取得し、コーネル大学で学士号と修士号を取得しました。主な研究対象には、コンピュータ ビジョン、機械学習、ディープ ラーニング、グラフィックス、画像処理などがあり、インターンシップや大学を通​​じて学術研究者と協力することもよくあります。

CMU が Adob​​e と提携: GAN モデルは事前トレーニングの時代を到来させ、トレーニング サンプルのわずか 1% しか必要としません

CMU が Adob​​e と提携: GAN モデルは事前トレーニングの時代を到来させ、トレーニング サンプルのわずか 1% しか必要としません著者の Jun-Yan Zhu は、カーネギー メロン大学コンピューター サイエンス学部ロボット工学部の助教授であり、コンピューター サイエンスと機械学習部門。主な研究分野には、コンピューター ビジョン、コンピューター グラフィックス、機械学習、コンピュテーショナル フォトグラフィーが含まれます。

CMU に入社する前は、Adobe Research の研究員でした。彼は清華大学を卒業して学士号を取得し、カリフォルニア大学バークレー校で博士号を取得し、その後、MIT CSAIL で博士研究員として働いていました。

CMU が Adob​​e と提携: GAN モデルは事前トレーニングの時代を到来させ、トレーニング サンプルのわずか 1% しか必要としません

CMU が Adob​​e と提携: GAN モデルは事前トレーニングの時代を到来させ、トレーニング サンプルのわずか 1% しか必要としません#

以上がCMU が Adob​​e と提携: GAN モデルは事前トレーニングの時代を到来させ、トレーニング サンプルのわずか 1% しか必要としませんの詳細内容です。詳細については、PHP 中国語 Web サイトの他の関連記事を参照してください。

声明
この記事は51CTO.COMで複製されています。侵害がある場合は、admin@php.cn までご連絡ください。
踊りましょう:私たちの人間のニューラルネットを微調整するための構造化された動き踊りましょう:私たちの人間のニューラルネットを微調整するための構造化された動きApr 27, 2025 am 11:09 AM

科学者は、彼らの機能を理解するために、人間とより単純なニューラルネットワーク(C. elegansのものと同様)を広く研究してきました。 ただし、重要な疑問が生じます。新しいAIと一緒に効果的に作業するために独自のニューラルネットワークをどのように適応させるのか

新しいGoogleリークは、Gemini AIのサブスクリプションの変更を明らかにします新しいGoogleリークは、Gemini AIのサブスクリプションの変更を明らかにしますApr 27, 2025 am 11:08 AM

GoogleのGemini Advanced:Horizo​​nの新しいサブスクリプションティア 現在、Gemini Advancedにアクセスするには、1か月あたり19.99ドルのGoogle One AIプレミアムプランが必要です。 ただし、Android Authorityのレポートは、今後の変更を示唆しています。 最新のGoogle p

データ分析の加速がAIの隠されたボトルネックをどのように解決しているかデータ分析の加速がAIの隠されたボトルネックをどのように解決しているかApr 27, 2025 am 11:07 AM

高度なAI機能を取り巻く誇大宣伝にもかかわらず、エンタープライズAIの展開内に大きな課題が潜んでいます:データ処理ボトルネック。 CEOがAIの進歩を祝う間、エンジニアはクエリの遅い時間、過負荷のパイプライン、

MarkitDown MCPは、任意のドキュメントをマークダウンに変換できます!MarkitDown MCPは、任意のドキュメントをマークダウンに変換できます!Apr 27, 2025 am 09:47 AM

ドキュメントの取り扱いは、AIプロジェクトでファイルを開くだけでなく、カオスを明確に変えることです。 PDF、PowerPoint、Wordなどのドキュメントは、あらゆる形状とサイズでワークフローをフラッシュします。構造化された取得

建物のエージェントにGoogle ADKを使用する方法は? - 分析Vidhya建物のエージェントにGoogle ADKを使用する方法は? - 分析VidhyaApr 27, 2025 am 09:42 AM

Googleのエージェント開発キット(ADK)のパワーを活用して、実際の機能を備えたインテリジェントエージェントを作成します。このチュートリアルは、ADKを使用して会話エージェントを構築し、GeminiやGPTなどのさまざまな言語モデルをサポートすることをガイドします。 w

効果的な問題解決のためにLLMを介したSLMの使用 - 分析Vidhya効果的な問題解決のためにLLMを介したSLMの使用 - 分析VidhyaApr 27, 2025 am 09:27 AM

まとめ: Small Language Model(SLM)は、効率のために設計されています。それらは、リソース不足、リアルタイム、プライバシーに敏感な環境の大手言語モデル(LLM)よりも優れています。 特にドメインの特異性、制御可能性、解釈可能性が一般的な知識や創造性よりも重要である場合、フォーカスベースのタスクに最適です。 SLMはLLMSの代替品ではありませんが、精度、速度、費用対効果が重要な場合に理想的です。 テクノロジーは、より少ないリソースでより多くを達成するのに役立ちます。それは常にドライバーではなく、プロモーターでした。蒸気エンジンの時代からインターネットバブル時代まで、テクノロジーの力は、問題の解決に役立つ範囲にあります。人工知能(AI)および最近では生成AIも例外ではありません

コンピュータービジョンタスクにGoogle Geminiモデルを使用する方法は? - 分析VidhyaコンピュータービジョンタスクにGoogle Geminiモデルを使用する方法は? - 分析VidhyaApr 27, 2025 am 09:26 AM

コンピュータービジョンのためのGoogleGeminiの力を活用:包括的なガイド 大手AIチャットボットであるGoogle Geminiは、その機能を会話を超えて拡張して、強力なコンピュータービジョン機能を網羅しています。 このガイドの利用方法については、

Gemini 2.0 Flash vs O4-Mini:GoogleはOpenaiよりもうまくやることができますか?Gemini 2.0 Flash vs O4-Mini:GoogleはOpenaiよりもうまくやることができますか?Apr 27, 2025 am 09:20 AM

2025年のAIランドスケープは、GoogleのGemini 2.0 FlashとOpenaiのO4-Miniの到着とともに感動的です。 数週間離れたこれらの最先端のモデルは、同等の高度な機能と印象的なベンチマークスコアを誇っています。この詳細な比較

See all articles

ホットAIツール

Undresser.AI Undress

Undresser.AI Undress

リアルなヌード写真を作成する AI 搭載アプリ

AI Clothes Remover

AI Clothes Remover

写真から衣服を削除するオンライン AI ツール。

Undress AI Tool

Undress AI Tool

脱衣画像を無料で

Clothoff.io

Clothoff.io

AI衣類リムーバー

Video Face Swap

Video Face Swap

完全無料の AI 顔交換ツールを使用して、あらゆるビデオの顔を簡単に交換できます。

ホットツール

MantisBT

MantisBT

Mantis は、製品の欠陥追跡を支援するために設計された、導入が簡単な Web ベースの欠陥追跡ツールです。 PHP、MySQL、Web サーバーが必要です。デモおよびホスティング サービスをチェックしてください。

AtomエディタMac版ダウンロード

AtomエディタMac版ダウンロード

最も人気のあるオープンソースエディター

VSCode Windows 64 ビットのダウンロード

VSCode Windows 64 ビットのダウンロード

Microsoft によって発売された無料で強力な IDE エディター

メモ帳++7.3.1

メモ帳++7.3.1

使いやすく無料のコードエディター

EditPlus 中国語クラック版

EditPlus 中国語クラック版

サイズが小さく、構文の強調表示、コード プロンプト機能はサポートされていません