ホームページ >テクノロジー周辺機器 >AI >MIT と Google が共同研究する新技術 StableRep: 合成画像を使用した AI 画像モデルのトレーニング
主要な強調点:
研究者らは、人工知能によって生成された画像を使用して、非常に詳細な人工知能画像モデルをトレーニングする StableRep と呼ばれる新しいテクノロジーを提案しました。
StableRep は、何百万ものラベル付き合成画像を使用してトレーニングされ、学習プロセスを改善するために「複数のポジティブ コントラスト学習方法」を採用し、それをオープンソースのテキストから画像へのモデル Stable Diffusion に適用します- ⚙️ StableRep は ImageNet 分類で顕著な結果を達成しましたが、画像の生成が遅く、テキスト プロンプトと生成された画像の間の意味的な不一致に悩まされています。
ウェブマスター ホーム (ChinaZ.com) 11 月 28 日のニュース: MIT と Google の研究者は最近、AI によって生成された画像を利用して、より詳細かつ効率的な AI 画像をトレーニングすることを目的とした、StableRep と呼ばれる新技術を開発しました。モデル。このテクノロジーは、オープンソースのテキストから画像へのモデルである Stable Diffusion に適用され、一連の注目すべき成果を達成しました。
StableRepでは「多重ポジティブコントラスト学習法」という独自の手法を採用しています。このアプローチでは、同じテキスト プロンプトに由来する複数の画像が互いにポジティブなコントラストとして見なされ、学習プロセスが強化されます。たとえば、風景のテキスト プロンプトの場合、モデルは生成された複数の風景画像と関連するすべての説明を比較して、これらの画像に基づいて小さな違いを見つけ、最終出力に適用して、非常に詳細な画像を作成します
研究者らは、自分たちの手法が、複数の画像を単なるピクセルの集合としてではなく、根底にある同じものの表現として扱うことに優れていると指摘しています。実験により、StableRep が Vision Transformer モデルを使用した ImageNet 分類タスクで 76.7% の線形精度を達成したことが証明されました。さらに、言語監視の導入により、2,000 万枚の合成画像でトレーニングされた StableRep モデルは、5,000 万枚の実際の画像でトレーニングされた CLIP モデルのパフォーマンスを上回りました。
ただし、安定した発電機にも欠陥がないわけではありません。画像の生成が遅く、テキスト プロンプトと生成された画像の間で意味的な不一致が発生します。さらに、安定したジェネレーターの基礎となるモデルの安定した拡散には、実際のデータでの初期トレーニングが必要となるため、安定したジェネレーターを使用して画像を生成すると時間がかかり、コストが高くなる可能性があります
StableRep は GitHub でオープンソース化されており、商用利用が可能です。 Apache 2.0ライセンスを採用しており、ユーザーはそれを使用して派生作品を生成することができますが、再配布作品または派生作品にはApacheライセンスのコピーを提供し、変更の通知を含める必要があります。ライセンスには、ライセンスされた作品の使用から生じる損害に対する投稿者の責任の制限も含まれています。 Stable Replica (StableRep) は GitHub でオープンソースとしてリリースされており、商用目的で使用できます。 Apache2.0ライセンスを採用しており、利用・二次創作が可能です。ただし、再配布または派生作品の場合、ユーザーは Apache ライセンスのコピーを提供し、変更が加えられたことを通知する必要があります。このライセンスは、ライセンスされた作品の使用によって生じるあらゆる損害からも寄稿者を補償します。
MIT と Google によるこの研究結果は、人工知能画像生成の分野における革新を表しています。いくつかの欠陥はありますが、高品質の画像を生成するための新しい方法とアイデアを提供します以上がMIT と Google が共同研究する新技術 StableRep: 合成画像を使用した AI 画像モデルのトレーニングの詳細内容です。詳細については、PHP 中国語 Web サイトの他の関連記事を参照してください。