ホームページ >テクノロジー周辺機器 >AI >Vincent 図のプロンプトを簡素化し、LLM モデルが高品質の画像を生成します
拡散モデルは主流のテキストから画像への生成モデルとなっており、テキスト プロンプトを通じて高品質でコンテンツ豊富な画像の生成をガイドできます。
入力プロンプトが単純すぎる場合、既存のモデルでは意味の理解と常識的な推論に制限があり、生成される画像の品質が大幅に低下します
Lin Liang のチームは、中山大学の HCP 研究室は、SUR アダプターと呼ばれるシンプルかつ効果的な微調整方法を提案し、物語の手掛かりを理解するモデルの能力を向上させるように設計されています。このメソッドは、事前トレーニングされた拡散モデルの意味理解および推論アダプターであり、パラメーター効率が高くなります。
下のリンクをクリックしてください。論文を表示します。 https://arxiv.org/abs/2305.05189
オープンソースのアドレス: https://github.com/Qrange-group/SUR-adapter
この目標を達成するために、研究者たちはまず SURD と呼ばれるデータセットを収集し、注釈を付けました。このデータセットには 57,000 を超えるマルチモーダル サンプルが含まれており、各サンプルには単純なナラティブ プロンプト、複雑なキーワードベースのプロンプト、および高品質の画像が含まれています
研究者はナラティブ プロンプトの意味論的表現を調整します複雑なプロンプトを使用し、知識の蒸留を通じて大規模言語モデル (LLM) の知識を SUR アダプターに転送して、高品質のテキストを構築するための強力な意味的理解と推論機能を獲得できるようにします。 テキストから画像への生成のための意味的表現。次に、物語プロンプトの意味表現を複雑なプロンプトと調整し、知識の蒸留を通じて大規模言語モデル (LLM) の知識を SUR アダプターに転送して、高品質の言語を構築するための強力な意味理解と推論能力を獲得できるようにしました。テキストから画像への生成の場合
複数の LLM と事前訓練された拡散モデルを統合することで実験したところ、この方法は次のことができることがわかりました。拡散モデルを効果的に作成する 画質を劣化させることなく、簡潔な自然言語の説明を理解して推論する
このアプローチにより、テキストから画像への拡散モデルが使いやすくなり、より良いユーザー エクスペリエンスが提供されます。ユーザーフレンドリーなテキストから画像への生成モデルの開発をさらに推進し、単純な物語プロンプトとキーワードベースのプロンプトの間の意味論的なギャップを埋める
現在、安定拡散に代表されるテキストから画像への事前トレーニングモデルは、人工知能が生成するコンテンツの分野で最も重要な基本モデルの1つとなっており、次のようなタスクで重要な役割を果たしています。画像編集、ビデオ生成、3D オブジェクト生成などの重要な役割
現時点では、これらの事前トレーニング済み拡散モデルの意味論的能力は主にテキスト エンコーダ (CLIP など) に依存しています。 、そしてその意味理解能力は拡散モデルの生成効果に直接影響します
この記事ではまず、視覚的な質問応答で共通の質問カテゴリを構築することにより、安定拡散の画像とテキストのマッチング精度をテストします。 「数える」、「色」、「アクション」などのタスク(VQA)。手動でカウントし、テストを実施します
#以下は、さまざまなプロンプトの作成例です。詳細については、下の表を参照してください。
以下の表に示されている結果によれば、この記事では、現在のヴィンセント グラフの事前トレーニング済み拡散モデルには意味理解に関する重大な問題があることが明らかになりました。多くの質問の画像とテキストの一致精度は 50% 未満であり、一部の質問でも精度は 0% にすぎません
# #一致するテキストを取得するには 条件付き画像を生成するには、事前トレーニングされた拡散モデルでエンコーダーのセマンティック機能を強化する方法を見つける必要があります
書き直された内容: 1. データの前処理
まず、一般的に使用される普及モデルのオンライン Web サイトから始めることができます。 lexica.art、civitai.com、stablediffusionweb 多数の画像とテキストのペアを取得します。次に、これらのデータをクリーンアップしてフィルター処理して、57,000 を超える高品質のトリプレット データ (複雑なプロンプト、単純なプロンプト、画像を含む) を取得し、それを SURD データセットに形成する必要があります
下の図に示すように、複雑なプロンプトは、画像生成時に拡散モデルに必要なテキスト プロンプト条件を指します。通常、これらのプロンプトには複雑な形式と説明が含まれます。単純なプロンプトは、BLIP を通じて生成された画像のテキスト説明です。人間の説明と一致する言語形式を使用します。
一般的に、通常の人間の言語と一致する単純なプロンプト拡散モデルが意味的に適切な画像を生成するのは説明が困難ですが、複雑な手がかり (ユーザーが冗談めかして拡散モデルの「マントラ」と呼ぶもの) によって満足のいく結果を達成できます
#書き直す必要があるのは:2. 大規模な言語モデルの意味論的抽出
この記事では、Transformer 構造のアダプターを使用して、大規模な言語モデルの意味論的特徴を抽出する方法を紹介します。特定の隠れ層の言語モデルと、アダプターによって導かれた大規模な言語モデル情報と、元のテキスト エンコーダーによって出力された意味論的特徴を線形的に組み合わせることで、最終的な意味論的特徴が得られます。大規模な言語モデルは、さまざまなサイズのモデルの LLaMA を使用し、拡散モデルの UNet 部分のパラメーターはトレーニング プロセス全体でフリーズされます。 ##書き換える必要がある内容は:3. 画質の復元
元の意味を変更しないようにするには、内容を中国語に書き直す必要があります。 この記事の構成では、学習前の大規模モデルの推論過程に学習可能なモジュールを導入しているため、学習前モデル本来の画像生成品質をある程度壊しているため、画像生成の品質を取り戻す必要がある元の事前トレーニング モデルの生成品質レベルまで
この論文では、SURD データセット内のトリプルを使用し、対応する品質損失関数を導入します。画像生成の品質を復元するためのトレーニング プロセス。具体的には、この記事は、新しいモジュールを通じて取得される意味論的特徴が、複雑なキューの意味論的特徴と可能な限り一致することを望んでいます。
次の図は、SUR アダプターの効果を示しています。事前トレーニングされた拡散モデル微調整フレームワーク。右側はアダプターのネットワーク構造です。
実験結果
##SUR- の場合アダプターのパフォーマンスについて、この記事では、セマンティック マッチングと画質という 2 つの側面からパフォーマンスを分析します。
一方で、次の表によると、SUR アダプターは、アダプター内の一般的なセマンティクスを効果的に解決できます。ヴィンセンチアン グラフ拡散モデルの不一致問題。さまざまな実験設定に適用できます。異なるカテゴリの意味論的基準の下では、精度もある程度改善されています。
人間の好みに関するアンケートテストも実施しました。
上記の分析を通じて、提案手法は固有のイメージを軽減できると結論付けることができます。 - 画像生成の品質を維持しながら、事前トレーニングされたテキストから画像へのテキスト不一致の問題
#また、次の画像生成例を通じて定性的にも実証します。より詳細な分析と詳細については、この記事とオープン ソース ウェアハウスを参照してください
書き直す必要があるコンテンツは次のとおりです:
Lin Liang 教授は、2010 年に中山大学のヒューマン・マシン・オブジェクト・インテリジェント融合研究室 (HCP Lab) を設立しました。近年、この研究室は、マルチモーダルなコンテンツ理解、因果推論および認知推論、身体化された知能の分野で豊富な学術成果を上げています。当研究室は国内外の科学技術賞や最優秀論文賞を多数受賞しており、製品レベルの人工知能技術とプラットフォームの開発に取り組んでいます
以上がVincent 図のプロンプトを簡素化し、LLM モデルが高品質の画像を生成しますの詳細内容です。詳細については、PHP 中国語 Web サイトの他の関連記事を参照してください。