拡散モデルは主流のテキストから画像への生成モデルとなっており、テキスト プロンプトを通じて高品質でコンテンツ豊富な画像の生成をガイドできます。
入力プロンプトが単純すぎる場合、既存のモデルでは意味の理解と常識的な推論に制限があり、生成される画像の品質が大幅に低下します
Lin Liang のチームは、中山大学の HCP 研究室は、SUR アダプターと呼ばれるシンプルかつ効果的な微調整方法を提案し、物語の手掛かりを理解するモデルの能力を向上させるように設計されています。このメソッドは、事前トレーニングされた拡散モデルの意味理解および推論アダプターであり、パラメーター効率が高くなります。
下のリンクをクリックしてください。論文を表示します。 https://arxiv.org/abs/2305.05189
オープンソースのアドレス: https://github.com/Qrange-group/SUR-adapter
この目標を達成するために、研究者たちはまず SURD と呼ばれるデータセットを収集し、注釈を付けました。このデータセットには 57,000 を超えるマルチモーダル サンプルが含まれており、各サンプルには単純なナラティブ プロンプト、複雑なキーワードベースのプロンプト、および高品質の画像が含まれています
研究者はナラティブ プロンプトの意味論的表現を調整します複雑なプロンプトを使用し、知識の蒸留を通じて大規模言語モデル (LLM) の知識を SUR アダプターに転送して、高品質のテキストを構築するための強力な意味的理解と推論機能を獲得できるようにします。 テキストから画像への生成のための意味的表現。次に、物語プロンプトの意味表現を複雑なプロンプトと調整し、知識の蒸留を通じて大規模言語モデル (LLM) の知識を SUR アダプターに転送して、高品質の言語を構築するための強力な意味理解と推論能力を獲得できるようにしました。テキストから画像への生成の場合
複数の LLM と事前訓練された拡散モデルを統合することで実験したところ、この方法は次のことができることがわかりました。拡散モデルを効果的に作成する 画質を劣化させることなく、簡潔な自然言語の説明を理解して推論する
このアプローチにより、テキストから画像への拡散モデルが使いやすくなり、より良いユーザー エクスペリエンスが提供されます。ユーザーフレンドリーなテキストから画像への生成モデルの開発をさらに推進し、単純な物語プロンプトとキーワードベースのプロンプトの間の意味論的なギャップを埋める
背景の紹介
現在、安定拡散に代表されるテキストから画像への事前トレーニングモデルは、人工知能が生成するコンテンツの分野で最も重要な基本モデルの1つとなっており、次のようなタスクで重要な役割を果たしています。画像編集、ビデオ生成、3D オブジェクト生成などの重要な役割
現時点では、これらの事前トレーニング済み拡散モデルの意味論的能力は主にテキスト エンコーダ (CLIP など) に依存しています。 、そしてその意味理解能力は拡散モデルの生成効果に直接影響します
この記事ではまず、視覚的な質問応答で共通の質問カテゴリを構築することにより、安定拡散の画像とテキストのマッチング精度をテストします。 「数える」、「色」、「アクション」などのタスク(VQA)。手動でカウントし、テストを実施します
#以下は、さまざまなプロンプトの作成例です。詳細については、下の表を参照してください。
以下の表に示されている結果によれば、この記事では、現在のヴィンセント グラフの事前トレーニング済み拡散モデルには意味理解に関する重大な問題があることが明らかになりました。多くの質問の画像とテキストの一致精度は 50% 未満であり、一部の質問でも精度は 0% にすぎません
# #一致するテキストを取得するには 条件付き画像を生成するには、事前トレーニングされた拡散モデルでエンコーダーのセマンティック機能を強化する方法を見つける必要があります
メソッドの概要
書き直された内容: 1. データの前処理
まず、一般的に使用される普及モデルのオンライン Web サイトから始めることができます。 lexica.art、civitai.com、stablediffusionweb 多数の画像とテキストのペアを取得します。次に、これらのデータをクリーンアップしてフィルター処理して、57,000 を超える高品質のトリプレット データ (複雑なプロンプト、単純なプロンプト、画像を含む) を取得し、それを SURD データセットに形成する必要があります
下の図に示すように、複雑なプロンプトは、画像生成時に拡散モデルに必要なテキスト プロンプト条件を指します。通常、これらのプロンプトには複雑な形式と説明が含まれます。単純なプロンプトは、BLIP を通じて生成された画像のテキスト説明です。人間の説明と一致する言語形式を使用します。
一般的に、通常の人間の言語と一致する単純なプロンプト拡散モデルが意味的に適切な画像を生成するのは説明が困難ですが、複雑な手がかり (ユーザーが冗談めかして拡散モデルの「マントラ」と呼ぶもの) によって満足のいく結果を達成できます
#書き直す必要があるのは:2. 大規模な言語モデルの意味論的抽出
この記事では、Transformer 構造のアダプターを使用して、大規模な言語モデルの意味論的特徴を抽出する方法を紹介します。特定の隠れ層の言語モデルと、アダプターによって導かれた大規模な言語モデル情報と、元のテキスト エンコーダーによって出力された意味論的特徴を線形的に組み合わせることで、最終的な意味論的特徴が得られます。大規模な言語モデルは、さまざまなサイズのモデルの LLaMA を使用し、拡散モデルの UNet 部分のパラメーターはトレーニング プロセス全体でフリーズされます。 ##書き換える必要がある内容は:3. 画質の復元
元の意味を変更しないようにするには、内容を中国語に書き直す必要があります。 この記事の構成では、学習前の大規模モデルの推論過程に学習可能なモジュールを導入しているため、学習前モデル本来の画像生成品質をある程度壊しているため、画像生成の品質を取り戻す必要がある元の事前トレーニング モデルの生成品質レベルまで
この論文では、SURD データセット内のトリプルを使用し、対応する品質損失関数を導入します。画像生成の品質を復元するためのトレーニング プロセス。具体的には、この記事は、新しいモジュールを通じて取得される意味論的特徴が、複雑なキューの意味論的特徴と可能な限り一致することを望んでいます。
次の図は、SUR アダプターの効果を示しています。事前トレーニングされた拡散モデル微調整フレームワーク。右側はアダプターのネットワーク構造です。
実験結果
##SUR- の場合アダプターのパフォーマンスについて、この記事では、セマンティック マッチングと画質という 2 つの側面からパフォーマンスを分析します。
一方で、次の表によると、SUR アダプターは、アダプター内の一般的なセマンティクスを効果的に解決できます。ヴィンセンチアン グラフ拡散モデルの不一致問題。さまざまな実験設定に適用できます。異なるカテゴリの意味論的基準の下では、精度もある程度改善されています。
一方、本論文では、BRISQUE などの一般的な画質評価指標を使用して、元のプリトレーニングと比較します。拡散モデルと SUR アダプター拡散モデルを使用して、生成された画像の品質に関する統計テストを実行した後、この 2 つの間に大きな違いがないことがわかります。
人間の好みに関するアンケートテストも実施しました。
上記の分析を通じて、提案手法は固有のイメージを軽減できると結論付けることができます。 - 画像生成の品質を維持しながら、事前トレーニングされたテキストから画像へのテキスト不一致の問題
#また、次の画像生成例を通じて定性的にも実証します。より詳細な分析と詳細については、この記事とオープン ソース ウェアハウスを参照してください
書き直す必要があるコンテンツは次のとおりです:
HCP 研究室の紹介
Lin Liang 教授は、2010 年に中山大学のヒューマン・マシン・オブジェクト・インテリジェント融合研究室 (HCP Lab) を設立しました。近年、この研究室は、マルチモーダルなコンテンツ理解、因果推論および認知推論、身体化された知能の分野で豊富な学術成果を上げています。当研究室は国内外の科学技術賞や最優秀論文賞を多数受賞しており、製品レベルの人工知能技術とプラットフォームの開発に取り組んでいます
以上がVincent 図のプロンプトを簡素化し、LLM モデルが高品質の画像を生成しますの詳細内容です。詳細については、PHP 中国語 Web サイトの他の関連記事を参照してください。

導入 おめでとう!あなたは成功したビジネスを運営しています。ウェブページ、ソーシャルメディアキャンペーン、ウェビナー、会議、無料リソース、その他のソースを通じて、毎日5000の電子メールIDを収集します。次の明白なステップはです

導入 今日のペースの速いソフトウェア開発環境では、最適なアプリケーションパフォーマンスが重要です。応答時間、エラーレート、リソース利用などのリアルタイムメトリックを監視することで、メインに役立ちます

「ユーザーは何人いますか?」彼は突き出した。 「私たちが最後に言ったのは毎週5億人のアクティブであり、非常に急速に成長していると思います」とアルトマンは答えました。 「わずか数週間で2倍になったと言った」とアンダーソンは続けた。 「私はそのprivと言いました

導入 Mistralは、最初のマルチモーダルモデル、つまりPixtral-12B-2409をリリースしました。このモデルは、Mistralの120億個のパラメーターであるNemo 12bに基づいて構築されています。このモデルを際立たせるものは何ですか?これで、画像とTexの両方を採用できます

クエリに応答するだけでなく、情報を自律的に収集し、タスクを実行し、テキスト、画像、コードなどの複数のタイプのデータを処理するAIを搭載したアシスタントがいることを想像してください。未来的に聞こえますか?これでa

導入 金融業界は、効率的な取引と信用の可用性を促進することにより経済成長を促進するため、あらゆる国の発展の基礎となっています。取引の容易さとクレジット

導入 データは、ソーシャルメディア、金融取引、eコマースプラットフォームなどのソースから前例のないレートで生成されています。この連続的な情報ストリームを処理することは課題ですが、

導入 あなたが話す前に、あなたはどれくらいの頻度で本当に考え、推論しますか?現在の最先端のLLMであるGPT-4Oは、多くの時間をかけて応答することなく、すでに印象的な反応を提供していました。しかし、それが取られ始めたら想像してみてください


ホットAIツール

Undresser.AI Undress
リアルなヌード写真を作成する AI 搭載アプリ

AI Clothes Remover
写真から衣服を削除するオンライン AI ツール。

Undress AI Tool
脱衣画像を無料で

Clothoff.io
AI衣類リムーバー

AI Hentai Generator
AIヘンタイを無料で生成します。

人気の記事

ホットツール

WebStorm Mac版
便利なJavaScript開発ツール

ゼンドスタジオ 13.0.1
強力な PHP 統合開発環境

DVWA
Damn Vulnerable Web App (DVWA) は、非常に脆弱な PHP/MySQL Web アプリケーションです。その主な目的は、セキュリティ専門家が法的環境でスキルとツールをテストするのに役立ち、Web 開発者が Web アプリケーションを保護するプロセスをより深く理解できるようにし、教師/生徒が教室環境で Web アプリケーションを教え/学習できるようにすることです。安全。 DVWA の目標は、シンプルでわかりやすいインターフェイスを通じて、さまざまな難易度で最も一般的な Web 脆弱性のいくつかを実践することです。このソフトウェアは、

AtomエディタMac版ダウンロード
最も人気のあるオープンソースエディター

ドリームウィーバー CS6
ビジュアル Web 開発ツール
