拡散モデルは主流のテキストから画像への生成モデルとなっており、テキスト プロンプトを通じて高品質でコンテンツ豊富な画像の生成をガイドできます。
入力プロンプトが単純すぎる場合、既存のモデルでは意味の理解と常識的な推論に制限があり、生成される画像の品質が大幅に低下します
Lin Liang のチームは、中山大学の HCP 研究室は、SUR アダプターと呼ばれるシンプルかつ効果的な微調整方法を提案し、物語の手掛かりを理解するモデルの能力を向上させるように設計されています。このメソッドは、事前トレーニングされた拡散モデルの意味理解および推論アダプターであり、パラメーター効率が高くなります。
下のリンクをクリックしてください。論文を表示します。 https://arxiv.org/abs/2305.05189
オープンソースのアドレス: https://github.com/Qrange-group/SUR-adapter
この目標を達成するために、研究者たちはまず SURD と呼ばれるデータセットを収集し、注釈を付けました。このデータセットには 57,000 を超えるマルチモーダル サンプルが含まれており、各サンプルには単純なナラティブ プロンプト、複雑なキーワードベースのプロンプト、および高品質の画像が含まれています
研究者はナラティブ プロンプトの意味論的表現を調整します複雑なプロンプトを使用し、知識の蒸留を通じて大規模言語モデル (LLM) の知識を SUR アダプターに転送して、高品質のテキストを構築するための強力な意味的理解と推論機能を獲得できるようにします。 テキストから画像への生成のための意味的表現。次に、物語プロンプトの意味表現を複雑なプロンプトと調整し、知識の蒸留を通じて大規模言語モデル (LLM) の知識を SUR アダプターに転送して、高品質の言語を構築するための強力な意味理解と推論能力を獲得できるようにしました。テキストから画像への生成の場合
複数の LLM と事前訓練された拡散モデルを統合することで実験したところ、この方法は次のことができることがわかりました。拡散モデルを効果的に作成する 画質を劣化させることなく、簡潔な自然言語の説明を理解して推論する
このアプローチにより、テキストから画像への拡散モデルが使いやすくなり、より良いユーザー エクスペリエンスが提供されます。ユーザーフレンドリーなテキストから画像への生成モデルの開発をさらに推進し、単純な物語プロンプトとキーワードベースのプロンプトの間の意味論的なギャップを埋める
背景の紹介
現在、安定拡散に代表されるテキストから画像への事前トレーニングモデルは、人工知能が生成するコンテンツの分野で最も重要な基本モデルの1つとなっており、次のようなタスクで重要な役割を果たしています。画像編集、ビデオ生成、3D オブジェクト生成などの重要な役割
現時点では、これらの事前トレーニング済み拡散モデルの意味論的能力は主にテキスト エンコーダ (CLIP など) に依存しています。 、そしてその意味理解能力は拡散モデルの生成効果に直接影響します
この記事ではまず、視覚的な質問応答で共通の質問カテゴリを構築することにより、安定拡散の画像とテキストのマッチング精度をテストします。 「数える」、「色」、「アクション」などのタスク(VQA)。手動でカウントし、テストを実施します
#以下は、さまざまなプロンプトの作成例です。詳細については、下の表を参照してください。
以下の表に示されている結果によれば、この記事では、現在のヴィンセント グラフの事前トレーニング済み拡散モデルには意味理解に関する重大な問題があることが明らかになりました。多くの質問の画像とテキストの一致精度は 50% 未満であり、一部の質問でも精度は 0% にすぎません
# #一致するテキストを取得するには 条件付き画像を生成するには、事前トレーニングされた拡散モデルでエンコーダーのセマンティック機能を強化する方法を見つける必要があります
メソッドの概要
書き直された内容: 1. データの前処理
まず、一般的に使用される普及モデルのオンライン Web サイトから始めることができます。 lexica.art、civitai.com、stablediffusionweb 多数の画像とテキストのペアを取得します。次に、これらのデータをクリーンアップしてフィルター処理して、57,000 を超える高品質のトリプレット データ (複雑なプロンプト、単純なプロンプト、画像を含む) を取得し、それを SURD データセットに形成する必要があります
下の図に示すように、複雑なプロンプトは、画像生成時に拡散モデルに必要なテキスト プロンプト条件を指します。通常、これらのプロンプトには複雑な形式と説明が含まれます。単純なプロンプトは、BLIP を通じて生成された画像のテキスト説明です。人間の説明と一致する言語形式を使用します。
一般的に、通常の人間の言語と一致する単純なプロンプト拡散モデルが意味的に適切な画像を生成するのは説明が困難ですが、複雑な手がかり (ユーザーが冗談めかして拡散モデルの「マントラ」と呼ぶもの) によって満足のいく結果を達成できます
#書き直す必要があるのは:2. 大規模な言語モデルの意味論的抽出
この記事では、Transformer 構造のアダプターを使用して、大規模な言語モデルの意味論的特徴を抽出する方法を紹介します。特定の隠れ層の言語モデルと、アダプターによって導かれた大規模な言語モデル情報と、元のテキスト エンコーダーによって出力された意味論的特徴を線形的に組み合わせることで、最終的な意味論的特徴が得られます。大規模な言語モデルは、さまざまなサイズのモデルの LLaMA を使用し、拡散モデルの UNet 部分のパラメーターはトレーニング プロセス全体でフリーズされます。 ##書き換える必要がある内容は:3. 画質の復元
元の意味を変更しないようにするには、内容を中国語に書き直す必要があります。 この記事の構成では、学習前の大規模モデルの推論過程に学習可能なモジュールを導入しているため、学習前モデル本来の画像生成品質をある程度壊しているため、画像生成の品質を取り戻す必要がある元の事前トレーニング モデルの生成品質レベルまで
この論文では、SURD データセット内のトリプルを使用し、対応する品質損失関数を導入します。画像生成の品質を復元するためのトレーニング プロセス。具体的には、この記事は、新しいモジュールを通じて取得される意味論的特徴が、複雑なキューの意味論的特徴と可能な限り一致することを望んでいます。
次の図は、SUR アダプターの効果を示しています。事前トレーニングされた拡散モデル微調整フレームワーク。右側はアダプターのネットワーク構造です。
実験結果
##SUR- の場合アダプターのパフォーマンスについて、この記事では、セマンティック マッチングと画質という 2 つの側面からパフォーマンスを分析します。
一方で、次の表によると、SUR アダプターは、アダプター内の一般的なセマンティクスを効果的に解決できます。ヴィンセンチアン グラフ拡散モデルの不一致問題。さまざまな実験設定に適用できます。異なるカテゴリの意味論的基準の下では、精度もある程度改善されています。
一方、本論文では、BRISQUE などの一般的な画質評価指標を使用して、元のプリトレーニングと比較します。拡散モデルと SUR アダプター拡散モデルを使用して、生成された画像の品質に関する統計テストを実行した後、この 2 つの間に大きな違いがないことがわかります。
人間の好みに関するアンケートテストも実施しました。
上記の分析を通じて、提案手法は固有のイメージを軽減できると結論付けることができます。 - 画像生成の品質を維持しながら、事前トレーニングされたテキストから画像へのテキスト不一致の問題
#また、次の画像生成例を通じて定性的にも実証します。より詳細な分析と詳細については、この記事とオープン ソース ウェアハウスを参照してください
書き直す必要があるコンテンツは次のとおりです:
HCP 研究室の紹介
Lin Liang 教授は、2010 年に中山大学のヒューマン・マシン・オブジェクト・インテリジェント融合研究室 (HCP Lab) を設立しました。近年、この研究室は、マルチモーダルなコンテンツ理解、因果推論および認知推論、身体化された知能の分野で豊富な学術成果を上げています。当研究室は国内外の科学技術賞や最優秀論文賞を多数受賞しており、製品レベルの人工知能技術とプラットフォームの開発に取り組んでいます
以上がVincent 図のプロンプトを簡素化し、LLM モデルが高品質の画像を生成しますの詳細内容です。詳細については、PHP 中国語 Web サイトの他の関連記事を参照してください。

「AI-Ready労働力」という用語は頻繁に使用されますが、サプライチェーン業界ではどういう意味ですか? サプライチェーン管理協会(ASCM)のCEOであるAbe Eshkenaziによると、批評家ができる専門家を意味します

分散型AI革命は静かに勢いを増しています。 今週の金曜日、テキサス州オースティンでは、ビテンサーのエンドゲームサミットは極めて重要な瞬間を示し、理論から実用的な応用に分散したAI(DEAI)を移行します。 派手なコマーシャルとは異なり

エンタープライズAIはデータ統合の課題に直面しています エンタープライズAIの適用は、ビジネスデータを継続的に学習することで正確性と実用性を維持できるシステムを構築する大きな課題に直面しています。 NEMOマイクロサービスは、NVIDIAが「データフライホイール」と呼んでいるものを作成することにより、この問題を解決し、AIシステムがエンタープライズ情報とユーザーインタラクションへの継続的な露出を通じて関連性を維持できるようにします。 この新しく発売されたツールキットには、5つの重要なマイクロサービスが含まれています。 NEMOカスタマイザーは、より高いトレーニングスループットを備えた大規模な言語モデルの微調整を処理します。 NEMO評価者は、カスタムベンチマークのAIモデルの簡素化された評価を提供します。 Nemo Guardrailsは、コンプライアンスと適切性を維持するためにセキュリティ管理を実装しています

AI:芸術とデザインの未来 人工知能(AI)は、前例のない方法で芸術とデザインの分野を変えており、その影響はもはやアマチュアに限定されませんが、より深く影響を与えています。 AIによって生成されたアートワークとデザインスキームは、広告、ソーシャルメディアの画像生成、Webデザインなど、多くのトランザクションデザインアクティビティで従来の素材画像とデザイナーに迅速に置き換えられています。 ただし、プロのアーティストやデザイナーもAIの実用的な価値を見つけています。 AIを補助ツールとして使用して、新しい美的可能性を探求し、さまざまなスタイルをブレンドし、新しい視覚効果を作成します。 AIは、アーティストやデザイナーが繰り返しタスクを自動化し、さまざまなデザイン要素を提案し、創造的な入力を提供するのを支援します。 AIはスタイル転送をサポートします。これは、画像のスタイルを適用することです

最初はビデオ会議プラットフォームで知られていたZoomは、エージェントAIの革新的な使用で職場革命をリードしています。 ZoomのCTOであるXD Huangとの最近の会話は、同社の野心的なビジョンを明らかにしました。 エージェントAIの定義 huang d

AIは教育に革命をもたらしますか? この質問は、教育者と利害関係者の間で深刻な反省を促しています。 AIの教育への統合は、機会と課題の両方をもたらします。 Tech Edvocate NotesのMatthew Lynch、Universitとして

米国における科学的研究と技術の開発は、おそらく予算削減のために課題に直面する可能性があります。 Natureによると、海外の雇用を申請するアメリカの科学者の数は、2024年の同じ期間と比較して、2025年1月から3月まで32%増加しました。以前の世論調査では、調査した研究者の75%がヨーロッパとカナダでの仕事の検索を検討していることが示されました。 NIHとNSFの助成金は過去数か月で終了し、NIHの新しい助成金は今年約23億ドル減少し、3分の1近く減少しました。リークされた予算の提案は、トランプ政権が科学機関の予算を急激に削減していることを検討しており、最大50%の削減の可能性があることを示しています。 基礎研究の分野での混乱は、米国の主要な利点の1つである海外の才能を引き付けることにも影響を与えています。 35

Openaiは、強力なGPT-4.1シリーズを発表しました。実際のアプリケーション向けに設計された3つの高度な言語モデルのファミリー。 この大幅な飛躍は、より速い応答時間、理解の強化、およびTと比較した大幅に削減されたコストを提供します


ホットAIツール

Undresser.AI Undress
リアルなヌード写真を作成する AI 搭載アプリ

AI Clothes Remover
写真から衣服を削除するオンライン AI ツール。

Undress AI Tool
脱衣画像を無料で

Clothoff.io
AI衣類リムーバー

Video Face Swap
完全無料の AI 顔交換ツールを使用して、あらゆるビデオの顔を簡単に交換できます。

人気の記事

ホットツール

EditPlus 中国語クラック版
サイズが小さく、構文の強調表示、コード プロンプト機能はサポートされていません

MantisBT
Mantis は、製品の欠陥追跡を支援するために設計された、導入が簡単な Web ベースの欠陥追跡ツールです。 PHP、MySQL、Web サーバーが必要です。デモおよびホスティング サービスをチェックしてください。

SAP NetWeaver Server Adapter for Eclipse
Eclipse を SAP NetWeaver アプリケーション サーバーと統合します。

mPDF
mPDF は、UTF-8 でエンコードされた HTML から PDF ファイルを生成できる PHP ライブラリです。オリジナルの作者である Ian Back は、Web サイトから「オンザフライ」で PDF ファイルを出力し、さまざまな言語を処理するために mPDF を作成しました。 HTML2FPDF などのオリジナルのスクリプトよりも遅く、Unicode フォントを使用すると生成されるファイルが大きくなりますが、CSS スタイルなどをサポートし、多くの機能強化が施されています。 RTL (アラビア語とヘブライ語) や CJK (中国語、日本語、韓国語) を含むほぼすべての言語をサポートします。ネストされたブロックレベル要素 (P、DIV など) をサポートします。

MinGW - Minimalist GNU for Windows
このプロジェクトは osdn.net/projects/mingw に移行中です。引き続きそこでフォローしていただけます。 MinGW: GNU Compiler Collection (GCC) のネイティブ Windows ポートであり、ネイティブ Windows アプリケーションを構築するための自由に配布可能なインポート ライブラリとヘッダー ファイルであり、C99 機能をサポートする MSVC ランタイムの拡張機能が含まれています。すべての MinGW ソフトウェアは 64 ビット Windows プラットフォームで実行できます。

ホットトピック









