検索
ホームページテクノロジー周辺機器AIChatGPTを学ぶ、AI絵画に人間のフィードバックを導入するとどうなるか?

最近、ディープ生成モデルはテキスト プロンプトから高品質の画像を生成するという点で目覚ましい成功を収めています。その理由の 1 つは、ディープ生成モデルが LAION などの大規模 Web データセットに拡張されたことです。ただし、大規模なテキストから画像へのモデルがテキスト プロンプトと完全に一致する画像を生成することを妨げる、いくつかの重要な課題が残っています。たとえば、現在のテキストから画像へのモデルは、多くの場合、信頼性の高いビジュアル テキストを生成できず、組み合わせた画像の生成が困難です。

言語モデリングの分野に戻ると、人間のフィードバックから学ぶことは、「モデルの動作を人間の意図に合わせる」ための強力なソリューションになりました。このタイプの方法では、まず、モデル出力に対する人間のフィードバックを通じて、人間がタスクで何を重視しているかを反映するように設計された報酬関数を学習し、次に、強化学習アルゴリズム (近接ポリシー最適化 PPO など) を通じて学習した報酬関数を使用して言語を最適化します。モデル。このヒューマン フィードバック フレームワーク (RLHF) による強化学習は、大規模な言語モデル (GPT-3 など) と高度な人間の品質評価を組み合わせることに成功しました。

最近、言語分野における RLHF の成功に触発されて、Google Research とカリフォルニア州バークレーの研究者は、人間のフィードバックを使用してテキストを画像モデルに合わせる微調整方法を提案しました。 。

ChatGPTを学ぶ、AI絵画に人間のフィードバックを導入するとどうなるか?

論文アドレス: https://arxiv.org/pdf/2302.12192v1.pdf

この記事の方法は次の図 1 に示されており、主に 3 つのステップに分かれています。

ステップ 1: まず、「画像モデル出力に対するテキストの位置合わせをテストするために設計された」一連のテキスト プロンプトからさまざまな画像を生成します。具体的には、事前トレーニング済みモデルのエラーが発生しやすいプロンプトを調べます。つまり、特定の色、番号、背景を持つオブジェクトを生成し、モデルの出力を評価するために使用されるバイナリの人的フィードバックを収集します。

ステップ 2: 人間がラベル付けしたデータセットを使用して、画像とテキストのプロンプトが与えられた場合に人間のフィードバックを予測する報酬関数をトレーニングします。報酬学習のために人間のフィードバックをより効果的に使用するために、摂動されたテキスト プロンプトのセットの中から元のテキスト プロンプトを識別する補助タスクを提案します。この手法により、目に見えない画像やテキスト プロンプトに対する報酬関数の一般化が向上します。

ステップ 3: 報酬重み付け尤度最大化によってテキストから画像へのモデルを更新し、人間のフィードバックとより適切に調整します。最適化に強化学習を使用したこれまでの研究とは異なり、研究者らは半教師あり学習を使用してモデルを更新し、学習された報酬関数であるモデル出力の品質を測定しました。

ChatGPTを学ぶ、AI絵画に人間のフィードバックを導入するとどうなるか?

研究者らは、27,000 個の画像とテキストのペアと人間のフィードバックを使用して安定拡散モデルを微調整しました。その結果は次のとおりです。微調整 後者のモデルでは、特定の色、量、背景を持つオブジェクトの生成が大幅に改善されました。画像の忠実度はわずかに低下しますが、画像とテキストの位置合わせが最大 47% 向上しました。

さらに、結合された生成結果が改善され、目に見えない色、数量、および背景プロンプトの組み合わせを考慮して、目に見えないオブジェクトをより適切に生成できるようになりました。彼らはまた、学習された報酬関数が、テストテキストプロンプトの CLIP スコアよりも人間のアライメント評価とよく一致していることも観察しました。

ただし、この論文の筆頭著者である Kimin Lee 氏は、この論文の結果は既存のテキストから画像へのモデルのすべての失敗モデルを解決したわけではないとも述べています。まだ多くの課題があります。彼らは、この研究が、ヴィンセント グラフ モデルを調整する際に人間のフィードバックから学習できる可能性を浮き彫りにすることを望んでいます。

ChatGPTを学ぶ、AI絵画に人間のフィードバックを導入するとどうなるか?

手法の紹介

生成された画像をテキスト プロンプトと一致させるために、この研究では事前トレーニングされたモデルに対して一連の微調整を実行しました。そのプロセスを図 1 に示します。その上。まず、ビンセンチアン グラフ モデルのさまざまなパフォーマンスをテストするために設計されたプロセスである、一連のテキスト プロンプトから対応する画像が生成されました。次に、人間の評価者がこれらの生成された画像に対してバイナリ フィードバックを提供しました。次に、この研究では、人間のフィードバックを予測するために報酬モデルをトレーニングしました。テキスト プロンプトと画像を入力として使用し、最後に、報酬加重対数尤度を使用してヴィンセント グラフ モデルを微調整し、テキストと画像の位置合わせを改善します。

人間データの収集

ヴィンセント グラフ モデルの機能をテストするために、研究では 3 つのカテゴリのテキストを検討しました。プロンプト: 指定された数、色、背景。この研究では、カテゴリーごとに、緑(色)と犬(量)など、物体を説明する各単語やフレーズを組み合わせてプロンプトを生成しました。さらに、この研究では 3 つのカテゴリーの組み合わせ (たとえば、都市で緑色に染まった 2 匹の犬) も考慮されました。以下の表 1 は、データセットの分類をわかりやすく示しています。各プロンプトは 60 枚の画像を生成するために使用され、モデルは主に Stable Diffusion v1.5 です。

ChatGPTを学ぶ、AI絵画に人間のフィードバックを導入するとどうなるか?

#人間によるフィードバック

次のコメントが生成されました人間のフィードバック用の画像。同じプロンプトによって生成された 3 つの画像がラベラーに提示され、生成された各画像がプロンプトと一致しているかどうか、および評価基準の良し悪しを評価するように求められます。このタスクは比較的単純なので、バイナリ フィードバックで十分です。

報酬学習

画像とテキストの配置をより適切に評価するために、この研究では報酬関数を使用します

測定するには、この関数は画像 x とテキスト プロンプト z の CLIP 埋め込みをスカラー値にマッピングします。次に、人間のフィードバック k_y ∈ {0, 1} (1 = 良い、0 = 悪い) を予測するために使用されます。 ChatGPTを学ぶ、AI絵画に人間のフィードバックを導入するとどうなるか?

#形式的に言えば、人間のフィードバック データセット D^human = {(x, z, y)} を考慮すると、報酬関数は

#平均二乗誤差 (MSE) を最小限に抑えてトレーニングする: ChatGPTを学ぶ、AI絵画に人間のフィードバックを導入するとどうなるか?

ChatGPTを学ぶ、AI絵画に人間のフィードバックを導入するとどうなるか?以前は、研究でした。データ拡張手法がデータ効率とモデル学習パフォーマンスを大幅に向上させることができることを示した研究では、フィードバック データセットを効果的に利用するために、単純なデータ拡張スキームと学習に報酬を与える補助損失を設計しました。この研究では、補助タスクで拡張プロンプトを使用します。つまり、分類報酬学習は元のプロンプトで実行されます。プロンプト分類子は、次のような報酬関数を使用します。

##補助損失は次のとおりです。 ChatGPTを学ぶ、AI絵画に人間のフィードバックを導入するとどうなるか?

##最後のステップは、Vincent 図モデルを更新することです。モデルによって生成されるデータセットの多様性は制限されているため、過剰適合につながる可能性があります。これを軽減するために、この研究では次のようにトレーニング前の損失も最小限に抑えました。

実験結果

実験部分は、モデルの微調整に参加する人間のフィードバックの有効性をテストするように設計されています。実験で使用されたモデルは Stable Diffusion v1.5 です。データ セット情報は表 1 (上記を参照) と表 2 に示されています。表 2 は、複数の人間のラベラーによって提供されたフィードバックの分布を示しています。

ChatGPTを学ぶ、AI絵画に人間のフィードバックを導入するとどうなるか?

テキストと画像の配置に関する人間による評価 (評価指標は色、オブジェクトの数)。図 4 に示すように、私たちの手法は画像とテキストの位置合わせを大幅に改善しました。具体的には、モデルによって生成されたサンプルの 50% が少なくとも 3 分の 2 の賛成票を獲得しました (投票数は 7 票以上でした)。 . 票)、ただし、微調整すると画像の忠実度がわずかに低下します (15% 対 10%)。

ChatGPTを学ぶ、AI絵画に人間のフィードバックを導入するとどうなるか?

# 図 2 は、元のモデルと微調整されたモデルの画像の例を示しています。元のモデルが生成した画像には詳細 (色、背景、数など) が欠けていることがわかります (図 2 (a))。モデルによって生成された画像は、プロンプトで指定された色、数、背景に準拠しています。 。私たちのモデルは、非常に高品質の目に見えないテキスト プロンプト イメージも生成できることは注目に値します (図 2 (b))。

ChatGPTを学ぶ、AI絵画に人間のフィードバックを導入するとどうなるか?

#学習の成果を褒めます。図 3(a) は、表示されたテキスト プロンプトと未表示のテキスト プロンプトにおけるモデルのスコアを示しています。報酬がある (緑) は、CLIP スコア (赤) よりも典型的な人間の意図と一致しています。

ChatGPTを学ぶ、AI絵画に人間のフィードバックを導入するとどうなるか?

以上がChatGPTを学ぶ、AI絵画に人間のフィードバックを導入するとどうなるか?の詳細内容です。詳細については、PHP 中国語 Web サイトの他の関連記事を参照してください。

声明
この記事は51CTO.COMで複製されています。侵害がある場合は、admin@php.cn までご連絡ください。
ほとんどが使用されています10 Power BIチャート - 分析Vidhyaほとんどが使用されています10 Power BIチャート - 分析VidhyaApr 16, 2025 pm 12:05 PM

Microsoft PowerBIチャートでデータ視覚化の力を活用する 今日のデータ駆動型の世界では、複雑な情報を非技術的な視聴者に効果的に伝えることが重要です。 データの視覚化は、このギャップを橋渡しし、生データを変換するi

AIのエキスパートシステムAIのエキスパートシステムApr 16, 2025 pm 12:00 PM

エキスパートシステム:AIの意思決定力に深く飛び込みます 医療診断から財務計画まで、あらゆることに関する専門家のアドバイスにアクセスできることを想像してください。 それが人工知能の専門家システムの力です。 これらのシステムはプロを模倣します

3人の最高の雰囲気コーダーがこのAI革命をコードで分解する3人の最高の雰囲気コーダーがこのAI革命をコードで分解するApr 16, 2025 am 11:58 AM

まず第一に、これがすぐに起こっていることは明らかです。さまざまな企業が、現在AIによって書かれているコードの割合について話しており、これらは迅速なクリップで増加しています。すでに多くの仕事の移動があります

滑走路AIのGen-4:AIモンタージュはどのように不条理を超えることができますか滑走路AIのGen-4:AIモンタージュはどのように不条理を超えることができますかApr 16, 2025 am 11:45 AM

映画業界は、デジタルマーケティングからソーシャルメディアまで、すべてのクリエイティブセクターとともに、技術的な岐路に立っています。人工知能が視覚的なストーリーテリングのあらゆる側面を再構築し始め、エンターテイメントの風景を変え始めたとき

5日間のISRO AI無料コースを登録する方法は? - 分析Vidhya5日間のISRO AI無料コースを登録する方法は? - 分析VidhyaApr 16, 2025 am 11:43 AM

ISROの無料AI/MLオンラインコース:地理空間技術の革新へのゲートウェイ インド宇宙研究機関(ISRO)は、インドのリモートセンシング研究所(IIRS)を通じて、学生と専門家に素晴らしい機会を提供しています。

AIのローカル検索アルゴリズムAIのローカル検索アルゴリズムApr 16, 2025 am 11:40 AM

ローカル検索アルゴリズム:包括的なガイド 大規模なイベントを計画するには、効率的なワークロード分布が必要です。 従来のアプローチが失敗すると、ローカル検索アルゴリズムは強力なソリューションを提供します。 この記事では、Hill ClimbingとSimulについて説明します

OpenaiはGPT-4.1でフォーカスをシフトし、コーディングとコスト効率を優先しますOpenaiはGPT-4.1でフォーカスをシフトし、コーディングとコスト効率を優先しますApr 16, 2025 am 11:37 AM

このリリースには、GPT-4.1、GPT-4.1 MINI、およびGPT-4.1 NANOの3つの異なるモデルが含まれており、大規模な言語モデルのランドスケープ内のタスク固有の最適化への動きを示しています。これらのモデルは、ようなユーザー向けインターフェイスをすぐに置き換えません

プロンプト:ChatGptは偽のパスポートを生成しますプロンプト:ChatGptは偽のパスポートを生成しますApr 16, 2025 am 11:35 AM

Chip Giant Nvidiaは、月曜日に、AI Supercomputersの製造を開始すると述べました。これは、大量のデータを処理して複雑なアルゴリズムを実行できるマシンを初めて初めて米国内で実行します。発表は、トランプSI大統領の後に行われます

See all articles

ホットAIツール

Undresser.AI Undress

Undresser.AI Undress

リアルなヌード写真を作成する AI 搭載アプリ

AI Clothes Remover

AI Clothes Remover

写真から衣服を削除するオンライン AI ツール。

Undress AI Tool

Undress AI Tool

脱衣画像を無料で

Clothoff.io

Clothoff.io

AI衣類リムーバー

AI Hentai Generator

AI Hentai Generator

AIヘンタイを無料で生成します。

ホットツール

MantisBT

MantisBT

Mantis は、製品の欠陥追跡を支援するために設計された、導入が簡単な Web ベースの欠陥追跡ツールです。 PHP、MySQL、Web サーバーが必要です。デモおよびホスティング サービスをチェックしてください。

SAP NetWeaver Server Adapter for Eclipse

SAP NetWeaver Server Adapter for Eclipse

Eclipse を SAP NetWeaver アプリケーション サーバーと統合します。

VSCode Windows 64 ビットのダウンロード

VSCode Windows 64 ビットのダウンロード

Microsoft によって発売された無料で強力な IDE エディター

SublimeText3 英語版

SublimeText3 英語版

推奨: Win バージョン、コードプロンプトをサポート!

ZendStudio 13.5.1 Mac

ZendStudio 13.5.1 Mac

強力な PHP 統合開発環境