ホームページ > 記事 > テクノロジー周辺機器 > ChatGPTを学ぶ、AI絵画に人間のフィードバックを導入するとどうなるか?
最近、ディープ生成モデルはテキスト プロンプトから高品質の画像を生成するという点で目覚ましい成功を収めています。その理由の 1 つは、ディープ生成モデルが LAION などの大規模 Web データセットに拡張されたことです。ただし、大規模なテキストから画像へのモデルがテキスト プロンプトと完全に一致する画像を生成することを妨げる、いくつかの重要な課題が残っています。たとえば、現在のテキストから画像へのモデルは、多くの場合、信頼性の高いビジュアル テキストを生成できず、組み合わせた画像の生成が困難です。
言語モデリングの分野に戻ると、人間のフィードバックから学ぶことは、「モデルの動作を人間の意図に合わせる」ための強力なソリューションになりました。このタイプの方法では、まず、モデル出力に対する人間のフィードバックを通じて、人間がタスクで何を重視しているかを反映するように設計された報酬関数を学習し、次に、強化学習アルゴリズム (近接ポリシー最適化 PPO など) を通じて学習した報酬関数を使用して言語を最適化します。モデル。このヒューマン フィードバック フレームワーク (RLHF) による強化学習は、大規模な言語モデル (GPT-3 など) と高度な人間の品質評価を組み合わせることに成功しました。
最近、言語分野における RLHF の成功に触発されて、Google Research とカリフォルニア州バークレーの研究者は、人間のフィードバックを使用してテキストを画像モデルに合わせる微調整方法を提案しました。 。
論文アドレス: https://arxiv.org/pdf/2302.12192v1.pdf
この記事の方法は次の図 1 に示されており、主に 3 つのステップに分かれています。
ステップ 1: まず、「画像モデル出力に対するテキストの位置合わせをテストするために設計された」一連のテキスト プロンプトからさまざまな画像を生成します。具体的には、事前トレーニング済みモデルのエラーが発生しやすいプロンプトを調べます。つまり、特定の色、番号、背景を持つオブジェクトを生成し、モデルの出力を評価するために使用されるバイナリの人的フィードバックを収集します。
ステップ 2: 人間がラベル付けしたデータセットを使用して、画像とテキストのプロンプトが与えられた場合に人間のフィードバックを予測する報酬関数をトレーニングします。報酬学習のために人間のフィードバックをより効果的に使用するために、摂動されたテキスト プロンプトのセットの中から元のテキスト プロンプトを識別する補助タスクを提案します。この手法により、目に見えない画像やテキスト プロンプトに対する報酬関数の一般化が向上します。
ステップ 3: 報酬重み付け尤度最大化によってテキストから画像へのモデルを更新し、人間のフィードバックとより適切に調整します。最適化に強化学習を使用したこれまでの研究とは異なり、研究者らは半教師あり学習を使用してモデルを更新し、学習された報酬関数であるモデル出力の品質を測定しました。
研究者らは、27,000 個の画像とテキストのペアと人間のフィードバックを使用して安定拡散モデルを微調整しました。その結果は次のとおりです。微調整 後者のモデルでは、特定の色、量、背景を持つオブジェクトの生成が大幅に改善されました。画像の忠実度はわずかに低下しますが、画像とテキストの位置合わせが最大 47% 向上しました。
さらに、結合された生成結果が改善され、目に見えない色、数量、および背景プロンプトの組み合わせを考慮して、目に見えないオブジェクトをより適切に生成できるようになりました。彼らはまた、学習された報酬関数が、テストテキストプロンプトの CLIP スコアよりも人間のアライメント評価とよく一致していることも観察しました。
ただし、この論文の筆頭著者である Kimin Lee 氏は、この論文の結果は既存のテキストから画像へのモデルのすべての失敗モデルを解決したわけではないとも述べています。まだ多くの課題があります。彼らは、この研究が、ヴィンセント グラフ モデルを調整する際に人間のフィードバックから学習できる可能性を浮き彫りにすることを望んでいます。
生成された画像をテキスト プロンプトと一致させるために、この研究では事前トレーニングされたモデルに対して一連の微調整を実行しました。そのプロセスを図 1 に示します。その上。まず、ビンセンチアン グラフ モデルのさまざまなパフォーマンスをテストするために設計されたプロセスである、一連のテキスト プロンプトから対応する画像が生成されました。次に、人間の評価者がこれらの生成された画像に対してバイナリ フィードバックを提供しました。次に、この研究では、人間のフィードバックを予測するために報酬モデルをトレーニングしました。テキスト プロンプトと画像を入力として使用し、最後に、報酬加重対数尤度を使用してヴィンセント グラフ モデルを微調整し、テキストと画像の位置合わせを改善します。
人間データの収集
ヴィンセント グラフ モデルの機能をテストするために、研究では 3 つのカテゴリのテキストを検討しました。プロンプト: 指定された数、色、背景。この研究では、カテゴリーごとに、緑(色)と犬(量)など、物体を説明する各単語やフレーズを組み合わせてプロンプトを生成しました。さらに、この研究では 3 つのカテゴリーの組み合わせ (たとえば、都市で緑色に染まった 2 匹の犬) も考慮されました。以下の表 1 は、データセットの分類をわかりやすく示しています。各プロンプトは 60 枚の画像を生成するために使用され、モデルは主に Stable Diffusion v1.5 です。
#人間によるフィードバック
次のコメントが生成されました人間のフィードバック用の画像。同じプロンプトによって生成された 3 つの画像がラベラーに提示され、生成された各画像がプロンプトと一致しているかどうか、および評価基準の良し悪しを評価するように求められます。このタスクは比較的単純なので、バイナリ フィードバックで十分です。
報酬学習
画像とテキストの配置をより適切に評価するために、この研究では報酬関数を使用します
測定するには、この関数は画像 x とテキスト プロンプト z の CLIP 埋め込みをスカラー値にマッピングします。次に、人間のフィードバック k_y ∈ {0, 1} (1 = 良い、0 = 悪い) を予測するために使用されます。
#形式的に言えば、人間のフィードバック データセット D^human = {(x, z, y)} を考慮すると、報酬関数は#平均二乗誤差 (MSE) を最小限に抑えてトレーニングする:
以前は、研究でした。データ拡張手法がデータ効率とモデル学習パフォーマンスを大幅に向上させることができることを示した研究では、フィードバック データセットを効果的に利用するために、単純なデータ拡張スキームと学習に報酬を与える補助損失を設計しました。この研究では、補助タスクで拡張プロンプトを使用します。つまり、分類報酬学習は元のプロンプトで実行されます。プロンプト分類子は、次のような報酬関数を使用します。
##補助損失は次のとおりです。
##最後のステップは、Vincent 図モデルを更新することです。モデルによって生成されるデータセットの多様性は制限されているため、過剰適合につながる可能性があります。これを軽減するために、この研究では次のようにトレーニング前の損失も最小限に抑えました。
実験部分は、モデルの微調整に参加する人間のフィードバックの有効性をテストするように設計されています。実験で使用されたモデルは Stable Diffusion v1.5 です。データ セット情報は表 1 (上記を参照) と表 2 に示されています。表 2 は、複数の人間のラベラーによって提供されたフィードバックの分布を示しています。
テキストと画像の配置に関する人間による評価 (評価指標は色、オブジェクトの数)。図 4 に示すように、私たちの手法は画像とテキストの位置合わせを大幅に改善しました。具体的には、モデルによって生成されたサンプルの 50% が少なくとも 3 分の 2 の賛成票を獲得しました (投票数は 7 票以上でした)。 . 票)、ただし、微調整すると画像の忠実度がわずかに低下します (15% 対 10%)。
# 図 2 は、元のモデルと微調整されたモデルの画像の例を示しています。元のモデルが生成した画像には詳細 (色、背景、数など) が欠けていることがわかります (図 2 (a))。モデルによって生成された画像は、プロンプトで指定された色、数、背景に準拠しています。 。私たちのモデルは、非常に高品質の目に見えないテキスト プロンプト イメージも生成できることは注目に値します (図 2 (b))。
#学習の成果を褒めます。図 3(a) は、表示されたテキスト プロンプトと未表示のテキスト プロンプトにおけるモデルのスコアを示しています。報酬がある (緑) は、CLIP スコア (赤) よりも典型的な人間の意図と一致しています。
以上がChatGPTを学ぶ、AI絵画に人間のフィードバックを導入するとどうなるか?の詳細内容です。詳細については、PHP 中国語 Web サイトの他の関連記事を参照してください。