ホームページ  >  記事  >  テクノロジー周辺機器  >  PromptPG: 強化学習が大規模言語モデルと出会うとき

PromptPG: 強化学習が大規模言語モデルと出会うとき

王林
王林転載
2023-04-07 14:51:031182ブラウズ

数学的推論は人間の知性の中核となる能力ですが、抽象的思考と論理的推論は依然として機械にとって大きな課題です。 GPT-3 や GPT-4 などの大規模な事前トレーニング済み言語モデルは、テキストベースの数学的推論 (数学的な文章題など) において大幅な進歩を遂げました。ただし、これらのモデルが表形式データなどの異種情報を含むより複雑な問題を処理できるかどうかは現時点では不明です。このギャップを埋めるために、UCLA とアレン人工知能研究所 (AI2) の研究者は、表形式の数学単語問題 (TabMWP) を立ち上げました。これは、テキストと表形式データに対する数学的推論の両方を必要とする 38,431 のオープンドメイン問題のデータセットであり、正しい問題を導き出す必要があります。答え。 TabMWP の各質問は、構造化された形式の画像、テキスト、または表を含むコンテキストに関連付けられています。

研究者は、Few-shot GPT-3 を含む、TabMWP 上のさまざまな事前トレーニング済みモデルを評価しました。既存の研究でわかっているように、Few-shot GPT-3 はコンテキスト内のサンプルの選択に大きく依存しているため、サンプルがランダムに選択されるとパフォーマンスが非常に不安定になります。 TabMWP のような複雑な推論問題を扱う場合、この不安定性はさらに深刻になります。この問題を解決するために、著者は PromptPG 法を提案しました。これは、例の選択を強化学習におけるコンテキスト バンディット問題に変換し、ポリシー勾配を使用してポリシー ネットワークをトレーニングし、少量のサンプルから最適なものを選択することを学習します。トレーニング データ - コンテキストの例。実験結果は、彼らが提案した PromptPG メソッドが質問への回答において最適なベースライン (少数ショット CoT GPT-3) を 5.31% 上回っており、コンテキスト内でランダムに選択された例と比較して、彼らのメソッドが問題を大幅に軽減していることを示しています。このタイプのメソッドの安定性。

PromptPG: 強化学習が大規模言語モデルと出会うとき


  • 紙のリンク: https://arxiv.org/abs/2209.14610
  • # コードリンク: https://github.com/lupantech/PromptPG
  • プロジェクトホームページ: https://promptpg.github.io
  • データ視覚化: https://promptpg.github.io/explore
  • #1. TabMWP データ セット

##TabMWP データ セットの 2 つの例を以下に示します。 1 つは数値で回答できる自由記述の質問で、もう 1 つはテキストで回答する多肢選択の質問です。ご覧のとおり、各質問には段階的な推論を含む解決策が示されています。 TabMWP の問題を解決するには、システムがテーブル検索と複数ステップの数学的推論の両方に対応できる必要があります。下の写真の例で、「(トレイシーが 3 種類のパンを買う場合) 彼女はいくら使うでしょう」と答えるには、まずテーブル内の 3 種類のパンの対応する価格を見つけてから、コストを計算する必要があります。それぞれの種類のパンを購入する際のコストを計算し、それらを合計して最終的なコストを計算します。

PromptPG: 強化学習が大規模言語モデルと出会うとき以下の表の統計に示されているように、TabMWP データ セットには 38,431 個の表形式の数学の問題が含まれています。質問の 74.7% は自由記述質問、25.3% は選択式質問でした。 TabMWP には、合計 28,876 個の固有の質問、6,153 個の固有の回答、および 35,442 個の固有の解決策があり、質問の分布が多様性に富んでいることがわかります。質問の平均長は 22.1 ワード、回答の平均長は 49.5 ワードで、TabMWP の語彙の豊富さを示しています。 TabMWP の際立った特徴は、各問題にはテーブル コンテキストが伴い、テーブル コンテキストなしでは問題を解決できないことです。 TabMWP には合計 37,644 の異なるテーブルがあり、テーブルの平均サイズは 5.9 行と 2.2 列、12.9 セル、最大 54 セルです。これらの統計は、TabMWP のテーブルも多様性に富んでいることを示しています。

#TabMWP データセットには、2 つの異なる質問タイプと 5 つの異なる回答タイプがあります。 PromptPG: 強化学習が大規模言語モデルと出会うとき

TabMWP のすべての質問には表形式のコンテキストがあり、画像、半構造化テキスト、構造化という 3 つの形式で表されます。これにより、さまざまなタイプの推論モデルを開発する可能性が開かれます。

PromptPG: 強化学習が大規模言語モデルと出会うとき

既存のデータ セットと比較して、TabMWP では、質問に答えるためにテーブルの理解と数学的推論の両方の能力が必要です。さらに、TabMWP には各質問に対して詳細な複数ステップの推論プロセスがあり、データ セットのサイズ、テーブルの種類、質問の種類、回答の種類において明らかな利点があります。この論文の知る限りでは、TabMWP はオープンドメインの表形式シナリオにおける最初の数学的推論データセットです。

PromptPG: 強化学習が大規模言語モデルと出会うとき

2. PromptPG 法

GPT-3 などの大規模な事前学習済みモデルの数学的解決における成果の検討アプリケーションの問題 著者らはまず、少数ショット GPT-3 を使用して TabMWP のベンチマークを確立することに成功しました。彼らは、トレーニング セットおよびテスト例からいくつかの文脈上の例をランダムに選択して、GPT-3 に答えを予測するプロンプトを形成します。ただし、最近の研究では、ランダム選択に基づくこの種の少数ショット学習は、さまざまな状況に応じた例の選択では非常に不安定になる可能性があることが示されています。さまざまなタイプや形式のテーブルが関与する TabMWP のような複雑な推論問題を扱う場合、ランダム選択はさらに効果が低くなる可能性があります。

この問題を解決するために、著者は改良された方法を提案しました: ポリシー勾配による学習を促進し、少量のトレーニング データから状況に応じた例を選択することを学習します。 、PromptPG を呼び出しました。図 2 に示すように、ポリシー ネットワークは、コンテキスト内で最適なサンプルを候補プール (候補サンプル) から見つけることを学習します。その最適化の目標は、GPT と対話するときに特定のトレーニング サンプル (トレーニング サンプル) の予測を最大化することです。 -3 環境賞。例を選択するためのポリシー ネットワークは、固定パラメーターと学習可能なパラメーターを備えた単層ニューラル ネットワークに基づく BERT 言語モデルです。最適化学習が完了すると、PromptPG はさまざまなテスト問題の候補例からさまざまな最適例を動的に選択し、GPT-3 の推論パフォーマンスを最大化できます。

PromptPG: 強化学習が大規模言語モデルと出会うとき

#PromptPG の学習アルゴリズムは次のとおりです。

PromptPG: 強化学習が大規模言語モデルと出会うとき

3. 実験と分析

PromptPG: 強化学習が大規模言語モデルと出会うとき

事前トレーニングと微調整チューニング

表 3 は、PromptPG の結果と TabMWP データ セットのさまざまなベンチマークを比較しています。 TAPEX は、同様のパラメーター量を使用した表形式のデータで事前トレーニングを行っているため、UnifiedQA よりも優れたパフォーマンスを示していることがわかります。 TAPEX と UnifiedQA の両方で、モデル内のパラメーターの数を増やすと、予測の精度が向上します。さらに、TabMWP でモデルを微調整することで、予測の精度を大幅に向上させることもできます。

大規模言語モデル

微調整なしの GPT-3 (ゼロショット GPT-3) )、微調整された UnifiedQA および TAPEX モデルと同様の精度を達成できます。フューショット GPT-3 モデルが GPT-3 ヒントとしてコンテキスト内の 2 つの例をランダムに選択すると、ゼロショット GPT-3 と比較してさらに 0.17% 向上する可能性があります。最終的な答え (Few-shot-CoT GPT-3) を生成する前に、Few-shot GPT-3 に複数の中間ステップを生成させることで、研究者らは 62.92% の精度で最適なベースライン モデルを取得することができました。

プロンプトPG

この記事で提案されている PromptPG は、コンテキスト内のサンプルをランダムに選択するのとは異なり、Policy Gradient を通じてポリシー ネットワークをトレーニングして、より適切なコンテキスト内のサンプルを選択し、TabMWP で最高の予測結果 (68.23%) を達成しました。その平均予測精度は、最良のベースライン モデル (Few-shot-CoT GPT-3) を 5.31% 上回っています。特に、PromptPG は、ほぼすべての質問タイプ、回答タイプ、および質問の難易度において予測精度の優位性を示しています。それにもかかわらず、PromptPG には人間のパフォーマンスの 90.22% から改善の余地がまだたくさんあります。

アブレーション実験

PromptPG: 強化学習が大規模言語モデルと出会うとき

表 4 は、TabMWP のすべての入力要素を示しています。 (質問テキスト、フォーム情報、オプション情報) はすべて、質問に正しく答えるために重要です。すべての問題要素を入力情報として使用した場合のみ、Zero-shot GPT-3 は比較的高い平均予測精度 (59.50%) を達成しました。

異なるサンプルの選択

PromptPG: 強化学習が大規模言語モデルと出会うとき

研究者らは、比較実験として、次のことを行いました。異なるサンプルを選択した他の方法を比較しました。表 5 に示すように、テスト質問と同じ質問タイプまたは回答タイプを選択すると、モデルがより関連性の高い例を見つけやすくなり、回答の精度が向上します。最も複雑な例を選択しても、回答の精度が一貫して向上するわけではありません。候補例の中から 2 つの最良の例を固定的に選択すると、精度がわずかに向上し、分散が減少します。意味的にテスト問題に最も近い例を選択すると、PromptPG メソッドに最も近い精度が得られます。全体として、PromptPG は、予測精度の向上と予測の差異の削減における利点を十分に実証しました。

次の図は、PromptPG の選択と最終的な予測結果の例を示しています。 PromptPG メソッドは、テスト問題と同様の数学的能力を持つ例を選択することにより、Few-shot GPT-3 の推論パフォーマンスを向上させることができることがわかります。

PromptPG: 強化学習が大規模言語モデルと出会うとき

#成功した予測の例

以下は、無料の PromptPG を示しています。テキストの質問に対する正しい答え。この質問では、表内の 8 つの数値を加算および除算して平均を求める必要があります。

PromptPG: 強化学習が大規模言語モデルと出会うとき

次の例では、モデルは税務申告書を理解し、税控除後の給与を計算するように求められます。

PromptPG: 強化学習が大規模言語モデルと出会うとき

以下は、多肢選択問題に対する PromptPG の正しい予測を示しています。指定されたテーブルには合計 9 行と 6 列があります。モデルはテーブル内のターゲット セルを正常に特定し、複数ステップの推論を実行して正解を予測します。

PromptPG: 強化学習が大規模言語モデルと出会うとき

次の例では、モデルは予算と総コストを比較して、Ariana に十分な資金があるかどうかを確認する必要があります。

PromptPG: 強化学習が大規模言語モデルと出会うとき

#予測失敗の例

以下はフリーテキスト用の PromptPG を示しています問題の予測の誤り。モデルはローズ クオーツの間違った価格を取得したため、3 つの品目の合計コストが誤って計算されました。

PromptPG: 強化学習が大規模言語モデルと出会うとき

次の例では、質問は抽象的な幹と葉のテーブルを提供します。モデルはこのドメイン固有のテーブルを理解できず、間違った答えを導き出すための高度な論理的推論機能が不足していました。

PromptPG: 強化学習が大規模言語モデルと出会うとき

#次の例は、既存のモデルには数値を並べ替える機能がないようであることを示しています。

PromptPG: 強化学習が大規模言語モデルと出会うとき

次の例では、質問に記載されている現在時刻と正確に一致する時刻がテーブルに表示されないため、モデルは正確に一致することができません。次回の時刻を検索する 1 つの停留所の出発時刻。

PromptPG: 強化学習が大規模言語モデルと出会うとき

#次の例では、モデルが長い一連の数値の算術演算を正確に完了することが困難です。

PromptPG: 強化学習が大規模言語モデルと出会うとき

#4. 結論と展望

著者は、表形式のコンテキストでの最初の数学的問題解決である TabMWP を提案しました。 -スケールデータセット。 TabMWP には、2 つの質問タイプと 5 つの回答タイプを含む 38,431 のオープンドメインの質問が含まれており、各質問には複数ステップの解決プロセスがマークされています。著者らは、最先端の QA および TableQA 手法を使用し、事前トレーニングおよび微調整された設定で TabMWP に関する包括的な実験を実施し、事前トレーニングされた大規模な言語モデル GPT-3 を使用して評価しました。著者はさらに、新しい強化学習手法 PromptPG を提案します。これは、ポリシー勾配学習を使用して、GPT-3 モデルをプロンプトするためのトレーニング データから最適なインスタンスを選択します。実験結果は、PromptPG が既存のベースラインを大幅に上回り、ランダム選択と比較して予測におけるパフォーマンスの不安定性を軽減することを示しています。

以上がPromptPG: 強化学習が大規模言語モデルと出会うときの詳細内容です。詳細については、PHP 中国語 Web サイトの他の関連記事を参照してください。

声明:
この記事は51cto.comで複製されています。侵害がある場合は、admin@php.cn までご連絡ください。