検索
ホームページテクノロジー周辺機器AIPromptPG: 強化学習が大規模言語モデルと出会うとき

数学的推論は人間の知性の中核となる能力ですが、抽象的思考と論理的推論は依然として機械にとって大きな課題です。 GPT-3 や GPT-4 などの大規模な事前トレーニング済み言語モデルは、テキストベースの数学的推論 (数学的な文章題など) において大幅な進歩を遂げました。ただし、これらのモデルが表形式データなどの異種情報を含むより複雑な問題を処理できるかどうかは現時点では不明です。このギャップを埋めるために、UCLA とアレン人工知能研究所 (AI2) の研究者は、表形式の数学単語問題 (TabMWP) を立ち上げました。これは、テキストと表形式データに対する数学的推論の両方を必要とする 38,431 のオープンドメイン問題のデータセットであり、正しい問題を導き出す必要があります。答え。 TabMWP の各質問は、構造化された形式の画像、テキスト、または表を含むコンテキストに関連付けられています。

研究者は、Few-shot GPT-3 を含む、TabMWP 上のさまざまな事前トレーニング済みモデルを評価しました。既存の研究でわかっているように、Few-shot GPT-3 はコンテキスト内のサンプルの選択に大きく依存しているため、サンプルがランダムに選択されるとパフォーマンスが非常に不安定になります。 TabMWP のような複雑な推論問題を扱う場合、この不安定性はさらに深刻になります。この問題を解決するために、著者は PromptPG 法を提案しました。これは、例の選択を強化学習におけるコンテキスト バンディット問題に変換し、ポリシー勾配を使用してポリシー ネットワークをトレーニングし、少量のサンプルから最適なものを選択することを学習します。トレーニング データ - コンテキストの例。実験結果は、彼らが提案した PromptPG メソッドが質問への回答において最適なベースライン (少数ショット CoT GPT-3) を 5.31% 上回っており、コンテキスト内でランダムに選択された例と比較して、彼らのメソッドが問題を大幅に軽減していることを示しています。このタイプのメソッドの安定性。

PromptPG: 強化学習が大規模言語モデルと出会うとき


  • 紙のリンク: https://arxiv.org/abs/2209.14610
  • # コードリンク: https://github.com/lupantech/PromptPG
  • プロジェクトホームページ: https://promptpg.github.io
  • データ視覚化: https://promptpg.github.io/explore
  • #1. TabMWP データ セット

##TabMWP データ セットの 2 つの例を以下に示します。 1 つは数値で回答できる自由記述の質問で、もう 1 つはテキストで回答する多肢選択の質問です。ご覧のとおり、各質問には段階的な推論を含む解決策が示されています。 TabMWP の問題を解決するには、システムがテーブル検索と複数ステップの数学的推論の両方に対応できる必要があります。下の写真の例で、「(トレイシーが 3 種類のパンを買う場合) 彼女はいくら使うでしょう」と答えるには、まずテーブル内の 3 種類のパンの対応する価格を見つけてから、コストを計算する必要があります。それぞれの種類のパンを購入する際のコストを計算し、それらを合計して最終的なコストを計算します。

PromptPG: 強化学習が大規模言語モデルと出会うとき以下の表の統計に示されているように、TabMWP データ セットには 38,431 個の表形式の数学の問題が含まれています。質問の 74.7% は自由記述質問、25.3% は選択式質問でした。 TabMWP には、合計 28,876 個の固有の質問、6,153 個の固有の回答、および 35,442 個の固有の解決策があり、質問の分布が多様性に富んでいることがわかります。質問の平均長は 22.1 ワード、回答の平均長は 49.5 ワードで、TabMWP の語彙の豊富さを示しています。 TabMWP の際立った特徴は、各問題にはテーブル コンテキストが伴い、テーブル コンテキストなしでは問題を解決できないことです。 TabMWP には合計 37,644 の異なるテーブルがあり、テーブルの平均サイズは 5.9 行と 2.2 列、12.9 セル、最大 54 セルです。これらの統計は、TabMWP のテーブルも多様性に富んでいることを示しています。

#TabMWP データセットには、2 つの異なる質問タイプと 5 つの異なる回答タイプがあります。 PromptPG: 強化学習が大規模言語モデルと出会うとき

TabMWP のすべての質問には表形式のコンテキストがあり、画像、半構造化テキスト、構造化という 3 つの形式で表されます。これにより、さまざまなタイプの推論モデルを開発する可能性が開かれます。

PromptPG: 強化学習が大規模言語モデルと出会うとき

既存のデータ セットと比較して、TabMWP では、質問に答えるためにテーブルの理解と数学的推論の両方の能力が必要です。さらに、TabMWP には各質問に対して詳細な複数ステップの推論プロセスがあり、データ セットのサイズ、テーブルの種類、質問の種類、回答の種類において明らかな利点があります。この論文の知る限りでは、TabMWP はオープンドメインの表形式シナリオにおける最初の数学的推論データセットです。

PromptPG: 強化学習が大規模言語モデルと出会うとき

2. PromptPG 法

GPT-3 などの大規模な事前学習済みモデルの数学的解決における成果の検討アプリケーションの問題 著者らはまず、少数ショット GPT-3 を使用して TabMWP のベンチマークを確立することに成功しました。彼らは、トレーニング セットおよびテスト例からいくつかの文脈上の例をランダムに選択して、GPT-3 に答えを予測するプロンプトを形成します。ただし、最近の研究では、ランダム選択に基づくこの種の少数ショット学習は、さまざまな状況に応じた例の選択では非常に不安定になる可能性があることが示されています。さまざまなタイプや形式のテーブルが関与する TabMWP のような複雑な推論問題を扱う場合、ランダム選択はさらに効果が低くなる可能性があります。

この問題を解決するために、著者は改良された方法を提案しました: ポリシー勾配による学習を促進し、少量のトレーニング データから状況に応じた例を選択することを学習します。 、PromptPG を呼び出しました。図 2 に示すように、ポリシー ネットワークは、コンテキスト内で最適なサンプルを候補プール (候補サンプル) から見つけることを学習します。その最適化の目標は、GPT と対話するときに特定のトレーニング サンプル (トレーニング サンプル) の予測を最大化することです。 -3 環境賞。例を選択するためのポリシー ネットワークは、固定パラメーターと学習可能なパラメーターを備えた単層ニューラル ネットワークに基づく BERT 言語モデルです。最適化学習が完了すると、PromptPG はさまざまなテスト問題の候補例からさまざまな最適例を動的に選択し、GPT-3 の推論パフォーマンスを最大化できます。

PromptPG: 強化学習が大規模言語モデルと出会うとき

#PromptPG の学習アルゴリズムは次のとおりです。

PromptPG: 強化学習が大規模言語モデルと出会うとき

3. 実験と分析

PromptPG: 強化学習が大規模言語モデルと出会うとき

事前トレーニングと微調整チューニング

表 3 は、PromptPG の結果と TabMWP データ セットのさまざまなベンチマークを比較しています。 TAPEX は、同様のパラメーター量を使用した表形式のデータで事前トレーニングを行っているため、UnifiedQA よりも優れたパフォーマンスを示していることがわかります。 TAPEX と UnifiedQA の両方で、モデル内のパラメーターの数を増やすと、予測の精度が向上します。さらに、TabMWP でモデルを微調整することで、予測の精度を大幅に向上させることもできます。

大規模言語モデル

微調整なしの GPT-3 (ゼロショット GPT-3) )、微調整された UnifiedQA および TAPEX モデルと同様の精度を達成できます。フューショット GPT-3 モデルが GPT-3 ヒントとしてコンテキスト内の 2 つの例をランダムに選択すると、ゼロショット GPT-3 と比較してさらに 0.17% 向上する可能性があります。最終的な答え (Few-shot-CoT GPT-3) を生成する前に、Few-shot GPT-3 に複数の中間ステップを生成させることで、研究者らは 62.92% の精度で最適なベースライン モデルを取得することができました。

プロンプトPG

この記事で提案されている PromptPG は、コンテキスト内のサンプルをランダムに選択するのとは異なり、Policy Gradient を通じてポリシー ネットワークをトレーニングして、より適切なコンテキスト内のサンプルを選択し、TabMWP で最高の予測結果 (68.23%) を達成しました。その平均予測精度は、最良のベースライン モデル (Few-shot-CoT GPT-3) を 5.31% 上回っています。特に、PromptPG は、ほぼすべての質問タイプ、回答タイプ、および質問の難易度において予測精度の優位性を示しています。それにもかかわらず、PromptPG には人間のパフォーマンスの 90.22% から改善の余地がまだたくさんあります。

アブレーション実験

PromptPG: 強化学習が大規模言語モデルと出会うとき

表 4 は、TabMWP のすべての入力要素を示しています。 (質問テキスト、フォーム情報、オプション情報) はすべて、質問に正しく答えるために重要です。すべての問題要素を入力情報として使用した場合のみ、Zero-shot GPT-3 は比較的高い平均予測精度 (59.50%) を達成しました。

異なるサンプルの選択

PromptPG: 強化学習が大規模言語モデルと出会うとき

研究者らは、比較実験として、次のことを行いました。異なるサンプルを選択した他の方法を比較しました。表 5 に示すように、テスト質問と同じ質問タイプまたは回答タイプを選択すると、モデルがより関連性の高い例を見つけやすくなり、回答の精度が向上します。最も複雑な例を選択しても、回答の精度が一貫して向上するわけではありません。候補例の中から 2 つの最良の例を固定的に選択すると、精度がわずかに向上し、分散が減少します。意味的にテスト問題に最も近い例を選択すると、PromptPG メソッドに最も近い精度が得られます。全体として、PromptPG は、予測精度の向上と予測の差異の削減における利点を十分に実証しました。

次の図は、PromptPG の選択と最終的な予測結果の例を示しています。 PromptPG メソッドは、テスト問題と同様の数学的能力を持つ例を選択することにより、Few-shot GPT-3 の推論パフォーマンスを向上させることができることがわかります。

PromptPG: 強化学習が大規模言語モデルと出会うとき

#成功した予測の例

以下は、無料の PromptPG を示しています。テキストの質問に対する正しい答え。この質問では、表内の 8 つの数値を加算および除算して平均を求める必要があります。

PromptPG: 強化学習が大規模言語モデルと出会うとき

次の例では、モデルは税務申告書を理解し、税控除後の給与を計算するように求められます。

PromptPG: 強化学習が大規模言語モデルと出会うとき

以下は、多肢選択問題に対する PromptPG の正しい予測を示しています。指定されたテーブルには合計 9 行と 6 列があります。モデルはテーブル内のターゲット セルを正常に特定し、複数ステップの推論を実行して正解を予測します。

PromptPG: 強化学習が大規模言語モデルと出会うとき

次の例では、モデルは予算と総コストを比較して、Ariana に十分な資金があるかどうかを確認する必要があります。

PromptPG: 強化学習が大規模言語モデルと出会うとき

#予測失敗の例

以下はフリーテキスト用の PromptPG を示しています問題の予測の誤り。モデルはローズ クオーツの間違った価格を取得したため、3 つの品目の合計コストが誤って計算されました。

PromptPG: 強化学習が大規模言語モデルと出会うとき

次の例では、質問は抽象的な幹と葉のテーブルを提供します。モデルはこのドメイン固有のテーブルを理解できず、間違った答えを導き出すための高度な論理的推論機能が不足していました。

PromptPG: 強化学習が大規模言語モデルと出会うとき

#次の例は、既存のモデルには数値を並べ替える機能がないようであることを示しています。

PromptPG: 強化学習が大規模言語モデルと出会うとき

次の例では、質問に記載されている現在時刻と正確に一致する時刻がテーブルに表示されないため、モデルは正確に一致することができません。次回の時刻を検索する 1 つの停留所の出発時刻。

PromptPG: 強化学習が大規模言語モデルと出会うとき

#次の例では、モデルが長い一連の数値の算術演算を正確に完了することが困難です。

PromptPG: 強化学習が大規模言語モデルと出会うとき

#4. 結論と展望

著者は、表形式のコンテキストでの最初の数学的問題解決である TabMWP を提案しました。 -スケールデータセット。 TabMWP には、2 つの質問タイプと 5 つの回答タイプを含む 38,431 のオープンドメインの質問が含まれており、各質問には複数ステップの解決プロセスがマークされています。著者らは、最先端の QA および TableQA 手法を使用し、事前トレーニングおよび微調整された設定で TabMWP に関する包括的な実験を実施し、事前トレーニングされた大規模な言語モデル GPT-3 を使用して評価しました。著者はさらに、新しい強化学習手法 PromptPG を提案します。これは、ポリシー勾配学習を使用して、GPT-3 モデルをプロンプトするためのトレーニング データから最適なインスタンスを選択します。実験結果は、PromptPG が既存のベースラインを大幅に上回り、ランダム選択と比較して予測におけるパフォーマンスの不安定性を軽減することを示しています。

以上がPromptPG: 強化学習が大規模言語モデルと出会うときの詳細内容です。詳細については、PHP 中国語 Web サイトの他の関連記事を参照してください。

声明
この記事は51CTO.COMで複製されています。侵害がある場合は、admin@php.cn までご連絡ください。
10生成AIコーディング拡張機能とコードのコードを探る必要があります10生成AIコーディング拡張機能とコードのコードを探る必要がありますApr 13, 2025 am 01:14 AM

ねえ、忍者をコーディング!その日はどのようなコーディング関連のタスクを計画していますか?このブログにさらに飛び込む前に、コーディング関連のすべての問題について考えてほしいです。 終わり? - &#8217を見てみましょう

革新を調理する:人工知能がフードサービスを変革する方法革新を調理する:人工知能がフードサービスを変革する方法Apr 12, 2025 pm 12:09 PM

食品の準備を強化するAI まだ初期の使用中ですが、AIシステムは食品の準備にますます使用されています。 AI駆動型のロボットは、ハンバーガーの製造、SAの組み立てなど、食品の準備タスクを自動化するためにキッチンで使用されています

Pythonネームスペースと可変スコープに関する包括的なガイドPythonネームスペースと可変スコープに関する包括的なガイドApr 12, 2025 pm 12:00 PM

導入 Python関数における変数の名前空間、スコープ、および動作を理解することは、効率的に記述し、ランタイムエラーや例外を回避するために重要です。この記事では、さまざまなASPを掘り下げます

ビジョン言語モデル(VLM)の包括的なガイドビジョン言語モデル(VLM)の包括的なガイドApr 12, 2025 am 11:58 AM

導入 鮮やかな絵画や彫刻に囲まれたアートギャラリーを歩くことを想像してください。さて、各ピースに質問をして意味のある答えを得ることができたらどうでしょうか?あなたは尋ねるかもしれません、「あなたはどんな話を言っていますか?

MediaTekは、Kompanio UltraとDimenity 9400でプレミアムラインナップをブーストしますMediaTekは、Kompanio UltraとDimenity 9400でプレミアムラインナップをブーストしますApr 12, 2025 am 11:52 AM

製品のケイデンスを継続して、今月MediaTekは、新しいKompanio UltraやDimenity 9400を含む一連の発表を行いました。これらの製品は、スマートフォン用のチップを含むMediaTekのビジネスのより伝統的な部分を埋めます

今週のAIで:Walmartがファッションのトレンドを設定する前に設定します今週のAIで:Walmartがファッションのトレンドを設定する前に設定しますApr 12, 2025 am 11:51 AM

#1 GoogleはAgent2Agentを起動しました 物語:月曜日の朝です。 AI駆動のリクルーターとして、あなたはより賢く、難しくありません。携帯電話の会社のダッシュボードにログインします。それはあなたに3つの重要な役割が調達され、吟味され、予定されていることを伝えます

生成AIは精神障害に会います生成AIは精神障害に会いますApr 12, 2025 am 11:50 AM

私はあなたがそうであるに違いないと思います。 私たちは皆、精神障害がさまざまな心理学の用語を混ぜ合わせ、しばしば理解できないか完全に無意味であることが多い、さまざまなおしゃべりで構成されていることを知っているようです。 FOを吐き出すために必要なことはすべてです

プロトタイプ:科学者は紙をプラスチックに変えますプロトタイプ:科学者は紙をプラスチックに変えますApr 12, 2025 am 11:49 AM

今週公開された新しい研究によると、2022年に製造されたプラスチックの9.5%のみがリサイクル材料から作られていました。一方、プラスチックは埋め立て地や生態系に積み上げられ続けています。 しかし、助けが近づいています。エンジンのチーム

See all articles

ホットAIツール

Undresser.AI Undress

Undresser.AI Undress

リアルなヌード写真を作成する AI 搭載アプリ

AI Clothes Remover

AI Clothes Remover

写真から衣服を削除するオンライン AI ツール。

Undress AI Tool

Undress AI Tool

脱衣画像を無料で

Clothoff.io

Clothoff.io

AI衣類リムーバー

AI Hentai Generator

AI Hentai Generator

AIヘンタイを無料で生成します。

ホットツール

WebStorm Mac版

WebStorm Mac版

便利なJavaScript開発ツール

SublimeText3 中国語版

SublimeText3 中国語版

中国語版、とても使いやすい

Dreamweaver Mac版

Dreamweaver Mac版

ビジュアル Web 開発ツール

mPDF

mPDF

mPDF は、UTF-8 でエンコードされた HTML から PDF ファイルを生成できる PHP ライブラリです。オリジナルの作者である Ian Back は、Web サイトから「オンザフライ」で PDF ファイルを出力し、さまざまな言語を処理するために mPDF を作成しました。 HTML2FPDF などのオリジナルのスクリプトよりも遅く、Unicode フォントを使用すると生成されるファイルが大きくなりますが、CSS スタイルなどをサポートし、多くの機能強化が施されています。 RTL (アラビア語とヘブライ語) や CJK (中国語、日本語、韓国語) を含むほぼすべての言語をサポートします。ネストされたブロックレベル要素 (P、DIV など) をサポートします。

AtomエディタMac版ダウンロード

AtomエディタMac版ダウンロード

最も人気のあるオープンソースエディター