PromptPG: 強化学習が大規模言語モデルと出会うとき-AI-php.cn

ホームページ

テクノロジー周辺機器

PromptPG: 強化学習が大規模言語モデルと出会うとき

王林

Apr 07, 2023 pm 02:51 PM

aiモデル

数学的推論は人間の知性の中核となる能力ですが、抽象的思考と論理的推論は依然として機械にとって大きな課題です。 GPT-3 や GPT-4 などの大規模な事前トレーニング済み言語モデルは、テキストベースの数学的推論 (数学的な文章題など) において大幅な進歩を遂げました。ただし、これらのモデルが表形式データなどの異種情報を含むより複雑な問題を処理できるかどうかは現時点では不明です。このギャップを埋めるために、UCLA とアレン人工知能研究所 (AI2) の研究者は、表形式の数学単語問題 (TabMWP) を立ち上げました。これは、テキストと表形式データに対する数学的推論の両方を必要とする 38,431 のオープンドメイン問題のデータセットであり、正しい問題を導き出す必要があります。答え。 TabMWP の各質問は、構造化された形式の画像、テキスト、または表を含むコンテキストに関連付けられています。

研究者は、Few-shot GPT-3 を含む、TabMWP 上のさまざまな事前トレーニング済みモデルを評価しました。既存の研究でわかっているように、Few-shot GPT-3 はコンテキスト内のサンプルの選択に大きく依存しているため、サンプルがランダムに選択されるとパフォーマンスが非常に不安定になります。 TabMWP のような複雑な推論問題を扱う場合、この不安定性はさらに深刻になります。この問題を解決するために、著者は PromptPG 法を提案しました。これは、例の選択を強化学習におけるコンテキストバンディット問題に変換し、ポリシー勾配を使用してポリシーネットワークをトレーニングし、少量のサンプルから最適なものを選択することを学習します。トレーニングデータ - コンテキストの例。実験結果は、彼らが提案した PromptPG メソッドが質問への回答において最適なベースライン (少数ショット CoT GPT-3) を 5.31% 上回っており、コンテキスト内でランダムに選択された例と比較して、彼らのメソッドが問題を大幅に軽減していることを示しています。このタイプのメソッドの安定性。

PromptPG: 強化学習が大規模言語モデルと出会うとき

紙のリンク: https://arxiv.org/abs/2209.14610
# コードリンク: https://github.com/lupantech/PromptPG
プロジェクトホームページ: https://promptpg.github.io
データ視覚化: https://promptpg.github.io/explore

##TabMWP データセットの 2 つの例を以下に示します。 1 つは数値で回答できる自由記述の質問で、もう 1 つはテキストで回答する多肢選択の質問です。ご覧のとおり、各質問には段階的な推論を含む解決策が示されています。 TabMWP の問題を解決するには、システムがテーブル検索と複数ステップの数学的推論の両方に対応できる必要があります。下の写真の例で、「(トレイシーが 3 種類のパンを買う場合) 彼女はいくら使うでしょう」と答えるには、まずテーブル内の 3 種類のパンの対応する価格を見つけてから、コストを計算する必要があります。それぞれの種類のパンを購入する際のコストを計算し、それらを合計して最終的なコストを計算します。

PromptPG: 強化学習が大規模言語モデルと出会うとき以下の表の統計に示されているように、TabMWP データセットには 38,431 個の表形式の数学の問題が含まれています。質問の 74.7% は自由記述質問、25.3% は選択式質問でした。 TabMWP には、合計 28,876 個の固有の質問、6,153 個の固有の回答、および 35,442 個の固有の解決策があり、質問の分布が多様性に富んでいることがわかります。質問の平均長は 22.1 ワード、回答の平均長は 49.5 ワードで、TabMWP の語彙の豊富さを示しています。 TabMWP の際立った特徴は、各問題にはテーブルコンテキストが伴い、テーブルコンテキストなしでは問題を解決できないことです。 TabMWP には合計 37,644 の異なるテーブルがあり、テーブルの平均サイズは 5.9 行と 2.2 列、12.9 セル、最大 54 セルです。これらの統計は、TabMWP のテーブルも多様性に富んでいることを示しています。

#TabMWP データセットには、2 つの異なる質問タイプと 5 つの異なる回答タイプがあります。 PromptPG: 強化学習が大規模言語モデルと出会うとき

TabMWP のすべての質問には表形式のコンテキストがあり、画像、半構造化テキスト、構造化という 3 つの形式で表されます。これにより、さまざまなタイプの推論モデルを開発する可能性が開かれます。

PromptPG: 強化学習が大規模言語モデルと出会うとき

既存のデータセットと比較して、TabMWP では、質問に答えるためにテーブルの理解と数学的推論の両方の能力が必要です。さらに、TabMWP には各質問に対して詳細な複数ステップの推論プロセスがあり、データセットのサイズ、テーブルの種類、質問の種類、回答の種類において明らかな利点があります。この論文の知る限りでは、TabMWP はオープンドメインの表形式シナリオにおける最初の数学的推論データセットです。

PromptPG: 強化学習が大規模言語モデルと出会うとき

2. PromptPG 法

GPT-3 などの大規模な事前学習済みモデルの数学的解決における成果の検討アプリケーションの問題著者らはまず、少数ショット GPT-3 を使用して TabMWP のベンチマークを確立することに成功しました。彼らは、トレーニングセットおよびテスト例からいくつかの文脈上の例をランダムに選択して、GPT-3 に答えを予測するプロンプトを形成します。ただし、最近の研究では、ランダム選択に基づくこの種の少数ショット学習は、さまざまな状況に応じた例の選択では非常に不安定になる可能性があることが示されています。さまざまなタイプや形式のテーブルが関与する TabMWP のような複雑な推論問題を扱う場合、ランダム選択はさらに効果が低くなる可能性があります。

この問題を解決するために、著者は改良された方法を提案しました: ポリシー勾配による学習を促進し、少量のトレーニングデータから状況に応じた例を選択することを学習します。、PromptPG を呼び出しました。図 2 に示すように、ポリシーネットワークは、コンテキスト内で最適なサンプルを候補プール (候補サンプル) から見つけることを学習します。その最適化の目標は、GPT と対話するときに特定のトレーニングサンプル (トレーニングサンプル) の予測を最大化することです。 -3 環境賞。例を選択するためのポリシーネットワークは、固定パラメーターと学習可能なパラメーターを備えた単層ニューラルネットワークに基づく BERT 言語モデルです。最適化学習が完了すると、PromptPG はさまざまなテスト問題の候補例からさまざまな最適例を動的に選択し、GPT-3 の推論パフォーマンスを最大化できます。

PromptPG: 強化学習が大規模言語モデルと出会うとき

#PromptPG の学習アルゴリズムは次のとおりです。

PromptPG: 強化学習が大規模言語モデルと出会うとき

3. 実験と分析

PromptPG: 強化学習が大規模言語モデルと出会うとき

事前トレーニングと微調整チューニング

表 3 は、PromptPG の結果と TabMWP データセットのさまざまなベンチマークを比較しています。 TAPEX は、同様のパラメーター量を使用した表形式のデータで事前トレーニングを行っているため、UnifiedQA よりも優れたパフォーマンスを示していることがわかります。 TAPEX と UnifiedQA の両方で、モデル内のパラメーターの数を増やすと、予測の精度が向上します。さらに、TabMWP でモデルを微調整することで、予測の精度を大幅に向上させることもできます。

大規模言語モデル

微調整なしの GPT-3 (ゼロショット GPT-3) )、微調整された UnifiedQA および TAPEX モデルと同様の精度を達成できます。フューショット GPT-3 モデルが GPT-3 ヒントとしてコンテキスト内の 2 つの例をランダムに選択すると、ゼロショット GPT-3 と比較してさらに 0.17% 向上する可能性があります。最終的な答え (Few-shot-CoT GPT-3) を生成する前に、Few-shot GPT-3 に複数の中間ステップを生成させることで、研究者らは 62.92% の精度で最適なベースラインモデルを取得することができました。

プロンプトPG

この記事で提案されている PromptPG は、コンテキスト内のサンプルをランダムに選択するのとは異なり、Policy Gradient を通じてポリシーネットワークをトレーニングして、より適切なコンテキスト内のサンプルを選択し、TabMWP で最高の予測結果 (68.23%) を達成しました。その平均予測精度は、最良のベースラインモデル (Few-shot-CoT GPT-3) を 5.31% 上回っています。特に、PromptPG は、ほぼすべての質問タイプ、回答タイプ、および質問の難易度において予測精度の優位性を示しています。それにもかかわらず、PromptPG には人間のパフォーマンスの 90.22% から改善の余地がまだたくさんあります。

アブレーション実験

PromptPG: 強化学習が大規模言語モデルと出会うとき

表 4 は、TabMWP のすべての入力要素を示しています。 (質問テキスト、フォーム情報、オプション情報) はすべて、質問に正しく答えるために重要です。すべての問題要素を入力情報として使用した場合のみ、Zero-shot GPT-3 は比較的高い平均予測精度 (59.50%) を達成しました。

異なるサンプルの選択

PromptPG: 強化学習が大規模言語モデルと出会うとき

研究者らは、比較実験として、次のことを行いました。異なるサンプルを選択した他の方法を比較しました。表 5 に示すように、テスト質問と同じ質問タイプまたは回答タイプを選択すると、モデルがより関連性の高い例を見つけやすくなり、回答の精度が向上します。最も複雑な例を選択しても、回答の精度が一貫して向上するわけではありません。候補例の中から 2 つの最良の例を固定的に選択すると、精度がわずかに向上し、分散が減少します。意味的にテスト問題に最も近い例を選択すると、PromptPG メソッドに最も近い精度が得られます。全体として、PromptPG は、予測精度の向上と予測の差異の削減における利点を十分に実証しました。

次の図は、PromptPG の選択と最終的な予測結果の例を示しています。 PromptPG メソッドは、テスト問題と同様の数学的能力を持つ例を選択することにより、Few-shot GPT-3 の推論パフォーマンスを向上させることができることがわかります。

PromptPG: 強化学習が大規模言語モデルと出会うとき

#成功した予測の例

以下は、無料の PromptPG を示しています。テキストの質問に対する正しい答え。この質問では、表内の 8 つの数値を加算および除算して平均を求める必要があります。

PromptPG: 強化学習が大規模言語モデルと出会うとき

次の例では、モデルは税務申告書を理解し、税控除後の給与を計算するように求められます。

PromptPG: 強化学習が大規模言語モデルと出会うとき

以下は、多肢選択問題に対する PromptPG の正しい予測を示しています。指定されたテーブルには合計 9 行と 6 列があります。モデルはテーブル内のターゲットセルを正常に特定し、複数ステップの推論を実行して正解を予測します。

PromptPG: 強化学習が大規模言語モデルと出会うとき

次の例では、モデルは予算と総コストを比較して、Ariana に十分な資金があるかどうかを確認する必要があります。

PromptPG: 強化学習が大規模言語モデルと出会うとき

#予測失敗の例

以下はフリーテキスト用の PromptPG を示しています問題の予測の誤り。モデルはローズクオーツの間違った価格を取得したため、3 つの品目の合計コストが誤って計算されました。

PromptPG: 強化学習が大規模言語モデルと出会うとき

次の例では、質問は抽象的な幹と葉のテーブルを提供します。モデルはこのドメイン固有のテーブルを理解できず、間違った答えを導き出すための高度な論理的推論機能が不足していました。

PromptPG: 強化学習が大規模言語モデルと出会うとき

#次の例は、既存のモデルには数値を並べ替える機能がないようであることを示しています。

PromptPG: 強化学習が大規模言語モデルと出会うとき

次の例では、質問に記載されている現在時刻と正確に一致する時刻がテーブルに表示されないため、モデルは正確に一致することができません。次回の時刻を検索する 1 つの停留所の出発時刻。

PromptPG: 強化学習が大規模言語モデルと出会うとき

#次の例では、モデルが長い一連の数値の算術演算を正確に完了することが困難です。

PromptPG: 強化学習が大規模言語モデルと出会うとき

#4. 結論と展望

著者は、表形式のコンテキストでの最初の数学的問題解決である TabMWP を提案しました。 -スケールデータセット。 TabMWP には、2 つの質問タイプと 5 つの回答タイプを含む 38,431 のオープンドメインの質問が含まれており、各質問には複数ステップの解決プロセスがマークされています。著者らは、最先端の QA および TableQA 手法を使用し、事前トレーニングおよび微調整された設定で TabMWP に関する包括的な実験を実施し、事前トレーニングされた大規模な言語モデル GPT-3 を使用して評価しました。著者はさらに、新しい強化学習手法 PromptPG を提案します。これは、ポリシー勾配学習を使用して、GPT-3 モデルをプロンプトするためのトレーニングデータから最適なインスタンスを選択します。実験結果は、PromptPG が既存のベースラインを大幅に上回り、ランダム選択と比較して予測におけるパフォーマンスの不安定性を軽減することを示しています。

以上がPromptPG: 強化学習が大規模言語モデルと出会うときの詳細内容です。詳細については、PHP 中国語 Web サイトの他の関連記事を参照してください。

声明

この記事は51CTO.COMで複製されています。侵害がある場合は、admin@php.cn までご連絡ください。

あなたは無知のベールの後ろに職場AIを構築する必要がありますApr 29, 2025 am 11:15 AM

ジョン・ロールズの独創的な1971年の著書「正義の理論」で、彼は私たちが今日のAIデザインの核となり、意思決定を使用するべきであるという思考実験を提案しました：無知のベール。この哲学は、公平性を理解するための簡単なツールを提供し、リーダーがこの理解を使用してAIを公平に設計および実装するための青写真を提供します。あなたが新しい社会のルールを作っていると想像してください。しかし、前提があります。この社会でどのような役割を果たすかは事前にわかりません。過半数または限界少数派に属している、金持ちまたは貧弱、健康、または障害者になることがあります。この「無知のベール」の下で活動することで、ルールメーカーが自分自身に利益をもたらす決定を下すことができません。それどころか、人々はより公衆を策定する意欲があります

決定、決定…実用的な応用AIの次のステップApr 29, 2025 am 11:14 AM

ロボットプロセスオートメーション（RPA）を専門とする多くの企業は、繰り返しタスクを自動化するためのボットを提供しています。一方、プロセスマイニング、オーケストレーション、インテリジェントドキュメント処理スペシャル

エージェントが来ています - 私たちがAIパートナーの隣ですることについてもっとApr 29, 2025 am 11:13 AM

AIの未来は、単純な単語の予測と会話シミュレーションを超えて動いています。 AIエージェントは出現しており、独立したアクションとタスクの完了が可能です。このシフトは、AnthropicのClaudeのようなツールですでに明らかです。 AIエージェント：研究a

共感がAI主導の未来におけるリーダーのコントロールよりも重要である理由Apr 29, 2025 am 11:12 AM

急速な技術の進歩は、仕事の未来に関する将来の見通しの視点を必要とします。 AIが単なる生産性向上を超えて、私たちの社会構造の形成を開始するとどうなりますか？ Topher McDougalの今後の本、Gaia Wakes：

製品分類のためのAI：マシンは税法を習得できますか？Apr 29, 2025 am 11:11 AM

多くの場合、Harmonized System（HS）などのシステムからの「HS 8471.30」などの複雑なコードを含む製品分類は、国際貿易と国内販売に不可欠です。これらのコードは、すべてのINVに影響を与える正しい税申請を保証します

データセンターの要求は、気候技術のリバウンドを引き起こす可能性がありますか？Apr 29, 2025 am 11:10 AM

データセンターと気候技術投資におけるエネルギー消費の将来この記事では、AIが推進するデータセンターのエネルギー消費の急増と気候変動への影響を調査し、この課題に対処するための革新的なソリューションと政策の推奨事項を分析します。エネルギー需要の課題：大規模で超大規模なデータセンターは、数十万の普通の北米の家族の合計に匹敵する巨大な力を消費し、新たなAIの超大規模なセンターは、これよりも数十倍の力を消費します。 2024年の最初の8か月で、Microsoft、Meta、Google、Amazonは、AIデータセンターの建設と運用に約1,250億米ドルを投資しました（JP Morgan、2024）（表1）。エネルギー需要の成長は、挑戦と機会の両方です。カナリアメディアによると、迫り来る電気

AIとハリウッドの次の黄金時代Apr 29, 2025 am 11:09 AM

生成AIは、映画とテレビの制作に革命をもたらしています。 LumaのRay 2モデル、滑走路のGen-4、OpenaiのSora、GoogleのVEO、その他の新しいモデルは、前例のない速度で生成されたビデオの品質を向上させています。これらのモデルは、複雑な特殊効果と現実的なシーンを簡単に作成できます。短いビデオクリップやカメラ認知モーション効果も達成されています。これらのツールの操作と一貫性を改善する必要がありますが、進歩の速度は驚くべきものです。生成ビデオは独立した媒体になりつつあります。アニメーション制作が得意なモデルもあれば、実写画像が得意なモデルもあります。 AdobeのFireflyとMoonvalleyのMAであることは注目に値します

ChatGptはゆっくりとAIの最大のYES-MANになりますか？Apr 29, 2025 am 11:08 AM

ChatGptユーザーエクスペリエンスは低下します：それはモデルの劣化ですか、それともユーザーの期待ですか？最近、多数のCHATGPT有料ユーザーがパフォーマンスの劣化について不満を述べています。ユーザーは、モデルへの応答が遅く、答えが短い、助けの欠如、さらに多くの幻覚を報告しました。一部のユーザーは、ソーシャルメディアに不満を表明し、ChatGptは「お世辞になりすぎて」、重要なフィードバックを提供するのではなく、ユーザービューを検証する傾向があることを指摘しています。これは、ユーザーエクスペリエンスに影響を与えるだけでなく、生産性の低下やコンピューティングリソースの無駄など、企業の顧客に実際の損失をもたらします。パフォーマンスの劣化の証拠多くのユーザーは、特にGPT-4などの古いモデル（今月末にサービスから廃止される）で、ChatGPTパフォーマンスの大幅な分解を報告しています。これ

See all articles

ホットAIツール

Undresser.AI Undress

リアルなヌード写真を作成する AI 搭載アプリ

AI Clothes Remover

写真から衣服を削除するオンライン AI ツール。

Undress AI Tool

脱衣画像を無料で

Clothoff.io

AI衣類リムーバー

Video Face Swap

完全無料の AI 顔交換ツールを使用して、あらゆるビデオの顔を簡単に交換できます。

ホットツール

メモ帳++7.3.1

使いやすく無料のコードエディター

SublimeText3 Linux 新バージョン

SublimeText3 Linux 最新バージョン

WebStorm Mac版

便利なJavaScript開発ツール

MinGW - Minimalist GNU for Windows

このプロジェクトは osdn.net/projects/mingw に移行中です。引き続きそこでフォローしていただけます。 MinGW: GNU Compiler Collection (GCC) のネイティブ Windows ポートであり、ネイティブ Windows アプリケーションを構築するための自由に配布可能なインポートライブラリとヘッダーファイルであり、C99 機能をサポートする MSVC ランタイムの拡張機能が含まれています。すべての MinGW ソフトウェアは 64 ビット Windows プラットフォームで実行できます。