GPT-4 は優れた数学的能力を持っています。 OpenAI の「プロセス監視」に関する爆発的な研究により、問題の 78.2% が突破され、幻覚が解消されました-AI-php.cn

ホームページ

テクノロジー周辺機器

GPT-4 は優れた数学的能力を持っています。 OpenAI の「プロセス監視」に関する爆発的な研究により、問題の 78.2% が突破され、幻覚が解消されました

王林

Jun 03, 2023 pm 12:25 PM

gpt-4数学

ChatGPT は、リリース以来、その数学的能力について批判されてきました。

「数学の天才」テレンス・タオですら、GPT-4 は自分の専門分野である数学に大きな価値をもたらすものではないとかつて述べました。

ChatGPT を「数学的遅れ」にしておいて、どうすればよいでしょうか?

OpenAI は懸命に取り組んでいます - GPT-4 の数学的推論機能を向上させるために、OpenAI チームは「プロセス監視」(PRM) を使用してモデルをトレーニングしています。

ステップバイステップで確認してみましょう。

GPT-4 は優れた数学的能力を持っています。 OpenAI の「プロセス監視」に関する爆発的な研究により、問題の 78.2% が突破され、幻覚が解消されました

論文アドレス: https://cdn.openai.com/improving-mathematical-reasoning-with-process-supervision/Lets_Verify_Step_by_Step .pdf

論文では、研究者らは、正しい最終結果 (結果の監視) だけを評価するのではなく、「プロセスの監視」として知られる正しい推論の各ステップに報酬を与えることで、数学的問題解決においてより良い結果が得られるようにモデルをトレーニングしました。 ).最新のSOTA。

具体的には、PRM は MATH テストセットの代表的なサブセットの問題の 78.2% を解決しました。

GPT-4 は優れた数学的能力を持っています。 OpenAI の「プロセス監視」に関する爆発的な研究により、問題の 78.2% が突破され、幻覚が解消されました

# さらに、OpenAI は、調整において「プロセス監視」が非常に価値があることを発見しました。これは、認識される思考の連鎖を生成するようにモデルをトレーニングすることです。人間。

最新の研究は、Sam Altman 氏の「私たちの Mathgen チームはプロセス監視において非常に刺激的な結果を達成しました。これは調整の前向きな兆候です。」を推進するためには、もちろん不可欠です。

GPT-4 は優れた数学的能力を持っています。 OpenAI の「プロセス監視」に関する爆発的な研究により、問題の 78.2% が突破され、幻覚が解消されました実際には、「プロセス監視」には手動によるフィードバックが必要ですが、大規模なモデルやさまざまなタスクでは非常にコストがかかります。したがって、この研究は非常に重要であり、OpenAI の今後の研究の方向性を決定すると言えます。

数学的問題の解決

実験では、研究者らは MATH データセット内の質問を使用して、「プロセス監視」と「結果監視」の報酬モデルを評価しました。

モデルに問題ごとに多くの解決策を生成させ、報酬モデルごとに最高ランクの解決策を選択します。

#この図は、最終的に正しい回答となった選択された解決策の割合を、検討された解決策の数の関数として示しています。 GPT-4 は優れた数学的能力を持っています。 OpenAI の「プロセス監視」に関する爆発的な研究により、問題の 78.2% が突破され、幻覚が解消されました

「プロセス監視」報酬モデルは、全体的にパフォーマンスが向上しただけでなく、各問題に対するより多くの解決策が検討されるにつれて、パフォーマンスの差が拡大しました。

これは、「プロセス監視」報酬モデルがより信頼できることを示しています。

以下、OpenAI は、モデルに関する 10 の数学的問題と解決策、および報酬モデルの長所と短所についてのコメントを示します。 GPT-4 は優れた数学的能力を持っています。 OpenAI の「プロセス監視」に関する爆発的な研究により、問題の 78.2% が突破され、幻覚が解消されました

モデルは、真 (TP)、真陰性 (TN)、偽陽性 (FP) の 3 種類の指標から評価されました。

真 (TP) GPT-4 は優れた数学的能力を持っています。 OpenAI の「プロセス監視」に関する爆発的な研究により、問題の 78.2% が突破され、幻覚が解消されました

まず三角関数の公式を単純化しましょう。

この難しい三角関数の問題では、いくつかの恒等式を分かりにくい順序で適用する必要があります。

しかし、実際に役立つ ID を選択するのは難しいため、解決策のほとんどの試みは失敗します。

GPT-4 は一般にこの問題の解決に失敗し、正しい答えに到達しようとする解決策は 0.1% のみですが、報酬モデルはこの解決策が有効であると正しく識別します。

GPT-4 は優れた数学的能力を持っています。 OpenAI の「プロセス監視」に関する爆発的な研究により、問題の 78.2% が突破され、幻覚が解消されました

ここで、GPT-4 は一連の複雑な多項式因数分解を正常に実行します。

ステップ 5 で Sophie-Germain ID を使用することは重要なステップです。このステップは非常に洞察力に富んだものであることがわかります。

GPT-4 は優れた数学的能力を持っています。 OpenAI の「プロセス監視」に関する爆発的な研究により、問題の 78.2% が突破され、幻覚が解消されました

ステップ 7 と 8 で、GPT-4 は推測とチェックの実行を開始します。

これは、モデルが「幻覚」を起こし、特定の推測が成功したと主張できる一般的な場所です。この場合、報酬モデルは各ステップを検証し、思考の連鎖が正しいかどうかを判断します。

GPT-4 は優れた数学的能力を持っています。 OpenAI の「プロセス監視」に関する爆発的な研究により、問題の 78.2% が突破され、幻覚が解消されました

モデルは、式を簡素化するためにいくつかの三角恒等式を適用することに成功しました。

GPT-4 は優れた数学的能力を持っています。 OpenAI の「プロセス監視」に関する爆発的な研究により、問題の 78.2% が突破され、幻覚が解消されました

真陰性 (TN)

ステップ 7 で、GPT-4 は式を単純化しようとしますが、失敗します。報酬モデルがこのバグを捕捉しました。

GPT-4 は優れた数学的能力を持っています。 OpenAI の「プロセス監視」に関する爆発的な研究により、問題の 78.2% が突破され、幻覚が解消されました

ステップ 11 で、GPT-4 は単純な計算エラーを犯しました。報酬モデルでも発見されました。

GPT-4 は優れた数学的能力を持っています。 OpenAI の「プロセス監視」に関する爆発的な研究により、問題の 78.2% が突破され、幻覚が解消されました

#GPT-4 はステップ 12 で差の二乗式を使用しようとしましたが、この式は実際には差の二乗ではありません。

GPT-4 は優れた数学的能力を持っています。 OpenAI の「プロセス監視」に関する爆発的な研究により、問題の 78.2% が突破され、幻覚が解消されました

#ステップ 8 の理論的根拠は奇妙ですが、ボーナスモデルにより合格します。ただし、ステップ 9 で、モデルは式を誤って因数分解します。

報酬モデルはこのエラーを修正します。

GPT-4 は優れた数学的能力を持っています。 OpenAI の「プロセス監視」に関する爆発的な研究により、問題の 78.2% が突破され、幻覚が解消されました

偽陽性 (FP)

ステップ 4 で、GPT-4 は「シーケンスは 12 項目ごとに繰り返される」と誤って主張しています。 , しかし、実際には 10 項目ごとに繰り返されます。この計数エラーにより、報酬モデルが騙されることがあります。

GPT-4 は優れた数学的能力を持っています。 OpenAI の「プロセス監視」に関する爆発的な研究により、問題の 78.2% が突破され、幻覚が解消されました

ステップ 13 では、GPT-4 は類似の用語を組み合わせて方程式を簡略化しようとします。線形項を左側に正しく移動して結合しますが、右側は誤って変更されないままになります。報酬モデルはこのエラーによって騙されます。

GPT-4 は優れた数学的能力を持っています。 OpenAI の「プロセス監視」に関する爆発的な研究により、問題の 78.2% が突破され、幻覚が解消されました

GPT-4 は長除算を実行しようとしますが、ステップ 16 で、小数の繰り返し部分に先頭のゼロを含めることを忘れます。報酬モデルはこのエラーによって騙されます。

GPT-4 は優れた数学的能力を持っています。 OpenAI の「プロセス監視」に関する爆発的な研究により、問題の 78.2% が突破され、幻覚が解消されました #GPT-4 は、ステップ 9 で微妙なカウントエラーを犯しました。

表面上、同じ色のボールを交換する方法は 5 つある (色が 5 つあるため) という主張は合理的であるように思えます。

ただし、ボブには 2 つの選択肢 (つまり、どのボールをアリスに渡すかを決定する) があるため、このカウントは 2 の係数で過小評価されます。報酬モデルはこのエラーによって騙されます。

GPT-4 は優れた数学的能力を持っています。 OpenAI の「プロセス監視」に関する爆発的な研究により、問題の 78.2% が突破され、幻覚が解消されました

プロセス監視

大規模な言語モデルは、複雑な推論機能の点で大幅に向上しましたが、最も先進的なモデルであっても、依然として論理的なエラーやナンセンスが発生し、これは「幻想」と呼ばれることがよくあります。

生成型人工知能の流行の中で、大規模な言語モデルの幻想が常に人々を悩ませてきました。

GPT-4 は優れた数学的能力を持っています。 OpenAI の「プロセス監視」に関する爆発的な研究により、問題の 78.2% が突破され、幻覚が解消されました

マスク氏は、「我々に必要なのはTruthGPTだ」と述べました

たとえば、最近、アメリカ人弁護士がニューヨーク連邦裁判所に訴訟を起こしました。 ChatGPTの捏造事件を引用しており、制裁を受ける可能性がある。

OpenAI 研究者はレポートの中で次のように述べています:「単純な論理エラーがソリューション全体に大きな損害を与える可能性があるため、これらの錯覚は複数ステップの推論を必要とする分野で特に問題となります。」

さらに、幻覚を軽減することも、一貫した AGI を構築するための鍵となります。

大きなモデルの錯覚を軽減するにはどうすればよいですか?一般に、プロセス監視と結果監視の 2 つの方法があります。

「結果監視」はその名のとおり、最終結果に基づいて大規模モデルにフィードバックを与えるのに対し、「プロセス監視」は思考連鎖の各ステップに対してフィードバックを与えることができます。

GPT-4 は優れた数学的能力を持っています。 OpenAI の「プロセス監視」に関する爆発的な研究により、問題の 78.2% が突破され、幻覚が解消されました

プロセス監視では、大規模なモデルは、正しい最終結論だけでなく、正しい推論ステップに対しても報酬を与えられます。このプロセスにより、モデルはより人間に近い思考方法の連鎖に従うようになり、より説明可能な AI を作成する可能性が高くなります。

OpenAIの研究者らは、プロセス監視はOpenAIが発明したものではないが、OpenAIはそれを推進するために懸命に取り組んでいると述べた。

最新の研究では、OpenAI は「結果監視」または「プロセス監視」の両方の方法を試しました。そして、MATH データセットをテストプラットフォームとして使用して、2 つの方法の詳細な比較が行われます。

その結果、「プロセス監視」によってモデルのパフォーマンスが大幅に向上することがわかりました。

GPT-4 は優れた数学的能力を持っています。 OpenAI の「プロセス監視」に関する爆発的な研究により、問題の 78.2% が突破され、幻覚が解消されました

数学的タスクの場合、プロセス監視は大規模なモデルと小規模なモデルの両方で大幅に優れた結果を生成しました。これは、モデルが一般的に正しいことを意味し、また、より人間らしい思考プロセス。

このようにして、最も強力なモデルであっても回避するのが難しい錯覚や論理エラーを減らすことができます。

GPT-4 は優れた数学的能力を持っています。 OpenAI の「プロセス監視」に関する爆発的な研究により、問題の 78.2% が突破され、幻覚が解消されました

調整の利点は明らかです

研究者らは、「プロセスの監視」には「結果の監視」に比べて調整の利点がいくつかあることを発見しました。

· プロセスの各ステップが正確に監視されるため、直接的な報酬は一貫した思考連鎖モデルに従います。

· 「プロセス監視」により、モデルが人間の承認したプロセスに従うことが奨励されるため、説明可能な推論が生成される可能性が高くなります。対照的に、結果のモニタリングでは一貫性のないプロセスが評価される可能性があり、レビューがより困難になることがよくあります。

GPT-4 は優れた数学的能力を持っています。 OpenAI の「プロセス監視」に関する爆発的な研究により、問題の 78.2% が突破され、幻覚が解消されました

AI システムをより安全にする方法によっては、場合によってはパフォーマンスの低下が生じる可能性があることにも言及する価値があります。この費用は「調整税」と呼ばれます。

一般的に、「調整税」のコストは、最も機能的なモデルを導入するための調整方法の採用を妨げる可能性があります。

しかし、以下の研究者らの結果は、「プロセス監視」が数学領域のテスト中に実際に「負の調整税」を生み出すことを示しています。

調整による大きなパフォーマンスの低下はないと言えます。

GPT-4 は優れた数学的能力を持っています。 OpenAI の「プロセス監視」に関する爆発的な研究により、問題の 78.2% が突破され、幻覚が解消されました

OpenAI が 800,000 個の人による注釈付きデータセットをリリース

PRM にはさらに多くの人による注釈が必要であることは注目に値します。そうしないと、深くできないのです。 RLHFなしで生きてください。

プロセス監視は数学以外の分野にどの程度適用できますか?このプロセスにはさらなる調査が必要です。

OpenAI 研究者は、このヒューマンフィードバックデータセット PRM を公開しました。これには、800,000 のステップレベルの正しい注釈が含まれています: 12,000 の数学問題から生成された 75,000 のソリューション

GPT-4 は優れた数学的能力を持っています。 OpenAI の「プロセス監視」に関する爆発的な研究により、問題の 78.2% が突破され、幻覚が解消されました

アノテーションの例を以下に示します。 OpenAI は、プロジェクトのフェーズ 1 と 2 で、アノテーターへの指示とともに生のアノテーションをリリースします。

GPT-4 は優れた数学的能力を持っています。 OpenAI の「プロセス監視」に関する爆発的な研究により、問題の 78.2% が突破され、幻覚が解消されました

# ネチズンからの人気コメント

NVIDIA の科学者 Jim Fan が OpenAI に関する最新の研究を要約しました:

最後に 1 つの報酬を与えるのではなく、ステップごとに報酬を与える、段階的な質問に挑戦する場合。基本的には、密な報酬信号 > 疎な報酬信号です。プロセス報酬モデル (PRM) は、結果報酬モデル (ORM) よりも優れた、難しい MATH ベンチマークに対するソリューションを選択できます。次のステップは明らかですが、PRM を使用して GPT-4 を微調整することですが、この記事ではまだ行っていません。 PRM では人間による注釈がさらに必要になることに注意してください。 OpenAI は、ヒューマンフィードバックデータセット、つまり 12,000 の数学問題に対する 75,000 の解に対する 800,000 のステップレベルのアノテーションをリリースしました。

これは学校でよく言われる古いことわざのようなものです、考え方を学びましょう。

GPT-4 は優れた数学的能力を持っています。 OpenAI の「プロセス監視」に関する爆発的な研究により、問題の 78.2% が突破され、幻覚が解消されました

単に正しい答えを出力するのではなく、考えるようにモデルをトレーニングすることは、複雑な問題を解決する上で大きな変革をもたらします。

ChatGPT は数学が非常に苦手です。今日は4年生の算数の本の算数の問題を解いてみました。 ChatGPT は間違った答えを返しました。 ChatGPT からの回答、perplexity AI、Google、および 4 年生の教師からの回答を使用して自分の答えを確認しました。 chatgpt の答えが間違っていることはどこでも確認できます。