検索
ホームページテクノロジー周辺機器AIGPT-3 の数学問題を解く精度は 92.5% に向上しました。 Microsoft、微調整せずに「科学」言語モデルを作成する MathPrompter を提案

大規模な言語モデルの最も批判されている欠点は、深刻なナンセンスを除けば、おそらく「数学ができない」ことでしょう。

GPT-3 の数学問題を解く精度は 92.5% に向上しました。 Microsoft、微調整せずに「科学」言語モデルを作成する MathPrompter を提案

たとえば、複数ステップの推論を必要とする複雑な数学的問題の場合、言語モデルは通常、正しい答えを与えることができません。 「思考の連鎖」技術のおかげで、途中の段階でエラーが発生することがよくあります。

文系の自然言語理解課題とは異なり、数学の問題は正解が 1 つしかなく、答えの範囲もそれほど広くないため、正確な解を導き出すことが困難です。大規模な言語モデルの場合は、より困難だと言えます。

さらに、数学的な問題に関しては、既存の言語モデルでは通常、答えに対する信頼性が提供されず、ユーザーは生成された答えの信頼性を判断できなくなります。

この問題を解決するために、Microsoft Research は、予測への依存度を高めながら、算術問題における LLM のパフォーマンスを向上させることができる MathPrompter テクノロジを提案しました。

論文リンク: https://arxiv.org/abs/2303.05398

MathPrompter はゼロショット思考を使用しますチェーン ヒンティング テクノロジは、複数の代数式または Python 関数を生成して、同じ数学的問題をさまざまな方法で解決することで、出力結果の信頼性を高めます。

他のヒントベースの CoT メソッドと比較して、MathPrompter は中間ステップの妥当性もチェックします。

175B パラメーター GPT に基づいて、MathPrompter メソッドを使用して MultiArith データ セットの精度を 78.7% から 92.5% に向上させました。

数学に特化したプロンプト

近年の自然言語処理の発展は、大規模言語モデル (LLM) の規模が拡大し続けていることによるところが大きいです。は、驚くべきゼロショットおよび少数ショット機能を実証し、プロンプト技術の開発にも貢献しました。ユーザーは、プロンプトでいくつかの簡単な例を LLM に入力するだけで、新しいタスクを予測できます。

プロンプトは、単一ステップのタスクでは非常に成功していると言えますが、複数ステップの推論が必要なタスクでは、プロンプト技術のパフォーマンスはまだ不十分です。

人間は複雑な問題を解決するとき、それを分解して段階的に解決しようとします。「思考連鎖」(CoT) 促進テクノロジーは、この直感を LLM に拡張します。推論を必要とするさまざまな NLP タスクにわたってパフォーマンスの向上が達成されました。

この論文では、主に「数学的推論タスクを解決するため」の Zero-shot-CoT メソッドを研究しています。以前の研究では、MultiArith データセットの精度が大幅に向上しました。17.7% から向上しました。

#1. モデルが従う思考の連鎖は結果を改善しますが、思考の連鎖をチェックするわけではありません。続く各ステップの結果;

2. LLM 予測結果には信頼性がありません。

MathPrompter

これらのギャップをある程度解決するために、研究者は「人間が数学の問題を解決する方法」からインスピレーションを得て、複雑な問題をより単純な複数ステップの手順に分解しました。 、複数のメソッドを利用して各ステップでメソッドを検証します。

GPT-3 の数学問題を解く精度は 92.5% に向上しました。 Microsoft、微調整せずに「科学」言語モデルを作成する MathPrompter を提案

#LLM は生成モデルであるため、特に数学的推論タスクの場合、生成された答えが正確であることを確認するのは非常に困難になります。

研究者は、生徒が算数の問題を解くプロセスを観察し、生徒が解決策を検証するために行ったいくつかの手順を要約しました:

既知の結果との準拠 ソリューションを既知の結果と比較することで、その精度を評価し、必要な調整を行うことができます。これは、問題が以下のような標準的な問題の場合に特に役立ちます。成熟したソリューション。

マルチ検証は、複数の角度から問題にアプローチし、結果を比較することで、ソリューションの有効性を確認し、ソリューションが合理的かつ正確であることを保証します。 。

クロスチェック、問題を解決するプロセスは、最終的な答えと同じくらい必要です。プロセスの中間ステップが正しいことを検証することで、明確な答えを得ることができます。ソリューションの理解、その背後にある思考プロセス。

#計算検証: 電卓またはコンピューターを使用して算術計算を実行すると、最終的な答えの精度を検証できます

具体的に質問すると、

GPT-3 の数学問題を解く精度は 92.5% に向上しました。 Microsoft、微調整せずに「科学」言語モデルを作成する MathPrompter を提案

## レストランでの大人の食事の料金は次のとおりです。 5ドル、子供は無料で食べられます。 15 人が来て、そのうち 8 人が子供である場合、このグループの食事の費用はいくらですか?

#1. 代数テンプレートの生成#まず問題を解決します 代数に変換しますこの形式では、キーと値のマップを使用して数値項を変数に置き換えることで、修正された質問 Qt

GPT-3 の数学問題を解く精度は 92.5% に向上しました。 Microsoft、微調整せずに「科学」言語モデルを作成する MathPrompter を提案

# #2 が得られます。数学プロンプト

複数の検証とクロスチェックの上記の思考プロセスによって得られた直感に基づいて、2 つの異なる方法を使用して Qt 分析ソリューションを生成しますは、代数的および Python の両方で、Qt の追加コンテキストを生成するための次のヒントを LLM に提供します。

#プロンプトは、「代数式を導出する」または「Python 関数を作成する」です。

GPT-3 の数学問題を解く精度は 92.5% に向上しました。 Microsoft、微調整せずに「科学」言語モデルを作成する MathPrompter を提案

LLM モデルは、プロンプトに応答した後、次の式を出力できます。

上記で生成された分析計画は、LLM の「中間思考プロセス」に関するヒントをユーザーに提供します。ヒントを追加すると、結果の精度が向上します。 . 精度と一貫性が向上し、より正確で効率的なソリューションを生成する MathPrompter の能力が向上します。

GPT-3 の数学問題を解く精度は 92.5% に向上しました。 Microsoft、微調整せずに「科学」言語モデルを作成する MathPrompter を提案

#3. 計算の検証

Qt で複数の入力変数を使用するランダム キー - value マップを使用して、前のステップで生成された式を評価します。Python の eval() メソッドを使用してこれらの式を評価します。

次に、出力結果を比較して、答えに一致した意見が見つかるかどうかを確認します。これにより、答えが正しく、信頼できるというより高い信頼度も得られます。

式が出力に一致すると、入力 Q の変数値を使用して最終的な計算が行われます。答え。

GPT-3 の数学問題を解く精度は 92.5% に向上しました。 Microsoft、微調整せずに「科学」言語モデルを作成する MathPrompter を提案

4. 統計的有意性

さまざまな式の出力でのコンセンサスを確保するには、ステップ 2 と 3 をほぼ繰り返します。実験を 5 回行い、最も頻繁に観察された回答値を報告します。

明確な合意がない場合は、ステップ 2、3、4 を繰り返します。

実験結果

MathPrompter は MultiArith データ セットで評価されました。その中の数学的質問は、複雑な算術演算を実行する機械学習モデルの能力をテストするために特に使用され、適切に解決するには、さまざまな算術演算と論理的推論を適用する必要があります。

GPT-3 の数学問題を解く精度は 92.5% に向上しました。 Microsoft、微調整せずに「科学」言語モデルを作成する MathPrompter を提案

MultiArith データセットの精度結果は、MathPrompter がすべての Zero-shot および Zero -shot- よりも優れたパフォーマンスを示していることを示しています。 CoT ベースライン、精度が 78.7% から 92.5% に向上

175B パラメーター GPT3 DaVinci に基づく MathPrompter モデルのパフォーマンスが 540B パラメーター モデルのパフォーマンスに匹敵することがわかります。 SOTA の Few -shot-CoT メソッドと同等です。

GPT-3 の数学問題を解く精度は 92.5% に向上しました。 Microsoft、微調整せずに「科学」言語モデルを作成する MathPrompter を提案

上記の表からわかるように、MathPrompter の設計により、「生成された答えには 1 段階の違いがある場合があります。」という問題は、モデルを複数回実行し、コンセンサス結果を報告することで回避できます。

さらに、推論ステップが長すぎる可能性があるという問題は、通常必要なトークンが少ない Python または代数手法で解決できます。 #また、推論ステップは正しくても、最終的な計算結果が正しくない場合がありますが、MathPrompter では Python の eval() メソッド関数を使用してこの問題を解決します。

ほとんどの場合、MathPrompter は正しい中間解答と最終解答を生成できますが、表の最後の質問のように、代数出力と Python 出力が一致する場合もいくつかあります。はい、しかしエラーがあります。

以上がGPT-3 の数学問題を解く精度は 92.5% に向上しました。 Microsoft、微調整せずに「科学」言語モデルを作成する MathPrompter を提案の詳細内容です。詳細については、PHP 中国語 Web サイトの他の関連記事を参照してください。

声明
この記事は51CTO.COMで複製されています。侵害がある場合は、admin@php.cn までご連絡ください。
迅速なエンジニアリングにおける思考のグラフは何ですか迅速なエンジニアリングにおける思考のグラフは何ですかApr 13, 2025 am 11:53 AM

導入 迅速なエンジニアリングでは、「思考のグラフ」とは、グラフ理論を使用してAIの推論プロセスを構造化および導く新しいアプローチを指します。しばしば線形sを含む従来の方法とは異なります

Genaiエージェントとの電子メールマーケティングを組織に最適化しますGenaiエージェントとの電子メールマーケティングを組織に最適化しますApr 13, 2025 am 11:44 AM

導入 おめでとう!あなたは成功したビジネスを運営しています。ウェブページ、ソーシャルメディアキャンペーン、ウェビナー、会議、無料リソース、その他のソースを通じて、毎日5000の電子メールIDを収集します。次の明白なステップはです

Apache Pinotによるリアルタイムアプリのパフォーマンス監視Apache Pinotによるリアルタイムアプリのパフォーマンス監視Apr 13, 2025 am 11:40 AM

導入 今日のペースの速いソフトウェア開発環境では、最適なアプリケーションパフォーマンスが重要です。応答時間、エラーレート、リソース利用などのリアルタイムメトリックを監視することで、メインに役立ちます

ChatGptは10億人のユーザーにヒットしますか? 「わずか数週間で2倍になりました」とOpenai CEOは言いますChatGptは10億人のユーザーにヒットしますか? 「わずか数週間で2倍になりました」とOpenai CEOは言いますApr 13, 2025 am 11:23 AM

「ユーザーは何人いますか?」彼は突き出した。 「私たちが最後に言ったのは毎週5億人のアクティブであり、非常に急速に成長していると思います」とアルトマンは答えました。 「わずか数週間で2倍になったと言った」とアンダーソンは続けた。 「私はそのprivと言いました

PIXTRAL -12B:Mistral AI'の最初のマルチモーダルモデル-Analytics VidhyaPIXTRAL -12B:Mistral AI'の最初のマルチモーダルモデル-Analytics VidhyaApr 13, 2025 am 11:20 AM

導入 Mistralは、最初のマルチモーダルモデル、つまりPixtral-12B-2409をリリースしました。このモデルは、Mistralの120億個のパラメーターであるNemo 12bに基づいて構築されています。このモデルを際立たせるものは何ですか?これで、画像とTexの両方を採用できます

生成AIアプリケーションのエージェントフレームワーク - 分析Vidhya生成AIアプリケーションのエージェントフレームワーク - 分析VidhyaApr 13, 2025 am 11:13 AM

クエリに応答するだけでなく、情報を自律的に収集し、タスクを実行し、テキスト、画像、コードなどの複数のタイプのデータを処理するAIを搭載したアシスタントがいることを想像してください。未来的に聞こえますか?これでa

金融セクターにおける生成AIの応用金融セクターにおける生成AIの応用Apr 13, 2025 am 11:12 AM

導入 金融業界は、効率的な取引と信用の可用性を促進することにより経済成長を促進するため、あらゆる国の発展の基礎となっています。取引の容易さとクレジット

オンライン学習とパッシブアグレッシブアルゴリズムのガイドオンライン学習とパッシブアグレッシブアルゴリズムのガイドApr 13, 2025 am 11:09 AM

導入 データは、ソーシャルメディア、金融取引、eコマースプラットフォームなどのソースから前例のないレートで生成されています。この連続的な情報ストリームを処理することは課題ですが、

See all articles

ホットAIツール

Undresser.AI Undress

Undresser.AI Undress

リアルなヌード写真を作成する AI 搭載アプリ

AI Clothes Remover

AI Clothes Remover

写真から衣服を削除するオンライン AI ツール。

Undress AI Tool

Undress AI Tool

脱衣画像を無料で

Clothoff.io

Clothoff.io

AI衣類リムーバー

AI Hentai Generator

AI Hentai Generator

AIヘンタイを無料で生成します。

ホットツール

SublimeText3 Linux 新バージョン

SublimeText3 Linux 新バージョン

SublimeText3 Linux 最新バージョン

Dreamweaver Mac版

Dreamweaver Mac版

ビジュアル Web 開発ツール

ゼンドスタジオ 13.0.1

ゼンドスタジオ 13.0.1

強力な PHP 統合開発環境

mPDF

mPDF

mPDF は、UTF-8 でエンコードされた HTML から PDF ファイルを生成できる PHP ライブラリです。オリジナルの作者である Ian Back は、Web サイトから「オンザフライ」で PDF ファイルを出力し、さまざまな言語を処理するために mPDF を作成しました。 HTML2FPDF などのオリジナルのスクリプトよりも遅く、Unicode フォントを使用すると生成されるファイルが大きくなりますが、CSS スタイルなどをサポートし、多くの機能強化が施されています。 RTL (アラビア語とヘブライ語) や CJK (中国語、日本語、韓国語) を含むほぼすべての言語をサポートします。ネストされたブロックレベル要素 (P、DIV など) をサポートします。

VSCode Windows 64 ビットのダウンロード

VSCode Windows 64 ビットのダウンロード

Microsoft によって発売された無料で強力な IDE エディター