ホームページ  >  記事  >  テクノロジー周辺機器  >  MITが「Advanced Mathematics」ソルバーの強化版をリリース:7コースで正解率が81%に到達

MITが「Advanced Mathematics」ソルバーの強化版をリリース:7コースで正解率が81%に到達

WBOY
WBOY転載
2023-04-12 16:04:101133ブラウズ

小学校の算数の文章題を解くだけでなく、高度な算数もAIが攻略し始めています!

最近、MIT の研究者は、OpenAI Codex 事前トレーニング モデルに基づいて、数回の学習で学部レベルの数学の問題について 81% の正解率を達成することに成功したと発表しました。

MITが「Advanced Mathematics」ソルバーの強化版をリリース:7コースで正解率が81%に到達

  • 論文リンク: https://arxiv.org/abs/2112.15594
  • コードリンク: https://github.com/idrori /mathq

最初に、単一変数関数のグラフを軸を中心に回転させることによって生成される体積の計算、ローレンツ アトラクターと射影の計算など、答えを確認するためにいくつかの小さな質問を見てみましょう。 、特異値分解 (SVD) の幾何学的形状を計算して描画すると、答えが正しいだけでなく、対応する説明も可能になります。

MITが「Advanced Mathematics」ソルバーの強化版をリリース:7コースで正解率が81%に到達

本当に信じられないです。昔を振り返るといつも高得点を出していたのに、今ではAIが一発で81点も取れるようになりました。AIが人間を超えたと一方的に宣言します。 。

さらにすごいのは、この研究では、通常の機械学習モデルでは解決が難しい問題を解決できるだけでなく、このテクノロジーが大規模に推進でき、コース内で問題を解決できることも示していることです。および同様のコース。

また、単一の機械学習モデルがこのような大規模な数学的問題を解決でき、説明、描画、さらには新しい質問の生成もできるのは史上初です。

実は、この論文は今年の初めに公開されました。半年間の改訂を経て、長さは 114 ページから 181 ページに増加しました。より多くの数学的問題を解決できるようになりました。付録A から Z. Laman まで直接番号が付けられています。

MITが「Advanced Mathematics」ソルバーの強化版をリリース:7コースで正解率が81%に到達

この記事の主な著者単位は 4 つあり、MIT、コロンビア大学、ハーバード大学、ウォータールー大学です。

筆頭著者の Iddo Drori は、MIT の電気工学およびコンピュータ サイエンス学部の AI 学科の講師であり、コロンビア大学工学応用科学部の非常勤准教授です。 CCAI NeurIPS 2021 Best Paper Awardを受賞しました。

MITが「Advanced Mathematics」ソルバーの強化版をリリース:7コースで正解率が81%に到達

彼の主な研究方向は、大学レベルの数学と STEM コースを機械に解決、説明、生成させようとする教育のための機械学習と、気候科学のための機械学習です。これは、極端な気候変動を予測し、気候を監視する数千年分のデータに基づいており、長年にわたる大西洋の海洋生物地球化学の変化を予測する学際的な研究を統合しており、自動運転のための機械学習アルゴリズムなどを備えています。

彼は、ケンブリッジ大学出版局から出版された『深層学習の科学』の著者でもあります。

高等教育におけるマイルストーン

この論文が発表されるまで、ほとんどの研究者は、ニューラル ネットワークは高数の問題を処理できず、いくつかの単純な数学的問題しか解決できないと信じていました。

Transformer モデルがさまざまな NLP タスクで人間のパフォーマンスを上回っていても、数学的問題を解決するのはまだ得意ではありません。主な理由は、GPT-3 などのさまざまな大規模なモデルがテキスト データのみで動作するためです。 -トレーニング中。

その後、一部の研究者は、段階的な分析 (思考の連鎖) を通じて言語モデルを推論していくつかの単純な数学的質問に答えることができるが、高度な数学的問題を解決するのはそれほど簡単ではないことを発見しました。 。

MITが「Advanced Mathematics」ソルバーの強化版をリリース:7コースで正解率が81%に到達

#ターゲットが高数値問題である場合は、まずトレーニング データの波を収集する必要があります。

著者は、MIT の 7 つのコースのそれぞれから 25 個の問題をランダムに選択しました。

  • 18.01 単一変数微積分
  • 18.02 多変数微積分
  • 18.03 微分方程式
  • 18.05 確率と統計の概要
  • 18.06 線形代数
  • 6.042 コンピューター サイエンス数学
  • コロンビア大学 COMS3251 計算線形代数

MATH データセットの場合、研究者はデータセットの 6 つのトピック (代数、計数と確率、中級代数、数論、前代数、および前代数) から 15 の質問をランダムに選択しました。

モデルによって生成された結果がトレーニング データに過剰適合していないことを確認するために、研究者らは、インターネット上で公開されていない COMS3251 コースを選択して、生成された結果を検証しました。

MITが「Advanced Mathematics」ソルバーの強化版をリリース:7コースで正解率が81%に到達

ワークフロー

モデルはコースの質問を入力として受け取り、コンテキストを使用して自動拡張を実行し、合成されたプログラムを生成し、最後に回答と生成された説明を出力します。

質問が異なれば、出力結果も異なる場合があります。たとえば、18.01 の答えは方程式、18.02 の答えはブール値、18.03 と 18.06 の答えはグラフまたはベクトル、および18.05 の答えは数値です。

MITが「Advanced Mathematics」ソルバーの強化版をリリース:7コースで正解率が81%に到達

#質問を受け取ったときの最初のステップは、モデルに質問の関連するコンテキストを見つけさせることです。研究者らは主に Codex によって生成された Python プログラムに焦点を当てていたため、質問の前に「プログラムを書いてください」というテキストを追加し、そのテキストを Python プログラムの 3 つの引用符で囲んで、プログラム内の docstring であるかのように見せかけました。

プログラムを生成した後、どのライブラリをインポートするかを指定するには、Codex プロンプトが必要です。作成者は、質問の前に「use sympy」という文字列をコンテキストとして追加することを選択し、問題を解決するために合成されたプログラムが次のとおりであることを指定しました。このパッケージを使用します。

各コースで使用される Python プログラミング パッケージを数えると、すべてのコースで NumPy と Sympy が使用されていることがわかります。 Matplotlib は、プロットが必要な問題のあるコースでのみ使用されます。コースの約半分は数学、ランダム、SciPy を使用します。実際の運用では、研究者らはインポートするパッケージとしてSymPyや描画関連のパッケージのみを指定し、インポートされたその他のパッケージは自動的に合成された。

MITが「Advanced Mathematics」ソルバーの強化版をリリース:7コースで正解率が81%に到達

ゼロショット学習法では、元の問題の自動強化のみを使用して、問題の 71% を自動的に解決できます。

問題が解決されない場合、研究者は少数ショット学習を使用してそのような問題を解決しようとします。

まず、OpenAI の text-similarity-babbag-001 埋め込みエンジンを使用して、すべての問題の 2048 次元の埋め込みを取得します。次に、すべてのベクトルのコサイン類似度計算を使用して、解決済みの問題に最も類似している未解決の問題を見つけます。問題の質問。最後に、最も類似した問題とそれに対応するコードが、新しい問題の少数例として使用されます。

生成されたコードが正しい答えを出力しない場合は、次の同様の解決済み質問を使用するたびに、別の解決済み質問とコードのペアを追加します。

実際には、少数ショット学習に最大 5 つの例を使用することが最も効果的であることがわかります。自動的に解決できる問題の総数は、ゼロショット学習の 71% から 81 に増加しました。少数ショット学習の %。

残りの 19% の問題を解決するには、人間の編集者が介入する必要があります。

研究者たちは最初にすべての質問を収集しましたが、そのほとんどが曖昧 (あいまい) であるか、映画の登場人物や時事問題への言及などの冗長な情報が含まれていることがわかりました。抽出するには質問を整理する必要がありました。質問の本質。

質問の並べ替えには、主に、冗長な情報の削除、長い文構造の小さなコンポーネントへの分解、およびプロンプトのプログラミング形式への変換が含まれます。

手動介入が必要なもう 1 つの状況は、質問への回答を説明するために複数の描画ステップが必要な場合です。つまり、望ましい視覚化効果が達成されるまで、コーデックスに対話型のプロンプトを表示する必要があります。

MITが「Advanced Mathematics」ソルバーの強化版をリリース:7コースで正解率が81%に到達

モデルは、答えを生成するだけでなく、その答えの理由も説明できる必要があります。研究者は、「上記のコードは次のとおりです」というプロンプトの言葉を通じてこれをガイドします。は次のことを行っています: 1.」モデルは、段階的に説明される結果を生成します。

質問に答えることができたら、次のステップは Codex を使用してコースごとに新しい質問を生成することです。

研究者らは、各クラスの生徒が書いた質問の番号付きリストを作成しました。このリストは、ランダムな数の質問の後に切り取られ、その結果は Codex に次の質問を生成するよう促すために使用されました。

このプロセスは、コースごとに十分な数の新しい質問が作成されるまで繰り返されます。

生成された質問を評価するために、研究者らはこれらのコースまたは同等のコースを受講したMITの学生を対象に調査を行い、機械で生成された質問の質と難易度を元のコースと比較しました。

MITが「Advanced Mathematics」ソルバーの強化版をリリース:7コースで正解率が81%に到達

学生アンケートの結果から次のことが分かります:

  • 機械による採点の品質はすでに人間による質問の品質に匹敵します;
  • 難易度の点では、人間による質問の方がコースの質問として適していますが、機械によって生成された結果は若干難しいです。一部;
  • コースの質問の半分以上がモデルによって生成されたものとして学生に認識され、人間に最も近いのは 18.01 コースです。

#参考情報:

https://www.reddit.com/r/artificial/comments/v8liqh/researchers_built_a_neural_network_that_not_only/

以上がMITが「Advanced Mathematics」ソルバーの強化版をリリース:7コースで正解率が81%に到達の詳細内容です。詳細については、PHP 中国語 Web サイトの他の関連記事を参照してください。

声明:
この記事は51cto.comで複製されています。侵害がある場合は、admin@php.cn までご連絡ください。