検索
ホームページテクノロジー周辺機器AIMITが「Advanced Mathematics」ソルバーの強化版をリリース:7コースで正解率が81%に到達

小学校の算数の文章題を解くだけでなく、高度な算数もAIが攻略し始めています!

最近、MIT の研究者は、OpenAI Codex 事前トレーニング モデルに基づいて、数回の学習で学部レベルの数学の問題について 81% の正解率を達成することに成功したと発表しました。

MITが「Advanced Mathematics」ソルバーの強化版をリリース:7コースで正解率が81%に到達

  • 論文リンク: https://arxiv.org/abs/2112.15594
  • コードリンク: https://github.com/idrori /mathq

最初に、単一変数関数のグラフを軸を中心に回転させることによって生成される体積の計算、ローレンツ アトラクターと射影の計算など、答えを確認するためにいくつかの小さな質問を見てみましょう。 、特異値分解 (SVD) の幾何学的形状を計算して描画すると、答えが正しいだけでなく、対応する説明も可能になります。

MITが「Advanced Mathematics」ソルバーの強化版をリリース:7コースで正解率が81%に到達

本当に信じられないです。昔を振り返るといつも高得点を出していたのに、今ではAIが一発で81点も取れるようになりました。AIが人間を超えたと一方的に宣言します。 。

さらにすごいのは、この研究では、通常の機械学習モデルでは解決が難しい問題を解決できるだけでなく、このテクノロジーが大規模に推進でき、コース内で問題を解決できることも示していることです。および同様のコース。

また、単一の機械学習モデルがこのような大規模な数学的問題を解決でき、説明、描画、さらには新しい質問の生成もできるのは史上初です。

実は、この論文は今年の初めに公開されました。半年間の改訂を経て、長さは 114 ページから 181 ページに増加しました。より多くの数学的問題を解決できるようになりました。付録A から Z. Laman まで直接番号が付けられています。

MITが「Advanced Mathematics」ソルバーの強化版をリリース:7コースで正解率が81%に到達

この記事の主な著者単位は 4 つあり、MIT、コロンビア大学、ハーバード大学、ウォータールー大学です。

筆頭著者の Iddo Drori は、MIT の電気工学およびコンピュータ サイエンス学部の AI 学科の講師であり、コロンビア大学工学応用科学部の非常勤准教授です。 CCAI NeurIPS 2021 Best Paper Awardを受賞しました。

MITが「Advanced Mathematics」ソルバーの強化版をリリース:7コースで正解率が81%に到達

彼の主な研究方向は、大学レベルの数学と STEM コースを機械に解決、説明、生成させようとする教育のための機械学習と、気候科学のための機械学習です。これは、極端な気候変動を予測し、気候を監視する数千年分のデータに基づいており、長年にわたる大西洋の海洋生物地球化学の変化を予測する学際的な研究を統合しており、自動運転のための機械学習アルゴリズムなどを備えています。

彼は、ケンブリッジ大学出版局から出版された『深層学習の科学』の著者でもあります。

高等教育におけるマイルストーン

この論文が発表されるまで、ほとんどの研究者は、ニューラル ネットワークは高数の問題を処理できず、いくつかの単純な数学的問題しか解決できないと信じていました。

Transformer モデルがさまざまな NLP タスクで人間のパフォーマンスを上回っていても、数学的問題を解決するのはまだ得意ではありません。主な理由は、GPT-3 などのさまざまな大規模なモデルがテキスト データのみで動作するためです。 -トレーニング中。

その後、一部の研究者は、段階的な分析 (思考の連鎖) を通じて言語モデルを推論していくつかの単純な数学的質問に答えることができるが、高度な数学的問題を解決するのはそれほど簡単ではないことを発見しました。 。

MITが「Advanced Mathematics」ソルバーの強化版をリリース:7コースで正解率が81%に到達

#ターゲットが高数値問題である場合は、まずトレーニング データの波を収集する必要があります。

著者は、MIT の 7 つのコースのそれぞれから 25 個の問題をランダムに選択しました。

  • 18.01 単一変数微積分
  • 18.02 多変数微積分
  • 18.03 微分方程式
  • 18.05 確率と統計の概要
  • 18.06 線形代数
  • 6.042 コンピューター サイエンス数学
  • コロンビア大学 COMS3251 計算線形代数

MATH データセットの場合、研究者はデータセットの 6 つのトピック (代数、計数と確率、中級代数、数論、前代数、および前代数) から 15 の質問をランダムに選択しました。

モデルによって生成された結果がトレーニング データに過剰適合していないことを確認するために、研究者らは、インターネット上で公開されていない COMS3251 コースを選択して、生成された結果を検証しました。

MITが「Advanced Mathematics」ソルバーの強化版をリリース:7コースで正解率が81%に到達

ワークフロー

モデルはコースの質問を入力として受け取り、コンテキストを使用して自動拡張を実行し、合成されたプログラムを生成し、最後に回答と生成された説明を出力します。

質問が異なれば、出力結果も異なる場合があります。たとえば、18.01 の答えは方程式、18.02 の答えはブール値、18.03 と 18.06 の答えはグラフまたはベクトル、および18.05 の答えは数値です。

MITが「Advanced Mathematics」ソルバーの強化版をリリース:7コースで正解率が81%に到達

#質問を受け取ったときの最初のステップは、モデルに質問の関連するコンテキストを見つけさせることです。研究者らは主に Codex によって生成された Python プログラムに焦点を当てていたため、質問の前に「プログラムを書いてください」というテキストを追加し、そのテキストを Python プログラムの 3 つの引用符で囲んで、プログラム内の docstring であるかのように見せかけました。

プログラムを生成した後、どのライブラリをインポートするかを指定するには、Codex プロンプトが必要です。作成者は、質問の前に「use sympy」という文字列をコンテキストとして追加することを選択し、問題を解決するために合成されたプログラムが次のとおりであることを指定しました。このパッケージを使用します。

各コースで使用される Python プログラミング パッケージを数えると、すべてのコースで NumPy と Sympy が使用されていることがわかります。 Matplotlib は、プロットが必要な問題のあるコースでのみ使用されます。コースの約半分は数学、ランダム、SciPy を使用します。実際の運用では、研究者らはインポートするパッケージとしてSymPyや描画関連のパッケージのみを指定し、インポートされたその他のパッケージは自動的に合成された。

MITが「Advanced Mathematics」ソルバーの強化版をリリース:7コースで正解率が81%に到達

ゼロショット学習法では、元の問題の自動強化のみを使用して、問題の 71% を自動的に解決できます。

問題が解決されない場合、研究者は少数ショット学習を使用してそのような問題を解決しようとします。

まず、OpenAI の text-similarity-babbag-001 埋め込みエンジンを使用して、すべての問題の 2048 次元の埋め込みを取得します。次に、すべてのベクトルのコサイン類似度計算を使用して、解決済みの問題に最も類似している未解決の問題を見つけます。問題の質問。最後に、最も類似した問題とそれに対応するコードが、新しい問題の少数例として使用されます。

生成されたコードが正しい答えを出力しない場合は、次の同様の解決済み質問を使用するたびに、別の解決済み質問とコードのペアを追加します。

実際には、少数ショット学習に最大 5 つの例を使用することが最も効果的であることがわかります。自動的に解決できる問題の総数は、ゼロショット学習の 71% から 81 に増加しました。少数ショット学習の %。

残りの 19% の問題を解決するには、人間の編集者が介入する必要があります。

研究者たちは最初にすべての質問を収集しましたが、そのほとんどが曖昧 (あいまい) であるか、映画の登場人物や時事問題への言及などの冗長な情報が含まれていることがわかりました。抽出するには質問を整理する必要がありました。質問の本質。

質問の並べ替えには、主に、冗長な情報の削除、長い文構造の小さなコンポーネントへの分解、およびプロンプトのプログラミング形式への変換が含まれます。

手動介入が必要なもう 1 つの状況は、質問への回答を説明するために複数の描画ステップが必要な場合です。つまり、望ましい視覚化効果が達成されるまで、コーデックスに対話型のプロンプトを表示する必要があります。

MITが「Advanced Mathematics」ソルバーの強化版をリリース:7コースで正解率が81%に到達

モデルは、答えを生成するだけでなく、その答えの理由も説明できる必要があります。研究者は、「上記のコードは次のとおりです」というプロンプトの言葉を通じてこれをガイドします。は次のことを行っています: 1.」モデルは、段階的に説明される結果を生成します。

質問に答えることができたら、次のステップは Codex を使用してコースごとに新しい質問を生成することです。

研究者らは、各クラスの生徒が書いた質問の番号付きリストを作成しました。このリストは、ランダムな数の質問の後に切り取られ、その結果は Codex に次の質問を生成するよう促すために使用されました。

このプロセスは、コースごとに十分な数の新しい質問が作成されるまで繰り返されます。

生成された質問を評価するために、研究者らはこれらのコースまたは同等のコースを受講したMITの学生を対象に調査を行い、機械で生成された質問の質と難易度を元のコースと比較しました。

MITが「Advanced Mathematics」ソルバーの強化版をリリース:7コースで正解率が81%に到達

学生アンケートの結果から次のことが分かります:

  • 機械による採点の品質はすでに人間による質問の品質に匹敵します;
  • 難易度の点では、人間による質問の方がコースの質問として適していますが、機械によって生成された結果は若干難しいです。一部;
  • コースの質問の半分以上がモデルによって生成されたものとして学生に認識され、人間に最も近いのは 18.01 コースです。

#参考情報:

https://www.reddit.com/r/artificial/comments/v8liqh/researchers_built_a_neural_network_that_not_only/

以上がMITが「Advanced Mathematics」ソルバーの強化版をリリース:7コースで正解率が81%に到達の詳細内容です。詳細については、PHP 中国語 Web サイトの他の関連記事を参照してください。

声明
この記事は51CTO.COMで複製されています。侵害がある場合は、admin@php.cn までご連絡ください。
Gemma Scope:AI'の思考プロセスを覗くためのGoogle'の顕微鏡Gemma Scope:AI'の思考プロセスを覗くためのGoogle'の顕微鏡Apr 17, 2025 am 11:55 AM

ジェマの範囲で言語モデルの内部の仕組みを探る AI言語モデルの複雑さを理解することは、重要な課題です。 包括的なツールキットであるGemma ScopeのGoogleのリリースは、研究者に掘り下げる強力な方法を提供します

ビジネスインテリジェンスアナリストは誰で、どのようになるか?ビジネスインテリジェンスアナリストは誰で、どのようになるか?Apr 17, 2025 am 11:44 AM

ビジネスの成功のロック解除:ビジネスインテリジェンスアナリストになるためのガイド 生データを組織の成長を促進する実用的な洞察に変換することを想像してください。 これはビジネスインテリジェンス(BI)アナリストの力です - GUにおける重要な役割

SQLに列を追加する方法は? - 分析VidhyaSQLに列を追加する方法は? - 分析VidhyaApr 17, 2025 am 11:43 AM

SQLの変更テーブルステートメント:データベースに列を動的に追加する データ管理では、SQLの適応性が重要です。 その場でデータベース構造を調整する必要がありますか? Alter Tableステートメントはあなたの解決策です。このガイドの詳細は、コルを追加します

ビジネスアナリストとデータアナリストビジネスアナリストとデータアナリストApr 17, 2025 am 11:38 AM

導入 2人の専門家が重要なプロジェクトで協力している賑やかなオフィスを想像してください。 ビジネスアナリストは、会社の目標に焦点を当て、改善の分野を特定し、市場動向との戦略的整合を確保しています。 シム

ExcelのCountとCountaとは何ですか? - 分析VidhyaExcelのCountとCountaとは何ですか? - 分析VidhyaApr 17, 2025 am 11:34 AM

Excelデータカウントと分析:カウントとカウントの機能の詳細な説明 特に大規模なデータセットを使用する場合、Excelでは、正確なデータカウントと分析が重要です。 Excelは、これを達成するためにさまざまな機能を提供し、CountおよびCounta関数は、さまざまな条件下でセルの数をカウントするための重要なツールです。両方の機能はセルをカウントするために使用されますが、設計ターゲットは異なるデータ型をターゲットにしています。 CountおよびCounta機能の特定の詳細を掘り下げ、独自の機能と違いを強調し、データ分析に適用する方法を学びましょう。 キーポイントの概要 カウントとcouを理解します

ChromeはAIと一緒にここにいます:毎日何か新しいことを体験してください!!ChromeはAIと一緒にここにいます:毎日何か新しいことを体験してください!!Apr 17, 2025 am 11:29 AM

Google Chrome'sAI Revolution:パーソナライズされた効率的なブラウジングエクスペリエンス 人工知能(AI)は私たちの日常生活を急速に変換しており、Google ChromeはWebブラウジングアリーナで料金をリードしています。 この記事では、興奮を探ります

ai' s Human Side:Wellbeing and the Quadruple bottuntai' s Human Side:Wellbeing and the Quadruple bottuntApr 17, 2025 am 11:28 AM

インパクトの再考:四重材のボトムライン 長い間、会話はAIの影響の狭い見方に支配されており、主に利益の最終ラインに焦点を当てています。ただし、より全体的なアプローチは、BUの相互接続性を認識しています

5ゲームを変える量子コンピューティングの使用ケースあなたが知っておくべきである5ゲームを変える量子コンピューティングの使用ケースあなたが知っておくべきであるApr 17, 2025 am 11:24 AM

物事はその点に向かって着実に動いています。量子サービスプロバイダーとスタートアップに投資する投資は、業界がその重要性を理解していることを示しています。そして、その価値を示すために、現実世界のユースケースの数が増えています

See all articles

ホットAIツール

Undresser.AI Undress

Undresser.AI Undress

リアルなヌード写真を作成する AI 搭載アプリ

AI Clothes Remover

AI Clothes Remover

写真から衣服を削除するオンライン AI ツール。

Undress AI Tool

Undress AI Tool

脱衣画像を無料で

Clothoff.io

Clothoff.io

AI衣類リムーバー

AI Hentai Generator

AI Hentai Generator

AIヘンタイを無料で生成します。

ホットツール

ゼンドスタジオ 13.0.1

ゼンドスタジオ 13.0.1

強力な PHP 統合開発環境

WebStorm Mac版

WebStorm Mac版

便利なJavaScript開発ツール

SublimeText3 Mac版

SublimeText3 Mac版

神レベルのコード編集ソフト(SublimeText3)

DVWA

DVWA

Damn Vulnerable Web App (DVWA) は、非常に脆弱な PHP/MySQL Web アプリケーションです。その主な目的は、セキュリティ専門家が法的環境でスキルとツールをテストするのに役立ち、Web 開発者が Web アプリケーションを保護するプロセスをより深く理解できるようにし、教師/生徒が教室環境で Web アプリケーションを教え/学習できるようにすることです。安全。 DVWA の目標は、シンプルでわかりやすいインターフェイスを通じて、さまざまな難易度で最も一般的な Web 脆弱性のいくつかを実践することです。このソフトウェアは、

Dreamweaver Mac版

Dreamweaver Mac版

ビジュアル Web 開発ツール