最新の PNAS 研究: 81% の問題解決率、ニューラルネットワーク Codex が高度な数学の世界への扉を開く-AI-php.cn

ホームページ

テクノロジー周辺機器

最新の PNAS 研究: 81% の問題解決率、ニューラルネットワーク Codex が高度な数学の世界への扉を開く

WBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWB

Apr 09, 2023 pm 03:51 PM

モデル研究

最近、新しい研究が PNAS に発表され、ニューラルネットワークの機能が再び更新されました。今回は、ニューラルネットワークを使用して高度な数学の問題を解決しました。それは、MIT 数学コースの難しい数学の問題でした。

この新しい研究で、研究チームは、OpenAI の Codex モデルがプログラム合成を実行して大規模な数学的問題を解決でき、小規模なサンプル学習を通じてデータセットの 81% を自動的に解決できることを証明しました。数学コースの問題で、Codex はこれらのタスクで人間レベルのパフォーマンスを達成しました。

最新の PNAS 研究: 81% の問題解決率、ニューラルネットワーク Codex が高度な数学の世界への扉を開く

元のリンク: https://www.pnas.org/doi/10.1073/pnas.2123433119

この研究の出現は、ニューラルネットワークでは高度な数学の問題を解決できないという共通認識を覆します。研究チームは、「Codexがこのような機能を実現できるのは、まさにチームが大きな革新を行ったからだ。過去の失敗した研究ではテキストベースの事前学習のみが使用されており、今回登場したCodexニューラルネットワークは使用されていなかった」と指摘した。事前トレーニングのみがテキストに基づいて行われ、コードも微調整されます。

調査した質問データセットは、MIT の 6 つの数学コースとコロンビア大学の 1 つの数学コースから選択され、MIT の一変量ミクロン積分、多変数微積分、微分方程式、確率と統計の入門、コンピュータサイエンスのための線形代数と数学、コロンビア大学の COMS3251 計算線形代数。

同時に、研究チームは、数学的推論を評価するための最新の高度な数学問題ベンチマークである MATH を使用して、OpenAI Codex の機能をテストしました。MATH は 6 つの主要な数学セクションから抽出されました: ジュニア代数、代数、計数と確率、中級代数、数論、微積分からそれぞれ 15 問。

最新の PNAS 研究: 81% の問題解決率、ニューラルネットワーク Codex が高度な数学の世界への扉を開く

#キャプション: 研究で使用されたコースの質問データセットと MATH ベンチマーク

調査によると、Codex は問題データセットと MATH データセット内の 265 の問題を解決し、そのうち 213 は自動的に解決されました。

イノベーションはどこにありますか #Transformer のリリース後、Transformer に基づく言語モデルはさまざまな自然言語処理 (NLP) で使用されています。 ) タスクを含むゼロショットおよび数ショットの言語タスクで大きな成功を収めました。ただし、Transformer はテキストでのみ事前トレーニングされているため、これらのモデルは基本的に数学的な問題を解決することができません (GPT-3 がその典型的な例です)。

その後、少数ショット学習と思考連鎖 (CoT) プロンプトにより、GPT-3 の数学的推論機能が向上しましたが、コードなしでも、小規模ショットでも学習と CoT ヒントでは、GPT-3 は大学レベルの数学の問題や MATH ベンチマークでは依然として無力です。

数学的問題を解決するための過去の研究は、比較的単純な数学レベルで一定の結果を達成した可能性があります。たとえば、MAWPS や Math23k など、協調トレーニングの出力に基づいて式ツリーを検証または予測する手法は、小学校レベルの数学の問題を 81% 以上の精度で解くことができますが、高校、オリンピックの数学、または大学レベルの問題を解くことはできません。数学の問題。コース。グラフニューラルネットワーク (GNN) と組み合わせた共同トレーニングにより、算術式ツリーを予測することで、機械学習における大学レベルの問題を最大 95% の精度で解決できます。しかし、この作業も数値的な回答に限定されており、過剰適合が生じ、他のコースに一般化することはできませんでした。

この作品の

最大の革新点

の 1 つは、Codex などの Transformer モデルがテキスト上で事前トレーニングされるだけでなく、コード上でも事前トレーニングされることです。 -大規模な数学的問題を解決するプログラムを生成できるように調整されています。

研究チームは、テストに入力画像や証明を必要としない質問サンプルをデータセットからランダムに選択しました。その中で、テキストのみで事前トレーニングされた言語モデル (GPT-3 text-davinci-002) は、コース問題の 18% と MATH ベンチマーク問題の 25.5% のみを自動的に解決しました。

対照的に、ゼロショット学習と、テキストで事前トレーニングされ、コードで微調整されたニューラルネットワークを使用して合成されたプログラム (OpenAI Codex code-davinci-002) は、71% を自動的に解決できます。もちろん、MATH ベンチマーク問題の 72.2% を占めています。

同じニューラルネットワーク Codex と数ショット学習を使用すると、コースの問題の 81% と MATH ベンチマークテストの問題の 81.1% を自動的に解決できます。ただし、残りのモデルでは自動的に解決できなかったコース問題の 19% と MATH ベンチマーク問題の 18.9% は、手動プロンプトによって最終的に解決されました。

小規模サンプル学習法の追加は、この研究の 2 番目の主要な革新です。上の図からわかるように、ゼロショット学習で質問に答えることができない場合、(質問、コード) を使用して (ペア) に対してスモールショット学習を実行します。 1) OpenAI を使用します text-similarity-babbage-001 埋め込みエンジンはすべての質問を埋め込みます;

2) 埋め込まれたコサイン類似度を使用して、コースから最も類似した解決された質問を計算します未解決の質問;

3) 最も類似した問題とそれに対応するコードを、小さなサンプル問題の例として取り上げます。

#図: 4 つの方法の自動問題解決率の比較最新の PNAS 研究: 81% の問題解決率、ニューラルネットワーク Codex が高度な数学の世界への扉を開く

上の図は、Codex のゼロサンプル学習、小サンプル学習、GPT-3 のゼロサンプル学習、小サンプル学習の自動問題解決率の比較を示しています。図から、オレンジ色のバーで表される小規模サンプル学習 Codex は自動問題解決率に優れたパフォーマンスを示し、基本的にあらゆる数学分野で他の 3 つの方法よりもパフォーマンスが優れていることがわかります。

この研究の 3 番目の大きなイノベーションは、数学的問題を解決し、なぜその問題がそのように解決されるのかを説明するためのパイプラインを提供することです。下の図は MIT 5 の実行フローを示しています。数学コースでのパイプラインの説明。

18.01 の単一変数微積分問題を例にとると、問題と自動的に生成されたプレフィックス「Use SymPy」が与えられると、Codex はプロンプトを表示し、プログラムを出力します。プログラムを実行すると、正しい答えをもつ方程式が生成されます。その後、プログラムは再び Codex の入力を自動的に要求し、コードの説明が生成されます。

最新の PNAS 研究: 81% の問題解決率、ニューラルネットワーク Codex が高度な数学の世界への扉を開く 2

問題解決後

Codex は、数学の問題を解いて答えを説明するだけでなく、コースごとに新しい質問を生成するためにも使用されます。

生成された質問のレベルを評価するために、チームは、主に機械生成された質問の品質を比較するために、これらのコースまたは同じレベルのコースを受講した MIT の学生を対象にアンケートを実施しました。手書きの質問と難易度。

MIT の 6 つのコースのそれぞれでは、5 つの手書きの質問と 5 つのモデルで生成された質問が混合され、ランダムに提示されます。 60 の質問それぞれについて、参加学生は 3 つのアンケート質問に答えるように求められました。

1) この質問は人間が書いたものだと思いますか、それとも機械が作成したものだと思いますか?

2) この質問は特定のコースにとって適切だと思いますか、それとも不適切だと思いますか?

3 ) 1 (最も簡単) と 5 (最も難しい) のスケールで、この問題の難易度をどのように評価しますか?

返送されたアンケートでは、学生のアンケート結果は次のように要約されています。

機械で生成された質問と手動で書かれた質問の難しさは似ています。
人間が作成した質問は、機械が生成した質問よりもコースに適しています。
人間が書いた解答は誤答を特定するのが困難ですが、機械が生成した質問は、学生によって機械が生成したか人間が書いたかのいずれかであると考えられます。

#機械が生成した質問は学生には区別できなくなり、Codex が新しいコンテンツを作成する際に人間のパフォーマンスレベルに達したことを示しています。

ただし、モデルには解決できない問題もあります。たとえば、質問が画像やその他の非テキスト形式で表示されている場合は回答できません。解決策が必要な質問もあります。あるいは、非常に大きな素数の素因数分解などの計算困難な問題は、このモデルでは解決できません。ただし、この最後のタイプの質問は、実際の学生でも答えることができないため、数学の授業には出てくるべきではありません。

以上が最新の PNAS 研究: 81% の問題解決率、ニューラルネットワーク Codex が高度な数学の世界への扉を開くの詳細内容です。詳細については、PHP 中国語 Web サイトの他の関連記事を参照してください。

声明

この記事は51CTO.COMで複製されています。侵害がある場合は、admin@php.cn までご連絡ください。

あなたは無知のベールの後ろに職場AIを構築する必要がありますApr 29, 2025 am 11:15 AM

ジョン・ロールズの独創的な1971年の著書「正義の理論」で、彼は私たちが今日のAIデザインの核となり、意思決定を使用するべきであるという思考実験を提案しました：無知のベール。この哲学は、公平性を理解するための簡単なツールを提供し、リーダーがこの理解を使用してAIを公平に設計および実装するための青写真を提供します。あなたが新しい社会のルールを作っていると想像してください。しかし、前提があります。この社会でどのような役割を果たすかは事前にわかりません。過半数または限界少数派に属している、金持ちまたは貧弱、健康、または障害者になることがあります。この「無知のベール」の下で活動することで、ルールメーカーが自分自身に利益をもたらす決定を下すことができません。それどころか、人々はより公衆を策定する意欲があります

決定、決定…実用的な応用AIの次のステップApr 29, 2025 am 11:14 AM

ロボットプロセスオートメーション（RPA）を専門とする多くの企業は、繰り返しタスクを自動化するためのボットを提供しています。一方、プロセスマイニング、オーケストレーション、インテリジェントドキュメント処理スペシャル

エージェントが来ています - 私たちがAIパートナーの隣ですることについてもっとApr 29, 2025 am 11:13 AM

AIの未来は、単純な単語の予測と会話シミュレーションを超えて動いています。 AIエージェントは出現しており、独立したアクションとタスクの完了が可能です。このシフトは、AnthropicのClaudeのようなツールですでに明らかです。 AIエージェント：研究a

共感がAI主導の未来におけるリーダーのコントロールよりも重要である理由Apr 29, 2025 am 11:12 AM

急速な技術の進歩は、仕事の未来に関する将来の見通しの視点を必要とします。 AIが単なる生産性向上を超えて、私たちの社会構造の形成を開始するとどうなりますか？ Topher McDougalの今後の本、Gaia Wakes：

製品分類のためのAI：マシンは税法を習得できますか？Apr 29, 2025 am 11:11 AM

多くの場合、Harmonized System（HS）などのシステムからの「HS 8471.30」などの複雑なコードを含む製品分類は、国際貿易と国内販売に不可欠です。これらのコードは、すべてのINVに影響を与える正しい税申請を保証します

データセンターの要求は、気候技術のリバウンドを引き起こす可能性がありますか？Apr 29, 2025 am 11:10 AM

データセンターと気候技術投資におけるエネルギー消費の将来この記事では、AIが推進するデータセンターのエネルギー消費の急増と気候変動への影響を調査し、この課題に対処するための革新的なソリューションと政策の推奨事項を分析します。エネルギー需要の課題：大規模で超大規模なデータセンターは、数十万の普通の北米の家族の合計に匹敵する巨大な力を消費し、新たなAIの超大規模なセンターは、これよりも数十倍の力を消費します。 2024年の最初の8か月で、Microsoft、Meta、Google、Amazonは、AIデータセンターの建設と運用に約1,250億米ドルを投資しました（JP Morgan、2024）（表1）。エネルギー需要の成長は、挑戦と機会の両方です。カナリアメディアによると、迫り来る電気

AIとハリウッドの次の黄金時代Apr 29, 2025 am 11:09 AM

生成AIは、映画とテレビの制作に革命をもたらしています。 LumaのRay 2モデル、滑走路のGen-4、OpenaiのSora、GoogleのVEO、その他の新しいモデルは、前例のない速度で生成されたビデオの品質を向上させています。これらのモデルは、複雑な特殊効果と現実的なシーンを簡単に作成できます。短いビデオクリップやカメラ認知モーション効果も達成されています。これらのツールの操作と一貫性を改善する必要がありますが、進歩の速度は驚くべきものです。生成ビデオは独立した媒体になりつつあります。アニメーション制作が得意なモデルもあれば、実写画像が得意なモデルもあります。 AdobeのFireflyとMoonvalleyのMAであることは注目に値します

ChatGptはゆっくりとAIの最大のYES-MANになりますか？Apr 29, 2025 am 11:08 AM

ChatGptユーザーエクスペリエンスは低下します：それはモデルの劣化ですか、それともユーザーの期待ですか？最近、多数のCHATGPT有料ユーザーがパフォーマンスの劣化について不満を述べています。ユーザーは、モデルへの応答が遅く、答えが短い、助けの欠如、さらに多くの幻覚を報告しました。一部のユーザーは、ソーシャルメディアに不満を表明し、ChatGptは「お世辞になりすぎて」、重要なフィードバックを提供するのではなく、ユーザービューを検証する傾向があることを指摘しています。これは、ユーザーエクスペリエンスに影響を与えるだけでなく、生産性の低下やコンピューティングリソースの無駄など、企業の顧客に実際の損失をもたらします。パフォーマンスの劣化の証拠多くのユーザーは、特にGPT-4などの古いモデル（今月末にサービスから廃止される）で、ChatGPTパフォーマンスの大幅な分解を報告しています。これ

See all articles

ホットAIツール

Undresser.AI Undress

リアルなヌード写真を作成する AI 搭載アプリ

AI Clothes Remover

写真から衣服を削除するオンライン AI ツール。

Undress AI Tool

脱衣画像を無料で

Clothoff.io

AI衣類リムーバー

Video Face Swap

完全無料の AI 顔交換ツールを使用して、あらゆるビデオの顔を簡単に交換できます。

ホットツール

SublimeText3 Linux 新バージョン

SublimeText3 Linux 最新バージョン

SecLists

SecLists は、セキュリティテスターの究極の相棒です。これは、セキュリティ評価中に頻繁に使用されるさまざまな種類のリストを 1 か所にまとめたものです。 SecLists は、セキュリティテスターが必要とする可能性のあるすべてのリストを便利に提供することで、セキュリティテストをより効率的かつ生産的にするのに役立ちます。リストの種類には、ユーザー名、パスワード、URL、ファジングペイロード、機密データパターン、Web シェルなどが含まれます。テスターはこのリポジトリを新しいテストマシンにプルするだけで、必要なあらゆる種類のリストにアクセスできるようになります。