ホームページ >テクノロジー周辺機器 >AI >AIがクイズになると大暴れ!ハイレベル数学試験の正解率は81%、コンテスト問題のスコアはコンピュータサイエンス博士のスコアを上回ります
高校数学の試験に落ちることは、多くの人にとって悪夢です。
高校数学のテストが AI ほど良くないと言うなら、それを受け入れるのはさらに難しいでしょうか?
はい、OpenAI の Codex は、MIT の 7 つの高度な数学コースで 81.1% の正解率を達成しました。これは、MIT の学部生にとっては十分なレベルです。
初等微積分から微分方程式、確率論、線形代数まで幅広く、計算だけでなく作図も出題されます。
#この件は最近、Weibo でホット検索されています。
△「たった」81点、AIへの期待が大きすぎる
さて、Googleから最新ビッグニュースが届きました :
当社の AI は数学だけでなく、理工系科目全体でも最高得点を獲得しました。
テクノロジー大手は、「AI 問題解決者」の育成において新たなレベルに到達したようです。
最新の AI 問題作成会社である Google は 4 つの試験を受けました。
数学競技試験MATHで90点を獲得したのは過去3回のIMO金メダリストだけで、一般のコンピュータドクターは40点程度しか取れません。
他の AI の質問回答に関しては、以前の最高スコアはわずか 6.9 ポイントでした...
しかし、今回、Google の新しい AI は、コンピュータ ドクターよりも高い 50 ポイントを獲得しました。
総合試験 MMLU-STEM には数学、物理学、化学、生物学、電子工学、コンピュータ サイエンスが含まれており、問題の難易度は高校レベル、さらには大学レベルに達します。
今回も、Google AIの「完全健康版」が全質問の中で最も高いスコアを獲得し、直接的にスコアを約20ポイント引き上げた。
小学校の算数の問題 GSM8k は直接スコアを 78 点まで上げましたが、それに比べて GPT-3 は合格していません (わずか 55 点)。
固体化学、天文学、微分方程式、特殊相対性理論などの MIT の学部および大学院コースであっても、Google の新しい AI は 200 を超える質問の 3 分の 1 近くに答えることができます。
最も重要なことは、OpenAIが「プログラミングスキル」に依存して数学で高得点を獲得する手法とは異なり、今回のGoogle AIは「次のように考える」というアプローチをとっているということです。ルジ——
これは、暗記するだけで質問をしない文系学生のようなものですが、彼は科学と工学でより優れた問題解決スキルを習得しています。
この論文の筆頭著者である Lewkowycz 氏も、論文には書かれていないハイライトを共有していたことは言及する価値があります:
私たちのモデルは今年のポーランド数学大学入学試験、スコアは全国平均よりも高かった。
これを見て、じっとしていられなくなる親もいます。
娘にこのことを話したら、宿題にAIを使うようになるのではないかと心配です。しかし、それを彼女に伝えなければ、彼女の将来への備えができていないことになります。
#業界関係者の目には、算術、論理、代数をハードコーディングせずに言語モデルのみに依存してこのレベルに到達することが最も驚くべきことです。この研究の場所。
それでは、これはどのように行われるのでしょうか?
新しいモデル Minerva は、Pathway アーキテクチャーに基づく一般言語モデル PaLM に基づいています。
さらなるトレーニングは、それぞれ 80 億、600 億、5,400 億パラメータの PaLM モデルに基づいて実行されます。
ミネルバの質問に答えるアプローチは、コーデックスとはまったく異なります。
Codex の手法は、それぞれの数学の問題をプログラミングの問題に書き直し、コードを書くことで解決します。
一方、ミネルヴァは夢中になって論文を読み、数学記号を自然言語と同じように理解するよう強制しました。
PaLM に基づいてトレーニングを継続します。新しいデータ セットには 3 つの部分があります:
主に、arXiv で収集された 200 万件の学術論文、LaTeX 数式を含む 60 GB の Web ページ、および一部の小規模なデータが含まれています。 PaLM トレーニング段階で使用されるテキスト。
通常の NLP データ クリーニング プロセスでは、すべての記号が削除され、純粋なテキストのみが保持されるため、不完全な数式が生成されます。たとえば、アインシュタインの有名な質量エネルギー方程式だけが Emc2 に残ります。
しかし今回、Google はすべての数式を保持し、プレーンテキストと同じように Transformer トレーニング プログラムを実行したため、AI は言語を理解するのと同じように記号を理解できるようになりました。
これは、以前の言語モデルと比較して、Minerva が数学的問題でより優れたパフォーマンスを発揮する理由の 1 つです。
しかし、数学の問題を解くことに特化した AI と比較して、Minerva はトレーニングに明示的な基礎となる数学的構造を持たないため、欠点と利点が生じます。
欠点は、AI が正しい答えを得るために間違った手順を使用する可能性があることです。
利点は、さまざまな分野に適応できることです。一部の問題が正式な数学言語で表現できない場合でも、自然言語理解機能を組み合わせることで解決できます。
AI 推論段階では、Minerva は Google が最近開発したいくつかの新しいテクノロジーも組み合わせています。
1 つ目は、今年 1 月に Google Brain チームによって提案された、思考連鎖の思考リンク プロンプトです。
具体的には、質問するときに、ガイドとなる段階的な回答の例を示します。 AI は、質問に答えるときに同様の思考プロセスを使用して、他の方法では誤って答えられる質問に正しく答えることができます。
次に、Google と MIT が共同開発した Scrathpad 手法があります。これを使用すると、AI が段階的な計算の中間結果を一時的に保存できます。
最後に、今年 3 月にリリースされたばかりの多数決投票方法があります。
AI に同じ質問に複数回答えさせ、最も頻繁に出現した答えを選択させます。
これらすべてのテクニックを使用した後、5,400 億のパラメータを持つ Minerva は、さまざまなテスト セットで SOTA に到達します。
Minerva の 80 億パラメータ バージョンでも、競技レベルの数学の問題や MIT オープンコースの問題では、GPT-3 の最新更新版 davinci-002 バージョンのレベルに達することができます。
ここまで述べましたが、ミネルヴァは具体的にどのような問題を解決できるでしょうか?
Google はサンプル セットも公開していますので、見てみましょう。
数学において、ミネルバは暴力的な問題を直接解決するのではなく、人間のように段階的に値を計算することができます。
文章問題の場合は、自分で方程式を列挙して簡略化することができます。
証拠を導き出すこともできます。
物理学では、ミネルバは、中性窒素基底状態 (Z = 7) にある電子の総スピン量子数を求めるなど、大学レベルの問題を解くことができます。
生物学や化学では、ミネルバは言語理解能力を利用して、さまざまな多肢選択式の質問に答えることもできます。
次の点突然変異の形式のうち、DNA 配列から形成されるタンパク質に悪影響を及ぼさないものはどれですか?
次のうち、放射性元素はどれですか?
そして天文学: なぜ地球には強い磁場があるのでしょうか?
機械学習の観点から、「分布外サンプル検出」の具体的な意味を説明することで、この用語の別の言い方を正しく示しています。
......
しかし、ミネルヴァは時折、方程式の両辺の√を取り消すなどの愚かな間違いを犯します。
さらに、ミネルヴァは、次のような推論プロセスは間違っているが、結果は正しいという「偽陽性」の状況を 8% の確率で経験します。
分析の結果、チームは主なエラー形式が計算エラーと推論エラーに起因しており、質問の意味の理解エラーに起因するものはほんの一部であることを発見しました。手順内で間違った事実を使用している場合。その他のケース。
計算エラーは、外部計算機または Python インタプリタにアクセスすることで簡単に解決できますが、ニューラル ネットワークが大きすぎるため、他の種類のエラーを調整するのは困難です。
全体的に、Minerva のパフォーマンスは多くの人を驚かせており、コメント エリアで API の提供を求めています (残念ながら、Google にはまだ公開計画がありません)。
一部のネチズンは、GPT-3 の問題解決精度を過去数日間で 61% 急上昇させた「なだめる」手法と相まって、その精度は依然として高いのではないかと考えていました。さらに改善できるでしょうか?
ただし、著者の回答は、このなだめ手法はゼロサンプル学習に属し、どれほど強力であっても、少数サンプルほど優れているわけではない可能性がある、というものです。 4つの例で学びます。
一部のネチズンは、質問ができるので、逆に使用できるのかと尋ねました。
実際、MIT は OpenAI と提携して、AI を使用して大学生向けに質問を設定しました。
人間による質問とAIによる質問を混ぜて学生にアンケートをとりましたが、AIによる質問かどうかを誰が見ても判断することは困難でした。
つまり、現状はAI関係者がこの論文を読むのに忙しいということ以外はありません。
学生たちは、いつか AI を使って宿題ができるようになるのを楽しみにしています。
#教師たちも、AI を使ってテスト用紙を作成できる日を楽しみにしています。
ペーパーアドレス: https://storage.googleapis.com/minerva-paper/minerva_paper.pdf
デモアドレス: https://minerva- demo.github.io/
関連論文: 思考の連鎖 https://arxiv.org/abs/2201.11903Scrathpads https://arxiv.org/abs/2112.00114多数決 https://arxiv.org /abs/2203.11171
https://ai.googleblog.com/2022/06/minerva-solve-quantitative-reasoning.html
https: //twitter.com/bneyshabur/status/1542563148334596098
https://twitter.com/alewkowycz/status/1542559176483823622
以上がAIがクイズになると大暴れ!ハイレベル数学試験の正解率は81%、コンテスト問題のスコアはコンピュータサイエンス博士のスコアを上回りますの詳細内容です。詳細については、PHP 中国語 Web サイトの他の関連記事を参照してください。