AIがクイズになると大暴れ！ハイレベル数学試験の正解率は81%、コンテスト問題のスコアはコンピュータサイエンス博士のスコアを上回ります-AI-php.cn

ホームページ

テクノロジー周辺機器

AIがクイズになると大暴れ！ハイレベル数学試験の正解率は81%、コンテスト問題のスコアはコンピュータサイエンス博士のスコアを上回ります

WBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWB

Apr 11, 2023 pm 11:10 PM

aiopenaimit

高校数学の試験に落ちることは、多くの人にとって悪夢です。

AIがクイズになると大暴れ！ハイレベル数学試験の正解率は81%、コンテスト問題のスコアはコンピュータサイエンス博士のスコアを上回ります

高校数学のテストが AI ほど良くないと言うなら、それを受け入れるのはさらに難しいでしょうか?

はい、OpenAI の Codex は、MIT の 7 つの高度な数学コースで 81.1% の正解率を達成しました。これは、MIT の学部生にとっては十分なレベルです。

初等微積分から微分方程式、確率論、線形代数まで幅広く、計算だけでなく作図も出題されます。

AIがクイズになると大暴れ！ハイレベル数学試験の正解率は81%、コンテスト問題のスコアはコンピュータサイエンス博士のスコアを上回ります

#この件は最近、Weibo でホット検索されています。

AIがクイズになると大暴れ！ハイレベル数学試験の正解率は81%、コンテスト問題のスコアはコンピュータサイエンス博士のスコアを上回ります

△「たった」81点、AIへの期待が大きすぎる

さて、Googleから最新ビッグニュースが届きました :

当社の AI は数学だけでなく、理工系科目全体でも最高得点を獲得しました。

テクノロジー大手は、「AI 問題解決者」の育成において新たなレベルに到達したようです。

AIがクイズになると大暴れ！ハイレベル数学試験の正解率は81%、コンテスト問題のスコアはコンピュータサイエンス博士のスコアを上回ります

最新の AI 問題作成会社である Google は 4 つの試験を受けました。

数学競技試験MATHで90点を獲得したのは過去3回のIMO金メダリストだけで、一般のコンピュータドクターは40点程度しか取れません。

他の AI の質問回答に関しては、以前の最高スコアはわずか 6.9 ポイントでした...

しかし、今回、Google の新しい AI は、コンピュータドクターよりも高い 50 ポイントを獲得しました。

総合試験 MMLU-STEM には数学、物理学、化学、生物学、電子工学、コンピュータサイエンスが含まれており、問題の難易度は高校レベル、さらには大学レベルに達します。

今回も、Google AIの「完全健康版」が全質問の中で最も高いスコアを獲得し、直接的にスコアを約20ポイント引き上げた。

AIがクイズになると大暴れ！ハイレベル数学試験の正解率は81%、コンテスト問題のスコアはコンピュータサイエンス博士のスコアを上回ります

小学校の算数の問題 GSM8k は直接スコアを 78 点まで上げましたが、それに比べて GPT-3 は合格していません (わずか 55 点)。

固体化学、天文学、微分方程式、特殊相対性理論などの MIT の学部および大学院コースであっても、Google の新しい AI は 200 を超える質問の 3 分の 1 近くに答えることができます。

AIがクイズになると大暴れ！ハイレベル数学試験の正解率は81%、コンテスト問題のスコアはコンピュータサイエンス博士のスコアを上回ります

最も重要なことは、OpenAIが「プログラミングスキル」に依存して数学で高得点を獲得する手法とは異なり、今回のGoogle AIは「次のように考える」というアプローチをとっているということです。ルジ——

これは、暗記するだけで質問をしない文系学生のようなものですが、彼は科学と工学でより優れた問題解決スキルを習得しています。

この論文の筆頭著者である Lewkowycz 氏も、論文には書かれていないハイライトを共有していたことは言及する価値があります:

私たちのモデルは今年のポーランド数学大学入学試験、スコアは全国平均よりも高かった。

AIがクイズになると大暴れ！ハイレベル数学試験の正解率は81%、コンテスト問題のスコアはコンピュータサイエンス博士のスコアを上回ります

これを見て、じっとしていられなくなる親もいます。

娘にこのことを話したら、宿題にAIを使うようになるのではないかと心配です。しかし、それを彼女に伝えなければ、彼女の将来への備えができていないことになります。

AIがクイズになると大暴れ！ハイレベル数学試験の正解率は81%、コンテスト問題のスコアはコンピュータサイエンス博士のスコアを上回ります

#業界関係者の目には、算術、論理、代数をハードコーディングせずに言語モデルのみに依存してこのレベルに到達することが最も驚くべきことです。この研究の場所。

AIがクイズになると大暴れ！ハイレベル数学試験の正解率は81%、コンテスト問題のスコアはコンピュータサイエンス博士のスコアを上回ります

それでは、これはどのように行われるのでしょうか?

AI は arXiv で 200 万件の論文を読み取ります

新しいモデル Minerva は、Pathway アーキテクチャーに基づく一般言語モデル PaLM に基づいています。

さらなるトレーニングは、それぞれ 80 億、600 億、5,400 億パラメータの PaLM モデルに基づいて実行されます。

ミネルバの質問に答えるアプローチは、コーデックスとはまったく異なります。

Codex の手法は、それぞれの数学の問題をプログラミングの問題に書き直し、コードを書くことで解決します。

一方、ミネルヴァは夢中になって論文を読み、数学記号を自然言語と同じように理解するよう強制しました。

PaLM に基づいてトレーニングを継続します。新しいデータセットには 3 つの部分があります:

主に、arXiv で収集された 200 万件の学術論文、LaTeX 数式を含む 60 GB の Web ページ、および一部の小規模なデータが含まれています。 PaLM トレーニング段階で使用されるテキスト。

AIがクイズになると大暴れ！ハイレベル数学試験の正解率は81%、コンテスト問題のスコアはコンピュータサイエンス博士のスコアを上回ります

通常の NLP データクリーニングプロセスでは、すべての記号が削除され、純粋なテキストのみが保持されるため、不完全な数式が生成されます。たとえば、アインシュタインの有名な質量エネルギー方程式だけが Emc2 に残ります。

AIがクイズになると大暴れ！ハイレベル数学試験の正解率は81%、コンテスト問題のスコアはコンピュータサイエンス博士のスコアを上回ります

しかし今回、Google はすべての数式を保持し、プレーンテキストと同じように Transformer トレーニングプログラムを実行したため、AI は言語を理解するのと同じように記号を理解できるようになりました。

これは、以前の言語モデルと比較して、Minerva が数学的問題でより優れたパフォーマンスを発揮する理由の 1 つです。

しかし、数学の問題を解くことに特化した AI と比較して、Minerva はトレーニングに明示的な基礎となる数学的構造を持たないため、欠点と利点が生じます。

欠点は、AI が正しい答えを得るために間違った手順を使用する可能性があることです。

利点は、さまざまな分野に適応できることです。一部の問題が正式な数学言語で表現できない場合でも、自然言語理解機能を組み合わせることで解決できます。

AI 推論段階では、Minerva は Google が最近開発したいくつかの新しいテクノロジーも組み合わせています。

1 つ目は、今年 1 月に Google Brain チームによって提案された、思考連鎖の思考リンクプロンプトです。

具体的には、質問するときに、ガイドとなる段階的な回答の例を示します。 AI は、質問に答えるときに同様の思考プロセスを使用して、他の方法では誤って答えられる質問に正しく答えることができます。

AIがクイズになると大暴れ！ハイレベル数学試験の正解率は81%、コンテスト問題のスコアはコンピュータサイエンス博士のスコアを上回ります

次に、Google と MIT が共同開発した Scrathpad 手法があります。これを使用すると、AI が段階的な計算の中間結果を一時的に保存できます。

AIがクイズになると大暴れ！ハイレベル数学試験の正解率は81%、コンテスト問題のスコアはコンピュータサイエンス博士のスコアを上回ります

最後に、今年 3 月にリリースされたばかりの多数決投票方法があります。

AI に同じ質問に複数回答えさせ、最も頻繁に出現した答えを選択させます。

AIがクイズになると大暴れ！ハイレベル数学試験の正解率は81%、コンテスト問題のスコアはコンピュータサイエンス博士のスコアを上回ります

これらすべてのテクニックを使用した後、5,400 億のパラメータを持つ Minerva は、さまざまなテストセットで SOTA に到達します。

Minerva の 80 億パラメータバージョンでも、競技レベルの数学の問題や MIT オープンコースの問題では、GPT-3 の最新更新版 davinci-002 バージョンのレベルに達することができます。

AIがクイズになると大暴れ！ハイレベル数学試験の正解率は81%、コンテスト問題のスコアはコンピュータサイエンス博士のスコアを上回ります

ここまで述べましたが、ミネルヴァは具体的にどのような問題を解決できるでしょうか?

Google はサンプルセットも公開していますので、見てみましょう。

それは数学、物理学、化学、さらには機械学習においても万能です

数学において、ミネルバは暴力的な問題を直接解決するのではなく、人間のように段階的に値を計算することができます。

AIがクイズになると大暴れ！ハイレベル数学試験の正解率は81%、コンテスト問題のスコアはコンピュータサイエンス博士のスコアを上回ります

文章問題の場合は、自分で方程式を列挙して簡略化することができます。

AIがクイズになると大暴れ！ハイレベル数学試験の正解率は81%、コンテスト問題のスコアはコンピュータサイエンス博士のスコアを上回ります

証拠を導き出すこともできます。

AIがクイズになると大暴れ！ハイレベル数学試験の正解率は81%、コンテスト問題のスコアはコンピュータサイエンス博士のスコアを上回ります

物理学では、ミネルバは、中性窒素基底状態 (Z = 7) にある電子の総スピン量子数を求めるなど、大学レベルの問題を解くことができます。

AIがクイズになると大暴れ！ハイレベル数学試験の正解率は81%、コンテスト問題のスコアはコンピュータサイエンス博士のスコアを上回ります

生物学や化学では、ミネルバは言語理解能力を利用して、さまざまな多肢選択式の質問に答えることもできます。

次の点突然変異の形式のうち、DNA 配列から形成されるタンパク質に悪影響を及ぼさないものはどれですか?

AIがクイズになると大暴れ！ハイレベル数学試験の正解率は81%、コンテスト問題のスコアはコンピュータサイエンス博士のスコアを上回ります

次のうち、放射性元素はどれですか?

AIがクイズになると大暴れ！ハイレベル数学試験の正解率は81%、コンテスト問題のスコアはコンピュータサイエンス博士のスコアを上回ります

そして天文学: なぜ地球には強い磁場があるのでしょうか?

AIがクイズになると大暴れ！ハイレベル数学試験の正解率は81%、コンテスト問題のスコアはコンピュータサイエンス博士のスコアを上回ります

機械学習の観点から、「分布外サンプル検出」の具体的な意味を説明することで、この用語の別の言い方を正しく示しています。

AIがクイズになると大暴れ！ハイレベル数学試験の正解率は81%、コンテスト問題のスコアはコンピュータサイエンス博士のスコアを上回ります

......

しかし、ミネルヴァは時折、方程式の両辺の√を取り消すなどの愚かな間違いを犯します。

AIがクイズになると大暴れ！ハイレベル数学試験の正解率は81%、コンテスト問題のスコアはコンピュータサイエンス博士のスコアを上回ります

さらに、ミネルヴァは、次のような推論プロセスは間違っているが、結果は正しいという「偽陽性」の状況を 8% の確率で経験します。

AIがクイズになると大暴れ！ハイレベル数学試験の正解率は81%、コンテスト問題のスコアはコンピュータサイエンス博士のスコアを上回ります

分析の結果、チームは主なエラー形式が計算エラーと推論エラーに起因しており、質問の意味の理解エラーに起因するものはほんの一部であることを発見しました。手順内で間違った事実を使用している場合。その他のケース。

計算エラーは、外部計算機または Python インタプリタにアクセスすることで簡単に解決できますが、ニューラルネットワークが大きすぎるため、他の種類のエラーを調整するのは困難です。

AIがクイズになると大暴れ！ハイレベル数学試験の正解率は81%、コンテスト問題のスコアはコンピュータサイエンス博士のスコアを上回ります

全体的に、Minerva のパフォーマンスは多くの人を驚かせており、コメントエリアで API の提供を求めています (残念ながら、Google にはまだ公開計画がありません)。

AIがクイズになると大暴れ！ハイレベル数学試験の正解率は81%、コンテスト問題のスコアはコンピュータサイエンス博士のスコアを上回ります

一部のネチズンは、GPT-3 の問題解決精度を過去数日間で 61% 急上昇させた「なだめる」手法と相まって、その精度は依然として高いのではないかと考えていました。さらに改善できるでしょうか？

AIがクイズになると大暴れ！ハイレベル数学試験の正解率は81%、コンテスト問題のスコアはコンピュータサイエンス博士のスコアを上回ります

ただし、著者の回答は、このなだめ手法はゼロサンプル学習に属し、どれほど強力であっても、少数サンプルほど優れているわけではない可能性がある、というものです。 4つの例で学びます。

AIがクイズになると大暴れ！ハイレベル数学試験の正解率は81%、コンテスト問題のスコアはコンピュータサイエンス博士のスコアを上回ります

一部のネチズンは、質問ができるので、逆に使用できるのかと尋ねました。

AIがクイズになると大暴れ！ハイレベル数学試験の正解率は81%、コンテスト問題のスコアはコンピュータサイエンス博士のスコアを上回ります

実際、MIT は OpenAI と提携して、AI を使用して大学生向けに質問を設定しました。

人間による質問とAIによる質問を混ぜて学生にアンケートをとりましたが、AIによる質問かどうかを誰が見ても判断することは困難でした。

AIがクイズになると大暴れ！ハイレベル数学試験の正解率は81%、コンテスト問題のスコアはコンピュータサイエンス博士のスコアを上回ります

つまり、現状はAI関係者がこの論文を読むのに忙しいということ以外はありません。

学生たちは、いつか AI を使って宿題ができるようになるのを楽しみにしています。

AIがクイズになると大暴れ！ハイレベル数学試験の正解率は81%、コンテスト問題のスコアはコンピュータサイエンス博士のスコアを上回ります

#教師たちも、AI を使ってテスト用紙を作成できる日を楽しみにしています。

AIがクイズになると大暴れ！ハイレベル数学試験の正解率は81%、コンテスト問題のスコアはコンピュータサイエンス博士のスコアを上回ります

ペーパーアドレス: https://storage.googleapis.com/minerva-paper/minerva_paper.pdf

デモアドレス: https://minerva- demo.github.io/

関連論文: 思考の連鎖 https://arxiv.org/abs/2201.11903Scrathpads https://arxiv.org/abs/2112.00114多数決 https://arxiv.org /abs/2203.11171

参考リンク:

https://ai.googleblog.com/2022/06/minerva-solve-quantitative-reasoning.html

https: //twitter.com/bneyshabur/status/1542563148334596098

https://twitter.com/alewkowycz/status/1542559176483823622

以上がAIがクイズになると大暴れ！ハイレベル数学試験の正解率は81%、コンテスト問題のスコアはコンピュータサイエンス博士のスコアを上回りますの詳細内容です。詳細については、PHP 中国語 Web サイトの他の関連記事を参照してください。

声明

この記事は51CTO.COMで複製されています。侵害がある場合は、admin@php.cn までご連絡ください。

あなたは無知のベールの後ろに職場AIを構築する必要がありますApr 29, 2025 am 11:15 AM

ジョン・ロールズの独創的な1971年の著書「正義の理論」で、彼は私たちが今日のAIデザインの核となり、意思決定を使用するべきであるという思考実験を提案しました：無知のベール。この哲学は、公平性を理解するための簡単なツールを提供し、リーダーがこの理解を使用してAIを公平に設計および実装するための青写真を提供します。あなたが新しい社会のルールを作っていると想像してください。しかし、前提があります。この社会でどのような役割を果たすかは事前にわかりません。過半数または限界少数派に属している、金持ちまたは貧弱、健康、または障害者になることがあります。この「無知のベール」の下で活動することで、ルールメーカーが自分自身に利益をもたらす決定を下すことができません。それどころか、人々はより公衆を策定する意欲があります

決定、決定…実用的な応用AIの次のステップApr 29, 2025 am 11:14 AM

ロボットプロセスオートメーション（RPA）を専門とする多くの企業は、繰り返しタスクを自動化するためのボットを提供しています。一方、プロセスマイニング、オーケストレーション、インテリジェントドキュメント処理スペシャル

エージェントが来ています - 私たちがAIパートナーの隣ですることについてもっとApr 29, 2025 am 11:13 AM

AIの未来は、単純な単語の予測と会話シミュレーションを超えて動いています。 AIエージェントは出現しており、独立したアクションとタスクの完了が可能です。このシフトは、AnthropicのClaudeのようなツールですでに明らかです。 AIエージェント：研究a

共感がAI主導の未来におけるリーダーのコントロールよりも重要である理由Apr 29, 2025 am 11:12 AM

急速な技術の進歩は、仕事の未来に関する将来の見通しの視点を必要とします。 AIが単なる生産性向上を超えて、私たちの社会構造の形成を開始するとどうなりますか？ Topher McDougalの今後の本、Gaia Wakes：

製品分類のためのAI：マシンは税法を習得できますか？Apr 29, 2025 am 11:11 AM

多くの場合、Harmonized System（HS）などのシステムからの「HS 8471.30」などの複雑なコードを含む製品分類は、国際貿易と国内販売に不可欠です。これらのコードは、すべてのINVに影響を与える正しい税申請を保証します

データセンターの要求は、気候技術のリバウンドを引き起こす可能性がありますか？Apr 29, 2025 am 11:10 AM

データセンターと気候技術投資におけるエネルギー消費の将来この記事では、AIが推進するデータセンターのエネルギー消費の急増と気候変動への影響を調査し、この課題に対処するための革新的なソリューションと政策の推奨事項を分析します。エネルギー需要の課題：大規模で超大規模なデータセンターは、数十万の普通の北米の家族の合計に匹敵する巨大な力を消費し、新たなAIの超大規模なセンターは、これよりも数十倍の力を消費します。 2024年の最初の8か月で、Microsoft、Meta、Google、Amazonは、AIデータセンターの建設と運用に約1,250億米ドルを投資しました（JP Morgan、2024）（表1）。エネルギー需要の成長は、挑戦と機会の両方です。カナリアメディアによると、迫り来る電気

AIとハリウッドの次の黄金時代Apr 29, 2025 am 11:09 AM

生成AIは、映画とテレビの制作に革命をもたらしています。 LumaのRay 2モデル、滑走路のGen-4、OpenaiのSora、GoogleのVEO、その他の新しいモデルは、前例のない速度で生成されたビデオの品質を向上させています。これらのモデルは、複雑な特殊効果と現実的なシーンを簡単に作成できます。短いビデオクリップやカメラ認知モーション効果も達成されています。これらのツールの操作と一貫性を改善する必要がありますが、進歩の速度は驚くべきものです。生成ビデオは独立した媒体になりつつあります。アニメーション制作が得意なモデルもあれば、実写画像が得意なモデルもあります。 AdobeのFireflyとMoonvalleyのMAであることは注目に値します

ChatGptはゆっくりとAIの最大のYES-MANになりますか？Apr 29, 2025 am 11:08 AM

ChatGptユーザーエクスペリエンスは低下します：それはモデルの劣化ですか、それともユーザーの期待ですか？最近、多数のCHATGPT有料ユーザーがパフォーマンスの劣化について不満を述べています。ユーザーは、モデルへの応答が遅く、答えが短い、助けの欠如、さらに多くの幻覚を報告しました。一部のユーザーは、ソーシャルメディアに不満を表明し、ChatGptは「お世辞になりすぎて」、重要なフィードバックを提供するのではなく、ユーザービューを検証する傾向があることを指摘しています。これは、ユーザーエクスペリエンスに影響を与えるだけでなく、生産性の低下やコンピューティングリソースの無駄など、企業の顧客に実際の損失をもたらします。パフォーマンスの劣化の証拠多くのユーザーは、特にGPT-4などの古いモデル（今月末にサービスから廃止される）で、ChatGPTパフォーマンスの大幅な分解を報告しています。これ

See all articles

ホットAIツール

Undresser.AI Undress

リアルなヌード写真を作成する AI 搭載アプリ

AI Clothes Remover

写真から衣服を削除するオンライン AI ツール。

Undress AI Tool

脱衣画像を無料で

Clothoff.io

AI衣類リムーバー

Video Face Swap

完全無料の AI 顔交換ツールを使用して、あらゆるビデオの顔を簡単に交換できます。

ホットツール

MinGW - Minimalist GNU for Windows

このプロジェクトは osdn.net/projects/mingw に移行中です。引き続きそこでフォローしていただけます。 MinGW: GNU Compiler Collection (GCC) のネイティブ Windows ポートであり、ネイティブ Windows アプリケーションを構築するための自由に配布可能なインポートライブラリとヘッダーファイルであり、C99 機能をサポートする MSVC ランタイムの拡張機能が含まれています。すべての MinGW ソフトウェアは 64 ビット Windows プラットフォームで実行できます。