ホームページ >テクノロジー周辺機器 >AI >第1回AI数学オリンピック競技プラン発表：優勝4チームはいずれも国産モデルDeepSeekMathを選択

第1回AI数学オリンピック競技プラン発表：優勝4チームはいずれも国産モデルDeepSeekMathを選択

王林オリジナル: 2024-07-16 18:14:571309ブラウズ

AI 数学オリンピックの優勝モデルが登場しました!

数日前のリストの発表により、世界初のAI数学オリンピック(AIMO)プログレス賞に関する議論の量は依然として高かった。

この大会では合計 5 チームが優勝し、Numina チームが 1 位、CMU_MATH が 2 位、試験の結果暫定的に 3 位、codeinter チームと Conor #2 チームがそれぞれ 5 点で 4 位と 3 位を獲得しました。

第1回AI数学オリンピック競技プラン発表：優勝4チームはいずれも国産モデルDeepSeekMathを選択

^{タオ・ゼクサンは驚いた。}

当時、公式は受賞者のリストを発表しただけで、その背後にあるモデルに関する詳細は明らかにしませんでした。誰もが気になる、優勝チームはどのモデルを使用したのか？

先ほど、AIMO Progress Awards 上位 4 位のモデルが発表されました。

チャンピオンシップチームが使用したモデルは、deepseek-math-7b-base の微調整バージョンである NuminaMath 7B TIR です。

2 位のチームは、2 つの DeepSeek-Math-7B-RL モデルを微調整しました。1 つはポリシーモデル (ソリューション生成用) として、もう 1 つは報酬モデル (加重多数決用) としてソリューションがスコアリングされます。

3 位も、微調整を行わずに DeepSeek-Math-7B-RL モデルを使用し、多数決戦略を使用して、確立されたスコアリングルールを通じて正解を選択しました。

4 位のチームも deepseek-math-7b-rl を使用し、パラメータ設定温度は 0.9、top_p は 1.0、最大トークン数は 2048 でした。コーディングツールと組み合わせると、このモデルは MATH ベンチマークで 58.8% を達成します。

上位 4 チームがすべて DeepSeekMath-7B を基本モデルとして選択し、良好な結果を達成したことを見つけるのは難しくありません。このモデルの数学的推論能力は GPT-4 の能力に近く、MATH ベンチマークリストにある 30B ～ 70B のオープンソースモデルの数を上回っています。

チャンピオン: NuminaMath 7B TIRモデル

次に、この大会のチャンピオンプランを詳しく見てみましょう。

NuminaMath は、ツール統合推論 (TIR) を使用して数学的問題を解決するように訓練された言語モデルのファミリーです。

NuminaMath 7B TIR は、2 段階の教師付き微調整を備えた deepseek-math-7b-base の微調整バージョンです:

ステージ 1: 自然言語の数学的問題の大規模モデリングおよびソリューションでは、基本モデルが多様なデータセットに基づいて微調整されており、各ソリューションは推論を容易にするために思考連鎖 (CoT) を使用してテンプレート化されています。

フェーズ 2: ツール統合推論 (TIR) の合成データセットでフェーズ 1 で取得したモデルを微調整します。ここでは、各数学的問題が一連の基礎となる原理、Python プログラム、およびその出力に分割されます。これにより、GPT-4 はコード実行フィードバックを含む ToRA 形式 (Microsoft) ソリューションを生成します。このデータを微調整すると、自然言語推論と Python REPL を使用した中間結果の計算を組み合わせて数学的問題を解決できる推論エージェントが作成されます。

NuminaMath 7B TIR が競技レベルの数学問題を解くために特別に作成されたことは注目に値します。したがって、このモデルは一般的なチャットアプリケーションでは使用しないでください。貪欲なデコードを使用して、優勝チームは、モデルが AMC レベル 12 の問題を解決できることを発見しましたが、一般に、難しい AIME および数学オリンピックレベルの問題に対する効率的な解決策を生成するのに苦労しました。このモデルはまた、おそらくその能力が限られており、視覚などのモダリティが欠如しているため、幾何学的な問題を解決するのが困難です。

以上が第1回AI数学オリンピック競技プラン発表：優勝4チームはいずれも国産モデルDeepSeekMathを選択の詳細内容です。詳細については、PHP 中国語 Web サイトの他の関連記事を参照してください。

Python math https gpt prompt

声明：

この記事の内容はネチズンが自主的に寄稿したものであり、著作権は原著者に帰属します。このサイトは、それに相当する法的責任を負いません。盗作または侵害の疑いのあるコンテンツを見つけた場合は、admin@php.cn までご連絡ください。

前の記事：Hot GPT 体験レポート: 専用の GPT を作成、コードを理解できない人にも春が来る次の記事：Hot GPT 体験レポート: 専用の GPT を作成、コードを理解できない人にも春が来る

続きを見る