LLaMA-2-7Bの数学能力の上限は97.7%に達している？ Xwin-Math が合成データの可能性を解き放つ-AI-php.cn

ホームページ

テクノロジー周辺機器

LLaMA-2-7Bの数学能力の上限は97.7%に達している？ Xwin-Math が合成データの可能性を解き放つ

PHPz

Mar 15, 2024 pm 12:07 PM

プロジェクト

合成データは、大規模モデルの数学的推論の可能性を解き放ち続けています。

数学的問題解決能力は、言語モデルの知能レベルを示す重要な指標として常に考えられてきました。通常、非常に大規模なモデル、または広範な数学的事前トレーニングを受けたモデルのみが、数学的問題で適切に実行できる可能性があります。

最近、Swin-Transformer チームによって作成され、西安交通大学、中国科学技術大学、清華大学、マイクロソフトの学者によって完成された研究成果が発表されました。 Research Asia Xwin はこの認識を覆し、一般的な事前トレーニング下の 7B (つまり 70 億パラメータ) スケール言語モデル (LLaMA-2-7B) が数学的問題を解決する上で強力な可能性を示しており、合成に基づいて使用できることを明らかにしました。 -データの調整方法により、モデルが数学的機能をより安定して刺激できるようになります。

この研究は、「Common 7B Language Models Already Possess Strong Math Capabilities」というタイトルで arXiv に公開されました。

LLaMA-2-7Bの数学能力の上限は97.7%に達している？ Xwin-Math が合成データの可能性を解き放つ

論文リンク: https://arxiv.org/pdf/2403.04706.pdf
コードリンク: https://github.com/Xwin-LM/Xwin-LM

研究チームは最初、LLaMA を実行するために 7.5K のデータのみを使用しました。 - 2-7B モデル命令は、GSM8K および MATH でモデルのパフォーマンスを評価するために微調整されています。実験結果は、テストセット内の各質問に対して生成された 256 の回答から最良の回答を選択する場合、テストの精度はそれぞれ 97.7% と 72.0% に達する可能性があることを示しています。この結果は、一般的な事前トレーニング下でも 7B レベルが達成できることを示しています。小規模なモデルであっても高品質の答えを生成する可能性があるという発見は、強力な数学的推論の可能性は大規模で数学的に関連した事前トレーニング済みモデルに限定されないというこれまでの見解に疑問を投げかけます。

LLaMA-2-7Bの数学能力の上限は97.7%に達している？ Xwin-Math が合成データの可能性を解き放つ

ただし、研究では、言語モデルには強力な数学的推論の可能性があるものの、現在の言語モデルの主な問題は、その固有の数学的能力を一貫して刺激することが難しいことであるとも指摘しています。たとえば、前の実験で質問ごとに生成された回答が 1 つだけ考慮された場合、GSM8K ベンチマークと MATH ベンチマークの精度はそれぞれ 49.5% と 7.9% に低下します。これは、モデルの数学的機能の不安定性を反映しています。この問題を解決するために、研究チームは教師あり微調整（SFT）データセットを拡張する方法を採用し、SFTデータの増加に伴い、正解を生成するモデルの信頼性が大幅に向上することを発見しました。

研究では、合成データを使用することで SFT データセットを効果的に拡大でき、この方法は実際のデータとほぼ同じ効果があることにも言及しました。研究チームは GPT-4 Turbo API を使用して合成数学的質問と問題解決プロセスを生成し、プロンプトの単語の簡単な検証を通じて質問の品質を保証しました。この方法を通じて、チームは SFT データセットを 7.5K から約 100 万サンプルまで拡張することに成功し、ほぼ完璧なスケーリング則を達成しました。結果として得られた Xwin-Math-7B モデルは、GSM8K と MATH でそれぞれ 82.6% と 40.6% の精度を達成し、以前の SOTA モデルを大幅に上回り、一部の 70B モデルをも上回り、飛躍的な改善を達成しました。 Xwin-Math-70B モデルは、MATH 評価セットで 52.8% の結果を達成し、GPT-4 の初期バージョンを大幅に上回りました。 LLaMA シリーズの基本モデルに基づく研究が MATH で GPT-4 を超えたのはこれが初めてです。

LLaMA-2-7Bの数学能力の上限は97.7%に達している？ Xwin-Math が合成データの可能性を解き放つ

研究者らは、モデルが N 個の出力で正しい答えを出力できるかどうかを評価することを目的として、Pass@N および PassRatio@N 評価指標も定義しました (これは、モデルが N 個の出力の可能性を示す)モデル）、数学的能力）、および正答率（モデルの数学的能力の安定性を示します）。 SFT データの量が少ない場合、モデルの Pass@256 はすでに非常に高くなりますが、SFT データの規模をさらに拡大すると、モデルの Pass@256 はほとんど増加しませんが、PassRatio@256 は大幅に増加します。これは、合成データに基づく教師あり微調整がモデルの数学的機能の安定性を向上させる効果的な方法であることを示しています。

LLaMA-2-7Bの数学能力の上限は97.7%に達している？ Xwin-Math が合成データの可能性を解き放つ

さらに、この調査では、さまざまな推論の複雑さとエラーの種類におけるスケーリング動作についての洞察が得られます。たとえば、SFT データセットのサイズが増加するにつれて、数学的問題を解決するモデルの精度は、推論ステップ数とのべき乗関係に従います。トレーニングサンプル内の長い推論ステップの割合を増やすことにより、困難な問題を解決する際のモデルの精度を大幅に向上させることができます。同時に、この研究では、推論エラーよりも計算エラーの方が軽減しやすいことも判明しました。

LLaMA-2-7Bの数学能力の上限は97.7%に達している？ Xwin-Math が合成データの可能性を解き放つ

モデルの数学的推論一般化能力を反映するハンガリーの高校数学テストでも、Xwin-Math は 65% のスコアを獲得しました。 GPT-4に。これは、研究でデータが合成された方法が評価セットに大幅に過剰適合せず、良好な一般化能力を示したことを示しています。

LLaMA-2-7Bの数学能力の上限は97.7%に達している？ Xwin-Math が合成データの可能性を解き放つ

この研究は、SFT データの拡張における合成データの有効性を実証するだけでなく、数学的推論機能における大規模言語モデルの研究に新しい視点を提供します。研究チームは、彼らの研究がこの分野における将来の探求と進歩の基礎を築いたと述べ、数学的問題の解決において大きな進歩を遂げるために人工知能を促進することを楽しみにしていると述べた。人工知能技術が進歩し続けるにつれて、AI が数学の分野でさらに優れたパフォーマンスを発揮し、複雑な数学的問題を解決する際に人間により多くの支援を提供できるようになることが期待されます。

アブレーション実験結果やその他のデータ合成手法の評価指標についても触れていますので、詳しくは全文をご覧ください。

以上がLLaMA-2-7Bの数学能力の上限は97.7%に達している？ Xwin-Math が合成データの可能性を解き放つの詳細内容です。詳細については、PHP 中国語 Web サイトの他の関連記事を参照してください。

声明

この記事は机器之心で複製されています。侵害がある場合は、admin@php.cn までご連絡ください。

私のコラムに新しいかもしれない人のために、具体化されたAI、AI推論、AIのハイテクブレークスルー、AIの迅速なエンジニアリング、AIのトレーニング、AIのフィールディングなどのトピックなど、全面的なAIの最新の進歩を広く探求します。

ヨーロッパのAI大陸行動計画：GigaFactories、Data Labs、Green AIApr 10, 2025 am 11:21 AM

ヨーロッパの野心的なAI大陸行動計画は、人工知能のグローバルリーダーとしてEUを確立することを目指しています。重要な要素は、AI GigaFactoriesのネットワークの作成であり、それぞれが約100,000の高度なAIチップを収容しています。

Microsoftの簡単なエージェントストーリーは、より多くのファンを作成するのに十分ですか？Apr 10, 2025 am 11:20 AM

AIエージェントアプリケーションに対するMicrosoftの統一アプローチ：企業の明確な勝利新しいAIエージェント機能に関するマイクロソフトの最近の発表は、その明確で統一されたプレゼンテーションに感銘を受けました。 TEで行き詰まった多くのハイテクアナウンスとは異なり

従業員へのAI戦略の販売：Shopify CEOのマニフェストApr 10, 2025 am 11:19 AM

Shopify CEOのTobiLütkeの最近のメモは、AIの能力がすべての従業員にとって基本的な期待であると大胆に宣言し、会社内の重大な文化的変化を示しています。これはつかの間の傾向ではありません。これは、pに統合された新しい運用パラダイムです

IBMは、完全なAI統合でZ17メインフレームを起動しますApr 10, 2025 am 11:18 AM

IBMのZ17メインフレーム：AIを強化した事業運営の統合先月、IBMのニューヨーク本社で、Z17の機能のプレビューを受け取りました。 Z16の成功に基づいて構築（2022年に開始され、持続的な収益の成長の実証

5 chatgptプロンプトは他の人に依存して停止し、自分を完全に信頼するApr 10, 2025 am 11:17 AM

揺るぎない自信のロックを解除し、外部検証の必要性を排除します！これらの5つのCHATGPTプロンプトは、完全な自立と自己認識の変革的な変化に向けて導きます。ブラケットをコピー、貼り付け、カスタマイズするだけです

AIはあなたの心に危険なほど似ていますApr 10, 2025 am 11:16 AM

人工知能のセキュリティおよび研究会社であるAnthropicによる最近の[研究]は、これらの複雑なプロセスについての真実を明らかにし始め、私たち自身の認知領域に不穏に似た複雑さを示しています。自然知能と人工知能は、私たちが思っているよりも似ているかもしれません。内部スヌーピング：人類の解釈可能性研究人類によって行われた研究からの新しい発見は、AIの内部コンピューティングをリバースエンジニアリングすることを目的とする機械的解釈可能性の分野の大きな進歩を表しています。AIが何をするかを観察するだけでなく、人工ニューロンレベルでそれがどのように行うかを理解します。誰かが特定のオブジェクトを見たり、特定のアイデアについて考えたりしたときに、どのニューロンが発射するかを描くことによって脳を理解しようとすることを想像してください。 a