検索

過去数年にわたって、大規模な言語モデルの推論能力を調査および改善することにおいて大きな進歩が遂げられ、解決の習熟度を高めることに重点を置いています
算術および数学的問題。

算術的および数学的な推論が良好なモデルが役立つことがあります。

  • パーソナライズされた学習: AIを搭載したチューターは、個々の学生のニーズに適応し、複雑な数学的概念をより効果的に理解することができます。
  • 問題解決支援:問題を解決するための段階的な説明を自動化すると、学生の関与と理解が向上します。
  • カリキュラムの設計:代数や微積分などの被験者に適応的でプログレッシブ学習モジュールを作成します。

この記事では、数学的推論の進歩が、QWEN2.5-MATHなどのAIモデルの革新と、パーソナライズされた学習、問題解決、およびカリキュラムの設計におけるアプリケーションの革新をどのように促進しているかを説明します。

学習目標

  • QWEN2.5-MATHシリーズとそのコンポーネントを理解して探索します。
  • QWEN2.5-MATHモデルアーキテクチャについて学びます。
  • QWEN2.5-MATHで実践的な露出を獲得します。
  • さまざまなベンチマークでのQWEN2.5-MATHのパフォーマンスについて学びます。

目次

  • QWEN2.5-MATHとは何ですか?
  • qwen2.5-math vs qwen2-math
  • トレーニングデータの最適化
  • 効率的なモデルトレーニング
  • モデルのパフォーマンスを最適化します
  • デモを実行しています
  • 結論
  • よくある質問

QWEN2.5-MATHとは何ですか?

QWEN2.5-MATHシリーズは、Alibaba CloudのQwenシリーズのオープンソース、数学固有の大手言語モデルに最新の追加です。 QWEN2 LLMSに基づいた一連の専門的な数学言語モデルであるQWEN2-MATHの以前のリリースに従います。これらのモデルは、優れた数学的能力を実証し、オープンソースの代替案とGPT-4Oなどの閉鎖モデルの両方を超えています。

このシリーズは、中国と英語の数学ベンチマークに関するQWEN2-MATHシリーズにわたる大幅なパフォーマンス強化を示しています。このシリーズは、チェーンオブ考え(COT)を適用して英語固有の数学の問題のみを解決しますが、QWEN2.5-MATHシリーズは、COTとツール統合推論(TIR)の両方を組み込むことにより、中国と英語の両方の問題に効果的に数学の問題に取り組むことにより機能を拡張します。

qwen2.5-math vs qwen2-math

QWEN2.5-MATHとQWEN2-MATHの比較は、Alibaba Cloudの数学固有の言語モデルの最新の繰り返しで達成された数学的推論と問題解決能力の進歩を強調しています。

財産 qwen2-math QWEN2.5-MATH
トレーニング前のデータサイズ 700Bトークン(Qwen Math Corpus V1から) 1Tを超えるトークン(Qwen Math Corpus V2から)
サポートされている言語 英語 英語と中国語
アプローチ チェーン(COT) チェーンオブテル(COT)、ツール統合推論(TIR)
ベンチマークスコア(GSM8K、MATH、およびMMLU-STEM) 89.1、60.5、79.1 90.8、66.8、82.8
モデルバリアント QWEN2-MATH-1.5B/7B/72B QWEN2.5-MATH-1.5B/7B/72B

トレーニングデータの最適化

QWEN2.5-MATHシリーズは、英語と中国語の両方で1兆以上の高品質の数学データトークンで構成されるQwen Math Corpus V2を使用してトレーニングされています。このデータセットには、複数のリコールサイクルを通じてWebコンテンツ、書籍、コードリポジトリから調達されたQWEN2-MATH-72B-INSTRUCTモデルと集約された数学的中国データを使用して生成された合成数学データが含まれています。

Chain-of-hought(cot)データセット

QWEN2.5-MATH用のチェーンオブ思考(COT)データセットは、モデルの推論機能を改善することを目的とした数学的問題の包括的なコレクションです。それは以下を含みます:

  • 580K英語と500Kの数学的問題。注釈付きアイテムと合成アイテムの両方を含む。
  • GSM8K、MATH、Numinamathなどのソースから派生した注釈付きデータ。

ツール統合推論(TIR)データセット

COTプロンプトが直面する計算およびアルゴリズムの課題に対処するために、2次方程式やコンピューティング固有値を解くなど、ツール統合推論(TIR)データセットが導入されました。このデータセットは、象徴的な操作と正確な計算におけるモデルの習熟度を高め、タスクを推論するためにPythonインタープリターを使用できるようにします。それは以下を含みます:

  • GSM8K、数学、Collegemath、Nuninamathなどのベンチマークからの190kの問題。
  • GSM8Kおよび数学トレーニングセット内のクエリを進化させるために、MugglemathとDotamathのテクニックを使用して作成された205kの問題。

効率的なモデルトレーニング

QWEN2.5-MATHを開始します

QWEN2.5-MATHモデルはQWEN2-MATHモデルのアップグレードバージョンであるため、そのトレーニングは次のようにQWEN2-MATHから派生しています。

  • QWEN2-MATHモデルQwen Math Corpus V1でトレーニングは、約7,000億トークンの数学コンテンツを含む高品質のデータセットです。
  • 開発者は、QWEN2-MATH-72Bモデルから派生した数学固有の報酬モデルQWEN2-MATH-RMをトレーニングします。
  • QWEN2.5シリーズベースモデルは、パラメーターの初期化、言語理解、コード生成、およびテキスト推論機能を強化します。
  • ベースQWEN2.5-MATHモデルをトレーニングした後、開発者はQWEN2.5-MATH-72Bに基づいて、数学固有の報酬モデルQWEN2.5-MATH-RM-72Bをトレーニングします。この報酬モデルは、SFTモデル(QWEN2.5-MATH-SFT)の拒絶サンプリングを通じてSFTデータを進化させます。
  • 指示モデル(QWEN2.5-MATH-INSTRUCT)が最後に構築され、応答の品質を磨きます。このモデルは、QWEN2-MATH-INSTRUCTモデルとQWEN2.5-MATH-RM-72Bを使用した追加の反復によって作成されます。このプロセスには、モデルのパフォーマンスをさらに磨くために、グループ相対ポリシー最適化(GRPO)を介して洗練されたツール統合推論(TIR)データとSFTデータが組み込まれています。

モデルのパフォーマンスを最適化します

モデルのパフォーマンスの向上は、より速く、より正確な結果を提供し、アプリケーションの効率と信頼性を確保するための鍵です。

ベースモデルのパフォーマンス

ベースモデルQWEN2.5-MATH-1.5B/7B/72Bは、英語の数学ベンチマーク(GSM8K、数学、およびMMLU-STEM)と中国の数学ベンチマーク(CMATH、Gaokao Math Cloze、およびGaokao Math Qa)の大幅な改善を達成しました。

QWEN2.5-MATHを開始します

たとえば、QWEN2.5-MATH-1.5B/7B/72Bモデルは、数学で5.4、5.0、6.3の大幅な改善を示し、Gaokao Math QAで3.4、12.2、19.8のスコア改善を示しています。

命令チューニングモデルのパフォーマンス

QWEN2.5-MATH-72B-INSTRUCTモデルは、GPT-4OやGemini Math Specialized 1.5 Proなどのオープンソースモデルとトップクローズドソースモデルの両方を上回りました。

QWEN2.5-MATHを開始します

QWEN2.5-MATH-72B-INSTRUCTモデルは、前身(QWEN2-MATH-72B-Instructモデル)を英語で平均4.4ポイント、中国語で6.1ポイント上回ります。このパフォーマンスは、今日利用可能な主要なオープンソース数学モデルとしての位置を示しています。

AIME 2024やAMC23などの非常に挑戦的なベンチマークでは、Claude3 Opus、GPT-4 Turbo、Gemini 1.5 Proなどのモデルは、30の問題のうち1つまたは2つの問題のみを解きます。対照的に、QWEN2.5-MATH-72B-Instructは顕著なパフォーマンスを示し、貪欲なデコードコットモードとTIRモードで12の問題を解決します。さらに、報酬モデル(RM)の支援を受けて、QWEN2.5-MATH-7B-Instructは印象的な21の解決された問題を達成し、優れた数学的な問題解決能力を紹介します。

QWEN2.5-MATHを開始します

デモを実行しています

Huggingfaceスペースを使用して、QWEN2.5-MATHデモをここで見てみましょう。

このスペースは、モデルの機能をテストするために、画像またはテキスト形式のいずれかで数学的または算術的な問題を入力するためのWebベースのユーザーインターフェイスを提供します。

多型をサポートするために、このスペースは、OCRにQWEN2-VLを使用し、数学的推論にはQWEN2.5-MATHを使用します。

ステップ1:QWEN-VLを使用して数学関連コンテンツを抽出します

QWEN-VL(QWEN Large Vision Language Model)は、画像、テキストを入力としてサポートするマルチモーダルビジョン言語モデルです。自然に英語と中国語をサポートして、画像キャプション、視覚的な質問、視覚的推論、テキスト認識などのさまざまな画像からテキスト間のタスクを実行します。

QWEN-VLシリーズには、QWEN-VL、QWEN-VL-CHAT、QWEN-VL-PLUS、QWEN-VL-MAXなどの多くのモデルが含まれています
Qwen-VL-Maxは、さらに幅広い複雑なタスクで最適なパフォーマンスを提供するためのQwenの最も有能な大きな視覚言語モデルです。

このシステムは、QWEN-VL-MAX-0809モデルを使用して、入力画像からテキスト情報を理解、処理、抽出します。 Process_image()関数は最初に入力画像を受信し、数学関連のコンテンツを抽出し、ラテックス式の正確な転写を確保します。次に、システムは次の標準プロンプトを適用して、画像からテキスト、数学関連のコンテンツを抽出します。

プロンプトは次のように指示します。「この画像の数学関連コンテンツを説明し、ラテックス式の正確な転写を確保します。無数の詳細については説明しないでください。」

 OSをインポートします

os.system( 'pip install dashscope -u')
TempFileをインポートします
Pathlibインポートパスから
秘密をインポートします
DashScopeをインポートします
DashScopeインポートMultiModalConversation、Generationから
PILインポート画像から



your_api_token = os.getenv( 'your_api_token')
dashscope.api_key = your_api_token
math_messages = []
def process_image(image、suldconvert = false):

    グローバルMath_messages
    math_messages = []#画像をアップロードするときにリセット
    uploaded_file_dir = os.environ.get( "gradio_temp_dir")またはstr(
        path(tempfile.getTempdir()) / "Gradio"
    ))
    os.makedirs(uploaded_file_dir、escold_ok = true)
    

    name = f "tmp {secrets.token_hex(20)}。jpg"
    filename = os.path.join(uploaded_file_dir、name)

    必要な場合:
        new_img = image.new( 'rgb'、size =(image.width、image.height)、color =(255、255、255))
        new_img.paste(image、(0、0)、mask = image)
        画像= new_img
    image.save(filename)
    

    メッセージ= [{
        「役割」:「システム」、
        「コンテンツ」:['テキスト': 'あなたは役立つアシスタントです。'}]
    }、{
        「役割」:「ユーザー」、
        'コンテンツ': [
            {'image':f'file:// {filename} '}、
            {'Text': 'この画像で数学関連のコンテンツを説明して、ラテックス式が正しく転写されるようにしてください。非数学的な詳細を説明する必要はありません。 '}
        ]
    }]
    
    Response = multimodalConversation.call(model = 'qwen-vl-max-0809'、メッセージ=メッセージ)
    

    os.remove(ファイル名)
    
    return Response.output.Choices [0] ["Message"] ["Content"] #intex csv

ステップ2:qwen2.5-mathを使用した数学的推論

このステップは画像の説明を抽出し、その後、QWEN2.5モデルに渡され、ユーザーの質問とともに応答を生成します。 QWEN2.5-MATH-72B-Instructモデルは、このプロセスで数学的推論を実行します。

 def get_math_response(image_description、user_question):
    グローバルMath_messages
    Math_Messagesではない場合:
        math_messages.append({'role': 'system'、 'content': 'あなたは有用な数学アシスタントです。'})
    math_messages = math_messages [:1]
    image_descriptionがいない場合:
        content = f'image説明:{image_description} \ n \ n '
    それ以外:
        content = ''
    query = f "{content}ユーザー質問:{user_question}"
    math_messages.append({'role': 'user'、 'content':query})
    response = generation.call(	
        Model = "QWEN2.5-MATH-72B-INSTRUCT"、
        メッセージ= math_messages、	
        result_format = 'メッセージ'、
        ストリーム= true
    ))
    回答=なし
    それに応じて、それに応じて:
        resp.outputがなしである場合:
            続く
        回答= resp.output.choices [0] .message.content
        ried nessn.replace( "\\"、 "\\\")
    print(f'query:{query} \ nanswer:{Answer} ')
    答えがありません:
        math_messages.pop()
    それ以外:
        math_messages.append({'role': 'assistant'、 'content':nswer})

このスペースで使用されているモデルについて知っているので、いくつかの例を見てみましょう
モデルの能力を評価して、数学的または算術的な問題を解決します。

例1

次の問題ステートメントを含む入力画像 -

QWEN2.5-MATHを開始します

モデルはxの値を5、yの値を2として見つけます。また、段階的なものを提供します
xとyの値を見つけながら、自然言語の推論。

例2

次の問題ステートメントを含む入力画像 -

QWEN2.5-MATHを開始します

このモデルは、最後の式の値を50と見なします。

例3

次の問題ステートメントを含む入力画像 -

QWEN2.5-MATHを開始します

このモデルは、上記の式の値を5として見つけます。

結論

この記事では、QWEN2.5-MATHを検討しました。これは、堅牢な推論能力を備えた一連の数学モデルです。さまざまな標準ベンチマークでコンポーネント、トレーニングデータ、アーキテクチャ、パフォーマンスを調べました。さらに、デモをレビューし、中程度から複雑な例でテストしました。

キーテイクアウト

  • QWEN2.5-MATHモデルは、中国語と英語の両方をサポートし、高度な数学的推論機能を紹介します。チェーンオブ考え(COT)やツール統合推論(TIR)などのテクニックを利用しています。
  • QWEN2.5シリーズには、パラメーターの数に基づいた複数のバリアントが含まれており、モデルは1.5B、7B、および72Bパラメーターで利用可能です。
  • QWEN2.5-MATHモデルは、トレーニング前に1兆個のトークンを活用しており、QWEN2-MATHに使用される7,000億トークンと比較して大幅に増加しています。
  • QWEN2.5-MATHは、さまざまな英語と中国のベンチマークでQWEN2-MATHを上回ります。さらに、AIME 2024などの挑戦的なベンチマークに関するClaude3 Opus、GPT-4ターボ、Gemini 1.5 Proなどのモデルを上回ります。

よくある質問

Q1。 QWEN2.5-MATHとQWEN2-MATHの違いは何ですか?

A. QWEN2.5-MATHは、QWEN2-MATHのアップグレードバージョンであり、パフォーマンスの向上、複雑な数学的問題の解決の精度が向上し、トレーニング技術の強化を提供します。

Q2。複雑な数学的タスク、QWEN2.5-MATHまたはQWEN2-MATHに対してより良いパフォーマンスを発揮するモデルはどれですか?

A. QWEN2.5-MATHは通常、数学的推論における高度なトレーニングと洗練された機能により、複雑なタスクでQWEN2-MATHを上回ります。

Q3。 QWEN2.5-MATHとQWEN2-MATHは数学的推論をどのように処理しますか?

A.両方のモデルは数学的な推論用に設計されていますが、QWEN2.5はより洗練されたアルゴリズムとトレーニングデータを使用して、挑戦的な問題をより効果的に解決します。

Q4。 QWEN2.5-MATH対QWEN2-MATHでのトレーニングデータの重要性は何ですか?

A. QWEN2.5-MATHは、より大きく、より多様なデータセットの恩恵を受け、QWEN2-MATHよりも複雑な数学的問題をより正確に一般化および解決する能力を高めます。

Q5。 QWEN2.5-MATHとQWEN2-MATHの間の処理速度に違いはありますか?

A. QWEN2.5は、高精度を維持しながら、QWEN2-MATHと比較して、より速い処理を最適化し、より迅速な応答を提供します。

この記事に示されているメディアは、Analytics Vidhyaが所有しておらず、著者の裁量で使用されています。

以上がQWEN2.5-MATHを開始しますの詳細内容です。詳細については、PHP 中国語 Web サイトの他の関連記事を参照してください。

声明
この記事の内容はネチズンが自主的に寄稿したものであり、著作権は原著者に帰属します。このサイトは、それに相当する法的責任を負いません。盗作または侵害の疑いのあるコンテンツを見つけた場合は、admin@php.cn までご連絡ください。
カリフォルニアは、AIをタップして、速い追跡の山火事回復許可を促進しますカリフォルニアは、AIをタップして、速い追跡の山火事回復許可を促進しますMay 04, 2025 am 11:10 AM

AIは、野火の回復許可を合理化します オーストラリアのハイテク企業ArchistarのAIソフトウェアは、機械学習とコンピュータービジョンを利用して、地域の規制に準拠するための建築計画の評価を自動化します。この前検証は重要です

米国がエストニアのAI駆動型デジタル政府から学ぶことができること米国がエストニアのAI駆動型デジタル政府から学ぶことができることMay 04, 2025 am 11:09 AM

エストニアのデジタル政府:米国のモデル? 米国は官僚的な非効率性と闘っていますが、エストニアは説得力のある代替品を提供しています。 この小さな国は、AIを搭載した、ほぼ100%デジタル化された市民中心の政府を誇っています。 これはそうではありません

生成AIによる結婚式の計画生成AIによる結婚式の計画May 04, 2025 am 11:08 AM

結婚式を計画することは記念碑的な仕事であり、しばしば最も組織化されたカップルでさえ圧倒されます。 この記事は、AIの影響に関する進行中のフォーブスシリーズの一部(こちらのリンクを参照)で、生成AIが結婚式の計画にどのように革命をもたらすことができるかを調べます。 結婚式のpl

デジタル防衛AIエージェントとは何ですか?デジタル防衛AIエージェントとは何ですか?May 04, 2025 am 11:07 AM

政府は、さまざまな確立されたタスクにそれらを利用している一方で、企業はAIエージェントを販売のためにますます活用しています。 ただし、消費者の支持者は、個人がターゲットのターゲットに対する防御として自分のAIエージェントを所有する必要性を強調しています

生成エンジン最適化に関するビジネスリーダーのガイド(GEO)生成エンジン最適化に関するビジネスリーダーのガイド(GEO)May 03, 2025 am 11:14 AM

Googleはこのシフトをリードしています。その「AIの概要」機能はすでに10億人以上のユーザーにサービスを提供しており、誰もがリンクをクリックする前に完全な回答を提供しています。[^2] 他のプレイヤーも速く地位を獲得しています。 ChatGpt、Microsoft Copilot、およびPE

このスタートアップは、AIエージェントを使用して悪意のある広告となりすましアカウントと戦っていますこのスタートアップは、AIエージェントを使用して悪意のある広告となりすましアカウントと戦っていますMay 03, 2025 am 11:13 AM

2022年、彼はソーシャルエンジニアリング防衛のスタートアップDoppelを設立してまさにそれを行いました。そして、サイバー犯罪者が攻撃をターボチャージするためのより高度なAIモデルをハーネスするにつれて、DoppelのAIシステムは、企業が大規模に戦うのに役立ちました。

世界モデルがどのように生成AIとLLMの未来を根本的に再形成しているか世界モデルがどのように生成AIとLLMの未来を根本的に再形成しているかMay 03, 2025 am 11:12 AM

出来上がりは、適切な世界モデルとの対話を介して、生成AIとLLMを実質的に後押しすることができます。 それについて話しましょう。 革新的なAIブレークスルーのこの分析は、最新のAIで進行中のForbes列のカバレッジの一部であり、

2050年5月:私たちは祝うために何を残しましたか?2050年5月:私たちは祝うために何を残しましたか?May 03, 2025 am 11:11 AM

労働者2050年。全国の公園は、ノスタルジックなパレードが街の通りを通り抜ける一方で、伝統的なバーベキューを楽しんでいる家族でいっぱいです。しかし、お祝いは現在、博物館のような品質を持っています。

See all articles

ホットAIツール

Undresser.AI Undress

Undresser.AI Undress

リアルなヌード写真を作成する AI 搭載アプリ

AI Clothes Remover

AI Clothes Remover

写真から衣服を削除するオンライン AI ツール。

Undress AI Tool

Undress AI Tool

脱衣画像を無料で

Clothoff.io

Clothoff.io

AI衣類リムーバー

Video Face Swap

Video Face Swap

完全無料の AI 顔交換ツールを使用して、あらゆるビデオの顔を簡単に交換できます。

ホットツール

SublimeText3 Linux 新バージョン

SublimeText3 Linux 新バージョン

SublimeText3 Linux 最新バージョン

ドリームウィーバー CS6

ドリームウィーバー CS6

ビジュアル Web 開発ツール

Dreamweaver Mac版

Dreamweaver Mac版

ビジュアル Web 開発ツール

SecLists

SecLists

SecLists は、セキュリティ テスターの究極の相棒です。これは、セキュリティ評価中に頻繁に使用されるさまざまな種類のリストを 1 か所にまとめたものです。 SecLists は、セキュリティ テスターが必要とする可能性のあるすべてのリストを便利に提供することで、セキュリティ テストをより効率的かつ生産的にするのに役立ちます。リストの種類には、ユーザー名、パスワード、URL、ファジング ペイロード、機密データ パターン、Web シェルなどが含まれます。テスターはこのリポジトリを新しいテスト マシンにプルするだけで、必要なあらゆる種類のリストにアクセスできるようになります。

VSCode Windows 64 ビットのダウンロード

VSCode Windows 64 ビットのダウンロード

Microsoft によって発売された無料で強力な IDE エディター