ホームページ >テクノロジー周辺機器 >AI >QWEN2.5-MATHを開始します
過去数年にわたって、大規模な言語モデルの推論能力を調査および改善することにおいて大きな進歩が遂げられ、解決の習熟度を高めることに重点を置いています
算術および数学的問題。
算術的および数学的な推論が良好なモデルが役立つことがあります。
この記事では、数学的推論の進歩が、QWEN2.5-MATHなどのAIモデルの革新と、パーソナライズされた学習、問題解決、およびカリキュラムの設計におけるアプリケーションの革新をどのように促進しているかを説明します。
QWEN2.5-MATHシリーズは、Alibaba CloudのQwenシリーズのオープンソース、数学固有の大手言語モデルに最新の追加です。 QWEN2 LLMSに基づいた一連の専門的な数学言語モデルであるQWEN2-MATHの以前のリリースに従います。これらのモデルは、優れた数学的能力を実証し、オープンソースの代替案とGPT-4Oなどの閉鎖モデルの両方を超えています。
このシリーズは、中国と英語の数学ベンチマークに関するQWEN2-MATHシリーズにわたる大幅なパフォーマンス強化を示しています。このシリーズは、チェーンオブ考え(COT)を適用して英語固有の数学の問題のみを解決しますが、QWEN2.5-MATHシリーズは、COTとツール統合推論(TIR)の両方を組み込むことにより、中国と英語の両方の問題に効果的に数学の問題に取り組むことにより機能を拡張します。
QWEN2.5-MATHとQWEN2-MATHの比較は、Alibaba Cloudの数学固有の言語モデルの最新の繰り返しで達成された数学的推論と問題解決能力の進歩を強調しています。
財産 | qwen2-math | QWEN2.5-MATH |
---|---|---|
トレーニング前のデータサイズ | 700Bトークン(Qwen Math Corpus V1から) | 1Tを超えるトークン(Qwen Math Corpus V2から) |
サポートされている言語 | 英語 | 英語と中国語 |
アプローチ | チェーン(COT) | チェーンオブテル(COT)、ツール統合推論(TIR) |
ベンチマークスコア(GSM8K、MATH、およびMMLU-STEM) | 89.1、60.5、79.1 | 90.8、66.8、82.8 |
モデルバリアント | QWEN2-MATH-1.5B/7B/72B | QWEN2.5-MATH-1.5B/7B/72B |
QWEN2.5-MATHシリーズは、英語と中国語の両方で1兆以上の高品質の数学データトークンで構成されるQwen Math Corpus V2を使用してトレーニングされています。このデータセットには、複数のリコールサイクルを通じてWebコンテンツ、書籍、コードリポジトリから調達されたQWEN2-MATH-72B-INSTRUCTモデルと集約された数学的中国データを使用して生成された合成数学データが含まれています。
QWEN2.5-MATH用のチェーンオブ思考(COT)データセットは、モデルの推論機能を改善することを目的とした数学的問題の包括的なコレクションです。それは以下を含みます:
COTプロンプトが直面する計算およびアルゴリズムの課題に対処するために、2次方程式やコンピューティング固有値を解くなど、ツール統合推論(TIR)データセットが導入されました。このデータセットは、象徴的な操作と正確な計算におけるモデルの習熟度を高め、タスクを推論するためにPythonインタープリターを使用できるようにします。それは以下を含みます:
QWEN2.5-MATHモデルはQWEN2-MATHモデルのアップグレードバージョンであるため、そのトレーニングは次のようにQWEN2-MATHから派生しています。
モデルのパフォーマンスの向上は、より速く、より正確な結果を提供し、アプリケーションの効率と信頼性を確保するための鍵です。
ベースモデルQWEN2.5-MATH-1.5B/7B/72Bは、英語の数学ベンチマーク(GSM8K、数学、およびMMLU-STEM)と中国の数学ベンチマーク(CMATH、Gaokao Math Cloze、およびGaokao Math Qa)の大幅な改善を達成しました。
たとえば、QWEN2.5-MATH-1.5B/7B/72Bモデルは、数学で5.4、5.0、6.3の大幅な改善を示し、Gaokao Math QAで3.4、12.2、19.8のスコア改善を示しています。
QWEN2.5-MATH-72B-INSTRUCTモデルは、GPT-4OやGemini Math Specialized 1.5 Proなどのオープンソースモデルとトップクローズドソースモデルの両方を上回りました。
QWEN2.5-MATH-72B-INSTRUCTモデルは、前身(QWEN2-MATH-72B-Instructモデル)を英語で平均4.4ポイント、中国語で6.1ポイント上回ります。このパフォーマンスは、今日利用可能な主要なオープンソース数学モデルとしての位置を示しています。
AIME 2024やAMC23などの非常に挑戦的なベンチマークでは、Claude3 Opus、GPT-4 Turbo、Gemini 1.5 Proなどのモデルは、30の問題のうち1つまたは2つの問題のみを解きます。対照的に、QWEN2.5-MATH-72B-Instructは顕著なパフォーマンスを示し、貪欲なデコードコットモードとTIRモードで12の問題を解決します。さらに、報酬モデル(RM)の支援を受けて、QWEN2.5-MATH-7B-Instructは印象的な21の解決された問題を達成し、優れた数学的な問題解決能力を紹介します。
Huggingfaceスペースを使用して、QWEN2.5-MATHデモをここで見てみましょう。
このスペースは、モデルの機能をテストするために、画像またはテキスト形式のいずれかで数学的または算術的な問題を入力するためのWebベースのユーザーインターフェイスを提供します。
多型をサポートするために、このスペースは、OCRにQWEN2-VLを使用し、数学的推論にはQWEN2.5-MATHを使用します。
QWEN-VL(QWEN Large Vision Language Model)は、画像、テキストを入力としてサポートするマルチモーダルビジョン言語モデルです。自然に英語と中国語をサポートして、画像キャプション、視覚的な質問、視覚的推論、テキスト認識などのさまざまな画像からテキスト間のタスクを実行します。
QWEN-VLシリーズには、QWEN-VL、QWEN-VL-CHAT、QWEN-VL-PLUS、QWEN-VL-MAXなどの多くのモデルが含まれています
Qwen-VL-Maxは、さらに幅広い複雑なタスクで最適なパフォーマンスを提供するためのQwenの最も有能な大きな視覚言語モデルです。
このシステムは、QWEN-VL-MAX-0809モデルを使用して、入力画像からテキスト情報を理解、処理、抽出します。 Process_image()関数は最初に入力画像を受信し、数学関連のコンテンツを抽出し、ラテックス式の正確な転写を確保します。次に、システムは次の標準プロンプトを適用して、画像からテキスト、数学関連のコンテンツを抽出します。
プロンプトは次のように指示します。「この画像の数学関連コンテンツを説明し、ラテックス式の正確な転写を確保します。無数の詳細については説明しないでください。」
OSをインポートします os.system( 'pip install dashscope -u') TempFileをインポートします Pathlibインポートパスから 秘密をインポートします DashScopeをインポートします DashScopeインポートMultiModalConversation、Generationから PILインポート画像から your_api_token = os.getenv( 'your_api_token') dashscope.api_key = your_api_token math_messages = [] def process_image(image、suldconvert = false): グローバルMath_messages math_messages = []#画像をアップロードするときにリセット uploaded_file_dir = os.environ.get( "gradio_temp_dir")またはstr( path(tempfile.getTempdir()) / "Gradio" )) os.makedirs(uploaded_file_dir、escold_ok = true) name = f "tmp {secrets.token_hex(20)}。jpg" filename = os.path.join(uploaded_file_dir、name) 必要な場合: new_img = image.new( 'rgb'、size =(image.width、image.height)、color =(255、255、255)) new_img.paste(image、(0、0)、mask = image) 画像= new_img image.save(filename) メッセージ= [{ 「役割」:「システム」、 「コンテンツ」:['テキスト': 'あなたは役立つアシスタントです。'}] }、{ 「役割」:「ユーザー」、 'コンテンツ': [ {'image':f'file:// {filename} '}、 {'Text': 'この画像で数学関連のコンテンツを説明して、ラテックス式が正しく転写されるようにしてください。非数学的な詳細を説明する必要はありません。 '} ] }] Response = multimodalConversation.call(model = 'qwen-vl-max-0809'、メッセージ=メッセージ) os.remove(ファイル名) return Response.output.Choices [0] ["Message"] ["Content"] #intex csv
このステップは画像の説明を抽出し、その後、QWEN2.5モデルに渡され、ユーザーの質問とともに応答を生成します。 QWEN2.5-MATH-72B-Instructモデルは、このプロセスで数学的推論を実行します。
def get_math_response(image_description、user_question): グローバルMath_messages Math_Messagesではない場合: math_messages.append({'role': 'system'、 'content': 'あなたは有用な数学アシスタントです。'}) math_messages = math_messages [:1] image_descriptionがいない場合: content = f'image説明:{image_description} \ n \ n ' それ以外: content = '' query = f "{content}ユーザー質問:{user_question}" math_messages.append({'role': 'user'、 'content':query}) response = generation.call( Model = "QWEN2.5-MATH-72B-INSTRUCT"、 メッセージ= math_messages、 result_format = 'メッセージ'、 ストリーム= true )) 回答=なし それに応じて、それに応じて: resp.outputがなしである場合: 続く 回答= resp.output.choices [0] .message.content ried nessn.replace( "\\"、 "\\\") print(f'query:{query} \ nanswer:{Answer} ') 答えがありません: math_messages.pop() それ以外: math_messages.append({'role': 'assistant'、 'content':nswer})
このスペースで使用されているモデルについて知っているので、いくつかの例を見てみましょう
モデルの能力を評価して、数学的または算術的な問題を解決します。
次の問題ステートメントを含む入力画像 -
モデルはxの値を5、yの値を2として見つけます。また、段階的なものを提供します
xとyの値を見つけながら、自然言語の推論。
次の問題ステートメントを含む入力画像 -
このモデルは、最後の式の値を50と見なします。
次の問題ステートメントを含む入力画像 -
このモデルは、上記の式の値を5として見つけます。
この記事では、QWEN2.5-MATHを検討しました。これは、堅牢な推論能力を備えた一連の数学モデルです。さまざまな標準ベンチマークでコンポーネント、トレーニングデータ、アーキテクチャ、パフォーマンスを調べました。さらに、デモをレビューし、中程度から複雑な例でテストしました。
A. QWEN2.5-MATHは、QWEN2-MATHのアップグレードバージョンであり、パフォーマンスの向上、複雑な数学的問題の解決の精度が向上し、トレーニング技術の強化を提供します。
Q2。複雑な数学的タスク、QWEN2.5-MATHまたはQWEN2-MATHに対してより良いパフォーマンスを発揮するモデルはどれですか?A. QWEN2.5-MATHは通常、数学的推論における高度なトレーニングと洗練された機能により、複雑なタスクでQWEN2-MATHを上回ります。
Q3。 QWEN2.5-MATHとQWEN2-MATHは数学的推論をどのように処理しますか?A.両方のモデルは数学的な推論用に設計されていますが、QWEN2.5はより洗練されたアルゴリズムとトレーニングデータを使用して、挑戦的な問題をより効果的に解決します。
Q4。 QWEN2.5-MATH対QWEN2-MATHでのトレーニングデータの重要性は何ですか?A. QWEN2.5-MATHは、より大きく、より多様なデータセットの恩恵を受け、QWEN2-MATHよりも複雑な数学的問題をより正確に一般化および解決する能力を高めます。
Q5。 QWEN2.5-MATHとQWEN2-MATHの間の処理速度に違いはありますか?A. QWEN2.5は、高精度を維持しながら、QWEN2-MATHと比較して、より速い処理を最適化し、より迅速な応答を提供します。
この記事に示されているメディアは、Analytics Vidhyaが所有しておらず、著者の裁量で使用されています。
以上がQWEN2.5-MATHを開始しますの詳細内容です。詳細については、PHP 中国語 Web サイトの他の関連記事を参照してください。