首頁 >科技週邊 >人工智慧 >Qwen2.5-Moth入門

Qwen2.5-Moth入門

William Shakespeare
William Shakespeare原創
2025-03-13 11:03:10883瀏覽

在過去的幾年中,在研究和提高大型語言模型的推理能力方面取得了重大進展,重點是提高他們在解決解決方面的水平
算術和數學問題。

具有良好算術和數學推理的模型可以幫助:

  • 個性化學習: AI驅動的導師可以適應各個學生的需求,使他們更有效地了解複雜的數學概念。
  • 解決問題的援助:自動逐步解釋解決問題可改善學生的參與和理解。
  • 課程設計:在代數和微積分等主題中創建適應性和漸進的學習模塊。

本文探討了數學推理的進步如何推動QWEN2.5-MATH等人工智能模型及其在個性化學習,解決問題和課程設計中的應用。

學習目標

  • 了解並探索QWEN2.5-MATH系列及其組成部分。
  • 了解QWEN2.5-MATH模型體系結構。
  • 在QWEN2.5-MATH上獲得動手接觸,並進行示例。
  • 了解QWEN2.5-MATH在各種基準測試中的性能。

目錄

  • 什麼是QWEN2.5-MOTH?
  • Qwen2.5-Math vs Qwen2-Math
  • 優化培訓數據
  • 有效的模型培訓
  • 優化模型性能
  • 運行演示
  • 結論
  • 常見問題

什麼是QWEN2.5-MOTH?

QWEN2.5-MATH系列是阿里巴巴雲的QWEN系列開源,特定於數學的大型語言模型的最新成員。它遵循Qwen2-Math的較早版本,這是一系列基於Qwen2 LLM的專業數學語言模型。這些模型表現出了出色的數學功能,超過了開源替代方案,甚至超過了一些封閉源模型,例如GPT-4O。

該系列展示了有關中文和英語數學基準的QWEN2-MATH系列的顯著性能提高。雖然該系列僅應用思考鏈(COT)來解決特定於英語的數學問題,但QWEN2.5-MATH系列通過納入COT和工具集成推理(TIR)來擴展其功能,以有效地解決中文和英語的數學問題。

Qwen2.5-Math vs Qwen2-Math

QWEN2.5-MATH和QWEN2-MATH之間的比較突出了數學推理和解決問題的能力的進步,在阿里巴巴雲的特定於數學語言模型的最新迭代中實現了。

財產 Qwen2-Math QWEN2.5-MATH
培訓前數據大小 700b令牌(來自Qwen Math Corpus V1) 超過1T令牌(來自QWEN MATH COPUS V2)
支持語言 英語 英語和中文
方法 經營鏈(COT) 經過思考鏈(COT),工具集成推理(TIR)
基準分數(GSM8K,數學和MMLU-STEM) 89.1,60.5,79.1 90.8,66.8,82.8
模型變體 QWEN2-MATH-1.5B/7B/72B QWEN2.5-MATH-1.5B/7B/72B

優化培訓數據

QWEN2.5-MATH系列是使用QWEN MATH COPUS V2培訓的,其中包括英語和中文的1萬億高質量的數學數據令牌。該數據集包括使用QWEN2-MATH-72B - 教學模型生成的綜合數學數據以及通過多個召回週期從Web內容,書籍和代碼存儲庫中採購的匯總數學中國數據。

經營鏈(COT)數據集

QWEN2.5-MATH的經營鏈(COT)數據集是旨在提高模型推理能力的數學問題的全面集合。它包括:

  • 580k英語和500K數學問題,包括註釋和合成項目。
  • 從GSM8K,MATH和NUMINAMATH等來源得出的註釋數據。

工具集成推理(TIR)數據集

為了解決COT提示所面臨的計算和算法挑戰,例如求解二次方程或計算特徵值 - 引入了工具集成推理(TIR)數據集。該數據集通過使其能夠將Python解釋器用於推理任務,從而增強了模型對符號操作和精確計算的熟練程度。它包括:

  • 從GSM8K,MATH,COLLEGEMATH和NUMINAMATH等基準的190K問題。
  • 205K的問題是使用Mugglemath和Dotamath技術在GSM8K和數學訓練集中進化的問題創建的。

有效的模型培訓

Qwen2.5-Moth入門

由於QWEN2.5-MATH模型是QWEN2-MATH模型的升級版本,因此其訓練來自QWEN2-MATH,如下所示:

  • QWEN2-MATH模型在QWEN MATH COPUS V1上訓練,這是一個高質量的數據集,其中包含大約7000億個數學內容的令牌。
  • 開發人員訓練特定於數學的獎勵模型QWEN2-MATH-RM,該模型源自QWEN2-MATH-72B模型。
  • QWEN2.5系列基本模型可用於參數初始化,增強語言理解,代碼生成和文本推理功能。
  • 在訓練基本QWEN2.5-MATH模型之後,開發人員基於QWEN2.5-MATH-72B訓練了特定於數學的獎勵模型QWEN2.5-MATH-RM-72B。該獎勵模型通過拒絕採樣SFT模型(QWEN2.5-MATH-SFT)進化了SFT數據。
  • 最終建立了指示模型(QWEN2.5-MATH-MATH-INSTRUCT),以增強響應的質量。該模型是通過使用QWEN2-MATH-INSCRUCT模型和QWEN2.5-MATH-RM-72B的額外迭代來創建的。該過程結合了通過小組相對策略優化(GRPO)完善的工具集成推理(TIR)數據和SFT數據,以進一步增強模型的性能。

優化模型性能

增強模型性能是提供更快,更準確的結果,確保應用程序效率和可靠性的關鍵。

基本模型性能

基本型號QWEN2.5-MATH-1.5B/7B/72B在英語數學基準(GSM8K, MATH和MMLU-STEM)和中國數學基準測試(CMATH,GAOKAO MATH CLOZE和GAOKAO MATH QA)方面取得了重大改進,因為比較了Qwen2-Math-1.5b-1.5b/7b/7b/7b/7b/7b/7b/7b/72b。

Qwen2.5-Moth入門

例如,QWEN2.5-MATH-1.5B/7B/72B模型在數學上顯示出5.4、5.0、6.3的顯著改善,而Gaokao Math QA的得分提高了3.4、12.2、19.8。

指令調整模型性能

QWEN2.5-MATH-72B-INSTRUCT模型的表現優於開源模型和頂級封閉源模型,例如GPT-4O和Gemini Math-Pecialized 1.5 Pro。

Qwen2.5-Moth入門

QWEN2.5-MATH-72B-INSTRUCT模型超過其前身(QWEN2-MATH-72B-INSTRUCTY模型),平均英語為4.4點,中文平均為6.1分。這種性能標誌著它是當今可用的領先開源數學模型的地位。

在極具挑戰性的基準(例如Aime 2024和AMC23)上,諸如Claude3 Opus,GPT-4 Turbo和Gemini 1.5 Pro之類的模型中僅解決了30個問題中的1或2個。相比之下,QWEN2.5-MATH-72B-INSTRUCTION表現出色的性能,在貪婪的解碼COT模式中解決了9個問題,在TIR模式下解決了12個問題。此外,在獎勵模型(RM)的協助下,QWEN2.5-MATH-7B-INSTRUCTION實現了令人印象深刻的21個解決問題,展示了其出色的數學問題解決能力。

Qwen2.5-Moth入門

運行演示

讓我們在此處使用HuggingFace空間查看QWEN2.5-MATH演示。

該空間為圖像或文本格式輸入數學或算術問題提供了基於Web的用戶界面,以測試模型的功能。

為了支持多模式,此空間使用QWEN2-VL進行OCR和QWEN2.5-MATH用於數學推理。

步驟1:使用qwen-vl提取與數學相關的內容

QWEN-VL(QWEN大視覺語言模型)是多模式視覺語言模型,支持圖像,文本為輸入。它自然會支持英語和中文執行各種圖像到文本的生成任務,例如圖像字幕,視覺問題,視覺推理,文本識別等。

QWEN-VL系列包含許多模型,例如QWEN-VL,QWEN-VL-CHAT,QWEN-VL-PLUS,QWEN-VL-MAX
QWEN-VL-MAX是Qwen最有能力的大型視覺語言模型,用於在更廣泛的複雜任務上提供最佳性能。

該系統使用QWEN-VL-MAX-0809模型從輸入圖像中理解,處理和提取文本信息。 Process_image()函數首先接收輸入圖像並提取與數學相關的內容,從而確保任何乳膠公式的準確轉錄。然後,該系統應用以下標準提示,以從圖像中提取文本,數學相關的內容。

提示指示:“描述此圖像中與數學相關的內容,以確保任何乳膠公式的準確轉錄。不要描述非數學細節。”

導入操作系統

OS.System('PIP INSTALS DASHSCOPE -U')
導入tempfile
從pathlib導入路徑
進口秘密
導入Dashscope
從dashscope導入多模式轉換,生成
從PIL導入圖像



your_api_token = os.getEnv('your_api_token')
dashscope.api_key = your_api_token
Math_messages = []
def process_image(image,shory conconvert = false):

    全局Math_messages
    Math_messages = []#重置上傳圖像
    uploaded_file_dir = os.environ.get(“ gradio_temp_dir”)或str(
        路徑(tempfile.getTempdir()) /“ gradio”
    )
    OS.Makedirs(uploaded_file_dir,equent_ok = true)
    

    name = f“ tmp {secrets.token_hex(20)}。jpg”
    filename = os.path.join(uploaded_file_dir,名稱)

    如果應該:
        new_img = image.new('rgb',size =(圖像。
        new_img.paste(圖像,(0,0),蒙版=圖像)
        圖像= new_img
    image.save(文件名)
    

    消息= [{{
        “角色”:“系統”,
        'content':[{'text':'你是一個有益的助手。'}]]
    },{
        “角色”:“用戶”,
        '內容': [
            {'image':f'file:// {filename}'},,
            {'text':'請描述此圖像中與數學相關的內容,以確保正確轉錄任何乳膠公式。非數學細節不需要描述。'}
        這是給出的
    ]]
    
    響應=多模式conversation.call(model ='qwen-vl-max-0809',messages =消息)
    

    OS.Remove(文件名)
    
    返迴響應

步驟2:使用QWEN2.5-MATH的數學推理

此步驟提取圖像描述,然後將其傳遞到QWEN2.5模型以及用戶問題以生成響應。 QWEN2.5-MATH-72B-INSTRUCT模型在此過程中執行數學推理。

 def get_math_response(image_description,user_question):
    全局Math_messages
    如果不是Math_messages:
        MATH_MESSAGES.APPEND({'角色':'system','content':'您是一個有用的數學助手。'}))
    Math_messages = Math_messages [:1]
    如果image_description不是沒有:
        content = f'image描述:{image_description} \ n \ n'
    別的:
        內容=''
    查詢= f“ {content}用戶問題:{user_question}”
    Math_messages.append({'row':'user','content':query})
    響應= generation.call(	
        model =“ qwen2.5-Math-72b-instruct”,
        消息= Math_messages,	
        result_format ='消息',
        流= true
    )
    答案=無
    響應RESP:
        如果desp.Output是無:
            繼續
        答案= resp.Output.Choices [0] .message.content
        屈服答案(“ \\”,“ \\\\”)
    print(f'query:{query} \ nanswer:{wonse}')
    如果答案是沒有的:
        Math_messages.pop()
    別的:
        MATH_MESSAGES.APPEND({'角色':'Assistans','content':answer})

知道該空間中使用的模型後,讓我們看看一些示例
評估模型能力解決數學或算術問題。

示例1

包含以下問題語句的輸入映像 -

Qwen2.5-Moth入門

該模型找到x為5和y的值。它也提供了分步
自然語言推理,同時找到x和y的值。

示例2

包含以下問題語句的輸入映像 -

Qwen2.5-Moth入門

該模型發現最後一個表達式的值為50。

示例3

包含以下問題語句的輸入映像 -

Qwen2.5-Moth入門

該模型發現上述表達式為5。

結論

在本文中,我們探索了QWEN2.5-MATH - 具有強大推理能力的一系列數學模型。我們檢查了其組件,培訓數據,體系結構以及各種標準基準測試的性能。此外,我們回顧了演示,並以一系列中等至複雜的示例進行了測試。

關鍵要點

  • QWEN2.5-MATH模型支持中文和英語,並展示高級數學推理能力。它利用了諸如思想鏈(COT)和工具集成推理(TIR)之類的技術。
  • QWEN2.5系列包括基於參數數量的多個變體,模型可在1.5b,7b和72b參數中可用。
  • QWEN2.5-MATH模型利用了1萬億代幣進行預訓練,與QWEN2-MATH使用的7000億代幣相比,大幅增加了。
  • QWEN2.5-MATH超過各種英語和中文基準的QWEN2-MATH。此外,它的表現優於Claude3 Opus,GPT-4 Turbo和Gemini 1.5 Pro等諸如AIME 2024等具有挑戰性的基準的模型。

常見問題

Q1。 QWEN2.5-MATH和QWEN2-MATH有什麼區別?

A. QWEN2.5-MATH是Qwen2-Math的升級版本,提供了提高的性能,更好地解決複雜的數學問題以及增強的訓練技術。

Q2。哪種模型對於復雜的數學任務,qwen2.5-MATH或QWEN2-MATH的表現更好?

A. QWEN2.5-MATH通常在數學推理中的高級培訓和精緻能力上,在復雜任務上的表現通常優於QWEN2-MATH。

Q3。 QWEN2.5-MATH和QWEN2-MATH如何處理數學推理?

答:兩種模型均設計用於數學推理,但是QWEN2.5使用更複雜的算法和訓練數據來更有效地解決挑戰性問題。

Q4。 QWEN2.5-MATH與QWEN2-MATH中訓練數據的重要性是什麼?

答:QWEN2.5-MATH受益於更大,更多樣化的數據集,這比QWEN2-MATH更準確地提高了其概括和解決複雜數學問題的能力。

Q5。 QWEN2.5-MATH和QWEN2-MATH之間的處理速度有什麼差異嗎?

A. QWEN2.5優化了更快的處理,並且與QWEN2-MATH相比提供了更快的響應,同時保持高精度。

本文所示的媒體不由Analytics Vidhya擁有,並由作者酌情使用。

以上是Qwen2.5-Moth入門的詳細內容。更多資訊請關注PHP中文網其他相關文章!

陳述:
本文內容由網友自願投稿,版權歸原作者所有。本站不承擔相應的法律責任。如發現涉嫌抄襲或侵權的內容,請聯絡admin@php.cn