在過去的幾年中,在研究和提高大型語言模型的推理能力方面取得了重大進展,重點是提高他們在解決解決方面的水平
算術和數學問題。
具有良好算術和數學推理的模型可以幫助:
本文探討了數學推理的進步如何推動QWEN2.5-MATH等人工智能模型及其在個性化學習,解決問題和課程設計中的應用。
QWEN2.5-MATH系列是阿里巴巴雲的QWEN系列開源,特定於數學的大型語言模型的最新成員。它遵循Qwen2-Math的較早版本,這是一系列基於Qwen2 LLM的專業數學語言模型。這些模型表現出了出色的數學功能,超過了開源替代方案,甚至超過了一些封閉源模型,例如GPT-4O。
該系列展示了有關中文和英語數學基準的QWEN2-MATH系列的顯著性能提高。雖然該系列僅應用思考鏈(COT)來解決特定於英語的數學問題,但QWEN2.5-MATH系列通過納入COT和工具集成推理(TIR)來擴展其功能,以有效地解決中文和英語的數學問題。
QWEN2.5-MATH和QWEN2-MATH之間的比較突出了數學推理和解決問題的能力的進步,在阿里巴巴雲的特定於數學語言模型的最新迭代中實現了。
財產 | Qwen2-Math | QWEN2.5-MATH |
---|---|---|
培訓前數據大小 | 700b令牌(來自Qwen Math Corpus V1) | 超過1T令牌(來自QWEN MATH COPUS V2) |
支持語言 | 英語 | 英語和中文 |
方法 | 經營鏈(COT) | 經過思考鏈(COT),工具集成推理(TIR) |
基準分數(GSM8K,數學和MMLU-STEM) | 89.1,60.5,79.1 | 90.8,66.8,82.8 |
模型變體 | QWEN2-MATH-1.5B/7B/72B | QWEN2.5-MATH-1.5B/7B/72B |
QWEN2.5-MATH系列是使用QWEN MATH COPUS V2培訓的,其中包括英語和中文的1萬億高質量的數學數據令牌。該數據集包括使用QWEN2-MATH-72B - 教學模型生成的綜合數學數據以及通過多個召回週期從Web內容,書籍和代碼存儲庫中採購的匯總數學中國數據。
QWEN2.5-MATH的經營鏈(COT)數據集是旨在提高模型推理能力的數學問題的全面集合。它包括:
為了解決COT提示所面臨的計算和算法挑戰,例如求解二次方程或計算特徵值 - 引入了工具集成推理(TIR)數據集。該數據集通過使其能夠將Python解釋器用於推理任務,從而增強了模型對符號操作和精確計算的熟練程度。它包括:
由於QWEN2.5-MATH模型是QWEN2-MATH模型的升級版本,因此其訓練來自QWEN2-MATH,如下所示:
增強模型性能是提供更快,更準確的結果,確保應用程序效率和可靠性的關鍵。
基本型號QWEN2.5-MATH-1.5B/7B/72B在英語數學基準(GSM8K, MATH和MMLU-STEM)和中國數學基準測試(CMATH,GAOKAO MATH CLOZE和GAOKAO MATH QA)方面取得了重大改進,因為比較了Qwen2-Math-1.5b-1.5b/7b/7b/7b/7b/7b/7b/7b/72b。
例如,QWEN2.5-MATH-1.5B/7B/72B模型在數學上顯示出5.4、5.0、6.3的顯著改善,而Gaokao Math QA的得分提高了3.4、12.2、19.8。
QWEN2.5-MATH-72B-INSTRUCT模型的表現優於開源模型和頂級封閉源模型,例如GPT-4O和Gemini Math-Pecialized 1.5 Pro。
QWEN2.5-MATH-72B-INSTRUCT模型超過其前身(QWEN2-MATH-72B-INSTRUCTY模型),平均英語為4.4點,中文平均為6.1分。這種性能標誌著它是當今可用的領先開源數學模型的地位。
在極具挑戰性的基準(例如Aime 2024和AMC23)上,諸如Claude3 Opus,GPT-4 Turbo和Gemini 1.5 Pro之類的模型中僅解決了30個問題中的1或2個。相比之下,QWEN2.5-MATH-72B-INSTRUCTION表現出色的性能,在貪婪的解碼COT模式中解決了9個問題,在TIR模式下解決了12個問題。此外,在獎勵模型(RM)的協助下,QWEN2.5-MATH-7B-INSTRUCTION實現了令人印象深刻的21個解決問題,展示了其出色的數學問題解決能力。
讓我們在此處使用HuggingFace空間查看QWEN2.5-MATH演示。
該空間為圖像或文本格式輸入數學或算術問題提供了基於Web的用戶界面,以測試模型的功能。
為了支持多模式,此空間使用QWEN2-VL進行OCR和QWEN2.5-MATH用於數學推理。
QWEN-VL(QWEN大視覺語言模型)是多模式視覺語言模型,支持圖像,文本為輸入。它自然會支持英語和中文執行各種圖像到文本的生成任務,例如圖像字幕,視覺問題,視覺推理,文本識別等。
QWEN-VL系列包含許多模型,例如QWEN-VL,QWEN-VL-CHAT,QWEN-VL-PLUS,QWEN-VL-MAX
QWEN-VL-MAX是Qwen最有能力的大型視覺語言模型,用於在更廣泛的複雜任務上提供最佳性能。
該系統使用QWEN-VL-MAX-0809模型從輸入圖像中理解,處理和提取文本信息。 Process_image()函數首先接收輸入圖像並提取與數學相關的內容,從而確保任何乳膠公式的準確轉錄。然後,該系統應用以下標準提示,以從圖像中提取文本,數學相關的內容。
提示指示:“描述此圖像中與數學相關的內容,以確保任何乳膠公式的準確轉錄。不要描述非數學細節。”
導入操作系統 OS.System('PIP INSTALS DASHSCOPE -U') 導入tempfile 從pathlib導入路徑 進口秘密 導入Dashscope 從dashscope導入多模式轉換,生成 從PIL導入圖像 your_api_token = os.getEnv('your_api_token') dashscope.api_key = your_api_token Math_messages = [] def process_image(image,shory conconvert = false): 全局Math_messages Math_messages = []#重置上傳圖像 uploaded_file_dir = os.environ.get(“ gradio_temp_dir”)或str( 路徑(tempfile.getTempdir()) /“ gradio” ) OS.Makedirs(uploaded_file_dir,equent_ok = true) name = f“ tmp {secrets.token_hex(20)}。jpg” filename = os.path.join(uploaded_file_dir,名稱) 如果應該: new_img = image.new('rgb',size =(圖像。 new_img.paste(圖像,(0,0),蒙版=圖像) 圖像= new_img image.save(文件名) 消息= [{{ “角色”:“系統”, 'content':[{'text':'你是一個有益的助手。'}]] },{ “角色”:“用戶”, '內容': [ {'image':f'file:// {filename}'},, {'text':'請描述此圖像中與數學相關的內容,以確保正確轉錄任何乳膠公式。非數學細節不需要描述。'} 這是給出的 ]] 響應=多模式conversation.call(model ='qwen-vl-max-0809',messages =消息) OS.Remove(文件名) 返迴響應
此步驟提取圖像描述,然後將其傳遞到QWEN2.5模型以及用戶問題以生成響應。 QWEN2.5-MATH-72B-INSTRUCT模型在此過程中執行數學推理。
def get_math_response(image_description,user_question): 全局Math_messages 如果不是Math_messages: MATH_MESSAGES.APPEND({'角色':'system','content':'您是一個有用的數學助手。'})) Math_messages = Math_messages [:1] 如果image_description不是沒有: content = f'image描述:{image_description} \ n \ n' 別的: 內容='' 查詢= f“ {content}用戶問題:{user_question}” Math_messages.append({'row':'user','content':query}) 響應= generation.call( model =“ qwen2.5-Math-72b-instruct”, 消息= Math_messages, result_format ='消息', 流= true ) 答案=無 響應RESP: 如果desp.Output是無: 繼續 答案= resp.Output.Choices [0] .message.content 屈服答案(“ \\”,“ \\\\”) print(f'query:{query} \ nanswer:{wonse}') 如果答案是沒有的: Math_messages.pop() 別的: MATH_MESSAGES.APPEND({'角色':'Assistans','content':answer})
知道該空間中使用的模型後,讓我們看看一些示例
評估模型能力解決數學或算術問題。
包含以下問題語句的輸入映像 -
該模型找到x為5和y的值。它也提供了分步
自然語言推理,同時找到x和y的值。
包含以下問題語句的輸入映像 -
該模型發現最後一個表達式的值為50。
包含以下問題語句的輸入映像 -
該模型發現上述表達式為5。
在本文中,我們探索了QWEN2.5-MATH - 具有強大推理能力的一系列數學模型。我們檢查了其組件,培訓數據,體系結構以及各種標準基準測試的性能。此外,我們回顧了演示,並以一系列中等至複雜的示例進行了測試。
A. QWEN2.5-MATH是Qwen2-Math的升級版本,提供了提高的性能,更好地解決複雜的數學問題以及增強的訓練技術。
Q2。哪種模型對於復雜的數學任務,qwen2.5-MATH或QWEN2-MATH的表現更好?A. QWEN2.5-MATH通常在數學推理中的高級培訓和精緻能力上,在復雜任務上的表現通常優於QWEN2-MATH。
Q3。 QWEN2.5-MATH和QWEN2-MATH如何處理數學推理?答:兩種模型均設計用於數學推理,但是QWEN2.5使用更複雜的算法和訓練數據來更有效地解決挑戰性問題。
Q4。 QWEN2.5-MATH與QWEN2-MATH中訓練數據的重要性是什麼?答:QWEN2.5-MATH受益於更大,更多樣化的數據集,這比QWEN2-MATH更準確地提高了其概括和解決複雜數學問題的能力。
Q5。 QWEN2.5-MATH和QWEN2-MATH之間的處理速度有什麼差異嗎?A. QWEN2.5優化了更快的處理,並且與QWEN2-MATH相比提供了更快的響應,同時保持高精度。
本文所示的媒體不由Analytics Vidhya擁有,並由作者酌情使用。
以上是Qwen2.5-Moth入門的詳細內容。更多資訊請關注PHP中文網其他相關文章!