>기술 주변기기 >일체 포함 >Qwen2.5-Math로 시작합니다

Qwen2.5-Math로 시작합니다

William Shakespeare
William Shakespeare원래의
2025-03-13 11:03:10883검색

지난 몇 년 동안, 대형 언어 모델의 추론 능력을 연구하고 개선하는 데 상당한 진전이 있었으며, 해결 능력 향상에 중점을두고 있습니다.
산술 및 수학적 문제.

양호한 산술 및 수학적 추론을 가진 모델은 다음에 도움이 될 수 있습니다.

  • 개인화 된 학습 : AI 기반 교사는 개별 학생들의 요구에 적응할 수 있으며, 복잡한 수학적 개념을보다 효과적으로 이해합니다.
  • 문제 해결 지원 : 문제 해결을위한 단계별 설명을 자동화하면 학생 참여와 이해가 향상됩니다.
  • 커리큘럼 설계 : 대수 및 미적분학과 같은 과목에서 적응 및 진보적 인 학습 모듈 생성.

이 기사는 수학적 추론의 발전이 Qwen2.5-Math와 같은 AI 모델과 개인화 된 학습, 문제 해결 및 커리큘럼 설계의 응용 프로그램에서 혁신을 주도하는 방법을 살펴 봅니다.

학습 목표

  • Qwen2.5-Math 시리즈와 그 구성 요소를 이해하고 탐색하십시오.
  • Qwen2.5-Math Model Architecture에 대해 알아보십시오.
  • 예제와 함께 Qwen2.5-Math에서 실습 노출을 얻으십시오.
  • 다양한 벤치 마크에서 Qwen2.5-Math의 성능에 대해 알아보십시오.

목차

  • Qwen2.5-Math는 무엇입니까?
  • Qwen2.5-Math vs Qwen2-Math
  • 교육 데이터 최적화
  • 효율적인 모델 교육
  • 모델 성능 최적화
  • 실행 데모
  • 결론
  • 자주 묻는 질문

Qwen2.5-Math는 무엇입니까?

Qwen2.5-Math 시리즈는 Alibaba Cloud의 Qwen 시리즈 오픈 소스, 수학 별 대형 언어 모델에 최신 추가 기능입니다. QWEN2 LLM을 기반으로 한 일련의 전문화 된 수학적 언어 모델 인 QWEN2-MATH의 초기 릴리스를 따릅니다. 이 모델은 우수한 수학적 기능을 보여 주며, 오픈 소스 대안과 GPT-4O와 같은 일부 폐쇄 소스 모델을 능가합니다.

이 시리즈는 중국 및 영어 수학 벤치 마크에 대한 QWEN2-MATH 시리즈에 비해 상당한 성능 향상을 보여줍니다. 이 시리즈는 영어 별 수학 문제 만 해결하기 위해 COT (Chain-of Thought) (COT)를 적용하지만 QWEN2.5-MATH 시리즈는 COT 및 공구 통합 추론 (TIR)을 통합하여 기능을 확장하여 중국어와 영어의 수학 문제를 효과적으로 해결합니다.

Qwen2.5-Math vs Qwen2-Math

Qwen2.5-Math와 Qwen2-Math의 비교는 Alibaba Cloud의 수학 별 언어 모델의 최신 반복에서 달성 된 수학적 추론 및 문제 해결 기능의 발전을 강조합니다.

재산 Qwen2-Math qwen2.5-math
사전 훈련 데이터 크기 700B 토큰 (Qwen Math Corpus V1) 1T 이상의 토큰 (Qwen Math Corpus V2)
지원되는 언어 영어 영어와 중국어
접근하다 생각의 사슬 (COT) 사슬의 사슬 (COT), 도구 통합 추론 (TIR)
벤치 마크 점수 (GSM8K, Math 및 MMLU-stem) 89.1, 60.5, 79.1 90.8, 66.8, 82.8
모델 변형 QWEN2-MATH-1.5B/7B/72B QWEN2.5-MATH-1.5B/7B/72B

교육 데이터 최적화

Qwen2.5-Math 시리즈는 Qwen Math Corpus V2를 사용하여 교육을 받았으며 영어와 중국어 모두에서 1 조 높은 고품질 수학 데이터 토큰을 포함합니다. 이 데이터 세트에는 여러 리콜주기를 통해 웹 컨텐츠, 서적 및 코드 리포지토리에서 공급 된 QWEN2-MATH-72B- 강조 모델과 집계 된 수학적 중국 데이터를 사용하여 생성 된 합성 수학 데이터가 포함됩니다.

사슬의 생각 (COT) 데이터 세트

QWEN2.5-MATH의 COT (Cain-of-Thought) 데이터 세트는 모델의 추론 기능을 향상시키는 것을 목표로하는 포괄적 인 수학적 문제 모음입니다. 포함 :

  • 주석이 달린 품목 및 합성 품목을 포함한 580K 영어 및 500K 수학적 문제.
  • GSM8K, Math 및 Numinamath와 같은 소스에서 파생 된 주석이 달린 데이터.

도구 통합 추론 (TIR) ​​데이터 세트

COT 프롬프트가 직면 한 계산 및 알고리즘 과제 (2 차 방정식을 해결하거나 Computing EigenValues) (TIR) ​​데이터 세트가 도입되었습니다. 이 데이터 세트는 추론 작업을 위해 Python 통역사를 사용할 수있게하여 모델의 상징적 조작 및 정확한 계산 능력을 향상시킵니다. 포함 :

  • GSM8K, Math, Collegemath 및 Numinamath와 같은 벤치 마크의 190K 문제.
  • Mugglemath 및 Dotamath의 기술을 사용하여 GSM8K 및 수학 교육 세트 내에서 쿼리를 발전시키기 위해 205K 문제.

효율적인 모델 교육

Qwen2.5-Math로 시작합니다

QWEN2.5-MATH 모델은 QWEN2-MATH 모델의 업그레이드 된 버전이므로 교육 교육은 다음과 같이 QWEN2-MATH에서 파생됩니다.

  • Qwen2-Math 모델은 약 7 천억 개의 수학적 컨텐츠를 포함하는 고품질 데이터 세트 인 Qwen Math Corpus V1에 대해 훈련합니다.
  • 개발자는 QWEN2-MATH-72B 모델에서 파생 된 수학 별 보상 모델 인 QWEN2-MATH-RM을 교육합니다.
  • QWEN2.5 시리즈 기본 모델은 매개 변수 초기화, 언어 이해 향상, 코드 생성 및 텍스트 추론 기능을 제공합니다.
  • 기본 QWEN2.5-MATH 모델을 훈련 한 후 개발자는 QWEN2.5-MATH-72B를 기반으로 수학 별 보상 모델 QWEN2.5-MATH-RM-72B를 훈련시킵니다. 이 보상 모델은 SFT 모델 (QWEN2.5-MATH-SFT)에 대한 거부 샘플링을 통해 SFT 데이터를 발전시킵니다.
  • 인스턴트 모델 (Qwen2.5-Math-Instruct)은 응답의 품질을 연마하기 위해 끝날 때 구축됩니다. 이 모델은 QWEN2-Math-Instruct 모델과 QWEN2.5-MATH-RM-72B를 사용하여 추가 반복을 통해 생성됩니다. 이 프로세스에는 TIR (Tool-Integrated Ocosion) 데이터와 GRPO (Grpo)를 통해 개선 된 TIR (Tool-Integrated Ociding) 데이터와 SFT 데이터가 통합되어 모델의 성능을 더욱 광택시킵니다.

모델 성능 최적화

모델 성능 향상은 더 빠르고 정확한 결과를 제공하여 응용 프로그램의 효율성과 신뢰성을 보장하는 데 중요합니다.

기본 모델 성능

기본 모델 QWEN2.5-MATH-1.5B/7B/72B는 영어 수학 벤치 마크 (GSM8K, Math 및 MMLU-STEM) 및 중국 수학 벤치 마크 (CMATH, GAOKAO MATH CLOZE 및 GAOKAO MATH QA)에서 크게 개선되었습니다.

Qwen2.5-Math로 시작합니다

예를 들어, QWEN2.5-MATH-1.5B/7B/72B 모델은 수학에서 5.4, 5.0, 6.3의 현저한 개선을 보여주고 Gaokao Math QA에서 3.4, 12.2, 19.8의 점수 개선을 보여줍니다.

지시 조정 모델 성능

QWEN2.5-MATH-72B 강조 모델은 GPT-4O 및 Gemini Math-Specialized 1.5 Pro와 같은 오픈 소스 모델과 최고의 폐쇄 소스 모델을 능가했습니다.

Qwen2.5-Math로 시작합니다

QWEN2.5-MATH-72B-비 부업 모델은 전임자 (QWEN2-MATH-72B 비법 모델)를 영어의 평균 4.4 점, 중국어의 6.1 점을 능가합니다. 이 성능은 오늘날 사용 가능한 주요 오픈 소스 수학적 모델로 위치합니다.

AIME 2024 및 AMC23과 같은 매우 도전적인 벤치 마크에서 Claude3 Opus, GPT-4 터보 및 Gemini 1.5와 같은 모델은 30 개의 문제 중 1 ~ 2 개만 해결합니다. 대조적으로, QWEN2.5-MATH-72B-무역은 욕심 많은 성능을 보여 주어 탐욕스러운 디코딩 COT 모드와 TIR 모드에서 12 가지 문제를 해결합니다. 또한 QWEN2.5-MATH-7B- 스트럭은 보상 모델 (RM)의 도움으로 인상적인 21 개의 해결 된 문제를 달성하여 우수한 수학적 문제 해결 기능을 보여줍니다.

Qwen2.5-Math로 시작합니다

실행 데모

Huggingface 공간을 사용하여 Qwen2.5-Math 데모를 보자.

이 공간은 모델의 기능을 테스트하기 위해 이미지 또는 텍스트 형식의 수학적 또는 산술 문제를 입력 할 수있는 웹 기반 사용자 인터페이스를 제공합니다.

다중 공동성을 지원하기 위해이 공간은 OCR 용 QWEN2-VL을 사용하고 수학적 추론에는 QWEN2.5-Math를 사용합니다.

1 단계 : Qwen-VL을 사용하여 수학 관련 컨텐츠 추출

Qwen-VL (Qwen Large Vision Language Model)은 이미지, 텍스트를 입력으로 지원하는 멀티 모달 비전 언어 모델입니다. 그것은 자연스럽게 영어와 중국어를 지원하여 이미지 캡션, 시각적 질문 응답, 시각적 추론, 텍스트 인식 등과 같은 다양한 이미지-텍스트 생성 작업을 수행합니다.

Qwen-VL 시리즈에는 Qwen-VL, Qwen-VL-Chat, Qwen-VL-Plus, Qwen-VL-Max와 같은 많은 모델이 포함되어 있습니다.
Qwen-VL-Max는 더 광범위한 복잡한 작업에서 최적의 성능을 제공하기위한 Qwen의 가장 유능한 대형 시각적 언어 모델입니다.

이 시스템은 Qwen-VL-Max-0809 모델을 사용하여 입력 이미지에서 텍스트 정보를 이해, 처리 및 추출합니다. Process_image () 함수는 먼저 입력 이미지를 수신하고 수학 관련 컨텐츠를 추출하여 라텍스 공식의 정확한 전사를 보장합니다. 그런 다음 시스템은 이미지에서 텍스트 수학 관련 컨텐츠를 추출하기 위해 다음 표준 프롬프트를 적용합니다.

프롬프트는 다음과 같이 지시합니다.“이 이미지의 수학 관련 내용을 설명하여 라텍스 공식의 정확한 전사를 보장합니다. 무혈체의 세부 사항을 설명하지 마십시오.”

 OS 가져 오기

OS.System ( 'PIP 설치 대시 스코프 -U')
Tempfile 가져 오기
pathlib 가져 오기 경로에서
수입 비밀
DashScope 가져 오기
대시 스코프 가져 오기 MultimodalConversation, Generation에서
PIL 가져 오기 이미지에서



your_api_token = os.getenv ( 'your_api_token')
dashscope.api_key = Your_api_token
math_messages = []
def process_image (image, rithconvert = false) :

    글로벌 Math_Messages
    math_messages = [] # 이미지를 업로드 할 때 재설정합니다
    UPLODED_FILE_DIR = os.environ.get ( "gradio_temp_dir") 또는 str (
        경로 (tempfile.getTempdir ()) / "gradio"
    ))
    os.makedirs (uploaded_file_dir, extin_ok = true)
    

    name = f "tmp {secrets.token_hex (20)}. jpg"
    filename = os.path.join (uploaded_file_dir, name)

    해야 할 경우 :
        new_img = image.new ( 'rgb', size = (image.width, image.height), color = (255, 255, 255))
        new_img.paste (image, (0, 0), mask = image)
        image = new_img
    image.save (파일 이름)
    

    메시지 = [{
        '역할': '시스템',
        '내용': [{ 'text': '당신은 도움이되는 조수입니다.'}]
    }, {
        '역할': '사용자',
        '콘텐츠': [
            { 'image': f'file : // {filename} '},
            { 'text': '이 이미지의 수학 관련 내용을 설명하여 라텍스 공식이 올바르게 기록되도록하십시오. 비 수학적 세부 사항을 설명 할 필요가 없습니다. '}
        ]]
    }]
    
    응답 = multimodalconversation.call (model = 'qwen-vl-max-0809', messages = message)
    

    os.remove (filename)
    
    return response.output.choices [0] [ "Message"] [ "Content"]#가져 오기 CSV

2 단계 : qwen2.5-math를 사용한 수학적 추론

이 단계는 이미지 설명을 추출한 다음 사용자 질문과 함께 QWEN2.5 모델로 전달되어 응답을 생성합니다. QWEN2.5-MATH-72B 강조 모델은이 과정에서 수학적 추론을 수행합니다.

 def get_math_response (image_description, user_question) :
    글로벌 Math_Messages
    Math_Messages가 아닌 경우 :
        Math_Messages.Append ({ 'role': 'system', 'content': '당신은 도움이되는 수학 어시스턴트입니다.'})
    math_messages = math_messages [: 1]
    image_description이 없다면 :
        content = f'image 설명 : {image_description} \ n \ n '
    또 다른:
        내용 = ''
    query = f "{content} 사용자 질문 : {user_question}"
    Math_Messages.Append ({ 'role': 'user', 'content': query})
    응답 = Generation.Call (	
        Model = "QWEN2.5-MATH-72B-Instruct",
        메시지 = math_messages,	
        result_format = 'message',
        스트림 = 참
    ))
    답 = 없음
    응답으로 RESP의 경우 :
        resp.output이 없다면 :
            계속하다
        답 = resp.output.choices [0] .message.content
        수율 답변.
    print (f'query : {query} \ nanswer : {answer} ')
    대답이 없으면 :
        math_messages.pop ()
    또 다른:
        math_messages.append ({ 'role': 'Assistant', 'Content': Answer})

이 공간에서 사용 된 모델에 대해 알고 있으면 몇 가지 예를 보겠습니다.
수학적 또는 산술 문제를 해결하기위한 모델 기능을 평가하십시오.

예제 1

다음 문제 설명을 포함하는 입력 이미지 -

Qwen2.5-Math로 시작합니다

모델은 x의 값을 5로, y의 값을 2로 찾습니다. 또한 단계별로 제공합니다.
X와 Y의 값을 찾는 동안 자연어 추론.

예제 2

다음 문제 설명을 포함하는 입력 이미지 -

Qwen2.5-Math로 시작합니다

이 모델은 마지막 표현식의 값을 50으로 찾습니다.

예제 3

다음 문제 설명을 포함하는 입력 이미지 -

Qwen2.5-Math로 시작합니다

이 모델은 위의 표현식의 값을 5로 찾습니다.

결론

이 기사에서는 강력한 추론 능력을 가진 일련의 수학적 모델 인 Qwen2.5-Math를 탐색했습니다. 다양한 표준 벤치 마크에서 구성 요소, 교육 데이터, 아키텍처 및 성능을 조사했습니다. 또한 데모를 검토하여 다양한 예에서 복잡한 예제로 테스트했습니다.

주요 테이크 아웃

  • QWEN2.5-MATH 모델은 중국어와 영어를 지원하며 고급 수학적 추론 기능을 보여줍니다. COT (Cain of-COT) 및 TIR (Tool-Integrated Opose)과 같은 기술을 사용합니다.
  • QWEN2.5 시리즈에는 매개 변수 수에 기초한 여러 변형이 포함되며, 모델은 1.5B, 7B 및 72B 매개 변수로 제공됩니다.
  • QWEN2.5-MATH 모델은 사전 훈련을 위해 1 조 토큰을 활용하며, QWEN2-MATH에 사용되는 7 천억 토큰에 비해 상당한 증가입니다.
  • QWEN2.5-MATH는 다양한 영어 및 중국 벤치 마크에서 QWEN2-MATH를 능가합니다. 또한 AIME 2024와 같은 도전적인 벤치 마크에서 Claude3 Opus, GPT-4 Turbo 및 Gemini 1.5 Pro와 같은 모델을 능가합니다.

자주 묻는 질문

Q1. Qwen2.5-Math와 Qwen2-Math의 차이점은 무엇입니까?

A. QWEN2.5-MATH는 업그레이드 된 QWEN2-MATH의 업그레이드 버전으로, 성능 향상, 복잡한 수학적 문제 해결의 정확도 및 향상된 교육 기술을 제공합니다.

Q2. 복잡한 수학적 작업, QWEN2.5-MATH 또는 QWEN2-MATH에서 어떤 모델이 더 잘 수행됩니까?

A. QWEN2.5-MATH는 일반적으로 수학적 추론의 고급 교육 및 정제 된 기능으로 인해 복잡한 작업에 대해 QWEN2-MATH를 능가합니다.

Q3. Qwen2.5-Math 및 Qwen2-Math는 수학적 추론을 어떻게 처리합니까?

A. 두 모델 모두 수학적 추론을 위해 설계되었지만 QWEN2.5는보다 정교한 알고리즘과 교육 데이터를 사용하여 도전적인 문제를보다 효과적으로 해결합니다.

Q4. Qwen2.5-Math vs Qwen2-Math의 교육 데이터의 중요성은 무엇입니까?

A. QWEN2.5-MATH는 더 크고 다양한 데이터 세트의 혜택을 받아 QWEN2-MATH보다 복잡한 수학적 문제를 더 정확하게 일반화하고 해결하는 능력을 향상시킵니다.

Q5. Qwen2.5-Math와 Qwen2-Math 사이의 처리 속도에 차이가 있습니까?

A. QWEN2.5는 더 빠른 처리를 최적화하고 높은 정확도를 유지하면서 QWEN2-MATH에 비해 빠른 응답을 제공합니다.

이 기사에 표시된 미디어는 분석 Vidhya가 소유하지 않으며 저자의 재량에 따라 사용됩니다.

위 내용은 Qwen2.5-Math로 시작합니다의 상세 내용입니다. 자세한 내용은 PHP 중국어 웹사이트의 기타 관련 기사를 참조하세요!

성명:
본 글의 내용은 네티즌들의 자발적인 기여로 작성되었으며, 저작권은 원저작자에게 있습니다. 본 사이트는 이에 상응하는 법적 책임을 지지 않습니다. 표절이나 침해가 의심되는 콘텐츠를 발견한 경우 admin@php.cn으로 문의하세요.