지난 몇 년 동안, 대형 언어 모델의 추론 능력을 연구하고 개선하는 데 상당한 진전이 있었으며, 해결 능력 향상에 중점을두고 있습니다.
산술 및 수학적 문제.
양호한 산술 및 수학적 추론을 가진 모델은 다음에 도움이 될 수 있습니다.
이 기사는 수학적 추론의 발전이 Qwen2.5-Math와 같은 AI 모델과 개인화 된 학습, 문제 해결 및 커리큘럼 설계의 응용 프로그램에서 혁신을 주도하는 방법을 살펴 봅니다.
Qwen2.5-Math 시리즈는 Alibaba Cloud의 Qwen 시리즈 오픈 소스, 수학 별 대형 언어 모델에 최신 추가 기능입니다. QWEN2 LLM을 기반으로 한 일련의 전문화 된 수학적 언어 모델 인 QWEN2-MATH의 초기 릴리스를 따릅니다. 이 모델은 우수한 수학적 기능을 보여 주며, 오픈 소스 대안과 GPT-4O와 같은 일부 폐쇄 소스 모델을 능가합니다.
이 시리즈는 중국 및 영어 수학 벤치 마크에 대한 QWEN2-MATH 시리즈에 비해 상당한 성능 향상을 보여줍니다. 이 시리즈는 영어 별 수학 문제 만 해결하기 위해 COT (Chain-of Thought) (COT)를 적용하지만 QWEN2.5-MATH 시리즈는 COT 및 공구 통합 추론 (TIR)을 통합하여 기능을 확장하여 중국어와 영어의 수학 문제를 효과적으로 해결합니다.
Qwen2.5-Math와 Qwen2-Math의 비교는 Alibaba Cloud의 수학 별 언어 모델의 최신 반복에서 달성 된 수학적 추론 및 문제 해결 기능의 발전을 강조합니다.
재산 | Qwen2-Math | qwen2.5-math |
---|---|---|
사전 훈련 데이터 크기 | 700B 토큰 (Qwen Math Corpus V1) | 1T 이상의 토큰 (Qwen Math Corpus V2) |
지원되는 언어 | 영어 | 영어와 중국어 |
접근하다 | 생각의 사슬 (COT) | 사슬의 사슬 (COT), 도구 통합 추론 (TIR) |
벤치 마크 점수 (GSM8K, Math 및 MMLU-stem) | 89.1, 60.5, 79.1 | 90.8, 66.8, 82.8 |
모델 변형 | QWEN2-MATH-1.5B/7B/72B | QWEN2.5-MATH-1.5B/7B/72B |
Qwen2.5-Math 시리즈는 Qwen Math Corpus V2를 사용하여 교육을 받았으며 영어와 중국어 모두에서 1 조 높은 고품질 수학 데이터 토큰을 포함합니다. 이 데이터 세트에는 여러 리콜주기를 통해 웹 컨텐츠, 서적 및 코드 리포지토리에서 공급 된 QWEN2-MATH-72B- 강조 모델과 집계 된 수학적 중국 데이터를 사용하여 생성 된 합성 수학 데이터가 포함됩니다.
QWEN2.5-MATH의 COT (Cain-of-Thought) 데이터 세트는 모델의 추론 기능을 향상시키는 것을 목표로하는 포괄적 인 수학적 문제 모음입니다. 포함 :
COT 프롬프트가 직면 한 계산 및 알고리즘 과제 (2 차 방정식을 해결하거나 Computing EigenValues) (TIR) 데이터 세트가 도입되었습니다. 이 데이터 세트는 추론 작업을 위해 Python 통역사를 사용할 수있게하여 모델의 상징적 조작 및 정확한 계산 능력을 향상시킵니다. 포함 :
QWEN2.5-MATH 모델은 QWEN2-MATH 모델의 업그레이드 된 버전이므로 교육 교육은 다음과 같이 QWEN2-MATH에서 파생됩니다.
모델 성능 향상은 더 빠르고 정확한 결과를 제공하여 응용 프로그램의 효율성과 신뢰성을 보장하는 데 중요합니다.
기본 모델 QWEN2.5-MATH-1.5B/7B/72B는 영어 수학 벤치 마크 (GSM8K, Math 및 MMLU-STEM) 및 중국 수학 벤치 마크 (CMATH, GAOKAO MATH CLOZE 및 GAOKAO MATH QA)에서 크게 개선되었습니다.
예를 들어, QWEN2.5-MATH-1.5B/7B/72B 모델은 수학에서 5.4, 5.0, 6.3의 현저한 개선을 보여주고 Gaokao Math QA에서 3.4, 12.2, 19.8의 점수 개선을 보여줍니다.
QWEN2.5-MATH-72B 강조 모델은 GPT-4O 및 Gemini Math-Specialized 1.5 Pro와 같은 오픈 소스 모델과 최고의 폐쇄 소스 모델을 능가했습니다.
QWEN2.5-MATH-72B-비 부업 모델은 전임자 (QWEN2-MATH-72B 비법 모델)를 영어의 평균 4.4 점, 중국어의 6.1 점을 능가합니다. 이 성능은 오늘날 사용 가능한 주요 오픈 소스 수학적 모델로 위치합니다.
AIME 2024 및 AMC23과 같은 매우 도전적인 벤치 마크에서 Claude3 Opus, GPT-4 터보 및 Gemini 1.5와 같은 모델은 30 개의 문제 중 1 ~ 2 개만 해결합니다. 대조적으로, QWEN2.5-MATH-72B-무역은 욕심 많은 성능을 보여 주어 탐욕스러운 디코딩 COT 모드와 TIR 모드에서 12 가지 문제를 해결합니다. 또한 QWEN2.5-MATH-7B- 스트럭은 보상 모델 (RM)의 도움으로 인상적인 21 개의 해결 된 문제를 달성하여 우수한 수학적 문제 해결 기능을 보여줍니다.
Huggingface 공간을 사용하여 Qwen2.5-Math 데모를 보자.
이 공간은 모델의 기능을 테스트하기 위해 이미지 또는 텍스트 형식의 수학적 또는 산술 문제를 입력 할 수있는 웹 기반 사용자 인터페이스를 제공합니다.
다중 공동성을 지원하기 위해이 공간은 OCR 용 QWEN2-VL을 사용하고 수학적 추론에는 QWEN2.5-Math를 사용합니다.
Qwen-VL (Qwen Large Vision Language Model)은 이미지, 텍스트를 입력으로 지원하는 멀티 모달 비전 언어 모델입니다. 그것은 자연스럽게 영어와 중국어를 지원하여 이미지 캡션, 시각적 질문 응답, 시각적 추론, 텍스트 인식 등과 같은 다양한 이미지-텍스트 생성 작업을 수행합니다.
Qwen-VL 시리즈에는 Qwen-VL, Qwen-VL-Chat, Qwen-VL-Plus, Qwen-VL-Max와 같은 많은 모델이 포함되어 있습니다.
Qwen-VL-Max는 더 광범위한 복잡한 작업에서 최적의 성능을 제공하기위한 Qwen의 가장 유능한 대형 시각적 언어 모델입니다.
이 시스템은 Qwen-VL-Max-0809 모델을 사용하여 입력 이미지에서 텍스트 정보를 이해, 처리 및 추출합니다. Process_image () 함수는 먼저 입력 이미지를 수신하고 수학 관련 컨텐츠를 추출하여 라텍스 공식의 정확한 전사를 보장합니다. 그런 다음 시스템은 이미지에서 텍스트 수학 관련 컨텐츠를 추출하기 위해 다음 표준 프롬프트를 적용합니다.
프롬프트는 다음과 같이 지시합니다.“이 이미지의 수학 관련 내용을 설명하여 라텍스 공식의 정확한 전사를 보장합니다. 무혈체의 세부 사항을 설명하지 마십시오.”
OS 가져 오기 OS.System ( 'PIP 설치 대시 스코프 -U') Tempfile 가져 오기 pathlib 가져 오기 경로에서 수입 비밀 DashScope 가져 오기 대시 스코프 가져 오기 MultimodalConversation, Generation에서 PIL 가져 오기 이미지에서 your_api_token = os.getenv ( 'your_api_token') dashscope.api_key = Your_api_token math_messages = [] def process_image (image, rithconvert = false) : 글로벌 Math_Messages math_messages = [] # 이미지를 업로드 할 때 재설정합니다 UPLODED_FILE_DIR = os.environ.get ( "gradio_temp_dir") 또는 str ( 경로 (tempfile.getTempdir ()) / "gradio" )) os.makedirs (uploaded_file_dir, extin_ok = true) name = f "tmp {secrets.token_hex (20)}. jpg" filename = os.path.join (uploaded_file_dir, name) 해야 할 경우 : new_img = image.new ( 'rgb', size = (image.width, image.height), color = (255, 255, 255)) new_img.paste (image, (0, 0), mask = image) image = new_img image.save (파일 이름) 메시지 = [{ '역할': '시스템', '내용': [{ 'text': '당신은 도움이되는 조수입니다.'}] }, { '역할': '사용자', '콘텐츠': [ { 'image': f'file : // {filename} '}, { 'text': '이 이미지의 수학 관련 내용을 설명하여 라텍스 공식이 올바르게 기록되도록하십시오. 비 수학적 세부 사항을 설명 할 필요가 없습니다. '} ]] }] 응답 = multimodalconversation.call (model = 'qwen-vl-max-0809', messages = message) os.remove (filename) return response.output.choices [0] [ "Message"] [ "Content"]#가져 오기 CSV
이 단계는 이미지 설명을 추출한 다음 사용자 질문과 함께 QWEN2.5 모델로 전달되어 응답을 생성합니다. QWEN2.5-MATH-72B 강조 모델은이 과정에서 수학적 추론을 수행합니다.
def get_math_response (image_description, user_question) : 글로벌 Math_Messages Math_Messages가 아닌 경우 : Math_Messages.Append ({ 'role': 'system', 'content': '당신은 도움이되는 수학 어시스턴트입니다.'}) math_messages = math_messages [: 1] image_description이 없다면 : content = f'image 설명 : {image_description} \ n \ n ' 또 다른: 내용 = '' query = f "{content} 사용자 질문 : {user_question}" Math_Messages.Append ({ 'role': 'user', 'content': query}) 응답 = Generation.Call ( Model = "QWEN2.5-MATH-72B-Instruct", 메시지 = math_messages, result_format = 'message', 스트림 = 참 )) 답 = 없음 응답으로 RESP의 경우 : resp.output이 없다면 : 계속하다 답 = resp.output.choices [0] .message.content 수율 답변. print (f'query : {query} \ nanswer : {answer} ') 대답이 없으면 : math_messages.pop () 또 다른: math_messages.append ({ 'role': 'Assistant', 'Content': Answer})
이 공간에서 사용 된 모델에 대해 알고 있으면 몇 가지 예를 보겠습니다.
수학적 또는 산술 문제를 해결하기위한 모델 기능을 평가하십시오.
다음 문제 설명을 포함하는 입력 이미지 -
모델은 x의 값을 5로, y의 값을 2로 찾습니다. 또한 단계별로 제공합니다.
X와 Y의 값을 찾는 동안 자연어 추론.
다음 문제 설명을 포함하는 입력 이미지 -
이 모델은 마지막 표현식의 값을 50으로 찾습니다.
다음 문제 설명을 포함하는 입력 이미지 -
이 모델은 위의 표현식의 값을 5로 찾습니다.
이 기사에서는 강력한 추론 능력을 가진 일련의 수학적 모델 인 Qwen2.5-Math를 탐색했습니다. 다양한 표준 벤치 마크에서 구성 요소, 교육 데이터, 아키텍처 및 성능을 조사했습니다. 또한 데모를 검토하여 다양한 예에서 복잡한 예제로 테스트했습니다.
A. QWEN2.5-MATH는 업그레이드 된 QWEN2-MATH의 업그레이드 버전으로, 성능 향상, 복잡한 수학적 문제 해결의 정확도 및 향상된 교육 기술을 제공합니다.
Q2. 복잡한 수학적 작업, QWEN2.5-MATH 또는 QWEN2-MATH에서 어떤 모델이 더 잘 수행됩니까?A. QWEN2.5-MATH는 일반적으로 수학적 추론의 고급 교육 및 정제 된 기능으로 인해 복잡한 작업에 대해 QWEN2-MATH를 능가합니다.
Q3. Qwen2.5-Math 및 Qwen2-Math는 수학적 추론을 어떻게 처리합니까?A. 두 모델 모두 수학적 추론을 위해 설계되었지만 QWEN2.5는보다 정교한 알고리즘과 교육 데이터를 사용하여 도전적인 문제를보다 효과적으로 해결합니다.
Q4. Qwen2.5-Math vs Qwen2-Math의 교육 데이터의 중요성은 무엇입니까?A. QWEN2.5-MATH는 더 크고 다양한 데이터 세트의 혜택을 받아 QWEN2-MATH보다 복잡한 수학적 문제를 더 정확하게 일반화하고 해결하는 능력을 향상시킵니다.
Q5. Qwen2.5-Math와 Qwen2-Math 사이의 처리 속도에 차이가 있습니까?A. QWEN2.5는 더 빠른 처리를 최적화하고 높은 정확도를 유지하면서 QWEN2-MATH에 비해 빠른 응답을 제공합니다.
이 기사에 표시된 미디어는 분석 Vidhya가 소유하지 않으며 저자의 재량에 따라 사용됩니다.
위 내용은 Qwen2.5-Math로 시작합니다의 상세 내용입니다. 자세한 내용은 PHP 중국어 웹사이트의 기타 관련 기사를 참조하세요!