찾다
기술 주변기기일체 포함GPT-3의 수학 문제 해결 정확도가 92.5%로 향상되었습니다! Microsoft는 미세 조정 없이 '과학' 언어 모델을 만들 수 있는 MathPrompter를 제안합니다.

심각한 넌센스를 제외하고 대규모 언어 모델의 가장 비판받는 단점은 아마도 "수학을 할 수 없다는 것"일 것입니다.

GPT-3의 수학 문제 해결 정확도가 92.5%로 향상되었습니다! Microsoft는 미세 조정 없이 과학 언어 모델을 만들 수 있는 MathPrompter를 제안합니다.

예를 들어 다단계 추론이 필요한 복잡한 수학적 문제의 경우 언어 모델은 일반적으로 "사고 사슬" 기술의 축복에도 불구하고 오류가 자주 발생합니다. 중간 단계에서.

교양 분야의 자연어 이해 작업과 달리 수학적 질문에는 정답이 하나만 있고 답변 범위가 덜 개방되어 대규모 언어 모델의 경우 정확한 솔루션을 생성하는 작업이 더 어려워지는 경우가 많습니다.

더욱이, 수학 문제의 경우 기존 언어 모델은 일반적으로 답변에 대한 신뢰도를 제공하지 않으므로 사용자는 생성된 답변의 신뢰성을 판단할 수 없습니다.

이 문제를 해결하기 위해 Microsoft Research에서는 예측 의존도를 높이면서 산술 문제에 대한 LLM의 성능을 향상시킬 수 있는 MathPrompter 기술을 제안했습니다.

논문 링크: https://arxiv.org/abs/2303.05398

MathPrompter는 Zero-shot Thinking Chain Prompter 기술을 사용하여 여러 대수식 또는 Python 함수를 생성하여 동일한 수학 문제를 다양한 방식으로 해결합니다. , 이를 통해 출력 결과의 신뢰성이 향상됩니다.

다른 힌트 기반 CoT 방법과 비교하여 MathPrompter는 중간 단계의 유효성도 확인합니다.

175B 매개변수 GPT를 기반으로 MathPrompter 방법을 사용하여 MultiArith 데이터 세트의 정확도를 78.7%에서 92.5%로 높였습니다!

수학 전문 프롬프

최근 자연어 처리의 발전은 놀라운 제로샷과 소수의 -샷 능력을 보여준 대형언어모델(LLM)의 지속적인 규모 확장에 크게 기인한다. 또한 프롬프트 기술 개발에 기여했습니다. 사용자는 프롬프트에서 LLM에 몇 가지 간단한 샘플만 입력하면 새로운 작업을 예측할 수 있습니다.

단일 단계 작업에서는 프롬프트가 꽤 성공적이라고 할 수 있지만, 다단계 추론이 필요한 작업에서는 프롬프트 기술의 성능이 아직 부족합니다.

인간은 복잡한 문제를 해결할 때 이를 분해하여 단계별로 해결하려고 노력합니다. CoT(사고 사슬) 프롬프트 기술은 추론이 필요한 일련의 작업을 통해 이러한 직관을 LLM으로 확장합니다. . NLP 작업의 성능이 향상되었습니다.

이 문서에서는 주로 "수학적 추론 작업을 해결하기 위한" Zero-shot-CoT 방법을 연구합니다. 이전 작업에서는 MultiArith 데이터 세트의 정확도가 17.7%에서 78.7%로 크게 향상되었습니다. 그러나 여전히 두 가지 주요 단점이 있습니다. :

1. 모델에 따른 사고 체인은 결과를 향상시키지만 사고 체인 프롬프트에 따른 각 단계의 효율성을 확인하지는 않습니다.

2 LLM 예측 결과에 대한 신뢰도를 제공하지 않습니다. .

MathPrompter

이러한 격차를 어느 정도 해결하기 위해 연구자들은 "인간이 수학 문제를 해결하는 방식"에서 영감을 받아 복잡한 문제를 더 간단한 다단계 절차로 나누고 여러 방법을 사용하여 각 문제를 해결합니다. 한 단계의 방법.

GPT-3의 수학 문제 해결 정확도가 92.5%로 향상되었습니다! Microsoft는 미세 조정 없이 과학 언어 모델을 만들 수 있는 MathPrompter를 제안합니다.

LLM은 생성 모델이므로 특히 수학적 추론 작업의 경우 생성된 답변이 정확한지 확인하는 것이 매우 까다롭습니다.

연구원들은 학생들이 산술 문제를 해결하는 과정을 관찰하고 학생들이 답을 확인하기 위해 취한 몇 가지 단계를 요약했습니다.

알려진 결과 준수 솔루션을 알려진 결과와 비교하여 문제가 성숙한 솔루션의 표준 문제인 경우 정확성을 평가하고 필요한 조정을 할 수 있습니다. 이는 특히 유용합니다.

다중 검증은 문제에 여러 각도에서 접근하고 결과를 비교함으로써 솔루션의 효율성을 확인하는 데 도움이 되며 솔루션이 합리적이고 정확하다는 것을 보장합니다.

교차 확인, 문제를 해결하는 과정은 최종 답변만큼이나 필요합니다. 프로세스의 중간 단계가 올바른지 확인하면 솔루션 뒤에 있는 사고 과정을 명확하게 이해할 수 있습니다.

계산 확인, 계산기나 컴퓨터를 사용하여 산술 계산을 수행하면 최종 답변의 정확성을 확인하는 데 도움이 될 수 있습니다

구체적으로 Q라는 질문이 주어지면

GPT-3의 수학 문제 해결 정확도가 92.5%로 향상되었습니다! Microsoft는 미세 조정 없이 과학 언어 모델을 만들 수 있는 MathPrompter를 제안합니다.

레스토랑의 경우 성인 식사 가격은 5달러이고 어린이는 무료입니다. 15명이 들어오고 그 중 8명이 어린이라면 이 일행이 식사하는 데 드는 비용은 얼마입니까?

1. 대수 템플릿 생성

먼저 키-값 매핑을 사용하여 숫자 항목을 변수로 대체하여 문제를 대수 형식으로 변환한 다음 수정된 문제 Qt를 얻습니다

GPT-3의 수학 문제 해결 정확도가 92.5%로 향상되었습니다! Microsoft는 미세 조정 없이 과학 언어 모델을 만들 수 있는 MathPrompter를 제안합니다.

2. Math-prompts

위의 다중 검증 및 교차 확인 과정에서 제공되는 직관을 기반으로 Qt 분석 솔루션을 생성하는 데 두 가지 방법, 즉 Algebraically 및 Pythonicly가 사용됩니다. , LLM에는 Qt에 대한 추가 컨텍스트를 생성하기 위해 다음 힌트가 제공됩니다.

GPT-3의 수학 문제 해결 정확도가 92.5%로 향상되었습니다! Microsoft는 미세 조정 없이 과학 언어 모델을 만들 수 있는 MathPrompter를 제안합니다.

프롬프트는 "대수식 파생" 또는 "Python 함수 작성"일 수 있습니다.

LLM 모델은 프롬프트에 응답한 후 다음 표현식을 출력할 수 있습니다.

GPT-3의 수학 문제 해결 정확도가 92.5%로 향상되었습니다! Microsoft는 미세 조정 없이 과학 언어 모델을 만들 수 있는 MathPrompter를 제안합니다.

위에서 생성된 분석 계획은 사용자에게 LLM의 "중급 사고 과정"에 대한 팁을 제공합니다. 추가 팁을 추가하면 결과의 정확성과 일관성이 향상될 수 있으며 결과적으로 MathPrompter가 더욱 정확하고 효과적인 솔루션을 제공하는 능력.

3. 계산 검증

Qt에서 입력 변수의 여러 무작위 키-값 맵을 사용하여 이전 단계에서 생성된 표현식을 평가하고 Python의 eval() 메서드를 사용하여 이러한 표현식을 평가합니다. 평가하다.

그런 다음 출력 결과를 비교하여 답변에서 합의점을 찾을 수 있는지 확인하면 답변이 정확하고 신뢰할 수 있다는 더 높은 확신을 제공할 수도 있습니다.

GPT-3의 수학 문제 해결 정확도가 92.5%로 향상되었습니다! Microsoft는 미세 조정 없이 과학 언어 모델을 만들 수 있는 MathPrompter를 제안합니다.

표현식이 출력에 동의하면 입력 Q의 변수 값을 사용하여 최종 답을 계산합니다.

4. 통계적 유의성

다양한 표현식의 출력에 대한 합의를 보장하기 위해 실험에서 2단계와 3단계를 약 5회 반복하고 관찰된 가장 빈번한 응답 값을 보고합니다.

명확한 합의가 없는 경우 2, 3, 4단계를 반복합니다.

실험 결과

MultiArith 데이터 세트에서 MathPrompter를 평가합니다. 수학적 질문은 특히 기계 학습 모델의 복잡한 산술 연산 및 추론 능력을 테스트하는 데 사용됩니다. 성공적으로 해결합니다.

GPT-3의 수학 문제 해결 정확도가 92.5%로 향상되었습니다! Microsoft는 미세 조정 없이 과학 언어 모델을 만들 수 있는 MathPrompter를 제안합니다.

MultiArith 데이터 세트의 정확도 결과에 따르면 MathPrompter는 모든 Zero-shot 및 Zero-shot-CoT 기준선보다 성능이 뛰어나 정확도가 78.7%에서 92.5%로 증가합니다.

다음과 같이 볼 수 있습니다. 175B 매개변수 GPT3 DaVinci를 기반으로 하는 MathPrompter 모델의 성능은 540B 매개변수 모델 및 SOTA의 Few-shot-CoT 방법과 비슷합니다.

GPT-3의 수학 문제 해결 정확도가 92.5%로 향상되었습니다! Microsoft는 미세 조정 없이 과학 언어 모델을 만들 수 있는 MathPrompter를 제안합니다.

위 표에서 볼 수 있듯이 MathPrompter의 디자인은 "생성된 답변이 때때로 한 단계 차이가 나는 경우가 있습니다"와 같은 문제를 보완할 수 있는데, 이는 모델을 여러 번 실행하면 피할 수 있습니다. 그리고 합의 결과를 보고합니다.

또한 추론 단계가 너무 길어질 수 있는 문제는 일반적으로 더 적은 수의 토큰이 필요한 Pythonic 또는 Algebraic 방법으로 해결할 수 있습니다.

또한 추론 단계는 정확할 수 있지만 최종 계산 결과는 정확하지 않은 경우 MathPrompter는 Python의 eval() 메서드 함수를 사용하여 이 문제를 해결합니다.

대부분의 경우 MathPrompter는 올바른 중간 및 최종 답변을 생성할 수 있지만 표의 마지막 질문과 같이 대수 및 Pythonic 출력이 일관되지만 오류가 있는 경우가 몇 가지 있습니다.

위 내용은 GPT-3의 수학 문제 해결 정확도가 92.5%로 향상되었습니다! Microsoft는 미세 조정 없이 '과학' 언어 모델을 만들 수 있는 MathPrompter를 제안합니다.의 상세 내용입니다. 자세한 내용은 PHP 중국어 웹사이트의 기타 관련 기사를 참조하세요!

성명
이 기사는 51CTO.COM에서 복제됩니다. 침해가 있는 경우 admin@php.cn으로 문의하시기 바랍니다. 삭제
신속한 엔지니어링에서 생각의 그래프는 무엇입니까?신속한 엔지니어링에서 생각의 그래프는 무엇입니까?Apr 13, 2025 am 11:53 AM

소개 신속한 엔지니어링에서 "Thought of Thought"는 그래프 이론을 사용하여 AI의 추론 과정을 구성하고 안내하는 새로운 접근법을 나타냅니다. 종종 선형 S와 관련된 전통적인 방법과 달리

Genai 에이전트와 함께 조직의 이메일 마케팅을 최적화하십시오Genai 에이전트와 함께 조직의 이메일 마케팅을 최적화하십시오Apr 13, 2025 am 11:44 AM

소개 축하해요! 당신은 성공적인 사업을 운영합니다. 웹 페이지, 소셜 미디어 캠페인, 웹 세미나, 컨퍼런스, 무료 리소스 및 기타 소스를 통해 매일 5000 개의 이메일 ID를 수집합니다. 다음 명백한 단계는입니다

Apache Pinot을 사용한 실시간 앱 성능 모니터링Apache Pinot을 사용한 실시간 앱 성능 모니터링Apr 13, 2025 am 11:40 AM

소개 오늘날의 빠르게 진행되는 소프트웨어 개발 환경에서 최적의 애플리케이션 성능이 중요합니다. 응답 시간, 오류율 및 자원 활용과 같은 실시간 메트릭 모니터링 메인이 도움이 될 수 있습니다.

Chatgpt가 10 억 명의 사용자를 쳤습니까? Openai CEO는'몇 주 만에 두 배가되었습니다Chatgpt가 10 억 명의 사용자를 쳤습니까? Openai CEO는'몇 주 만에 두 배가되었습니다Apr 13, 2025 am 11:23 AM

"얼마나 많은 사용자가 있습니까?" 그는 자극했다. Altman은“마지막으로 우리가 마지막으로 말한 것은 매주 5 억 명의 행위자이며 매우 빠르게 성장하고 있다고 생각합니다. 앤더슨은 계속해서“당신은 나에게 몇 주 만에 두 배가되었다고 말했습니다. “저는 그 개인이라고 말했습니다

Pixtral -12B : Mistral AI의 첫 번째 멀티 모드 모델 -Anuctics VidhyaPixtral -12B : Mistral AI의 첫 번째 멀티 모드 모델 -Anuctics VidhyaApr 13, 2025 am 11:20 AM

소개 Mistral은 최초의 멀티 모드 모델, 즉 Pixtral-12B-2409를 발표했습니다. 이 모델은 Mistral의 120 억 개의 매개 변수 인 NEMO 12B를 기반으로합니다. 이 모델을 차별화하는 것은 무엇입니까? 이제 이미지와 Tex를 모두 가져갈 수 있습니다

생성 AI 응용 프로그램을위한 에이전트 프레임 워크 - 분석 Vidhya생성 AI 응용 프로그램을위한 에이전트 프레임 워크 - 분석 VidhyaApr 13, 2025 am 11:13 AM

쿼리에 응답 할뿐만 아니라 자율적으로 정보를 모으고, 작업을 실행하며, 여러 유형의 데이터 (텍스트, 이미지 및 코드를 처리하는 AI 구동 조수가 있다고 상상해보십시오. 미래처럼 들리나요? 이것에서

금융 부문에서 생성 AI의 응용금융 부문에서 생성 AI의 응용Apr 13, 2025 am 11:12 AM

소개 금융 산업은 효율적인 거래 및 신용 가용성을 촉진함으로써 경제 성장을 주도하기 때문에 모든 국가 개발의 초석입니다. 거래가 발생하는 용이성 및 신용

온라인 학습 및 수동 공격 알고리즘 안내온라인 학습 및 수동 공격 알고리즘 안내Apr 13, 2025 am 11:09 AM

소개 소셜 미디어, 금융 거래 및 전자 상거래 플랫폼과 같은 소스에서 전례없는 속도로 데이터가 생성되고 있습니다. 이 지속적인 정보 스트림을 처리하는 것은 어려운 일이지만

See all articles

핫 AI 도구

Undresser.AI Undress

Undresser.AI Undress

사실적인 누드 사진을 만들기 위한 AI 기반 앱

AI Clothes Remover

AI Clothes Remover

사진에서 옷을 제거하는 온라인 AI 도구입니다.

Undress AI Tool

Undress AI Tool

무료로 이미지를 벗다

Clothoff.io

Clothoff.io

AI 옷 제거제

AI Hentai Generator

AI Hentai Generator

AI Hentai를 무료로 생성하십시오.

인기 기사

R.E.P.O. 에너지 결정과 그들이하는 일 (노란색 크리스탈)
3 몇 주 전By尊渡假赌尊渡假赌尊渡假赌
R.E.P.O. 최고의 그래픽 설정
3 몇 주 전By尊渡假赌尊渡假赌尊渡假赌
R.E.P.O. 아무도들을 수없는 경우 오디오를 수정하는 방법
3 몇 주 전By尊渡假赌尊渡假赌尊渡假赌
WWE 2K25 : Myrise에서 모든 것을 잠금 해제하는 방법
4 몇 주 전By尊渡假赌尊渡假赌尊渡假赌

뜨거운 도구

SublimeText3 Linux 새 버전

SublimeText3 Linux 새 버전

SublimeText3 Linux 최신 버전

Dreamweaver Mac版

Dreamweaver Mac版

시각적 웹 개발 도구

스튜디오 13.0.1 보내기

스튜디오 13.0.1 보내기

강력한 PHP 통합 개발 환경

mPDF

mPDF

mPDF는 UTF-8로 인코딩된 HTML에서 PDF 파일을 생성할 수 있는 PHP 라이브러리입니다. 원저자인 Ian Back은 자신의 웹 사이트에서 "즉시" PDF 파일을 출력하고 다양한 언어를 처리하기 위해 mPDF를 작성했습니다. HTML2FPDF와 같은 원본 스크립트보다 유니코드 글꼴을 사용할 때 속도가 느리고 더 큰 파일을 생성하지만 CSS 스타일 등을 지원하고 많은 개선 사항이 있습니다. RTL(아랍어, 히브리어), CJK(중국어, 일본어, 한국어)를 포함한 거의 모든 언어를 지원합니다. 중첩된 블록 수준 요소(예: P, DIV)를 지원합니다.

VSCode Windows 64비트 다운로드

VSCode Windows 64비트 다운로드

Microsoft에서 출시한 강력한 무료 IDE 편집기