>  기사  >  기술 주변기기  >  GPT-3의 수학 문제 해결 정확도가 92.5%로 향상되었습니다! Microsoft는 미세 조정 없이 "과학" 언어 모델을 만들 수 있는 MathPrompter를 제안합니다.

GPT-3의 수학 문제 해결 정확도가 92.5%로 향상되었습니다! Microsoft는 미세 조정 없이 "과학" 언어 모델을 만들 수 있는 MathPrompter를 제안합니다.

WBOY
WBOY앞으로
2023-04-12 21:25:011758검색

심각한 넌센스를 제외하고 대규모 언어 모델의 가장 비판받는 단점은 아마도 "수학을 할 수 없다는 것"일 것입니다.

GPT-3의 수학 문제 해결 정확도가 92.5%로 향상되었습니다! Microsoft는 미세 조정 없이 과학 언어 모델을 만들 수 있는 MathPrompter를 제안합니다.

예를 들어 다단계 추론이 필요한 복잡한 수학적 문제의 경우 언어 모델은 일반적으로 "사고 사슬" 기술의 축복에도 불구하고 오류가 자주 발생합니다. 중간 단계에서.

교양 분야의 자연어 이해 작업과 달리 수학적 질문에는 정답이 하나만 있고 답변 범위가 덜 개방되어 대규모 언어 모델의 경우 정확한 솔루션을 생성하는 작업이 더 어려워지는 경우가 많습니다.

더욱이, 수학 문제의 경우 기존 언어 모델은 일반적으로 답변에 대한 신뢰도를 제공하지 않으므로 사용자는 생성된 답변의 신뢰성을 판단할 수 없습니다.

이 문제를 해결하기 위해 Microsoft Research에서는 예측 의존도를 높이면서 산술 문제에 대한 LLM의 성능을 향상시킬 수 있는 MathPrompter 기술을 제안했습니다.

논문 링크: https://arxiv.org/abs/2303.05398

MathPrompter는 Zero-shot Thinking Chain Prompter 기술을 사용하여 여러 대수식 또는 Python 함수를 생성하여 동일한 수학 문제를 다양한 방식으로 해결합니다. , 이를 통해 출력 결과의 신뢰성이 향상됩니다.

다른 힌트 기반 CoT 방법과 비교하여 MathPrompter는 중간 단계의 유효성도 확인합니다.

175B 매개변수 GPT를 기반으로 MathPrompter 방법을 사용하여 MultiArith 데이터 세트의 정확도를 78.7%에서 92.5%로 높였습니다!

수학 전문 프롬프

최근 자연어 처리의 발전은 놀라운 제로샷과 소수의 -샷 능력을 보여준 대형언어모델(LLM)의 지속적인 규모 확장에 크게 기인한다. 또한 프롬프트 기술 개발에 기여했습니다. 사용자는 프롬프트에서 LLM에 몇 가지 간단한 샘플만 입력하면 새로운 작업을 예측할 수 있습니다.

단일 단계 작업에서는 프롬프트가 꽤 성공적이라고 할 수 있지만, 다단계 추론이 필요한 작업에서는 프롬프트 기술의 성능이 아직 부족합니다.

인간은 복잡한 문제를 해결할 때 이를 분해하여 단계별로 해결하려고 노력합니다. CoT(사고 사슬) 프롬프트 기술은 추론이 필요한 일련의 작업을 통해 이러한 직관을 LLM으로 확장합니다. . NLP 작업의 성능이 향상되었습니다.

이 문서에서는 주로 "수학적 추론 작업을 해결하기 위한" Zero-shot-CoT 방법을 연구합니다. 이전 작업에서는 MultiArith 데이터 세트의 정확도가 17.7%에서 78.7%로 크게 향상되었습니다. 그러나 여전히 두 가지 주요 단점이 있습니다. :

1. 모델에 따른 사고 체인은 결과를 향상시키지만 사고 체인 프롬프트에 따른 각 단계의 효율성을 확인하지는 않습니다.

2 LLM 예측 결과에 대한 신뢰도를 제공하지 않습니다. .

MathPrompter

이러한 격차를 어느 정도 해결하기 위해 연구자들은 "인간이 수학 문제를 해결하는 방식"에서 영감을 받아 복잡한 문제를 더 간단한 다단계 절차로 나누고 여러 방법을 사용하여 각 문제를 해결합니다. 한 단계의 방법.

GPT-3의 수학 문제 해결 정확도가 92.5%로 향상되었습니다! Microsoft는 미세 조정 없이 과학 언어 모델을 만들 수 있는 MathPrompter를 제안합니다.

LLM은 생성 모델이므로 특히 수학적 추론 작업의 경우 생성된 답변이 정확한지 확인하는 것이 매우 까다롭습니다.

연구원들은 학생들이 산술 문제를 해결하는 과정을 관찰하고 학생들이 답을 확인하기 위해 취한 몇 가지 단계를 요약했습니다.

알려진 결과 준수 솔루션을 알려진 결과와 비교하여 문제가 성숙한 솔루션의 표준 문제인 경우 정확성을 평가하고 필요한 조정을 할 수 있습니다. 이는 특히 유용합니다.

다중 검증은 문제에 여러 각도에서 접근하고 결과를 비교함으로써 솔루션의 효율성을 확인하는 데 도움이 되며 솔루션이 합리적이고 정확하다는 것을 보장합니다.

교차 확인, 문제를 해결하는 과정은 최종 답변만큼이나 필요합니다. 프로세스의 중간 단계가 올바른지 확인하면 솔루션 뒤에 있는 사고 과정을 명확하게 이해할 수 있습니다.

계산 확인, 계산기나 컴퓨터를 사용하여 산술 계산을 수행하면 최종 답변의 정확성을 확인하는 데 도움이 될 수 있습니다

구체적으로 Q라는 질문이 주어지면

GPT-3의 수학 문제 해결 정확도가 92.5%로 향상되었습니다! Microsoft는 미세 조정 없이 과학 언어 모델을 만들 수 있는 MathPrompter를 제안합니다.

레스토랑의 경우 성인 식사 가격은 5달러이고 어린이는 무료입니다. 15명이 들어오고 그 중 8명이 어린이라면 이 일행이 식사하는 데 드는 비용은 얼마입니까?

1. 대수 템플릿 생성

먼저 키-값 매핑을 사용하여 숫자 항목을 변수로 대체하여 문제를 대수 형식으로 변환한 다음 수정된 문제 Qt를 얻습니다

GPT-3의 수학 문제 해결 정확도가 92.5%로 향상되었습니다! Microsoft는 미세 조정 없이 과학 언어 모델을 만들 수 있는 MathPrompter를 제안합니다.

2. Math-prompts

위의 다중 검증 및 교차 확인 과정에서 제공되는 직관을 기반으로 Qt 분석 솔루션을 생성하는 데 두 가지 방법, 즉 Algebraically 및 Pythonicly가 사용됩니다. , LLM에는 Qt에 대한 추가 컨텍스트를 생성하기 위해 다음 힌트가 제공됩니다.

GPT-3의 수학 문제 해결 정확도가 92.5%로 향상되었습니다! Microsoft는 미세 조정 없이 과학 언어 모델을 만들 수 있는 MathPrompter를 제안합니다.

프롬프트는 "대수식 파생" 또는 "Python 함수 작성"일 수 있습니다.

LLM 모델은 프롬프트에 응답한 후 다음 표현식을 출력할 수 있습니다.

GPT-3의 수학 문제 해결 정확도가 92.5%로 향상되었습니다! Microsoft는 미세 조정 없이 과학 언어 모델을 만들 수 있는 MathPrompter를 제안합니다.

위에서 생성된 분석 계획은 사용자에게 LLM의 "중급 사고 과정"에 대한 팁을 제공합니다. 추가 팁을 추가하면 결과의 정확성과 일관성이 향상될 수 있으며 결과적으로 MathPrompter가 더욱 정확하고 효과적인 솔루션을 제공하는 능력.

3. 계산 검증

Qt에서 입력 변수의 여러 무작위 키-값 맵을 사용하여 이전 단계에서 생성된 표현식을 평가하고 Python의 eval() 메서드를 사용하여 이러한 표현식을 평가합니다. 평가하다.

그런 다음 출력 결과를 비교하여 답변에서 합의점을 찾을 수 있는지 확인하면 답변이 정확하고 신뢰할 수 있다는 더 높은 확신을 제공할 수도 있습니다.

GPT-3의 수학 문제 해결 정확도가 92.5%로 향상되었습니다! Microsoft는 미세 조정 없이 과학 언어 모델을 만들 수 있는 MathPrompter를 제안합니다.

표현식이 출력에 동의하면 입력 Q의 변수 값을 사용하여 최종 답을 계산합니다.

4. 통계적 유의성

다양한 표현식의 출력에 대한 합의를 보장하기 위해 실험에서 2단계와 3단계를 약 5회 반복하고 관찰된 가장 빈번한 응답 값을 보고합니다.

명확한 합의가 없는 경우 2, 3, 4단계를 반복합니다.

실험 결과

MultiArith 데이터 세트에서 MathPrompter를 평가합니다. 수학적 질문은 특히 기계 학습 모델의 복잡한 산술 연산 및 추론 능력을 테스트하는 데 사용됩니다. 성공적으로 해결합니다.

GPT-3의 수학 문제 해결 정확도가 92.5%로 향상되었습니다! Microsoft는 미세 조정 없이 과학 언어 모델을 만들 수 있는 MathPrompter를 제안합니다.

MultiArith 데이터 세트의 정확도 결과에 따르면 MathPrompter는 모든 Zero-shot 및 Zero-shot-CoT 기준선보다 성능이 뛰어나 정확도가 78.7%에서 92.5%로 증가합니다.

다음과 같이 볼 수 있습니다. 175B 매개변수 GPT3 DaVinci를 기반으로 하는 MathPrompter 모델의 성능은 540B 매개변수 모델 및 SOTA의 Few-shot-CoT 방법과 비슷합니다.

GPT-3의 수학 문제 해결 정확도가 92.5%로 향상되었습니다! Microsoft는 미세 조정 없이 과학 언어 모델을 만들 수 있는 MathPrompter를 제안합니다.

위 표에서 볼 수 있듯이 MathPrompter의 디자인은 "생성된 답변이 때때로 한 단계 차이가 나는 경우가 있습니다"와 같은 문제를 보완할 수 있는데, 이는 모델을 여러 번 실행하면 피할 수 있습니다. 그리고 합의 결과를 보고합니다.

또한 추론 단계가 너무 길어질 수 있는 문제는 일반적으로 더 적은 수의 토큰이 필요한 Pythonic 또는 Algebraic 방법으로 해결할 수 있습니다.

또한 추론 단계는 정확할 수 있지만 최종 계산 결과는 정확하지 않은 경우 MathPrompter는 Python의 eval() 메서드 함수를 사용하여 이 문제를 해결합니다.

대부분의 경우 MathPrompter는 올바른 중간 및 최종 답변을 생성할 수 있지만 표의 마지막 질문과 같이 대수 및 Pythonic 출력이 일관되지만 오류가 있는 경우가 몇 가지 있습니다.

위 내용은 GPT-3의 수학 문제 해결 정확도가 92.5%로 향상되었습니다! Microsoft는 미세 조정 없이 "과학" 언어 모델을 만들 수 있는 MathPrompter를 제안합니다.의 상세 내용입니다. 자세한 내용은 PHP 중국어 웹사이트의 기타 관련 기사를 참조하세요!

성명:
이 기사는 51cto.com에서 복제됩니다. 침해가 있는 경우 admin@php.cn으로 문의하시기 바랍니다. 삭제