집 >기술 주변기기 >일체 포함 >GPT-4는 가장 어려운 수학적 추론 데이터 세트의 새로운 SOTA를 획득했으며 새로운 Prompting은 대형 모델의 추론 기능을 크게 향상시킵니다.

GPT-4는 가장 어려운 수학적 추론 데이터 세트의 새로운 SOTA를 획득했으며 새로운 Prompting은 대형 모델의 추론 기능을 크게 향상시킵니다.

王林앞으로: 2023-05-18 09:13:051522검색

최근 Huawei Lianhe Port Chinese는 "Progressive-Hint Prompting Improves Reasoning in Large Language Models"라는 논문을 발표하여 인간의 질문 처리 과정을 시뮬레이션하는 Progressive-Hint Prompting(PHP)을 제안했습니다. PHP 프레임워크에서 LLM(Large Language Model)은 여러 번 생성된 추론 답변을 후속 추론의 힌트로 사용하여 점차 최종 정답에 가까워질 수 있습니다. PHP를 사용하려면 두 가지 요구 사항만 충족하면 됩니다. 1) 질문을 추론 답변과 병합하여 새로운 질문을 형성할 수 있습니다. 2) 모델이 이 새로운 질문을 처리하고 새로운 추론 답변을 제공할 수 있습니다.

결과에 따르면 GP-T-4+PHP는 SVAMP(91.9%), AQuA(79.9%), GSM8K(95.5%) 및 MATH(53.9)를 포함한 여러 데이터 세트에서 SOTA 결과를 달성한 것으로 나타났습니다. %). 이 방법은 GPT-4+CoT보다 성능이 훨씬 뛰어납니다. 예를 들어, 가장 어려운 수학적 추론 데이터 세트 MATH에서 GPT-4+CoT는 42.5%에 불과한 반면, GPT-4+PHP는 MATH 데이터 세트의 Nember 이론(수 이론) 하위 세트에서 6.1% 향상되어 전체 MATH는 53.9%로 SOTA에 도달했습니다.

GPT-4는 가장 어려운 수학적 추론 데이터 세트의 새로운 SOTA를 획득했으며 새로운 Prompting은 대형 모델의 추론 기능을 크게 향상시킵니다.

논문 링크: https://arxiv.org/abs/2304.09797
코드 링크: https://github.com/chuanyang-Zheng/ 프로그레시브 -Hint

소개

LLM의 개발과 함께 프롬프트에 대한 일부 작업이 등장했으며 그 중 두 가지 주류 방향이 있습니다.

생각의 사슬(CoT, Chain 생각) Self-Consistency(SC)로 표현되는 모델은 추론 과정을 명확하게 적어서 모델의 추론 능력을 자극합니다.
다른 하나는 여러 답변을 샘플링한 다음, 최종 답변을 얻기 위해 투표합니다.

분명히 기존의 두 가지 방법은 질문을 수정하지 않습니다. 이는 질문을 한 번 끝내고 돌아가서 답변을 다시 확인하지 않는 것과 같습니다. PHP는 보다 인간과 유사한 추론 프로세스를 시뮬레이션하려고 합니다. 마지막 추론 프로세스를 처리한 다음 이를 원래 질문에 병합하고 LLM에 다시 추론하도록 요청합니다. 마지막 두 추론 답변이 일치하면 얻은 답변이 정확하고 최종 답변이 반환됩니다. 구체적인 흐름도는 다음과 같습니다.

GPT-4는 가장 어려운 수학적 추론 데이터 세트의 새로운 SOTA를 획득했으며 새로운 Prompting은 대형 모델의 추론 기능을 크게 향상시킵니다.

처음으로 LLM과 상호 작용할 때 기본 프롬프트(기본 프롬프트)를 사용해야 합니다. 여기서 프롬프트(프롬프트)는 표준 프롬프트, CoT 프롬프트일 수 있습니다. 또는 그것의 개선된 버전. 기본 프롬프트를 사용하면 첫 번째 상호 작용을 통해 예비 답변을 얻을 수 있습니다. 후속 상호작용에서는 가장 최근의 두 답변이 일치할 때까지 PHP를 사용해야 합니다.

PHP 프롬프트는 기본 프롬프트를 기반으로 수정되었습니다. 기본 프롬프트가 주어지면 공식화된 PHP 프롬프트 디자인 원칙을 통해 해당 PHP 프롬프트를 얻을 수 있습니다. 구체적으로 아래 그림과 같습니다.

GPT-4는 가장 어려운 수학적 추론 데이터 세트의 새로운 SOTA를 획득했으며 새로운 Prompting은 대형 모델의 추론 기능을 크게 향상시킵니다.

저자는 PHP 프롬프트를 통해 대형 모델이 두 가지 매핑 모드를 학습할 수 있기를 바랍니다.

1) 주어진 힌트가 정답이면 반환된 답변은 여전히 정답이어야 합니다(구체적으로 위 그림에 표시된 것처럼 "힌트는 정답입니다").

2) 제공된 힌트가 잘못된 답변인 경우 LLM은 추론을 사용하여 힌트에서 벗어나야 합니다. 틀린 답을 선택하고 정답을 반환합니다(구체적으로는 그림에 표시된 "힌트는 오답입니다"와 같습니다).

이 PHP 프롬프트 디자인 규칙에 따라 기존 기본 프롬프트가 제공되면 작성자는 해당 PHP 프롬프트를 설정할 수 있습니다.

실험

저자는 AddSub, MultiArith, SingleEQ, SVAMP, GSM8K, AQuA 및 MATH를 포함한 7개의 데이터 세트를 사용합니다. 동시에 저자는 저자의 아이디어를 검증하기 위해 text-davinci-002, text-davinci-003, GPT-3.5-Turbo, GPT-4 등 총 4가지 모델을 사용했다.

주요 결과

GPT-4는 가장 어려운 수학적 추론 데이터 세트의 새로운 SOTA를 획득했으며 새로운 Prompting은 대형 모델의 추론 기능을 크게 향상시킵니다.

PHP는 언어 모델이 더 강력하고 힌트가 더 효과적일 때 성능이 더 좋습니다. 복잡한 CoT 프롬프트는 표준 프롬프트 및 CoT 프롬프트에 비해 상당한 성능 향상을 보여줍니다. 또한 분석에서는 강화 학습을 사용하여 미세 조정된 text-davinci-003 언어 모델이 지도 지침을 사용하여 미세 조정된 text-davinci-002 모델보다 성능이 뛰어나 문서 성능이 향상되는 것으로 나타났습니다. text-davinci-003의 성능 향상은 주어진 프롬프트를 더 잘 이해하고 적용하는 능력이 향상되었기 때문입니다. 동시에 표준 프롬프트만 사용한다면 PHP가 가져온 개선 사항은 분명하지 않습니다. PHP가 효과적이어야 한다면 모델의 추론 기능을 자극하기 위해 최소한 CoT가 필요합니다.

GPT-4는 가장 어려운 수학적 추론 데이터 세트의 새로운 SOTA를 획득했으며 새로운 Prompting은 대형 모델의 추론 기능을 크게 향상시킵니다.

동시에 저자는 상호 작용 수와 모델 및 프롬프트 간의 관계도 탐구했습니다. 언어 모델이 강하고 단서가 약하면 상호 작용 수가 감소합니다. 상호작용 횟수는 상담원이 LLM과 상호작용하는 횟수를 나타냅니다. 첫 번째 답변을 받으면 상호작용 횟수는 1회이고, 두 번째 답변을 받으면 상호작용 횟수는 2회로 증가합니다. 그림 2에서 저자는 다양한 모델과 프롬프트에 대한 상호 작용 수를 보여줍니다. 저자의 연구 결과는 다음과 같습니다.

1) 동일한 프롬프트에서 text-davinci-003의 상호 작용 횟수는 일반적으로 text-davinci-002의 상호 작용 횟수보다 낮습니다. 이는 주로 text-davinci-003의 정확도가 높기 때문에 기본 답변과 후속 답변의 정확도가 높아지므로 최종 정답을 얻는 데 상호 작용이 덜 필요합니다.

2) 동일한 As를 사용할 때; 모델을 사용하면 일반적으로 프롬프트가 더욱 강력해짐에 따라 상호 작용 수가 증가합니다. 이는 프롬프트가 더 효과적일수록 LLM의 추론 능력이 더 잘 활용되어 프롬프트를 사용하여 잘못된 답변으로 이동할 수 있게 되어 궁극적으로 최종 답변에 도달하는 데 더 많은 상호 작용이 필요하게 되어 결과적으로 더 많은 상호 작용이 발생하기 때문입니다. 상호 작용.

힌트 품질 영향

GPT-4는 가장 어려운 수학적 추론 데이터 세트의 새로운 SOTA를 획득했으며 새로운 Prompting은 대형 모델의 추론 기능을 크게 향상시킵니다.

PHP-Standard의 성능을 향상하려면 Base Prompt Standard를 Complex CoT 또는 CoT로 바꾸면 최종 성능을 크게 향상시킬 수 있습니다. PHP-Standard의 경우, 저자는 GSM8K의 성능이 Base Prompt Standard의 16.0%에서 Base Prompt CoT의 50.2%, Base Prompt Complex CoT의 60.3%로 향상되었음을 관찰했습니다. 반대로 Base Prompt Complex CoT를 Standard로 교체하면 성능이 저하됩니다. 예를 들어, 기본 프롬프트 Complex CoT를 Standard로 교체한 후 PHP-Complex CoT의 성능은 GSM8K 데이터세트에서 71.6%에서 65.5%로 떨어졌습니다.

PHP가 해당 기본 프롬프트를 기반으로 설계되지 않은 경우 효과가 더욱 향상될 수 있습니다. Base Prompt Complex CoT를 사용하는 PHP-CoT는 6개 데이터 세트 중 4개에서 CoT를 사용하는 PHP-CoT보다 더 나은 성능을 보였습니다. 마찬가지로 Base Prompt CoT를 사용하는 PHP-Complex CoT는 6개 데이터 세트 중 4개에서 Base Prompt Complex CoT를 사용하는 PHP-Complex CoT보다 성능이 더 좋습니다. 저자는 이것이 두 가지 이유 때문이라고 추측합니다. 1) 6개 데이터 세트 모두에서 CoT와 Complex CoT의 성능이 비슷합니다. 2) Base Answer가 CoT(또는 Complex CoT)에서 제공되고 후속 답변은 다음과 같습니다. PHP-Complex CoT(또는 PHP-CoT)를 기반으로 하며 이는 두 사람이 함께 문제를 해결하는 것과 같습니다. 따라서 이 경우 시스템의 성능이 더욱 향상될 수 있다.

절제 실험

GPT-4는 가장 어려운 수학적 추론 데이터 세트의 새로운 SOTA를 획득했으며 새로운 Prompting은 대형 모델의 추론 기능을 크게 향상시킵니다.

문장 P1과 P2를 모델에 통합하면 세 가지 데이터 세트에서 CoT 성능을 향상시킬 수 있지만, 이 두 문장의 중요성은 Complex CoT 방법을 사용할 때 특히 분명합니다. P1과 P2를 추가한 후 6개 데이터세트 중 5개에서 메서드 성능이 향상되었습니다. 예를 들어, Complex CoT의 성능은 SVAMP 데이터세트에서 78.0%에서 80.0%로, GSM8K 데이터세트에서 68.3%에서 71.6%로 향상됩니다. 이는 특히 모델의 논리적 능력이 강할수록 문장 P1과 P2의 효과가 더 크다는 것을 보여줍니다.

GPT-4는 가장 어려운 수학적 추론 데이터 세트의 새로운 SOTA를 획득했으며 새로운 Prompting은 대형 모델의 추론 기능을 크게 향상시킵니다.

디자인할 때 올바른 프롬프트와 잘못된 프롬프트를 모두 포함해야 합니다. 올바른 힌트와 잘못된 힌트가 모두 포함된 힌트를 디자인할 때 PHP를 사용하는 것이 PHP를 사용하지 않는 것보다 낫습니다. 특히 프롬프트에 올바른 힌트를 제공하면 주어진 힌트와 일치하는 답변을 쉽게 생성할 수 있습니다. 반대로 프롬프트에 잘못된 힌트를 제공하면 주어진 프롬프트로 다른 답변이 생성될 수 있습니다.

PHP+Self-Consistency

GPT-4는 가장 어려운 수학적 추론 데이터 세트의 새로운 SOTA를 획득했으며 새로운 Prompting은 대형 모델의 추론 기능을 크게 향상시킵니다.

PHP를 사용하면 더 많은 작업을 수행할 수 있습니다. 성능을 향상시킵니다. 유사한 힌트와 샘플 경로 수를 사용하여 저자는 표 6과 그림 3에서 저자가 제안한 PHP-CoT와 PHP-Complex CoT가 CoT 및 Complex CoT보다 항상 더 나은 성능을 발휘한다는 것을 발견했습니다. 예를 들어 CoT+SC는 샘플 경로가 10, 20, 40인 MultiArith 데이터세트에서 96.5%의 정확도를 달성할 수 있습니다. 따라서 text-davinci-003을 사용한 CoT+SC의 최고 성능은 96.5%라고 결론을 내릴 수 있다. 그러나 PHP를 구현한 후 성능은 97.1%까지 상승했습니다. 마찬가지로 저자는 SVAMP 데이터 세트에서 CoT+SC의 최고 정확도가 83.3%였으며 PHP를 구현한 후 83.7%로 더욱 향상되었음을 관찰했습니다. 이는 PHP가 성능 병목 현상을 해결하고 성능을 더욱 향상시킬 수 있음을 보여줍니다.

PHP를 사용하면 SC 비용을 줄일 수 있습니다. 우리 모두 알고 있듯이 SC에는 더 많은 추론 경로가 포함되므로 비용이 더 높아집니다. 표 6은 PHP가 성능 향상을 유지하면서 비용을 줄이는 효과적인 방법이 될 수 있음을 보여줍니다. 그림 3에서 볼 수 있듯이 SC+Complex CoT를 사용하면 40개의 샘플 경로를 사용하여 78.1%의 정확도를 달성할 수 있으며, PHP를 추가하면 필요한 평균 추론 경로가 10×2.1531=21.531 경로로 줄어들고 결과가 더 좋아지고 더 좋아집니다. 정확 비율은 78.2%에 달했다.

GPT-3.5-Turbo 및 GPT-4

저자는 이전 작업 설정을 따르고 텍스트 생성 모델을 사용하여 실험을 수행했습니다. GPT-3.5-Turbo 및 GPT-4의 API 릴리스를 통해 저자는 동일한 6개 데이터 세트에서 PHP를 사용한 Complex CoT의 성능을 검증했습니다. 저자는 두 모델에 대한 힌트로 탐욕적 디코딩(즉, 온도 = 0)과 Complex CoT를 사용합니다.

표 7에서 볼 수 있듯이 제안된 PHP는 GSM8K에서 2.3%, AQuA에서 3.2%의 성능을 향상시킵니다. 그러나 GPT-3.5-Turbo는 text-davinci-003에 비해 단서 부착 능력이 감소한 것으로 나타났습니다. 저자는 이 점을 설명하기 위해 두 가지 예를 제공합니다. a) 힌트가 누락된 경우 GPT-3.5-Turbo는 질문에 답할 수 없으며 "답변 힌트가 없기 때문에 이 질문에 답할 수 없습니다. 답 힌트를 제공하십시오. 계속한다"는 성명을 발표했다. 대조적으로, text-davinci-003은 질문에 답하기 전에 누락된 답 힌트를 자동으로 생성하고 채웁니다. b) 10개 이상의 힌트가 제공되면 GPT-3.5-Turbo는 "힌트가 여러 개 제공되므로 할 수 있습니다."라고 응답할 수 있습니다. 정답을 알 수 없습니다. 답에 대한 힌트를 제공해 주세요."

GPT-4는 가장 어려운 수학적 추론 데이터 세트의 새로운 SOTA를 획득했으며 새로운 Prompting은 대형 모델의 추론 기능을 크게 향상시킵니다.

GPT-4 모델을 배포한 후 작성자는 SVAMP, GSM8K, AQuA 및 MATH 벤치마크에서 새로운 SOTA 성능을 달성할 수 있었습니다. 저자가 제안한 PHP 방식은 GPT-4의 성능을 지속적으로 향상시킨다. 또한 저자는 GPT-4가 GPT-3.5-Turbo 모델에 비해 더 적은 상호 작용을 필요로 한다는 점을 관찰했는데, 이는 모델이 더 강력할수록 상호 작용 수가 감소한다는 발견과 일치합니다.

요약

이 문서에서는 PHP가 LLM과 상호 작용하는 새로운 방법을 소개합니다. 여기에는 여러 가지 장점이 있습니다. 1) PHP는 수학적 추론 작업에서 상당한 성능 향상을 달성하여 여러 추론 벤치마크에서 최첨단을 선도합니다. 결과 2) PHP는 보다 강력한 모델과 힌트를 사용하여 LLM에 더 많은 이점을 제공할 수 있습니다. 3) PHP는 CoT 및 SC와 쉽게 결합되어 성능을 더욱 향상시킬 수 있습니다.

PHP 방식을 더욱 향상시키기 위해 향후 연구에서는 질문 단계의 수동 프롬프트와 답변 부분의 프롬프트 문장 디자인을 개선하는 데 중점을 둘 수 있습니다. 또한 답변을 힌트로 처리하는 것 외에도 LLM이 문제를 재검토하는 데 도움이 되는 새로운 힌트를 식별하고 추출할 수 있습니다.

위 내용은 GPT-4는 가장 어려운 수학적 추론 데이터 세트의 새로운 SOTA를 획득했으며 새로운 Prompting은 대형 모델의 추론 기능을 크게 향상시킵니다.의 상세 내용입니다. 자세한 내용은 PHP 중국어 웹사이트의 기타 관련 기사를 참조하세요!

성명：

이 기사는 51cto.com에서 복제됩니다. 침해가 있는 경우 admin@php.cn으로 문의하시기 바랍니다. 삭제

이전 기사：병뚜껑 나사를 조이면 유연성이 뛰어난 로봇이 코카콜라를 열어줍니다.다음 기사：병뚜껑 나사를 조이면 유연성이 뛰어난 로봇이 코카콜라를 열어줍니다.