ChatGPT는 출시 이후 수학적 능력 때문에 비판을 받아왔습니다.
"수학 천재"인 Terence Tao조차도 GPT-4가 자신의 수학 전문 분야에 많은 가치를 추가하지 못했다고 말한 적이 있습니다.
ChatGPT를 "수학 장애자"로 만들려면 어떻게 해야 하나요?
OpenAI는 열심히 노력하고 있습니다 - OpenAI 팀은 GPT-4의 수학적 추론 능력을 향상시키기 위해 "프로세스 감독"(PRM)을 사용하여 모델을 훈련합니다.
차근차근 검증해보겠습니다!
논문 주소: https://cdn.openai.com/improving-mathematical-reasoning-with-process-supervision/Lets_Verify_Step_by_Step.pdf
논문에서 연구원들은 각 보상을 통해 모델을 훈련했습니다. 정답 추론 단계, 즉 "프로세스 감독"은 단순히 올바른 최종 결과에 대한 보상(결과 감독)이 아닌 수학 문제 해결에 있어서 최신 SOTA를 달성합니다.
특히 PRM은 MATH 테스트 세트의 대표적인 하위 집합 문제의 78.2%를 해결합니다.
또한 OpenAI는 "프로세스 감독"이 정렬, 즉 인간이 인식하는 일련의 생각을 생성하도록 모델을 훈련시키는 데 큰 가치가 있음을 발견했습니다.
Sam Altman의 "우리 Mathgen 팀은 공정 감독에서 매우 흥미로운 결과를 얻었으며 이는 정렬의 긍정적인 신호입니다."라는 최신 연구는 물론 전달에 필수적입니다. ” 수동 피드백이 필요하기 때문에 대형 모델 및 다양한 작업에는 비용이 매우 많이 듭니다. 따라서 본 연구는 OpenAI의 향후 연구 방향을 결정짓는 중요한 의의가 있다고 할 수 있다.
수학적 문제 해결
실험에서 연구원들은 MATH 데이터 세트의 문제를 사용하여 "과정 감독"과 "결과 감독"의 보상 모델을 평가했습니다.
모델이 각 문제에 대해 많은 솔루션을 생성하도록 한 다음 각 보상 모델에 대해 가장 높은 순위를 가진 솔루션을 선택합니다.그래프는 고려된 솔루션 수에 따라 올바른 최종 답변을 얻은 선택된 솔루션의 비율을 보여줍니다.
"프로세스 감독" 보상 모델은 전반적으로 더 나은 성능을 발휘할 뿐만 아니라 각 문제에 대해 더 많은 솔루션을 고려할 때 성능 격차가 넓어집니다.
이는 "프로세스 감독" 보상 모델이 더 신뢰할 수 있음을 보여줍니다.
아래에서 OpenAI는 모델에 대한 10가지 수학적 문제와 해결책을 보여주고 보상 모델의 장점과 단점에 대한 설명도 제공합니다.
모델은 참(TP), 참음성(TN), 거짓양성(FP)의 세 가지 유형의 지표를 통해 평가되었습니다.
True(TP)
먼저 삼각함수 공식을 단순화해 보겠습니다.
이 까다로운 삼각 함수 문제에는 여러 항등식을 불분명한 순서로 적용해야 합니다.
그러나 어떤 ID가 실제로 유용한지 선택하기 어렵기 때문에 대부분의 솔루션 시도는 실패합니다. GPT-4는 일반적으로 이 문제를 해결하지 못하지만 정답을 얻으려고 시도하는 솔루션은 0.1%에 불과하지만 보상 모델은 이 솔루션을 유효한 것으로 올바르게 식별합니다.여기에서 GPT-4는 일련의 복잡한 다항식 분해를 성공적으로 수행합니다.
5단계에서 Sophie-Germain 아이덴티티를 사용하는 것은 중요한 단계입니다. 이 단계는 매우 통찰력이 있음을 알 수 있습니다.
7단계와 8단계에서 GPT-4는 추측과 확인을 수행하기 시작합니다.
이것은 모델이 "환각"을 느끼고 특정 추측이 성공했다고 주장하는 일반적인 장소입니다. 이 경우 보상 모델은 각 단계를 검증하고 일련의 사고가 올바른지 판단합니다.
모델은 표현을 단순화하기 위해 여러 삼각법 항등식을 성공적으로 적용했습니다.
7단계에서 GPT-4는 표현식을 단순화하려고 시도하지만 실패합니다. 보상 모델이 이 버그를 포착했습니다.
11단계에서 GPT-4는 간단한 계산 오류를 범했습니다. 보상 모델에서도 발견되었습니다.
GPT-4는 12단계에서 차이 제곱 공식을 사용하려고 시도했지만 이 표현식은 실제로 차이 제곱이 아닙니다.
8단계의 근거가 이상하지만 보너스 모델을 사용하면 통과됩니다. 그러나 9단계에서 모델은 표현식을 잘못 고려합니다.
보상 모델은 이 오류를 수정합니다.
4단계에서 GPT-4는 "시퀀스가 12개 항목마다 반복됩니다"라고 잘못 주장하지만 실제로는 10개 항목마다 반복됩니다. 이 계산 오류는 때때로 보상 모델을 속이는 경우가 있습니다.
13단계에서 GPT-4는 유사한 용어를 결합하여 방정식을 단순화하려고 시도합니다. 선형 항을 왼쪽으로 올바르게 이동하고 결합하지만 오른쪽은 변경되지 않은 상태로 잘못 유지합니다. 보상 모델은 이 오류에 속습니다.
GPT-4는 긴 나눗셈을 시도하지만 16단계에서 소수점 반복 부분에 앞에 0을 포함하는 것을 잊어버렸습니다. 보상 모델은 이 오류에 속습니다.
GPT-4는 9단계에서 미묘한 계산 오류를 범했습니다.
얼핏 보면 같은 색깔의 공을 교환하는 방법은 5가지가 있다는 주장이 타당해 보입니다.
그러나 Bob에게는 2가지 선택권(즉, Alice에게 어떤 공을 줄지 결정하는 것)이 있기 때문에 이 개수는 2배로 과소평가됩니다. 보상 모델은 이 오류에 속습니다.
대규모 언어 모델의 복잡한 추론 기능이 크게 향상되었지만 가장 발전된 모델이라도 사람들이 종종 "환각"이라고 말하듯이 여전히 논리적 오류나 넌센스를 생성합니다.
생성 인공 지능의 열풍 속에서 대규모 언어 모델의 환상은 항상 사람들을 괴롭혔습니다.
Musk는 우리에게 필요한 것은 TruthGPT입니다
라고 말했습니다. 예를 들어, 최근 미국 변호사가 뉴욕 연방 법원에 제출한 ChatGPT 조작 사례를 인용하여 제재를 받을 수 있습니다.
OpenAI 연구원들은 보고서에서 "이러한 환상은 단순한 논리 오류가 전체 솔루션에 큰 피해를 줄 수 있기 때문에 다단계 추론이 필요한 분야에서 특히 문제가 됩니다."
게다가 환각을 완화하는 것도 구축의 핵심입니다. 일관된 AGI.
대형 모델의 착시현상을 줄이는 방법은 무엇인가요? 일반적으로 프로세스 감독과 결과 감독의 두 가지 방법이 있습니다.
이름에서 알 수 있듯이 "결과 감독"은 최종 결과를 기반으로 대규모 모델에 피드백을 제공하는 반면, "프로세스 감독"은 사고 체인의 각 단계에 대한 피드백을 제공할 수 있습니다.
프로세스 감독에서 대형 모델은 올바른 최종 결론뿐만 아니라 올바른 추론 단계에 대해 보상을 받습니다. 이 프로세스는 모델이 보다 인간과 유사한 사고 방식 체인을 따르도록 장려하여 더 잘 설명 가능한 AI를 만들 가능성을 높여줍니다.
OpenAI 연구원들은 프로세스 감독이 OpenAI에 의해 발명된 것은 아니지만 OpenAI가 이를 추진하기 위해 열심히 노력하고 있다고 말했습니다.
최신 연구에서 OpenAI는 "결과 감독" 또는 "프로세스 감독" 방법을 모두 시도했습니다. 그리고 MATH 데이터 세트를 테스트 플랫폼으로 사용하여 두 가지 방법에 대한 자세한 비교를 수행합니다.
결과에 따르면 "프로세스 감독"이 모델 성능을 크게 향상시킬 수 있는 것으로 나타났습니다.
수학적 작업의 경우 "프로세스 감독"은 크고 작은 모델 모두에서 훨씬 더 나은 결과를 얻었습니다. 즉, 모델이 일반적으로 정확하고 인간과 더 유사한 사고 프로세스를 보여주었다는 의미입니다.
이렇게 하면 가장 강력한 모델에서도 피하기 어려운 환상이나 논리적 오류를 줄일 수 있습니다.
연구원들은 "프로세스 감독"이 "결과 감독"에 비해 몇 가지 정렬 이점이 있음을 발견했습니다.
· 프로세스의 각 단계가 일관된 사고 체인 모델을 따르기 때문에 직접 보상은 일관된 사고 체인 모델을 따릅니다. 모두 정밀한 감독을 받습니다.
· '프로세스 감독'은 모델이 인간이 승인한 프로세스를 따르도록 장려하기 때문에 설명 가능한 추론을 생성할 가능성이 더 높습니다. 대조적으로, 결과 모니터링은 일관되지 않은 프로세스를 보상할 수 있으며 검토하기가 더 어려운 경우가 많습니다.
어떤 경우에는 AI 시스템을 더 안전하게 만드는 방법이 성능 저하를 초래할 수 있다는 점도 언급할 가치가 있습니다. 이 비용을 "정렬세"라고 합니다.
일반적으로 "정렬세" 비용은 가장 유능한 모델을 배포하기 위한 정렬 방법 채택을 방해할 수 있습니다.
그러나 다음과 같은 연구자들의 결과는 수학 분야에서 테스트하는 동안 "프로세스 감독"이 실제로 "음의 정렬 세금"을 생성한다는 것을 보여줍니다.
정렬로 인한 큰 성능 손실은 없다고 할 수 있습니다.
PRM에는 더 많은 인간 주석이 필요하며 여전히 RLHF와 깊이 분리될 수 없다는 점은 주목할 가치가 있습니다.
수학 이외의 분야에 프로세스 감독이 어떻게 적용되나요? 이 프로세스에는 추가 조사가 필요합니다.
OpenAI 연구원들은 800,000개의 단계 수준 올바른 주석이 포함된 인간 피드백 데이터 세트 PRM을 공개했습니다. 12K 수학 문제에서 생성된 75K 솔루션
다음은 주석의 예입니다. OpenAI는 프로젝트 1단계와 2단계에서 주석 작성자에 대한 지침과 함께 원시 주석을 공개하고 있습니다.
NVIDIA 과학자 Jim Fan이 OpenAI의 최신 연구를 요약했습니다.
도전적인 단계별 문제의 경우 마지막에 단일 답변을 제공하는 대신 각 단계에서 보상을 제공하세요. 상. 기본적으로 밀집 보상 신호 > 희소 보상 신호입니다. PRM(프로세스 보상 모델)은 ORM(결과 보상 모델)보다 어려운 MATH 벤치마크에 대한 솔루션을 더 잘 선택할 수 있습니다. 확실한 다음 단계는 PRM을 사용하여 GPT-4를 미세 조정하는 것인데 이 기사에서는 아직 수행하지 않았습니다. PRM에는 더 많은 사람의 주석이 필요하다는 점에 유의해야 합니다. OpenAI는 인간 피드백 데이터 세트인 12K 수학 문제에 대한 75K 솔루션에 대한 800K 단계 수준 주석을 출시했습니다.
이건 학교에서 하는 옛말 같으니, 생각하는 법을 배우세요.
단순히 정답을 출력하는 것이 아니라 생각하도록 모델을 훈련시키는 것은 복잡한 문제를 해결하는 데 있어 획기적인 변화가 될 것입니다.
ChatGPT는 수학에 엄청 약해요. 오늘은 4학년 수학책에 나오는 수학 문제를 풀어보았습니다. ChatGPT가 잘못된 답변을 제공했습니다. ChatGPT의 답변, Perplexity AI, Google의 답변, 4학년 선생님의 답변으로 답변을 확인했습니다. chatgpt의 답변이 틀린 것은 어디서나 확인할 수 있습니다.
참조: https://www.php.cn/link/daf642455364613e2120c636b5a1f9c7
위 내용은 GPT-4의 수학적 능력은 대단해요! OpenAI의 '프로세스 감독'에 대한 폭발적인 연구로 문제의 78.2%를 돌파하고 환각을 제거합니다.의 상세 내용입니다. 자세한 내용은 PHP 중국어 웹사이트의 기타 관련 기사를 참조하세요!