최근 LLM(대형 언어 모델)과 고급 힌트 전략의 출현은 언어 모델 연구가 특히 고전적인 자연어 처리(NLP) 작업에서 상당한 진전을 이루었음을 의미합니다. 중요한 혁신 중 하나는 CoT(생각의 사슬) 촉진 기술로, 다단계 문제 해결 능력으로 높이 평가됩니다. CoT 기술은 인간의 순차적 추론을 따르며 도메인 간, 장기 일반화, 언어 간 작업을 포함한 다양한 과제에서 탁월한 성능을 보여줍니다. CoT는 논리적, 단계별 추론 접근 방식을 통해 복잡한 문제 해결 시나리오에서 중요한 해석 가능성을 제공합니다.
CoT가 큰 진전을 이루었지만 연구 커뮤니티는 아직 구체적인 메커니즘과 작동 이유에 대한 합의에 도달하지 못했습니다. 이러한 지식 격차는 CoT 성능 개선이 미지의 영역으로 남아 있음을 의미합니다. 현재 연구자들은 체계적인 방법론이 부족하고 추측과 실험에만 의존할 수 있기 때문에 시행착오는 CoT 개선을 탐색하는 주요 방법입니다. 그러나 이는 또한 이 분야에 중요한 연구 기회가 존재한다는 것을 의미합니다. CoT의 내부 작동에 대한 심층적이고 구조화된 이해를 개발하는 것입니다. 이 목표를 달성하면 현재 CoT 프로세스를 이해할 수 있을 뿐만 아니라 다양한 복잡한 NLP 작업에서 이 기술을 보다 안정적이고 효율적으로 적용할 수 있는 길을 열게 됩니다.
노스웨스턴 대학교, 리버풀 대학교, 뉴저지 공과대학 연구원들의 연구에서는 추론 단계의 길이와 결론의 정확성 사이의 관계를 추가로 탐구하여 사람들이 자연어 처리를 효과적으로 해결하는 방법을 더 잘 이해할 수 있도록 돕습니다(NLP ) 문제. 이 연구에서는 추론 단계가 CoT(Continuous Open Text)가 작동할 수 있도록 하는 프롬프트의 가장 중요한 부분인지 여부를 탐구합니다. 실험에서 연구자들은 특히 새로운 추론 단계를 도입할 때 추가적인 지식이 도입되지 않도록 변수를 엄격하게 제어했습니다. 제로샘플 실험에서 연구자들은 초기 프롬프트를 "단계적으로 생각해주세요"에서 "단계적으로 생각하고 가능한 한 많은 단계를 생각해주세요"로 조정했습니다. 작은 표본 문제의 경우, 연구자들은 다른 모든 요인을 일정하게 유지하면서 기본 추론 단계를 확장하는 실험을 설계했습니다. 연구진은 이러한 실험을 통해 추론 단계의 길이와 결론의 정확성 사이의 상관관계를 발견했습니다. 보다 구체적으로, 참가자들은 프롬프트에서 더 많은 단계를 거쳐 생각해 보라고 요청할 때 더 정확한 결론을 제공하는 경향이 있었습니다. 이는 NLP 문제를 해결할 때 추론 단계를 확장함으로써 문제 해결의 정확도를 높일 수 있음을 보여줍니다. 이 연구는 NLP 문제가 어떻게 해결되는지에 대한 깊은 이해에 큰 의미가 있으며 NLP 기술을 더욱 최적화하고 개선하기 위한 유용한 지침을 제공합니다.
이 기사의 첫 번째 실험 세트는 위 전략에 따라 Auto-CoT 기술을 사용하여 제로 샷 및 스몰 샷 작업에 대한 추론 성능 향상을 평가하는 것을 목표로 합니다. 다음으로, 다양한 추론 단계 수에서 다양한 방법의 정확성이 평가되었습니다. 그 후, 연구자들은 연구 목표를 확장하고 이 기사에서 제안된 전략의 효과를 다양한 LLM(예: GPT-3.5 및 GPT-4)에서 비교했습니다. 연구 결과는 특정 범위 내에서 추론 사슬의 길이와 LLM 능력 사이에 명확한 상관 관계가 있음을 보여줍니다. 연구자가 추론 체인에 잘못된 정보를 도입하면 성능이 여전히 향상된다는 점을 고려해 볼 가치가 있습니다. 이는 우리에게 중요한 결론을 내리게 합니다. 성과에 영향을 미치는 핵심 요소는 사고 사슬의 정확성이 아니라 길이인 것 같습니다.
이 기사의 주요 내용은 다음과 같습니다.
연구원들은 분석을 사용하여 추론 단계와 CoT 프롬프트 성능 간의 관계를 조사했습니다. 그들의 접근 방식의 핵심 가정은 직렬화 단계가 추론 중 CoT 단서의 가장 중요한 구성 요소라는 것입니다. 이러한 단계를 통해 언어 모델은 응답 콘텐츠를 생성할 때 추론을 위해 더 많은 논리를 적용할 수 있습니다. 이 아이디어를 테스트하기 위해 연구원들은 기본 추론 단계를 연속적으로 확장 및 압축하여 CoT의 추론 프로세스를 변경하는 실험을 설계했습니다. 동시에 그들은 다른 모든 요소를 일정하게 유지했습니다. 구체적으로 연구자들은 새로운 추론 콘텐츠를 도입하거나 기존 추론 콘텐츠를 삭제하지 않고 추론 단계 수만 체계적으로 변경했다. 아래에서는 제로 샷 및 퓨샷 CoT 큐를 평가합니다. 전체 실험 과정은 그림 2에 나와 있습니다. 이러한 제어 변수 분석 접근 방식을 통해 연구원들은 CoT가 논리적으로 건전한 응답을 생성하는 LLM의 능력에 어떻게 영향을 미치는지 설명했습니다.
제로샘플 CoT 분석
제로샘플 시나리오에서 연구원은 초기 프롬프트를 "단계적으로 생각해주세요"에서 "단계적으로 생각하고 시도해 보세요"로 변경했습니다. 가능한 한 많은 솔루션을 생각하십시오. "단계". 이러한 변경은 Few-Shot CoT 환경과 달리 사용자가 사용 중에 추가 추론 단계를 도입할 수 없기 때문에 이루어졌습니다. 초기 프롬프트를 변경함으로써 연구원들은 LLM이 보다 광범위하게 생각하도록 안내했습니다. 이 접근 방식의 중요성은 증분 교육이나 몇 번의 샷 시나리오에서 일반적으로 발생하는 추가 예제 중심 최적화 방법 없이 모델 정확도를 향상시킬 수 있는 능력에 있습니다. 이러한 개선 전략은 보다 포괄적이고 상세한 추론 프로세스를 보장하여 제로 샘플 조건에서 모델 성능을 크게 향상시킵니다.
소형 샘플 CoT 분석
이 섹션에서는 추론 단계를 추가하거나 압축하여 CoT의 추론 체인을 수정합니다. 목표는 추론 구조의 변화가 LLM 결정에 어떻게 영향을 미치는지 연구하는 것입니다. 추론 단계를 확장하는 동안 연구자는 새로운 작업 관련 정보를 도입하는 것을 피해야 합니다. 이로써 추론단계가 유일한 연구변수가 되었다.
이를 위해 연구원들은 다양한 LLM 응용 프로그램의 추론 단계를 확장하기 위해 다음과 같은 연구 전략을 설계했습니다. 사람들은 더 깊은 이해를 얻기 위해 문제를 계속해서 반복하고, 기억 부하를 줄이기 위해 수학 방정식을 만들고, 주제 이해를 돕기 위해 문제에 있는 단어의 의미를 분석하고, 요약하는 등 문제에 대해 생각하는 방식에 고정된 패턴을 가지고 있는 경우가 많습니다. 주제에 대한 설명을 단순화하기 위해 현재 상태입니다. 연구자들은 Zero-Sample CoT와 Auto-CoT의 영감을 바탕으로 CoT 프로세스가 표준화된 모델이 되고 프롬프트 부분에서 CoT 사고의 방향을 제한하여 올바른 결과를 얻을 수 있을 것으로 기대합니다. 이 방법의 핵심은 인간의 사고 과정을 시뮬레이션하고 사고 사슬을 재구성하는 것입니다. 다섯 가지 일반적인 프롬프트 전략이 표 6에 나와 있습니다.
전반적으로 이 글에 나온 실시간 전략이 모델에 반영되어 있습니다. 표 1에 표시된 것은 하나의 예이며, 나머지 4가지 전략의 예는 원문에서 볼 수 있습니다.
추론 단계와 정확도의 관계
표 2는 세 가지 유형의 추론 작업 정확도에 대해 8개 데이터 세트에서 GPT-3.5-turbo-1106의 사용을 비교합니다. .
연구원들이 사고 사슬 프로세스를 표준화할 수 있는 덕분에 CoT의 기본 프로세스에 단계를 추가하여 정확도 향상을 정량화할 수 있습니다. 이 실험의 결과는 앞서 제기된 질문인 추론 단계와 CoT 성능 간의 관계는 무엇인가에 대한 답을 제공할 수 있습니다. 이 실험은 GPT-3.5-turbo-1106 모델을 기반으로 합니다. 연구원들은 CoT 프로세스에 사고 프로세스의 최대 6단계를 추가하는 등 효과적인 CoT 프로세스가 대규모 언어 모델의 추론 능력을 향상시킬 것이며 이는 모든 데이터 세트에 반영된다는 것을 발견했습니다. 즉, 연구원들은 정확성과 CoT 복잡성 사이에 특정한 선형 관계를 발견했습니다.
오답의 영향
추론 단계만이 LLM 성과에 영향을 미치는 유일한 요소인가요? 연구진은 다음과 같은 시도를 했습니다. 프롬프트의 한 단계를 잘못된 설명으로 변경하고 그것이 사고 사슬에 영향을 미치는지 확인하세요. 이 실험에서는 모든 프롬프트에 오류를 추가했습니다. 구체적인 예는 표 3을 참조하세요.
산술형 문제의 경우, 프롬프트 결과 중 하나가 벗어나더라도 추론 과정에서 사고 사슬에 미치는 영향은 최소화될 것이라고 연구자들은 믿습니다. 모델은 프롬프트에 매우 중요합니다. 단일 계산보다 정신 모델 체인에서 더 많은 것을 배울 수 있습니다. 코인 데이터와 같은 논리적 문제의 경우 프롬프트 결과의 편차로 인해 전체 사고 체인이 조각나는 경우가 많습니다. 연구원들은 또한 GPT-3.5-turbo-1106을 사용하여 이 실험을 완료했으며 이전 실험에서 얻은 각 데이터 세트에 대한 최적의 단계 수를 기반으로 성능을 보장했습니다. 결과는 그림 4에 나와 있습니다.
압축된 추론 단계
이전 실험에서는 추론 단계를 추가하면 LLM 추론의 정확성이 향상될 수 있음이 입증되었습니다. 그렇다면 기본 추론 단계를 압축하면 소규모 샘플 문제에서 LLM의 성능이 저하됩니까? 이를 위해 연구진은 추론 단계 압축 실험을 수행하고 실험 설정에 설명된 기술을 사용하여 추론 프로세스를 Auto CoT 및 Few-Shot-CoT로 압축하여 추론 단계 수를 줄였습니다. 결과는 그림 5에 나와 있습니다.
결과에 따르면 모델의 성능이 크게 떨어지고 기본적으로 영표본 방법과 동일한 수준으로 돌아갑니다. 이 결과는 CoT 추론 단계를 늘리면 CoT 성능이 향상될 수 있고 그 반대의 경우도 가능하다는 것을 추가로 보여줍니다.
서로 다른 사양 모델의 성능 비교
연구원들도 스케일링 현상을 관찰할 수 있는지, 즉 필요한 추론 단계가 LLM의 크기와 관련되어 있는지 물었습니다. 연구진은 text-davinci-002, GPT-3.5-turbo-1106, GPT-4 등 다양한 모델에 사용된 평균 추론 단계 수를 연구했습니다. 각 모델이 최고 성능에 도달하는 데 필요한 평균 추론 단계는 GSM8K 실험을 통해 계산되었습니다. 8개 데이터 세트 중 이 데이터 세트는 text-davinci-002, GPT-3.5-turbo-1106, GPT-4와 성능 차이가 가장 큽니다. 초기 성능이 가장 나빴던 text-davinci-002 모델에서는 본 논문에서 제안한 전략이 가장 높은 개선 효과를 보임을 알 수 있다. 결과는 그림 6에 나와 있습니다.
협동 작업 예제에서 문제가 미치는 영향
문제가 LLM 추론 능력에 미치는 영향은 무엇입니까? 연구자들은 CoT의 추론을 변경하는 것이 CoT의 성능에 영향을 미칠지 여부를 조사하고 싶었습니다. 본 논문에서는 추론 단계가 성능에 미치는 영향을 주로 연구하므로, 연구자는 문제 자체가 성능에 영향을 미치지 않는다는 점을 확인할 필요가 있다. 따라서 연구원들은 GPT-3.5-turbo-1106에서 실험을 수행하기 위해 데이터 세트 MultiArith 및 GSM8K와 두 가지 CoT 방법(auto-CoT 및 소수-CoT)을 선택했습니다. 본 논문의 실험적 접근 방식에는 표 4의 질문 내용을 변경하는 등 이러한 수학적 데이터 세트의 샘플 문제에 대한 의도적인 수정이 포함됩니다.
표 5에 표시된 것처럼 예비 관찰 결과 문제 자체에 대한 이러한 수정이 여러 요소 중에서 성능에 가장 작은 영향을 미치는 것으로 나타났습니다.
이 예비 결과는 추론 과정의 단계 길이가 대형 모델의 추론 능력에 영향을 미치는 가장 중요한 요소이며 문제 자체가 가장 큰 영향을 미치지 않는다는 것을 보여줍니다.
자세한 내용은 원문을 읽어주세요.
위 내용은 더 유용한 모델에는 충분하지 않은 '단계별 사고'보다는 더 깊은 '단계별 사고'가 필요합니다.의 상세 내용입니다. 자세한 내용은 PHP 중국어 웹사이트의 기타 관련 기사를 참조하세요!