대형 모델 등장에서 가장 미스터리한 현상 중 하나는 CoT(Chain of Thought Tips)로, 이는 수학적 추론과 의사결정 문제를 해결하는 데 놀라운 결과를 보여주었습니다. CoT는 얼마나 중요합니까? 성공의 메커니즘은 무엇입니까? 이 기사에서 Peking University의 여러 연구자들은 CoT가 LLM(대형 언어 모델) 추론을 실현하는 데 없어서는 안 될 필수 요소임을 입증하고 CoT가 이론 및 실험적 관점에서 LLM의 엄청난 잠재력을 어떻게 발휘할 수 있는지 보여줍니다.
최근 연구에 따르면 CoT(사고 사슬 프롬프트)는 LLM(대형 언어 모델)의 성능을 크게 향상할 수 있으며 특히 수학과 추론과 관련된 복잡한 작업을 처리하는 데 적합합니다. 그러나 많은 성공에도 불구하고 CoT의 메커니즘과 LLM의 잠재력을 활용하는 방법은 여전히 파악하기 어렵습니다.
최근 북경대학교의 새로운 연구에서는 이론적 관점에서 CoT의 숨겨진 미스터리를 밝혀냈습니다.
논문 링크: https://arxiv.org/abs/2305.15408
Transformer 기반의 대형 언어 모델은 자연어 처리, 다양한 작업에서 보편적인 모델이 되었습니다. 널리 사용되었습니다. 주류 대형 모델은 일반적으로 자기회귀 패러다임을 기반으로 구현됩니다. 특히 다양한 작업(예: 텍스트 번역, 텍스트 생성, 질문 답변 등)은 질문의 입력과 설명이 시퀀스 생성 문제로 일률적으로 간주될 수 있습니다. 질문의 답변은 프롬프트(프롬프트)라고 불리는 단어(토큰) 시퀀스로 함께 인코딩됩니다. 질문에 대한 답변은 프롬프트를 기반으로 조건부로 후속 단어를 생성하는 작업으로 변환될 수 있습니다.
대형 모델 분야의 많은 연구에 따르면 잘 디자인된 프롬프트 단어가 모델 성능에 중요한 역할을 하는 것으로 나타났습니다. 특히 산술 또는 추론 관련 작업의 경우 CoT는 생성된 답변의 정확성을 크게 향상시키는 것으로 나타났습니다. 아래 그림에서 볼 수 있듯이 수학적 추론이 필요한 작업의 경우 대형 모델에서 직접 생성된 답변이 잘못된 경우가 많습니다(아래 그림 a,b). 그러나 대형 모델이 전체 사고 사슬(중간 도출 단계)을 출력하도록 프롬프트를 수정하면 결국 정답을 얻을 수 있게 됩니다(아래 c, d).
실제로 사고 사슬 프롬프트를 구현하는 두 가지 주요 방법이 있습니다. 하나는 프롬프트에 "단계적으로 생각해보자"와 같은 특정 문구를 추가하여 이를 트리거하는 것입니다(그림 참조). 다른 하나는 사고 사슬 시연의 소수의 예를 제공하여 대규모 모델이 해당 파생 프로세스를 시뮬레이션할 수 있도록 하는 것입니다(위의 그림 d 참조).
그러나 CoT는 수많은 실험에서 놀라운 성능을 달성했지만 그 뒤에 있는 이론적 메커니즘은 여전히 미스터리로 남아 있습니다. 한편으로, 대형 모델은 실제로 수학, 추론 등에 관한 질문에 직접 답하는 데 본질적인 이론적 결함을 가지고 있습니까? 반면에 CoT가 이러한 작업에 대한 대형 모델의 기능을 향상시킬 수 있는 이유는 무엇입니까? 본 논문은 이론적 관점에서 위의 질문에 답한다.
구체적으로 연구자들은 CoT를 모델 표현 능력의 관점에서 연구합니다. 수학적 작업과 일반적인 의사 결정 작업에 대해 이 기사에서는 다음 두 가지 측면에서 자동 회귀 기반 Transformer 모델의 표현 능력을 연구합니다. (1) 생성 (2) CoT를 사용하여 완전한 솔루션 단계를 생성합니다.
GPT-4로 대표되는 대형 모델은 충격적인 수학적 능력을 보여주었습니다. 예를 들어 대부분의 고등학교 수학 문제를 정확하게 풀 수 있으며 심지어 수학자들의 연구 조교가 되기도 했습니다.
대형 모델의 수학적 기능을 연구하기 위해 이 기사에서는 매우 기본이지만 핵심적인 두 가지 수학 작업인 산술과 방정식을 선택했습니다(다음 그림은 이 두 작업의 입력 및 출력 예를 제공합니다). 이는 복잡한 수학 문제를 해결하기 위한 기본 구성 요소이므로 이 두 가지 핵심 수학 문제를 연구함으로써 일반적인 수학 문제에 대한 대형 모델의 기능을 더 깊이 이해할 수 있습니다.
연구원들은 먼저 Transformer가 중간 단계를 출력하지 않고 위 질문에 대한 답변을 출력할 수 있는지 여부를 조사했습니다. 그들은 현실과 매우 일치하는 가정, 즉 로그 정밀도 변환기를 고려했습니다. 즉, 변환기의 각 뉴런은 제한된 정밀도의 부동 소수점 수만 나타낼 수 있습니다(정밀도는 log n 비트). 여기서 n은 최대 길이입니다. 문장의. 이 가정은 현실과 매우 유사합니다. 예를 들어 GPT-3에서는 기계 정밀도(16 또는 32비트)가 일반적으로 최대 출력 문장 길이(2048)보다 훨씬 작습니다.
이러한 가정 하에서 연구자들은 핵심적으로 불가능한 결과를 증명했습니다. 상수 레이어와 너비 d를 갖는 자동 회귀 Transformer 모델의 경우, 답을 직접 출력하여 위의 두 가지 수학적 문제를 풀 때 매우 필요합니다. 대형 모델 너비 d. 구체적으로 d는 입력 길이 n이 커짐에 따라 다항식보다 커져야 합니다.
이 결과가 나온 근본적인 이유는 위의 두 가지 문제에 대해 효율적인 병렬 알고리즘이 없어 일반적인 병렬 모델인 Transformer가 이를 해결할 수 없기 때문입니다. 이 기사에서는 이론적인 컴퓨터 과학의 회로 복잡도 이론을 사용하여 위의 정리를 엄격하게 증명했습니다.
그럼, 모델이 직접 답을 출력하는 것이 아니라, 중간 도출 단계를 위 그림과 같은 형태로 출력한다면 어떨까요? 연구자들은 모델이 중간 단계를 출력할 수 있을 때 고정 크기(입력 길이 n에 의존하지 않음) 자동 회귀 변환기 모델이 위의 두 가지 수학적 문제를 해결할 수 있다는 것을 구성을 통해 추가로 입증했습니다. 이전 결과를 비교해 보면 CoT를 추가하면 대형 모델의 표현력이 크게 향상되는 것을 알 수 있습니다. 연구원들은 이에 대해 직관적으로 이해했습니다. 이는 CoT의 도입으로 생성된 출력 단어가 입력 레이어에 지속적으로 피드백되어 모델의 유효 깊이가 크게 증가하여 CoT의 출력 길이에 비례하기 때문입니다. 따라서 Transformer의 병렬 복잡성이 크게 향상됩니다.
CoT는 일반적인 의사결정 문제를 해결하는 열쇠입니다
연구원들은 수학적 문제 외에도 CoT의 일반적인 작업 해결 능력을 더욱 고려했습니다. 그들은 의사결정 문제부터 시작하여 동적 프로그래밍이라고 불리는 의사결정 문제를 해결하기 위한 일반적인 프레임워크를 고려했습니다.동적 프로그래밍(DP)의 기본 아이디어는 복잡한 문제를 순차적으로 해결할 수 있는 일련의 소규모 하위 문제로 분해하는 것입니다. 문제를 분해하면 다양한 하위 문제 사이에 상당한 상호 관계(중복)가 존재하므로 각 하위 문제는 이전 하위 문제에 대한 답을 사용하여 효율적으로 해결할 수 있습니다.
최장 오름차순 하위 시퀀스(LIS)와 편집 거리 해결(ED)은 "알고리즘 소개" 책에서 제안된 두 가지 유명한 DP 문제입니다. 다음 표에는 이 두 가지 문제의 상태 공간과 전환이 나열되어 있습니다. 기능의.
연구원들은 자동 회귀 Transformer 모델이 하위 문제를 해결하는 순서대로 완전한 동적 프로그래밍 사고 체인을 출력할 수 있으므로 다음으로 해결 가능한 모든 작업에 대해 출력할 수 있음을 입증했습니다. 동적 프로그래밍 정답입니다. 마찬가지로 연구자들은 생성적 사고 체인이 필요하다는 점을 추가로 입증했습니다. 많은 어려운 동적 프로그래밍 문제의 경우 상수 계층, 다항식 크기의 Transformer 모델은 정답을 직접 출력할 수 없습니다. 이 기사는 문맥 자유 문법 멤버십 테스트 문제에 대한 반례를 제공합니다.
실험연구원들은 산술 표현식 평가, 선형 방정식 풀기, 가장 긴 오름차순 부분 수열 풀기, 편집 거리 풀기 등 네 가지 작업을 고려하여 위의 이론을 검증하기 위해 마침내 수많은 실험을 설계했습니다.실험 결과에 따르면 CoT 데이터를 사용하여 훈련했을 때 3계층 자동 회귀 Transformer 모델이 모든 작업에서 거의 완벽한 성능을 달성할 수 있었던 것으로 나타났습니다. 그러나 정답을 직접 출력하는 것은 모든 작업에서 제대로 수행되지 않습니다(더 깊은 모델에서도). 이 결과는 다양한 복잡한 작업을 해결하는 Autoregressive Transformer의 능력을 명확하게 보여주고 이러한 작업을 해결하는 데 CoT의 중요성을 보여줍니다.
또한 연구원들은 학습된 자기회귀 모델이 더 긴 데이터에 추가로 추론될 수 있는지 여부도 조사했습니다. 그들은 연산자 수가 1부터 15까지인 작업 작업을 위한 CoT 훈련 데이터 세트를 구성하고 연산자 수가 n ∈ {16, 17, 18}인 표현식에 대해 모델을 테스트했습니다. 결과는 아래 그림 3에 나와 있습니다. 연구원의 3계층 Transformer 모델은 더 긴 시퀀스에서도 여전히 잘 작동하며, 이는 모델이 실제로 어느 정도 기본 메커니즘을 학습했음을 나타냅니다. 따라서 연구자들은 다양한 길이의 더 많은 데이터에 대해 훈련된 모델이 결국 완전한 산술 규칙을 밝힐 수 있다고 믿습니다.위 내용은 사고 체인은 언어 모델의 숨겨진 기능을 어떻게 해제합니까? 최신 이론적 연구는 그 뒤에 숨은 미스터리를 밝혀줍니다의 상세 내용입니다. 자세한 내용은 PHP 중국어 웹사이트의 기타 관련 기사를 참조하세요!