대형 언어 모델(LLM)은 추론 작업에 탁월한 성능을 발휘하지만 블랙박스 속성과 엄청난 수의 매개변수로 인해 실제로 적용이 제한됩니다. 특히 복잡한 수학적 문제를 다룰 때 LLM은 때때로 잘못된 추론 체인을 개발합니다. 전통적인 연구 방법은 합성 데이터에서 잘못된 답이 있는 중요한 정보를 무시하고 긍정적인 샘플의 지식만 전달합니다. 따라서 LLM의 성능과 신뢰성을 향상시키기 위해서는 합성 데이터를 긍정적인 샘플에만 국한하지 않고 보다 포괄적으로 고려하고 활용하여 LLM이 복잡한 문제에 대해 더 잘 이해하고 추론할 수 있도록 도와야 합니다. 이는 실제로 LLM의 과제를 해결하고 광범위한 적용을 촉진하는 데 도움이 될 것입니다.
AAAI 2024에서 Xiaohongshu 검색 알고리즘 팀 은 대형 모델 추론 기능을 정제하는 과정에서 음성 표본 지식을 완전히 활용하는 혁신적인 프레임워크를 제안했습니다. 네거티브 샘플, 즉 추론 과정에서 정답을 도출하지 못하는 데이터는 흔히 쓸모없다고 여겨지지만 사실은 귀중한 정보를 담고 있다.
이 논문은 대형 모델 증류 프로세스에서 네거티브 샘플의 가치를 제안 및 검증하고 모델 전문화 프레임워크를 구축합니다. 포지티브 샘플을 사용하는 것 외에도 네거티브 샘플도 충분히 활용하여 LLM 지식을 개선합니다. 프레임워크에는 NAT(Negative Assisted Training), NCE(Negative Calibration Enhancement) 및 ASC(Dynamic Self-Consistency)를 포함한 세 가지 직렬화 단계가 포함되어 있으며 훈련부터 추론까지 전체 프로세스를 포괄합니다. 광범위한 일련의 실험을 통해 우리는 LLM 지식 증류에서 부정적인 데이터의 중요한 역할을 보여줍니다.
현재 상황에서는 CoT(사상 사슬)에 따라 대규모 언어 모델(LLM)이 강력한 추론 능력을 보여주었습니다. 그러나 우리는 이러한 새로운 기능이 수천억 개의 매개변수를 가진 모델을 통해서만 달성될 수 있다는 것을 보여주었습니다. 이러한 모델은 막대한 컴퓨팅 리소스와 높은 추론 비용이 필요하므로 리소스 제약이 있는 경우 적용하기 어렵습니다. 따라서 우리의 연구 목표는 실제 응용 프로그램에서 대규모 배포를 위한 복잡한 산술 추론이 가능한 소형 모델을 개발하는 것입니다.
지식 증류는 LLM의 특정 기능을 더 작은 모델로 이전하는 효율적인 방법을 제공합니다. 모델 전문화라고도 하는 이 프로세스는 소규모 모델이 특정 기능에 집중하도록 합니다. 이전 연구에서는 LLM의 상황별 학습(ICL)을 활용하여 수학적 문제에 대한 추론 경로를 생성하고 이를 교육 데이터로 사용하여 소규모 모델이 복잡한 추론 기능을 획득하는 데 도움을 줍니다. 그러나 이러한 연구에서는 생성된 정답(예: 긍정 샘플)의 추론 경로만 훈련 샘플로 사용했으며, 잘못된 답변(예: 부정 샘플)이 있는 추론 단계의 귀중한 지식은 무시했습니다. 따라서 연구자들은 소규모 모델의 성능을 향상시키기 위해 음성 샘플의 추론 단계를 활용하는 방법을 탐색하기 시작했습니다. 한 가지 접근 방식은 생성기 모델을 도입하여 잘못된 답에 대한 추론 경로를 생성하고 이러한 경로를 긍정적인 예와 함께 사용하여 작은 모델을 훈련시키는 적대적 훈련을 사용하는 것입니다. 이러한 방식으로 소형 모델은 오류 추론 단계에서 귀중한 지식을 학습하고 추론 능력을 향상시킬 수 있습니다. 또 다른 접근 방식은 정답과 오답을 비교하고 작은 모델이 이를 구별하고 유용한 정보를 추출하는 방법을 학습하도록 하는 자기 지도 학습을 사용하는 것입니다. 이러한 방법은 소규모 모델에 대한 보다 포괄적인 교육을 제공하여 보다 강력한 추론 기능을 제공할 수 있습니다. 즉, 음성 샘플의 추론 단계를 사용하면 소규모 모델이 보다 포괄적인 교육을 받고 추론 기능을 향상시키는 데 도움이 될 수 있습니다. 이러한 종류의
picture
은 흥미로운 현상을 보여줍니다. 즉, 긍정적인 샘플 데이터와 부정적인 샘플 데이터에 대해 각각 훈련된 모델은 MATH 테스트 세트의 정확한 답변에서 매우 작은 중복을 보입니다. 음성 샘플로 훈련된 모델은 정확도가 떨어지지만 양성 샘플 모델이 올바르게 답할 수 없는 몇 가지 질문을 해결할 수 있으므로 음성 샘플에 귀중한 지식이 포함되어 있음을 확인할 수 있습니다. 또한 음성 샘플의 잘못된 링크는 모델이 유사한 실수를 방지하는 데 도움이 될 수 있습니다. 부정적인 샘플을 활용해야 하는 또 다른 이유는 OpenAI의 토큰 기반 가격 책정 전략입니다. MATH 데이터 세트에 대한 GPT-4의 정확도도 50% 미만입니다. 즉, 긍정적인 샘플 지식만 활용하면 많은 양의 토큰이 낭비된다는 의미입니다. 따라서 우리는 negative 샘플을 직접 버리는 것보다, 그로부터 귀중한 지식을 추출하고 활용하여 소형 모델의 전문화를 강화하는 더 좋은 방법을 제안합니다.
모델 전문화 프로세스는 일반적으로 세 단계로 요약될 수 있습니다.
1) 사고 사슬 증류(Chain-of-Thought Distillation), LLM에서 생성된 추론 체인을 사용하여 작은 모델을 훈련합니다.
2) 자체 강화, 자체 증류 또는 데이터 자체 확장을 수행하여 모델을 더욱 최적화합니다.
3) Self-Consistency는 추론 작업에서 모델 성능을 향상시키기 위한 효과적인 디코딩 전략으로 널리 사용됩니다.
이 작업에서는 음성 샘플을 완전히 활용하고 LLM에서 복잡한 추론 기능을 쉽게 추출할 수 있는 새로운 모델 전문화 프레임워크를 제안합니다.
우리가 제안하는 프레임워크는 LLaMA를 기본 모델로 사용하며 그림과 같이 주로 세 부분으로 구성됩니다.
우리는 부정적 지식 흡수와 로 나누어지는 2단계 부정적인 지원 훈련(NAT) 패러다임을 제안합니다. 동적 통합 유닛
에는 두 부분이 있습니다:2.1.1 부정적인 지식 흡수 부정적인 데이터에 대한 다음 기대치를 최대화하여
, 부정적인 샘플에 대한 지식은 LoRA θ
에 흡수됩니다. 이 과정에서 LLaMA의 매개변수는 고정된 상태로 유지됩니다.
Pictures
2.1.2 동적 적분 단위
어떤 수학 문제를 잘하는지 미리 판단하는 것은 불가능하기 때문에 그림과 같이 동적 적분 단위를 설계했습니다. 긍정적인 샘플 지식을 학습하는 과정에서 θ
의 지식은 동적으로 통합됩니다.
pictures
우리는 내부 지식이 잊어버리고 포지티브 LoRA 모듈 θ 를 추가로 도입합니다. 이상적으로는 포지티브 샘플에는 부족하지만 에 해당하는 유용한 지식을 보완하기 위해 포지티브 및 네거티브 LoRA 모듈(각 LLaMA 레이어의 출력은 및 로 표시됨)을 순방향으로 통합해야 합니다. θ
에 유해한 지식이 포함되어 있는 경우 양성 샘플에서 발생할 수 있는 잘못된 동작을 줄이는 데 도움이 되도록 양성 LoRA 모듈과 음성 LoRA 모듈의 음성 통합을 수행해야 합니다.
우리는 이 목표를 달성하기 위해 다음과 같은 교정 주의 메커니즘을 제안합니다.
Pictures
Pictures
및 의 어텐션 가중치를 계산하기 위해 쿼리로
을 사용합니다. 보정항 [0.5; -0.5]를 추가함으로써 의 주의 가중치는 [-0.5, 0.5] 범위로 제한되어 양수 방향과 음수 방향 모두에서 적응적으로 지식을 통합하는 효과를 얻습니다. 마지막으로
과 LLaMA 레이어 출력의 합이 동적 통합 장치의 출력을 형성합니다.
모델의 추론 능력을 더욱 향상시키기 위해 Negative Calibration Enhancement(NCE)를 제안합니다. NCE(Negative Calibration Enhancement)는 부정적인 지식을 활용하여 자기 강화 과정을 돕습니다. 먼저 NAT를 사용하여 각 질문에 대한 증강 샘플로 쌍을 생성하고 이를 교육 데이터 세트에 보완합니다. 자체 증류 부분의 경우 일부 샘플에는 모델의 추론 기능을 향상시키는 데 중요한 더 중요한 추론 단계가 포함될 수 있습니다. 우리의 주요 목표는 이러한 중요한 추론 단계를 식별하고 자가 증류 중에 학습을 향상시키는 것입니다.
NAT에 이미 θ
에 대한 유용한 지식이 포함되어 있다는 점을 고려하면 NAT가 θ
보다 더 강력한 추론 기능을 갖게 하는 요소는 둘 사이의 불일치 추론 링크에 내재되어 있습니다. 따라서 우리는 KL 발산을 사용하여 이러한 불일치를 측정하고 다음 공식의 기대치를 최대화합니다. 둘 사이의 차이가 클수록 샘플에 더 중요한 지식이 포함되어 있음을 의미합니다. 다양한 샘플의 손실 가중치를 조정하기 위해 β를 도입함으로써 NCE는 NAT에 포함된 지식을 선택적으로 학습하고 향상시킬 수 있습니다.
2.3 동적 자기 일관성(ASC)
자기 일관성(SC)은 복잡한 추론에서 모델의 성능을 더욱 향상시키는 데 효과적입니다. 그러나 현재 방법은 각 후보에 동일한 가중치를 할당하거나 단순히 생성 확률에 따라 가중치를 할당합니다. 이러한 전략은 투표 단계에서 (rˆ, yˆ)의 품질에 따라 후보 가중치를 조정할 수 없으므로 올바른 후보를 선택하기 어려울 수 있습니다. 이를 위해 우리는 긍정적인 데이터와 부정적인 데이터를 활용하여 순위 모델을 훈련하고 후보 추론 링크에 적응적으로 가중치를 재조정할 수 있는 동적 자기 일관성 방법(ASC)을 제안합니다.
2.3.1 순위 모델 훈련
이상적으로는 순위 모델이 정답으로 이어지는 추론 링크에 더 높은 가중치를 할당하고 그 반대의 경우도 마찬가지입니다. 따라서 우리는 다음과 같은 방법으로 훈련 샘플을 구성합니다:
및 MSE 손실을 사용하여 순위 모델을 훈련합니다:
pictures
2.3.2 가중치 전략
후보자 추론 링크에 적응적으로 재가중화하는 목표를 달성하기 위해 투표 전략을 다음 공식으로 수정합니다.
Picture
다음 그림은 ASC 전략의 흐름을 보여줍니다.
Picture
지식 이전의 관점에서 ASC는 LLM의 지식(긍정적 및 부정적)을 더욱 활용하여 소규모 모델이 더 나은 성능을 달성할 수 있도록 지원합니다.
3. 실험이 연구는 7개 주제와 관련된 총 12,500개의 질문으로 구성된 까다로운 수학적 추론 데이터세트 MATH에 중점을 둡니다. 또한, 제안된 프레임워크의 OOD(Out-of-Distribution) 데이터에 대한 일반화 능력을 평가하기 위해 GSM8K, ASDiv, MultiArith 및 SVAMP의 네 가지 데이터 세트를 소개합니다.
교사 모델의 경우 Open AI의 gpt-3.5-turbo 및 gpt-4 API를 사용하여 추론 체인을 생성합니다. 학생 모델로는 LLaMA-7b를 선택합니다.
우리 연구에는 두 가지 주요 기준선 유형이 있습니다. 하나는 LLM(대형 언어 모델)이고 다른 하나는 LLaMA-7b를 기반으로 합니다. LLM의 경우 두 가지 인기 모델인 GPT3 및 PaLM과 비교합니다. LLaMA-7b의 경우 먼저 Few-shot, Fine-tune(원래 훈련 샘플에서), CoT KD(Chain of Thought Distillation)의 세 가지 설정을 비교하는 방법을 제시합니다. 부정적인 관점에서의 학습 측면에서 MIX(긍정적 데이터와 부정적 데이터를 혼합하여 LLaMA를 직접 교육), CL(대조 학습), NT(부정적 교육) 및 UL(비우도 손실)의 네 가지 기본 방법도 포함됩니다. ) ).
모든 방법은 탐욕 검색(즉 온도 = 0)을 사용하며 NAT의 실험 결과는 그림에 표시되어 제안된 NAT 방법이 모든 기준 정확도에서 작업을 향상시키는 것을 보여줍니다.
GPT3와 PaLM의 낮은 값에서 볼 수 있듯이 MATH는 매우 어려운 수학적 데이터 세트이지만 NAT는 여전히 매우 적은 매개 변수로도 잘 작동할 수 있습니다. 원시 데이터의 미세 조정과 비교하여 NAT는 두 가지 CoT 소스에서 약 75.75%의 개선을 달성합니다. NAT는 또한 양성 샘플의 CoT KD에 비해 정확도를 크게 향상시켜 음성 샘플의 가치를 입증합니다.
부정 정보 기준을 활용하는 경우 MIX의 성능이 낮다는 것은 부정 샘플을 직접 교육하면 모델 성능이 저하된다는 것을 나타냅니다. 다른 방법들도 대부분 NAT보다 열등하며, 이는 복잡한 추론 작업에서 음의 방향으로 음의 샘플만을 사용하는 것만으로는 충분하지 않음을 보여줍니다.
Pictures
그림에서 볼 수 있듯이 지식 증류(KD)와 비교했을 때 NCE는 평균 10%(0.66)의 향상을 달성하여 부정 사용을 입증합니다. 샘플 증류를 위해 제공된 교정 정보의 유효성. NAT와 비교하여 NCE는 일부 매개변수를 줄였지만 여전히 6.5% 개선되어 모델 압축 및 성능 향상이라는 목적을 달성합니다.
Pictures
ASC를 평가하기 위해 샘플링 온도 T = 1을 사용하여 기본 SC 및 가중(WS) SC와 비교하여 16개의 샘플을 생성합니다. 그림에서 볼 수 있듯이 결과는 서로 다른 샘플의 답변을 집계하는 ASC가 더 유망한 전략임을 보여줍니다.
Pictures
MATH 데이터 세트 외에도 다른 수학적 추론 작업에 대한 프레임워크의 일반화 능력을 평가했습니다.
Pictures
이 작업은 부정적 샘플을 사용하여 대규모 언어 모델에서 복잡한 추론 기능을 추출하고 이를 특수한 소규모 모델로 전송하는 효과를 탐구합니다. 샤오홍슈 검색 알고리즘 팀은 세 가지 직렬화 단계로 구성된 새로운 프레임워크를 제안했으며, 모델 전문화의 전체 과정에서 부정적인 정보를 최대한 활용합니다. NAT(부정적 지원 훈련)은 두 가지 관점에서 부정적인 정보를 활용하는 보다 포괄적인 방법을 제공할 수 있습니다. NCE(Negative Calibration Enhancement)는 자가 증류 과정을 교정하여 보다 목표화된 방식으로 핵심 지식을 습득할 수 있습니다. 두 관점 모두에 대해 훈련된 순위 모델은 동적 자기 일관성(ASC)을 달성하기 위해 집계에 더 적절한 가중치를 할당할 수 있습니다. 광범위한 실험을 통해 우리 프레임워크가 생성된 네거티브 샘플을 통해 추론 기능을 정제하는 효과를 향상시킬 수 있음을 보여줍니다.
논문 주소: https://www.php.cn/link/8fa2a95ee83cd1633cfd64f78e856bd3
위 내용은 Xiaohongshu 검색팀은 대규모 모델 증류에서 음성 샘플 검증의 중요성을 밝힙니다.의 상세 내용입니다. 자세한 내용은 PHP 중국어 웹사이트의 기타 관련 기사를 참조하세요!