ChatGPT API가 공개된 이후 ChatGPT, GPT-4 등 대형 기본 모델(LFM)의 출력을 학습 데이터로 사용한 후 모방 학습을 통해 소형 모델의 성능을 향상시키는 방법을 선택한 연구가 많이 있습니다. .
그러나 표면적인 모방 신호, 부족한 훈련 데이터, 엄격한 평가 기준 부족 등의 문제로 인해 소규모 모델의 실제 성능은 과대평가되어 왔습니다.
효과 관점에서 보면 소형 모델은 추론 과정보다는 LFM의 출력 스타일을 모방하는 경향이 더 큽니다.
문서 링크: https://arxiv.org/pdf/2306.02707.pdf
이러한 문제를 해결하기 위해 Microsoft는 최근 수백 명의 사용자가 포함된 130 The Orca 모델을 제안하는 51페이지 분량의 문서를 발표했습니다. 수백만 개의 매개변수가 LFM의 추론 프로세스를 모방하는 방법을 학습할 수 있습니다.
연구원들은 Orca가 GPT-4에서 해석 추적, 단계별 사고 과정, 복잡한 지침 등을 학습할 수 있도록 대형 모델을 위한 풍부한 훈련 신호를 설계했으며 ChatGPT 교사와 샘플링을 통해 지원 및 안내를 받았습니다. 대규모의 다양한 모방 데이터를 마이닝하기 위한 선택을 통해 점진적인 학습 효과를 더욱 높일 수 있습니다.
실험 평가에서 Orca는 다른 SOTA 명령 미세 조정 모델을 능가하여 BigBench Hard(BBH)와 같은 복잡한 제로 샷 추론 벤치마크에서 Vicuna-13B의 두 배 성능을 달성했으며 AGIeval 42% 성능에서도 성능을 달성했습니다. 개선.
또한 Orca는 BBH 벤치마크에서 ChatGPT와 동등한 성능을 달성했으며 SAT, LSAT, GRE 및 GMAT와 같은 전문 및 학술 시험에서 모두 생각 없이 4%의 성능 차이만 보였습니다. 체인의 제로 샘플 설정.
이 연구 결과는 인간이 생성했든 고급 AI 모델이 생성했든 상관없이 모델이 단계별 설명을 통해 학습하도록 하는 것이 모델 역량과 기술을 향상시키기 위한 유망한 연구 방향임을 시사합니다.
데이터 세트 구성
교육 데이터에서 각 인스턴스에는 시스템 메시지, 사용자 쿼리 및 LFM 응답의 세 부분이 포함됩니다.
시스템 메시지(system message) 는 프롬프트 시작 부분에 배치되며 LFM에 기본 컨텍스트, 지침 및 기타 관련 세부 정보를 제공합니다.
시스템 메시지를 사용하면 응답 길이를 변경하고, AI 도우미의 성격을 설명하고, 허용 가능한 LFM 동작과 허용되지 않는 LFM 동작을 설정하고, AI 모델의 응답 구조를 결정할 수 있습니다.
연구원들은 창의적인 콘텐츠를 생성하고 정보 질의 문제를 해결할 수 있는 다양한 유형의 LFM 응답을 설계하기 위해 16개의 시스템 정보를 직접 제작했으며, 가장 중요한 것은 설명과 단계별 추론 기반의 답변을 생성할 수 있다는 것입니다. 프롬프트에.
사용자 쿼리 는 LFM이 수행하려는 실제 작업을 정의합니다.
다수의 다양한 사용자 쿼리를 얻기 위해 연구원들은 FLAN-v2 컬렉션을 사용하여 500만 개의 사용자 쿼리(FLAN-5M)를 추출하고 ChatGPT 응답을 수집한 다음 500만 개의 지침에서 추가로 추출했습니다. 백만 개의 명령(FLAN-1M)을 작성하고 GPT-4로부터 응답을 수집합니다.
FLAN-v2 컬렉션은 CoT, NiV2, T0, Flan 2021 및 Dialogue의 5개 하위 컬렉션으로 구성됩니다. 각 하위 컬렉션에는 여러 작업이 포함되어 있으며 각 작업은 쿼리 모음입니다.
각 하위 컬렉션은 여러 학술 데이터세트와 관련되어 있으며, 각 데이터세트에는 주로 제로샷 및 퓨샷 쿼리에 초점을 맞춘 하나 이상의 작업이 있습니다.
이 작업에서 연구원들은 Orca가 훈련된 제로샷 쿼리만 샘플링했으며 Dialogue 하위 집합에서는 샘플링하지 않았습니다. 이러한 쿼리에는 ChatGPT에서 유용한 응답을 얻기 위한 컨텍스트가 부족한 경우가 많기 때문입니다.
ChatGPT가 조교 역할을 하도록 하세요
먼저 FLAN-5M 데이터(ChatGPT 향상)에서 Orca를 훈련한 다음 FLAN-1M(GPT-4 향상)에 대한 훈련의 두 번째 단계를 수행합니다. .
ChatGPT를 중급 교사 보조로 사용하는 두 가지 주요 이유는 다음과 같습니다.
1. 역량 격차
GPT-4의 매개변수 양은 공개되지 않았지만 130억 매개변수 Orca는 확실히 GPT-4보다 몇 배 작으며 ChatGPT와 Orca 간의 기능 격차가 작아서 중급 교사에게 더 적합하며 이 접근 방식은 소규모 학생 모델의 모방 학습 성능을 향상시키는 것으로 입증되었습니다. 지식 증류에서.
이 접근 방식은 학생들이 먼저 더 쉬운 예에서 학습한 다음 더 긴 응답이 짧은 응답보다 낫다고 가정하여 더 어려운 예로 넘어가는 점진적 학습 또는 코스 학습의 한 형태로 볼 수도 있습니다. 추론 및 단계별 설명 기술은 더 큰 교사 모델을 통해 향상될 수 있습니다.
2. 비용 및 시간
Azure OpenAI API에서 대규모 데이터 수집을 수행할 때는 서비스로 인한 과도한 트래픽을 방지하기 위한 분당 요청 속도 제한을 포함하여 몇 가지 제한 사항이 있습니다. 대기 시간 문제, 분당 사용할 수 있는 토큰 수가 제한되어 있으며 토큰 완료를 위한 프롬프트 길이와 금전적 비용이 있습니다.
이에 비해 ChatGPT API는 GPT-4 터미널보다 빠르고 저렴하므로 GPT-4보다 ChatGPT에서 5배 더 많은 데이터가 수집됩니다.
ChatGPT 및 GPT-4의 다양한 시스템 메시지에 해당하는 응답 길이의 분포를 보면 GPT-4의 응답이 ChatGPT보다 평균 1.5배 길어서 Orca가 점차적으로 학습할 수 있다는 것을 알 수 있습니다. 교사 설명의 복잡성을 연구하고 절제 실험을 통해 교사 지원의 영향을 보여줍니다.
Training
단어 분할 단계에서 연구원들은 LLaMA의 BPE(바이트 쌍 인코딩) 단어 분할기를 사용하여 입력 샘플을 처리했습니다. 여기서 여러 자리 숫자는 여러 개의 한 자리로 분할됩니다. . 알 수 없는 UTF-8 문자를 분해하기 위해 바이트로 대체됩니다.
가변 길이 시퀀스를 처리하기 위해 LLaMA 토크나이저 어휘에 필러 단어 [[PAD]]가 도입되었습니다. 최종 어휘에는 32001개의 토큰이 포함되어 있습니다.
학습 프로세스를 최적화하고 효과적으로 연구자들은 사용 가능한 컴퓨팅 리소스를 사용하여 모델을 훈련하기 전에 여러 입력 인스턴스를 시퀀스로 연결하는 패킹 기술을 사용했습니다.
패킹 과정에서 연결된 시퀀스의 총 길이는 max_len=2048 토큰을 초과하지 않습니다. 입력 샘플은 무작위로 섞여서 여러 그룹으로 나누어집니다. 연결된 시퀀스의 각 그룹 길이는 최대 max_len입니다.
훈련 데이터에서 명령의 길이 분포를 향상시키기 위해 각 시퀀스의 패킹 계수는 2.7
Orca를 훈련하기 위해 연구원들은 교사 모델에서 생성된 토큰의 손실만 계산하기로 결정했습니다. 이는 학습 생성이 시스템 정보 및 작업 지침을 기반으로 함을 의미합니다. 조건부 응답은 모델이 가장 관련성이 높고 유익한 토큰을 통한 학습에 중점을 두어 훈련 프로세스의 전반적인 효율성과 효과를 향상시킵니다.
마지막으로 Orca는 80GB 메모리를 갖춘 20개의 NVIDIA A100 GPU에서 처음에 FLAN-5M(ChatGPT 향상)에서 훈련되었으며, 이 과정에는 160시간이 걸렸습니다. 이후 FLAN-1M(GPT-4 향상)에서 훈련을 계속했습니다. 4 epochs
교통 제한, 터미널 부하 및 응답 시간 문제로 인해 GPT-3.5-turbo(ChatGPT) 및 GPT-4의 여러 터미널에서 데이터를 수집하는 데 각각 2주와 3주가 걸렸습니다.
연구진은 주로 오르카의 추론 능력을 검증했습니다.
AGIEval 실험에서 볼 수 있듯이 Orca의 성능은 Text-da-Vinci-003과 동일하며 ChatGPT 성능의 88%를 달성하지만 GPT-4
분석 및 추론 작업의 경우 Vicuna는 ChatGPT 품질의 62%만 유지하여 훨씬 더 낮은 성능을 발휘했습니다. 이는 이 오픈 소스 언어 모델의 추론 기능이 좋지 않음을 나타냅니다.
Orca는 Text-da-Vinci-003과 동일하게 성능을 발휘하지만 여전히 ChatGPT보다 5점 낮습니다. Orca는 수학 관련 작업(SAT, GRE, GMAT) 격차에서 ChatGPT보다 훨씬 더 나은 성능을 발휘합니다.
Vicuna에 비해 Orca는 더 강력한 성능을 보여 모든 범주에서 Vicuna를 능가하며 평균 상대 개선율은 42%입니다.
GPT-4는 다른 모든 모델보다 훨씬 뛰어난 성능을 발휘하지만, 이 벤치마크에서는 여전히 개선의 여지가 많으며 현재 모든 모델의 성능이 사람의 점수보다 훨씬 낮습니다.
Orca의 성능은 시스템 메시지 유형에 따라 크게 달라지며, 빈 시스템 메시지는 훈련된 모델에 잘 작동하는 경향이 있습니다.
Orca는 다양한 작업의 325개 샘플에서 ChatGPT(Orca-beats-ChatGPT 예시)보다 성능이 뛰어납니다. 그 중 대부분은 LogiQA(29%)에서 가져온 반면 다른 LSAT 작업과 SAT-English 작업은 10개로 균등하게 나뉩니다. %
Big-Bench Hard Results 데이터 세트의 추론 평가 결과는 Orca의 모든 작업에서 전반적인 성능이 ChatGPT보다 약간 우수하지만 GPT-4보다 113배 더 높은 것으로 나타났습니다. %
위 내용은 '모방학습'은 진부한 말일까요? 설명 미세 조정 + 130억 개의 매개변수 Orca: 추론 능력이 ChatGPT와 동일함의 상세 내용입니다. 자세한 내용은 PHP 중국어 웹사이트의 기타 관련 기사를 참조하세요!