우리는 Google T5 모델부터 OpenAI GPT 시리즈 대형 모델, LLM(대형 언어 모델)에 이르기까지 상황별 학습 및 사고 사슬 추론과 같은 인상적인 일반화 기능을 입증했다는 것을 알고 있습니다. 동시에 LLM이 자연어 지침을 따르고 실제 작업을 완료하도록 하기 위해 연구자들은 LLM에 대한 지침 미세 조정 방법을 탐색해 왔습니다. 이는 두 가지 방법으로 수행됩니다. 사람이 주석을 추가한 프롬프트와 피드백을 사용하여 다양한 작업에 대한 모델을 미세 조정하거나 수동 또는 자동 생성된 지침으로 보강된 공개 벤치마크 및 데이터 세트를 사용하여 미세 조정을 감독합니다.
이러한 방법 중 Self-Instruct Fine-tuning은 SOTA 수업 Fine-tuning의 교사 LLM이 생성한 데이터를 따르는 수업을 통해 학습하여 LLM이 인간의 의도와 일치하도록 하는 간단하고 효과적인 방법입니다. 명령 미세 조정이 LLM의 제로 샘플 및 소규모 샘플 일반화 기능을 향상시키는 효과적인 수단이 되었다는 사실이 입증되었습니다.
최근 ChatGPT 및 GPT-4의 성공은 교육 미세 조정을 사용하여 오픈 소스 LLM을 개선할 수 있는 엄청난 기회를 제공합니다. Meta LLaMA는 GPT-3와 같은 독점 LLM에 필적하는 성능을 갖춘 오픈 소스 LLM 제품군입니다. LLaMA가 지침을 따르도록 가르치기 위해 뛰어난 성능과 저렴한 비용으로 인해 Self-Instruct가 빠르게 채택되었습니다. 예를 들어 Stanford의 Alpaca 모델은 GPT-3.5에서 생성된 52k 명령 준수 샘플을 사용하고, Vicuna 모델은 ShareGPT에서 약 70k 명령 준수 샘플을 사용합니다.
LLM 지침 미세 조정의 SOTA 수준을 향상시키기 위해 Microsoft Research는 "GPT-4를 사용한 지침 조정"이라는 논문에서 처음으로 GPT-4를 자기 유도 미세 조정을 위한 교사 모델로 사용했습니다. ".
연구원이 한 번에 공개했습니다. GPT-4에서 생성된 데이터에는 중국어와 영어로 된 52,000개의 명령 준수 데이터 세트와 세 가지 명령 미세 조정 모델의 출력을 평가하기 위해 GPT-4에서 생성된 피드백 데이터가 포함됩니다.
한편, GPT-4에서 생성된 데이터를 기반으로 지시 미세 조정 LLaMA 모델과 보상 모델이 개발되었습니다. 지침 미세 조정 LLM의 품질을 평가하기 위해 연구원들은 세 가지 정렬 기준의 수동 평가, GPT-4 피드백을 기반으로 한 자동 평가, ROUGE-L(부자연스러운 지침에 대한 자동 요약 평가 방법)의 세 가지 지표를 사용하여 테스트 샘플을 평가했습니다. . 하나).
실험 결과는 GPT-4에서 생성된 데이터를 사용하여 LLM 지침 미세 조정의 효과를 검증합니다. GPT-4에서 생성된 52k 중국어 및 영어 명령 준수 데이터는 이전 SOTA 모델보다 새로운 작업에서 더 나은 제로 샘플 성능을 달성합니다. 현재 연구자들은 GPT-4 및 관련 코드를 사용하여 생성된 데이터를 공개했습니다.
이 연구에서는 GPT-4를 사용하여 다음 네 가지 데이터 세트를 생성합니다.
그림 1은 GPT-4와 GPT-3.5의 영어 출력 응답 세트를 비교합니다. 그림 1 (a)와 (b)는 빈도가 10보다 높은 동사-명사 쌍의 두 출력 세트를 보여줍니다. 그림 1 (c)는 두 세트에서 가장 자주 사용되는 25개의 단어 쌍을 비교합니다. 시퀀스 길이의 빈도 분포 및 결과는 GPT-4가 GPT-3.5보다 더 긴 시퀀스를 생성하는 경향이 있음을 보여줍니다.
이 연구는 LLaMA 7B 체크포인트를 기반으로 하며 지도 미세 조정을 사용하여 두 가지 모델을 훈련합니다. (i) LLaMA-GPT4, 다음에서 생성된 52K 영어 명령 준수 데이터 GPT-4 열차. (ii) GPT-4에서 생성된 데이터를 따르는 52K 중국어 명령어로 훈련된 LLaMA-GPT4-CN.
보상 모델
RLHF(Reinforcement Learning with Human Feedback)는 LLM 행동이 인간 선호도와 일치하도록 만드는 것을 목표로 합니다. 이 문제는 종종 회귀 작업으로 공식화됩니다. 주어진 단서와 반응 사이의 보상을 예측합니다. 그러나 이 방법은 일반적으로 대규모 비교 데이터가 필요하며, Alpaca, Vicuna, Dolly와 같은 기존 오픈 소스 모델은 비교 데이터에 주석을 추가하는 데 드는 비용이 높기 때문에 RLHF를 포함하지 않습니다. 동시에 최근 연구에 따르면 GPT-4는 자체 오류를 식별 및 수정하고 응답의 품질을 정확하게 판단할 수 있는 것으로 나타났습니다. 따라서 본 연구에서는 RLHF에 대한 연구를 촉진하기 위해 앞서 설명한 바와 같이 GPT-4를 활용한 비교자료를 작성하였다.
데이터 품질을 평가하기 위해 연구에서는 이 데이터 세트에 대한 평가를 위해 OPT 1.3B를 기반으로 한 보상 모델도 훈련했습니다. 비교 데이터의 분포는 그림 2에 나와 있습니다.
이 연구에서는 인간 평가, GPT-4, 부자연스러운 수업 평가의 세 가지 평가 유형을 활용합니다. 결과는 GPT-4에서 생성된 데이터를 사용하는 것이 다른 기계 생성 데이터에 비해 LLM 명령을 미세 조정하는 효율적이고 효과적인 방법임을 확인합니다. 다음으로 구체적인 실험 과정을 살펴보겠습니다.
인간 평가
그림 3(a)는 LLaMA-GPT4와 Alpaca의 비교 결과를 보여줍니다. 실험 결과 유용성 지표에서 GPT-4가 54.12%의 점수로 승리했습니다. 그림 3(b)는 LLaMA-GPT4와 GPT-4의 비교 결과를 보여주며, 이는 GPT-4 명령어로 미세 조정된 LLaMA의 성능이 원래 GPT-4와 유사함을 보여줍니다.
자동 평가를 사용해 SOTA와 비교
이 연구에서는 GPT-4를 사용하여 보이지 않는 질문 80개에 대한 다양한 모델의 응답을 자동으로 평가합니다. 먼저 LLaMA-GPT-4(7B) 및 GPT-4라는 두 개의 챗봇에서 답변을 수집하고 LLaMA(13B), Alpaca(13B), Vicuna(13B), Bard(Google, 2023)를 포함한 다른 챗봇을 사용하여 답변을 게시합니다. 그리고 ChatGPT. 각 평가에 대해 연구에서는 GPT-4에게 두 모델 간의 반응 품질을 1~10점 척도로 평가하도록 요청했습니다. 결과는 그림 4에 나와 있습니다.
그림 4(c,d)는 모든 챗봇을 비교합니다. LLaMA_GPT4는 더 나은 성능을 발휘합니다. 7B LLaMA GPT4는 13B Alpaca 및 LLaMA보다 성능이 더 좋습니다. 그러나 LLaMA_GPT4는 GPT-4와 같은 대형 상용 챗봇과 비교하면 여전히 격차가 있습니다.
연구원들은 아래 그림 5에서 모든 챗봇의 성능을 추가로 연구했습니다. 먼저 GPT-4를 사용하여 챗봇의 영어 응답을 중국어로 번역한 다음 GPT-4를 사용하여 영어 질문을 중국어로 번역하여 답변을 얻습니다. GPT-4 번역 및 생성된 중국어 응답과의 비교는 5(a) 및 5(b)에 표시되며, 중국어로 답변하도록 요청된 모든 모델 결과는 5(c)에 표시됩니다.
아래 그림 6에서 연구원들은 LLaMA-GPT4를 GPT-4 및 Alpaca 부자연스러운 명령과 비교합니다. 결과는 LLaMA-GPT4 및 GPT-4가 Ground Truth 응답 길이가 증가함에 따라 더 나은 성능을 발휘한다는 것을 보여줍니다. 이는 장면이 더 창의적일수록 지시를 더 잘 따를 수 있다는 것을 의미합니다. LLaMA-GPT4와 GPT-4는 모두 시퀀스 길이가 짧을 때 간단한 실측 답변이 포함된 응답을 생성할 수 있으며 추가 단어를 추가하면 응답이 더욱 채팅과 유사해집니다.
더 많은 기술적, 실험적 세부사항은 원본 논문을 참조하세요.
위 내용은 처음으로: Microsoft는 GPT-4를 사용하여 대규모 모델 지침을 미세 조정하고 새로운 작업의 제로 샘플 성능이 더욱 향상되었습니다.의 상세 내용입니다. 자세한 내용은 PHP 중국어 웹사이트의 기타 관련 기사를 참조하세요!