"명령"은 ChatGPT 모델의 획기적인 발전의 핵심 요소로, "인간 선호도"에 더 부합하는 언어 모델의 출력을 만들 수 있습니다.
그러나 지침의 주석에는 많은 인력이 필요합니다. 오픈 소스 언어 모델을 사용하더라도 자금이 부족한 학술 기관과 소규모 회사에서는 자체 ChatGPT를 교육하기가 어렵습니다.
최근 Microsoft 연구원들은 The 제안된 Self-Instruct 기술은 GPT-4 모델을 사용하여 언어 모델에 필요한 미세 조정 명령 데이터 를 자동으로 생성하는 최초의 시도입니다.
문서 링크: https://arxiv.org/pdf/2304.03277.pdf
코드 링크: https://github.com/Instruction-Tuning-with-GPT -4/GPT-4-LLM
Meta 오픈소스 기반 LLaMA 모델의 실험 결과, GPT-4에서 생성된 52,000개의 영어 및 중국어 지시 따르기 데이터가 새로운 작업에서 더 나은 성능을 보였습니다. 연구진은 이전 최첨단 모델에서 생성된 데이터와 종합적인 평가 및 보상 모델 훈련을 위해 GPT-4로부터 피드백 및 비교 데이터도 수집했습니다.
훈련 데이터데이터 수집
연구원들은 스탠포드 대학교에서 출시한 Alpaca 모델에서 사용하는 52,000개의 지침을 재사용했습니다. 여기서 각 지침은 모델이 수행해야 하는 작업을 설명하고 동일한 지침을 따릅니다. Alpaca는 입력 상황과 입력되지 않는 상황을 모두 작업에 대한 선택적 컨텍스트 또는 입력으로 간주하여 지침에 대한 답변을 출력합니다.
Alpaca 데이터 세트에서는 GPT-3.5(text-davinci-003)를 사용하여 출력이 생성되었지만, 이 논문에서는 연구원들이 GPT-4를 사용하여 데이터를 생성하기로 선택했습니다. 다음 4가지 데이터 세트:
1. 영어 명령어 후속 데이터: Alpaca에서 수집된 52,000개의 명령어에 대해 각 명령어에 대해 영어 GPT-4 답변이 제공됩니다.
향후 작업은 반복 프로세스를 따르고 GPT-4 및 자체 지시를 사용하여 새로운 데이터 세트를 구축하는 것입니다.
2. 중국어 지시 따르기 데이터: ChatGPT를 사용하여 52,000개의 지시를 중국어로 번역하고 GPT-4에게 이 지시를 중국어로 대답하도록 요청하여 LLaMA를 기반으로 한 중국어 지시 따르기 모델을 구축하고 연구합니다. 명령 조정의 언어 간 일반화 능력.
3. 비교 데이터: GPT-4가 자체 응답에 대해 1부터 10까지의 점수를 제공하도록 요구하고 세 가지 모델의 응답에 대해 GPT-4, GPT-3.5 및 OPT-IML 점수를 훈련시킵니다. 보상 모델.
4. 부자연스러운 지침에 대한 답변: GPT-4에 대한 답변은 이 하위 집합을 사용하여 68,000개(명령, 입력, 출력)의 데이터 집합에서 디코딩되었습니다. GPT-4 및 지침 조정 모델.
통계
연구원들은 GPT-4와 GPT-3.5의 영어 출력 응답 세트를 비교했습니다. 각 출력에 대해 어근 동사와 직접 목적어 명사가 추출되었으며, 각 출력 세트에서 고유한 동사-명사 쌍의 빈도가 계산되었습니다.
빈도가 10보다 높은 동사-명사 쌍
가장 자주 사용되는 동사-명사 쌍 25개
출력 시퀀스 길이의 빈도 분포 비교
GPT-4가 GPT-3.5보다 긴 시퀀스를 생성하는 경향이 있음을 알 수 있습니다. 알파카에서 GPT-3.5 데이터의 롱테일 현상은 출력 분포보다 더 분명합니다. GPT-4의 Alpaca 데이터 세트에는 현재 일회성 데이터 생성에서는 사용할 수 없는 각 반복에서 유사한 명령 인스턴스를 제거하는 반복적인 데이터 수집 프로세스가 포함될 수 있습니다.
과정은 간단하지만 GPT-4에서 생성된 지시추종 데이터는 더욱 강력한 정렬 성능을 발휘합니다.
Self-Instruct Tuning
연구원들은 LLaMA 7B 체크포인트 감독 미세 조정을 기반으로 두 가지 모델을 얻었습니다. LLaMA-GPT4는 GPT-4 5.2에서 생성되었습니다. 10,000에서 훈련되었습니다. 영어 지시 따르기 데이터; LLaMA-GPT4-CN은 GPT-4의 중국어 지시 따르기 데이터 52,000개를 학습했습니다.
두 가지 모델을 사용하여 GPT-4의 데이터 품질과 단일 언어로 조정된 LLM의 언어 간 일반화 속성을 연구했습니다.
보상 모델
인간 피드백을 통한 강화 학습(RLHF)은 LLM 동작이 인간 선호도와 일치하도록 만들어 언어 모델의 출력을 인간에게 더 유용하게 만드는 것을 목표로 합니다.
RLHF의 핵심 구성 요소는 보상 모델링입니다. 문제는 프롬프트와 응답이 주어지면 보상 점수를 예측하는 회귀 작업으로 공식화될 수 있습니다. 이 방법에는 일반적으로 대규모 비교 데이터가 필요합니다. 프롬프트에서 두 모델의 응답을 비교합니다.
Alpaca, Vicuna, Dolly 등 기존 오픈소스 모델은 비교 데이터에 주석을 다는 데 드는 비용이 높기 때문에 RLHF를 사용하지 않으며, 최근 연구에 따르면 GPT-4는 자체 오류를 식별하고 복구할 수 있으며, 응답의 질을 정확하게 판단하십시오.
연구원들은 RLHF에 대한 연구를 촉진하기 위해 GPT-4를 사용하여 비교 데이터를 생성하여 데이터 품질을 평가했으며, 연구원들은 다양한 응답을 평가하기 위해 OPT 1.3B를 기반으로 보상 모델을 교육했습니다. GPT-4는 각 답변에 대해 1~10점 사이의 점수를 제공합니다.
이전에 본 적이 없는 작업에 대해 GPT-4 데이터에 대한 자체 지시 조정 모델의 성능을 평가하는 것은 여전히 어려운 작업으로 남아 있습니다.
모델의 다양한 작업 지침을 이해하고 준수하는 능력을 평가하는 것이 주요 목표이기 때문에, 이를 달성하기 위해 연구진은 세 가지 유형의 평가를 활용했으며 연구 결과에서 확인했습니다. "GPT-4를 사용하여 데이터 생성"에 비해 다른 기계에서 자동으로 생성된 데이터를 기반으로 대규모 언어 모델 명령을 조정하는 효과적인 방법입니다.
인간 평가
이 명령어를 조정한 후 대규모 언어 모델 정렬의 품질을 평가하기 위해 연구원들은 이전에 제안된 정렬 기준을 따랐습니다. 보조자가 도움이 되고 정직하며 무해한 경우(HHH) 정렬됩니다. 인간 평가 기준은 인공 지능 시스템이 인간 가치와 일치하는 정도를 평가하는 데에도 널리 사용됩니다.
유용성: 인간의 목표 달성에 도움이 될 수 있는지 여부에 관계없이 질문에 정확하게 답할 수 있는 모델은 도움이 됩니다.
정직: 사용자를 오해하게 만드는 것을 피하기 위해 필요할 때 진정한 정보를 제공하고 불확실성을 표현하는지 여부에 관계없이, 잘못된 정보를 제공하는 모델은 부정직합니다.
무해함: 증오 표현을 생성하거나 폭력을 조장하는 모델은 인간에게 해를 끼치지 않는다면 무해하지 않습니다.
HHH 정렬 기준에 따라 연구원들은 크라우드소싱 플랫폼 Amazon Mechanical Turk를 사용하여 모델 생성 결과를 수동으로 평가했습니다.
글에서 제안한 두 모델은 GPT-4와 GPT-3에서 생성된 데이터를 토대로 미세 조정되었으며 LLaMA-GPT4가 51.2의 비율로 훨씬 더 유용하다는 것을 알 수 있습니다. %.GPT-3에서 미세 조정된 알파카(19.74%)보다 낫지만 정직성 및 무해성 기준에서는 기본적으로 동점이고 GPT-3가 약간 더 좋습니다.
원래 GPT-4와 비교해 보면 세 가지 표준에서 둘이 상당히 일치하는 것을 알 수 있습니다. 즉, GPT-4 명령 튜닝 후 LLaMA의 성능은 원본과 유사합니다. GPT-4 .
GPT-4 자동 평가
Vicuna에서 영감을 받아 연구원들은 GPT-4를 사용하여 LLaMA의 보이지 않는 질문 80개에 대해 다양한 챗봇 모델에서 생성된 응답 품질을 평가하기로 결정했습니다. GPT에서 응답 수집 -4(7B)와 GPT-4 모델을 비교하고 이전 연구의 다른 모델로부터 답변을 얻은 다음 GPT-4에게 두 모델 간의 응답 품질을 1에서 10까지 평가하도록 요청하고 결과를 다음과 비교합니다. 다른 강력한 경쟁 모델(ChatGPT 및 GPT-4).
평가 결과는 피드백 데이터와 보상 모델이 LLaMA의 성능을 향상시키는 데 효과적이라는 것을 보여줍니다. GPT-4를 사용하여 LLaMA 지침을 조정하는 것이 text-davinci-003 조정(예: Alpaca)을 사용하는 것보다 더 나은 경우가 많습니다. ) 및 무튜닝(예: LLaMA)은 더 높은 성능을 가지며, 7B LLaMA GPT4의 성능은 13B Alpaca 및 LLaMA를 능가하지만 GPT-4와 같은 대형 상용 챗봇과 비교하면 여전히 격차가 있습니다.
중국어 챗봇의 성능을 더 연구할 때 먼저 GPT-4를 사용하여 챗봇의 질문을 영어에서 중국어로 번역하고 GPT-4를 사용하여 답변을 얻으면 두 가지 흥미로운 관찰이 가능합니다. made :
1. GPT-4 평가의 상대 점수 측정항목은 서로 다른 적대 모델(예: ChatGPT 또는 GPT-4)과 언어(예: 영어) 측면에서 매우 일관적입니다. 아니면 중국어).
2. GPT-4의 결과에 대해서만 번역된 답변이 중국어에서 생성된 답변보다 성능이 더 좋았습니다, 아마도 GPT-4가 중국어보다 더 풍부한 영어 코퍼스를 학습했기 때문에 영어 교육이 더 강력했기 때문일 것입니다. -추종능력.
부자연스러운 지시 평가 및 GPT4는 Ground Truth 응답 길이가 길어질수록 점차적으로 더 나은 성능을 보이고, 마침내 길이가 4를 초과할 때 더 높은 성능을 보여줍니다. 이는 장면이 더 창의적일 때 지시를 더 잘 따를 수 있음을 의미합니다.서로 다른 하위 집합에서 LLaMA-GPT4와 GPT-4의 동작은 거의 동일합니다. 시퀀스 길이가 짧을 때 LLaMA-GPT4와 GPT-4는 모두 간단한 기본 사실 답변이 포함된 응답을 생성할 수 있지만 응답을 더욱 채팅처럼 만들기 위해 추가 단어를 사용하면 ROUGE-L 점수가 낮아질 수 있습니다.
위 내용은 Microsoft의 미세 조정된 오픈 소스 지침 세트는 중국어와 영어로 된 이중 언어 생성을 지원하는 GPT-4의 홈 버전을 개발하는 데 도움이 됩니다.의 상세 내용입니다. 자세한 내용은 PHP 중국어 웹사이트의 기타 관련 기사를 참조하세요!