대규모 언어 모델이 점점 더 강력해짐에 따라 사람들은 AI 모델에 대해 더 높은 윤리적 요구 사항을 제시했습니다. 업계는 모델 규모 확장 측면에서 컴퓨팅 자원의 이점을 갖고 있지만, 모델을 보다 표준화되고 신뢰성 있게 만드는 데는 학계의 노력이 필요합니다.
최근 Stanford에서는 Meta의 LLaMA 7B 모델을 기반으로 새로운 모델 Alpaca를 미세 조정했습니다. 본 연구에서는 OpenAI의 text-davinci-003 모델을 사용하여 Alpaca에 대한 훈련 데이터로 Self-Instruct 방식으로 52K개의 지시 따르기 샘플을 생성했습니다. 연구팀은 훈련 데이터와 훈련 데이터를 생성하는 코드, 하이퍼파라미터를 오픈소스화했으며, 향후 모델 가중치와 훈련 코드를 공개할 예정이다.
실험 결과 알파카의 많은 행동이 text-davinci-003과 유사한 것으로 나타났습니다. 즉, 매개변수가 7B에 불과한 경량 모델인 알파카의 성능은 GPT-3.5 등 초대형 언어 모델과 맞먹는다.
알파카 모델이 어떻게 작동하는지 살펴보겠습니다.
학계의 예산 제약 내에서 고품질 지시 따르기 모델을 훈련하는 것은 두 가지 중요한 과제에 직면합니다. 강력한 사전 훈련된 언어 모델과 고품질 지시 따르기 데이터입니다.
Meta가 최근 출시한 LLaMA 모델 시리즈는 첫 번째 과제를 해결합니다. 두 번째 과제로 2022년 말 자체 학습 논문에서는 기존의 강력한 언어 모델을 사용하여 자동으로 명령어 데이터를 생성하는 방법을 제안합니다.
논문 주소: https://arxiv.org/abs/2212.10560
이 접근 방식에 따라 Alpaca는 text-davin에서 LLaMA 7B 모델의 지도 학습을 사용합니다. ci-003 자체 명령 방식으로 생성된 52K 명령은 샘플을 기반으로 미세 조정됩니다.
Self-instruct 방법 개요.
Alpaca 연구팀은 먼저 자체 지시 시드 세트에서 수동으로 작성된 175개의 명령-출력 쌍을 사용한 다음 이 시드 세트를 상황 내 샘플 프롬프트 text-davinci-003으로 사용하여 더 많은 명령을 생성했습니다. 이 연구는 빌드 파이프라인을 단순화하여 자체 지시 방법을 개선하고 비용을 크게 절감합니다.
이 연구에서는 $500 미만의 비용으로 OpenAI의 개방형 API를 사용하여 총 52,000개의 다양한 지침과 해당 출력을 교육 데이터로 생성했습니다. 연구팀이 훈련 데이터를 오픈소스로 만들었기 때문에 알파카를 재현하려는 개발자는 500달러를 절약할 수 있습니다.
이 지시 따르기 데이터 세트를 사용하여 연구의 다음 단계는 Hugging Face의 훈련 프레임워크를 사용하고 FSDP(완전 샤딩 데이터 병렬) 및 혼합 정밀도와 같은 기술을 활용하여 LLaMA 모델을 미세 조정하는 것이었습니다. 훈련. 비용 측면에서 볼 때 80GB A100 8개에서 70억 LLaMA 모델을 미세 조정하는 데는 3시간이 소요되며, 이는 대부분의 클라우드 제공업체에서 100달러 미만의 비용이 듭니다.
이 연구는 연구팀의 5명의 학생이 수행한 자가 학습 평가 세트의 입력을 사용하여 수동으로 평가되었습니다. 평가 세트는 자가 학습 논문의 저자가 수집했으며 이메일, 소셜 미디어 및 사무 도구와 관련된 다양한 사용자 중심 지침을 다룹니다.
text-davinci-003과 Alpaca 7B를 맹목적으로 쌍으로 비교한 결과, 연구원들은 두 모델의 성능이 매우 유사하며 Alpaca가 text-davinci-003보다 약간 더 우수하다는 것을 발견했습니다.
매개변수 규모의 관점에서 볼 때 Alpaca는 text-davinci-003보다 훨씬 작으며 모바일 단말기는 7B 경량 언어 모델도 실행할 수 있습니다. 이것이 알파카를 중요하게 만듭니다.
위에서 언급한 정적 self-instruct 평가 세트를 활용하는 것 외에도 본 연구에서는 Alpaca 모델에 대한 대화형 테스트도 수행한 결과 Alpaca가 일반적으로 text-davinci-003과 유사한 성능을 보이는 것으로 나타났습니다.
아래는 연구팀이 테스트한 두 가지 예입니다. 결과는 Alpaca의 출력이 좋고 데이터 세트를 따르는 명령의 일반적인 스타일을 반영한다는 것을 보여줍니다. 예를 들어 Alpaca는 일반적으로 text-davinci-003과 유사하게 ChatGPT보다 더 간결한 답변을 출력합니다.
실험에서 알파카는 환각, 독성, 고정관념 등 언어 모델의 몇 가지 일반적인 결함도 보여줬는데, 그중 환각 문제가 특히 심각합니다.
예를 들어 아래 사진에서 알파카는 탄자니아의 수도가 다르에스살람이라고 대답했는데 실제로는 도도마여야 합니다.
또한 알파카는 겉으로는 괜찮아 보이지만 사람들을 오해할 수 있는 오류나 잘못된 정보가 포함된 일부 텍스트를 생성할 수 있습니다.
Alpaca에는 기본 언어 모델 및 명령어 튜닝 데이터와 관련된 다른 많은 결함이 포함될 수 있습니다. 그러나 Alpaca는 중요한 결함을 연구하기 위한 기초 역할을 할 수 있는 상대적으로 가벼운 모델을 제공하기 때문에 기계 학습 커뮤니티에서 여전히 중요합니다. 스탠포드 연구팀도 알파카는 학문적 연구에만 사용될 수 있으며 어떠한 상업적인 이용도 금지되어 있음을 강조했다.
다음으로 스탠포드 연구팀은 알파카 모델의 보안성, 이해력, 규모 확장 등에 대해 더 탐구할 예정이다. 연구팀은 알파카가 지시 따르기 모델의 개발을 촉진할 것으로 기대하고 있습니다.
위 내용은 스탠포드의 70억 매개변수 오픈 소스 모델은 GPT-3.5와 비슷하며 100달러에 재현 가능의 상세 내용입니다. 자세한 내용은 PHP 중국어 웹사이트의 기타 관련 기사를 참조하세요!