>  기사  >  기술 주변기기  >  비용은 100달러 미만입니다! UC Berkeley는 ChatGPT와 유사한 모델 "Koala"를 다시 열었습니다. 대량의 데이터는 쓸모가 없으며 고품질이 왕입니다.

비용은 100달러 미만입니다! UC Berkeley는 ChatGPT와 유사한 모델 "Koala"를 다시 열었습니다. 대량의 데이터는 쓸모가 없으며 고품질이 왕입니다.

WBOY
WBOY앞으로
2023-04-17 19:58:03704검색

ㅋㅋㅋㅋㅋㅋㅋㅋㅋㅋㅋㅋㅋㅋㅋㅋㅋㅋㅋㅋㅋㅋㅋㅋㅋㅋㅋㅋㅋㅋ

Meta 오픈소스 LLaMA 이후 학계의 다양한 카테고리에는 ChatGPT가 있습니다. 모델들이

버섯처럼

생겨나 출시되기 시작했습니다.

먼저 Stanford가 70억 매개변수 Alpaca를 제안한 후 UC Berkeley가 CMU, Stanford, UCSD 및 MBZUAI와 협력하여 130억 매개변수 Vicuna를 출시했는데, 이는 90% 이상의 사례에서 ChatGPT 및 Bard와 비슷한 성능을 달성했습니다. 최근 Berkeley에서는

새로운 모델인 "Koala"

를 출시했습니다. 이전에 OpenAI의 GPT 데이터를 명령어 미세 조정에 사용했던 것과 비교했을 때 Koala의 차이점은

에서 얻은 고품질 데이터를 사용한다는 점입니다. network

기차. ㅋㅋㅋㅋㅋㅋㅋㅋㅋㅋㅋㅋㅋㅋㅋㅋㅋㅋㅋㅋㅋㅋㅋㅋㅋㅋㅋㅋㅋㅋ

블로그 링크: https://bair. berkeley.edu/blog/2023/04/03/koala /데이터 전처리 코드: https://github.com/young-geng/koala_data_pipeline 평가 테스트 세트: https://github.com/arnav-gudibande/koala-test-set 모델 다운로드: https://drive.google . com/drive/folders/10f7wrlAFoPIy-TECHsx9DKIvbQYunCfl게시된 블로그 게시물에서 연구원들은 모델의 데이터세트 관리 및 교육 과정을 설명하는 동시에 해당 모델을 ChatGPT 및 Stanford The University's와 비교한 사용자 연구 결과도 보여줍니다. 알파카 모델을 비교했습니다. 결과에 따르면 Koala는 다양한 사용자 쿼리에 효과적으로 응답할 수 있으며 Alpaca보다 더 인기 있고 최소한 절반의 시간 동안 ChatGPT만큼 효과적인 답변을 생성할 수 있습니다. 연구원들은 이 실험의 결과가 대규모 비공개 소스 모델과 소규모 공개 모델의 상대적 성능에 대한 논의를 더욱 심화시킬 수 있기를 바라고 있습니다. 특히 로컬에서 실행할 수 있는 소규모 모델의 경우 훈련 데이터를 주의 깊게 수집하면 대형 모델의 성능을 얻을 수 있습니다. ​

비용은 100달러 미만입니다! UC Berkeley는 ChatGPT와 유사한 모델 이는 커뮤니티가 단순히 기존 시스템의 크기를 늘리는 것보다 더 안전하고 실용적이며 효율적인 시스템을 구축하는 데 더 도움이 될 수 있는 고품질 데이터 세트를 관리하는 데 더 많은 노력을 투자해야 함을 의미할 수 있습니다. 능력. Koala는 단지 연구 프로토타입일 뿐이라는 점을 강조해야 하며, 연구원들은 모델 출시가 귀중한 커뮤니티 리소스를 제공할 수 있기를 희망하지만 여전히 콘텐츠 보안과 신뢰성에 심각한 결점이 있으므로 연구 영역 외부에서 사용해서는 안 됩니다. 사용.

코알라 시스템 개요

대규모 언어 모델이 출시된 후 가상 비서와 챗봇은 채팅뿐만 아니라 코드 작성, 시 쓰기, 스토리 작성 등의 기능도 더욱 강력해졌습니다. 그러나 가장 강력한 언어 모델은 일반적으로 모델을 교육하기 위해 막대한 컴퓨팅 리소스가 필요하며, 일반 사람들은 기본적으로 스스로 모델을 교육할 수 없는 대규모 전용 ​​데이터 세트도 필요합니다. 즉, 언어 모델은 미래에 소수의 강력한 조직에 의해 제어될 것입니다. 사용자와 연구자는 모델과 상호 작용하기 위해 비용을 지불하고 모델을 수정하거나 개선하기 위해 모델 내부에 직접 접근할 수 없습니다. 반면, 최근 몇 달 동안 일부 조직에서는 Meta의 LLaMA와 같은 비교적 강력한 무료 또는 부분 오픈 소스 모델을 출시했습니다. 이러한 모델의 기능은 ChatGPT와 같은 폐쇄형 모델의 기능과 비교할 수 없습니다. 커뮤니티의 도움으로 빠르게 개선되고 있습니다. ㅋㅋㅋㅋㅋㅋㅋㅋㅋㅋㅋㅋㅋㅋㅋㅋㅋㅋ

오픈 소스 커뮤니티에 압력이 가해지고 있습니다. 미래에는 소수의 비공개 소스 모델을 중심으로 점점 더 많은 통합이 이루어지게 될까요? 아니면 더 작은 모델 아키텍처를 사용하는 더 많은 개방형 모델이 있습니까? 동일한 아키텍처를 사용하는 모델의 성능이 더 큰 비공개 소스 모델의 성능에 접근할 수 있습니까? 개방형 모델은 비공개 소스 모델의 규모와 일치할 가능성이 낮지만 신중하게 선택한 교육 데이터를 사용하면 미세 조정 없이 ChatGPT 성능에 가까워질 수 있습니다. 실제로 스탠포드 대학에서 발표한 Alpaca 모델의 실험 결과와 OpenAI의 GPT 모델을 기반으로 LLaMA 데이터를 미세 조정한 결과, 올바른 데이터가 더 작은 오픈 소스 모델을 크게 향상시킬 수 있다는 사실이 나타났으며, 이는 Berkeley에서도 마찬가지입니다. 코알라 모델을 개발하고 출시하려는 연구자들의 원래 의도는 이 논의 결과에 대한 또 다른 실험적 증거를 제공합니다. Koala는 ChatGPT와 같은 고성능 비공개 소스 모델을 사용하여 상호작용 데이터 에 특히 중점을 두고 웹에서 얻은 무료 상호작용 데이터 를 미세 조정합니다. 연구원들은 웹 및 공개 데이터세트에서 추출한 대화 데이터를 기반으로 LLaMA 기본 모델을 미세 조정했습니다. 여기에는 다른 대규모 언어 모델의 사용자 쿼리에 대한 고품질 응답은 물론 질문 및 답변 데이터세트와 인간 피드백 데이터세트도 포함됩니다. , 이렇게 훈련된 Koala-13B 모델은 기존 모델과 거의 동일한 성능을 보여줍니다. 연구 결과에 따르면 고품질 데이터 세트를 통해 학습하면 소규모 모델의 일부 단점을 완화할 수 있으며 향후 대규모 비공개 소스 모델과 경쟁할 수도 있습니다. 고품질 데이터 세트는 단순히 기존 모델의 크기를 늘리는 것보다 더 안전하고, 더 현실적이며, 더 유능한 모델을 구축하는 데 도움이 됩니다.

연구자들이 코알라 모델의 시스템 시연에 참여하도록 장려함으로써 연구원들은 향후 모델을 평가하는 데 도움이 될 몇 가지 예상치 못한 특징이나 결함을 발견할 수 있기를 바랍니다. 데이터 세트 및 교육

대화 모델 구축의 주요 장애물은 교육 데이터 관리입니다. ChatGPT, Bard, Bing Chat 및 Claude를 포함한 모든 채팅 모델은 광범위한 수동 주석으로 구축된 특수 데이터 세트를 사용합니다.

코알라를 구축하기 위해 연구원들은 웹 및 공개 데이터 세트에서 대화 데이터를 수집하여 훈련 세트를 구성했습니다. 그 중 일부에는 사용자가 ChatGPT와 같은 대규모 언어 모델에 온라인으로 게시한 대화가 포함됩니다.

데이터 양을 최대화하기 위해 가능한 한 많은 웹 데이터를 크롤링하는 대신, 연구원들은 작은 고품질 데이터 세트를 수집하고 공개 데이터 세트를 사용하여 질문에 답변하고 인간의 피드백(긍정적 및 부정적 평가)과 대화에 집중했습니다. 기존 언어 모델. ChatGPT 증류 데이터

ChatGPT(ShareGPT)의 공개 사용자와 대화 공유: ShareGPT에서 사용자가 공유한 약 6만 개의 대화가 공개 API를 사용하여 수집되었습니다.

비용은 100달러 미만입니다! UC Berkeley는 ChatGPT와 유사한 모델

웹사이트 링크: https://sharegpt.com/

연구원들은 데이터 품질을 보장하기 위해 중복된 사용자 쿼리를 제거하고 영어가 아닌 대화를 모두 삭제하여 약 3천 개의 샘플을 남겼습니다.

Human ChatGPT Comparative Corpus(HC3): HC3 영어 데이터세트의 인간 및 ChatGPT 응답 결과를 사용합니다. 여기에는 약 60,000개의 인간 답변과 약 24,000개의 질문에 대한 27,000개의 ChatGPT 답변이 포함되어 총 87,000개의 샘플 질문 및 답변이 생성됩니다. .

오픈 소스 데이터

OIG(Open Instruction Generalist): 초등 수학 교육, 시에서 노래까지, 플롯 스크립트를 포함하여 LAION에서 엄선한 개방형 교육 일반 데이터 세트에서 직접 선택한 구성 요소 하위 세트 사용- book-dialogue 데이터 세트, 총 약 30,000개의 샘플을 얻었습니다.

Stanford Alpaca: Stanford Alpaca 모델을 훈련하는 데 사용되는 데이터세트가 포함되어 있습니다.

이 데이터 세트에는 약 52,000개의 샘플이 포함되어 있으며 자체 지시 프로세스에 따라 OpenAI의 text-davinci-003에 의해 생성되었습니다.

HC3, OIG 및 Alpaca 데이터 세트는 단일 라운드 질문과 답변인 반면 ShareGPT 데이터 세트는 다중 라운드 대화라는 점에 주목할 가치가 있습니다.

Anthropic HH: 모델 출력의 유해성과 유용성에 대한 인간의 평가가 포함되어 있습니다.

이 데이터세트에는 사람이 평가한 약 160,000개의 예가 포함되어 있습니다. 각 예는 챗봇의 응답 쌍으로 구성되며 그 중 하나는 사람이 선호하는 것입니다. 이 데이터세트는 모델에 기능과 추가 안전 보호를 제공합니다.

OpenAI WebGPT: 이 데이터 세트에는 총 약 20,000개의 비교가 포함되어 있습니다. 각 예에는 질문, 한 쌍의 모델 답변 및 메타데이터가 포함되어 있으며 답변은 선호도에 따라 사람이 채점합니다.

OpenAI 요약: 모델 생성 요약에 대한 인간의 피드백이 포함된 약 93,000개의 예가 포함되어 있으며, 인간 평가자는 두 가지 옵션 중에서 더 나은 요약 결과를 선택합니다.

오픈 소스 데이터 세트를 사용할 때 일부 데이터 세트는 좋음 또는 나쁨 등급에 해당하는 두 가지 응답을 제공할 수 있습니다(AnthropicHH, WebGPT, OpenAI 요약).

이전 연구 결과에서는 인간의 선호도 레이블(유용함/무용함)에 대한 조건부 언어 모델의 효과를 입증하여 성능을 향상시켰습니다. 여기서 연구자들은 인간의 피드백 없이 긍정적인 피드백을 사용하여 선호도 레이블을 기반으로 모델을 긍정적 또는 부정적 레이블에 배치했습니다. 데이터세트의 라벨입니다. 평가 단계에서는 긍정적인 태그를 포함하도록 프롬프트가 작성됩니다.

Koala는 JAX/Flax를 사용하여 구현된 오픈 소스 프레임워크 EasyLM(사전 훈련, 미세 조정, 제공 및 평가)을 기반으로 하며 훈련 장비는 Nvidia DGX 서버 및 8 A100입니다. 6시간의 훈련이 필요한 GPU 2개의 에포크를 완료하세요.

퍼블릭 클라우드 컴퓨팅 플랫폼에서 예상 교육 비용은 $100를 넘지 않습니다.

사전 평가

실험에서 연구진은 증류된 데이터만 사용하는 Koala-Distill과 증류된 데이터와 오픈 소스 데이터를 포함한 모든 데이터를 사용하는 Koala-All의 두 가지 모델을 평가했습니다.

실험의 목적은 모델의 성능을 비교하고 증류 및 오픈 소스 데이터세트가 최종 모델 성능에 미치는 영향을 평가하는 것입니다. Koala 모델에 대한 인간 평가를 수행하고 Koala-All과 Koala-Distill을 비교합니다. 알파카와 ChatGPT.

비용은 100달러 미만입니다! UC Berkeley는 ChatGPT와 유사한 모델

실험의 테스트 세트는 스탠포드의 알파카 테스트 세트와 코알라 테스트 세트로 구성되어 있으며, 180개의 테스트 쿼리가 포함되어 있습니다

Alpaca 테스트 세트는 자체 구조 데이터 세트에서 샘플링된 사용자 프롬프트로 구성되며 보다 현실적인 평가 프로토콜을 제공하기 위해 Alpaca 모델의 분산 데이터를 나타냅니다. Koala 테스트 세트에는 온라인에 게시된 180개의 실제 사용자 쿼리가 포함되어 있습니다. 일반적으로 대화형 주제는 채팅 시스템을 기반으로 한 실제 사용 사례를 더 잘 대표하며, 테스트 세트 누출 가능성을 줄이기 위해 BLEU 점수가 20%보다 큰 쿼리는 최종적으로 훈련 세트에서 필터링됩니다.

또한 연구진은 영어에 능숙한 팀이기 때문에 보다 신뢰할 수 있는 주석 결과를 제공하기 위해 영어가 아닌 언어 및 인코딩 관련 프롬프트를 제거했으며, 최종적으로 Amazon 크라우드소싱 플랫폼에서 약 100명의 주석자를 대상으로 블라인드 테스트를 실시했습니다. 테스트를 위해 각 평가자에게는 채점 인터페이스에서 입력 프롬프트와 두 모델의 출력이 제공되고 응답 품질 및 정확성과 관련된 기준을 사용하여 어떤 출력이 더 나은지(동일하게 좋음을 허용) 판단하도록 요청됩니다.

Alpaca 테스트 세트에서 Koala-All은 Alpaca와 동등한 성능을 발휘합니다.

실제 사용자 쿼리가 포함된 Koala 테스트 세트에서 Koala-All은 샘플의 거의 절반에서 Alpaca보다 우수하고 70%의 경우에서 Alpaca를 능가하거나 동등하게 우수합니다. 그 중 확실히 a Koala training set 그 이유는 테스트 세트가 더 유사하기 때문이므로 이 결과는 특별히 놀라운 것은 아닙니다.

그러나 이러한 힌트가 해당 모델의 다운스트림 사용 사례와 더 유사하다면 Koala는 어시스턴트와 같은 애플리케이션에서 더 나은 성능을 발휘할 것이며 웹에 게시된 예제를 사용하여 언어 모델과 상호 작용하는 것이 가장 좋다는 것을 의미합니다. 효과적인 명령 실행 기능을 위한 효과적인 전략을 모델링하는 방법입니다.

더 놀라운 점은 연구원들이 증류 데이터(Koala-All) 외에도 오픈 소스 데이터에 대한 훈련이 ChatGPT 증류 데이터(Koala-Distill)에 대한 훈련보다 약간 더 나쁜 성능을 발휘한다는 사실을 발견했다는 것입니다.

차이가 크지 않을 수도 있지만, 이 결과는 ChatGPT 대화의 품질이 너무 높아 오픈 소스 데이터를 두 배로 포함해도 크게 개선되지 않는다는 것을 보여줍니다.

초기 가설은 Koala-All이 더 잘 수행되어야 한다는 것이었기 때문에 모든 평가에서 Koala-All을 주요 평가 모델로 사용하였고, 궁극적으로 이러한 프롬프트가 테스트 단계에서 사용자의 다양성을 나타낼 수 있는 한 모델.

따라서 강력한 대화 패턴을 구축하는 열쇠는 단순히 기존 데이터 세트를 질문과 답변으로 다시 포맷하는 것이 아니라 사용자 쿼리 측면에서 다양한 고품질 대화 데이터를 관리하는 데 더 있을 수 있습니다.

제한 사항 및 안전

다른 언어 모델과 마찬가지로 Koala에도 잘못 사용하면 사용자에게 해를 끼칠 수 있는 제한 사항이 있습니다.

연구원들은 코알라가 매우 자신감 있는 어조로 환각을 일으키고 비사실적으로 반응하는 것을 관찰했는데, 이는 아마도 대화의 미세 조정의 결과일 것입니다. 즉, 더 작은 모델이 더 큰 언어 모델인 자신감 있는 스타일의 유산을 물려받았기 때문일 것입니다. 동일한 수준으로 계승되지 않았다는 사실은 향후 개선에 중점을 둘 필요가 있습니다.

코알라의 유령 답글을 잘못 사용하면 잘못된 정보, 스팸 및 기타 콘텐츠의 확산을 촉진할 수 있습니다.

비용은 100달러 미만입니다! UC Berkeley는 ChatGPT와 유사한 모델

Koala는 자신감 있고 설득력 있는 어조로 부정확한 정보를 환각할 수 있습니다. 환각 외에도 Koala는 다른 챗봇 언어 모델에 비해 부족합니다. 여기에는 다음이 포함됩니다:

  • 편향 및 고정관념인상: 모델은 고정관념, 차별 및 기타 피해를 포함하여 편향된 훈련 대화 데이터를 상속합니다.
  • 상식 부족: 대규모 언어 모델은 일관되고 문법적으로 올바른 텍스트를 생성할 수 있지만 사람들이 당연하게 여기는 상식 지식이 부족하여 터무니없거나 부적절한 반응으로 이어질 수 있는 경우가 많습니다. 제한된 이해
  • : 대규모 언어 모델은 대화의 맥락과 뉘앙스를 이해하는 것뿐만 아니라 오해로 이어질 수 있는 풍자나 아이러니를 식별하는 데 어려움을 겪을 수 있습니다. Koala의 보안 문제를 해결하기 위해 연구원들은 ShareGPT 및 AnthropicHH의 데이터 세트에 적대적인 힌트를 포함하여 모델을 더욱 강력하고 무해하게 만들었습니다.

남용 가능성을 더욱 줄이기 위해 OpenAI의 콘텐츠 조정 필터도 데모에 배포되어 안전하지 않은 콘텐츠를 표시하고 제거했습니다.

미래 작업

연구원들은 Koala 모델이 대규모 언어 모델에 대한 향후 학술 연구에 유용한 플랫폼이 될 수 있기를 희망합니다. 모델은 충분히 작으면서도 현대 언어 모델의 많은 기능을 보여줄 만큼 충분히 큽니다. 더 적은 계산을 사용하기 위해 미세 조정 또는 사용을 위해 향후 연구 방향에는 다음이 포함될 수 있습니다.

안전성 및 일관성
  • : 언어 모델의 보안과 인간 의도와의 더 나은 일관성에 대한 추가 연구. 모델 편향
  • 참조: 대규모 언어 모델의 편향, 대화 데이터세트의 허위 상관 관계 및 품질 문제 존재, 그리고 이러한 편향을 완화하는 방법을 더 잘 이해합니다. 대규모 언어 모델 이해
  • 모델: 코알라의 추론은 상대적으로 저렴한 GPU에서 수행될 수 있기 때문에 대화형 언어 모델의 내부를 더 잘 검사하고 이해할 수 있어 블랙박스 언어 모델을 더 효율적으로 만들 수 있습니다. 이해하기 쉬운.

위 내용은 비용은 100달러 미만입니다! UC Berkeley는 ChatGPT와 유사한 모델 "Koala"를 다시 열었습니다. 대량의 데이터는 쓸모가 없으며 고품질이 왕입니다.의 상세 내용입니다. 자세한 내용은 PHP 중국어 웹사이트의 기타 관련 기사를 참조하세요!

성명:
이 기사는 51cto.com에서 복제됩니다. 침해가 있는 경우 admin@php.cn으로 문의하시기 바랍니다. 삭제