>  기사  >  기술 주변기기  >  개발자들이 미친 듯이 웃고 있어요! LLaMa의 충격적인 유출로 인해 ChatGPT 교체 열풍이 촉발되었고, 오픈 소스 LLM 분야도 바뀌었습니다.

개발자들이 미친 듯이 웃고 있어요! LLaMa의 충격적인 유출로 인해 ChatGPT 교체 열풍이 촉발되었고, 오픈 소스 LLM 분야도 바뀌었습니다.

王林
王林앞으로
2023-04-12 23:40:061097검색

예기치 않은 LLaMA 유출이 오픈 소스 LLM 분야에서 가장 큰 혁신의 불꽃을 촉발할 것이라고 누가 생각이나 했을까요?

뛰어난 ChatGPT 오픈 소스 대안 시리즈인 "Alpaca Family"가 눈부신 방식으로 등장했습니다.

오픈 소스와 API 기반 배포 간의 마찰은 생성 AI 생태계에서 가장 시급한 모순 중 하나입니다.

텍스트-이미지 공간에서 Stable Diffusion의 출시는 오픈 소스가 기본 모델에 대한 실행 가능한 배포 메커니즘임을 분명히 보여줍니다.

그러나 대규모 언어 모델 분야에서는 그렇지 않습니다. GPT-4, Claude 및 Cohere와 같은 모델과 같은 이 분야의 가장 큰 혁신은 API를 통해서만 가능합니다.

이러한 모델에 대한 오픈 소스 대안은 특히 인간의 지시를 따르는 능력에서 동일한 수준의 성능을 보여주지 않습니다. 그러나 예상치 못한 유출로 인해 상황이 완전히 바뀌었습니다.

LLaMA의 "Epic" 유출

몇 주 전 Meta AI는 대형 언어 모델 LLaMA를 출시했습니다.

LLaMA에는 7B, 13B, 33B 및 65B 매개변수를 포함한 다양한 버전이 있지만 GPT-3보다 작지만 많은 작업에서 GPT-3의 성능과 경쟁할 수 있습니다.

LLaMA는 처음에는 오픈 소스가 아니었지만 출시 일주일 후 갑자기 4chan에서 모델이 유출되어 수천 건의 다운로드가 발생했습니다.

이 사건은 대규모 언어 모델 분야에서 끝없는 혁신의 원천이 되었기 때문에 "서사시적인 유출"이라고 부를 수 있습니다.

단 몇 주 만에 이를 기반으로 한 LLM 에이전트의 혁신이 폭발적으로 나타났습니다.

Alpaca, Vicuna, Koala, ChatLLaMA, FreedomGPT, ColossalChat... 이 "알파카 가족" 폭발이 어떻게 탄생했는지 검토해 보겠습니다.

알파카 3월 중순, 스탠포드에서 출시한 대형 모델 알파카가 인기를 끌었습니다.

Alpaca는 Meta의 LLaMA 7B를 미세 조정한 새로운 모델로 52k 데이터만 사용하며 성능은 GPT-3.5와 거의 같습니다.

핵심은 교육 비용이 600달러 미만으로 매우 저렴하다는 것입니다.

스탠포드 연구원들은 GPT-3.5(text-davinci-003)와 Alpaca 7B를 비교한 결과 두 모델의 성능이 매우 유사하다는 사실을 발견했습니다. 알파카는 GPT-3.5를 상대로 90대 89로 승리했습니다.

스탠포드 팀의 경우 예산 내에서 고품질 지침 따르기 모델을 훈련하려면 두 가지 중요한 과제에 직면해야 합니다. 즉, 강력한 사전 훈련된 언어 모델을 갖는 것과 고품질 지침입니다. .

정확히, 학계 연구자들에게 제공되는 LLaMA 모델은 첫 번째 문제를 해결했습니다.

두 번째 도전에서는 "Self-Instruct: Aligning Language Model with Self-Generated Instructions"라는 논문이 좋은 영감을 주었습니다. 즉, 기존의 강력한 언어 모델을 사용하여 자동으로 명령어 데이터를 생성하는 것입니다.

LLaMA 모델의 가장 큰 약점은 지침 미세 조정이 부족하다는 것입니다. OpenAI의 가장 큰 혁신 중 하나는 GPT-3에서 명령어 튜닝을 사용하는 것입니다.

이와 관련하여 Stanford는 기존의 대규모 언어 모델을 사용하여 다음 지침의 데모를 자동으로 생성했습니다.

이제 알파카는 네티즌들 사이에서 '대형 텍스트 모델의 안정적인 확산'으로 직접 평가받고 있습니다.

Vicuna 3월 말, UC Berkeley, Carnegie Mellon University, Stanford University 및 UC San Diego의 연구원들은 GPT-4의 성능에 맞춰 미세 조정된 LLaMA 버전인 Vicuna를 오픈 소스로 공개했습니다.

130억 개의 매개변수인 Vicuna는 ShareGPT에서 수집한 사용자 공유 대화에 대해 LLaMA를 미세 조정하여 훈련되었습니다. 훈련 비용은 거의 US$300입니다.

결과에 따르면 Vicuna-13B는 90% 이상의 경우에서 ChatGPT 및 Bard와 유사한 기능을 달성하는 것으로 나타났습니다.

개발자들이 미친 듯이 웃고 있어요! LLaMa의 충격적인 유출로 인해 ChatGPT 교체 열풍이 촉발되었고, 오픈 소스 LLM 분야도 바뀌었습니다.

Vicuna-13B 훈련 과정의 세부 내용은 다음과 같습니다.

먼저, 연구원들은 ChatGPT 대화 공유 웹사이트 ShareGPT에서 약 70,000개의 대화를 수집했습니다.

다음으로 연구원들은 Alpaca가 제공하는 훈련 스크립트를 최적화하여 모델이 여러 라운드의 대화와 긴 시퀀스를 더 잘 처리할 수 있도록 했습니다. 그런 다음 PyTorch FSDP를 하루 동안 A100 GPU 8개로 훈련하는 데 사용했습니다.

모델 품질 평가 측면에서 연구원들은 80개의 다양한 질문을 만들고 GPT-4를 사용하여 모델 출력을 평가했습니다.

다양한 모델을 비교하기 위해 연구원들은 각 모델의 출력을 단일 프롬프트로 결합한 다음 GPT-4에서 어떤 모델이 더 나은 답변을 제공하는지 평가하도록 했습니다.

개발자들이 미친 듯이 웃고 있어요! LLaMa의 충격적인 유출로 인해 ChatGPT 교체 열풍이 촉발되었고, 오픈 소스 LLM 분야도 바뀌었습니다.

LLaMA, Alpaca, Vicuna 및 ChatGPT 비교

Koala

최근 UC Berkeley AI Research Institute(BAIR)에서 신형 'Koala'를 출시했는데, 기존 용도와 비교 OpenAI의 명령 미세 조정용 GPT 데이터 중 Koala는 네트워크에서 얻은 고품질 데이터를 훈련에 사용한다는 점에서 다릅니다.

연구 결과에 따르면 Koala는 다양한 사용자 쿼리에 효과적으로 응답하여 종종 Alpaca보다 더 인기 있는 답변을 생성하고 절반의 경우 최소한 ChatGPT만큼 효과적인 답변을 생성할 수 있는 것으로 나타났습니다.

연구원들은 이 실험의 결과가 대규모 비공개 소스 모델과 소규모 공개 모델의 상대적 성능에 대한 논의를 더욱 심화시킬 수 있기를 바랍니다. 특히 신중하게 수집할 경우 로컬에서 실행할 수 있는 소규모 모델의 경우 결과가 나타났기 때문입니다. 훈련 데이터는 대규모 모델의 성능을 달성할 수도 있습니다.

개발자들이 미친 듯이 웃고 있어요! LLaMa의 충격적인 유출로 인해 ChatGPT 교체 열풍이 촉발되었고, 오픈 소스 LLM 분야도 바뀌었습니다.

실제로 스탠포드 대학에서 이전에 발표한 Alpaca 모델과 OpenAI의 GPT 모델을 기반으로 LLaMA 데이터를 미세 조정한 실험 결과를 통해 올바른 데이터가 더 작은 오픈 소스 모델을 크게 향상시킬 수 있음을 보여주었습니다.

이것은 토론 결과에 대한 또 다른 실험적 증거를 제공하기를 바라며 코알라 모델을 개발하고 출시하려는 버클리 연구원의 원래 의도이기도 합니다.

Koala는 인터넷에서 얻은 무료 상호 작용 데이터를 미세 조정하고 ChatGPT와 같은 고성능 비공개 소스 모델과 상호 작용하는 데이터를 포함하는 데 특별한 주의를 기울입니다.

연구원들은 데이터 양을 극대화하기 위해 최대한 많은 네트워크 데이터를 크롤링하는 것을 추구하지 않았으며 ChatGPT 증류 데이터, 오픈 소스 데이터 등을 포함한 소규모 고품질 데이터 세트 수집에 중점을 두었습니다.

ChatLLaMA

Nebuly는 자체 데이터를 사용하여 대화 도우미를 만들 수 있는 프레임워크인 오픈 소스 ChatLLaMA를 보유하고 있습니다.

ChatLLaMA를 사용하면 자체 데이터와 가능한 한 적은 계산을 사용하여 초개인화 ChatGPT와 같은 도우미를 만들 수 있습니다.

미래에는 더 이상 "모든 사람을 지배하는" 하나의 대형 비서에 의존하지 않고 모든 사람이 다양한 인간 요구를 지원할 수 있는 ChatGPT 도우미의 개인화된 버전을 만들 수 있다고 가정합니다.

그러나 이러한 개인화된 어시스턴트를 만들려면 데이터 세트 생성, RLHF를 사용한 효율적인 교육, 추론 최적화 등 여러 측면에서 노력이 필요합니다.

이 라이브러리의 목적은 대량의 데이터를 최적화하고 수집하는 데 필요한 작업을 추상화하여 개발자에게 마음의 평화를 제공하는 것입니다.

ChatLLaMA는 개발자가 RLHF 교육 및 최적화된 추론과 관련된 다양한 사용 사례를 처리할 수 있도록 설계되었습니다. 참고할 수 있는 몇 가지 사용 사례는 다음과 같습니다.

  • 수직 특정 작업(법률, 의료, 게임, 학술 연구 등)을 위한 ChatGPT와 같은 개인화된 비서를 만듭니다.
  • 로컬에 대한 제한된 데이터로 작업하고 싶습니다. 하드웨어 인프라, 효율적인 ChatGPT와 같은 도우미 교육
  • 비용 관리를 피하면서 나만의 ChatGPT와 같은 도우미 버전을 만들고 싶습니다.
  • 어떤 모델 아키텍처(LLaMA, OPT, GPTJ, 등) 나에게 가장 적합합니다. 하드웨어, 컴퓨팅 예산 및 성능 측면에서 요구사항
  • 어시스턴트를 내 개인/회사 가치, 문화, 브랜드 및 선언문에 맞추고 싶습니다.

FreedomGPT

Electron과 React를 사용하여 구축된 FreedomGPT는 사용자가 로컬 컴퓨터에서 LLaMA를 실행할 수 있는 데스크톱 애플리케이션입니다.

FreedomGPT의 기능은 이름에서 분명하게 드러납니다. 즉, 답변하는 질문에는 검열이나 보안 필터링이 적용되지 않습니다.

이 앱은 AI 벤처캐피털 회사인 Age of AI에서 개발했습니다.

FreedomGPT는 알파카를 기반으로 제작되었습니다. FreedomGPT는 Alpaca의 독특한 기능을 사용합니다. Alpaca는 다른 모델보다 액세스 및 사용자 정의가 상대적으로 쉽기 때문입니다.

ChatGPT는 OpenAI의 사용 정책을 따르며 증오, 자해, 위협, 폭력 및 성적인 콘텐츠를 제한합니다.

ChatGPT와 달리 FreedomGPT는 편견이나 편애 없이 질문에 답변하며 논쟁의 여지가 있거나 논쟁의 여지가 있는 주제에 주저하지 않고 답변합니다.

​FreedomGPT는 OpenAI가 GPT-4에서 특별히 제거한 "집에서 폭탄을 만드는 방법"에 대해서도 답변했습니다.

FreedomGPT는 검열 제한을 극복하고 어떠한 보장도 없이 논쟁의 여지가 있는 주제를 제공한다는 점에서 독특합니다. 이 독특하고 대담한 대형 언어 모델은 자유를 상징하기 때문에 그 상징은 자유의 여신상입니다.

FreedomGPT는 인터넷 연결 없이도 컴퓨터에서 로컬로 실행할 수 있습니다.

또한 오픈 소스 버전이 곧 출시되어 사용자와 조직의 완전한 맞춤화가 가능합니다.

ColossalChat

UC Berkeley에서 제안한 ColossalChat은 중국어와 영어의 이중 언어 기능을 달성하기 위해 100억 개 미만의 매개변수만 필요하며 그 효과는 ChatGPT 및 GPT-3.5와 동일합니다.

또한 LLaMA 모델을 기반으로 하는 ColossalChat은 현재 ChatGPT의 원래 기술 경로에 가장 가까운 오픈 소스 프로젝트인 완전한 RLHF 프로세스도 재현합니다.

중국어-영어 이중 언어 훈련 데이터 세트

ColossalChat은 약 100,000개의 중국어 및 영어 질문과 답변 쌍이 포함된 이중 언어 데이터 세트를 출시했습니다.

이 데이터 세트는 소셜 미디어 플랫폼의 실제 문제 시나리오에서 시드 데이터 세트로 수집 및 정리되고 self-instruct를 사용하여 확장되며 주석 비용은 약 $900입니다.

다른 자가 학습 방법으로 생성된 데이터 세트에 비해 이 데이터 세트에는 더 넓은 범위의 주제를 다루는 더 현실적이고 다양한 시드 데이터가 포함되어 있습니다.

이 데이터 세트는 미세 조정 및 RLHF 교육에 적합합니다. ColossalChat은 고품질 데이터를 제공할 때 더 나은 대화 상호 작용을 달성할 수 있으며 중국어도 지원합니다.

RLHF 파이프라인 완성

RLHF의 알고리즘 복제에는 세 가지 단계가 있습니다.

RLHF-Stage1에서 위의 이중 언어 데이터 세트는 지도 명령 미세 조정에 사용됩니다. 모델.

RLHF-Stage2에서 보상 모델은 동일한 프롬프트의 다양한 출력에 수동으로 순위를 지정하여 해당 점수를 할당한 다음 보상 모델의 훈련을 감독하는 방식으로 훈련됩니다.

RLHF-Stage3에서는 훈련 과정에서 가장 복잡한 부분인 강화 학습 알고리즘이 사용됩니다.

곧 더 많은 프로젝트가 출시될 것이라고 믿습니다.

이 예상치 못한 LLaMA 유출이 실제로 오픈 소스 LLM 분야에서 가장 큰 혁신의 불꽃을 촉발할 것이라고 예상한 사람은 아무도 없었습니다.

위 내용은 개발자들이 미친 듯이 웃고 있어요! LLaMa의 충격적인 유출로 인해 ChatGPT 교체 열풍이 촉발되었고, 오픈 소스 LLM 분야도 바뀌었습니다.의 상세 내용입니다. 자세한 내용은 PHP 중국어 웹사이트의 기타 관련 기사를 참조하세요!

성명:
이 기사는 51cto.com에서 복제됩니다. 침해가 있는 경우 admin@php.cn으로 문의하시기 바랍니다. 삭제