이전 OpenAI가 공개되지 않은 사건은 대중들 사이에서 많은 논란을 불러일으켰습니다.
교육 데이터, 비용, 방법을 제공하지 않고 벤치마크와 테스트 결과만 공개하는 것은 실제로 "승자가 모든 것을 차지하는" 상황입니다.
대규모 언어 모델이 거대 회사에 의해 독점되는 것처럼 보이는 것을 보고 갑자기 한 스타트업 회사가 등장하여 OpenAI에 60억 개의 매개변수가 있는 "Dolly"를 사용하여 ChatGPT와 유사한 기능을 달성하는 기회를 주었습니다.
맞습니다. 이제 고품질 교육 데이터만 준비한 다음 대규모 오픈 소스 언어 모델을 무작위로 선택하면 30분의 교육 후에 ChatGPT "대체"를 얻을 수 있습니다!
이와 관련하여 Databricks는 Dolly의 출시가 인공 지능 기술의 민주화를 향한 첫 걸음이라고 자랑스럽게 밝혔습니다.
ChatGPT는 많은 데이터와 컴퓨팅 리소스를 소비하기 때문에(수조 개의 단어를 사용하는 학습에는 많은 GPU가 소비됩니다) 이러한 유형의 대규모 언어 모델은 소수의 거인만이 마스터할 수 있습니다.
"CloseAI"와 달리 Meta는 올해 3월에 고품질(명령을 따르지는 않는) 언어 모델 LLaMA 세트를 학계에 출시했으며 각 모델의 훈련 시간은 80,000 GPU 시간을 초과했습니다.
스탠포드 대학은 LLaMA를 기반으로 알파카를 만들었지만, 50,000개의 질문과 답변이라는 작은 데이터 세트를 사용하여 미세 조정했다는 것이 차이점이었습니다. 놀랍게도 이는 ChatGPT와 유사한 Alpaca 상호 작용을 제공합니다.
그리고 Dolly는 알파카에서 영감을 얻었습니다.
더욱 흥미로운 점은 60억 개의 매개변수를 보유한 Dolly가 최신 모델을 사용하지 않고 2021-GPT-J에 출시되는 오픈소스 모델을 선택했다는 점입니다.
Dolly 자체가 모델의 '클론'이기 때문에 팀은 마침내 이름을 역사상 최초의 복제 동물인 'Dolly'로 결정했습니다.
현재의 대규모 언어 모델(예: GPT-3)과 비교하여 Dolly를 사용하면 사용자는 더 작고 더 전문적인 모델을 사용하여 ChatGPT의 기능을 "복제"할 수 있습니다.
결국, 틈새 사용자의 경우 업계에 맞게 미세 조정된 모델을 활용할 수 있으면 성능과 정확성이 크게 향상될 수 있습니다.
Databricks가 OpenAI와 직접 경쟁하지는 않지만, ChatGPT와 같은 서비스를 구축하는 것이 생각보다 어렵지 않다는 것을 증명하여 OpenAI의 천둥을 훔치려는 것 같습니다.
특히 OpenAI는 언어 모델 개발에 "클수록 좋다"는 접근 방식을 취했으며 작업에 대해 점점 더 비밀스러워졌습니다.
Dolly를 오픈 소스 소프트웨어로 출시하는 것 외에도 Databricks는 Dolly에는 60억 개의 매개변수(훈련 중에 미세 조정되는 언어 모델 부분)만 있는 반면 OpenAI의 GPT-3 모델에는 1,750억 개의 매개변수가 있다고 강조했습니다. . (OpenAI는 GPT-4의 매개변수 수를 공개하지 않았습니다.)
InstructGPT 논문에 설명된 지시 따르기 능력을 바탕으로 Dolly는 평가를 통해 텍스트 생성, 브레인스토밍, 개방형 질문과 답변.
이 예제에서 주목할만한 점은 생성된 텍스트의 품질이 아니라 소규모 고품질 데이터 세트에서 오래된 오픈 소스 모델을 미세 조정하여 지침 추종 능력이 크게 향상되었다는 것입니다.
예를 들어 Databricks의 대규모 언어 모델 Dolly의 공식 발표에 대한 트윗을 작성해 보세요.
원래 60억 매개변수 모델(GPT-J)에 의해 생성된 콘텐츠가 완전히 일관성이 없는 반면 Dolly는 완전히 사용 가능한 트윗을 제공한 것을 볼 수 있습니다. -
콘텐츠가 요구 사항과 일치할 뿐만 아니라 게시물에 참여하도록 상기시키기 위해 신중하게 태그와 링크를 추가했습니다.
이 질문에 대해 ChatGPT에서 제공한 답변도 Dolly에 비해 ChatGPT에서 제공한 트윗에 설명적인 단어와 문구가 더 많이 포함되어 있고 레이블이 더 정확하고 구체적이지만 전체적으로는 일치합니다. 작은 차이.
Nikon D-750 카메라를 판매하기 위한 광고를 작성하려고 할 때 GPT-J에서 생성된 콘텐츠는 기본적으로 카메라 사고 파는 것에 대한 소설을 쓰는 것과 같이 무작위로 구성되는 것을 볼 수 있습니다. . 줄거리...
그리고 Dolly는 Nikon D-750 카메라의 특성과 장점을 바탕으로 매력적인 카메라 재판매 슬로건을 내놓았는데 아쉽게도 픽셀 매개 변수가 잘못되었습니다.
ChatGPT도 이 질문에 대한 작업을 성공적으로 완료했습니다. 광고 슬로건은 이 카메라의 장점을 강조하고 있으며 기사 끝에 라벨이 신중하게 추가되었습니다.
마지막 질문: 에드가 앨런 포에게 책을 써주세요.
이와 관련하여 고대 GPT-J는 직접 답변을 거부했습니다. 그 이유는 Edgar Allan Poe가 세상을 떠났고 죽은 자에게 연애 편지를 쓸 수 없다는 것입니다.
그리고 Dolly는 작업을 성공적으로 완료했으며 그 효과는 이에 비하면 "열반"이라고 할 수 있습니다.
그리고 이런 '창의적인' 문제는 확실히 ChatGPT의 강점입니다. 300단어 이상을 설득력 있게 썼어요.
실제 질문 Q&A 테스트에서 팀은 "핵분열과 핵융합의 차이점을 설명해주세요."를 선택했습니다.
신경 쓰지 마세요. , GPT-J의 전체 기사에는 "융합"이라는 단어가 언급되어 있지만 "핵분열"은 완전히 무시됩니다.
그리고 Dolly는 첫 번째 문장에서 핵분열과 핵융합의 차이점은 에너지를 방출하는 방식에 있다는 주제를 직접 지적하고 차이점을 간략하게 설명했습니다.
이에 비해 ChatGPT의 답변은 분명히 더 유익합니다.
브레인스토밍을 통해 꼭 읽어야 할 공상과학 소설 5권의 목록을 작성하라는 요청을 받았을 때, GPT-J는 독서를 미루었다는 죄책감에 빠진 듯 중얼거리고 있었습니다. 질문.
Dolly는 여느 때처럼 꾸준하게 공연을 펼쳤고 지시에 따라 SF 소설 5권의 제목과 작가를 지정했습니다.
ChatGPT는 책 제목과 저자뿐만 아니라 각 책의 내용과 유형에 대한 간략한 리뷰와 소개를 포함하여 이 질문에 대한 보다 풍부한 답변을 제공합니다.
많은 회사에서는 API만 제공하는 대규모 언어 모델 공급업체에 데이터를 보내는 것보다 자체적으로 덜 강력한 모델을 구축하는 것을 선호합니다.
중요한 이유 중 하나는 이러한 질문과 데이터 세트가 회사의 가장 민감하고 독점적인 지적 재산이며 이를 제3자에게 직접 넘겨주는 것은 분명히 신뢰할 수 없다는 것입니다.
또한 회사 자체는 모델 품질, 비용 및 원하는 동작 측면에서 서로 다른 절충안을 가질 수 있으며 사용자 정의 가능한 언어 모델이 회사의 요구 사항에 더 부합합니다.
이제 Dolly의 출시는 그들에게 희망을 줍니다. "오래된" 오픈 소스 LLM(대형 언어 모델)이라도 30분의 교육을 통해 ChatGPT와 유사한 기능에 따라 마법의 명령을 내릴 수 있습니다.
대형 언어 모델이 머지않아 더 이상 AI 거인의 전유물이 아닐 수도 있다는 것을 상상하는 것은 어렵지 않습니다!
회사 CEO Ali Ghodsi는 "우리는 전 세계 모든 조직이 이러한 기술을 활용할 수 있다고 믿습니다."라고 말했습니다.
위 내용은 임계값이 0인 ChatGPT를 복제하세요! 30분 훈련 후 60억 개의 매개변수 성능은 GPT-3.5와 비슷합니다.의 상세 내용입니다. 자세한 내용은 PHP 중국어 웹사이트의 기타 관련 기사를 참조하세요!