우리 모두 알고 있듯이, ChatGPT와 관련하여 OpenAI는 공개되지 않습니다. Meta에서 오픈 소스로 제공되는 Yangtuo 시리즈 모델은 사람들이 여전히 방법을 찾고 있는 경우 "학술 연구 응용 프로그램으로 제한"됩니다. 우회 제한, 100% 오픈 소스에 초점을 맞춘 대규모 모델이 여기에 있습니다.
4월 12일, Databricks는 2주 전에 출시된 ChatGPT와 유사한 인간 상호 작용(지시 따르기) LLM(대형 언어 모델)의 또 다른 새로운 버전인 Dolly 2.0을 출시했습니다.
Databricks는 Dolly 2.0이 업계 최초의 오픈 소스이자 지침을 준수하는 LLM이며 오픈 소스이자 상업적 목적으로 사용할 수 있는 투명하고 무료로 사용할 수 있는 데이터 세트를 기반으로 미세 조정되었다고 말합니다. 즉, API 액세스 비용을 지불하거나 제3자와 데이터를 공유하지 않고도 Dolly 2.0을 사용하여 상업용 애플리케이션을 구축할 수 있습니다.
Databricks CEO Ali Ghodsi에 따르면 상업적 목적으로 사용할 수 있는 다른 대형 모델도 있지만 "Dolly 2.0처럼 말을 하지 않습니다." 그리고 Dolly 2.0 모델을 기준으로 하면 훈련 데이터는 오픈 소스 라이선스에 따라 무료로 제공되므로 사용자는 훈련 데이터를 수정하고 개선할 수 있습니다. 따라서 자신만의 Dolly 버전을 만들 수 있습니다.
Databricks는 또한 Dolly 2.0이 미세 조정된 databricks-dolly-15k라는 데이터 세트를 출시했습니다. 이는 수천 명의 Databricks 직원이 생성한 15,000개 이상의 레코드로 구성된 모음입니다. Databricks는 이를 "대규모 언어가 ChatGPT의 마법 같은 상호 작용을 보여줄 수 있도록 특별히 설계된 최초의 오픈 소스, 인간 생성 명령 모음"이라고 부릅니다.
Dolly 2.0은 어떻게 탄생했나요지난 두 달 동안 업계와 학계는 OpenAI를 따라잡고 지침을 따르는 ChatGPT와 같은 대형 모델의 물결을 제안했습니다. 이러한 버전은 많은 정의에 의해 오픈 소스로 간주됩니다. 또는 어느 정도의 개방성 또는 제한된 액세스를 제공합니다. 그 중에서도 메타(Meta)의 LLaMA가 가장 큰 주목을 받아 알파카(Alpaca), 코알라(Koala), 비쿠나(Vicuna), 데이터브릭스(Databricks)의 돌리 1.0(Dolly 1.0) 등 더욱 개선된 모델이 대거 탄생했다.
그러나 이러한 "개방형" 모델 중 상당수는 StanfordAlpaca 프로젝트의 52,000개와 같이 상업적 사용을 제한하도록 고안된 용어가 포함된 데이터 세트에 대해 교육을 받았기 때문에 "산업적 제약"을 받고 있습니다. 질문 및 답변 데이터 세트는 OpenAI의 ChatGPT 출력을 기반으로 학습됩니다. 그리고 OpenAI의 이용 약관에는 OpenAI의 서비스를 사용하여 경쟁할 수 없다는 규칙이 포함되어 있습니다.
Databricks는 이 문제를 해결하는 방법을 생각했습니다. 새로 제안된 Dolly 2.0은 오픈 소스 EleutherAI pythia 모델 시리즈를 기반으로 하며 특히 소규모 오픈 소스 명령에 맞게 미세 조정된 120억 개의 매개변수 언어 모델입니다. 레코드 코퍼스(databricks-dolly-15k)인 이 데이터 세트는 Databricks 직원이 생성했으며 라이선스 조건에 따라 학술 또는 상업용 응용 프로그램을 포함한 모든 목적으로 사용, 수정 및 확장이 허용됩니다.
지금까지 ChatGPT의 출력에 대해 훈련된 모델은 법적 회색 영역에 있었습니다. Ghodsi는 “전체 커뮤니티가 이 문제를 조심스럽게 살펴보고 있으며 모두가 이 모델을 출시하고 있지만 그 중 어느 것도 상업적으로 이용 가능하지 않습니다.”라고 말했습니다. "그래서 우리는 매우 기대됩니다."
"다른 사람들은 모두 더 큰 것을 원하지만 사실 우리는 더 작은 것에 관심이 있습니다"라고 Ghodsi는 Dolly의 소형 규모에 대해 말했습니다. "둘째, 우리는 모든 답변을 검토했으며 품질이 높았습니다."
Ghodsi는 Dolly 2.0이 "눈덩이" 효과를 시작하여 인공 지능 분야의 다른 사람들이 참여하고 다른 대안을 제안할 수 있다고 믿습니다. . 그는 상업적 사용에 대한 제한이 극복해야 할 큰 장애물이라고 설명했습니다. "마침내 그 문제를 해결할 수 있는 방법을 찾았기 때문에 우리는 매우 기쁩니다. 사람들이 이 15,000가지 문제를 현실 세계에 적용하는 것을 보게 될 것이라고 장담합니다. 거기에 있는 모든 모델은 즉, 얼마나 많은 모델이 갑자기 마법처럼 변해 상호 작용할 수 있는지 알게 될 것입니다."
Dolly 2.0 모델의 가중치를 다운로드하려면 Databricks Hugging Face 페이지를 방문하고 databricks-labs의 Dolly 저장소를 방문하여 databricks-dolly-15k 데이터 세트를 다운로드하세요.
"databricks-dolly-15k" 데이터 세트에는 인간이 생성한 15,000개의 고품질 프롬프트/응답 쌍이 포함되어 있습니다. 2023년 3월과 4월에 5,000명 이상의 Databricks 직원이 작성, 대규모 언어 모델 조정을 위한 특별히 고안된 지침 . 이러한 교육 녹음은 자연스럽고 표현력이 풍부하며 브레인스토밍 및 콘텐츠 생성부터 정보 추출 및 요약에 이르기까지 광범위한 행동을 나타내도록 설계되었습니다.
이 데이터세트의 라이선스 조건(Creative Commons Attribution-ShareAlike 3.0 Unported License)에 따라 누구든지 상업용 애플리케이션을 포함하여 어떤 목적으로든 이 데이터세트를 사용, 수정 또는 확장할 수 있습니다.
현재 이 데이터 세트는 최초의 오픈 소스, 인간이 생성한 명령 데이터 세트 입니다.
이러한 데이터 세트를 만드는 이유는 무엇입니까? 팀은 또한 블로그 게시물에서 그 이유를 설명했습니다.
Dolly 1.0 또는 LLM을 따르는 모든 지시어를 만드는 주요 단계는 지시어와 응답 쌍의 데이터 세트에서 모델을 훈련하는 것입니다. Dolly 1.0은 OpenAI API를 사용하여 Stanford University의 Alpaca 팀이 만든 데이터 세트를 훈련하고 사용하는 데 30달러가 듭니다.
Dolly 1.0이 출시된 후 많은 사람들이 사용해 보고자 했고, 일부 사용자들은 이 모델을 상업적으로 사용하고 싶어 했습니다.
그러나 훈련 데이터 세트에는 ChatGPT의 출력이 포함되어 있으며 Stanford 팀이 지적했듯이 서비스 약관은 누구도 OpenAI와 경쟁하는 모델을 만드는 것을 방지하려고 합니다.
이전에는 잘 알려진 모든 지침 준수 모델(Alpaca, Koala, GPT4All, Vicuna)에 이러한 제한이 적용되어 상업적 사용이 금지되었습니다. 이 문제를 해결하기 위해 Dolly 팀은 상업적 사용에 대한 제한 없이 새로운 데이터세트를 생성할 수 있는 방법을 찾기 시작했습니다.
구체적으로 팀은 OpenAI가 발표한 연구 논문을 통해 원래 InstructGPT 모델이 13,000개의 지시에 따른 행동 시연으로 구성된 데이터 세트에서 훈련되었다는 사실을 알게 되었습니다. 이에 영감을 받아 그들은 Databricks 직원의 주도로 비슷한 결과를 얻을 수 있는지 알아보기 시작했습니다.
13,000개의 질문과 답변을 생성하는 것이 생각보다 어려운 것으로 나타났습니다. 모든 답변은 독창적이어야 하며 ChatGPT 또는 웹의 어느 곳에서도 복사할 수 없기 때문에 그렇지 않으면 데이터 세트가 "오염"됩니다. 하지만 Databricks의 직원은 5,000명이 넘었고 그들은 LLM에 매우 관심이 많았습니다. 그래서 팀은 40명의 주석자가 OpenAI용으로 생성한 것보다 더 높은 품질의 데이터 세트를 생성하는 크라우드소싱 실험을 수행했습니다.
물론, 이 작업은 시간이 많이 걸리고 노동 집약적입니다. 모든 사람에게 동기를 부여하기 위해 팀에서는 대회를 마련했으며 상위 20명의 주석 작성자에게는 깜짝 상품이 제공됩니다. 동시에 그들은 7가지 매우 구체적인 작업도 나열했습니다.
처음에 팀에서는 결과가 10,000개에 도달하는 것에 회의적이었습니다. 그러나 야간 리더보드 플레이를 통해 일주일 만에 15,000개의 결과를 달성했습니다.
그런데 팀은 "직원 생산성 저하"(말이 되는)에 대한 우려로 게임을 종료했습니다.상용화 가능성
데이터 세트가 빠르게 생성된 후 팀은 상용화 적용을 고려하기 시작했습니다.
상업적으로 사용할 수 있는 오픈 소스 모델을 만들고 싶어합니다. databricks-dolly-15k는 Alpaca(Dolly 1.0이 훈련된 데이터 세트)보다 훨씬 작지만 EleutherAI pythia-12b를 기반으로 하는 Dolly 2.0 모델은 고품질 명령 따르기 동작을 보여줍니다.돌이켜보면 이는 놀라운 일이 아닙니다. 결국, 최근 몇 달 동안 발표된 많은 명령 튜닝 데이터세트에는 환각과 사실적 오류가 포함된 합성 데이터가 포함되어 있습니다.
databricks-dolly-15k는 전문가가 생성하고 품질이 높으며 대부분의 작업에 대한 긴 형식의 답변을 포함합니다.
다음은 요약 및 콘텐츠 생성에 사용되는 Dolly 2.0의 몇 가지 예입니다.
Dolly 팀은 초기 고객 피드백을 바탕으로 이와 같은 기능을 전 세계에서 사용할 수 있다고 말합니다. 광범위한 애플리케이션을 위한 기업입니다. 많은 기업이 민감한 데이터를 제3자에게 넘기는 대신 특정 도메인 애플리케이션을 위한 고품질 모델을 만들기 위한 자체 모델을 갖고 싶어하기 때문입니다.
Dolly 2의 오픈 소스는 더 나은 대형 모델 생태계를 구축하기 위한 좋은 시작입니다. 오픈 소스 데이터세트와 모델은 논평, 연구, 혁신을 장려하여 모든 사람이 AI 기술 발전의 혜택을 누릴 수 있도록 돕습니다. Dolly 팀은 새로운 모델과 오픈 소스 데이터 세트가 후속 작업의 씨앗 역할을 하여 더욱 강력한 언어 모델로 이어지는 데 도움이 될 것으로 기대합니다.위 내용은 상업적 용도로 자유롭게 수정할 수 있는 세계 최초의 진정한 오픈 소스 ChatGPT 대형 모델 Dolly 2.0의 상세 내용입니다. 자세한 내용은 PHP 중국어 웹사이트의 기타 관련 기사를 참조하세요!