首頁  >  文章  >  科技週邊  >  世界首款真開源類ChatGPT大模型Dolly 2.0,可隨意修改商用

世界首款真開源類ChatGPT大模型Dolly 2.0,可隨意修改商用

WBOY
WBOY轉載
2023-04-22 12:28:081556瀏覽

眾所周知,在ChatGPT 的問題上OpenAI 並不Open,從Meta 那裡開源的羊駝系列模型也因為數據集等問題“僅限於學術研究類應用”,在人們還在因為尋找繞過限制方法的時候,主打100% 開源的大模型來了。

4 月12 日,Databricks 發布了Dolly 2.0,這是兩週前發布的類別ChatGPT 人類互動性(指令遵循)大語言模型(LLM)的另一個新版本。

Databricks 表示,Dolly 2.0 是業界第一個開源、遵循指令的LLM,它在透明且免費提供的資料集上進行了微調,該資料集也是開源的,可用於商業目的。這意味著 Dolly 2.0 可用於建立商業應用程序,無需支付 API 存取費用或與第三方共享資料。

世界首款真开源类ChatGPT大模型Dolly 2.0,可随意修改商用

  • 專案連結:https://huggingface.co/databricks/dolly-v2-12b
  • #資料集:https://github.com/databrickslabs/dolly/tree/master/data

根據Databricks 執行長Ali Ghodsi 的說法,雖然有其他大模型可以用於商業目的,但「它們不會像Dolly 2.0 那樣與你交談。」而且基於Dolly 2.0 模型,用戶可以修改和改進訓練數據,因為它是在開源許可下免費提供的。所以你可以製作自己的 Dolly 版本。

Databricks 也發布了 Dolly 2.0 在其上進行微調的資料集,稱為 databricks-dolly-15k。這是由數千名Databricks 員工產生的超過1.5 萬筆記錄的語料庫,Databricks 稱這是「第一個開源的、人工生成的指令語料庫,專門設計用於讓大型語言能夠展示出ChatGPT 的神奇互動性。」

Dolly 2.0 是怎麼誕生的

在過去的兩個月裡,業界、學界紛紛追趕OpenAI 提出了一波遵循指令的類ChatGPT 大模型,這些版本被許多定義視為開源(或提供某種程度的開放性或有限存取)。其中 Meta 的 LLaMA 最受關注,它引發了大量進一步改進的模型,如 Alpaca、Koala、Vicuna 以及 Databricks 的 Dolly 1.0。

但另一方面,許多這些「開放」模型都處於「工業限制」之下,因為它們接受了旨在限製商業用途的條款的資料集的訓練——例如來自StanfordAlpaca 計畫的5.2 萬個問答資料集,是根據OpenAI 的ChatGPT 的輸出進行訓練的。而 OpenAI 的使用條款包括一條規則,就是你不能使用 OpenAI 的服務反過來與其競爭。

Databricks 思考了解決這個問題的方法:新提出的Dolly 2.0 是一個120 億參數的語言模型,它基於開源EleutherAI pythia 模型系列,專門針對小型開源指令記錄語料庫進行了微調(databricks-dolly-15k),該資料集由Databricks 員工生成,許可條款允許出於任何目的使用、修改和擴展,包括學術或商業應用。

到目前為止,在 ChatGPT 的輸出上訓練的模型一直處於合法的灰色地帶。 「整個社區一直在小心翼翼地解決這個問題,每個人都在發布這些模型,但沒有一個可以用於商業用途,」Ghodsi 表示。 「這就是我們非常興奮的原因。」

「其他人都想做得更大,但我們實際上對更小的東西感興趣,」Ghodsi 在談到Dolly的微縮規模時說。 「其次,我們翻閱了所有的答案,它是高品質的。」

Ghodsi 表示,他相信Dolly 2.0 將啟動「雪球」效應,讓人工智慧領域的其他人加入並提出其他替代方案。他解釋說,對商業用途的限制是一個需要克服的大障礙:「我們現在很興奮,因為我們終於找到了一個繞過它的方法。我保證你會看到人們將這15,000 個問題應用於現有的每一個模型,他們會看到這些模型中有多少突然變得有點神奇,你可以與它們互動。」

#

手搓資料集

要下載 Dolly 2.0 模型的權重,只需存取 Databricks Hugging Face 頁面,並存取 databricks-labs 的 Dolly repo,下載 databricks-dolly-15k 資料集。

「databricks-dolly-15k」資料集包含15,000 個高品質的人類產生的prompt / 回復對,由5000 多名Databricks 員工在2023 年3 月和4 月期間撰寫,專門設計用於指令調優大型語言模型。這些訓練記錄自然、富有表現力,旨在代表廣泛的行為,從腦力激盪、內容生成到資訊擷取和總結。

根據該資料集的授權條款(Creative Commons Attribution-ShareAlike 3.0 Unported License),任何人都可因任何目的使用、修改或擴展這個資料集,包括商業應用。

目前,這一資料集是首個開源的、由人類產生的指令資料集

為什麼要建立這樣一個資料集?團隊也在部落格中解釋了原因。

建立 Dolly 1.0 或任何遵循 LLM 的指令的一個關鍵步驟是,在指令和回復對的資料集上訓練模型。 Dolly 1.0 的訓練費用為 30 美元,使用的是史丹佛大學 Alpaca 團隊用 OpenAI API 創建的資料集。

在 Dolly 1.0 發布之後,就有很多人要求試用,此外還有一部分用戶希望在商業上使用這個模型。

但訓練資料集包含 ChatGPT 的輸出,正如史丹佛大學團隊所指出的,服務條款試圖阻止任何人創建一個與 OpenAI 競爭的模型。

先前,所有的知名指令遵循模型(Alpaca、Koala、GPT4All、Vicuna)都受到這種限制:禁止商業使用。為了解決這個難題,Dolly 團隊開始尋找方法來建立一個沒有商業用途限制的新資料集。

具體而言,團隊從 OpenAI 公佈的研究論文中得知,最初的 InstructGPT 模型是在一個由 13000 個指令遵循行為演示組成的資料集上訓練出來的。受此啟發,他們開始研究是否可以在 Databricks 員工的帶領下取得類似的結果。

結果發現,產生 13000 個問題和答案比想像中更難。因為每個答案都必須是原創的,不能從 ChatGPT 或網路上的任何地方複製,否則會「污染」資料集。但 Databricks 有超過 5000 名員工,他們對 LLM 非常感興趣。因此,團隊進行了一次眾包實驗,創造了比 40 位標註者為 OpenAI 創造的更高品質的資料集。

當然,這份工作耗時且耗力,為了激勵大家,團隊設立置一個競賽,前 20 名的標註者將獲得驚喜大獎。同時,他們也列出了 7 項非常具體的任務:

  • 公開問答:例如「為什麼人們喜歡喜劇電影?」或「法國的首都是什麼?」在某些情況下,沒有一個正確的答案,而在其他情況下,需要藉助於整個世界的知識;
  • 封閉式問答:這些問題只用一段參考文獻中的資訊就可以回答。例如,給定維基百科中關於原子的一段,人們可能會問:「原子核中質子和中子的比例是多少?」;
  • 從維基百科中提取資訊:在這裡,標註者會從維基百科上複製一個段落,並從該段落中提取實體或其他事實信息,如重量或測量;
  • 總結維基百科上的信息:對於這一點,註釋者從維基百科上提供了一段話,並被要求將其提煉為一個簡短的摘要;
  • 集思廣益:這項任務要求進行開放式的構思,並列出相關的可能選項。例如「這個週末我可以和我的朋友做哪些有趣的活動?」;
  • 分類:在這項任務中,標註者被要求對類別成員進行判斷(例如,清單中的項目是動物、礦物還是蔬菜),或判斷一段短文的屬性,例如電影評論的情緒;
  • ##創意寫作:這項任務將包括寫一首詩或一封情書等內容。

以下是一些範例:

世界首款真开源类ChatGPT大模型Dolly 2.0,可随意修改商用

世界首款真开源类ChatGPT大模型Dolly 2.0,可随意修改商用

最開始,團隊對於是否能達到10,000 個結果持懷疑態度。但透過每晚的排行榜遊戲,一週內就成功地突破了 15,000 個結果。

隨後,出於對「佔用員工生產力」的擔心,團隊關閉了比賽(這很合理)。

商業化的可行性

在資料集火速創建完成之後,團隊開始考慮商業應用的問題了。

他們想製作一個可在商業上使用的開源模型。儘管 databricks-dolly-15k 比 Alpaca(訓練 Dolly 1.0 的資料集)小得多,但基於 EleutherAI pythia-12b 的 Dolly 2.0 模型卻表現出高品質的指令遵循行為。

事後看來,這並不令人驚訝。畢竟最近幾個月發布的許多指令調優數據集包含合成數據,這些數據往往包含幻覺和事實錯誤。

另一方面,databricks-dolly-15k 是由專業人士產生的,品質很高,而且包含大多數任務的長篇答案。

以下是Dolly 2.0 用於總結和內容生成的一些例子:

世界首款真开源类ChatGPT大模型Dolly 2.0,可随意修改商用

世界首款真开源类ChatGPT大模型Dolly 2.0,可随意修改商用

世界首款真开源类ChatGPT大模型Dolly 2.0,可随意修改商用

##Dolly 團隊表示,根據最初的客戶回饋,像這樣的能力可在整個企業中進行廣泛的應用。因為許多企業希望擁有自己的模型,以此為自己的特定領域應用創建更高品質的模型,而不是將自己的敏感資料交給第三方。

Dolly 2 的開源為建立更好的大模型生態開了一個好頭。開放原始碼的資料集和模型鼓勵評論、研究和創新,有助於確保每個人都從人工智慧技術的進步中受益。 Dolly 團隊期望新模型和開源資料集將作為眾多後續工作的種子,幫助引導出更強大的語言模型。

以上是世界首款真開源類ChatGPT大模型Dolly 2.0,可隨意修改商用的詳細內容。更多資訊請關注PHP中文網其他相關文章!

陳述:
本文轉載於:51cto.com。如有侵權,請聯絡admin@php.cn刪除