搜尋
首頁科技週邊人工智慧世界首款真開源類ChatGPT大模型Dolly 2.0,可隨意修改商用

眾所周知,在ChatGPT 的問題上OpenAI 並不Open,從Meta 那裡開源的羊駝系列模型也因為數據集等問題“僅限於學術研究類應用”,在人們還在因為尋找繞過限制方法的時候,主打100% 開源的大模型來了。

4 月12 日,Databricks 發布了Dolly 2.0,這是兩週前發布的類別ChatGPT 人類互動性(指令遵循)大語言模型(LLM)的另一個新版本。

Databricks 表示,Dolly 2.0 是業界第一個開源、遵循指令的LLM,它在透明且免費提供的資料集上進行了微調,該資料集也是開源的,可用於商業目的。這意味著 Dolly 2.0 可用於建立商業應用程序,無需支付 API 存取費用或與第三方共享資料。

世界首款真开源类ChatGPT大模型Dolly 2.0,可随意修改商用

  • 專案連結:https://huggingface.co/databricks/dolly-v2-12b
  • #資料集:https://github.com/databrickslabs/dolly/tree/master/data

根據Databricks 執行長Ali Ghodsi 的說法,雖然有其他大模型可以用於商業目的,但「它們不會像Dolly 2.0 那樣與你交談。」而且基於Dolly 2.0 模型,用戶可以修改和改進訓練數據,因為它是在開源許可下免費提供的。所以你可以製作自己的 Dolly 版本。

Databricks 也發布了 Dolly 2.0 在其上進行微調的資料集,稱為 databricks-dolly-15k。這是由數千名Databricks 員工產生的超過1.5 萬筆記錄的語料庫,Databricks 稱這是「第一個開源的、人工生成的指令語料庫,專門設計用於讓大型語言能夠展示出ChatGPT 的神奇互動性。」

Dolly 2.0 是怎麼誕生的

在過去的兩個月裡,業界、學界紛紛追趕OpenAI 提出了一波遵循指令的類ChatGPT 大模型,這些版本被許多定義視為開源(或提供某種程度的開放性或有限存取)。其中 Meta 的 LLaMA 最受關注,它引發了大量進一步改進的模型,如 Alpaca、Koala、Vicuna 以及 Databricks 的 Dolly 1.0。

但另一方面,許多這些「開放」模型都處於「工業限制」之下,因為它們接受了旨在限製商業用途的條款的資料集的訓練——例如來自StanfordAlpaca 計畫的5.2 萬個問答資料集,是根據OpenAI 的ChatGPT 的輸出進行訓練的。而 OpenAI 的使用條款包括一條規則,就是你不能使用 OpenAI 的服務反過來與其競爭。

Databricks 思考了解決這個問題的方法:新提出的Dolly 2.0 是一個120 億參數的語言模型,它基於開源EleutherAI pythia 模型系列,專門針對小型開源指令記錄語料庫進行了微調(databricks-dolly-15k),該資料集由Databricks 員工生成,許可條款允許出於任何目的使用、修改和擴展,包括學術或商業應用。

到目前為止,在 ChatGPT 的輸出上訓練的模型一直處於合法的灰色地帶。 「整個社區一直在小心翼翼地解決這個問題,每個人都在發布這些模型,但沒有一個可以用於商業用途,」Ghodsi 表示。 「這就是我們非常興奮的原因。」

「其他人都想做得更大,但我們實際上對更小的東西感興趣,」Ghodsi 在談到Dolly的微縮規模時說。 「其次,我們翻閱了所有的答案,它是高品質的。」

Ghodsi 表示,他相信Dolly 2.0 將啟動「雪球」效應,讓人工智慧領域的其他人加入並提出其他替代方案。他解釋說,對商業用途的限制是一個需要克服的大障礙:「我們現在很興奮,因為我們終於找到了一個繞過它的方法。我保證你會看到人們將這15,000 個問題應用於現有的每一個模型,他們會看到這些模型中有多少突然變得有點神奇,你可以與它們互動。」

#

手搓資料集

要下載 Dolly 2.0 模型的權重,只需存取 Databricks Hugging Face 頁面,並存取 databricks-labs 的 Dolly repo,下載 databricks-dolly-15k 資料集。

「databricks-dolly-15k」資料集包含15,000 個高品質的人類產生的prompt / 回復對,由5000 多名Databricks 員工在2023 年3 月和4 月期間撰寫,專門設計用於指令調優大型語言模型。這些訓練記錄自然、富有表現力,旨在代表廣泛的行為,從腦力激盪、內容生成到資訊擷取和總結。

根據該資料集的授權條款(Creative Commons Attribution-ShareAlike 3.0 Unported License),任何人都可因任何目的使用、修改或擴展這個資料集,包括商業應用。

目前,這一資料集是首個開源的、由人類產生的指令資料集

為什麼要建立這樣一個資料集?團隊也在部落格中解釋了原因。

建立 Dolly 1.0 或任何遵循 LLM 的指令的一個關鍵步驟是,在指令和回復對的資料集上訓練模型。 Dolly 1.0 的訓練費用為 30 美元,使用的是史丹佛大學 Alpaca 團隊用 OpenAI API 創建的資料集。

在 Dolly 1.0 發布之後,就有很多人要求試用,此外還有一部分用戶希望在商業上使用這個模型。

但訓練資料集包含 ChatGPT 的輸出,正如史丹佛大學團隊所指出的,服務條款試圖阻止任何人創建一個與 OpenAI 競爭的模型。

先前,所有的知名指令遵循模型(Alpaca、Koala、GPT4All、Vicuna)都受到這種限制:禁止商業使用。為了解決這個難題,Dolly 團隊開始尋找方法來建立一個沒有商業用途限制的新資料集。

具體而言,團隊從 OpenAI 公佈的研究論文中得知,最初的 InstructGPT 模型是在一個由 13000 個指令遵循行為演示組成的資料集上訓練出來的。受此啟發,他們開始研究是否可以在 Databricks 員工的帶領下取得類似的結果。

結果發現,產生 13000 個問題和答案比想像中更難。因為每個答案都必須是原創的,不能從 ChatGPT 或網路上的任何地方複製,否則會「污染」資料集。但 Databricks 有超過 5000 名員工,他們對 LLM 非常感興趣。因此,團隊進行了一次眾包實驗,創造了比 40 位標註者為 OpenAI 創造的更高品質的資料集。

當然,這份工作耗時且耗力,為了激勵大家,團隊設立置一個競賽,前 20 名的標註者將獲得驚喜大獎。同時,他們也列出了 7 項非常具體的任務:

  • 公開問答:例如「為什麼人們喜歡喜劇電影?」或「法國的首都是什麼?」在某些情況下,沒有一個正確的答案,而在其他情況下,需要藉助於整個世界的知識;
  • 封閉式問答:這些問題只用一段參考文獻中的資訊就可以回答。例如,給定維基百科中關於原子的一段,人們可能會問:「原子核中質子和中子的比例是多少?」;
  • 從維基百科中提取資訊:在這裡,標註者會從維基百科上複製一個段落,並從該段落中提取實體或其他事實信息,如重量或測量;
  • 總結維基百科上的信息:對於這一點,註釋者從維基百科上提供了一段話,並被要求將其提煉為一個簡短的摘要;
  • 集思廣益:這項任務要求進行開放式的構思,並列出相關的可能選項。例如「這個週末我可以和我的朋友做哪些有趣的活動?」;
  • 分類:在這項任務中,標註者被要求對類別成員進行判斷(例如,清單中的項目是動物、礦物還是蔬菜),或判斷一段短文的屬性,例如電影評論的情緒;
  • ##創意寫作:這項任務將包括寫一首詩或一封情書等內容。

以下是一些範例:

世界首款真开源类ChatGPT大模型Dolly 2.0,可随意修改商用

世界首款真开源类ChatGPT大模型Dolly 2.0,可随意修改商用

最開始,團隊對於是否能達到10,000 個結果持懷疑態度。但透過每晚的排行榜遊戲,一週內就成功地突破了 15,000 個結果。

隨後,出於對「佔用員工生產力」的擔心,團隊關閉了比賽(這很合理)。

商業化的可行性

在資料集火速創建完成之後,團隊開始考慮商業應用的問題了。

他們想製作一個可在商業上使用的開源模型。儘管 databricks-dolly-15k 比 Alpaca(訓練 Dolly 1.0 的資料集)小得多,但基於 EleutherAI pythia-12b 的 Dolly 2.0 模型卻表現出高品質的指令遵循行為。

事後看來,這並不令人驚訝。畢竟最近幾個月發布的許多指令調優數據集包含合成數據,這些數據往往包含幻覺和事實錯誤。

另一方面,databricks-dolly-15k 是由專業人士產生的,品質很高,而且包含大多數任務的長篇答案。

以下是Dolly 2.0 用於總結和內容生成的一些例子:

世界首款真开源类ChatGPT大模型Dolly 2.0,可随意修改商用

世界首款真开源类ChatGPT大模型Dolly 2.0,可随意修改商用

世界首款真开源类ChatGPT大模型Dolly 2.0,可随意修改商用

##Dolly 團隊表示,根據最初的客戶回饋,像這樣的能力可在整個企業中進行廣泛的應用。因為許多企業希望擁有自己的模型,以此為自己的特定領域應用創建更高品質的模型,而不是將自己的敏感資料交給第三方。

Dolly 2 的開源為建立更好的大模型生態開了一個好頭。開放原始碼的資料集和模型鼓勵評論、研究和創新,有助於確保每個人都從人工智慧技術的進步中受益。 Dolly 團隊期望新模型和開源資料集將作為眾多後續工作的種子,幫助引導出更強大的語言模型。

以上是世界首款真開源類ChatGPT大模型Dolly 2.0,可隨意修改商用的詳細內容。更多資訊請關注PHP中文網其他相關文章!

陳述
本文轉載於:51CTO.COM。如有侵權,請聯絡admin@php.cn刪除
如何使用Monsterapi微調大語言模型如何使用Monsterapi微調大語言模型Apr 19, 2025 am 10:49 AM

利用微調LLM的功能與Monsterapi:綜合指南 想像一個虛擬助手完美理解並預測您的需求。 由於大型語言模型(LLMS)的進步,這已成為現實。 但是,

5統計測試每個數據科學家都應該知道-Analytics Vidhya5統計測試每個數據科學家都應該知道-Analytics VidhyaApr 19, 2025 am 10:27 AM

數據科學的基本統計測試:綜合指南 從數據中解鎖有價值的見解至關重要。 掌握統計測試對於實現這一目標至關重要。這些測試使數據科學家能夠嚴格瓦爾

如何使用Florence -2 -Analytics Vidhya執行計算機視覺任務如何使用Florence -2 -Analytics Vidhya執行計算機視覺任務Apr 19, 2025 am 10:21 AM

介紹 原始變壓器的引入為當前的大語言模型鋪平了道路。同樣,在引入變壓器模型之後,引入了視覺變壓器(VIT)。喜歡

使用Langchain Text Splitters -Analytics Vidhya拆分數據的7種方法使用Langchain Text Splitters -Analytics Vidhya拆分數據的7種方法Apr 19, 2025 am 10:11 AM

Langchain文本拆分器:優化LLM輸入以提高效率和準確性 我們上一篇文章介紹了Langchain的文檔加載程序。 但是,LLM具有上下文窗口大小的限制(以代幣測量)。 超過此限制會截斷數據,comp

免費生成的AI課程:開創創新的未來免費生成的AI課程:開創創新的未來Apr 19, 2025 am 10:01 AM

生成的AI:革命性的創造力和創新 生成的AI通過按下按鈕來創建文本,圖像,音樂和虛擬世界來改變行業。 它的影響跨越視頻編輯,音樂製作,藝術,娛樂,HEA

使用通用句子編碼器和Wikiqa創建QA模型使用通用句子編碼器和Wikiqa創建QA模型Apr 19, 2025 am 10:00 AM

利用嵌入模型的力量來回答高級問題 在當今信息豐富的世界中,立即獲得精確答案的能力至關重要。 本文展示了使用強大的提問(QA)模型

前十名必須閱讀機器學習研究論文前十名必須閱讀機器學習研究論文Apr 19, 2025 am 09:53 AM

本文探討了十個徹底改變人工智能(AI)和機器學習(ML)的開創性出版物。 我們將研究神經網絡和算法的最新突破,並解釋驅動現代AI的核心概念。 Th

替換SEO機構的11個AI工具 - 分析Vidhya替換SEO機構的11個AI工具 - 分析VidhyaApr 19, 2025 am 09:49 AM

AI在SEO中的崛起:超過SEO代理商的前11個工具 AI的快速發展已深刻地重塑了SEO景觀。 旨在提高頂級搜索引擎排名的企業正在利用AI優化其在線策略的能力。 來自AU

See all articles

熱AI工具

Undresser.AI Undress

Undresser.AI Undress

人工智慧驅動的應用程序,用於創建逼真的裸體照片

AI Clothes Remover

AI Clothes Remover

用於從照片中去除衣服的線上人工智慧工具。

Undress AI Tool

Undress AI Tool

免費脫衣圖片

Clothoff.io

Clothoff.io

AI脫衣器

AI Hentai Generator

AI Hentai Generator

免費產生 AI 無盡。

熱工具

Dreamweaver Mac版

Dreamweaver Mac版

視覺化網頁開發工具

記事本++7.3.1

記事本++7.3.1

好用且免費的程式碼編輯器

mPDF

mPDF

mPDF是一個PHP庫,可以從UTF-8編碼的HTML產生PDF檔案。原作者Ian Back編寫mPDF以從他的網站上「即時」輸出PDF文件,並處理不同的語言。與原始腳本如HTML2FPDF相比,它的速度較慢,並且在使用Unicode字體時產生的檔案較大,但支援CSS樣式等,並進行了大量增強。支援幾乎所有語言,包括RTL(阿拉伯語和希伯來語)和CJK(中日韓)。支援嵌套的區塊級元素(如P、DIV),

Safe Exam Browser

Safe Exam Browser

Safe Exam Browser是一個安全的瀏覽器環境,安全地進行線上考試。該軟體將任何電腦變成一個安全的工作站。它控制對任何實用工具的訪問,並防止學生使用未經授權的資源。

SAP NetWeaver Server Adapter for Eclipse

SAP NetWeaver Server Adapter for Eclipse

將Eclipse與SAP NetWeaver應用伺服器整合。