首頁  >  文章  >  科技週邊  >  開發者笑瘋了! LLaMa驚天洩漏引爆ChatGPT平替狂潮,開源LLM領域變天

開發者笑瘋了! LLaMa驚天洩漏引爆ChatGPT平替狂潮,開源LLM領域變天

王林
王林轉載
2023-04-12 23:40:061074瀏覽

誰能想到,一次意外的LLaMA洩漏,竟點燃了開源LLM領域最大的創新火花。

一系列表現出色的ChatGPT開源替代品——「羊駝家族」,隨後眼花撩亂地登場。

開源和基於 API 的分發之間的摩擦,是生成式AI生態系統中最迫在眉睫的矛盾之一。

在文字到圖像領域,Stable Diffusion的發布清楚地表明,對於基礎模型來說,開源是一種可行的分發機制。

然而,在大語言模型領域卻並非如此,這個領域最大的突破,例如GPT-4、Claude和Cohere等模型,都只能透過API。

這些模型的開源替代品並沒有表現出相同程度的效能,特別是在遵循人類指令能力上。然而,一場意想不到的洩露,讓這種狀況徹底改變了。

LLaMA的「史詩級」洩漏

幾週前,Meta AI推出了大語言模型LLaMA 。

LLaMA 有不同的版本,包括7B、13B、33B和65B的參數,雖然它比GPT-3小,但在許多任務上,它都能和GPT-3的性能相媲美。

LLaMA 起初並未開源,但在發布一周後,這個模型忽然在4chan上洩露了,引發了數千次下載。

這個事件,可以被稱為「史詩級洩漏」了,因為它成為了大語言模型領域層出不窮的創新來源。

短短幾週內,基於它所建構的LLM代理商的創新,已經呈現爆炸性成長。

Alpaca、Vicuna、Koala、ChatLLaMA 、FreedomGPT、ColossalChat…… 讓我們來回顧一下,這場「羊駝家族」的大爆炸,是如何誕生的。

Alpaca在三月中旬,史丹佛發布的大模型Alpaca火了。 

Alpaca是Meta的LLaMA 7B微調而來的全新模型,僅用了52k數據,效能約等於GPT-3.5。

關鍵是訓練成本奇低,不到600美元。

史丹佛研究者對GPT-3.5(text-davinci-003)和Alpaca 7B進行了比較,發現這兩個模型的表現非常相似。 Alpaca在與GPT-3.5的比較中,獲勝次數為90對89。

對史丹佛的團隊來說,想要在預算內訓練一個高品質的指令遵循模型,就必須面對2個重要的挑戰:要有一個強大的預訓練語言模型,以及一個高品質的指令遵循數據。

恰恰,提供給學術研究人員使用的LLaMA模型搞定了第一個問題。

對於第二個挑戰,「Self-Instruct: Aligning Language Model with Self Generated Instructions」論文給了很好的啟發,即使用現有的強語言模型來自動生成指令數據。

LLaMA模型最大的弱點,就是缺乏指令微調。 OpenAI最大的創新之一就是將指令調優用在了GPT-3。

對此,史丹佛使用了現有的大語言模型,來自動產生遵循指令演示。

現在,Alpaca直接被網友們奉為「文本大模型的Stable Diffusion」。

Vicuna3月底,來自UC柏克萊、卡內基美隆大學、史丹佛大學和加州大學聖地牙哥分校的研究人員開源了Vicuna,這是一個與GPT-4性能相匹配的LLaMA微調版本。

130億參數的Vicuna,透過在ShareGPT收集的用戶共享對話上對LLaMA進行微調訓練而來,訓練成本近300美元。

結果顯示Vicuna-13B在超過90%的情況下,實現了與ChatGPT和Bard相匹敵的能力。

開發者笑瘋了! LLaMa驚天洩漏引爆ChatGPT平替狂潮,開源LLM領域變天

對於Vicuna-13B訓練流程,具體如下:

首先,研究者從ChatGPT對話在分享網站ShareGPT上,收集了大約70K對話。

接下來,研究人員優化了Alpaca提供的訓練腳本,使模型能夠更好地處理多輪對話和長序列。之後利用PyTorch FSDP在8個A100 GPU上進行了一天的訓練。

在模型的品質評估方面,研究人員創建了80個不同的問題,並用GPT-4對模型輸出進行了評估。

為了比較不同的模型,研究人員將每個模型的輸出組合成一個單獨的提示,然後讓GPT-4評估哪個模型給出的答案會更好。

開發者笑瘋了! LLaMa驚天洩漏引爆ChatGPT平替狂潮,開源LLM領域變天

LLaMA、Alpaca、Vicuna和ChatGPT的對比

Koala

最近,UC伯克利AI Research Institute(BAIR)又發布了一個新模型“考拉”(Koala),相比之前使用OpenAI的GPT數據進行指令微調,Koala的不同之處在於使用網絡獲取的高品質資料進行訓練。

研究結果表明,Koala可以有效地回答各種用戶的查詢,產生的答案往往比Alpaca更受歡迎,至少在一半的情況下與ChatGPT的效果不相上下。

研究人員希望這次實驗的結果可以進一步推動圍繞大型閉源模型相對於小型公共模型的相對性能的討論,特別是結果表明,對於那些能在本地運行的小模型,如果認真地收集訓練數據,也可以取得大模型的表現。

開發者笑瘋了! LLaMa驚天洩漏引爆ChatGPT平替狂潮,開源LLM領域變天

事實上,在此之前史丹佛大學發布的Alpaca模型,根據OpenAI的GPT模型對LLaMA的數據進行微調的實驗結果已經表明,正確的數據可以顯著改善規模較小的開源模型。

這也是柏克萊的研究人員開發和發布Koala模型的初衷,希望為這個討論結果再提供了一個實驗證明。

Koala對從網路上取得的免費互動資料進行了微調,並且特別關注包含與ChatGPT 等高效能閉源模型互動的資料。

研究人員並沒有追求盡可能多的抓取網路資料來最大化資料量,而是專注於收集一個小型的高品質資料集,包括ChatGPT蒸餾資料、開源數據等。

ChatLLaMA

Nebuly開源了ChatLLaMA ,這是一個使用讓我們使用自己的資料建立對話助理的框架。

ChatLLaMA讓我們使用自己的資料和盡可能少的運算量,來創造超個人化的類似ChatGPT的助手。

假設在未來,我們不再依賴一個「統治所有人」的大型助手,每個人都可以創造自己的個人化版本類ChatGPT助手,它們可以支持人類的各種需求。

不過,創建這種個人化助手需要在許多方面做出努力:資料集創建,使用RLHF進行高效訓練,以及推理優化。

這個函式庫的目的是,透過抽象運算來最佳化和收集大量資料所需的工作,讓開發人員高枕無憂。

ChatLLaMA旨在幫助開發人員處理各種用例,所有用例都與RLHF訓練和最佳化推理有關。以下是一些用例參考:

  • 為垂直特定任務(法律、醫療、遊戲、學術研究等)創建類似ChatGPT的個人化助手;
  • 想在本地硬體基礎設施上使用有限的數據,訓練一個高效的類似ChatGPT的助手;
  • 想創建自己的個人化版本類ChatGPT助手,同時避免成本失控;
  • 想了解哪種模型架構(LLaMA、OPT、GPTJ等)最符合我在硬體、運算預算和效能方面的要求;
  • 想讓助理與我的個人/公司價值觀、文化、品牌和宣言保持一致。

FreedomGPT

FreedomGPT使用Electron 和 React構建,它是一個桌面應用程序,允許用戶在他們的本地機器上運行LLaMA。

FreedomGPT的特色,從它的名字就可見一斑——它回答的問題不受任何審查或安全過濾。

這個程式由AI創投公司Age of AI開發。

FreedomGPT 建立在 Alpaca 之上。FreedomGPT使用Alpaca的显著特征,因为与其他模型相比,Alpaca相对更易于访问和定制。

ChatGPT遵循OpenAI的使用政策,限制仇恨、自残、威胁、暴力、性方面的内容。

与ChatGPT不同,FreedomGPT回答问题时没有偏见或偏袒,并且会毫不犹豫地回答有争议或争论性的话题。

​FreedomGPT甚至还回答了「如何在家制造炸弹」,而OpenAI专门从GPT-4中删除了这一点。

FreedomGPT很独特,因为它克服了审查限制,在没有任何保障的情况下迎合有争议的话题。它的标志是自由女神像,因为这个独特而大胆的大语言模型象征了自由。

FreedomGPT甚至可以在不需要联网的情况下,就能在计算机上本地运行。

此外,开源版本将很快发布,使用户和组织可以完全定制。

ColossalChat

UC伯克利提出的ColossalChat只需要不到100亿个参数就可以达到中英文双语能力,效果与ChatGPT和GPT-3.5相当。

此外,基于LLaMA模型的ColossalChat,还复刻了完整的RLHF过程,是目前最接近ChatGPT原始技术路线的开源项目。

中英双语训练数据集

ColossalChat发布了一个双语数据集,其中包含大约100,000个中英文问答对。

该数据集是从社交媒体平台上的真实问题场景中收集和清理的,作为种子数据集,使用self-instruct进行扩展,标注成本约为900美元。

与其他self-instruct方法生成的数据集相比,该数据集包含更真实和多样化的种子数据,涵盖更广泛的主题。

该数据集适用于微调和RLHF训练。在提供优质数据的情况下,ColossalChat可以实现更好的对话交互,同时也支持中文。

 完整的RLHF管线

RLHF的算法复刻共有三个阶段:

在RLHF-Stage1中,使用上述双语数据集进行监督指令微调以微调模型。

在RLHF-Stage2中,通过对同一提示的不同输出手动排序来训练奖励模型分配相应的分数,然后监督奖励模型的训练。

在RLHF-Stage3中,使用了强化学习算法,这是训练过程中最复杂的部分。

相信很快,就会有更多项目发布。

谁也没想到,这场LLaMA的意外泄露,竟点燃了开源LLM领域最大的创新火花。

以上是開發者笑瘋了! LLaMa驚天洩漏引爆ChatGPT平替狂潮,開源LLM領域變天的詳細內容。更多資訊請關注PHP中文網其他相關文章!

陳述:
本文轉載於:51cto.com。如有侵權,請聯絡admin@php.cn刪除