搜尋
首頁科技週邊人工智慧開發者笑瘋了! LLaMa驚天洩漏引爆ChatGPT平替狂潮,開源LLM領域變天

誰能想到,一次意外的LLaMA洩漏,竟點燃了開源LLM領域最大的創新火花。

一系列表現出色的ChatGPT開源替代品——「羊駝家族」,隨後眼花撩亂地登場。

開源和基於 API 的分發之間的摩擦,是生成式AI生態系統中最迫在眉睫的矛盾之一。

在文字到圖像領域,Stable Diffusion的發布清楚地表明,對於基礎模型來說,開源是一種可行的分發機制。

然而,在大語言模型領域卻並非如此,這個領域最大的突破,例如GPT-4、Claude和Cohere等模型,都只能透過API。

這些模型的開源替代品並沒有表現出相同程度的效能,特別是在遵循人類指令能力上。然而,一場意想不到的洩露,讓這種狀況徹底改變了。

LLaMA的「史詩級」洩漏

幾週前,Meta AI推出了大語言模型LLaMA 。

LLaMA 有不同的版本,包括7B、13B、33B和65B的參數,雖然它比GPT-3小,但在許多任務上,它都能和GPT-3的性能相媲美。

LLaMA 起初並未開源,但在發布一周後,這個模型忽然在4chan上洩露了,引發了數千次下載。

這個事件,可以被稱為「史詩級洩漏」了,因為它成為了大語言模型領域層出不窮的創新來源。

短短幾週內,基於它所建構的LLM代理商的創新,已經呈現爆炸性成長。

Alpaca、Vicuna、Koala、ChatLLaMA 、FreedomGPT、ColossalChat…… 讓我們來回顧一下,這場「羊駝家族」的大爆炸,是如何誕生的。

Alpaca在三月中旬,史丹佛發布的大模型Alpaca火了。 

Alpaca是Meta的LLaMA 7B微調而來的全新模型,僅用了52k數據,效能約等於GPT-3.5。

關鍵是訓練成本奇低,不到600美元。

史丹佛研究者對GPT-3.5(text-davinci-003)和Alpaca 7B進行了比較,發現這兩個模型的表現非常相似。 Alpaca在與GPT-3.5的比較中,獲勝次數為90對89。

對史丹佛的團隊來說,想要在預算內訓練一個高品質的指令遵循模型,就必須面對2個重要的挑戰:要有一個強大的預訓練語言模型,以及一個高品質的指令遵循數據。

恰恰,提供給學術研究人員使用的LLaMA模型搞定了第一個問題。

對於第二個挑戰,「Self-Instruct: Aligning Language Model with Self Generated Instructions」論文給了很好的啟發,即使用現有的強語言模型來自動生成指令數據。

LLaMA模型最大的弱點,就是缺乏指令微調。 OpenAI最大的創新之一就是將指令調優用在了GPT-3。

對此,史丹佛使用了現有的大語言模型,來自動產生遵循指令演示。

現在,Alpaca直接被網友們奉為「文本大模型的Stable Diffusion」。

Vicuna3月底,來自UC柏克萊、卡內基美隆大學、史丹佛大學和加州大學聖地牙哥分校的研究人員開源了Vicuna,這是一個與GPT-4性能相匹配的LLaMA微調版本。

130億參數的Vicuna,透過在ShareGPT收集的用戶共享對話上對LLaMA進行微調訓練而來,訓練成本近300美元。

結果顯示Vicuna-13B在超過90%的情況下,實現了與ChatGPT和Bard相匹敵的能力。

開發者笑瘋了! LLaMa驚天洩漏引爆ChatGPT平替狂潮,開源LLM領域變天

對於Vicuna-13B訓練流程,具體如下:

首先,研究者從ChatGPT對話在分享網站ShareGPT上,收集了大約70K對話。

接下來,研究人員優化了Alpaca提供的訓練腳本,使模型能夠更好地處理多輪對話和長序列。之後利用PyTorch FSDP在8個A100 GPU上進行了一天的訓練。

在模型的品質評估方面,研究人員創建了80個不同的問題,並用GPT-4對模型輸出進行了評估。

為了比較不同的模型,研究人員將每個模型的輸出組合成一個單獨的提示,然後讓GPT-4評估哪個模型給出的答案會更好。

開發者笑瘋了! LLaMa驚天洩漏引爆ChatGPT平替狂潮,開源LLM領域變天

LLaMA、Alpaca、Vicuna和ChatGPT的對比

Koala

最近,UC伯克利AI Research Institute(BAIR)又發布了一個新模型“考拉”(Koala),相比之前使用OpenAI的GPT數據進行指令微調,Koala的不同之處在於使用網絡獲取的高品質資料進行訓練。

研究結果表明,Koala可以有效地回答各種用戶的查詢,產生的答案往往比Alpaca更受歡迎,至少在一半的情況下與ChatGPT的效果不相上下。

研究人員希望這次實驗的結果可以進一步推動圍繞大型閉源模型相對於小型公共模型的相對性能的討論,特別是結果表明,對於那些能在本地運行的小模型,如果認真地收集訓練數據,也可以取得大模型的表現。

開發者笑瘋了! LLaMa驚天洩漏引爆ChatGPT平替狂潮,開源LLM領域變天

事實上,在此之前史丹佛大學發布的Alpaca模型,根據OpenAI的GPT模型對LLaMA的數據進行微調的實驗結果已經表明,正確的數據可以顯著改善規模較小的開源模型。

這也是柏克萊的研究人員開發和發布Koala模型的初衷,希望為這個討論結果再提供了一個實驗證明。

Koala對從網路上取得的免費互動資料進行了微調,並且特別關注包含與ChatGPT 等高效能閉源模型互動的資料。

研究人員並沒有追求盡可能多的抓取網路資料來最大化資料量,而是專注於收集一個小型的高品質資料集,包括ChatGPT蒸餾資料、開源數據等。

ChatLLaMA

Nebuly開源了ChatLLaMA ,這是一個使用讓我們使用自己的資料建立對話助理的框架。

ChatLLaMA讓我們使用自己的資料和盡可能少的運算量,來創造超個人化的類似ChatGPT的助手。

假設在未來,我們不再依賴一個「統治所有人」的大型助手,每個人都可以創造自己的個人化版本類ChatGPT助手,它們可以支持人類的各種需求。

不過,創建這種個人化助手需要在許多方面做出努力:資料集創建,使用RLHF進行高效訓練,以及推理優化。

這個函式庫的目的是,透過抽象運算來最佳化和收集大量資料所需的工作,讓開發人員高枕無憂。

ChatLLaMA旨在幫助開發人員處理各種用例,所有用例都與RLHF訓練和最佳化推理有關。以下是一些用例參考:

  • 為垂直特定任務(法律、醫療、遊戲、學術研究等)創建類似ChatGPT的個人化助手;
  • 想在本地硬體基礎設施上使用有限的數據,訓練一個高效的類似ChatGPT的助手;
  • 想創建自己的個人化版本類ChatGPT助手,同時避免成本失控;
  • 想了解哪種模型架構(LLaMA、OPT、GPTJ等)最符合我在硬體、運算預算和效能方面的要求;
  • 想讓助理與我的個人/公司價值觀、文化、品牌和宣言保持一致。

FreedomGPT

FreedomGPT使用Electron 和 React構建,它是一個桌面應用程序,允許用戶在他們的本地機器上運行LLaMA。

FreedomGPT的特色,從它的名字就可見一斑——它回答的問題不受任何審查或安全過濾。

這個程式由AI創投公司Age of AI開發。

FreedomGPT 建立在 Alpaca 之上。FreedomGPT使用Alpaca的显著特征,因为与其他模型相比,Alpaca相对更易于访问和定制。

ChatGPT遵循OpenAI的使用政策,限制仇恨、自残、威胁、暴力、性方面的内容。

与ChatGPT不同,FreedomGPT回答问题时没有偏见或偏袒,并且会毫不犹豫地回答有争议或争论性的话题。

​FreedomGPT甚至还回答了「如何在家制造炸弹」,而OpenAI专门从GPT-4中删除了这一点。

FreedomGPT很独特,因为它克服了审查限制,在没有任何保障的情况下迎合有争议的话题。它的标志是自由女神像,因为这个独特而大胆的大语言模型象征了自由。

FreedomGPT甚至可以在不需要联网的情况下,就能在计算机上本地运行。

此外,开源版本将很快发布,使用户和组织可以完全定制。

ColossalChat

UC伯克利提出的ColossalChat只需要不到100亿个参数就可以达到中英文双语能力,效果与ChatGPT和GPT-3.5相当。

此外,基于LLaMA模型的ColossalChat,还复刻了完整的RLHF过程,是目前最接近ChatGPT原始技术路线的开源项目。

中英双语训练数据集

ColossalChat发布了一个双语数据集,其中包含大约100,000个中英文问答对。

该数据集是从社交媒体平台上的真实问题场景中收集和清理的,作为种子数据集,使用self-instruct进行扩展,标注成本约为900美元。

与其他self-instruct方法生成的数据集相比,该数据集包含更真实和多样化的种子数据,涵盖更广泛的主题。

该数据集适用于微调和RLHF训练。在提供优质数据的情况下,ColossalChat可以实现更好的对话交互,同时也支持中文。

 完整的RLHF管线

RLHF的算法复刻共有三个阶段:

在RLHF-Stage1中,使用上述双语数据集进行监督指令微调以微调模型。

在RLHF-Stage2中,通过对同一提示的不同输出手动排序来训练奖励模型分配相应的分数,然后监督奖励模型的训练。

在RLHF-Stage3中,使用了强化学习算法,这是训练过程中最复杂的部分。

相信很快,就会有更多项目发布。

谁也没想到,这场LLaMA的意外泄露,竟点燃了开源LLM领域最大的创新火花。

以上是開發者笑瘋了! LLaMa驚天洩漏引爆ChatGPT平替狂潮,開源LLM領域變天的詳細內容。更多資訊請關注PHP中文網其他相關文章!

陳述
本文轉載於:51CTO.COM。如有侵權,請聯絡admin@php.cn刪除
META的新AI助手:生產力助推器還是時間下沉?META的新AI助手:生產力助推器還是時間下沉?May 01, 2025 am 11:18 AM

Meta攜手Nvidia、IBM和Dell等合作夥伴,拓展了Llama Stack的企業級部署整合。在安全方面,Meta推出了Llama Guard 4、LlamaFirewall和CyberSecEval 4等新工具,並啟動了Llama Defenders計劃,以增強AI安全性。此外,Meta還向10個全球機構(包括致力於改善公共服務、醫療保健和教育的初創企業)發放了總額150萬美元的Llama Impact Grants。 由Llama 4驅動的全新Meta AI應用,被設想為Meta AI

80%的Zers將嫁給AI:研究80%的Zers將嫁給AI:研究May 01, 2025 am 11:17 AM

公司開創性的人類互動公司Joi AI介紹了“ AI-Iatsionship”一詞來描述這些不斷發展的關係。 Joi AI的關係治療師Jaime Bronstein澄清說,這並不是要取代人類C

AI使互聯網的機器人問題變得更糟。這家耗資20億美元的創業公司在前線AI使互聯網的機器人問題變得更糟。這家耗資20億美元的創業公司在前線May 01, 2025 am 11:16 AM

在線欺詐和機器人攻擊對企業構成了重大挑戰。 零售商與機器人ho積產品,銀行戰斗帳戶接管以及社交媒體平台與模仿者鬥爭。 AI的興起加劇了這個問題,Rende

賣給機器人:將創造或破壞業務的營銷革命賣給機器人:將創造或破壞業務的營銷革命May 01, 2025 am 11:15 AM

AI代理人有望徹底改變營銷,並可能超過以前技術轉變的影響。 這些代理代表了生成AI的重大進步,不僅是處理諸如chatgpt之類的處理信息,而且還採取了Actio

計算機視覺技術如何改變NBA季后賽主持人計算機視覺技術如何改變NBA季后賽主持人May 01, 2025 am 11:14 AM

人工智能對關鍵NBA遊戲4決策的影響 兩場關鍵遊戲4 NBA對決展示了AI在主持儀式中改變遊戲規則的角色。 首先,丹佛的尼古拉·喬基奇(Nikola Jokic)錯過了三分球,導致亞倫·戈登(Aaron Gordon)的最後一秒鐘。 索尼的鷹

AI如何加速再生醫學的未來AI如何加速再生醫學的未來May 01, 2025 am 11:13 AM

傳統上,擴大重生醫學專業知識在全球範圍內要求廣泛的旅行,動手培訓和多年指導。 現在,AI正在改變這一景觀,克服地理局限性並通過EN加速進步

Intel Foundry Direct Connect 2025的關鍵要點Intel Foundry Direct Connect 2025的關鍵要點May 01, 2025 am 11:12 AM

英特爾正努力使其製造工藝重回領先地位,同時努力吸引無晶圓廠半導體客戶在其晶圓廠製造芯片。為此,英特爾必須在業界建立更多信任,不僅要證明其工藝的競爭力,還要證明合作夥伴能夠以熟悉且成熟的工作流程、一致且高可靠性地製造芯片。今天我聽到的一切都讓我相信英特爾正在朝著這個目標前進。 新任首席執行官譚立柏的主題演講拉開了當天的序幕。譚立柏直率而簡潔。他概述了英特爾代工服務的若干挑戰,以及公司為應對這些挑戰、為英特爾代工服務的未來規劃成功路線而採取的措施。譚立柏談到了英特爾代工服務正在實施的流程,以更以客

AI出了問題嗎?現在在那里為此保險AI出了問題嗎?現在在那里為此保險May 01, 2025 am 11:11 AM

全球專業再保險公司Chaucer Group和Armilla AI解決了圍繞AI風險的日益嚴重的問題,已聯手引入了新型的第三方責任(TPL)保險產品。 該政策保護業務不利

See all articles

熱AI工具

Undresser.AI Undress

Undresser.AI Undress

人工智慧驅動的應用程序,用於創建逼真的裸體照片

AI Clothes Remover

AI Clothes Remover

用於從照片中去除衣服的線上人工智慧工具。

Undress AI Tool

Undress AI Tool

免費脫衣圖片

Clothoff.io

Clothoff.io

AI脫衣器

Video Face Swap

Video Face Swap

使用我們完全免費的人工智慧換臉工具,輕鬆在任何影片中換臉!

熱工具

記事本++7.3.1

記事本++7.3.1

好用且免費的程式碼編輯器

SublimeText3 Mac版

SublimeText3 Mac版

神級程式碼編輯軟體(SublimeText3)

SecLists

SecLists

SecLists是最終安全測試人員的伙伴。它是一個包含各種類型清單的集合,這些清單在安全評估過程中經常使用,而且都在一個地方。 SecLists透過方便地提供安全測試人員可能需要的所有列表,幫助提高安全測試的效率和生產力。清單類型包括使用者名稱、密碼、URL、模糊測試有效載荷、敏感資料模式、Web shell等等。測試人員只需將此儲存庫拉到新的測試機上,他就可以存取所需的每種類型的清單。

SublimeText3漢化版

SublimeText3漢化版

中文版,非常好用

Dreamweaver Mac版

Dreamweaver Mac版

視覺化網頁開發工具