隨著大規模語言模式的日漸強大,人們對 AI 模式提出了倫理道德的更高要求。業界在模型規模擴展上有算力資源優勢,但要讓模型更規範可靠,需要學術界的努力。
近日,史丹佛基於 Meta 的 LLaMA 7B 模型微調出一個新模型 Alpaca。研究讓 OpenAI 的 text-davinci-003 模型以 self-instruct 方式產生 52K 指令遵循(instruction-following)樣本,以此作為 Alpaca 的訓練資料。研究團隊已將訓練資料、產生訓練資料的程式碼和超參數開源,後續也將發布模型權重和訓練程式碼。
- #專案網址:https://github.com/tatsu-lab/stanford_alpaca
- 試用網址:https://alpaca-ai-custom6.ngrok.io/
##實驗結果表明,Alpaca 的許多行為都與text-davinci-003 類似。也就是說,只有 7B 參數的輕量級模型 Alpaca 效能可媲美 GPT-3.5 這樣的超大規模語言模型。
我們來看看 Alpaca 模型是如何做到的。
訓練方法在學術界的預算條件下,訓練高品質的指令遵循模型面臨兩個重要挑戰:強大的預訓練語言模型和高品質的指令遵循數據。
Meta 最近發布的 LLaMA 系列模型解決了第一個挑戰。對於第二個挑戰,2022 年底的 self-instruct 論文提出使用現有的強大語言模型自動產生指令資料。
#論文網址:https://arxiv.org/abs/2212.10560
依照這個方法,Alpaca 使用LLaMA 7B 模型的監督學習在text-davinci-003 以self-instruct 方式產生的52K 指令遵循樣本上進行微調。
#self-instruct 方法概覽。
Alpaca 的研究團隊首先使用self-instruct 種子集中的175 個人工編寫的指令輸出(instruction-output)對,然後用該種子集作為in-context 樣本prompt text-davinci-003 來產生更多指令。該研究透過簡化產生 pipeline 改進了 self-instruct 方法,並顯著降低了成本。
該研究共生成了52K 個不同的指令和相應的輸出作為訓練數據,其中使用了OpenAI 開放的API,成本不到500 美元。由於研究團隊已將訓練資料開源,對於想要復現 Alpaca 的開發者來說,這500美元就省下了。
有了這個指令遵循資料集,該研究下一步使用Hugging Face 的訓練框架微調了LLaMA 模型,並利用了FSDP(Fully Sharded Data Parallel)和混合精度訓練等技術。成本方面,在 8 個 80GB A100 上微調一個 7B LLaMA 模型需要 3 個小時,這對大多數雲端運算供應商來說成本不到 100 美元。
模型評估該研究使用來自 self-instruct 評估集的輸入進行了人工評估,這項工作由 5 名研究團隊的學生完成。該評估集由 self-instruct 論文的作者收集整理,涵蓋了多種用戶導向的 instruction,涉及電子郵件、社交媒體和辦公室工具。
在將 text-davinci-003 和 Alpaca 7B 進行 blind pairwise 比較之後,研究者發現這兩個模型的性能非常相似,並且 Alpaca 略優於 text-davinci-003。
從參數規模的角度來看,Alpaca 遠遠小於 text-davinci-003,行動端甚至也可以運行 7B 的輕量級語言模型。這讓 Alpaca 意義非凡。
除了利用上述靜態的 self-instruct 評估集,該研究還對 Alpaca 模型進行了交互測試,並發現 Alpaca 的表現通常與 text-davinci-003 相似。
以下是研究團隊測試的兩個例子,結果顯示 Alpaca 的輸出良好,並且反映出指令遵循資料集的一般風格。例如,Alpaca 輸出的答案通常比 ChatGPT 更簡潔,這和 text-davinci-003 類似。
模型缺陷
在實驗中,Alpaca 也表現出語言模型的幾個常見缺陷,包括幻覺、毒性和刻板印象,其中幻覺問題尤其嚴重。
例如在下圖中,Alpaca 回答坦尚尼亞的首都是達累斯薩拉姆,但實際上應該是多多馬。
此外,Alpaca 能夠產生一些看似良好卻包含錯誤或虛假資訊的文本,這可能會誤導人們。
Alpaca 可能包含許多與底層語言模型和指令調優資料相關的其他缺陷。但是,Alpaca 對機器學習社群仍然具有重要意義,因為它提供了一個相對輕量級的模型,可作為研究重要缺陷的基礎。史丹佛的研究團隊也強調:Alpaca 只可用於學術研究,禁止任何商業用途。
接下來,史丹佛的研究團隊會進一步探究 Alpaca 模型的安全性、理解能力、規模擴展等等。研究團隊希望 Alpaca 能夠促進指令遵循模型的發展。
以上是史丹佛70億參數開源模型媲美GPT-3.5,100美元即可復現的詳細內容。更多資訊請關注PHP中文網其他相關文章!

使用Gemma範圍探索語言模型的內部工作 了解AI語言模型的複雜性是一個重大挑戰。 Google發布的Gemma Scope是一種綜合工具包,為研究人員提供了一種強大的探索方式

解鎖業務成功:成為商業智能分析師的指南 想像一下,將原始數據轉換為驅動組織增長的可行見解。 這是商業智能(BI)分析師的力量 - 在GU中的關鍵作用

SQL的Alter表語句:動態地將列添加到數據庫 在數據管理中,SQL的適應性至關重要。 需要即時調整數據庫結構嗎? Alter表語句是您的解決方案。本指南的詳細信息添加了Colu

介紹 想像一個繁華的辦公室,兩名專業人員在一個關鍵項目中合作。 業務分析師專注於公司的目標,確定改進領域,並確保與市場趨勢保持戰略一致。 simu

Excel 數據計數與分析:COUNT 和 COUNTA 函數詳解 精確的數據計數和分析在 Excel 中至關重要,尤其是在處理大型數據集時。 Excel 提供了多種函數來實現此目的,其中 COUNT 和 COUNTA 函數是用於在不同條件下統計單元格數量的關鍵工具。雖然這兩個函數都用於計數單元格,但它們的設計目標卻針對不同的數據類型。讓我們深入了解 COUNT 和 COUNTA 函數的具體細節,突出它們獨特的特性和區別,並學習如何在數據分析中應用它們。 要點概述 理解 COUNT 和 COU

Google Chrome的AI Revolution:個性化和高效的瀏覽體驗 人工智能(AI)正在迅速改變我們的日常生活,而Google Chrome正在領導網絡瀏覽領域的負責人。 本文探討了興奮

重新構想影響:四倍的底線 長期以來,對話一直以狹義的AI影響來控制,主要集中在利潤的最低點上。但是,更全面的方法認識到BU的相互聯繫

事情正穩步發展。投資投入量子服務提供商和初創企業表明,行業了解其意義。而且,越來越多的現實用例正在出現以證明其價值超出


熱AI工具

Undresser.AI Undress
人工智慧驅動的應用程序,用於創建逼真的裸體照片

AI Clothes Remover
用於從照片中去除衣服的線上人工智慧工具。

Undress AI Tool
免費脫衣圖片

Clothoff.io
AI脫衣器

AI Hentai Generator
免費產生 AI 無盡。

熱門文章

熱工具

WebStorm Mac版
好用的JavaScript開發工具

Dreamweaver CS6
視覺化網頁開發工具

Atom編輯器mac版下載
最受歡迎的的開源編輯器

DVWA
Damn Vulnerable Web App (DVWA) 是一個PHP/MySQL的Web應用程序,非常容易受到攻擊。它的主要目標是成為安全專業人員在合法環境中測試自己的技能和工具的輔助工具,幫助Web開發人員更好地理解保護網路應用程式的過程,並幫助教師/學生在課堂環境中教授/學習Web應用程式安全性。 DVWA的目標是透過簡單直接的介面練習一些最常見的Web漏洞,難度各不相同。請注意,該軟體中

Safe Exam Browser
Safe Exam Browser是一個安全的瀏覽器環境,安全地進行線上考試。該軟體將任何電腦變成一個安全的工作站。它控制對任何實用工具的訪問,並防止學生使用未經授權的資源。