大模型的發展可謂一日千里,指令微調方法猶如雨後春筍般湧現,大量所謂的 ChatGPT “平替” 大模型相繼發布。在大模型的訓練與應用開發中,開源、閉源以及自研等各類大模型真實能力的評測已成為提升研發效率與品質的重要環節。
具體來說,在大模型的訓練與應用中,大家可能曾經遇到以下問題:
1、在大模型微調或增強預訓練中使用了不同的基座和參數,根據觀察到的樣例效果,模型的表現在不同場景下各有優劣,如何確定在實際應用中使用哪個模型?
2、使用 ChatGPT 對模型輸出進行評估,但是 ChatGPT 對相同輸入在不同時間得到的評估結果不同,到底採用哪個評估結果?
3、採用人工標註對模型產生結果進行評測耗時費力,在經費預算有限和時間緊迫的情況下,如何加速評估過程並降低成本?
4、在處理機密資料時,不管用 ChatGPT/GPT4 或標註公司進行模型評測都面臨資料外洩問題,如何確保資料安全?
基於這些問題,來自北京大學、西湖大學等機構的研究者共同提出了一種全新的大模型評估範式——PandaLM。 PandaLM 透過訓練一個專門用於評估的大模型,對大模型能力進行自動化且可重複的測試驗證。 PandaLM 於 4 月 30 日在 GitHub 上發布,是全球首個評估大模型的大模型。相關論文會在近期公佈。
GitHub網址:https://github.com/WeOpenML/PandaLM
#PandaLM 旨在透過訓練使得大模型學習到人類對不同大模型生成文本的總體偏好,並作出基於偏好的相對評價,以替代人工或基於API 的評價方式,降本增效。 PandaLM 的權重完全公開,可以在消費級硬體上運行,硬體門檻低。 PandaLM 的評估結果可靠,完全可復現,並且能夠保護資料安全,評估過程均可本地完成,非常適合學術界和需要保密資料的單位使用。使用 PandaLM 非常簡單,只需三行程式碼即可呼叫。為驗證 PandaLM 的評估能力,PandaLM 團隊邀請了三位專業標註員對不同大模型的輸出進行獨立的優劣判斷,並建構了包含 50 個領域、1000 個樣本的多樣化測試集。在此測試集上,PandaLM 的準確率達到了 ChatGPT 94% 的水平,且 PandaLM 產生了和人工標註相同的模型優劣結論。
PandaLM介紹
目前,主要有兩種方式來評估大型模型:
(1)透過呼叫第三方公司的API 介面;
(2)僱用專家進行手動標註。
然而,將資料傳送給第三方公司可能導致類似三星員工外洩程式碼的資料外洩問題 [1];而僱用專家標註大量資料既耗時又昂貴。一個亟待解決的問題是:如何實現保護隱私、可靠、可重現及廉價的大模型評估?
為了克服這兩個評估方法的局限,該研究開發了PandaLM,一個專門用於評估大型模型性能的裁判模型,並提供簡單的接口,用戶只需三行程式碼便可呼叫PandaLM 實現隱私保護、可靠、可重複且經濟的大型模型評估。關於 PandaLM 的訓練細節,請參閱開源專案。
為了驗證 PandaLM 在評估大型模型方面的能力,研究團隊建構了一個包含約 1,000 個樣本的多樣化人工標註測試集,其上下文和標籤均由人類產生。在測試資料集上,PandaLM-7B 在準確度達到了 ChatGPT(gpt-3.5-turbo)的 94% 的水平。
如何使用 PandaLM?
當兩個不同的大型模型針對相同的指令和上下文產生不同的回應時,PandaLM 的目標是比較這兩個模型回應的質量,並輸出比較結果、比較依據以及可供參考的回應。比較結果有三種:回應 1 較優;回應 2 較優;回應 1 和回應 2 品質相當。在比較多個大型模型的效能時,只需使用 PandaLM 進行兩兩比較,然後彙總這些比較結果來對模型的效能進行排名或繪製模型的偏序關係圖。這樣可以直觀地分析不同模型之間的表現差異。由於 PandaLM 僅需在本地部署,且不需要人工參與,因此可以以保護隱私和低成本的方式進行評估。為了提供更好的可解釋性,PandaLM 亦可用自然語言對其選擇進行解釋,並額外產生一組參考回應。
PandaLM 不僅支援使用Web UI 以便於進行案例分析,還支援三行程式碼呼叫PandaLM 對任意模型和數據生成的文本評估。考慮到許多現有模型和框架可能不是開源的或難以在本地進行推理,PandaLM 允許透過指定模型權重生成待評估文本,或直接傳入包含待評估文本的 .json 文件。使用者只需提供一個包含模型名稱、HuggingFace 模型 ID 或 .json 檔案路徑的列表,即可利用 PandaLM 對使用者定義的模型和輸入資料進行評估。以下是一個極簡的使用範例:
#此外,為了讓大家能夠靈活地運用PandaLM 進行自由評估,研究團隊已在HuggingFace 網站上公開了PandaLM 的模型權重。透過下列命令,您可以輕鬆地載入PandaLM-7B 模型:
PandaLM 的特點
PandaLM 的特點包括可重複性、自動化、隱私保護、低成本及高評估等級等。
1. 可複現性:由於PandaLM 的權重是公開的,即使語言模型輸出存在隨機性,但在固定隨機種子後,PandaLM 的評估結果仍會保持一致。而依賴線上 API 的評估手段由於更新不透明,其評估結果在不同時間可能不一致,且隨著模型迭代,API 中的舊版模型可能無法再訪問,因此基於線上 API 的評測往往不具有可複現性。
2. 自動化、隱私權保護與低成本:使用者只需在本地部署PandaLM 模型,呼叫現成指令即可評估各類大模型,無需像僱用專家那樣需保持即時溝通且擔心資料外洩問題。同時,PandaLM 整個評估過程中不涉及任何 API 費用以及勞務費用,非常廉價。
3. 評估等級:為驗證 PandaLM 的可靠性,該研究僱用了三位專家獨立完成重複標註,創建了一個人工標註測試集。此測試集包含 50 個不同場景,每個場景下方還包含多個任務。這個測試集是多樣化、可靠且與人類對文本的偏好相一致的。測試集中的每個樣本由指令與上下文,以及兩個由不同大模型產生的回應組成,並由人類來比較這兩個回應的品質。
研究剔除了標註員間差異較大的樣本,確保每位標註者在最終測試集上的 IAA(Inter Annotator Agreement)接近 0.85。需要注意的是,PandaLM 訓練集與本研究創建的人工標註測試集完全無重疊。
這些被過濾的樣本需要額外的知識或難以獲得的資訊來輔助判斷,這使得人類也難以對它們進行準確標註。經過篩選的測試集包含 1000 個樣本,而原始未經過濾的測試集包含 2500 個樣本。測試集的分佈為 {0:105,1:422,2:472},其中,0 表示兩個回應品質相似;1 表示回應 1 較好;2 表示回應 2 較好。
以人類測試集為基準,PandaLM 與gpt-3.5-turbo 的效能比較如下:
##可以看到,PandaLM-7B 在準確度上已經達到了gpt-3.5-turbo 94% 的水平,而在精確率,召回率,F1 分數上,PandaLM-7B 已於gpt -3.5-turbo 相差無幾。可以說,PandaLM-7B 已經具備了與 gpt-3.5-turbo 相當的大模式評估能力。
除了在測試集上的準確度,精確率,召回率,F1 分數之外,該研究還提供了5 個大小相近且開源的大模型之間比較的結果。研究首先使用了相同的訓練資料對這個 5 個模型進行指令微調,接著用人類,gpt-3.5-turbo,PandaLM 對這 5 個模型分別進行兩兩比較。下表中第一行第一個元組(72,28,11)表示有72 個LLaMA-7B 的回應比Bloom-7B 的好,有28 個LLaMA-7B 的回應比Bloom-7B 的差,兩個模型有11 個回應品質相似。因此在這個例子中,人類認為 LLaMA-7B 優於 Bloom-7B。以下三張表的結果說明人類,gpt-3.5-turbo 與 PandaLM-7B 對於各個模型之間優劣關係的判斷完全一致。
基於上述三張表,研究產生了模型優劣的偏序圖,這個偏序圖構成了全序關係,可以表示為:LLaMA-7B > Bloom-7B > Pythia-6.9B > OPT-7B > Cerebras-GPT-6.7B。
#綜上所述,PandaLM 提供了除了人工評估和第三方API 外的第三種評估大型模型的選擇。 PandaLM的評估水準不僅高,而且其結果具備可重現性,評估流程高度自動化,同時保護隱私且成本較低。研究團隊認為,PandaLM將推動學術界和工業界對大型模型的研究,並使更多人從這一研究領域的進展中受益。歡迎大家關注PandaLM 項目,更多的訓練、測試細節、相關文章及後續工作都會公佈在項目網址:https://github.com/WeOpenML/PandaLM
作者團隊簡介
作者團隊中,王一棟* 來自北京大學軟體工程國家工程中心(博士)和西湖大學(科研助理),於倬浩*、曾政然、蔣超亞、謝睿、葉蔚† 和張世琨† 來自北京大學軟體工程國家工程中心,楊林易、王存翔和張岳† 來自西湖大學,衡強來自北卡萊羅納州立大學,陳皓來自卡耐基美隆大學,王晉東和謝幸來自微軟亞洲研究院。 * 表示共同第一作者,† 表示共同通訊作者。
以上是可複現、自動化、低成本、高評估水平,首個自動化評估大模型的大模型PandaLM來了的詳細內容。更多資訊請關注PHP中文網其他相關文章!

介紹 想像一下,當一條進攻性帖子突然出現時,您正在瀏覽自己喜歡的社交媒體平台。在您點擊報告按鈕之前,它已經消失了。那是內容主音

介紹 在當今數據繁多的世界中,處理龐大的數據集可能會令人不知所措。這就是洞察力的來源。它旨在使探索您的數據變得輕而易舉。只需上傳您的數據集,您就會獲得Instan

介紹 想像一下,開發與對話相同的應用程序。將沒有復雜的開發環境可以設置,也無需查看配置文件。將概念轉換為有價值的應用程序

最近,隨著大語言模型和AI的興起,我們看到了自然語言處理方面的無數進步。文本,代碼和圖像/視頻生成等域中的模型具有存檔的人類的推理和P

介紹 從面部圖像中檢測性別是計算機視覺的眾多迷人應用之一。在這個項目中,我們將OpenCV結合在一起,以解決位置與性別分類的Roboflow API

介紹 自易貨系統概念以來,廣告世界一直在進化。廣告商找到了創造性的方法來引起我們的關注。在當前年齡,消費者期望BR

介紹 9月12日,OpenAI發布了一項名為“與LLM的學習推理”的更新。他們介紹了O1模型,該模型是使用強化學習來應對複雜推理任務的訓練。是什麼設置了此mod


熱AI工具

Undresser.AI Undress
人工智慧驅動的應用程序,用於創建逼真的裸體照片

AI Clothes Remover
用於從照片中去除衣服的線上人工智慧工具。

Undress AI Tool
免費脫衣圖片

Clothoff.io
AI脫衣器

AI Hentai Generator
免費產生 AI 無盡。

熱門文章

熱工具

Atom編輯器mac版下載
最受歡迎的的開源編輯器

SecLists
SecLists是最終安全測試人員的伙伴。它是一個包含各種類型清單的集合,這些清單在安全評估過程中經常使用,而且都在一個地方。 SecLists透過方便地提供安全測試人員可能需要的所有列表,幫助提高安全測試的效率和生產力。清單類型包括使用者名稱、密碼、URL、模糊測試有效載荷、敏感資料模式、Web shell等等。測試人員只需將此儲存庫拉到新的測試機上,他就可以存取所需的每種類型的清單。

DVWA
Damn Vulnerable Web App (DVWA) 是一個PHP/MySQL的Web應用程序,非常容易受到攻擊。它的主要目標是成為安全專業人員在合法環境中測試自己的技能和工具的輔助工具,幫助Web開發人員更好地理解保護網路應用程式的過程,並幫助教師/學生在課堂環境中教授/學習Web應用程式安全性。 DVWA的目標是透過簡單直接的介面練習一些最常見的Web漏洞,難度各不相同。請注意,該軟體中

SublimeText3 Linux新版
SublimeText3 Linux最新版

EditPlus 中文破解版
體積小,語法高亮,不支援程式碼提示功能