給大模型評分的基準可靠嗎？ Anthropic來了次大評估-人工智慧-PHP中文網

首頁

科技週邊

人工智慧

給大模型評分的基準可靠嗎？ Anthropic來了次大評估

PHPz

Nov 06, 2023 pm 12:13 PM

產業anthropic

在大模型（LLM）盛行的當下，評估AI 系統成為了重要的一環，在評估過程中都會遇到哪些困難，Anthropic 的一篇文章為我們揭開了答案。

現階段，圍繞著人工智慧（AI）對社會影響的大多數討論歸結為AI 系統的某些屬性，例如真實性、公平性、濫用的可能性等。但現在面臨的問題是，許多研究人員並沒有完全意識到建立穩健可靠的模型評估是多麼困難。現今許多現有的評估套件在各方面的表現都很有限。

AI 新創公司 Anthropic 近日在其官方網站上貼出了一篇文章《評估 AI 系統所面臨的挑戰》。文中寫道，他們花了很長的時間來建立對 AI 系統的評估，以便更好地理解 AI 系統。

給大模型評分的基準可靠嗎？ Anthropic來了次大評估

文章網址：https://www.anthropic.com/index/evaluating-ai-systems

本文主要從以下幾個面向展開討論：

多項選擇評估（Multiple choice evaluations）；
利用第三方評估框架，如BIG-bench 和HELM；
讓工作人員來衡量模型是有益的還是有害的；
讓領域專家對相關威脅進行紅隊分析（red team）；
使用生成式AI 來發展評估方法；
#與非營利組織合作，審核模型是否具有危害。

多項選擇評估面臨的挑戰

多項選擇評估看似簡單，其實不然。本文討論了模型在 MMLU（Measuring Multitask Language Understanding）和 BBQ（Bias Benchmark for QA）基準上的挑戰。

MMLU 資料集

MMLU 是一個包含57 個多重選擇問答任務的英文評測資料集，涵蓋數學、歷史、法律等，是目前主流的LLM評測資料集。準確率越高，代表模型的能力越強。但本文發現使用 MMLU 有四個挑戰：

1. 由於 MMLU 被廣泛使用，因而就不可避免的遇到這種情況，模型在訓練過程中更容易將 MMLU 資料納入進來。這和學生在考試前看到題目是一樣的 —— 這是作弊。

2. 對簡單的格式變化敏感，例如將選項從(A) 更改為(1)，或在選項和答案之間添加額外的空格，這些做法都可能導致評估準確率約有5% 的浮動。

3. 有些開發人員有針對性的來提升 MMLU 分數，例如少樣本學習或思考鏈推理。因此，在比較各實驗室的 MMLU 分數時必須非常小心。

4.MMLU 可能沒有經過仔細的校對 —— 有研究者在 MMLU 中發現了標籤錯誤或無法回答的例子。

由於上述問題，因而在進行這種簡單且標準化的評估時，有必要事先做出判斷和思考。本文表明，在使用 MMLU 中遇到的挑戰通常也適用於其他類似的多項選擇評估。

BBQ

多項選擇評估也可以測量一些 AI 危害。具體而言，Anthropic 的研究者為了在自家模型 Claude 中衡量這些危害，他們使用了 BBQ 基準（用於評估模型對人群偏見的常用基準）。在將此基準與幾個類似的評估進行比較後，本文才確信 BBQ 提供了一個很好的衡量社會偏見的方法。這項工作花了他們幾個月的時間。

本文表示，實施 BBQ 比預期困難得多。首先是找不到一個可用的 BBQ 開源實現，Anthropic 最好的工程師花了一個星期的時間來執行和測試評估。與 MMLU 中以準確率評估不同，BBQ 中的 bias 得分需要細微差別和經驗來定義、計算和解釋。

BBQ bias 得分範圍從 - 1 到 1，其中 1 表示有明顯的刻板偏見，0 表示沒有偏見，-1 表示有明顯的反刻板偏見。在實現 BBQ 之後，本文發現一些模型 bias 得分為 0，這一結果也讓研究者感到樂觀，表明他們在減少有偏見的模型輸出方面取得了進展。

第三方評估框架

最近，第三方一直在積極開發評估套件。到目前為止，Anthropic 已經參與了其中的兩個計畫：BIG-bench 和史丹佛大學的 HELM（Holistic Evaluation of Language Models）。儘管第三方評估看起來很有用，但這兩個項目都面臨新的挑戰。

BIG-bench

BIG-bench 包含 204 項評估，由 450 多位研究者合作完成，涵蓋從科學到社會推理的一系列主題。 Anthropic 表示他們在使用這個基準時遇到了一些挑戰：為了安裝 BIG-bench，他們耗費了大量的時間。 BIG-bench 不像 MMLU 那樣即插即用 —— 它甚至比使用 BBQ 更多的努力來實施。

BIG-bench 無法有效的擴展，想要全部完成 204 項評估具有很大的挑戰性。因而需要重新編寫，以便與使用的基礎設施很好地配合，工作量龐大。

此外，在實施過程中，本文發現評估中存在一些 bug，使用起來非常不便利，因此 Anthropic 的研究人員在這次實驗後放棄了它。

HELM：自上而下地策劃一組評估

BIG-bench 是一項「自下而上」的工作，任何人都可以提交任何任務，然後由一組專家組織者進行有限的審查。而 HELM 則採用「自上而下」的方法，由專家決定用什麼任務來評估模型。

具體來說，HELM 在推理場景、含虛假資訊場景等多個情境中評估模型，採用準確度、穩健性、公平性等標準指標。 Anthropic 為 HELM 開發人員提供 API 存取權限，以便在其模型上執行基準測試。

相比於 BIG-bench，HELM 有兩個優勢：1）它不需要進行大量的工程工作，2）可以依靠專家來選擇和解釋特定的高品質評估。

然而，HELM 也帶來了一些挑戰。適用於評估其他模型的方法不一定適用於 Anthropic 的模型，反之亦然。例如，Anthropic 的 Claude 系列模型經過訓練，遵循特定的文字格式，稱為 Human/Assistant 格式。 Anthropic 內部評估其模型時會遵循這種特定格式。如果不遵循這種格式，Claude 有時會給出不尋常的回答，從而使標準評估指標的結果不太可信。

此外，HELM 需要很長的時間才能完成，評估新模型可能需要幾個月的時間，並且需要與外部各方進行協調和溝通。

人工智慧系統是為了與人進行開放式動態互動而設計的，那麼如何對模型進行更接近現實應用的評估？

眾包人員進行A/B 測試

目前，領域內主要（但不完全）依賴一種基本類型的人類評估－在眾包平台上進行A/B 測試，人們在其中與兩個模型進行開放式對話，並從模型A 或B 中選擇響應更有幫助或更無害，根據模型的有用性或無害性對模型進行排名。這種評估方法的優點是與現實環境相對應，並允許對不同的模型進行排名。

然而，這種評估方法有一些局限性，實驗運行起來既昂貴又耗時。

首先，這種方法需要與第三方眾包平台合作並為其付費，為模型建立自訂Web 介面，為A/B 測試人員設計詳細的說明，還要分析和儲存結果數據，並解決僱用眾包人員帶來的道德挑戰。

在無害性測試情況下，實驗也存在使人們接觸有害輸出的風險。人類評估的結果也可能因人類評估者的特徵而有很大差異，包括人類評估者的創造力水平、動機以及識別所測試系統潛在缺陷的能力。

此外，有用和無害之間存在固有的張力。系統可以透過提供無用的回應（例如“抱歉，我無法幫助您”）來降低有害性。

有用與無害之間的正確平衡是什麼？什麼指標數值顯示模型夠有用且無害？諸多問題需要領域內研究者做更多工作來找到答案。

了解更多內容，請參考原文。

^{原文連結：https://www.anthropic.com/index/evaluating-ai-systems}

以上是給大模型評分的基準可靠嗎？ Anthropic來了次大評估的詳細內容。更多資訊請關注PHP中文網其他相關文章！

陳述

本文轉載於：机器之心。如有侵權，請聯絡admin@php.cn刪除

擁抱面部是否7B型號奧林匹克賽車擊敗克勞德3.7？Apr 23, 2025 am 11:49 AM

擁抱Face的OlympicCoder-7B：強大的開源代碼推理模型開發以代碼為中心的語言模型的競賽正在加劇，擁抱面孔與強大的競爭者一起參加了比賽：OlympicCoder-7B，一種產品

4個新的雙子座功能您可以錯過Apr 23, 2025 am 11:48 AM

你們當中有多少人希望AI可以做更多的事情，而不僅僅是回答問題？我知道我有，最近，我對它的變化感到驚訝。 AI聊天機器人不僅要聊天，還關心創建，研究

Camunda為經紀人AI編排編寫了新的分數Apr 23, 2025 am 11:46 AM

隨著智能AI開始融入企業軟件平台和應用程序的各個層面（我們必須強調的是，既有強大的核心工具，也有一些不太可靠的模擬工具），我們需要一套新的基礎設施能力來管理這些智能體。總部位於德國柏林的流程編排公司Camunda認為，它可以幫助智能AI發揮其應有的作用，並與新的數字工作場所中的準確業務目標和規則保持一致。該公司目前提供智能編排功能，旨在幫助組織建模、部署和管理AI智能體。從實際的軟件工程角度來看，這意味著什麼？確定性與非確定性流程的融合該公司表示，關鍵在於允許用戶（通常是數據科學家、軟件

策劃的企業AI體驗是否有價值？Apr 23, 2025 am 11:45 AM

參加Google Cloud Next '25，我渴望看到Google如何區分其AI產品。有關代理空間（此處討論）和客戶體驗套件（此處討論）的最新公告很有希望，強調了商業價值

如何為抹布找到最佳的多語言嵌入模型？Apr 23, 2025 am 11:44 AM

為您的檢索增強發電（RAG）系統選擇最佳的多語言嵌入模型在當今的相互聯繫的世界中，建立有效的多語言AI系統至關重要。強大的多語言嵌入模型對於RE至關重要

麝香：奧斯汀的機器人需要每10,000英里進行干預Apr 23, 2025 am 11:42 AM

特斯拉的Austin Robotaxi發射：仔細觀察Musk的主張埃隆·馬斯克（Elon Musk）最近宣布，特斯拉即將在德克薩斯州奧斯汀推出的Robotaxi發射，最初出於安全原因部署了一支小型10-20輛汽車，並有快速擴張的計劃。 h

AI震驚的樞軸：從工作工具到數字治療師和生活教練Apr 23, 2025 am 11:41 AM

人工智能的應用方式可能出乎意料。最初，我們很多人可能認為它主要用於代勞創意和技術任務，例如編寫代碼和創作內容。然而，哈佛商業評論最近報導的一項調查表明情況並非如此。大多數用戶尋求人工智能的並非是代勞工作，而是支持、組織，甚至是友誼！報告稱，人工智能應用案例的首位是治療和陪伴。這表明其全天候可用性以及提供匿名、誠實建議和反饋的能力非常有價值。另一方面，營銷任務（例如撰寫博客、創建社交媒體帖子或廣告文案）在流行用途列表中的排名要低得多。這是為什麼呢？讓我們看看研究結果及其對我們人類如何繼續將