如何基於 Arthur Bench 進行 LLM 評估？-人工智慧-PHP中文網

首頁

科技週邊

人工智慧

如何基於 Arthur Bench 進行 LLM 評估？

WBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWB

Mar 04, 2024 am 09:40 AM

人工智慧敏感數據llm 評估

Hello folks，我是 Luga，今天我們來聊聊人工智慧(AI)生態領域相關的技術 - LLM 評估。

如何基于 Arthur Bench 进行 LLM 评估？

一、傳統文本評估面臨的挑戰

近年來，隨著大型語言模型(LLM)的快速發展和改進，傳統的文本評估方法在某些方面可能已經不再適用。在文字評估領域，我們可能已經聽說過一些方法，例如基於「單字出現」的評估方法，例如 BLEU，以及基於「預先訓練的自然語言處理模型」的評估方法，例如 BERTScore。

儘管這些方法過去一直表現出色，但隨著LLM生態技術的不斷發展，它們似乎稍顯力不從心，無法完全滿足當前的需求。

隨著LLM技術的快速發展和持續改進，我們正面臨著全新的挑戰和機會。 LLM在能力和表現層面上不斷提升，這使得基於單字頻次的評估方式（如BLEU）可能無法充分捕捉LLM生成文本的品質和語義準確性。 LLM能夠產生更流暢、連貫且語義豐富的文本，而傳統的基於單字頻次的評估方法則難以準確評估這些優勢。

此外，基於預訓練模型的評估方法，如BERTScore，也面臨一些挑戰。儘管預訓練模型在許多任務上表現優異，但可能無法充分考慮到LLM的特殊特徵以及其在特定任務上的表現。 LLM在處理特定任務時可能會顯示出與預訓練模型不同的行為和效能，因此僅依賴基於預訓練模型的評估方法可能無法全面評估LLM的能力。

二、為什麼需要LLM 指導評估?以及帶來的挑戰?

一般而言，在實際的業務環境中，LLM 方法的價值主要體現在其“速度”和“靈敏度”，這兩個方面是最重要的評估指標。

1.高效率

首先，通常來說，實作速度更快。相較於先前的評估管道所需的工作量，建立 LLM 指導評估的首次實施相對較快且容易。對於 LLM 指導的評估，我們只需要準備兩件事：用文字描述評估標準，並提供一些在提示範本中使用的範例。相對於建立自己的預訓練 NLP 模型(或微調現有的 NLP 模型)以用作評估器所需的工作量和資料收集量，使用 LLM 來完成這些任務更為高效。使用 LLM，評估標準的迭代速度要快得多。

2.敏感性

LLM通常表現出更高的敏感性。這種敏感性可能有其正面的一面，相較於預訓練的NLP模型和先前討論的評估方法，LLM更能靈活地處理各種情況。然而，這種高度敏感度也可能導致LLM的評估結果變得難以預測。 LLM對輸入資料的微小變化可能產生顯著影響，這使得其在處理特定任務時可能表現出更大的波動性。因此，在評估LLM時，需要特別注意其敏感性，以確保結果的穩定性和可靠性。

正如我們之前討論的那樣，與其他評估方法相比，LLM 評估者更加敏感。將 LLM 作為評估器有許多不同的配置方法，根據所選的配置，其行為可能會有很大的差異。同時，另一個挑戰在於，如果評估涉及太多的推理步驟或需要同時處理太多的變量，LLM 評估者可能會陷入困境。

由於 LLM 的特性，其評估結果可能會受到不同配置和參數設定的影響。這意味著對 LLM 進行評估時，需要仔細選擇和配置模型，以確保其行為符合預期。不同的配置可能導致不同的輸出結果，因此評估者需要花費一定的時間和精力來調整和最佳化 LLM 的設置，以獲得準確和可靠的評估結果。

此外，當面對需要進行複雜推理或同時處理多個變數的評估任務時，評估者可能會面臨一些挑戰。這是因為 LLM 的推理能力在處理複雜情境時可能受限。 LLM 可能需要進行更多的努力來解決這些任務，以確保評估的準確性和可靠性。

三、什麼是 Arthur Bench ?

Arthur Bench 是一個開源的評估工具，用於比較生成文本模型 (LLM) 的性能。它可以用於評估不同 LLM 模型、提示和超參數，並提供有關 LLM 在各種任務上的表現的詳細報告。

Arthur Bench 的主要功能包括：Arthur Bench 的主要功能包括：

比较不同 LLM 模型：Arthur Bench 可以用于比较不同 LLM 模型的性能，包括来自不同供应商的模型、不同版本的模型以及使用不同训练数据集的模型。
评估提示：Arthur Bench 可以用于评估不同提示对 LLM 性能的影响。提示是用于指导 LLM 生成文本的指令。
测试超参数：Arthur Bench 可以用于测试不同超参数对 LLM 性能的影响。超参数是控制 LLM 行为的设置。

通常而言，Arthur Bench 工作流程主要涉及如下阶段，具体詳細解析如下所示：

如何基于 Arthur Bench 进行 LLM 评估？

1. 任务定义

在此阶段，我们需要明确我们的评估目标，Arthur Bench 支持多种评估任务，包括：

问答：测试 LLM 对开放式、挑战性或多义性问题的理解和回答能力。
摘要：评估 LLM 提取文本关键信息并生成简洁摘要的能力。
翻译：考察 LLM 在不同语言之间进行准确、流畅翻译的能力。
代码生成：测试 LLM 根据自然语言描述生成代码的能力。

2. 模型选择

在此阶段，主要工作为筛选评估对象。Arthur Bench 支持多种 LLM 模型，涵盖来自 OpenAI、Google AI、Microsoft 等知名机构的领先技术，如 GPT-3、LaMDA、Megatron-Turing NLG 等。我们可以根据研究需求选择特定模型进行评估。

3. 参数配置

完成模型选择后，接下来进行精细化调控工作。为了更精准地评估 LLM 性能，Arthur Bench 允许用户配置提示和超参数。

提示：指引 LLM 生成文本的方向和内容，例如问题、描述或指令。
超参数：控制 LLM 行为的关键设置，例如学习率、训练步数、模型架构等。

通过精细化配置，我们可以深入探索 LLM 在不同参数设置下的表现差异，获得更具参考价值的评估结果。

4. 评估运行：自动化流程

最后一步，即借助自动化流程进行任务评估。通常情况下，Arthur Bench 提供自动化评估流程，只需简单配置即可运行评估任务。它将自动执行以下步骤：

调用 LLM 模型并生成文本输出。
针对特定任务，应用相应的评估指标进行分析。
生成详细报告，呈现评估结果。

四、Arthur Bench 使用场景分析

作为一种快速、数据驱动的 LLM 评估的关键，Arthur Bench 主要提供如下解决方案，具体涉及：

1.模型选择和验证

模型选择和验证是人工智能领域中至关重要的关键步骤，对于确保模型的有效性和可靠性具有重要意义。在这个过程中，Arthur Bench 的角色非常关键。他的目标是为公司提供一个可靠的比较框架，通过使用一致的指标和评估方法，帮助他们在众多大型语言模型(LLM)选项中做出明智的决策。

如何基于 Arthur Bench 进行 LLM 评估？

Arthur Bench 将运用他的专业知识和经验来评估每个 LLM 选项，并确保使用一致的指标来比较它们的优势和劣势。他将综合考虑诸如模型性能、准确性、速度、资源需求等因素，以确保公司能够做出明智而明确的选择。

通过使用一致的指标和评估方法，Arthur Bench 将为公司提供一个可靠的比较框架，使他们能够全面评估每个 LLM 选项的优点和局限性。这将使公司能够做出明智的决策，以最大程度地利用人工智能领域的快速发展，并确保他们的应用程序能够获得最佳的体验效果。

2.预算和隐私优化

在选择人工智能模型时，并非所有应用程序都需要最先进或最昂贵的大型语言模型(LLM)。在某些情况下，使用成本更低的人工智能模型也可以满足任务需求。

这种预算优化的方法可以帮助公司在有限的资源下做出明智的选择。而不必追求最昂贵或最先进的模型，而是根据具体需求选择合适的模型。较为经济实惠的模型可能在某些方面的性能略低于最先进的 LLM，但对于一些简单或标准的任务来说，Arthur Bench 仍然能够提供满足需求的解决方案。

此外，Arthur Bench 强调将模型引入内部可以更好地控制数据隐私。对于涉及敏感数据或隐私问题的应用程序，公司可能更倾向于使用自己内部训练的模型，而不是依赖外部的第三方LLM。通过使用内部模型，公司可以更好地掌握数据的处理和存储，更好地保护数据隐私。

3.將學術基準轉化為現實世界的表現

學術基準是指在學術研究中建立的模型評估指標和方法。這些指標和方法通常是針對特定任務或領域的，能夠有效評估模型在該任務或領域的表現。

然而，學術基準並不總是能夠直接反映模型在現實世界中的表現。這是因為現實世界中的應用場景往往更加複雜，需要考慮更多因素，例如資料分佈、模型部署環境等。

Arthur Bench 可以幫助將學術基準轉化為現實世界的表現。它透過以下方式實現這一目標：

提供一組全面的評估指標，涵蓋模型的準確性、效率、穩健性等多個面向。這些指標不僅能反映模型在學術基準下的表現，也能反映模型在現實世界中的潛在表現。
支援多種模型類型，能夠對不同類型的模型進行比較。這使得企業能夠選擇最適合其應用場景的模型。
提供視覺化分析工具，幫助企業直覺地了解不同模型的表現差異。這使得企業能夠更容易做出決策。

五、Arthur Bench 特性分析

作為一種快速、數據驅動的LLM 評估的關鍵，Arthur Bench 具有以下特性：

1.全套評分指標

Arthur Bench 擁有一整套評分指標，涵蓋了從總結品質到使用者體驗的各個方面。他可以隨時利用這些評分指標來對不同的模型進行評估和比較。這些評分指標的綜合運用可以幫助他全面了解每個模型的優點和缺點。

這些評分指標的範圍非常廣泛，包括但不限於總結品質、準確性、流暢性、文法正確性、情境理解能力、邏輯連貫性等。 Arthur Bench 將根據這些指標對每個模型進行評估，並將結果整合為一個綜合評分，以輔助公司做出明智的決策。

此外，如果公司有特定的需求或關注點，Arthur Bench 還可以根據公司的要求創建和添加自訂的評分指標。這樣以便能夠更好地滿足公司的具體需求，並確保評估過程與公司的目標和標準相符。

如何基于 Arthur Bench 进行 LLM 评估？

2.本地版本和基於雲端的版本

對於那些喜歡本地部署和自主控制的用戶，可以從GitHub 儲存庫中取得存取權限，並將Arthur Bench 部署到自己的本機環境。這樣，大家可以完全掌握和控制 Arthur Bench 的運行，並根據自己的需求進行客製化和配置。

另一方面，對於那些更傾向於便利性和靈活性的用戶，也提供了基於雲端的 SaaS 產品。大家可以選擇註冊，透過雲端存取和使用 Arthur Bench。這種方式無需繁瑣的本地安裝和配置，而是能夠立即享受所提供的功能和服務。

3.完全開源

Arthur Bench 作為一個開源項目，在透明性、可擴展性和社區協作等方面展現出其典型的開源特徵。這種開源性質為使用者提供了豐富的優勢和機會，使他們能夠更深入地了解專案的工作原理，並根據自身需求進行客製化和擴展。同時，Arthur Bench 的開放性也鼓勵使用者積極參與社群協作，與其他使用者共同合作和發展。這種開放式的合作模式有助於推動專案的不斷發展和創新，同時，也為用戶創造了更大的價值和機會。

總之，Arthur Bench 提供了一個開放且靈活的框架，使用戶能夠自訂評估指標，並且已經在金融領域中廣泛應用。與 Amazon Web Services 和 Cohere 的合作進一步推動了該框架的發展，鼓勵開發人員為 Bench 創建新的指標，為語言模型評估領域的進步做出貢獻。

Reference ：

[1] https://github.com/arthur-ai/bench
[2] https://neurohive.io/ en/news/arthur-bench-framework-for-evaluating-language-models/

以上是如何基於 Arthur Bench 進行 LLM 評估？的詳細內容。更多資訊請關注PHP中文網其他相關文章！

陳述

本文轉載於：51CTO.COM。如有侵權，請聯絡admin@php.cn刪除

最新的最佳及時工程技術的年度彙編Apr 10, 2025 am 11:22 AM

對於那些可能是我專欄新手的人，我廣泛探討了AI的最新進展，包括體現AI，AI推理，AI中的高科技突破，及時的工程，AI培訓，AI，AI RE RE等主題

歐洲的AI大陸行動計劃：Gigafactories，Data Labs和Green AIApr 10, 2025 am 11:21 AM

歐洲雄心勃勃的AI大陸行動計劃旨在將歐盟確立為人工智能的全球領導者。一個關鍵要素是建立了AI Gigafactories網絡，每個網絡都有大約100,000個高級AI芯片 - 2倍的自動化合物的四倍

微軟對AI代理申請的統一方法：企業的明顯勝利微軟最近公告的新AI代理能力清晰而統一的演講給人留下了深刻的印象。與許多技術公告陷入困境不同

向員工出售AI策略：Shopify首席執行官的宣言Apr 10, 2025 am 11:19 AM

Shopify首席執行官TobiLütke最近的備忘錄大膽地宣布AI對每位員工的基本期望是公司內部的重大文化轉變。這不是短暫的趨勢。這是整合到P中的新操作範式

IBM啟動具有完整AI集成的Z17大型機Apr 10, 2025 am 11:18 AM

IBM的Z17大型機：集成AI用於增強業務運營上個月，在IBM的紐約總部，我收到了Z17功能的預覽。以Z16的成功為基礎（於2022年推出並證明持續的收入增長

5 Chatgpt提示取決於別人並完全相信自己Apr 10, 2025 am 11:17 AM

解鎖不可動搖的信心，消除了對外部驗證的需求！這五個CHATGPT提示將指導您完全自力更生和自我感知的變革轉變。只需複制，粘貼和自定義包圍

AI與您的思想危險相似Apr 10, 2025 am 11:16 AM

人工智能安全與研究公司 Anthropic 最近的一項[研究]開始揭示這些複雜過程的真相，展現出一種令人不安地與我們自身認知領域相似的複雜性。自然智能和人工智能可能比我們想像的更相似。窺探內部：Anthropic 可解釋性研究 Anthropic 進行的研究的新發現代表了機制可解釋性領域的重大進展，該領域旨在反向工程 AI 的內部計算——不僅僅觀察 AI 做了什麼，而是理解它在人工神經元層面如何做到這一點。想像一下，試圖通過繪製當有人看到特定物體或思考特定想法時哪些神經元會放電來理解大腦。 A