首頁 >科技週邊 >人工智慧 >答案抽取正確率達96.88%,xFinder斷了大模型「作弊」的小心思

答案抽取正確率達96.88%,xFinder斷了大模型「作弊」的小心思

王林
王林原創
2024-06-19 08:11:50911瀏覽
答案抽取正確率達96.88%,xFinder斷了大模型「作弊」的小心思
AIxiv專欄是本站發布學術、技術內容的欄位。過去數年,本站AIxiv專欄接收通報了2,000多篇內容,涵蓋全球各大專院校與企業的頂尖實驗室,有效促進了學術交流與傳播。如果您有優秀的工作想要分享,歡迎投稿或聯絡報道。投稿信箱:liyazhou@jiqizhixin.com;zhaoyunfeng@jiqizhixin.com

本文第一作者與通訊作者皆來自上海演算法創新研究院。其中,通訊作者李志宇博士畢業於中國人民大學電腦專業,並曾在阿里巴巴、小紅書等互聯網公司從事演算法落地與研究工作,曾參與了包括千億級商品知識圖譜、用戶圖譜和輿情圖譜的研發工作,累計發表論文四十餘篇。李志宇目前在上海演算法創新研究院大模型部門(由熊飛宇博士帶領)負責整體的技術研發。研究院主頁:https://www.iaar.ac.cn/

大語言模型(LLM)的快速發展,引發了關於如何評估其公平性和可靠性的熱議。

儘管現有的評估框架如OpenCompass、LM Eval Harness 和UltraEval 以及各種Benchmark 推動了行業進步,但專注於這些評估框架核心組件可信度或可靠性度量的團隊卻為數不多。

近日,上海演算法創新研究院和中國人民大學的研究團隊發布了一篇名為《xFinder: Robust and Pinpoint Answer Extraction for Large Language Models》的論文。這篇論文深入分析了LLM評估框架的整體流程,並重點評估了答案抽取器組件在大模型評估中的可靠性和一致性。
答案抽取正確率達96.88%,xFinder斷了大模型「作弊」的小心思
  • 論文網址:
    https://arxiv.org/abs/2405.11874
  • #Github連結:
    https://github.com/IAAR-Shanghai/xFinder
  • Huggingface連結:
    https:// huggingface.co/collections/IAAR-Shanghai/xfinder-664b7b21e94e9a93f25a8412

目前的評估框架主要依賴正規表示式(RegEx)來抽取答案,答案但這種方法有明顯缺陷。人工複核結果顯示,其最佳抽取正確率僅74.38%,評估結果極不可靠。

此外,RegEx方法容易被有意或無意地擬合,增加了「作弊」的可能性,從而影響評估結果的可靠性和一致性。下圖展示了LLM評估框架中RegEx組件抽取錯誤的情況。
答案抽取正確率達96.88%,xFinder斷了大模型「作弊」的小心思
為了有效解決這個問題,上海演算法創新研究院和中國人民大學的研究團隊開發了一個名為xFinder 的新模型,用於更準確地抽取關鍵答案。

xFinder 有以下優點:

#(1)不要求特定格式的答案輸出,具備較強的答案抽取穩健性,抽取準確率高達95.18%,顯著優於目前最佳LLM評估架構中的RegEx方法。

(2)支援多樣化題型,能夠將字母選擇題自動轉換為問答題,並支援不同題型的混排評估,從而降低測試者擬合題型的可能性。

方法介紹
答案抽取正確率達96.88%,xFinder斷了大模型「作弊」的小心思
#xFinder的實作過程主要包括LLM回應內容的產生、 KAF資料集的標註和xFinder的訓練。為了實現 xFinder 模型的有效訓練,團隊建立了一個專門的資料集-關鍵答案查找(KAF)資料集。資料集包含 26,900 個訓練樣本、4,961 個測試樣本和 4,482 個泛化樣本,涵蓋多種評估任務。

大語言模式回應產生
               
首先,研究團隊從現有的主要評估基準與報告中挑選了多個典型的評估任務資料集,這些任務被分類為四種類型:字母選項任務、短文字選項任務、分類標籤任務和數學任務。

接著,團隊使用不同系列的 LLM(如 Qwen、InternLM、ChatGLM 等)來產生這些任務的資料對。透過多種 LLM,團隊產生了豐富多樣的資料對,為 xFinder 模型的訓練提供了充分的資料支援。

自動標註與手動複核
               
團隊使用了策略,從LLM 回應中擷取關鍵答案並將其用作標籤,以建立高品質的KAF 資料集。為了提高訓練集的標註效率,他們採用了半自動化流程,透過不同提示使用 GPT-4 產生了兩組標註,並利用自一致性策略篩選出標註不一致的項和所有數學問題,提交給人工複查。為了確保測試集和泛化集的有效性和可靠性,所有標籤都經過兩輪手動註釋。

訓練xFinder
               
#為了增強KAF 資料集的多樣性和模型的整合能力,研究團隊採用了兩種資料增強策略:

(1)模擬LLM 回應:對KAF 訓練集中50% 的字母選項問題進行修改,增加或刪除一到兩個選項,以模擬LLM 的多樣化響應。

(2)豐富提示形式:擷取包含關鍵答案句子的LLM 回應的10%,取代其中的提示部分,例如將「The final answer is A」替換為「Based on the context of the question, A is the most likely answer」。

此外,團隊使用 XTuner 工具和 QLoRA 方法,對 Llama 系列、Qwen 系列和 Gemma 系列等基座模型進行微調,最終獲得 xFinder。
答案抽取正確率達96.88%,xFinder斷了大模型「作弊」的小心思
實驗結果

#該團隊進行了廣泛的實驗,評估xFinder在不同任務上的表現,並與現有的RegEx方法進行了比較。

KAF 測試集的結果
               
在KAF 測試集上,xFinder-qwen1505 的平均值萃取準確率達到了96.88%,顯著高於最佳評估框架中的RegEx 方法的74.38%。

具體來看,xFinder-qwen1505 在字母選項任務中的擷取準確率為97.35%;在短文字選項任務中為96.83%;在分類標籤任務中為98.05%;在數學選項任務中為92.76%。這些結果表明,xFinder 在各類任務中均表現出色,顯著提升了評估的準確性和可靠性。
答案抽取正確率達96.88%,xFinder斷了大模型「作弊」的小心思
KAF 泛化集上的結果
               
在全新的KAF 中泛化集合上(此泛化集合上(此泛化集合中(此泛化集合中(此泛化集合中(此泛化集合。泛化集使用了與KAF 資料集中的訓練集和測試集不同的LLM 和測試任務生成的樣例構造的),xFinder-qwen1505 展現了卓越的性能,平均提取準確率達到了93.42%。

實驗結果表明,xFinder 的表現不僅優於其他基於RegEx 的評估框架,甚至顯著優於GPT-4,充分展示了其高穩健性和泛化能力。 答案抽取正確率達96.88%,xFinder斷了大模型「作弊」的小心思
在現實世界情境中的評估
               
研究團隊使用xFinder 和傳統評估架構對10 個LLM 進行了全面評估。評估任務涵蓋了 CommonsenseQA、BoolQ 和 GSM8K 等。透過對 10 種不同的 LLM 應用五種答案萃取方案,進行了一系列比較實驗。

概括起来,实验结果主要揭示了三个关键发现:

(1)同一模型在不同框架下的排名常常出现较大差异,难以准确反映模型的真实能力,显示出一致性较低。

(2)不同的 xFinder 在这些实验中显示出了高度的一致性,并且在提取答案的准确率上也超越了其他评测框架,表明 xFinder 是一种更加可靠的评测方法。

(3)与传统的字母选项设置相比,直接使用选项文本能显著提升排名的一致性,反映了字母选项设置的不稳定性。更多的细节和实验结果已在附录中展示,这些内容进一步证实了上述发现的有效性。
答案抽取正確率達96.88%,xFinder斷了大模型「作弊」的小心思
结语

总的来说,xFinder通过优化关键答案提取模块,提高了LLM评估的准确性和可靠性。实验结果表明,xFinder在多种任务上均表现出色,具备较高的鲁棒性和泛化能力。未来,该研究团队将继续优化xFinder,并研究其他评估关键问题,为LLM性能的可靠评估提供坚实基础。

以上是答案抽取正確率達96.88%,xFinder斷了大模型「作弊」的小心思的詳細內容。更多資訊請關注PHP中文網其他相關文章!

陳述:
本文內容由網友自願投稿,版權歸原作者所有。本站不承擔相應的法律責任。如發現涉嫌抄襲或侵權的內容,請聯絡admin@php.cn