搜尋
首頁科技週邊人工智慧答案抽取正確率達96.88%,xFinder斷了大模型「作弊」的小心思

答案抽取正確率達96.88%,xFinder斷了大模型「作弊」的小心思
AIxiv專欄是本站發布學術、技術內容的欄位。過去數年,本站AIxiv專欄接收通報了2,000多篇內容,涵蓋全球各大專院校與企業的頂尖實驗室,有效促進了學術交流與傳播。如果您有優秀的工作想要分享,歡迎投稿或聯絡報道。投稿信箱:liyazhou@jiqizhixin.com;zhaoyunfeng@jiqizhixin.com

本文第一作者與通訊作者皆來自上海演算法創新研究院。其中,通訊作者李志宇博士畢業於中國人民大學電腦專業,並曾在阿里巴巴、小紅書等互聯網公司從事演算法落地與研究工作,曾參與了包括千億級商品知識圖譜、用戶圖譜和輿情圖譜的研發工作,累計發表論文四十餘篇。李志宇目前在上海演算法創新研究院大模型部門(由熊飛宇博士帶領)負責整體的技術研發。研究院主頁:https://www.iaar.ac.cn/

大語言模型(LLM)的快速發展,引發了關於如何評估其公平性和可靠性的熱議。

儘管現有的評估框架如OpenCompass、LM Eval Harness 和UltraEval 以及各種Benchmark 推動了行業進步,但專注於這些評估框架核心組件可信度或可靠性度量的團隊卻為數不多。

近日,上海演算法創新研究院和中國人民大學的研究團隊發布了一篇名為《xFinder: Robust and Pinpoint Answer Extraction for Large Language Models》的論文。這篇論文深入分析了LLM評估框架的整體流程,並重點評估了答案抽取器組件在大模型評估中的可靠性和一致性。
答案抽取正確率達96.88%,xFinder斷了大模型「作弊」的小心思
  • 論文網址:
    https://arxiv.org/abs/2405.11874
  • #Github連結:
    https://github.com/IAAR-Shanghai/xFinder
  • Huggingface連結:
    https:// huggingface.co/collections/IAAR-Shanghai/xfinder-664b7b21e94e9a93f25a8412

目前的評估框架主要依賴正規表示式(RegEx)來抽取答案,答案但這種方法有明顯缺陷。人工複核結果顯示,其最佳抽取正確率僅74.38%,評估結果極不可靠。

此外,RegEx方法容易被有意或無意地擬合,增加了「作弊」的可能性,從而影響評估結果的可靠性和一致性。下圖展示了LLM評估框架中RegEx組件抽取錯誤的情況。
答案抽取正確率達96.88%,xFinder斷了大模型「作弊」的小心思
為了有效解決這個問題,上海演算法創新研究院和中國人民大學的研究團隊開發了一個名為xFinder 的新模型,用於更準確地抽取關鍵答案。

xFinder 有以下優點:

#(1)不要求特定格式的答案輸出,具備較強的答案抽取穩健性,抽取準確率高達95.18%,顯著優於目前最佳LLM評估架構中的RegEx方法。

(2)支援多樣化題型,能夠將字母選擇題自動轉換為問答題,並支援不同題型的混排評估,從而降低測試者擬合題型的可能性。

方法介紹
答案抽取正確率達96.88%,xFinder斷了大模型「作弊」的小心思
#xFinder的實作過程主要包括LLM回應內容的產生、 KAF資料集的標註和xFinder的訓練。為了實現 xFinder 模型的有效訓練,團隊建立了一個專門的資料集-關鍵答案查找(KAF)資料集。資料集包含 26,900 個訓練樣本、4,961 個測試樣本和 4,482 個泛化樣本,涵蓋多種評估任務。

大語言模式回應產生
               
首先,研究團隊從現有的主要評估基準與報告中挑選了多個典型的評估任務資料集,這些任務被分類為四種類型:字母選項任務、短文字選項任務、分類標籤任務和數學任務。

接著,團隊使用不同系列的 LLM(如 Qwen、InternLM、ChatGLM 等)來產生這些任務的資料對。透過多種 LLM,團隊產生了豐富多樣的資料對,為 xFinder 模型的訓練提供了充分的資料支援。

自動標註與手動複核
               
團隊使用了策略,從LLM 回應中擷取關鍵答案並將其用作標籤,以建立高品質的KAF 資料集。為了提高訓練集的標註效率,他們採用了半自動化流程,透過不同提示使用 GPT-4 產生了兩組標註,並利用自一致性策略篩選出標註不一致的項和所有數學問題,提交給人工複查。為了確保測試集和泛化集的有效性和可靠性,所有標籤都經過兩輪手動註釋。

訓練xFinder
               
#為了增強KAF 資料集的多樣性和模型的整合能力,研究團隊採用了兩種資料增強策略:

(1)模擬LLM 回應:對KAF 訓練集中50% 的字母選項問題進行修改,增加或刪除一到兩個選項,以模擬LLM 的多樣化響應。

(2)豐富提示形式:擷取包含關鍵答案句子的LLM 回應的10%,取代其中的提示部分,例如將「The final answer is A」替換為「Based on the context of the question, A is the most likely answer」。

此外,團隊使用 XTuner 工具和 QLoRA 方法,對 Llama 系列、Qwen 系列和 Gemma 系列等基座模型進行微調,最終獲得 xFinder。
答案抽取正確率達96.88%,xFinder斷了大模型「作弊」的小心思
實驗結果

#該團隊進行了廣泛的實驗,評估xFinder在不同任務上的表現,並與現有的RegEx方法進行了比較。

KAF 測試集的結果
               
在KAF 測試集上,xFinder-qwen1505 的平均值萃取準確率達到了96.88%,顯著高於最佳評估框架中的RegEx 方法的74.38%。

具體來看,xFinder-qwen1505 在字母選項任務中的擷取準確率為97.35%;在短文字選項任務中為96.83%;在分類標籤任務中為98.05%;在數學選項任務中為92.76%。這些結果表明,xFinder 在各類任務中均表現出色,顯著提升了評估的準確性和可靠性。
答案抽取正確率達96.88%,xFinder斷了大模型「作弊」的小心思
KAF 泛化集上的結果
               
在全新的KAF 中泛化集合上(此泛化集合上(此泛化集合中(此泛化集合中(此泛化集合中(此泛化集合。泛化集使用了與KAF 資料集中的訓練集和測試集不同的LLM 和測試任務生成的樣例構造的),xFinder-qwen1505 展現了卓越的性能,平均提取準確率達到了93.42%。

實驗結果表明,xFinder 的表現不僅優於其他基於RegEx 的評估框架,甚至顯著優於GPT-4,充分展示了其高穩健性和泛化能力。 答案抽取正確率達96.88%,xFinder斷了大模型「作弊」的小心思
在現實世界情境中的評估
               
研究團隊使用xFinder 和傳統評估架構對10 個LLM 進行了全面評估。評估任務涵蓋了 CommonsenseQA、BoolQ 和 GSM8K 等。透過對 10 種不同的 LLM 應用五種答案萃取方案,進行了一系列比較實驗。

概括起来,实验结果主要揭示了三个关键发现:

(1)同一模型在不同框架下的排名常常出现较大差异,难以准确反映模型的真实能力,显示出一致性较低。

(2)不同的 xFinder 在这些实验中显示出了高度的一致性,并且在提取答案的准确率上也超越了其他评测框架,表明 xFinder 是一种更加可靠的评测方法。

(3)与传统的字母选项设置相比,直接使用选项文本能显著提升排名的一致性,反映了字母选项设置的不稳定性。更多的细节和实验结果已在附录中展示,这些内容进一步证实了上述发现的有效性。
答案抽取正確率達96.88%,xFinder斷了大模型「作弊」的小心思
结语

总的来说,xFinder通过优化关键答案提取模块,提高了LLM评估的准确性和可靠性。实验结果表明,xFinder在多种任务上均表现出色,具备较高的鲁棒性和泛化能力。未来,该研究团队将继续优化xFinder,并研究其他评估关键问题,为LLM性能的可靠评估提供坚实基础。

以上是答案抽取正確率達96.88%,xFinder斷了大模型「作弊」的小心思的詳細內容。更多資訊請關注PHP中文網其他相關文章!

陳述
本文內容由網友自願投稿,版權歸原作者所有。本站不承擔相應的法律責任。如發現涉嫌抄襲或侵權的內容,請聯絡admin@php.cn
如何使用Huggingface Smollm建立個人AI助手如何使用Huggingface Smollm建立個人AI助手Apr 18, 2025 am 11:52 AM

利用“設備” AI的力量:建立個人聊天機器人CLI 在最近的過去,個人AI助手的概念似乎是科幻小說。 想像一下科技愛好者亞歷克斯(Alex)夢見一個聰明的本地AI同伴 - 不依賴

通過斯坦福大學激動人心的新計劃,精神健康的AI專心分析通過斯坦福大學激動人心的新計劃,精神健康的AI專心分析Apr 18, 2025 am 11:49 AM

他們的首屆AI4MH發射於2025年4月15日舉行,著名的精神科醫生兼神經科學家湯姆·因斯爾(Tom Insel)博士曾擔任開幕式演講者。 Insel博士因其在心理健康研究和技術方面的傑出工作而聞名

2025年WNBA選秀課程進入聯盟成長並與在線騷擾作鬥爭2025年WNBA選秀課程進入聯盟成長並與在線騷擾作鬥爭Apr 18, 2025 am 11:44 AM

恩格伯特說:“我們要確保WNBA仍然是每個人,球員,粉絲和公司合作夥伴,感到安全,重視和授權的空間。” anno

Python內置數據結構的綜合指南 - 分析VidhyaPython內置數據結構的綜合指南 - 分析VidhyaApr 18, 2025 am 11:43 AM

介紹 Python擅長使用編程語言,尤其是在數據科學和生成AI中。 在處理大型數據集時,有效的數據操作(存儲,管理和訪問)至關重要。 我們以前涵蓋了數字和ST

與替代方案相比,Openai新型號的第一印象與替代方案相比,Openai新型號的第一印象Apr 18, 2025 am 11:41 AM

潛水之前,一個重要的警告:AI性能是非確定性的,並且特定於高度用法。簡而言之,您的里程可能會有所不同。不要將此文章(或任何其他)文章作為最後一句話 - 目的是在您自己的情況下測試這些模型

AI投資組合|如何為AI職業建立投資組合?AI投資組合|如何為AI職業建立投資組合?Apr 18, 2025 am 11:40 AM

建立杰出的AI/ML投資組合:初學者和專業人士指南 創建引人注目的投資組合對於確保在人工智能(AI)和機器學習(ML)中的角色至關重要。 本指南為建立投資組合提供了建議

代理AI對安全操作可能意味著什麼代理AI對安全操作可能意味著什麼Apr 18, 2025 am 11:36 AM

結果?倦怠,效率低下以及檢測和作用之間的差距擴大。這一切都不應該令任何從事網絡安全工作的人感到震驚。 不過,代理AI的承諾已成為一個潛在的轉折點。這個新課

Google與Openai:AI為學生打架Google與Openai:AI為學生打架Apr 18, 2025 am 11:31 AM

直接影響與長期夥伴關係? 兩週前,Openai提出了強大的短期優惠,在2025年5月底之前授予美國和加拿大大學生免費訪問Chatgpt Plus。此工具包括GPT-4O,A A A A A

See all articles

熱AI工具

Undresser.AI Undress

Undresser.AI Undress

人工智慧驅動的應用程序,用於創建逼真的裸體照片

AI Clothes Remover

AI Clothes Remover

用於從照片中去除衣服的線上人工智慧工具。

Undress AI Tool

Undress AI Tool

免費脫衣圖片

Clothoff.io

Clothoff.io

AI脫衣器

AI Hentai Generator

AI Hentai Generator

免費產生 AI 無盡。

熱門文章

R.E.P.O.能量晶體解釋及其做什麼(黃色晶體)
1 個月前By尊渡假赌尊渡假赌尊渡假赌
R.E.P.O.最佳圖形設置
1 個月前By尊渡假赌尊渡假赌尊渡假赌
威爾R.E.P.O.有交叉遊戲嗎?
1 個月前By尊渡假赌尊渡假赌尊渡假赌

熱工具

DVWA

DVWA

Damn Vulnerable Web App (DVWA) 是一個PHP/MySQL的Web應用程序,非常容易受到攻擊。它的主要目標是成為安全專業人員在合法環境中測試自己的技能和工具的輔助工具,幫助Web開發人員更好地理解保護網路應用程式的過程,並幫助教師/學生在課堂環境中教授/學習Web應用程式安全性。 DVWA的目標是透過簡單直接的介面練習一些最常見的Web漏洞,難度各不相同。請注意,該軟體中

PhpStorm Mac 版本

PhpStorm Mac 版本

最新(2018.2.1 )專業的PHP整合開發工具

SublimeText3 英文版

SublimeText3 英文版

推薦:為Win版本,支援程式碼提示!

SecLists

SecLists

SecLists是最終安全測試人員的伙伴。它是一個包含各種類型清單的集合,這些清單在安全評估過程中經常使用,而且都在一個地方。 SecLists透過方便地提供安全測試人員可能需要的所有列表,幫助提高安全測試的效率和生產力。清單類型包括使用者名稱、密碼、URL、模糊測試有效載荷、敏感資料模式、Web shell等等。測試人員只需將此儲存庫拉到新的測試機上,他就可以存取所需的每種類型的清單。

ZendStudio 13.5.1 Mac

ZendStudio 13.5.1 Mac

強大的PHP整合開發環境