首頁 >科技週邊 >人工智慧 >ACL 2024 | 對25個開閉源模型數學評測,GPT-3.5-Turbo才勉強及格

ACL 2024 | 對25個開閉源模型數學評測,GPT-3.5-Turbo才勉強及格

PHPz
PHPz原創
2024-07-19 13:53:411024瀏覽
ACL 2024 | 对25个开闭源模型数学评测,GPT-3.5-Turbo才勉强及格
AIxiv專欄是本站發布學術、技術內容的欄位。過去數年,本站AIxiv專欄接收通報了2,000多篇內容,涵蓋全球各大專院校與企業的頂尖實驗室,有效促進了學術交流與傳播。如果您有優秀的工作想要分享,歡迎投稿或聯絡報道。投稿信箱:liyazhou@jiqizhixin.com;zhaoyunfeng@jiqizhixin.com

本文作者來自香港大學和騰訊。 作者列表:李沁桐,Leyang Cui,趙學亮,孔令鵬,Wei Bi。其中,第一作者李沁桐是香港大學自然語言處理實驗室的博士生,研究方向涉及自然語言生成和文本推理,與博士生趙學亮共同師從孔令鵬教授。 Leyang Cui 和 Wei Bi 是騰訊資深研究員。

前言

大型語言模型(LLMs)在解決問題方面的非凡能力日益顯現。最近,一個值得關注的現像是,這些模型在多項數學推理的基準測試中獲得了驚人的成績。以 GPT-4 為例,在高難度小學應用題測驗集 GSM8K [1] 中表現優異,準確率高達 90% 以上。同時,許多開源模型也展現了不俗的實力,準確率超過 80%。

然而在使用中我們經常會發現,當數學問題稍作改變時,LLMs 可能會出現一些低級錯誤,如下圖所示:

ACL 2024 | 对25个开闭源模型数学评测,GPT-3.5-Turbo才勉强及格

正確解答了一個數學問題(左),但當在原問題的基礎上添加一個限制條件(右)時,Turbo 因為沒有正確區分“離開” 和“返回” 的方向,而誤用運算符出錯。

我們不禁要問:大型語言模型是否真的掌握了數學知識的精髓?它們是如何在這些測試中取得如此高分的?難道只是因為模仿了大量訓練資料中的表面推理模式嗎? LLMs 是否真正理解數學概念,仍是一個值得探討的問題。

為了探究這個問題,本文作者設計了一個評估基準
GSM-Plus。這個測驗旨在對一個問題進行 8 種不同的細粒度數學變換,系統地評估當前 LLMs 在處理基礎數學應用問題時的能力。在這項全新的基準測試中,論文對 25 個不同的 LLMs 進行了嚴格評測,包括業界的開源和閉源模型。

實驗結果表明,對於大多數 LLMs 來說,GSM-Plus 是一個具有挑戰性的基準測試。即便是在 GSM8K 上,GPT-3.5-Turbo 已能取得 73.62% 的準確率,但在 GSM-Plus 上僅能達到 61.19% 的準確率。本文工作已以4,4, 4.5分被ACL2024錄取。

ACL 2024 | 对25个开闭源模型数学评测,GPT-3.5-Turbo才勉强及格

  • 論文標題:GSM-Plus: A Comprehensive Benchmark for Evaluating the Robustness of LLMs as Mathematical Problem Solvers
  • 論文地址:https://arxiv.org/pdf/2402.1925555頁紙//qtli.github.io/GSM-Plus/
背景
數學推理是人工智慧發展的重要證明。它需要嚴格的問題理解、策略制定和計算執行能力。在過去幾年中,許多公開資料集被用於評估人工智慧系統的數學推理能力。早期的數學資料集側重於基於方程式的數學問題。隨後,更難的數據集被引入,涵蓋了小學、高中和大學程度的數學問題。

隨著評測數據難度的不斷提高,LLMs 的發展也變得十分迅速。為了提升 LLMs 在數學領域的效能,可以透過在多樣化的任務資料上進行訓練,使用監督微調(SFT)來快速幫助 LLMs 適應到數學領域。在推理階段,透過設計巧妙的輸入提示(例如,Chain-of-Thought 和 Program-of-Thought)也可以有效激發 LLMs 的數學能力。

對於大多數 LLMs 而言,面對高中及以上的數學問題仍有很大的提升空間。然而,在小學數學領域,LLMs 已經展現出巨大的潛力。
這讓我們不禁思考,
在現實環境中 LLMs 是否能依然保持高效能?
對抗性評測資料集GSM-Plus
本研究旨在推出一個綜合性基準測試GSM-Plus,以系統地檢驗LLMs 在系統地檢驗數學問題。受Polya 原則[2] 中解決數學問題的能力分類法的啟發,本文確定了五個方面的指導原則用於構建GSM-Plus 數據集:

為了便於理解,此處以“ 珍妮特的鴨子每天下16 個蛋。在農夫市集賺多少美元?

(1)
數值變化
:指改變數值資料或其類型,本文定義了三個子類別:
將問題中的“16” 替換為“20”。

    數字擴展:增加數值的位數,例如將 “16” 替換為 “1600”。
  • 整數 - 小數 - 分數轉換:將整數更換為小數或分數,例如將 “2” 轉換為 “2.5”。
  • (2)算術變化
:指數學問題引入額外的運算或反轉,但只限於加、減、乘、除運算:

。在原問題基礎上增加限制條件。例如,增加新條件「她每天還會使用兩顆雞蛋自製髮膜」。
運算逆轉:將原問題的某個已知條件轉換為 GSM-Plus 變體問題的待求解變數。例如,圖2 中原問題的陳述“每個鴨蛋2 美元” 轉換為新問題的疑問句“每個鴨蛋的價格是多少?”,而原問題疑問句” 每天在農貿市場上賺多少美元?” 則轉換為新問題的已知條件” 她每天在農貿市場賺18 美元”
  • (3)問題理解
    :指在意思不變的前提下,用不同詞句重新表述數學問題,如”珍妮特養了一群鴨子,這些鴨子每天產16 個鴨蛋。價格將剩餘的鴨蛋全部出售。到原問題中,如」 珍妮特還想用兩個鴨蛋餵養她的寵物鸚鵡,所幸她的鄰居每天送她兩個鴨蛋用於餵養鸚鵡」。

(5)批判性思維
:專注於當數學問題缺乏必要條件時,LLMs 是否具有提問或懷疑能力,例如」 珍妮特的鴨子每天都會下蛋。她每天早上吃三個蛋作為早餐,並且每天用四個蛋烤鬆餅給她的朋友。她每天在农贸市场上赚多少美元?”。

基于 GSM8K 的 1,319 个测试问题,本文为每个问题创建了八个变体,从而生成了包含 10,552 个问题变体的 GSM-Plus 数据集(本文还提供了一个包含 2,400 个问题变体的测试子集,以便快速评测)。通过使用每个问题及其八个变体测试 LLMs,GSM-Plus 可以帮助研究人员全面评估 LLMs 在解决数学问题中的鲁棒性。

ACL 2024 | 对25个开闭源模型数学评测,GPT-3.5-Turbo才勉强及格

                            图 2:基于一个种子数学题,使用 5 个角度的 8 种扰动生成问题变体。主要修改内容以绿色标出。

通过使用 GSM-Plus 评估 25 个不同规模、不同预训练方式、不同任务微调的 LLMs,以及组合 4 种常用的提示技术,本文发现 LLMs 整体上可以准确解决 GSM8K 问题,但在回答 GSM-Plus 中的变体问题时会遇到明显困难。主要发现如下:

  • 任务特定的优化,即在数学相关的数据集上微调,通常可以提高下游任务准确性;而鲁棒性的高低更多地取决于基础模型和微调数据集的选择。
  • 当需要 “批判性思维”、涉及 “算术变化” 和 “干扰因素插入” 时,LLMs 的性能会迅速下降;但对于 “数值变化” 和 “问题理解” 的扰动,LLMs 的性能比较稳定。
  • 先前的提示技术(例如,CoT,PoT,LtM 和 Complexity-based CoT)对于鲁棒性增强作用不显著,特别是对于 “算术变化 “和” 批判性思维”。在前人工作的基础上,本文进一步探索了一种组合提示方法,通过迭代生成和验证每个推理思维,可以同时提升 LLMs 在 GSM8K 和 GSM-Plus 上的性能。  

GSM-Plus 特点

  1. 质量保证:采用两阶段生成 GSM-Plus 评测题。首先,利用 GPT-4 的问题改写能力生成问题变体,然后为这些变体生成候选答案;为确保数据质量,所有由 GPT-4 生成的问题变体和答案都要经过人工标注团队进行严格检查。人工标注团队修正了 18.85% 的 GPT-4 改写的问题。
  2. 细粒度评估:对于主流评测数据集 GSM8K 的每个测试题,GSM-Plus 提供了 8 个扰动方向的变体问题,充分测试了在不同上下文下,大模型灵活解决数学应用题的能力。
  3. 挑战性:相比于 GSM8K,GSM-Plus 的问题变体更具挑战性,所有参与评估的 LLMs 的性能都显著下降。在接下来的分析中,本文会特别分析 LLMs 在不同类型扰动下的解题鲁棒性。

与其他小学数学应用题数据的比较

ACL 2024 | 对25个开闭源模型数学评测,GPT-3.5-Turbo才勉强及格

表1:不同顏色代表不同的擾動類型:ACL 2024 | 对25个开闭源模型数学评测,GPT-3.5-Turbo才勉强及格數值替換,ACL 2024 | 对25个开闭源模型数学评测,GPT-3.5-Turbo才勉强及格數位擴展,ACL 2024 | 对25个开闭源模型数学评测,GPT-3.5-Turbo才勉强及格,數運算小運算元ACL 2024 | 对25个开闭源模型数学评测,GPT-3.5-Turbo才勉强及格問題理解,ACL 2024 | 对25个开闭源模型数学评测,GPT-3.5-Turbo才勉强及格幹擾項插入,ACL 2024 | 对25个开闭源模型数学评测,GPT-3.5-Turbo才勉强及格ACL 2024 | 对25个开闭源模型数学评测,GPT-3.5-Turbo才勉强及格批判性思考。 ACL 2024 | 对25个开闭源模型数学评测,GPT-3.5-Turbo才勉强及格從上表可以看出,先前的研究使用不同的擾動來檢驗數學推理的魯棒性,但是評估設置僅涵蓋部分擾動類型,且大多是通過自動方法構建擾動,質量難以保證。相較之下,GSM-Plus 使用八種不同的數學推理技能對單一問題進行擾動,覆蓋範圍更全,且經過嚴格的品質控制。

實驗分析

評測指標

評測指標

。下降程度。
  • 同時解決的問題對的百分比(ASP)
    :原問題及其對應的某個問題變體均被 LLMs 正確解答的比例。
整體效能

如下表所示,相較於 GSM8K,且大多數 LLMs 在 GSM-Plus 上的表現都大幅下降。 

GPT-4 表現出最高的穩健性,其 PDR 最小僅 8.23%。而 CodeLlama 的PDR 最大,其中7B、13B 和34B 的模型分別為40.56%、39.71%和34.27%,超過了其基座模型LLaMA-2-7B(39.49%),以及在其上微調的數學SFT 模型,如SEGO-7B(34.91%)。這表明僅使用程式語言推理對於擾動是很脆弱的。

在面對數學擾動時,模型規模越大,效能越穩定。雖然監督微調可以提高在下游任務上的準確率,但並不能顯著增強模型對於擾動的魯棒性(即更低的 PDR)。監督微調的數據對於魯棒性非常重要。同樣是基於 LLaMA-2 進行微調,使用不同的數據,會導致模型的準確率和穩健性有較大差異。

                           ACL 2024 | 对25个开闭源模型数学评测,GPT-3.5-Turbo才勉强及格

不同擾動下LLMs 的表現表現
本文進一步評估了LLMs 在8 種問題變體下的性能穩定性。與人類基線相比,對於「批判性思考」(紫色)、「運算擴充」 和「運算逆轉」(藍色)、「幹擾項插入」(粉紅色)以及「整數- 小數- 分數轉換」(橘色)擾動,LLMs 性能下降明顯。而對於 “數值替換” 和 “問題理解”,LLMs 的性能穩定,甚至有輕微的提升。

                                         
數學推理能力的遷移性

前面的分析主要基於資料集整體。接下來,本文根據數學題是否被正確回答將2 個資料集分割,分析當LLMs 成功解決GSM8K 問題時,是否意味著正確回答GSM-Plus 變體問題的可能性變高(即高ASP 值),反之亦然。如果這種斷言成立,可以認為 LLMs 在這類特定的數學題子集上表現穩定,即使在整個資料集上並非如此。在實驗設定中,每個 GSM8K 問題及其在 GSM-Plus 中的變體轉換為 8 個問題對,結果如圖 4 所示。

ACL 2024 | 对25个开闭源模型数学评测,GPT-3.5-Turbo才勉强及格圖 4:LLMs 在 GSM8K 和 GSM-Plus 問題對之間的推理可遷移性。紫色(兩者皆正確)和藍色(兩者皆錯誤)的長條圖表示一致的模型行為,而紅色(GSM8K 正確& GSM-Plus 錯誤)和黃色(GSM8K 錯誤& GSM-Plus 正確)的長條圖則表示不一致的模型行為。紫色和紅色長條圖的高度和表示 LLMs 正確解決 GSM8K 問題的數量。

紅色條形圖的存在(LLMs 正確回答原問題,但未解決變體問題),表明大多數模型的性能可遷移性有限。雖然 LLMs 在 GSM8K 問題上表現有所差異(紫色和紅色長條圖的高度),但效能可遷移性相似(紅色長條圖的高度)。這意味著現有的基準測試無法準確評估模型在數學推理方面的真實能力。高準確率並不等價於強大的推理穩健性。

提示對於 LLMs 性能魯棒性的幫助

先前的工作表明,良好的提示指令對於激發語言模型的數學能力十分重要。本文選擇了 4 個代表性模型,並測試它們在不同的提示指令下解題的表現。如下圖所示,當面對幹擾時,使用複雜的範例作為上下文演示(Complexity-based CoT)時,LLMs 表現最為穩定;相較之下,僅使用程式語言表示中間推理(Program-of-Thought)時,LLMs 更容易受到干擾的影響。整體而言,這些提示技巧都不足以讓 LLMs 在 GSM-Plus 上維持與 GSM8K 相同的表現。

ACL 2024 | 对25个开闭源模型数学评测,GPT-3.5-Turbo才勉强及格                              圖

如何基於現有的提示方法增強 LLMs 的穩健性呢?
本文發現 LLMs 在解題過程中常常會忽略重要條件或出現計算錯誤。為此,本文探討了一種組合提示方法 Comp。此方法首先提示 LLMs 擷取問題中與數值相關的必要條件(Prompt1)。接著,根據問題和關鍵條件,指示 LLMs 迭代地產生推理目標(Prompt2)和計算目標(Prompt3),並讓其為生成的歷史解題步驟提供回饋,以確定是否獲得了最終答案(Prompt4)。具體實作如圖 6 所示。

                             

ACL 2024 | 对25个开闭源模型数学评测,GPT-3.5-Turbo才勉强及格

可以看出,Comp 透過迭代生成和自我驗證可以改善LLMs 在各種問題變化類型下的效能,但它仍然無法彌合LLMs 在標準測試集和對抗性測試集之間的性能差距。該研究期待未來有更多的方法進一步提升模型的穩健性,推動 LLMs 在數學推理領域的進一步發展。
표 3: Comp iteration의 성능은 GPT-3.5-Turbo의 다양한 프롬프트 기술 성능에 따른 재작성 질문에 대한 Plus입니다. 모든 프롬프트는 Turbo가 GSM8K 질문에 정확하게 답하도록 동기를 부여했지만, Comp만이 Turbo가 GSM-Plus 변형 질문에 대한 올바른 답을 생성하도록 도울 수 있었습니다. ㅋㅋ ~                                                   ​
이 기사에서는 수학 응용 문제를 해결하는 데 있어 LLM의 견고성을 체계적으로 분석하도록 설계된 적대적인 초등학교 수학 응용 문제 평가 세트 GSM -Plus를 소개합니다. 실험 분석에 따르면 대부분의 LLM의 성능은 교란에 직면할 때 표준 벤치마크의 성능에 비해 크게 떨어지며 인간의 성능 수준에 훨씬 못 미치는 것으로 나타났습니다. 연구자들은 이 기사의 작업이 다음을 포함하되 이에 국한되지 않는 더 많은 미래 연구를 촉진할 수 있기를 바랍니다. (1) LLM의 수학적 기술에 대한 체계적인 평가 (2) 수학적 추론을 유연하게 수행할 수 있는 모델 구축.

참조 링크

[1] Cobbe, Karl, et al. "arXiv 사전 인쇄 arXiv:2110.14168(2021). com/sota/arithmetic-reasoning-on-gsm8k

ACL 2024 | 对25个开闭源模型数学评测,GPT-3.5-Turbo才勉强及格

[2] George Polya 2004. 해결 방법: 수학적 방법의 새로운 측면, 85권. 프린스턴 대학 출판부.

以上是ACL 2024 | 對25個開閉源模型數學評測,GPT-3.5-Turbo才勉強及格的詳細內容。更多資訊請關注PHP中文網其他相關文章!

陳述:
本文內容由網友自願投稿,版權歸原作者所有。本站不承擔相應的法律責任。如發現涉嫌抄襲或侵權的內容,請聯絡admin@php.cn