首頁  >  文章  >  科技週邊  >  一招分辨刷榜作弊大模型,博士小哥開源AI數學“照妖鏡”

一招分辨刷榜作弊大模型,博士小哥開源AI數學“照妖鏡”

WBOY
WBOY轉載
2023-11-17 12:38:44690瀏覽

如今很多大模型都声称擅长数学,谁有真才实学?谁是靠背测试题“作弊”的?

今年,有人在匈牙利全国数学期末考试刚刚公布的题目上进行了一次全面测试

很多模型一下子就“现原形”了。

一招分辨刷榜作弊大模型,博士小哥開源AI數學“照妖鏡”

先看绿色部分,这些大模型在经典数学测试集GSM8k和全新卷子上取得的成绩差不多,共同组成参照标准

再看红色部分,在GSM8K上的成绩显著高于同参数规模的大模型,一到全新卷子上成绩却明显下降,与同规模大模型差不多了。

研究者把他们归类为“疑似或已知在GSM8k上训练过”

有人看过这项测试后表示,应该开始对那些从未见过的题目进行评测了

一招分辨刷榜作弊大模型,博士小哥開源AI數學“照妖鏡”

有些人认为,这种测试和每个人对大型模型实际使用的经验,是目前唯一可靠的评估方法

一招分辨刷榜作弊大模型,博士小哥開源AI數學“照妖鏡”

马斯克Grok仅次于GPT-4,开源Llemma成绩出色

测试者Keiran Paster是多伦多大学博士生、谷歌学生研究者,也是测试中Lemma大模型的作者之一。

一招分辨刷榜作弊大模型,博士小哥開源AI數學“照妖鏡”

让大模型考匈牙利全国高中数学期末考试,这招出自马斯克的xAI

为了排除xAI的Grok大模型无意中在网络数据中见过测试题的问题,除了几个常见的测试集,还额外进行了这项测试

这个考试今年5月底才考完,当前大模型基本没机会见过这套试题。

xAI发布时还公布了的GPT-3.5、GPT-4、Claude 2的成绩作为比较。

一招分辨刷榜作弊大模型,博士小哥開源AI數學“照妖鏡”

在这组数据的基础上,Paster进行了进一步的测试,测试的对象是多个生成数学能力强的开源模型

并把测试题目、测试脚本、各模型回答结果都开源在了Huggingface上,供大家检验以及进一步测试其他模型。

一招分辨刷榜作弊大模型,博士小哥開源AI數學“照妖鏡”

结果来看,GPT-4和Claude-2组成第一梯队,在GSM8k和新卷子上成绩都很高。

虽然这不代表GPT-4和Claude 2的训练数据中完全没有GSM8k的泄露题,但至少它俩泛化能力不错、能做对新题,就不计较了。

接下来,马斯克xAI的Grok-0(33B)和Grok-1(未公布参数规模)表现都不错。

Grok-1是“未作弊组”里成绩最高的,新卷子成绩甚至高过Claude 2。

Grok-0在GSM8k上的表现接近GPT3.5-Turbo,新卷子上略差一些。

除了上述几个封闭模型外,测试中的其他模型都是开源的

Code Llama系列是Meta自己在Llama 2基础上微调的,主打根据自然语言生成代码,现在看来数学能力比同规模的模型稍差

一招分辨刷榜作弊大模型,博士小哥開源AI數學“照妖鏡”

在Code Llama的基础上,多所大学和研究机构共同推出Llemma系列,并由EleutherAI开源。

团队从科学论文、包含数学的网络数据和数学代码中收集了Proof-Pile-2数据集,训练后的Llemma能使用工具和做形式定理证明,无需任何进一步的微调。

在新的卷子上,Llemma 34B的表现接近于GPT-3.5 Turbo水平

一招分辨刷榜作弊大模型,博士小哥開源AI數學“照妖鏡”

Mistral系列則是法國AI獨角獸Mistral AI訓練的,Apache2.0開源協定比Llama更寬鬆,成為羊駝家族之後最受開源社群歡迎的基礎模型。

一招分辨刷榜作弊大模型,博士小哥開源AI數學“照妖鏡”

「過擬合組」#裡的OpenChat 3.5MetaMath Mistral都是基於Mistral生態微調而來。

MetaMathMAmmoTH Code則是基於Code Llama生態。

選擇在實際業務中採用開源大模型的人需要小心避開這一組,因為它們很可能只是為了刷榜而表現出色,但實際能力可能不如同規模的其他模型強

一招分辨刷榜作弊大模型,博士小哥開源AI數學“照妖鏡”

不少網友都對Paster這項試驗表示感謝,認為這正是了解模型實際情況所需要的。

一招分辨刷榜作弊大模型,博士小哥開源AI數學“照妖鏡”

有些人表達了擔憂:

從這一天起,所有訓練大模型的人都會加入匈牙利歷年數學考試題。

同時他認為,解決辦法可能是有一家擁有專有測試的專門大模型評估公司

一招分辨刷榜作弊大模型,博士小哥開源AI數學“照妖鏡”

另一個提議是建立一個逐年更新的測試基準,來緩和過度擬合問題。

一招分辨刷榜作弊大模型,博士小哥開源AI數學“照妖鏡”

以上是一招分辨刷榜作弊大模型,博士小哥開源AI數學“照妖鏡”的詳細內容。更多資訊請關注PHP中文網其他相關文章!

陳述:
本文轉載於:51cto.com。如有侵權,請聯絡admin@php.cn刪除