如今很多大模型都声称擅长数学,谁有真才实学?谁是靠背测试题“作弊”的?
今年,有人在匈牙利全国数学期末考试刚刚公布的题目上进行了一次全面测试
很多模型一下子就“现原形”了。
先看绿色部分,这些大模型在经典数学测试集GSM8k和全新卷子上取得的成绩差不多,共同组成参照标准。
再看红色部分,在GSM8K上的成绩显著高于同参数规模的大模型,一到全新卷子上成绩却明显下降,与同规模大模型差不多了。
研究者把他们归类为“疑似或已知在GSM8k上训练过”。
有人看过这项测试后表示,应该开始对那些从未见过的题目进行评测了
有些人认为,这种测试和每个人对大型模型实际使用的经验,是目前唯一可靠的评估方法
马斯克Grok仅次于GPT-4,开源Llemma成绩出色
测试者Keiran Paster是多伦多大学博士生、谷歌学生研究者,也是测试中Lemma大模型的作者之一。
让大模型考匈牙利全国高中数学期末考试,这招出自马斯克的xAI。
为了排除xAI的Grok大模型无意中在网络数据中见过测试题的问题,除了几个常见的测试集,还额外进行了这项测试
这个考试今年5月底才考完,当前大模型基本没机会见过这套试题。
xAI发布时还公布了的GPT-3.5、GPT-4、Claude 2的成绩作为比较。
在这组数据的基础上,Paster进行了进一步的测试,测试的对象是多个生成数学能力强的开源模型
并把测试题目、测试脚本、各模型回答结果都开源在了Huggingface上,供大家检验以及进一步测试其他模型。
结果来看,GPT-4和Claude-2组成第一梯队,在GSM8k和新卷子上成绩都很高。
虽然这不代表GPT-4和Claude 2的训练数据中完全没有GSM8k的泄露题,但至少它俩泛化能力不错、能做对新题,就不计较了。
接下来,马斯克xAI的Grok-0(33B)和Grok-1(未公布参数规模)表现都不错。
Grok-1是“未作弊组”里成绩最高的,新卷子成绩甚至高过Claude 2。
Grok-0在GSM8k上的表现接近GPT3.5-Turbo,新卷子上略差一些。
除了上述几个封闭模型外,测试中的其他模型都是开源的
Code Llama系列是Meta自己在Llama 2基础上微调的,主打根据自然语言生成代码,现在看来数学能力比同规模的模型稍差。
在Code Llama的基础上,多所大学和研究机构共同推出Llemma系列,并由EleutherAI开源。
团队从科学论文、包含数学的网络数据和数学代码中收集了Proof-Pile-2数据集,训练后的Llemma能使用工具和做形式定理证明,无需任何进一步的微调。
在新的卷子上,Llemma 34B的表现接近于GPT-3.5 Turbo水平
Mistral系列則是法國AI獨角獸Mistral AI訓練的,Apache2.0開源協定比Llama更寬鬆,成為羊駝家族之後最受開源社群歡迎的基礎模型。
「過擬合組」#裡的OpenChat 3.5和MetaMath Mistral都是基於Mistral生態微調而來。
MetaMath和MAmmoTH Code則是基於Code Llama生態。
選擇在實際業務中採用開源大模型的人需要小心避開這一組,因為它們很可能只是為了刷榜而表現出色,但實際能力可能不如同規模的其他模型強
不少網友都對Paster這項試驗表示感謝,認為這正是了解模型實際情況所需要的。
有些人表達了擔憂:
從這一天起,所有訓練大模型的人都會加入匈牙利歷年數學考試題。
同時他認為,解決辦法可能是有一家擁有專有測試的專門大模型評估公司。
另一個提議是建立一個逐年更新的測試基準,來緩和過度擬合問題。
以上是一招分辨刷榜作弊大模型,博士小哥開源AI數學'照妖鏡”的詳細內容。更多資訊請關注PHP中文網其他相關文章!

使用Gemma範圍探索語言模型的內部工作 了解AI語言模型的複雜性是一個重大挑戰。 Google發布的Gemma Scope是一種綜合工具包,為研究人員提供了一種強大的探索方式

解鎖業務成功:成為商業智能分析師的指南 想像一下,將原始數據轉換為驅動組織增長的可行見解。 這是商業智能(BI)分析師的力量 - 在GU中的關鍵作用

SQL的Alter表語句:動態地將列添加到數據庫 在數據管理中,SQL的適應性至關重要。 需要即時調整數據庫結構嗎? Alter表語句是您的解決方案。本指南的詳細信息添加了Colu

介紹 想像一個繁華的辦公室,兩名專業人員在一個關鍵項目中合作。 業務分析師專注於公司的目標,確定改進領域,並確保與市場趨勢保持戰略一致。 simu

Excel 數據計數與分析:COUNT 和 COUNTA 函數詳解 精確的數據計數和分析在 Excel 中至關重要,尤其是在處理大型數據集時。 Excel 提供了多種函數來實現此目的,其中 COUNT 和 COUNTA 函數是用於在不同條件下統計單元格數量的關鍵工具。雖然這兩個函數都用於計數單元格,但它們的設計目標卻針對不同的數據類型。讓我們深入了解 COUNT 和 COUNTA 函數的具體細節,突出它們獨特的特性和區別,並學習如何在數據分析中應用它們。 要點概述 理解 COUNT 和 COU

Google Chrome的AI Revolution:個性化和高效的瀏覽體驗 人工智能(AI)正在迅速改變我們的日常生活,而Google Chrome正在領導網絡瀏覽領域的負責人。 本文探討了興奮

重新構想影響:四倍的底線 長期以來,對話一直以狹義的AI影響來控制,主要集中在利潤的最低點上。但是,更全面的方法認識到BU的相互聯繫

事情正穩步發展。投資投入量子服務提供商和初創企業表明,行業了解其意義。而且,越來越多的現實用例正在出現以證明其價值超出


熱AI工具

Undresser.AI Undress
人工智慧驅動的應用程序,用於創建逼真的裸體照片

AI Clothes Remover
用於從照片中去除衣服的線上人工智慧工具。

Undress AI Tool
免費脫衣圖片

Clothoff.io
AI脫衣器

AI Hentai Generator
免費產生 AI 無盡。

熱門文章

熱工具

MinGW - Minimalist GNU for Windows
這個專案正在遷移到osdn.net/projects/mingw的過程中,你可以繼續在那裡關注我們。 MinGW:GNU編譯器集合(GCC)的本機Windows移植版本,可自由分發的導入函式庫和用於建置本機Windows應用程式的頭檔;包括對MSVC執行時間的擴展,以支援C99功能。 MinGW的所有軟體都可以在64位元Windows平台上運作。

記事本++7.3.1
好用且免費的程式碼編輯器

WebStorm Mac版
好用的JavaScript開發工具

Dreamweaver Mac版
視覺化網頁開發工具

SublimeText3 Mac版
神級程式碼編輯軟體(SublimeText3)