夕小瑤科技說 原創
作者 | PythonChatGPT作為一個智慧人機對話應用,在推出後迅速風靡全球。僅僅一個月的時間,其用戶數已經突破了一億大關。人們也用ChatGPT測試了很多考試項目,例如SAT、AP、GRE等。然而,如果讓ChatGPT來參加我們中國的高考,會是怎樣的一番光景呢?他會不會偏科呢?我們這些普通人又能否考得ChatGPT呢?且看復旦大學和華東師大的同學們帶給大家的評測。
論文主題:
Evaluating the Performance of Large Language Models on GAOKAO Benchmark
論文連結:https://www.php.cn/link/de66dbc30377a1f7908db45298324aa3
##如何讓ChatGPT解答高考題?
論文採用零監督prompt的方式,將試題轉換為ChatGPT的輸入,如下圖所示。對於不同的學科和題型,設計了不同的詢問方式。對於數學題,則將公式轉換為latex輸入。
高考資料集
本文測驗採用2010~2022年,總共13年間的全國A捲和全國B卷,每套考卷包含10門學科,即語數英物化生史地政,其中數學分為理科數學與文科數學。
資料集總共包含2811道試題。具體題型這裡就不展開,相信讀者們對高考題還是十分了解的。
在評估時,聘請上海市曹楊第二中學的高中老師批閱主觀題。
實驗與分析
歷年高考,ChatGPT取得的分數如下圖所示。由於在計算分數時,每個科目都歸一化到100分,所以這個成績無法和你我的高考成績直接比較。但也可以看出,這個分數並不理想,估計無論是復旦或華東師大都是考不上的。這是為什麼呢?
上圖展示了ChatGPT在各個學科、以及主客觀題上的表現。藍色為客觀題,黃色為主觀題。分析發現,ChatGPT對客觀題的成績較好,尤其是英語閱讀理解、單選、完形填空,分別取得了88.3%,78.1%,73.8%的準確率。但即使是客觀題,理科數學的準確率還不到40%。數學是真的難呀~
主觀題上,ChatGPT的表現較差,物理、化學、生物和數學科目中,主觀題的表現明顯不如客觀題。結合理科客觀題分數也較差,或許ChatGPT偏向文科?根據閱卷者的評語,ChatGPT主要欠缺在:1.數學問題中的複雜方程式難以正確解決,在解題過程中使用了錯誤的公式。 2.閱讀較長資料時理解及概括能力不足。
總結
ChatGPT在訓練過程中可能沒有使用中國高考題數據,因此其表現不受資料外洩的影響,具有較高的可信度。
觀察結果顯示,與國外考試相比,ChatGPT在中國高考題的表現稍遜一籌。因此,國內的學生暫時無需過度擔心無法考過ChatGPT。然而,文章中提到的長文本概括能力等在GPT4-32K中有顯著改進,國產大模型也在中文數據上做了進一步的最佳化。因此,我們可以期待未來大模型高考題上會取得更矚目的表現。
此外,用ChatGPT解高考題這個思路,或許可以回答網友們對哪個省的考題更難的爭論?
以上是當ChatGPT參加中國高考,把全國A卷B卷餵給它後,竟嚴重偏科!的詳細內容。更多資訊請關注PHP中文網其他相關文章!