首頁  >  文章  >  科技週邊  >  當ChatGPT參加中國高考,把全國A卷B卷餵給它後,竟嚴重偏科!

當ChatGPT參加中國高考,把全國A卷B卷餵給它後,竟嚴重偏科!

王林
王林轉載
2023-05-26 15:37:061593瀏覽

夕小瑤科技說 原創
作者 | PythonChatGPT作為一個智慧人機對話應用,在推出後迅速風靡全球。僅僅一個月的時間,其用戶數已經突破了一億大關。人們也用ChatGPT測試了很多考試項目,例如SAT、AP、GRE等。然而,如果讓ChatGPT來參加我們中國的高考,會是怎樣的一番光景呢?他會不會偏科呢?我們這些普通人又能否考得ChatGPT呢?且看復旦大學和華東師大的同學們帶給大家的評測。

論文主題:
Evaluating the Performance of Large Language Models on GAOKAO Benchmark
論文連結:https://www.php.cn/link/de66dbc30377a1f7908db45298324aa3

##如何讓ChatGPT解答高考題?

論文採用零監督prompt的方式,將試題轉換為ChatGPT的輸入,如下圖所示。對於不同的學科和題型,設計了不同的詢問方式。對於數學題,則將公式轉換為latex輸入。

當ChatGPT參加中國高考,把全國A卷B卷餵給它後,竟嚴重偏科!

高考資料集

本文測驗採用2010~2022年,總共13年間的全國A捲和全國B卷,每套考卷包含10門學科,即語數英物化生史地政,其中數學分為理科數學與文科數學。

資料集總共包含2811道試題。具體題型這裡就不展開,相信讀者們對高考題還是十分了解的。

當ChatGPT參加中國高考,把全國A卷B卷餵給它後,竟嚴重偏科!

在評估時,聘請上海市曹楊第二中學的高中老師批閱主觀題。

實驗與分析

歷年高考,ChatGPT取得的分數如下圖所示。由於在計算分數時,每個科目都歸一化到100分,所以這個成績無法和你我的高考成績直接比較。但也可以看出,這個分數並不理想​​,估計無論是復旦或華東師大都是考不上的。這是為什麼呢?

當ChatGPT參加中國高考,把全國A卷B卷餵給它後,竟嚴重偏科!

當ChatGPT參加中國高考,把全國A卷B卷餵給它後,竟嚴重偏科!

上圖展示了ChatGPT在各個學科、以及主客觀題上的表現。藍色為客觀題,黃色為主觀題。分析發現,ChatGPT對客觀題的成績較好,尤其是英語閱讀理解、單選、完形填空,分別取得了88.3%,78.1%,73.8%的準確率。但即使是客觀題,理科數學的準確率還不到40%。數學是真的難呀~

主觀題上,ChatGPT的表現較差,物理、化學、生物和數學科目中,主觀題的表現明顯不如客觀題。結合理科客觀題分數也較差,或許ChatGPT偏向文科?根據閱卷者的評語,ChatGPT主要欠缺在:1.數學問題中的複雜方程式難以正確解決,在解題過程中使用了錯誤的公式。 2.閱讀較長資料時理解及概括能力不足。

總結

ChatGPT在訓練過程中可能沒有使用中國高考題數據,因此其表現不受資料外洩的影響,具有較高的可信度。

觀察結果顯示,與國外考試相比,ChatGPT在中國高考題的表現稍遜一籌。因此,國內的學生暫時無需過度擔心無法考過ChatGPT。然而,文章中提到的長文本概括能力等在GPT4-32K中有顯著改進,國產大模型也在中文數據上做了進一步的最佳化。因此,我們可以期待未來大模型高考題上會取得更矚目的表現。

此外,用ChatGPT解高考題這個思路,或許可以回答網友們對哪個省的考題更難的爭論?

以上是當ChatGPT參加中國高考,把全國A卷B卷餵給它後,竟嚴重偏科!的詳細內容。更多資訊請關注PHP中文網其他相關文章!

陳述:
本文轉載於:51cto.com。如有侵權,請聯絡admin@php.cn刪除