搜尋
首頁科技週邊人工智慧將入學考試題搬進中文大模型資料集,20477題目,還帶4個候選答案

隨著中文大規模語言模型在自然語言理解與自然語言生成方面展現出強大的性能,現有針對特定自然語言處理任務的中文評測基準數據集已經不足以對中文大模型進行有效地評估。傳統的中文評測基準主要關注模型對於簡單常識(如雨天出門需要帶傘)和表層語義(如籃球比賽的報道是體育類還是科技類新聞)的理解能力,而忽略了人類複雜知識的挖掘和利用。目前,針對中文大模型複雜知識評測的資料集十分匱乏,特別是涉及我國教育體系下不同層次和不同領域的專業知識。

為了彌補這一差距,天津大學自然語言處理實驗室與華為諾亞方舟實驗室聯合發布了M3KE(A Massive Multi-Level Multi-Subject Knowledge Evaluation Benchmark for Chinese Large Language Models)基準資料集,以零樣本、少樣本形式測試中文大模型對於多層次多學科知識的掌握能力。

將入學考試題搬進中文大模型資料集,20477題目,還帶4個候選答案


  • #論文連結:https://arxiv .org/abs/2305.10263
  • #資料連結:https://github.com/tjunlp-lab/M3KE

##M3KE 資料集

資料集介紹

M3KE 收集了20,477 個真人標準化考試題目(包含4個候選答案),涵蓋71 個任務,包括小學、初中、高中、大學、研究生入學考試題目,涉及人文、歷史、政治、法律、教育、心理學、科學、工程技術、藝術等學科,分佈如Fig 1 所示。

將入學考試題搬進中文大模型資料集,20477題目,還帶4個候選答案

研究人員基於兩個標準建立M3KE 資料集:

1,契合中國教育體系,涵蓋多重教育階段

研究者模仿中國學生的教育經歷,即小學、國中、高中、大學等主要教育階段,旨在評估中文大模型在不同教育階段的表現。由於每個教育階段需要掌握的知識點不同(例如,在語文學科中,小學和初中的知識或考點存在明顯的差異),因此,M3KE 在不同教育階段會包含相同的學科。為了提高資料集中學科知識點的涵蓋範圍,研究人員選擇了中國升學考試中的統考試題,包括小升初、中考、高考,研究生入學考試和中國公務員考試等真題目。

2,涵蓋多學科領域

#為提高資料集的學科覆蓋率,研究人員基於人文藝術、社會科學、自然科學三大類進行構建,包括:文學、理學,歷史、政治、法學、教育、心理學、科學、工程技術、藝術等學科。為進一步拓展資料集的豐富度,研究人員補充了中醫、宗教以及電腦等級考試等任務。

資料集統計資料

Table 3 顯示了 M3KE 的整體統計資料。上述四個學科類別中的任務數量分別為 12、21、31 和 7,而四個學科類別中的問題數量分別為 3,612、6,222、8,162 和 2,126。任務中包含的問題最大數量為 425,最小數量為 100。社會科學和自然科學的問題通常比藝術與人文學科和其他科目的問題更長,而它們的答案選項較短。

將入學考試題搬進中文大模型資料集,20477題目,還帶4個候選答案

多學科視角下的M3KE 介紹及範例

人文藝術

人文與藝術學科包括語文、藝術和歷史等多個領域的學科。這些學科著重對文學和文化文物的分析和解釋等,以小學語文為例,考試題目旨在評估 7 至 13 歲學生的語言運用和文學欣賞能力,如使用同義詞和反義詞的能力。歷史學科則涵蓋從古代到現代的中國和世界歷史。除人文學科外,M3KE 還包括藝術科目,如舞蹈、美術、音樂、電影等,藝術是人類文化的重要組成部分,評測中文大模型在藝術領域的表現同樣重要。

美術任務範例:

下面關於拉斯科洞穴壁畫說法錯誤的是?

A. 這個壁畫是在法國發現的

B. 發現的動物形像有100 多個

C. 發現的時間為1940 年

D. 壁畫顏色以黑色為主

世界近現代史任務例:

從尼德蘭革命到法國大革命歷時兩個多世紀,而此後僅半個世紀資本主義就初步形成了一個世界體系,這主要是因為?

A. 法國大革命的影響力已廣為傳播

B. 維也納體系激化了各國社會矛盾

#C. 工業革命使資本主義力量迅速增強

D. 殖民統治遍及世界各大洲

社會科學

社會科學重在人文學科的應用,如法律、政治、教育和心理學等學科。政治課程貫穿國中、高中、大學、研究生多個教育階段,其他學科則主要分佈在大學階段的課程中。社會科學也包括經濟和管理學任務,這些任務的試題選自中國研究生入學考試中的經濟學聯考和管理學聯考,知識涉及微觀經濟學、宏觀經濟學、管理學和邏輯學等。

刑法學任務範例:

甲欲殺乙,將毒藥投入乙的飯食中。乙服食後,甲後悔,趕緊說明狀況,並將乙送往醫院。醫院在過程中檢查發現,甲所投放的 "毒藥" 根本沒有毒性,乙安然無恙。甲的行為屬於?

A. 不構成犯罪

B. 未遂犯罪

C. 犯罪中止

D. 犯罪既遂

教育學原理任務範例:

教育研究中最基本、最常用的研究方法是?

A. 教育觀察研究

B.教育調查研究

C.教育測量研究

D.教育實驗研究

# 自然科學

#######自然科學包括工程、科學、醫學和數學、物理、化學、生物學等基礎學科。這些學科通常需要複雜的計算、分析和邏輯推理能力。在我國教育體系中,同一學科在不同階段會涉及不同類型的知識。例如,小學數學主要學習基本的算術運算,而高中數學則涵蓋更高階的數學概念,如數列、導數、幾何等。 ############動物生理任務範例:############使用普魯卡因麻醉神經纖維,影響了神經纖維傳導興奮的哪一項特徵? ######

A. 生理完整性

B. 絕緣性

C. 雙向傳導性

D. 相對不疲勞性

作業系統任務範例:

目錄形式對檔案的檢索效率影響很大,下列最高級的目錄形式是?

A. 單級目錄

B. 兩層目錄

C. 三級目錄

D. 樹狀目錄

#它它

##其他類型的任務包括宗教、中國公務員考試,電腦等級考試等。這些任務所需的知識不限於上述單一層次或學科的知識。如中國公務員考試涉及常識、人文、邏輯等知識,因此研究人員將這些任務視為對中文大模型綜合知識的評估。

中國公務員考試任務範例:

#以前有幾項研究表明,食用巧克力會增加食用者心臟病的可能性。而一項最新的、更可靠的研究得出的結論是:食用巧克力與心臟病發病率無關。估計這項研究成果公佈以後,巧克力的消費量將會大大增加。上述推論是基於下列哪一項假設?

A. 儘管有些人知道食用巧克力會增加心臟病的可能性,卻照樣大吃特吃

B. 人們從來也不相信吃巧克力會更容易患心臟病的說法

C. 現在許多人吃巧克力是因為他們沒有聽過巧克力會導致心臟病的說法

D. 現在許多人不吃巧克力完全是因為他們相信巧克力會誘發心臟病

中醫學任務範例:

#人參有大補元氣、益氣固脫的作用,而用於慢性虛弱性疾病常以何藥作代用品?

丹參

黨參

黃耆

太子參

多元教育階段視角下的M3KE 介紹與範例

研究者依照中國教育體系對資料集進行了分階段,包括小學、初中、高中、大學及研究生入學考試。同樣,研究人員也選擇一些教育體系外的考試科目,如電腦等級考試和中國公務員考試等。

小學

小學語文任務範例:

下列字詞書寫完全正確的一項是?

A. 天籟之音   行雲流水   筆走龍蛇   翻箱倒櫃

B. 高山流水   輕歌曼舞者唱出龍點唱龍C. 餘音繞梁   巧奪天功   妙筆生花   焦躁不安

D. 黃鐘大呂   惟妙惟妙惟妙愷栩栩如生# 精減政兵減## #小學數學任務範例:

一件商品,先提價20%,以後又降價20%,現在的價格與原來相比?

A. 提高了

#

B. 降低了

C. 不變

D. 不知道

#初中

#初中語文任務範例:

下列說法正確的一項是?

A. 《最苦與最樂》選自《梁啟超文選》,作者梁啟超是明代思想家、學者

B. 《鄒忌諷齊王納諫》選自《戰國策》,《戰國策》是戰國時遊說之士的策謀和言論的彙編,由東漢的劉向編訂為三十三篇

C. 字又稱“長短句”,句式長短不一。興盛於宋代,蘇遼和辛棄疾是豪放派的代表人物,而李清照是婉約派的代表人物

D.《岳陽樓記》其實是一篇借物言志的文章,寄寓了作者與民同樂的思想

初中政治任務範例:

班級要以「崇尚法治精神」 為主題製作黑板報,小蘭負責「實踐平等」 版塊內容的編寫。以下她蒐集的素材適合入選的是?

A. 公車上設有「老弱病戲孕」 愛心專座

##B. 中學生到革命傳統教育基地參加研讀活動

C. 解放軍戰士不畏嚴寒酷暑,守護祖國邊疆

D. 同學們利用假日到街頭清除小廣告

高中

高中語言任務範例:

沈括在《夢溪筆談》中說:「天地之變,寒暑風雨,水旱螟蝗,率皆有法。」 這句話的哲學寓意是?

A. 規律是客觀事物變化的根本原因

#B. 規律具有客觀性、普遍性  

##C. 要學會用連結的觀點看問題     

D. 要學習用發展的觀點看問題

高中生物任務範例:

環境容納量取決於一個族群所處的環境條件。下列敘述正確的是?

甲乙兩地的灰喜鵲種群的環境容納量一定是相同的

生活在某草原的東亞飛蝗不同年份的環境容納量可能是相同的當族群數量接近環境容納量時,死亡率會升高,出生率不變

##生活在微山湖中的鯽魚和黑魚環境容納量是相同的

大學

大學口腔醫學任務例:

排在我國口腔癌之首的是?

A. 齒槽黏膜癌

B. 頰黏膜癌

C. 唇癌症

D.舌癌

大學經濟學綜合任務範例:############下列項目哪一項應計入GDP? ############A. 政府轉移支付#######

B. 購買一輛用過的汽車

C. 企業支付的貸款和債券利息

D.購買彩票贏得的1 萬元

其它

電腦等級考試之計算機基礎任務範例:

因為某工作表資料非常多,在捲動瀏覽時第一行的標題無法始終看到,應如何操作才能始終看到標題行,最快捷的方法是?

A. 設定「列印標題」

#B. 凍結窗格

C.凍結首行

D. 凍結首列

#宗教任務範例:

##宗教能夠與社會主義社會相適應的政治基礎是?

A. 人民民主專政國家政權的建立

#B. 廣大教徒是擁護社會主義制度的,同全國人民在根本利益上是一致的

C. 中國共產黨領導和執政地位的確立

##D. 獨立自主,自辦教會

#實驗

評測模型

    #GLM-335M/10B/130B,由清華大學開發的預訓練大語言模型,支援中、英文雙語。研究者選擇 GLM 中文版的三個模型,參數規模分別為 335M, 10B 和 130B。
  • BLOOM-7.1B,Hugging Face 推出的多語言大模型,由數百名研究人員合作開發。
  • ChatGLM-6B,由清華大學開發的語言模型,使用指令資料微調,並透過基於人類回饋的強化學習進一步訓練。
  • MOSS-16B-SFT, 由復旦大學開發的語言模型,實驗中使用經過指令微調版的 MOSS-moon-003-SFT 版本。
  • BELLE-7B-0.2M,基於 BLOOMZ-7.1B-mt 開發的經過 20 萬條指令微調的語言模型。
  • BELLE-7B-2M,基於 BLOOMZ-7.1B-mt 開發的經過 200 萬條指令微調的語言模型。
  • GPT-3.5-turbo,由 OpenAI 開發的語言模型。採用人工建構的高品質指令數據,進行人類回饋強化學習訓練。

Zero-shot/Few-shot 評估

在零樣本設定條件下,模型要求直接回答問題;在少樣本設定條件下,會預先給定模型同任務的若干範例,引導模型進行情境學習(In-Context Learning)。在 M3KE 中,所有題目均使用準確率計算得分​​。

不同學科類別下的評測結果

將入學考試題搬進中文大模型資料集,20477題目,還帶4個候選答案


將入學考試題搬進中文大模型資料集,20477題目,還帶4個候選答案

#不同教育階段下的評測結果

將入學考試題搬進中文大模型資料集,20477題目,還帶4個候選答案

實驗結果分析

1,在零樣本評估中(Table 4&6),所有參數小於10B 的預訓練語言模型(未經過微調)準確率都低於隨機結果(25%),少樣本的設定(Table 5&7)有助於模型效能的提升。但是,GLM130B 在零樣本評估的結果優於少樣本評估結果,原因可能是 GLM130B 在預訓練階段已經使用了部分指令數據,使其已經具備較好的零樣本學習能力。

2,大部分經過微調後的中文大模型僅達到隨機結果(25%)水平,即使在小學階段的測試中(Table 6&7)。這說明較低教育階段中的知識仍然是當前中文大模型的短板之一。

3,在零樣本評估中,BELLE-7B-2M 取得了中文大模型中最好的成績,但仍與 GPT-3.5-turbo 有 14.8% 的差距。此外,有監督微調指令的數量也是一個重要的因素,經過兩百萬指令微調的 BELLE-7B-2M 比經過二十萬指令微調的 BELLE-7B-0.2M(Table 4)好。

4,少樣本的設定在大多數情況下並沒有帶來表現的改善(Table 5&7 vs Table 4&6),尤其是經過指令微調或基於人類回饋的強化學習訓練後的語言模型。這顯示對預訓練語言模型進行指令微調可以顯著提升語言模型的零樣本學習能力,不需要額外的範例就能理解指令或問題的意圖。

結論

研究者提出了一個新的基準M3KE,用於評估中文大模型在多個學科和不同教育階段下中文大模型知識掌握能力。 M3KE 包含 71 個任務和 20,447 個問題。研究人員發現,所有參與評估的開源中文大模型都明顯落後 GPT-3.5。研究人員希望 M3KE 有助於發現中文大模型的知識漏洞,促進中文大模型進一步的發展。

M3KE 中所有的任務

將入學考試題搬進中文大模型資料集,20477題目,還帶4個候選答案

以上是將入學考試題搬進中文大模型資料集,20477題目,還帶4個候選答案的詳細內容。更多資訊請關注PHP中文網其他相關文章!

陳述
本文轉載於:51CTO.COM。如有侵權,請聯絡admin@php.cn刪除
最新的最佳及時工程技術的年度彙編最新的最佳及時工程技術的年度彙編Apr 10, 2025 am 11:22 AM

對於那些可能是我專欄新手的人,我廣泛探討了AI的最新進展,包括體現AI,AI推理,AI中的高科技突破,及時的工程,AI培訓,AI,AI RE RE等主題

歐洲的AI大陸行動計劃:Gigafactories,Data Labs和Green AI歐洲的AI大陸行動計劃:Gigafactories,Data Labs和Green AIApr 10, 2025 am 11:21 AM

歐洲雄心勃勃的AI大陸行動計劃旨在將歐盟確立為人工智能的全球領導者。 一個關鍵要素是建立了AI Gigafactories網絡,每個網絡都有大約100,000個高級AI芯片 - 2倍的自動化合物的四倍

微軟的直接代理商故事是否足以創造更多的粉絲?微軟的直接代理商故事是否足以創造更多的粉絲?Apr 10, 2025 am 11:20 AM

微軟對AI代理申請的統一方法:企業的明顯勝利 微軟最近公告的新AI代理能力清晰而統一的演講給人留下了深刻的印象。 與許多技術公告陷入困境不同

向員工出售AI策略:Shopify首席執行官的宣言向員工出售AI策略:Shopify首席執行官的宣言Apr 10, 2025 am 11:19 AM

Shopify首席執行官TobiLütke最近的備忘錄大膽地宣布AI對每位員工的基本期望是公司內部的重大文化轉變。 這不是短暫的趨勢。這是整合到P中的新操作範式

IBM啟動具有完整AI集成的Z17大型機IBM啟動具有完整AI集成的Z17大型機Apr 10, 2025 am 11:18 AM

IBM的Z17大型機:集成AI用於增強業務運營 上個月,在IBM的紐約總部,我收到了Z17功能的預覽。 以Z16的成功為基礎(於2022年推出並證明持續的收入增長

5 Chatgpt提示取決於別人並完全相信自己5 Chatgpt提示取決於別人並完全相信自己Apr 10, 2025 am 11:17 AM

解鎖不可動搖的信心,消除了對外部驗證的需求! 這五個CHATGPT提示將指導您完全自力更生和自我感知的變革轉變。 只需複制,粘貼和自定義包圍

AI與您的思想危險相似AI與您的思想危險相似Apr 10, 2025 am 11:16 AM

人工智能安全與研究公司 Anthropic 最近的一項[研究]開始揭示這些複雜過程的真相,展現出一種令人不安地與我們自身認知領域相似的複雜性。自然智能和人工智能可能比我們想像的更相似。 窺探內部:Anthropic 可解釋性研究 Anthropic 進行的研究的新發現代表了機制可解釋性領域的重大進展,該領域旨在反向工程 AI 的內部計算——不僅僅觀察 AI 做了什麼,而是理解它在人工神經元層面如何做到這一點。 想像一下,試圖通過繪製當有人看到特定物體或思考特定想法時哪些神經元會放電來理解大腦。 A

龍翼展示高通的邊緣動力龍翼展示高通的邊緣動力Apr 10, 2025 am 11:14 AM

高通的龍翼:企業和基礎設施的戰略飛躍 高通公司通過其新的Dragonwing品牌在全球範圍內積極擴展其範圍,以全球為目標。 這不僅僅是雷布蘭

See all articles

熱AI工具

Undresser.AI Undress

Undresser.AI Undress

人工智慧驅動的應用程序,用於創建逼真的裸體照片

AI Clothes Remover

AI Clothes Remover

用於從照片中去除衣服的線上人工智慧工具。

Undress AI Tool

Undress AI Tool

免費脫衣圖片

Clothoff.io

Clothoff.io

AI脫衣器

AI Hentai Generator

AI Hentai Generator

免費產生 AI 無盡。

熱門文章

R.E.P.O.能量晶體解釋及其做什麼(黃色晶體)
3 週前By尊渡假赌尊渡假赌尊渡假赌
R.E.P.O.最佳圖形設置
3 週前By尊渡假赌尊渡假赌尊渡假赌
R.E.P.O.如果您聽不到任何人,如何修復音頻
3 週前By尊渡假赌尊渡假赌尊渡假赌
WWE 2K25:如何解鎖Myrise中的所有內容
3 週前By尊渡假赌尊渡假赌尊渡假赌

熱工具

Dreamweaver CS6

Dreamweaver CS6

視覺化網頁開發工具

ZendStudio 13.5.1 Mac

ZendStudio 13.5.1 Mac

強大的PHP整合開發環境

VSCode Windows 64位元 下載

VSCode Windows 64位元 下載

微軟推出的免費、功能強大的一款IDE編輯器

mPDF

mPDF

mPDF是一個PHP庫,可以從UTF-8編碼的HTML產生PDF檔案。原作者Ian Back編寫mPDF以從他的網站上「即時」輸出PDF文件,並處理不同的語言。與原始腳本如HTML2FPDF相比,它的速度較慢,並且在使用Unicode字體時產生的檔案較大,但支援CSS樣式等,並進行了大量增強。支援幾乎所有語言,包括RTL(阿拉伯語和希伯來語)和CJK(中日韓)。支援嵌套的區塊級元素(如P、DIV),

禪工作室 13.0.1

禪工作室 13.0.1

強大的PHP整合開發環境