搜尋
首頁科技週邊人工智慧將入學考試題搬進中文大模型資料集,20477題目,還帶4個候選答案

隨著中文大規模語言模型在自然語言理解與自然語言生成方面展現出強大的性能,現有針對特定自然語言處理任務的中文評測基準數據集已經不足以對中文大模型進行有效地評估。傳統的中文評測基準主要關注模型對於簡單常識(如雨天出門需要帶傘)和表層語義(如籃球比賽的報道是體育類還是科技類新聞)的理解能力,而忽略了人類複雜知識的挖掘和利用。目前,針對中文大模型複雜知識評測的資料集十分匱乏,特別是涉及我國教育體系下不同層次和不同領域的專業知識。

為了彌補這一差距,天津大學自然語言處理實驗室與華為諾亞方舟實驗室聯合發布了M3KE(A Massive Multi-Level Multi-Subject Knowledge Evaluation Benchmark for Chinese Large Language Models)基準資料集,以零樣本、少樣本形式測試中文大模型對於多層次多學科知識的掌握能力。

將入學考試題搬進中文大模型資料集,20477題目,還帶4個候選答案


  • #論文連結:https://arxiv .org/abs/2305.10263
  • #資料連結:https://github.com/tjunlp-lab/M3KE

##M3KE 資料集

資料集介紹

M3KE 收集了20,477 個真人標準化考試題目(包含4個候選答案),涵蓋71 個任務,包括小學、初中、高中、大學、研究生入學考試題目,涉及人文、歷史、政治、法律、教育、心理學、科學、工程技術、藝術等學科,分佈如Fig 1 所示。

將入學考試題搬進中文大模型資料集,20477題目,還帶4個候選答案

研究人員基於兩個標準建立M3KE 資料集:

1,契合中國教育體系,涵蓋多重教育階段

研究者模仿中國學生的教育經歷,即小學、國中、高中、大學等主要教育階段,旨在評估中文大模型在不同教育階段的表現。由於每個教育階段需要掌握的知識點不同(例如,在語文學科中,小學和初中的知識或考點存在明顯的差異),因此,M3KE 在不同教育階段會包含相同的學科。為了提高資料集中學科知識點的涵蓋範圍,研究人員選擇了中國升學考試中的統考試題,包括小升初、中考、高考,研究生入學考試和中國公務員考試等真題目。

2,涵蓋多學科領域

#為提高資料集的學科覆蓋率,研究人員基於人文藝術、社會科學、自然科學三大類進行構建,包括:文學、理學,歷史、政治、法學、教育、心理學、科學、工程技術、藝術等學科。為進一步拓展資料集的豐富度,研究人員補充了中醫、宗教以及電腦等級考試等任務。

資料集統計資料

Table 3 顯示了 M3KE 的整體統計資料。上述四個學科類別中的任務數量分別為 12、21、31 和 7,而四個學科類別中的問題數量分別為 3,612、6,222、8,162 和 2,126。任務中包含的問題最大數量為 425,最小數量為 100。社會科學和自然科學的問題通常比藝術與人文學科和其他科目的問題更長,而它們的答案選項較短。

將入學考試題搬進中文大模型資料集,20477題目,還帶4個候選答案

多學科視角下的M3KE 介紹及範例

人文藝術

人文與藝術學科包括語文、藝術和歷史等多個領域的學科。這些學科著重對文學和文化文物的分析和解釋等,以小學語文為例,考試題目旨在評估 7 至 13 歲學生的語言運用和文學欣賞能力,如使用同義詞和反義詞的能力。歷史學科則涵蓋從古代到現代的中國和世界歷史。除人文學科外,M3KE 還包括藝術科目,如舞蹈、美術、音樂、電影等,藝術是人類文化的重要組成部分,評測中文大模型在藝術領域的表現同樣重要。

美術任務範例:

下面關於拉斯科洞穴壁畫說法錯誤的是?

A. 這個壁畫是在法國發現的

B. 發現的動物形像有100 多個

C. 發現的時間為1940 年

D. 壁畫顏色以黑色為主

世界近現代史任務例:

從尼德蘭革命到法國大革命歷時兩個多世紀,而此後僅半個世紀資本主義就初步形成了一個世界體系,這主要是因為?

A. 法國大革命的影響力已廣為傳播

B. 維也納體系激化了各國社會矛盾

#C. 工業革命使資本主義力量迅速增強

D. 殖民統治遍及世界各大洲

社會科學

社會科學重在人文學科的應用,如法律、政治、教育和心理學等學科。政治課程貫穿國中、高中、大學、研究生多個教育階段,其他學科則主要分佈在大學階段的課程中。社會科學也包括經濟和管理學任務,這些任務的試題選自中國研究生入學考試中的經濟學聯考和管理學聯考,知識涉及微觀經濟學、宏觀經濟學、管理學和邏輯學等。

刑法學任務範例:

甲欲殺乙,將毒藥投入乙的飯食中。乙服食後,甲後悔,趕緊說明狀況,並將乙送往醫院。醫院在過程中檢查發現,甲所投放的 "毒藥" 根本沒有毒性,乙安然無恙。甲的行為屬於?

A. 不構成犯罪

B. 未遂犯罪

C. 犯罪中止

D. 犯罪既遂

教育學原理任務範例:

教育研究中最基本、最常用的研究方法是?

A. 教育觀察研究

B.教育調查研究

C.教育測量研究

D.教育實驗研究

# 自然科學

#######自然科學包括工程、科學、醫學和數學、物理、化學、生物學等基礎學科。這些學科通常需要複雜的計算、分析和邏輯推理能力。在我國教育體系中,同一學科在不同階段會涉及不同類型的知識。例如,小學數學主要學習基本的算術運算,而高中數學則涵蓋更高階的數學概念,如數列、導數、幾何等。 ############動物生理任務範例:############使用普魯卡因麻醉神經纖維,影響了神經纖維傳導興奮的哪一項特徵? ######

A. 生理完整性

B. 絕緣性

C. 雙向傳導性

D. 相對不疲勞性

作業系統任務範例:

目錄形式對檔案的檢索效率影響很大,下列最高級的目錄形式是?

A. 單級目錄

B. 兩層目錄

C. 三級目錄

D. 樹狀目錄

#它它

##其他類型的任務包括宗教、中國公務員考試,電腦等級考試等。這些任務所需的知識不限於上述單一層次或學科的知識。如中國公務員考試涉及常識、人文、邏輯等知識,因此研究人員將這些任務視為對中文大模型綜合知識的評估。

中國公務員考試任務範例:

#以前有幾項研究表明,食用巧克力會增加食用者心臟病的可能性。而一項最新的、更可靠的研究得出的結論是:食用巧克力與心臟病發病率無關。估計這項研究成果公佈以後,巧克力的消費量將會大大增加。上述推論是基於下列哪一項假設?

A. 儘管有些人知道食用巧克力會增加心臟病的可能性,卻照樣大吃特吃

B. 人們從來也不相信吃巧克力會更容易患心臟病的說法

C. 現在許多人吃巧克力是因為他們沒有聽過巧克力會導致心臟病的說法

D. 現在許多人不吃巧克力完全是因為他們相信巧克力會誘發心臟病

中醫學任務範例:

#人參有大補元氣、益氣固脫的作用,而用於慢性虛弱性疾病常以何藥作代用品?

丹參

黨參

黃耆

太子參

多元教育階段視角下的M3KE 介紹與範例

研究者依照中國教育體系對資料集進行了分階段,包括小學、初中、高中、大學及研究生入學考試。同樣,研究人員也選擇一些教育體系外的考試科目,如電腦等級考試和中國公務員考試等。

小學

小學語文任務範例:

下列字詞書寫完全正確的一項是?

A. 天籟之音   行雲流水   筆走龍蛇   翻箱倒櫃

B. 高山流水   輕歌曼舞者唱出龍點唱龍C. 餘音繞梁   巧奪天功   妙筆生花   焦躁不安

D. 黃鐘大呂   惟妙惟妙惟妙愷栩栩如生# 精減政兵減## #小學數學任務範例:

一件商品,先提價20%,以後又降價20%,現在的價格與原來相比?

A. 提高了

#

B. 降低了

C. 不變

D. 不知道

#初中

#初中語文任務範例:

下列說法正確的一項是?

A. 《最苦與最樂》選自《梁啟超文選》,作者梁啟超是明代思想家、學者

B. 《鄒忌諷齊王納諫》選自《戰國策》,《戰國策》是戰國時遊說之士的策謀和言論的彙編,由東漢的劉向編訂為三十三篇

C. 字又稱“長短句”,句式長短不一。興盛於宋代,蘇遼和辛棄疾是豪放派的代表人物,而李清照是婉約派的代表人物

D.《岳陽樓記》其實是一篇借物言志的文章,寄寓了作者與民同樂的思想

初中政治任務範例:

班級要以「崇尚法治精神」 為主題製作黑板報,小蘭負責「實踐平等」 版塊內容的編寫。以下她蒐集的素材適合入選的是?

A. 公車上設有「老弱病戲孕」 愛心專座

##B. 中學生到革命傳統教育基地參加研讀活動

C. 解放軍戰士不畏嚴寒酷暑,守護祖國邊疆

D. 同學們利用假日到街頭清除小廣告

高中

高中語言任務範例:

沈括在《夢溪筆談》中說:「天地之變,寒暑風雨,水旱螟蝗,率皆有法。」 這句話的哲學寓意是?

A. 規律是客觀事物變化的根本原因

#B. 規律具有客觀性、普遍性  

##C. 要學會用連結的觀點看問題     

D. 要學習用發展的觀點看問題

高中生物任務範例:

環境容納量取決於一個族群所處的環境條件。下列敘述正確的是?

甲乙兩地的灰喜鵲種群的環境容納量一定是相同的

生活在某草原的東亞飛蝗不同年份的環境容納量可能是相同的當族群數量接近環境容納量時,死亡率會升高,出生率不變

##生活在微山湖中的鯽魚和黑魚環境容納量是相同的

大學

大學口腔醫學任務例:

排在我國口腔癌之首的是?

A. 齒槽黏膜癌

B. 頰黏膜癌

C. 唇癌症

D.舌癌

大學經濟學綜合任務範例:############下列項目哪一項應計入GDP? ############A. 政府轉移支付#######

B. 購買一輛用過的汽車

C. 企業支付的貸款和債券利息

D.購買彩票贏得的1 萬元

其它

電腦等級考試之計算機基礎任務範例:

因為某工作表資料非常多,在捲動瀏覽時第一行的標題無法始終看到,應如何操作才能始終看到標題行,最快捷的方法是?

A. 設定「列印標題」

#B. 凍結窗格

C.凍結首行

D. 凍結首列

#宗教任務範例:

##宗教能夠與社會主義社會相適應的政治基礎是?

A. 人民民主專政國家政權的建立

#B. 廣大教徒是擁護社會主義制度的,同全國人民在根本利益上是一致的

C. 中國共產黨領導和執政地位的確立

##D. 獨立自主,自辦教會

#實驗

評測模型

    #GLM-335M/10B/130B,由清華大學開發的預訓練大語言模型,支援中、英文雙語。研究者選擇 GLM 中文版的三個模型,參數規模分別為 335M, 10B 和 130B。
  • BLOOM-7.1B,Hugging Face 推出的多語言大模型,由數百名研究人員合作開發。
  • ChatGLM-6B,由清華大學開發的語言模型,使用指令資料微調,並透過基於人類回饋的強化學習進一步訓練。
  • MOSS-16B-SFT, 由復旦大學開發的語言模型,實驗中使用經過指令微調版的 MOSS-moon-003-SFT 版本。
  • BELLE-7B-0.2M,基於 BLOOMZ-7.1B-mt 開發的經過 20 萬條指令微調的語言模型。
  • BELLE-7B-2M,基於 BLOOMZ-7.1B-mt 開發的經過 200 萬條指令微調的語言模型。
  • GPT-3.5-turbo,由 OpenAI 開發的語言模型。採用人工建構的高品質指令數據,進行人類回饋強化學習訓練。

Zero-shot/Few-shot 評估

在零樣本設定條件下,模型要求直接回答問題;在少樣本設定條件下,會預先給定模型同任務的若干範例,引導模型進行情境學習(In-Context Learning)。在 M3KE 中,所有題目均使用準確率計算得分​​。

不同學科類別下的評測結果

將入學考試題搬進中文大模型資料集,20477題目,還帶4個候選答案


將入學考試題搬進中文大模型資料集,20477題目,還帶4個候選答案

#不同教育階段下的評測結果

將入學考試題搬進中文大模型資料集,20477題目,還帶4個候選答案

實驗結果分析

1,在零樣本評估中(Table 4&6),所有參數小於10B 的預訓練語言模型(未經過微調)準確率都低於隨機結果(25%),少樣本的設定(Table 5&7)有助於模型效能的提升。但是,GLM130B 在零樣本評估的結果優於少樣本評估結果,原因可能是 GLM130B 在預訓練階段已經使用了部分指令數據,使其已經具備較好的零樣本學習能力。

2,大部分經過微調後的中文大模型僅達到隨機結果(25%)水平,即使在小學階段的測試中(Table 6&7)。這說明較低教育階段中的知識仍然是當前中文大模型的短板之一。

3,在零樣本評估中,BELLE-7B-2M 取得了中文大模型中最好的成績,但仍與 GPT-3.5-turbo 有 14.8% 的差距。此外,有監督微調指令的數量也是一個重要的因素,經過兩百萬指令微調的 BELLE-7B-2M 比經過二十萬指令微調的 BELLE-7B-0.2M(Table 4)好。

4,少樣本的設定在大多數情況下並沒有帶來表現的改善(Table 5&7 vs Table 4&6),尤其是經過指令微調或基於人類回饋的強化學習訓練後的語言模型。這顯示對預訓練語言模型進行指令微調可以顯著提升語言模型的零樣本學習能力,不需要額外的範例就能理解指令或問題的意圖。

結論

研究者提出了一個新的基準M3KE,用於評估中文大模型在多個學科和不同教育階段下中文大模型知識掌握能力。 M3KE 包含 71 個任務和 20,447 個問題。研究人員發現,所有參與評估的開源中文大模型都明顯落後 GPT-3.5。研究人員希望 M3KE 有助於發現中文大模型的知識漏洞,促進中文大模型進一步的發展。

M3KE 中所有的任務

將入學考試題搬進中文大模型資料集,20477題目,還帶4個候選答案

以上是將入學考試題搬進中文大模型資料集,20477題目,還帶4個候選答案的詳細內容。更多資訊請關注PHP中文網其他相關文章!

陳述
本文轉載於:51CTO.COM。如有侵權,請聯絡admin@php.cn刪除
从VAE到扩散模型:一文解读以文生图新范式从VAE到扩散模型:一文解读以文生图新范式Apr 08, 2023 pm 08:41 PM

1 前言在发布DALL·E的15个月后,OpenAI在今年春天带了续作DALL·E 2,以其更加惊艳的效果和丰富的可玩性迅速占领了各大AI社区的头条。近年来,随着生成对抗网络(GAN)、变分自编码器(VAE)、扩散模型(Diffusion models)的出现,深度学习已向世人展现其强大的图像生成能力;加上GPT-3、BERT等NLP模型的成功,人类正逐步打破文本和图像的信息界限。在DALL·E 2中,只需输入简单的文本(prompt),它就可以生成多张1024*1024的高清图像。这些图像甚至

找不到中文语音预训练模型?中文版 Wav2vec 2.0和HuBERT来了找不到中文语音预训练模型?中文版 Wav2vec 2.0和HuBERT来了Apr 08, 2023 pm 06:21 PM

Wav2vec 2.0 [1],HuBERT [2] 和 WavLM [3] 等语音预训练模型,通过在多达上万小时的无标注语音数据(如 Libri-light )上的自监督学习,显著提升了自动语音识别(Automatic Speech Recognition, ASR),语音合成(Text-to-speech, TTS)和语音转换(Voice Conversation,VC)等语音下游任务的性能。然而这些模型都没有公开的中文版本,不便于应用在中文语音研究场景。 WenetSpeech [4] 是

普林斯顿陈丹琦:如何让「大模型」变小普林斯顿陈丹琦:如何让「大模型」变小Apr 08, 2023 pm 04:01 PM

“Making large models smaller”这是很多语言模型研究人员的学术追求,针对大模型昂贵的环境和训练成本,陈丹琦在智源大会青源学术年会上做了题为“Making large models smaller”的特邀报告。报告中重点提及了基于记忆增强的TRIME算法和基于粗细粒度联合剪枝和逐层蒸馏的CofiPruning算法。前者能够在不改变模型结构的基础上兼顾语言模型困惑度和检索速度方面的优势;而后者可以在保证下游任务准确度的同时实现更快的处理速度,具有更小的模型结构。陈丹琦 普

解锁CNN和Transformer正确结合方法,字节跳动提出有效的下一代视觉Transformer解锁CNN和Transformer正确结合方法,字节跳动提出有效的下一代视觉TransformerApr 09, 2023 pm 02:01 PM

由于复杂的注意力机制和模型设计,大多数现有的视觉 Transformer(ViT)在现实的工业部署场景中不能像卷积神经网络(CNN)那样高效地执行。这就带来了一个问题:视觉神经网络能否像 CNN 一样快速推断并像 ViT 一样强大?近期一些工作试图设计 CNN-Transformer 混合架构来解决这个问题,但这些工作的整体性能远不能令人满意。基于此,来自字节跳动的研究者提出了一种能在现实工业场景中有效部署的下一代视觉 Transformer——Next-ViT。从延迟 / 准确性权衡的角度看,

Stable Diffusion XL 现已推出—有什么新功能,你知道吗?Stable Diffusion XL 现已推出—有什么新功能,你知道吗?Apr 07, 2023 pm 11:21 PM

3月27号,Stability AI的创始人兼首席执行官Emad Mostaque在一条推文中宣布,Stable Diffusion XL 现已可用于公开测试。以下是一些事项:“XL”不是这个新的AI模型的官方名称。一旦发布稳定性AI公司的官方公告,名称将会更改。与先前版本相比,图像质量有所提高与先前版本相比,图像生成速度大大加快。示例图像让我们看看新旧AI模型在结果上的差异。Prompt: Luxury sports car with aerodynamic curves, shot in a

五年后AI所需算力超100万倍!十二家机构联合发表88页长文:「智能计算」是解药五年后AI所需算力超100万倍!十二家机构联合发表88页长文:「智能计算」是解药Apr 09, 2023 pm 07:01 PM

人工智能就是一个「拼财力」的行业,如果没有高性能计算设备,别说开发基础模型,就连微调模型都做不到。但如果只靠拼硬件,单靠当前计算性能的发展速度,迟早有一天无法满足日益膨胀的需求,所以还需要配套的软件来协调统筹计算能力,这时候就需要用到「智能计算」技术。最近,来自之江实验室、中国工程院、国防科技大学、浙江大学等多达十二个国内外研究机构共同发表了一篇论文,首次对智能计算领域进行了全面的调研,涵盖了理论基础、智能与计算的技术融合、重要应用、挑战和未来前景。论文链接:​https://spj.scien

​什么是Transformer机器学习模型?​什么是Transformer机器学习模型?Apr 08, 2023 pm 06:31 PM

译者 | 李睿审校 | 孙淑娟​近年来, Transformer 机器学习模型已经成为深度学习和深度神经网络技术进步的主要亮点之一。它主要用于自然语言处理中的高级应用。谷歌正在使用它来增强其搜索引擎结果。OpenAI 使用 Transformer 创建了著名的 GPT-2和 GPT-3模型。自从2017年首次亮相以来,Transformer 架构不断发展并扩展到多种不同的变体,从语言任务扩展到其他领域。它们已被用于时间序列预测。它们是 DeepMind 的蛋白质结构预测模型 AlphaFold

AI模型告诉你,为啥巴西最可能在今年夺冠!曾精准预测前两届冠军AI模型告诉你,为啥巴西最可能在今年夺冠!曾精准预测前两届冠军Apr 09, 2023 pm 01:51 PM

说起2010年南非世界杯的最大网红,一定非「章鱼保罗」莫属!这只位于德国海洋生物中心的神奇章鱼,不仅成功预测了德国队全部七场比赛的结果,还顺利地选出了最终的总冠军西班牙队。不幸的是,保罗已经永远地离开了我们,但它的「遗产」却在人们预测足球比赛结果的尝试中持续存在。在艾伦图灵研究所(The Alan Turing Institute),随着2022年卡塔尔世界杯的持续进行,三位研究员Nick Barlow、Jack Roberts和Ryan Chan决定用一种AI算法预测今年的冠军归属。预测模型图

See all articles

熱AI工具

Undresser.AI Undress

Undresser.AI Undress

人工智慧驅動的應用程序,用於創建逼真的裸體照片

AI Clothes Remover

AI Clothes Remover

用於從照片中去除衣服的線上人工智慧工具。

Undress AI Tool

Undress AI Tool

免費脫衣圖片

Clothoff.io

Clothoff.io

AI脫衣器

AI Hentai Generator

AI Hentai Generator

免費產生 AI 無盡。

熱門文章

倉庫:如何復興隊友
1 個月前By尊渡假赌尊渡假赌尊渡假赌
R.E.P.O.能量晶體解釋及其做什麼(黃色晶體)
2 週前By尊渡假赌尊渡假赌尊渡假赌
Hello Kitty Island冒險:如何獲得巨型種子
1 個月前By尊渡假赌尊渡假赌尊渡假赌

熱工具

Atom編輯器mac版下載

Atom編輯器mac版下載

最受歡迎的的開源編輯器

mPDF

mPDF

mPDF是一個PHP庫,可以從UTF-8編碼的HTML產生PDF檔案。原作者Ian Back編寫mPDF以從他的網站上「即時」輸出PDF文件,並處理不同的語言。與原始腳本如HTML2FPDF相比,它的速度較慢,並且在使用Unicode字體時產生的檔案較大,但支援CSS樣式等,並進行了大量增強。支援幾乎所有語言,包括RTL(阿拉伯語和希伯來語)和CJK(中日韓)。支援嵌套的區塊級元素(如P、DIV),

SublimeText3 Linux新版

SublimeText3 Linux新版

SublimeText3 Linux最新版

VSCode Windows 64位元 下載

VSCode Windows 64位元 下載

微軟推出的免費、功能強大的一款IDE編輯器

ZendStudio 13.5.1 Mac

ZendStudio 13.5.1 Mac

強大的PHP整合開發環境