搜尋
首頁科技週邊人工智慧中文大語言模式趕考:商湯與上海AI Lab等新發表「書生‧浦文」

機器之心發布

機器之心編輯部

#今天,一年一度的高考正式拉開序幕。

與往年不同的是,當全國考生奔赴考場的同時,還有一些大語言模型也成為了這場角逐中的特殊選手。

隨著 AI 大語言模型越來越多地表現出接近人類智能,面向人類設計的高難度、綜合性考試被越來越多地引入到對語言模型的智能水平進行評測。

例如,在關於 GPT-4 的技術報告中,OpenAI 就主要透過各領域的考試對模型能力進行檢驗,而 GPT-4 展現出的優秀「應試能力」也是出人意料。

中文大語言模型挑戰高考卷的成績如何?是否能夠趕上 ChatGPT ?讓我們來看看一位「考生」的答案表現。

綜合 「大考」:「書生・浦語」 多項成績領先 ChatGPT

近日,商湯科技、上海 AI 實驗室聯合香港中文大學、復旦大學及上海交通大學發布千億級參數大語言模型 “書生・浦語”(InternLM)。

「書生・浦語」 具有 1040 億參數,是在包含 1.6 兆 token 的多語種高品質資料集上訓練而成。

全面評測結果顯示,「書生・浦語」 不僅在知識掌握、閱讀理解、數學推理、多語翻譯等多個測驗任務上表現優秀,而且具備很強的綜合能力,因而在綜合性考試中表現突出,在多項中文考試中取得超越ChatGPT 的成績,其中就包括中國高考各科目的資料集(GaoKao)。

「書生・浦語」 聯合團隊選取了 20 餘項評測對其進行檢驗,其中包含全球最具影響力的四個綜合性考試評測集

  • 由柏克萊加州大學等大學建構的多工考試評測集 MMLU;
  • 微軟研究院推出的學科考試評測集 AGIEval(含中國高考、司法考試及美國 SAT、LSAT、GRE 和 GMAT 等);
  • 由上海交通大學、清華大學和愛丁堡大學合作建構的中文語言模式為導向的綜合性考試評測集 C-Eval;
  • 以及由復旦大學研究團隊建構的高考題目評測集 Gaokao;

實驗室聯合團隊對 「書生・浦語」、GLM-130B、LLaMA-65B、ChatGPT 和 GPT-4 進行了全面測試,針對上述四個評測集的成績對比如下(滿分 100 分)。

中文大语言模型赶考:商汤与上海AI Lab等新发布「书生·浦语」

「書生・浦語」 不僅顯著超越了GLM-130B 和LLaMA-65B 等學術開源模型,還在AGIEval、C-Eval,以及Gaokao 等多個綜合性考試中領先於ChatGPT;在以美國考試為主的MMLU 上實作和ChatGPT 持平。這些綜合性考試的成績反映出 「書生・浦語」 紮實的知識掌握程度和優秀的綜合能力

雖然 「書生・浦語」 在考試評測上取得優秀成績,但在測評中也可以看到,大語言模型仍有不少能力限制。 「書生・浦語」 受限於 2K 的語境窗口長度(GPT-4 的語境窗口長度為 32K),在長文理解、複雜推理、寫作代碼以及數理邏輯演繹等方面還存在明顯局限。另外,在實際對話中,大語言模型還普遍存在幻覺、概念混淆等問題。這些限制使得大語言模型在開放場景中的使用還有很長的路要走。

四個綜合性考試評測資料集結果

MMLU 是由柏克萊加州大學(UC Berkeley)聯合哥倫比亞大學、芝加哥大學和UIUC 共同建構的多工考試評測集,涵蓋了初等數學、物理、化學、電腦科學、美國歷史、法律、經濟、外交等多個學科。

細分科目結果如下表所示。

中文大语言模型赶考:商汤与上海AI Lab等新发布「书生·浦语」

圖中粗體表示結果最佳,底線表示結果第二

AGIEval 是由微軟研究院在今年新提出的學科考試評測集,主要目標是透過面向的考試來評估語言模型的能力,從而實現模型智能和人類智能的對比。

這個評測集基於中國和美國各類考試建構了 19 個評測大項,包括了中國各科高考、司法考試以及美國的 SAT、LSAT、GRE 和 GMAT 等重要考試。值得一提的是,這 19 個大項有 9 個大項是中國高考,通常也列為一個重要的評測子集 AGIEval (GK)。

下列表格中,有 GK 的是中國高考科目。

中文大语言模型赶考:商汤与上海AI Lab等新发布「书生·浦语」

圖中粗體表示結果最佳,底線表示結果第二

C-Eval 是由上海交通大學、清華大學和愛丁堡大學合作建構的中文語言模型的綜合性考試評測集。

它包含了 52 個科目的近 14000 道考題,涵蓋數學、物理、化學、生物、歷史、政治、電腦等學科考試,以及公務員、註冊會計師、律師、醫生的職業考試。

測試結果可以透過 leaderboard 取得。

中文大语言模型赶考:商汤与上海AI Lab等新发布「书生·浦语」

此連結是CEVA評測競賽的排行榜

Gaokao 是由復旦大學研究團隊建構的基於中國高考題目的綜合性考試評測集,包含了中國高考的各個科目,以及選擇、填空、問答等多種題型。

在 GaoKao 評測中,「書生・浦語」 在超過 75% 的專案中均領先 ChatGPT。

中文大语言模型赶考:商汤与上海AI Lab等新发布「书生·浦语」

分項評測:閱讀理解、推理能力表現優異

#為避免 “偏科”,研究人員還通過多個學術評測集,對 “書生・浦語” 等語言模型的分項能力進行了評測對比。

結果顯示,「書生・浦語」 不僅在中英文的閱讀理解方面表現突出,並且在數學推理、程式設計能力等評測中也取得較好成績

中文大语言模型赶考:商汤与上海AI Lab等新发布「书生·浦语」

知識問答方面,「書生・浦語」 在 TriviaQA 和 NaturalQuestions 兩項評測上得分為 69.8 和 27.6,均超越 LLaMA-65B(得分為 68.2 和 23.8)。

閱讀理解(英文)方面,「書生・浦語」 明顯領先 LLaMA-65B 和 ChatGPT。浦語在國中和高中英語閱讀理解中得分為 92.7 和 88.9,ChatGPT 得分為 85.6 和 81.2,LLaMA-65B 則更低。

中文理解方面,「書生・浦語」 成績全面超越主要的兩個中文語言模型 ERNIE-260B 和 GLM-130B。

多語翻譯方面,「書生・浦語」 在多語種互譯的平均分數為 33.9,顯著超越 LLaMA (平均分數 15.1)。

數學推理方面,「書生・浦語」 在GSM8K 和MATH 這兩項被廣泛用於評測的數學考試中,分別取得62.9 和14.9 的得分,明顯領先於Google 的PaLM -540B(得分為56.5 和8.8)與LLaMA-65B(得分為50.9 和10.9)。

程式設計能力方面,「書生・浦語」 在HumanEval 和MBPP 這兩項最具代表性的考評中,分別取得28.1 和41.4 的得分(其中經過在代碼領域的微調後,在HumanEval 上的得分可以提升至45.7),明顯領先PaLM-540B(得分為26.2 和36.8)與LLaMA-65B(得分為23.7 和37.7)。

此外,研究人員也對「書生・浦語」 的安全性進行評測,在TruthfulQA(主要評價回答的事實準確性) 以及CrowS-Pairs(主要評價回答是否含有偏見)上,「書生・浦語” 均達到領先水準。

以上是中文大語言模式趕考:商湯與上海AI Lab等新發表「書生‧浦文」的詳細內容。更多資訊請關注PHP中文網其他相關文章!

陳述
本文轉載於:搜狐。如有侵權,請聯絡admin@php.cn刪除
及時工程中的思想圖是什麼及時工程中的思想圖是什麼Apr 13, 2025 am 11:53 AM

介紹 在迅速的工程中,“思想圖”是指使用圖理論來構建和指導AI的推理過程的新方法。與通常涉及線性S的傳統方法不同

優化您的組織與Genai代理商的電子郵件營銷優化您的組織與Genai代理商的電子郵件營銷Apr 13, 2025 am 11:44 AM

介紹 恭喜!您經營一家成功的業務。通過您的網頁,社交媒體活動,網絡研討會,會議,免費資源和其他來源,您每天收集5000個電子郵件ID。下一個明顯的步驟是

Apache Pinot實時應用程序性能監視Apache Pinot實時應用程序性能監視Apr 13, 2025 am 11:40 AM

介紹 在當今快節奏的軟件開發環境中,確保最佳應用程序性能至關重要。監視實時指標,例如響應時間,錯誤率和資源利用率可以幫助MAIN

Chatgpt擊中了10億用戶? Openai首席執行官說:'短短幾週內翻了一番Chatgpt擊中了10億用戶? Openai首席執行官說:'短短幾週內翻了一番Apr 13, 2025 am 11:23 AM

“您有幾個用戶?”他扮演。 阿爾特曼回答說:“我認為我們上次說的是每週5億個活躍者,而且它正在迅速增長。” “你告訴我,就像在短短幾週內翻了一番,”安德森繼續說道。 “我說那個私人

pixtral -12b:Mistral AI'第一個多模型模型 - 分析Vidhyapixtral -12b:Mistral AI'第一個多模型模型 - 分析VidhyaApr 13, 2025 am 11:20 AM

介紹 Mistral發布了其第一個多模式模型,即Pixtral-12b-2409。該模型建立在Mistral的120億參數Nemo 12B之上。是什麼設置了該模型?現在可以拍攝圖像和Tex

生成AI應用的代理框架 - 分析Vidhya生成AI應用的代理框架 - 分析VidhyaApr 13, 2025 am 11:13 AM

想像一下,擁有一個由AI驅動的助手,不僅可以響應您的查詢,還可以自主收集信息,執行任務甚至處理多種類型的數據(TEXT,圖像和代碼)。聽起來有未來派?在這個a

生成AI在金融部門的應用生成AI在金融部門的應用Apr 13, 2025 am 11:12 AM

介紹 金融業是任何國家發展的基石,因為它通過促進有效的交易和信貸可用性來推動經濟增長。交易的便利和信貸

在線學習和被動攻擊算法指南在線學習和被動攻擊算法指南Apr 13, 2025 am 11:09 AM

介紹 數據是從社交媒體,金融交易和電子商務平台等來源的前所未有的速度生成的。處理這種連續的信息流是一個挑戰,但它提供了

See all articles

熱AI工具

Undresser.AI Undress

Undresser.AI Undress

人工智慧驅動的應用程序,用於創建逼真的裸體照片

AI Clothes Remover

AI Clothes Remover

用於從照片中去除衣服的線上人工智慧工具。

Undress AI Tool

Undress AI Tool

免費脫衣圖片

Clothoff.io

Clothoff.io

AI脫衣器

AI Hentai Generator

AI Hentai Generator

免費產生 AI 無盡。

熱門文章

R.E.P.O.能量晶體解釋及其做什麼(黃色晶體)
3 週前By尊渡假赌尊渡假赌尊渡假赌
R.E.P.O.最佳圖形設置
3 週前By尊渡假赌尊渡假赌尊渡假赌
R.E.P.O.如果您聽不到任何人,如何修復音頻
3 週前By尊渡假赌尊渡假赌尊渡假赌
WWE 2K25:如何解鎖Myrise中的所有內容
4 週前By尊渡假赌尊渡假赌尊渡假赌

熱工具

Atom編輯器mac版下載

Atom編輯器mac版下載

最受歡迎的的開源編輯器

ZendStudio 13.5.1 Mac

ZendStudio 13.5.1 Mac

強大的PHP整合開發環境

SublimeText3漢化版

SublimeText3漢化版

中文版,非常好用

WebStorm Mac版

WebStorm Mac版

好用的JavaScript開發工具

VSCode Windows 64位元 下載

VSCode Windows 64位元 下載

微軟推出的免費、功能強大的一款IDE編輯器