搜尋
首頁科技週邊人工智慧AI考公考編指日可待!微軟華人團隊發布全新基準AGIEval,專為人類考試而生

隨著語言模型的能力越來越強,現有的這些評估基準實在有點小兒科了,有些任務的表現都甩了人類一截。

通用人工智慧(AGI)的一個重要特點是模型具有處理人類層級任務的泛化能力,而依賴人工資料集的傳統基準測試並不能準確表示人類的能力。

最近,微軟的研究人員發布了一個全新基準AGIEval#,專門用於評估基礎模型在「以人為本」(human-centric)的標準化考試中,如高考、公務員考試、法學院入學考試、數學競賽和律師資格考試的表現。

AI考公考編指日可待!微軟華人團隊發布全新基準AGIEval,專為人類考試而生

論文連結:https://arxiv.org/pdf/2304.06364.pdf

#資料連結:https://github.com/microsoft/AGIEval

研究人員使用AGIEval基準評估了三個最先進的基礎模型,包括GPT-4、 ChatGPT和Text-Davinci-003,實驗結果發現GPT-4在SAT、 LSAT和數學競賽中的成績超過了人類平均水平,SAT數學考試的準確率達到了95% ,中國高考英語考試的準確率達到了92.5% ,顯示了目前基礎模​​型的非凡表現。

但GPT-4在需要複雜推理或特定領域知識的任務中不太熟練,文中對模型能力(理解、知識、推理和計算)的全面分析揭示了這些模型的優點和限制。

AGIEval資料集

近年來,大型基礎模型如GPT-4在各個領域已經表現出非常強大的能力,可以輔助人類處理日常事件,甚至也能在法律、醫學和金融等專業領域提供決策建議。

也就是說,人工智慧系統正逐步接近並實現通用人工智慧(AGI)。

但隨著AI逐步融入日常生活,如何評估模型以人為本的泛化能力,識別潛在的缺陷,並確保它們能夠有效地處理複雜的、以人為本的任務,以及評估推理能力確保在不同環境下的可靠性和可信度是至關重要的。

研究者建構AGIEval資料集主要遵循兩個設計原則:

1. 強調人腦層次的認知任務

設計「以人為本」的主要目標是以與人類認知和解決問題密切相關的任務為中心,並以一種更有意義和全面的方式評估基礎模型的泛化能力。

為了實現這一目標,研究人員選擇了各種官方的、公開的、高標準的招生和資格考試,以滿足一般人類應試者的需要,包括大學入學考試、法學院入學考試、數學考試、律師資格考試和國家公務員考試,每年都有數百萬尋求進入高等教育或新職業道路的人參加這些考試。

透過遵守這些官方認可的評估人類水平能力的標準,AGIEval可以確保對模型表現的評估與人類決策和認知能力直接相關。

2. 與現實世界場景的相關性

透過選擇來自高標準的入學考試和資格考試的任務,可以確保評估結果能夠反映個人在不同領域和背景下經常遇到的挑戰的複雜性和實用性。

這種方法不僅可以測量模型在人類認知能力方面的表現,而且可以更好地了解在現實生活中的適用性和有效性,即有助於開發出更可靠、更實用、更適合解決廣泛的現實世界問題的人工智慧系統。

AI考公考編指日可待!微軟華人團隊發布全新基準AGIEval,專為人類考試而生

根據上述設計原則,研究人員選擇了多種標準化的高品質考試,強調人類水平的推理和現實世界的相關性,具體包括:

1. 普通大學入學考試

##大學入學考試包含各種科目,需要批判性思考、解決問題和分析能力,是評估大型語言模型與人類認知相關表現的理想選擇。

具體包括研究生入學考試(GRE),學術評估考試(SAT)和中國高考(Gaokao),可以評估尋求進入高等教育機構的學生的一般能力和特定學科知識。

資料集中收集了與中國高考8個科目對應的考試:歷史、數學、英語、中文、地理、生物、化學和物理;從GRE中選擇數學題;從SAT中選擇英語和數學科目來建立基準資料集。

2. 法學院入學考試

法學院入學考試,如LSAT,旨在衡量未來的法律學生的推理和分析能力,考試內容包括邏輯推理、閱讀理解和分析推理等部分,需要應試者分析複雜資訊和得出準確結論的能力,這些任務可以評估語言模型在法律推理和分析方面的能力。

3. 律師資格考試

可以評估追求法律職業的個人的法律知識、分析能力和道德理解,考試內容涵蓋了廣泛的法律主題,包括憲法、合約法、刑法和財產法,並要求考生展示他們有效應用法律原則和推理的能力,可以在專業法律知識和道德判斷的背景下評估語言模型的表現。

4. 研究所管理入學考試(GMAT)

GMAT是一個標準化的考試,可以評估未來商學院研究生的分析、定量、言語和綜合推理能力,由分析性寫作評估、綜合推理、定量推理和言語推理等部分組成,評估應試者的批判性思考、分析數據和有效溝通的能力。

5. 高中數學競賽

#這些比賽涵蓋了廣泛的數學主題,包括數論、代數、幾何和組合學,並且經常出現一些非常規的問題,需要用創意的方法來解決。

具體包括美國數學競賽(AMC)和美國數學邀請考試(AIME),可以測試學生的數學能力、創造力和解決問題的能力,能夠進一步評估語言模型處理複雜和創造性數學問題的能力,以及模型產生新穎解決方案的能力。

6. 國內公務員考試

可以評估尋求進入公務員隊伍的個人的能力和技能,考試內容包括評估一般知識、推理能力、語言技能,以及與中國各種公務員職位的角色和職責有關的特定科目的專業知識,可以衡量語言模型在公共管理背景下的表現,以及他們對政策制定、決策和公共服務提供過程的潛力。

評估結果

選擇的模型包括:

#ChatGPT,由OpenAI開發的對話式人工智慧模型,可以參與使用者互動和動態對話,使用龐大的指令資料集進行訓練,並透過強化學習與人類回饋(RLHF)進一步調整,使其能夠提供與人類期望一致的上下文相關和連貫的回覆.

GPT-4,作為第四代GPT模型,包含範圍更廣的知識庫,在許多應用場景中都表現出人類水準的表現。 GPT-4利用對抗性測試和ChatGPT進行了反覆調整,在事實性、可引導性和對規則的遵守方面有了明顯的改進。

Text-Davinci-003是GPT-3和GPT-4之間的一個中間版本,透過指令微調後比GPT -3的性能更好。

除此之外,實驗中還報告了人類應試者的平均成績和最高成績,作為每個任務的人類水平界限,但並不能完全代表人類可能擁有的技能和知識範圍。

Zero-shot/Few-shot評估

#在零樣本的設定下,模型直接對問題進行評估;在少樣本任務中,在對測試樣本進行評估之前,先輸入同一任務中的少量例子(如5個)。

為了進一步測試模型的推理能力,實驗中也引入思維鏈(CoT)提示,即先輸入提示「Let's think step by step」為給定的問題生成解釋,然後輸入提示「Explanation is」根據解釋產生最終的答案。

AI考公考編指日可待!微軟華人團隊發布全新基準AGIEval,專為人類考試而生

基準中的「多選題」使用標準分類準確率;「填空題」使用精確比對(EM )和F1指標。

AI考公考編指日可待!微軟華人團隊發布全新基準AGIEval,專為人類考試而生

從實驗結果可以發現:

1. GPT-4在所有任務設定下都明顯優於其同類產品,其中在Gaokao-English上更是取得了93.8%的準確率,在SAT-MAT​​H上取得了95%的準確率,表明GPT-4在處理以人為本的任務方面具有卓越的通用能力。

2. ChatGPT在需要外部知識的任務中明顯優於Text-Davinci-003,例如涉及地理、生物、化學、物理和數學的任務,顯示ChatGPT擁有更強大的知識基礎,能夠更好地處理那些需要對特定領域有深刻理解的任務。

另一方面,ChatGPT在所有評估設定中,在需要純粹理解和不嚴重依賴外部知識的任務中,如英語和LSAT任務,略微優於Text-Davinci- 003,或取得相當的結果。這項觀察結果意味著,這兩個模型都能夠處理以語言理解和邏輯推理為中心的任務,而不需要專門的領域知識。

3. 儘管這些模型的整體表現不錯,但所有的語言模型都在複雜的推理任務中表現不佳,例如MATH、LSAT-AR 、GK-physics和GK-Math,突顯了這些模型在處理需要高階推理和解決問題技能的任務方面的限制。

觀察到的處理複雜推理問題的困難為未來的研究和開發提供了機會,目的是提高模型的一般推理能力。

4. 與zero-shot學習相比,few-shot學習通常只能帶來有限的效能改善,顯示目前大型語言模型的zero- shot學習能力正在接近few-shot學習能力,也標誌著與最初的GPT-3模型相比有了很大的進步,當時few-shot性能要比zero-shot好得多。

對這一發展的一個合理解釋是,在目前的語言模型中加強了人類的調整和指令的調整,這些改進使模型能夠提前更好地理解任務的意義和背景,從而使它們即使在zero-shot的情況下也能有良好的表現,證明了指令的有效性。

以上是AI考公考編指日可待!微軟華人團隊發布全新基準AGIEval,專為人類考試而生的詳細內容。更多資訊請關注PHP中文網其他相關文章!

陳述
本文轉載於:51CTO.COM。如有侵權,請聯絡admin@php.cn刪除
微軟工作趨勢指數2025顯示工作場所容量應變微軟工作趨勢指數2025顯示工作場所容量應變Apr 24, 2025 am 11:19 AM

由於AI的快速整合而加劇了工作場所的迅速危機危機,要求戰略轉變以外的增量調整。 WTI的調查結果強調了這一點:68%的員工在工作量上掙扎,導致BUR

AI可以理解嗎?中國房間的論點說不,但是對嗎?AI可以理解嗎?中國房間的論點說不,但是對嗎?Apr 24, 2025 am 11:18 AM

約翰·塞爾(John Searle)的中國房間論點:對AI理解的挑戰 Searle的思想實驗直接質疑人工智能是否可以真正理解語言或具有真正意識。 想像一個人,對下巴一無所知

中國的'智能” AI助手回應微軟召回的隱私缺陷中國的'智能” AI助手回應微軟召回的隱私缺陷Apr 24, 2025 am 11:17 AM

與西方同行相比,中國的科技巨頭在AI開發方面的課程不同。 他們不專注於技術基準和API集成,而是優先考慮“屏幕感知” AI助手 - AI T

Docker將熟悉的容器工作流程帶到AI型號和MCP工具Docker將熟悉的容器工作流程帶到AI型號和MCP工具Apr 24, 2025 am 11:16 AM

MCP:賦能AI系統訪問外部工具 模型上下文協議(MCP)讓AI應用能夠通過標準化接口與外部工具和數據源交互。由Anthropic開發並得到主要AI提供商的支持,MCP允許語言模型和智能體發現可用工具並使用合適的參數調用它們。然而,實施MCP服務器存在一些挑戰,包括環境衝突、安全漏洞以及跨平台行為不一致。 Forbes文章《Anthropic的模型上下文協議是AI智能體發展的一大步》作者:Janakiram MSVDocker通過容器化解決了這些問題。基於Docker Hub基礎設施構建的Doc

使用6種AI街頭智能策略來建立一家十億美元的創業使用6種AI街頭智能策略來建立一家十億美元的創業Apr 24, 2025 am 11:15 AM

有遠見的企業家採用的六種策略,他們利用尖端技術和精明的商業敏銳度來創造高利潤的可擴展公司,同時保持控制。本指南是針對有抱負的企業家的,旨在建立一個

Google照片更新解鎖了您所有圖片的驚人Ultra HDRGoogle照片更新解鎖了您所有圖片的驚人Ultra HDRApr 24, 2025 am 11:14 AM

Google Photos的新型Ultra HDR工具:改變圖像增強的遊戲規則 Google Photos推出了一個功能強大的Ultra HDR轉換工具,將標準照片轉換為充滿活力的高動態範圍圖像。這種增強功能受益於攝影師

Descope建立AI代理集成的身份驗證框架Descope建立AI代理集成的身份驗證框架Apr 24, 2025 am 11:13 AM

技術架構解決了新興的身份驗證挑戰 代理身份集線器解決了許多組織僅在開始AI代理實施後發現的問題,即傳統身份驗證方法不是為機器設計的

Google Cloud Next 2025以及現代工作的未來Google Cloud Next 2025以及現代工作的未來Apr 24, 2025 am 11:12 AM

(注意:Google是我公司的諮詢客戶,Moor Insights&Strateging。) AI:從實驗到企業基金會 Google Cloud Next 2025展示了AI從實驗功能到企業技術的核心組成部分的演變,

See all articles

熱AI工具

Undresser.AI Undress

Undresser.AI Undress

人工智慧驅動的應用程序,用於創建逼真的裸體照片

AI Clothes Remover

AI Clothes Remover

用於從照片中去除衣服的線上人工智慧工具。

Undress AI Tool

Undress AI Tool

免費脫衣圖片

Clothoff.io

Clothoff.io

AI脫衣器

Video Face Swap

Video Face Swap

使用我們完全免費的人工智慧換臉工具,輕鬆在任何影片中換臉!

熱工具

VSCode Windows 64位元 下載

VSCode Windows 64位元 下載

微軟推出的免費、功能強大的一款IDE編輯器

ZendStudio 13.5.1 Mac

ZendStudio 13.5.1 Mac

強大的PHP整合開發環境

MantisBT

MantisBT

Mantis是一個易於部署的基於Web的缺陷追蹤工具,用於幫助產品缺陷追蹤。它需要PHP、MySQL和一個Web伺服器。請查看我們的演示和託管服務。

記事本++7.3.1

記事本++7.3.1

好用且免費的程式碼編輯器

mPDF

mPDF

mPDF是一個PHP庫,可以從UTF-8編碼的HTML產生PDF檔案。原作者Ian Back編寫mPDF以從他的網站上「即時」輸出PDF文件,並處理不同的語言。與原始腳本如HTML2FPDF相比,它的速度較慢,並且在使用Unicode字體時產生的檔案較大,但支援CSS樣式等,並進行了大量增強。支援幾乎所有語言,包括RTL(阿拉伯語和希伯來語)和CJK(中日韓)。支援嵌套的區塊級元素(如P、DIV),