做完GPT-4完整測評，微軟爆火論文說初版AGI快來了-人工智慧-PHP中文網

首頁

科技週邊

人工智慧

做完GPT-4完整測評，微軟爆火論文說初版AGI快來了

WBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWB

May 01, 2023 am 09:25 AM

gpt-4測評

1956 年，在達特茅斯學院召開的研討會上，人工智慧這個概念正式被提出。

之後這個字一直挑戰著心理學家、哲學家和電腦科學家，因為它太難被定義了。 1994 年，52 名心理學家聯合發文試圖捕捉它的本質。

隨著時間的推移，研究者開始將注意力轉移到特定領域的 AI 系統，如 2016 年 AlphaGo 挑戰韓國冠軍棋手大獲全勝。之後，時間來到 20 世紀 90 年代末和 21 世紀初，研究者不滿足於專用 AI，因此開發更通用的人工智慧系統呼聲越來越高。隨之而來的是，通用人工智慧 (AGI) 一詞開始在 2000 年代初期流行起來。

最近一段時間，如大家所見，大型語言模型 (LLM) 走到聚光燈下，這些神經網路基於 Transformer 架構，並在大量文字資料集上訓練而成。尤其是 OpenAI 最新發布的 GPT-4，更是展示了大型語言模型的通用性，在數學、文字、法律、醫學等領域樣樣精通。

我們不禁會問，GPT-4 是邁向 AGI 的重要一步嗎？

微軟給出的答案是肯定的，在其最近發布的一篇論文中，他們闡述了這個觀點。文中對 GPT-4 進行了全面評測。微軟認為「鑑於GPT-4 能力的廣度和深度，我們相信它應該被合理地視為一個通用人工智慧（AGI）系統的早期（但仍不完整）版本。」

微軟也表示，「本文的主要目標是對GPT-4 的能力和局限性進行探索，我們相信GPT-4 的智慧標誌著電腦科學及其他領域的真正範式轉變。」

做完GPT-4完整測評，微軟爆火論文說初版AGI快來了

論文網址：https://arxiv.org/pdf/2303.12712.pdf

有趣的是，這篇火爆的論文還被發現有大量刪減，因此有人找出了未刪節版論文。

從未刪減版本中，這個部落客也扒出了大量隱藏的細節，如GPT-4 的內部名稱為DV-3，實際上也是該論文的隱藏第三作者，後來被刪除；這些微軟的研究人員對GPT-4 的技術細節似乎了解也不多。此外部落客也透露這篇論文發佈時刪除了有關毒性內容的部分（防止對 OpenAI 造成負面？）。

我們在下面貼上了該部落客的 Twitter 線程，感興趣的可以查看。

做完GPT-4完整測評，微軟爆火論文說初版AGI快來了

Twitter thread：https://twitter.com/DV2559106965076/status/1638769434763608064

#回到文章本身。

根據文章所認定的 AGI，是具體的擁有推理、計劃、解決問題、抽象思維、理解複雜思想、快速學習和從經驗中學習的能力。從這些能力出發，論文進行了有趣的實驗和評測。

論文分為10 個章節：第一章為總括部分；第二章介紹了多模態，主要和視覺生成內容相關；第三章代碼，根據指令生成代碼、理解現有代碼；第四章數學能力；第五章與世界的交互作用；第六章與人類的交互作用；第七章判別力；第八章GPT-4 限制；第九章社會影響；第十章未來方向及結論。

下面我們透過具體的範例，看看 GPT-4 是不是真的邁進了 AGI 時代。

多模態和跨學科組成

為了測試模型將藝術與程式設計結合的能力，研究要求GPT-4 用javascript 寫一段程式碼，以產生康丁斯基風格的隨機影像，下圖第一張為Wassily Kandinsky 創作的，第二張和第三張分別由GPT-4 和ChatGPT 產生的：

做完GPT-4完整測評，微軟爆火論文說初版AGI快來了

下面為GPT-4 程式碼實作過程：

做完GPT-4完整測評，微軟爆火論文說初版AGI快來了

# #進行視覺概念理解：在這個作圖任務中，輸入提示讓模型結合字母Y、O、H 的形狀來畫一個人。其實在GPT-4 的訓練過程從沒有關於字母形狀的認識，只能從相關訓練資料中、模糊地學習到字母與一些特定形狀有關，結果顯示GPT-4 產生的結果還不錯：

做完GPT-4完整測評，微軟爆火論文說初版AGI快來了

用於草圖產生：GPT-4 也能與Stable Diffusion 結合。下圖為 3D 城市建模截圖，輸入提示有一條河流從左到右流淌、河的旁邊建有金字塔的沙漠、螢幕底部有 4 個按鈕，顏色分別為綠色、藍色、棕色和紅色。以下是生成結果：

做完GPT-4完整測評，微軟爆火論文說初版AGI快來了

你還能要求GPT-4 用ABC 記譜法產生和修改曲調：

做完GPT-4完整測評，微軟爆火論文說初版AGI快來了

程式設計能力

GPT-4 有非常強大的程式設計能力，包括根據指令編寫程式碼和理解現有程式碼。該研究具體測試了 GPT-4 在程式設計方面的能力。

程式編寫

#下圖3.1 是一個讓GPT-4 寫python 函數的例子，該研究使用LeetCode 在線判斷代碼是否正確。

做完GPT-4完整測評，微軟爆火論文說初版AGI快來了

然後，研究讓GPT-4 將上表2 中LeetCode 上的準確率資料視覺化為圖表，結果如下圖3.2 所示。

做完GPT-4完整測評，微軟爆火論文說初版AGI快來了

#如下圖3.3 所示，研究讓GPT-4 用JavaScript 在HTML 中編寫3D 遊戲，GPT-4 在零樣本的情況下產生了一個符合所有要求的遊戲。

做完GPT-4完整測評，微軟爆火論文說初版AGI快來了深度學習程式設計

#為深度學習編寫程式碼需要數學、統計學知識，並熟悉PyTorch、TensorFlow、Keras 等框架和函式庫。如下圖 3.4 所示，研究者要求 GPT-4 和 ChatGPT 編寫自訂優化器模組，該任務對於人類深度學習專家來說也是具有挑戰性的。研究者為 GPT-4 和 ChatGPT 提供了自然語言描述，其中包括一系列重要的操作，例如應用 SVD 等等。

做完GPT-4完整測評，微軟爆火論文說初版AGI快來了

############此外，研究也測試了 GPT-4 把程式碼轉換成 LaTex 公式的能力，結果如下圖 3.5 所示。 ################

在理解程式碼方面，研究嘗試讓GPT-4 和ChatGPT「讀懂」一段C/C 程序，並預測程式的輸出結果，二者的表現如下：

做完GPT-4完整測評，微軟爆火論文說初版AGI快來了

然後，研究讓GPT-4 解釋了一段Python 程式碼：

做完GPT-4完整測評，微軟爆火論文說初版AGI快來了

##還有解釋一段偽代碼：

做完GPT-4完整測評，微軟爆火論文說初版AGI快來了

數學能力

一直以來，大型語言模型的數學能力似乎一直不是很好。那麼 GPT-4 在這方面表現如何呢？本文經過一系列評測，結果顯示 GPT-4 相比以前的模型在數學方面有了質的飛越，但是離專家水平還差得很遠，不具備數學研究的能力。

在與ChatGPT 的對比中， GPT-4 成功的產生了解決方案，而ChatGPT 產生了錯誤答案：

做完GPT-4完整測評，微軟爆火論文說初版AGI快來了

在AP 題目上，GPT-4 vs ChatGPT 比較結果。 GPT-4 使用了正確的方法，不過因為計算錯誤導致最終答案錯誤，而 ChatGPT 產生了一個不連貫的論點。

做完GPT-4完整測評，微軟爆火論文說初版AGI快來了

此外，本文也測試了GPT-4 使用數學思維和技術來解決現實問題的能力：下圖展示了GPT-4 如何成功地為一個需要廣泛跨學科知識的複雜系統建立合理的數學模型，而ChatGPT 未能取得有意義的進展。做完GPT-4完整測評，微軟爆火論文說初版AGI快來了

做完GPT-4完整測評，微軟爆火論文說初版AGI快來了

######由於論文內容長達154 頁，本文只對評測結果進行了大量展示，想要了解更多內容，讀者可以參考原論文。 ############最後附上論文目錄：######################################### #

以上是做完GPT-4完整測評，微軟爆火論文說初版AGI快來了的詳細內容。更多資訊請關注PHP中文網其他相關文章！

陳述

本文轉載於：51CTO.COM。如有侵權，請聯絡admin@php.cn刪除

AI技能差距正在減慢供應鏈Apr 26, 2025 am 11:13 AM

經常使用“ AI-Ready勞動力”一詞，但是在供應鏈行業中確實意味著什麼？供應鏈管理協會（ASCM）首席執行官安倍·埃什肯納齊（Abe Eshkenazi）表示，它表示能夠評論家的專業人員

一家公司如何悄悄地努力改變AIApr 26, 2025 am 11:12 AM

分散的AI革命正在悄悄地獲得動力。本週五在德克薩斯州奧斯汀，Bittensor最終遊戲峰會標誌著一個關鍵時刻，將分散的AI（DEAI）從理論轉變為實際應用。與閃閃發光的廣告不同

NVIDIA釋放NEMO微服務以簡化AI代理開發Apr 26, 2025 am 11:11 AM

企業AI面臨數據集成挑戰企業AI的應用面臨一項重大挑戰：構建能夠通過持續學習業務數據來保持準確性和實用性的系統。 NeMo微服務通過創建Nvidia所描述的“數據飛輪”來解決這個問題，允許AI系統通過持續接觸企業信息和用戶互動來保持相關性。這個新推出的工具包包含五個關鍵微服務： NeMo Customizer 處理大型語言模型的微調，具有更高的訓練吞吐量。 NeMo Evaluator 提供針對自定義基準的AI模型簡化評估。 NeMo Guardrails 實施安全控制，以保持合規性和適當的

AI為藝術與設計的未來描繪了一幅新圖片Apr 26, 2025 am 11:10 AM

AI：藝術與設計的未來畫卷人工智能(AI)正以前所未有的方式改變藝術與設計領域，其影響已不僅限於業餘愛好者，更深刻地波及專業人士。 AI生成的藝術作品和設計方案正在迅速取代傳統的素材圖片和許多交易性設計活動中的設計師，例如廣告、社交媒體圖片生成和網頁設計。然而，專業藝術家和設計師也發現AI的實用價值。他們將AI作為輔助工具，探索新的美學可能性，融合不同的風格，創造新穎的視覺效果。 AI幫助藝術家和設計師自動化重複性任務，提出不同的設計元素並提供創意輸入。 AI支持風格遷移，即將一種圖像的風格應用

Zoom如何徹底改變與Agent AI的合作：從會議到里程碑Apr 26, 2025 am 11:09 AM

Zoom最初以其視頻會議平台而聞名，它通過創新使用Agentic AI來引領工作場所革命。最近與Zoom的CTO XD黃的對話揭示了該公司雄心勃勃的願景。定義代理AI 黃d

對大學的存在威脅Apr 26, 2025 am 11:08 AM

AI會徹底改變教育嗎？這個問題是促使教育者和利益相關者的認真反思。 AI融入教育既提出了機遇和挑戰。正如科技Edvocate的馬修·林奇（Matthew Lynch）所指出的那樣

原型：美國科學家正在國外尋找工作Apr 26, 2025 am 11:07 AM

美國科學研究和技術發展或將面臨挑戰，這或許是由於預算削減導致的。據《自然》雜誌報導，2025年1月至3月期間，美國科學家申請海外工作的數量比2024年同期增加了32%。此前一項民意調查顯示，75%的受訪研究人員正在考慮前往歐洲和加拿大尋找工作。過去幾個月，數百項NIH和NSF的撥款被終止，NIH今年的新撥款減少了約23億美元，下降幅度接近三分之一。洩露的預算提案顯示，特朗普政府正在考慮大幅削減科學機構的預算，削減幅度可能高達50%。基礎研究領域的動盪也影響了美國的一大優勢：吸引海外人才。 35