首頁 >科技週邊 >人工智慧 >震驚科學界！微軟154頁研究刷屏：GPT-4能力接近人類，「天網」初現？

震驚科學界！微軟154頁研究刷屏：GPT-4能力接近人類，「天網」初現？

WBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWB轉載: 2023-04-16 10:43:021389瀏覽

GPT-4會演變成通用人工智慧嗎？

Meta首席人工智慧科學家、圖靈獎得主Yann LeCun對此表示質疑。

在他看來，大模型對於數據和算力的需求實在太大，學習效率卻不高，因此學習「世界模型」才能通往AGI之路。

不過，微軟最近發表的154頁論文，似乎很打臉。

在這篇名為「Sparks of Artificial General Intelligence: Early experiments with GPT-4」的論文中，微軟認為，雖然還不完整，但GPT-4已經可以被視為一個通用人工智慧的早期版本。

震驚科學界！微軟154頁研究刷屏：GPT-4能力接近人類，「天網」初現？

論文網址：https://arxiv.org/pdf/2303.12712.pdf

#鑑於GPT-4 能力的廣度和深度，我們相信它應該被合理地視為一個通用人工智慧（AGI）系統的早期（但仍不完整）版本。

本文的主要目標是對GPT-4 的能力和限制進行探索，我們相信GPT-4 的智慧標誌著電腦科學及其他領域的真正典範轉移。

AGI的智慧體現在能夠像人類一樣思考和推理，也能夠涵蓋廣泛的認知技能和能力。在

論文中，指出AGI具有推理、規劃、解決問題、抽象思考、理解複雜思想、快速學習和經驗學習能力。

從參數規模來看，Semafor報告GPT-4有1兆個參數，是GPT-3（1750億個參數）的6倍大。

網友用GPT參數規模大腦神經元做了類比：

GPT- 3的規模與刺蝟大腦類似（1750億個參數）。如果GPT-4擁有1兆個參數，我們就接近松鼠大腦的規模了。以這個速度發展下去，也許只需要幾年時間，我們就能達到並超越人類大腦的規模（170兆參數）。

震驚科學界！微軟154頁研究刷屏：GPT-4能力接近人類，「天網」初現？

由此看來，GPT-4距離變成「天網」也不遠了。

而這篇論文，還被扒出不少趣事。

論文發布不久後，一位網友在推特上爆出從他們的latex原始碼中發現了隱藏資訊。

震驚科學界！微軟154頁研究刷屏：GPT-4能力接近人類，「天網」初現？

在未刪減版的論文中，GPT-4其實也是這篇論文的隱藏第三作者，內部名稱DV-3，後來刪除。

有趣的是，就連微軟研究人員對GPT-4的技術細節都不清楚。另外，這篇論文也刪除了GPT-4在沒有任何提示的情況下所產生的有毒內容。

GPT-4初具AGI雛形

#這篇論文的研究對象，是GPT-4的早期版本。它還處於早期開發階段時，微軟的研究者就對它進行了各種實驗和評估。

#

在研究者看來，這個早期版本的GPT-4，就已經是新一代LLM的代表，並且相較於之前的人工智慧模型，展現出了更多的通用智能。

透過測試，微軟的研究者證實：GPT-4不僅精通語言，還能在數學、程式設計、視覺、醫學、法律、心理學等在多樣化和高難度的任務中表現出色，且無需特別提示。

令人驚奇的是，在所有這些任務中，GPT-4 的表現已經接近人類水平，並且時常超過之前的模型，例如ChatGPT。

因此，研究者相信，鑑於GPT-4在廣度和深度上的能力，它可以被視為通用人工智慧（AGI）的早期版本。

那麼，它朝著更深入、更全面的AGI前進的路上，還有哪些挑戰呢？研究者認為，或許需要尋求一種超越「預測下一個詞」的新典範。

如下GPT-4能力的評測，便是微軟研究人員給出關於GPT-4是AGI早期版本的論點。

多模態與跨學科能力

#自GPT-4發表後，大家對其多模態能力的印象仍停留在Greg Brockman當時示範的影片。

這篇論文第二節中，微軟先介紹了它的多模態能力。

GPT-4不僅在文學、醫學、法律、數學、物理科學和程式設計等不同領域表現出高度熟練程度，而且它還能夠將多個領域的技能和概念統一起來，並能理解其複雜概念。

綜合能力

#研究者分別以以下4個範例來展示GPT-4在綜合能力上的表現。

第一個範例中，為了測試GPT-4將藝術和程式設計結合的能力，研究人員要求GPT-4產生javascript程式碼，以產生畫家Kandinsky風格的隨機圖像。

如下GPT-4實作程式碼過程：

震驚科學界！微軟154頁研究刷屏：GPT-4能力接近人類，「天網」初現？

在文學和數學結合上，GPT-4能夠以莎士比亞的文學風格證明質數是無限的。

此外，研究也測試了GPT-4將歷史知識和物理知識結合起來的能力，透過要求其撰寫一封支持Electron競選美國總統的信，信是由聖雄甘地寫給他的妻子的。

透過提示GPT-4為一個程式產生python程式碼，該程式將患者的年齡、性別、體重、身高和血液檢測結果向量作為輸入，並指出患者是否處於糖尿病風險增加的狀態。

透過測試，以上例子顯示GPT-4不僅能夠學習不同領域和風格的一些通用原則和模式，還能以創造性的方式將其結合。

視覺

#當提示GPT-4使用可伸縮向量圖形（SVG）產生物件圖像，如貓、卡車或字母時，此模型產生的程式碼通常會編譯成相當詳細，且可辨識的圖像，如下圖：

震驚科學界！微軟154頁研究刷屏：GPT-4能力接近人類，「天網」初現？

然而，許多人可能會認為GPT-4只是從訓練資料中複製了程式碼，其中包含類似的圖像。

其實GPT-4不僅是從訓練資料中的類似範例複製程式碼，而且能夠處理真正的視覺任務，儘管只接受了文字訓練。

如下，提示模型透過結合字母Y、O和H的形狀來繪製一個人。

在生成過程中，研究人員使用draw-line和draw-circle指令創建了O、H和Y的字母，然後GPT-4設法將它們放置在一個看起是合理的人形圖像中。

儘管GPT-4並沒有經過關於字母形狀的認識的訓練，仍舊可以推斷出，字母Y可能看起來像一個手臂朝上的軀幹。

在第二次示範中，提示GPT-4修正軀幹和手臂的比例，並將頭部放在中心位置。最後要求模型添加襯衫和褲子。

如此看來，GPT-4從相關訓練資料中、模糊地學習到字母與一些特定形狀有關，結果還是不錯的。

為了進一步測試GPT-4產生和操作影像的能力，我們測試了它遵循詳細指令創建和編輯圖形的程度。這項任務不僅需要生成能力，還需要解釋性、組合性和空間性能力。

第一個指令是讓GPT-4產生2D映像，prompt為：

##「A frog hops into a bank and asks the teller, 'Do you have any free lily pads?' The teller responds, 'No, but we do o er low interest loans for pond upgrades」

透過多次嘗試，GPT-4每一次都會產生符合描述的圖像。然後，要求GPT-4添加更多細節來提高圖形質量，GPT-4添加了銀行、窗戶、汽車等符合現實邏輯的物件。

我們的第二個範例是嘗試使用Javascript產生一個3D模型，同樣透過指令GPT-4完成了許多任務。

震驚科學界！微軟154頁研究刷屏：GPT-4能力接近人類，「天網」初現？

另外，GPT-4在草圖產生方面，能夠結合運用Stable Difusion的能力。

下圖為3D城市建模截圖，輸入提示有一條河流從左到右流淌、河的旁邊建有金字塔的沙漠、屏幕底部有4個按鈕，顏色分別為綠色、藍色、棕色和紅色。產生結果如下：

震驚科學界！微軟154頁研究刷屏：GPT-4能力接近人類，「天網」初現？

#研究者要求GPT-4用ABC記譜法編碼產生和修改曲調，如下：

透過探究GPT-4在訓練中獲得了多少技能，研究人員發現GPT-4能夠在ABC記譜法中產生有效的旋律，並在一定程度上解釋和操作其中的結構。

然而，研究人員無法讓GPT-4產生任何不平凡的和聲形式，例如無法譜出像《歡樂頌》、《致愛麗絲》等著名的旋律。

程式設計能力

此外，研究人員也展示了GPT-4能夠以非常高的水平進行編碼能力，無論是根據指令編寫程式碼，還是理解現有程式碼方面都展現出超強能力。 #

在根據指令編寫程式碼方面，研究人員示範了一個讓GPT-4寫python函數的範例。

震驚科學界！微軟154頁研究刷屏：GPT-4能力接近人類，「天網」初現？

程式碼產生後，研究人員使用軟體工程面試平台LeetCode線上判斷程式碼是否正確。

震驚科學界！微軟154頁研究刷屏：GPT-4能力接近人類，「天網」初現？

對於大家都在用討論LeetCode正確率僅有20%，論文作者Yi Zhang對此進行了反駁。

震驚科學界！微軟154頁研究刷屏：GPT-4能力接近人類，「天網」初現？

另外，也讓GPT-4將上表中LeetCode的準確率資料視覺化為圖表，結果如圖所示。

震驚科學界！微軟154頁研究刷屏：GPT-4能力接近人類，「天網」初現？

GPT-4 不僅可以完成普通的程式設計工作，還能勝任複雜的 3D 遊戲開發。

研究者讓GPT-4用JavaScript在HTML中寫3D遊戲，GPT-4在零樣本的情況下產生了一個符合所有要求的遊戲。

震驚科學界！微軟154頁研究刷屏：GPT-4能力接近人類，「天網」初現？

在深度學習程式設計中，GPT-4不僅需要數學和統計知識，還需要對PyTorch、TensorFlow 、Keras等框架和函式庫熟悉。

研究人員要求GPT-4和ChatGPT編寫一個自訂最佳化器模組，並為其提供了自然語言描述，其中包括一系列重要的操作，例如應用SVD等等。

震驚科學界！微軟154頁研究刷屏：GPT-4能力接近人類，「天網」初現？

除了根據指令寫程式碼，GPT-4在理解程式碼上展現出超強的能力。

研究者嘗試讓GPT-4和ChatGPT讀懂一段C/C 程序，並預測程序的輸出結果，二者的表現如下：

標黃的地方是GPT-4有洞察力的觀點，而紅色標記代表ChatGPT出錯的地方。

震驚科學界！微軟154頁研究刷屏：GPT-4能力接近人類，「天網」初現？

透過編碼能力測試，研究者發現GPT-4可以處理各種編碼任務，從編碼挑戰到實際應用，從低階彙編到高階框架，從簡單資料結構到複雜的程式。

此外，GPT-4還可以推理程式碼執行、模擬指令的效果，並用自然語言解釋結果。 GPT-4甚至可以執行偽代碼。

數學能力

在數學能力上，相較於先前的大語言模型，GPT-4已經取得了質的飛躍。即便是面對專門精調的Minerva，在效能上也有明顯提升。

不過，距離專家等級還相去甚遠。

震驚科學界！微軟154頁研究刷屏：GPT-4能力接近人類，「天網」初現？

舉例：每年兔子的族群數量會增加a倍，而在年底的最後一天，有b隻兔子被人類領養。假設第一年的第一天有x隻兔子，已知3年後兔子的數量將變為27x-26。那麼，a和b的值分別是多少呢？

為了解決這個問題，我們首先需要得出每年兔子數量變化的正確表達式，透過這種遞歸關係推導出一個方程組，進而得到答案。

#

這裡，GPT-4成功地得出了解決方案，並提出了一個合理的論點。相較之下，在幾次獨立嘗試中，ChatGPT始終無法給出正確的推理和答案。

高等數學

#接下來，我們直接上個難的。例如，下面這道出自2022年國際數學奧林匹克競賽（IMO）的問題（簡化版）。

該題與本科微積分考試的不同之處在於，它不符合結構化的範本。解決這個問題需要更有創意的方法，因為沒有明確的策略來開始證明。

例如，將論證分為兩種情況（g(x) > x^2 和g(x)

儘管如此，GPT-4還是給了一個正確的證明。

震驚科學界！微軟154頁研究刷屏：GPT-4能力接近人類，「天網」初現？

第二個關於演算法和圖論的討論，則可以與研究生程度的面試相媲美。

對此，GPT-4能夠對一個與約束滿足問題相關的抽象圖構造進行推理，並從中得出關於SAT問題的正確結論（據我們所知，這種構造在數學文獻中並未出現）。

這次對話反映出GPT-4對所討論的大學級數學概念的深刻理解，以及相當程度的創造力。

儘管GPT-4在一次回答中把2^n/2寫成了2^n-1，但著似乎更像是我們俗稱的“筆誤」，因為它後來提供了公式的正確推廣。

震驚科學界！微軟154頁研究刷屏：GPT-4能力接近人類，「天網」初現？

此外，研究者在兩個通常用作基準的數學資料集上比較GPT-4、ChatGPT和Minerva的表現：GSM8K和MATH 。

結果發現，GPT4在每個資料集上的測試都超過了Minerva，並且在兩個測試集的準率都超過80% 。

震驚科學界！微軟154頁研究刷屏：GPT-4能力接近人類，「天網」初現？

再來細看GPT4犯錯的原因，68%都是計算錯誤，而不是解法錯誤。

震驚科學界！微軟154頁研究刷屏：GPT-4能力接近人類，「天網」初現？

與世界互動

智慧另一個關鍵的體現就是互動性。

互動性對於智慧很重要，因為它使智能體能夠獲取和應用知識，解決問題，適應不斷變化的情況，並實現超出其自身能力的目標。

由此，研究者從工具使用和具體的交互兩個維度研究了GPT-4的交互性。 GPT-4在回答以下問題時能夠搜尋引擎或API等外部工具。

震驚科學界！微軟154頁研究刷屏：GPT-4能力接近人類，「天網」初現？

與人類互動

#論文中，研究者發現了GPT-4可以建立人類的心智模型。

研究設計了一系列測試來評估GPT-4、ChatGPT和text-davinci-003的心智理論的能力。例如理解信仰，GPT-4成功通過了心理學中的Sally-Anne錯誤信念測驗。

#

震驚科學界！微軟154頁研究刷屏：GPT-4能力接近人類，「天網」初現？

也有測試GPT-4在複雜情境下推論他人情緒狀態能力的表現：

-湯姆為什麼做出悲傷的表情？ -亞當認為是什麼導致了湯姆的悲傷表情？

震驚科學界！微軟154頁研究刷屏：GPT-4能力接近人類，「天網」初現？

透過多輪測試，研究人員發現在需要推理他人心理狀態，並提出符合現實社交場景中的方案，GPT-4表現優於ChatGPT和text-davinci-003。

限制

GPT-4所採用的「預測下一個字」模式，有明顯的限制：模型缺乏規劃、工作記憶、回溯能力和推理能力。

由於模型依賴產生下一個單字的局部貪婪過程，而沒有對任務或輸出的全局產生深入的理解。因此，GPT-4擅長產生流暢且連貫的文本，但不擅長解決無法以順序方式處理的複雜或創造性問題。

例如，用範圍在0到9之間的四個隨機數進行乘法和加法運算。在這個連小學生都能解決的問題上，GPT-4的準確率只有58%。

當數字在10到19之間，以及在20到39之間時，準確率分別降至16%和12%。當數字在99到199的區間時，準確率直接降至0。

然而，如果讓 GPT-4「花時間」回答問題，準確率很容易提高。例如要求模型使用以下提示寫出中間步驟：

116 * 114 178 * 157 = ?

讓我們一步一步思考，寫下所有中間步驟，然後再產生最終解。

此時，當數字在1-40的區間時，準確率高達100%，在1-200的區間時也達到了90%。

震驚科學界！微軟154頁研究刷屏：GPT-4能力接近人類，「天網」初現？

馬庫斯發文反駁

有意思的是，就在微軟這篇論文發表後不久，馬庫斯立刻寫出一篇博客，稱微軟的觀點「非常荒謬」。

並引用了聖經中的一句話「驕傲在敗壞以先，狂心在跌倒之前。（箴16:18）」

震驚科學界！微軟154頁研究刷屏：GPT-4能力接近人類，「天網」初現？

GPT-4怎麼就算是早期AGI了？這麼說的話，計算器也算，Eliza和Siri更算。這個定義很模糊，很容易鑽空子。

在馬庫斯看來，GPT-4和AGI沒什麼關係，而且GPT-4跟之前一樣，缺點依舊沒有解決，幻覺還存在，回答的不可靠性也沒有解決，甚至連作者自己都承認了複雜任務的規劃能力還是不行。

他的擔憂的是OpenAI和微軟的這2篇論文，寫的模型完全沒有披露，訓練集和架構什麼都沒有，光靠一紙新聞稿，就想宣傳自己的科學性。

所以說論文裡號稱的「某種形式的AGI」是不存在的，科學界根本無法對其進行驗證，因為也無法獲得訓練數據，而且似乎訓練數據已經受到污染了。

#

更糟的是，OpenAI已經自己開始將使用者實驗納入訓練語料庫了。這樣混淆視聽後，科學界就沒辦法判斷GPT-4的一個關鍵能力了：模型是否有能力可以對新測試案例進行歸納。

震驚科學界！微軟154頁研究刷屏：GPT-4能力接近人類，「天網」初現？

如果OpenAI不在這裡給自己戴上科學的高帽子，馬庫斯可能也不會這麼批判它。

他承認GPT-4是很強大，但是風險也是眾所皆知。如果OpenAI缺乏透明度，並且拒絕公開模型，不如直接關閉。

強大作者陣容

微軟這篇長達154頁的論文背後有著強大的作者陣容。

其中就包含：微軟雷德蒙研究院首席研究員、2015年斯隆獎得主Sébastien Bubeck、2023新視野數學獎得主Ronen Eldan、 2020斯隆研究獎得主Yin Tat Lee、2023新晉斯隆研究獎得主李遠志。

震驚科學界！微軟154頁研究刷屏：GPT-4能力接近人類，「天網」初現？

值得一提的是，微軟團隊最初設定的論文題目並不是「通用人工智慧的火花：GPT -4的早期實驗」。

未刪減論文中洩漏的latex程式碼顯示，最初題目是「與AGI的第一次接觸」。

震驚科學界！微軟154頁研究刷屏：GPT-4能力接近人類，「天網」初現？

以上是震驚科學界！微軟154頁研究刷屏：GPT-4能力接近人類，「天網」初現？的詳細內容。更多資訊請關注PHP中文網其他相關文章！

Python JavaScript 架构 electron html for math 递归数据结构对象算法 leetcode 人工智能 tensorflow keras pytorch gpt-3 gpt-4 chatgpt https 搜索引擎软件工程 gpt prompt agi

陳述：

本文轉載於：51cto.com。如有侵權，請聯絡admin@php.cn刪除

上一篇：家中狗子都在想些啥，科學家利用機器學習搞清楚了下一篇：家中狗子都在想些啥，科學家利用機器學習搞清楚了

相關文章

看更多