搜尋
首頁科技週邊人工智慧做完GPT-4完整測評,微軟爆火論文說初版AGI快來了

1956 年,在達特茅斯學院召開的研討會上,人工智慧這個概念正式被提出。

之後這個字一直挑戰著心理學家、哲學家和電腦科學家,因為它太難被定義了。 1994 年,52 名心理學家聯合發文試圖捕捉它的本質。

隨著時間的推移,研究者開始將注意力轉移到特定領域的 AI 系統,如 2016 年 AlphaGo 挑戰韓國冠軍棋手大獲全勝。之後,時間來到 20 世紀 90 年代末和 21 世紀初,研究者不滿足於專用 AI,因此開發更通用的人工智慧系統呼聲越來越高。隨之而來的是,通用人工智慧 (AGI) 一詞開始在 2000 年代初期流行起來。

最近一段時間,如大家所見,大型語言模型 (LLM) 走到聚光燈下,這些神經網路基於 Transformer 架構,並在大量文字資料集上訓練而成。尤其是 OpenAI 最新發布的 GPT-4,更是展示了大型語言模型的通用性,在數學、文字、法律、醫學等領域樣樣精通。

我們不禁會問,GPT-4 是邁向 AGI 的重要一步嗎?

微軟給出的答案是肯定的,在其最近發布的一篇論文中,他們闡述了這個觀點。文中對 GPT-4 進行了全面評測。微軟認為「鑑於GPT-4 能力的廣度和深度,我們相信它應該被合理地視為一個通用人工智慧(AGI)系統的早期(但仍不完整)版本。」

微軟也表示,「本文的主要目標是對GPT-4 的能力和局限性進行探索,我們相信GPT-4 的智慧標誌著電腦科學及其他領域的真正範式轉變。」

做完GPT-4完整測評,微軟爆火論文說初版AGI快來了

論文網址:https://arxiv.org/pdf/2303.12712.pdf

有趣的是,這篇火爆的論文還被發現有大量刪減,因此有人找出了未刪節版論文。

從未刪減版本中,這個部落客也扒出了大量隱藏的細節,如GPT-4 的內部名稱為DV-3,實際上也是該論文的隱藏第三作者,後來被刪除;這些微軟的研究人員對GPT-4 的技術細節似乎了解也不多。此外部落客也透露這篇論文發佈時刪除了有關毒性內容的部分(防止對 OpenAI 造成負面?)。

我們在下面貼上了該部落客的 Twitter 線程,感興趣的可以查看。

做完GPT-4完整測評,微軟爆火論文說初版AGI快來了

Twitter thread:https://twitter.com/DV2559106965076/status/1638769434763608064

#回到文章本身。

根據文章所認定的 AGI,是具體的擁有推理、計劃、解決問題、抽象思維、理解複雜思想、快速學習和從經驗中學習的能力。從這些能力出發,論文進行了有趣的實驗和評測。

論文分為10 個章節:第一章為總括部分;第二章介紹了多模態,主要和視覺生成內容相關;第三章代碼,根據指令生成代碼、理解現有代碼;第四章數學能力;第五章與世界的交互作用;第六章與人類的交互作用;第七章判別力;第八章GPT-4 限制;第九章社會影響;第十章未來方向及結論。

下面我們透過具體的範例,看看 GPT-4 是不是真的邁進了 AGI 時代。

多模態和跨學科組成

為了測試模型將藝術與程式設計結合的能力,研究要求GPT-4 用javascript 寫一段程式碼,以產生康丁斯基風格的隨機影像,下圖第一張為Wassily Kandinsky 創作的,第二張和第三張分別由GPT-4 和ChatGPT 產生的:

#

做完GPT-4完整測評,微軟爆火論文說初版AGI快來了

下面為GPT-4 程式碼實作過程:

做完GPT-4完整測評,微軟爆火論文說初版AGI快來了

# #進行視覺概念理解:在這個作圖任務中, 輸入提示讓模型結合字母Y、O、H 的形狀來畫一個人。其實在GPT-4 的訓練過程從沒有關於字母形狀的認識,只能從相關訓練資料中、模糊地學習到字母與一些特定形狀有關,結果顯示GPT-4 產生的結果還不錯:

做完GPT-4完整測評,微軟爆火論文說初版AGI快來了

用於草圖產生:GPT-4 也能與Stable Diffusion 結合。下圖為 3D 城市建模截圖,輸入提示有一條河流從左到右流淌、河的旁邊建有金字塔的沙漠、螢幕底部有 4 個按鈕,顏色分別為綠色、藍色、棕色和紅色。以下是生成結果:

做完GPT-4完整測評,微軟爆火論文說初版AGI快來了

你還能要求GPT-4 用ABC 記譜法產生和修改曲調:

做完GPT-4完整測評,微軟爆火論文說初版AGI快來了

程式設計能力

GPT-4 有非常強大的程式設計能力,包括根據指令編寫程式碼和理解現有程式碼。該研究具體測試了 GPT-4 在程式設計方面的能力。

程式編寫

#下圖3.1 是一個讓GPT-4 寫python 函數的例子,該研究使用LeetCode 在線判斷代碼是否正確。

做完GPT-4完整測評,微軟爆火論文說初版AGI快來了

做完GPT-4完整測評,微軟爆火論文說初版AGI快來了

然後,研究讓GPT-4 將上表2 中LeetCode 上的準確率資料視覺化為圖表,結果如下圖3.2 所示。

做完GPT-4完整測評,微軟爆火論文說初版AGI快來了

做完GPT-4完整測評,微軟爆火論文說初版AGI快來了

#如下圖3.3 所示,研究讓GPT-4 用JavaScript 在HTML 中編寫3D 遊戲,GPT-4 在零樣本的情況下產生了一個符合所有要求的遊戲。

做完GPT-4完整測評,微軟爆火論文說初版AGI快來了深度學習程式設計

#為深度學習編寫程式碼需要數學、統計學知識,並熟悉PyTorch、TensorFlow、Keras 等框架和函式庫。如下圖 3.4 所示,研究者要求 GPT-4 和 ChatGPT 編寫自訂優化器模組,該任務對於人類深度學習專家來說也是具有挑戰性的。研究者為 GPT-4 和 ChatGPT 提供了自然語言描述,其中包括一系列重要的操作,例如應用 SVD 等等。

做完GPT-4完整測評,微軟爆火論文說初版AGI快來了

############此外,研究也測試了 GPT-4 把程式碼轉換成 LaTex 公式的能力,結果如下圖 3.5 所示。 ################

在理解程式碼方面,研究嘗試讓GPT-4 和ChatGPT「讀懂」一段C/C 程序,並預測程式的輸出結果,二者的表現如下:

做完GPT-4完整測評,微軟爆火論文說初版AGI快來了

然後,研究讓GPT-4 解釋了一段Python 程式碼:

做完GPT-4完整測評,微軟爆火論文說初版AGI快來了

##還有解釋一段偽代碼:

做完GPT-4完整測評,微軟爆火論文說初版AGI快來了

數學能力

一直以來,大型語言模型的數學能力似乎一直不是很好。那麼 GPT-4 在這方面表現如何呢?本文經過一系列評測,結果顯示 GPT-4 相比以前的模型在數學方面有了質的飛越,但是離專家水平還差得很遠,不具備數學研究的能力。

在與ChatGPT 的對比中, GPT-4 成功的產生了解決方案,而ChatGPT 產生了錯誤答案:

做完GPT-4完整測評,微軟爆火論文說初版AGI快來了

做完GPT-4完整測評,微軟爆火論文說初版AGI快來了

做完GPT-4完整測評,微軟爆火論文說初版AGI快來了

在AP 題目上,GPT-4 vs ChatGPT 比較結果。 GPT-4 使用了正確的方法,不過因為計算錯誤導致最終答案錯誤,而 ChatGPT 產生了一個不連貫的論點。

做完GPT-4完整測評,微軟爆火論文說初版AGI快來了

此外,本文也測試了GPT-4 使用數學思維和技術來解決現實問題的能力:下圖展示了GPT-4 如何成功地為一個需要廣泛跨學科知識的複雜系統建立合理的數學模型,而ChatGPT 未能取得有意義的進展。 做完GPT-4完整測評,微軟爆火論文說初版AGI快來了

做完GPT-4完整測評,微軟爆火論文說初版AGI快來了

######由於論文內容長達154 頁,本文只對評測結果進行了大量展示,想要了解更多內容,讀者可以參考原論文。 ############最後附上論文目錄:######################################### #

以上是做完GPT-4完整測評,微軟爆火論文說初版AGI快來了的詳細內容。更多資訊請關注PHP中文網其他相關文章!

陳述
本文轉載於:51CTO.COM。如有侵權,請聯絡admin@php.cn刪除
GPT-4接入Office全家桶!Excel到PPT动嘴就能做,微软:重新发明生产力GPT-4接入Office全家桶!Excel到PPT动嘴就能做,微软:重新发明生产力Apr 12, 2023 pm 02:40 PM

一觉醒来,工作的方式被彻底改变。微软把AI神器GPT-4全面接入Office,这下ChatPPT、ChatWord、ChatExcel一家整整齐齐。CEO纳德拉在发布会上直接放话:今天,进入人机交互的新时代,重新发明生产力。​新功能名叫Microsoft 365 Copilot(副驾驶),与改变了程序员的代码助手GitHub Copilot成为一个系列,继续改变更多人。现在AI不光能自动做PPT,而且能根据Word文档的内容一键做出精美排版。甚至连上台时对着每一页PPT应该讲什么话,都给一起安排

集成GPT-4的Cursor让编写代码和聊天一样简单,用自然语言编写代码的新时代已来集成GPT-4的Cursor让编写代码和聊天一样简单,用自然语言编写代码的新时代已来Apr 04, 2023 pm 12:15 PM

集成GPT-4的Github Copilot X还在小范围内测中,而集成GPT-4的Cursor已公开发行。Cursor是一个集成GPT-4的IDE,可以用自然语言编写代码,让编写代码和聊天一样简单。 GPT-4和GPT-3.5在处理和编写代码的能力上差别还是很大的。官网的一份测试报告。前两个是GPT-4,一个采用文本输入,一个采用图像输入;第三个是GPT3.5,可以看出GPT-4的代码能力相较于GPT-3.5有较大能力的提升。集成GPT-4的Github Copilot X还在小范围内测中,而

GPT-4的两个谣言和最新预测!GPT-4的两个谣言和最新预测!Apr 11, 2023 pm 06:07 PM

​作者 | 云昭3月9日,微软德国CTO Andreas Braun在AI kickoff会议上带来了一个期待已久的消息:“我们将于下周推出GPT-4,届时我们将推出多模式模式,提供完全不同的可能性——例如视频。”言语之中,他将大型语言模型(LLM)比作“游戏改变者”,因为他们教机器理解自然语言,然后机器以统计的方式理解以前只能由人类阅读和理解的东西。与此同时,这项技术已经发展到“适用于所有语言”:你可以用德语提问,也可以用意大利语回答。借助多模态,微软(-OpenAI)将“使模型变得全面”。那

再一次改变“AI”世界 GPT-4千呼万唤始出来再一次改变“AI”世界 GPT-4千呼万唤始出来Apr 10, 2023 pm 02:40 PM

近段时间,人工智能聊天机器人ChatGPT刷爆网络,网友们争先恐后去领略它的超高情商和巨大威力。参加高考、修改代码、构思小说……它在广大网友的“鞭策”下不断突破自我,甚至可以用一整段程序,为你拼接出一只小狗。而这些技能只是基于GPT-3.5开发而来,在3月15日,AI世界再次更新,最新版本的GPT-4也被OpenAI发布了出来。与之前相比,GPT-4不仅展现了更加强大的语言理解能力,还能够处理图像内容,在考试中的得分甚至能超越90%的人类。那么,如此“逆天”的GPT-4还具有哪些能力?它又是如何

当GPT-4反思自己错了:性能提升近30%,编程能力提升21%当GPT-4反思自己错了:性能提升近30%,编程能力提升21%Apr 04, 2023 am 11:55 AM

GPT-4 的思考方式,越来越像人了。 人类在做错事时,会反思自己的行为,避免再次出错,如果让 GPT-4 这类大型语言模型也具备反思能力,性能不知道要提高多少了。众所周知,大型语言模型 (LLM) 在各种任务上已经表现出前所未有的性能。然而,这些 SOTA 方法通常需要对已定义的状态空间进行模型微调、策略优化等操作。由于缺乏高质量的训练数据、定义良好的状态空间,优化模型实现起来还是比较难的。此外,模型还不具备人类决策过程所固有的某些品质,特别是从错误中学习的能力。不过现在好了,在最近的一篇论文

「数学天才」陶哲轩:GPT-4无法攻克一个未解决的数学问题,但对工作有帮助「数学天才」陶哲轩:GPT-4无法攻克一个未解决的数学问题,但对工作有帮助Apr 10, 2023 pm 02:21 PM

当红炸子鸡ChatGPT,也成为数学天才陶哲轩的研究工具了。近日,他在网上称自己发现了一些ChatGPT的小用例。首先,它很擅长解析代码格式的文档(在这种情况下是#arXiv搜索的API),然后返回一个正确格式的代码查询(后来它还提供了一些工作的python代码,以我要求的方式调用这个API,尽管我不得不手动安装一个包来使它运行)。其次,我让它想出一些,聪明的学生在本科线性代数课上可能会问的问题(为此我提供了一些样本题目),它给出了一些很好的例子,让我对课程可能方向,以及潜在的作业问题有所启发。

体验了首个接入GPT-4的代码编辑器,太炸裂了!体验了首个接入GPT-4的代码编辑器,太炸裂了!Apr 04, 2023 pm 02:35 PM

目前 Cursor 已经开源在 GitHub 上,已斩获了 9000+ GitHub Star,并成功登上 GitHub Trending。 最近一款名为Cursor的代码编辑器已经传遍了圈内,受到众多编程爱好者的追捧。它主打的亮点就是,通过 GPT-4 来辅助你编程,完成 AI 智能生成代码、修改 Bug、生成测试等操作。确实很吸引人,而且貌似也能大大节省人为的重复工作,让广大码农把有限的时间放在无限的需求构思上!目前 Cursor 已经开源在 GitHub 上,已斩获了 9000+ GitH

GPT-4的早期实验,通用人工智能的火花GPT-4的早期实验,通用人工智能的火花Apr 07, 2023 pm 08:01 PM

最近,微软发布了一个长达154页的论文名称为《通用人工智能的火花,GPT-4的早期实验》。文章的主要观点是虽然GPT-4还不完整,但是已经可以被视为,一个通用人工智能的早期版本。由于全文将近7万字,本篇将论文的内容做了一下精炼和解读,有兴趣可阅读原文 https://arxiv.org/pdf/2303.12712.pdf来自微软的科学家们认为,GPT-4的智能水平已经非常接近于人类的水平,而且远超之前的诸如先前ChatGPT用的GPT-3.5这样的模型,可以将GPT-4视为通用人工智能系统,也

See all articles

熱AI工具

Undresser.AI Undress

Undresser.AI Undress

人工智慧驅動的應用程序,用於創建逼真的裸體照片

AI Clothes Remover

AI Clothes Remover

用於從照片中去除衣服的線上人工智慧工具。

Undress AI Tool

Undress AI Tool

免費脫衣圖片

Clothoff.io

Clothoff.io

AI脫衣器

AI Hentai Generator

AI Hentai Generator

免費產生 AI 無盡。

熱門文章

R.E.P.O.能量晶體解釋及其做什麼(黃色晶體)
2 週前By尊渡假赌尊渡假赌尊渡假赌
倉庫:如何復興隊友
4 週前By尊渡假赌尊渡假赌尊渡假赌
Hello Kitty Island冒險:如何獲得巨型種子
4 週前By尊渡假赌尊渡假赌尊渡假赌

熱工具

Safe Exam Browser

Safe Exam Browser

Safe Exam Browser是一個安全的瀏覽器環境,安全地進行線上考試。該軟體將任何電腦變成一個安全的工作站。它控制對任何實用工具的訪問,並防止學生使用未經授權的資源。

DVWA

DVWA

Damn Vulnerable Web App (DVWA) 是一個PHP/MySQL的Web應用程序,非常容易受到攻擊。它的主要目標是成為安全專業人員在合法環境中測試自己的技能和工具的輔助工具,幫助Web開發人員更好地理解保護網路應用程式的過程,並幫助教師/學生在課堂環境中教授/學習Web應用程式安全性。 DVWA的目標是透過簡單直接的介面練習一些最常見的Web漏洞,難度各不相同。請注意,該軟體中

SublimeText3 英文版

SublimeText3 英文版

推薦:為Win版本,支援程式碼提示!

EditPlus 中文破解版

EditPlus 中文破解版

體積小,語法高亮,不支援程式碼提示功能

SublimeText3 Linux新版

SublimeText3 Linux新版

SublimeText3 Linux最新版