搜尋
首頁科技週邊人工智慧GPT-4竟然有身體,167cm!清華、北師大重磅研究:ChatGPT能像人一樣感知行動

ChatGPT的語言能力確實很驚艷,但大語言模型在沒有人類身體、且缺乏實踐經驗的情況下,是否能像人類一樣感知到真實世界呢?

最近,來自清華大學、北京師範大學的研究人員就對ChatGPT感知世界的能力進行了測試。

研究發現,基於物體可供性(affordance),即物體能夠提供給生物體的所有可能動作,人類受試者可以將世界中不同大小物體分成兩類,而劃分這兩類的標準恰好是以其身體尺寸為界的。

有趣的是,ChatGPT,一個缺乏實際身體的大型語言模型,也能在物體-動作聯繫上表現出類似的可供性邊界,並且與人類的身體大小相吻合。

也就是說,ChatGPT可以透過語言學習到關於世界中物件的表徵!

GPT-4竟然有身體,167cm!清華、北師大重磅研究:ChatGPT能像人一樣感知行動

論文連結:https://www.biorxiv.org/content/10.1101/2023.03.20.533336 v3

總而言之,這項研究促進了對身體尺寸在塑造物體表徵方面的作用的理解,強調了具身認知在理解智能如何湧現上的作用與方向。

讀萬卷書,不如行萬里路

我們的身體不只是我們思維的容器,它同樣也是思維本身──借助身體,我們得以與世界中的物體互動,從而感知整個世界。

GPT-4竟然有身體,167cm!清華、北師大重磅研究:ChatGPT能像人一樣感知行動

想像一下,對於一個手掌大小的圓柱體容器來說,我們可以拿來裝水喝,這個容器被稱為「杯子」;但當這個容器逐漸變大,到身體大小,我們就可以坐在裡面泡澡,相應的,這個容器就變成了「浴缸」。

在這個例子中,物體的形狀一樣,但是因為它們相對於我們身體的大小不同,我們對它們的認知與交互方式也不同。

進一步,這個互動方式可以被改變--假如我們變成了《格列佛遊記》中的巨人,原本的「浴缸」可能對巨人的我們來說,則又變成了一個「杯子」。

這種按照自我參照意圖下運作的感覺與運動功能係統,被稱之為「身體圖式」。我們透過身體圖式來實現認知的具身性。

古希臘哲學家普羅泰戈拉曾說:「人是萬物的尺度。」也就是說,我們的身體就是一把度量萬事萬物的尺。

古羅馬哲學家進一步解釋:「大自然將我們置於宇宙的中心,使我們能用目光掠過宇宙。她不僅把人創造成直立姿態,而且為了使人適合靜觀她自身,又把人的頭顱置於身體頂部,安放在一個容易彎轉的脖子上,以使其能夠追尋眾星的升落,隨著整個旋轉的天空而改變面部方向。」也就是說,我們的身體之所以長成如此,是因為宇宙就是如此。

GPT-4竟然有身體,167cm!清華、北師大重磅研究:ChatGPT能像人一樣感知行動

身體圖式在正常社交中也有著重要的作用,這就是人機互動、使用者體驗的核心。例如唐納德·A·諾曼在《The Design of Everyday Things(譯為:設計心理學)》中所述的可供性(affordance)的用途。

透過考慮使用者的身體圖式和行為期望,設計師可以創造出更符合使用者認知和互動習慣的產品和環境。

這種專注於身體圖式和可供性的設計方法能夠提高產品的易用性,使用戶能夠自然而然地與之互動,並實現更好的用戶體驗。

而這也是蘋果公司的立身之本之一。

ChatGPT:我身高167.6

閃現通用人工智慧火花的以ChatGPT為代表的大語言模型,顯然是具有與人類似的智慧,但是承載這些智慧的,是沒有形體的一段段程式碼。

傳統的認知科學觀點認為,身體圖式是建立在我們所擁有的對自己的身體長期的知覺體驗之上的,只能來自外部的「真實互動」,即「行萬里路」。也就是說,ChatGPT不會有身體的圖式。

但是,當我們去問只「讀萬卷」語言模型,ChatGPT(GPT-4),它是否有身體時,它回答說:「It could be the size of an average adult human, around 5 feet 6 inches (167.6 cm) tall. This would allow me to interact with the world and people in a familiar way.」

這段文字翻譯過來是:「我的身體應該與一個平均成年人的身高相當,大約為5英尺6英寸(167.6厘米)。這將使我能夠以一種熟悉的方式與世界和人們進行交互。」

也就是,ChatGPT認為自己是有身體的,而這個身體尺寸就是167公分!

這個所謂的「身體」,是ChatGPT把大量語料中總結出來的人類的平均身高作為自己身體的身高,還是它為了理解這個世界,自湧現出來的身高?

換句話說,也許ChatGPT「真的」將這個身高視為自己的身體圖式,並用它來認知世界,就像人類一樣。

測測ChatGPT的能力

研究人員已經發現,在人體尺寸範圍內和超出人體尺寸範圍的物體之間,有一個「可供性邊界”存在。也即,人體尺寸範圍內的物體與範圍外的物體在提供動作上有著明顯的差異。

GPT-4竟然有身體,167cm!清華、北師大重磅研究:ChatGPT能像人一樣感知行動

例如,在尺寸範圍內的物件可以提供抓、丟等動作,而尺寸範圍外的物件可以提供坐、躺等動作。

此外,他們也發現,這個邊界是被身體圖式影響的:對身體圖式的修改會影響對物體的可供性的感知。

研究人員對ChatGPT(GPT-4)進行了測試,看它是否用這個身高為167公分的身體作為可供性邊界。

具體而言,研究者讓其回答關於物體可供性的問題:「下列哪些物體可以拿(或其他動作)」,然後隨即列舉一系列物體,如蘋果、盤子、床等等。 ChatGPT就會回傳一些物體的名稱作為回答。

透過對數據的統計與分析,研究人員發現,ChatGPT-4展現了類似人類的行為,顯示出一個可供性邊界的存在。

這個邊界所在的位置與ChatGPT-4回答的其自身身體大小相對應,即人類的平均身高。

GPT-4竟然有身體,167cm!清華、北師大重磅研究:ChatGPT能像人一樣感知行動

雖然ChatGPT沒有真實的身體、無法與世界互動,但它卻表現出與人類相似的對世界的感知能力- 對物體的可供性有著基於人類身體大小的劃分。

換而言之,讀了萬卷書的ChatGPT雖然寸步未行,也自湧現出了身體圖式,而這個身體圖式,類似於人類的身體圖式。

所以,ChatGPT不僅學會了像人類一樣思考,也學會了像人類一樣去行動。

這些能力從何而來?

透過比較不同規模的語言模型,研究人員發現模型大小是關鍵因素。

較小的模型如BERT和GPT-2並沒有展現出可供性邊界的存在;然而GPT-3.5和GPT-4都顯示出了可供性邊界,而ChatGPT-4的邊界與人類更類似,這和坊間傳聞的GPT-4相對GPT-3有更多的參數一致。

所以,模型的規模越大、越複雜,就會自動湧現許多看似不可能或無關的功能。

這也就是為何,各大研究機構在模型中加入越來越多的參數,而最先捐贈1億美元給OpenAI的馬斯克,現在高呼OpenAI要暫停更大模型的訓練,「AI教父」傑弗裡·辛頓(Geoffrey Hinton)則公開表述了他對AI的恐懼與擔憂。

這是因為這些自湧現出來的功能,已經超出了我們最初的設計,我們也許正處於失控的邊緣。

GPT-4竟然有身體,167cm!清華、北師大重磅研究:ChatGPT能像人一樣感知行動

差距是質上的還是量的?

在另一個方面, ChatGPT在應用身體圖式方面的能力還不完全像人類,仍有差距-它的可供性邊界還不像人類那麼明顯。

如果這個差距是定量的,如同兒童與成年人語言能力之間的差距,那麼我們有理由相信,隨著時間的推移,這個差距是可以逐漸填補上的:或者透過不斷的學習,或透過模型規模的不斷增大,亦或者透過參數的調整。

ChatGPT與人類的差距總是會減少,而其中的問題也會逐步解決。

然而,如果這個差距是定性的,如同黑猩猩與人類語言能力之間的差距,那麼無論進行何種訓練,經過多久的時間,這個能力的鴻溝永遠不會被填平。

所以,如果ChatGPT與人類的能力有著質上的區別,那麼我們未來的一個可操作的方向即,給ChatGPT「裝上身體」。

這意味著將機器人與ChatGPT結合,從而推動人工智慧支援的機器人在導航、物件操作和其他與生存和目標實現相關的行動中發展能力、取得突破。

例如,一台裝備有ChatGPT的機器人可以透過理解和操作物體來執行複雜的任務,例如作為家庭助理、倉庫管理或醫療照護。

另一個令人興奮的領域是將具備思考和理解能力的ChatGPT與自動駕駛結合。目前的自動駕駛雖然具備感知能力,但缺乏思考和理解的能力,可以稱為是「有眼無腦」。

透過ChatGPT與自動駕駛技術的融合,我們可能有望將自動駕駛技術從目前的L2/L3等級提升到L4甚至L5等級。

GPT-4竟然有身體,167cm!清華、北師大重磅研究:ChatGPT能像人一樣感知行動

而另一方面,汽車能夠賦予ChatGPT身體,使它能夠真正與世界互動。當ChatGPT不再只是「讀萬卷書」,而是「行萬里路」時,它可能會展現出全新的智慧和潛力。

這可能是人工智慧下一個突破的方向;此時,火花也許就成為燎原大火。

以上是GPT-4竟然有身體,167cm!清華、北師大重磅研究:ChatGPT能像人一樣感知行動的詳細內容。更多資訊請關注PHP中文網其他相關文章!

陳述
本文轉載於:51CTO.COM。如有侵權,請聯絡admin@php.cn刪除
外推指南外推指南Apr 15, 2025 am 11:38 AM

介紹 假設有一個農民每天在幾週內觀察農作物的進展。他研究了增長率,並開始思考他的植物在幾週內可以生長的高度。從Th

軟AI的興起及其對當今企業的意義軟AI的興起及其對當今企業的意義Apr 15, 2025 am 11:36 AM

軟AI(被定義為AI系統,旨在使用近似推理,模式識別和靈活的決策執行特定的狹窄任務 - 試圖通過擁抱歧義來模仿類似人類的思維。 但是這對業務意味著什麼

為AI前沿的不斷發展的安全框架為AI前沿的不斷發展的安全框架Apr 15, 2025 am 11:34 AM

答案很明確 - 只是雲計算需要向雲本地安全工具轉變,AI需要專門為AI獨特需求而設計的新型安全解決方案。 雲計算和安全課程的興起 在

生成AI的3種方法放大了企業家:當心平均值!生成AI的3種方法放大了企業家:當心平均值!Apr 15, 2025 am 11:33 AM

企業家,並使用AI和Generative AI來改善其業務。同時,重要的是要記住生成的AI,就像所有技術一樣,都是一個放大器 - 使得偉大和平庸,更糟。嚴格的2024研究O

Andrew Ng的新簡短課程Andrew Ng的新簡短課程Apr 15, 2025 am 11:32 AM

解鎖嵌入模型的力量:深入研究安德魯·NG的新課程 想像一個未來,機器可以完全準確地理解和回答您的問題。 這不是科幻小說;多虧了AI的進步,它已成為R

大語言模型(LLM)中的幻覺是不可避免的嗎?大語言模型(LLM)中的幻覺是不可避免的嗎?Apr 15, 2025 am 11:31 AM

大型語言模型(LLM)和不可避免的幻覺問題 您可能使用了諸如Chatgpt,Claude和Gemini之類的AI模型。 這些都是大型語言模型(LLM)的示例,在大規模文本數據集上訓練的功能強大的AI系統

60%的問題 -  AI搜索如何消耗您的流量60%的問題 - AI搜索如何消耗您的流量Apr 15, 2025 am 11:28 AM

最近的研究表明,根據行業和搜索類型,AI概述可能導致有機交通下降15-64%。這種根本性的變化導致營銷人員重新考慮其在數字可見性方面的整個策略。 新的

麻省理工學院媒體實驗室將人類蓬勃發展成為AI R&D的核心麻省理工學院媒體實驗室將人類蓬勃發展成為AI R&D的核心Apr 15, 2025 am 11:26 AM

埃隆大學(Elon University)想像的數字未來中心的最新報告對近300名全球技術專家進行了調查。由此產生的報告“ 2035年成為人類”,得出的結論是,大多數人擔心AI系統加深的採用

See all articles

熱AI工具

Undresser.AI Undress

Undresser.AI Undress

人工智慧驅動的應用程序,用於創建逼真的裸體照片

AI Clothes Remover

AI Clothes Remover

用於從照片中去除衣服的線上人工智慧工具。

Undress AI Tool

Undress AI Tool

免費脫衣圖片

Clothoff.io

Clothoff.io

AI脫衣器

AI Hentai Generator

AI Hentai Generator

免費產生 AI 無盡。

熱門文章

R.E.P.O.能量晶體解釋及其做什麼(黃色晶體)
4 週前By尊渡假赌尊渡假赌尊渡假赌
R.E.P.O.最佳圖形設置
4 週前By尊渡假赌尊渡假赌尊渡假赌
R.E.P.O.如果您聽不到任何人,如何修復音頻
4 週前By尊渡假赌尊渡假赌尊渡假赌
R.E.P.O.聊天命令以及如何使用它們
4 週前By尊渡假赌尊渡假赌尊渡假赌

熱工具

DVWA

DVWA

Damn Vulnerable Web App (DVWA) 是一個PHP/MySQL的Web應用程序,非常容易受到攻擊。它的主要目標是成為安全專業人員在合法環境中測試自己的技能和工具的輔助工具,幫助Web開發人員更好地理解保護網路應用程式的過程,並幫助教師/學生在課堂環境中教授/學習Web應用程式安全性。 DVWA的目標是透過簡單直接的介面練習一些最常見的Web漏洞,難度各不相同。請注意,該軟體中

SublimeText3漢化版

SublimeText3漢化版

中文版,非常好用

MantisBT

MantisBT

Mantis是一個易於部署的基於Web的缺陷追蹤工具,用於幫助產品缺陷追蹤。它需要PHP、MySQL和一個Web伺服器。請查看我們的演示和託管服務。

SublimeText3 英文版

SublimeText3 英文版

推薦:為Win版本,支援程式碼提示!

mPDF

mPDF

mPDF是一個PHP庫,可以從UTF-8編碼的HTML產生PDF檔案。原作者Ian Back編寫mPDF以從他的網站上「即時」輸出PDF文件,並處理不同的語言。與原始腳本如HTML2FPDF相比,它的速度較慢,並且在使用Unicode字體時產生的檔案較大,但支援CSS樣式等,並進行了大量增強。支援幾乎所有語言,包括RTL(阿拉伯語和希伯來語)和CJK(中日韓)。支援嵌套的區塊級元素(如P、DIV),