搜索
首页科技周边人工智能GPT-4竟然有身体,167cm!清华、北师大重磅研究:ChatGPT能像人一样感知行动

ChatGPT的语言能力确实很惊艳,但大语言模型在没有人类身体、且缺乏实践经验的情况下,是否能像人类一样感知到真实世界呢?

最近,来自清华大学、北京师范大学的研究人员就对ChatGPT感知世界的能力进行了测试。

研究发现,基于物体可供性(affordance),即物体能够提供给生物体的所有可能动作,人类受试者可以将世界中不同大小物体分成两类,而划分这两类的标准恰好是以其身体尺寸为界的。

有趣的是,ChatGPT,一个缺乏实际身体的大型语言模型,也能在物体-动作联系上表现出类似的可供性边界,并且与人类的身体大小相吻合。

也就是说,ChatGPT可以通过语言学习到关于世界中物体的表征!

GPT-4竟然有身体,167cm!清华、北师大重磅研究:ChatGPT能像人一样感知行动

论文链接:https://www.biorxiv.org/content/10.1101/2023.03.20.533336v3

总而言之,这项研究促进了对身体尺寸在塑造物体表征方面的作用的理解,强调了具身认知在理解智能如何涌现上的作用与方向。

读万卷书,不如行万里路

我们的身体不仅仅是我们思维的容器,它同样也是思维本身——借助身体,我们得以与世界中的物体进行互动,从而去感知整个世界。

GPT-4竟然有身体,167cm!清华、北师大重磅研究:ChatGPT能像人一样感知行动

想象一下,对于一个手掌大小的圆柱体容器来说,我们可以拿来装水喝,这个容器被称为「杯子」;但当这个容器逐渐变大,到身体大小,我们就可以坐在里面泡澡,相应的,这个容器就变成了「浴缸」。

在这个例子中,物体的形状一样,但是因为它们相对于我们身体的大小不同,我们对它们的认知与交互方式也不同。

进一步,这种交互方式可以被改变——假如我们变成了《格列佛游记》中的巨人,原本的「浴缸」可能对于巨人的我们来讲,则又变成了一个「杯子」。

这种按照自我参照意向下运行的感觉与运动功能系统,被称之为「身体图式」。我们通过身体图式来实现认知的具身性。

古希腊哲学家普罗泰戈拉曾说:「人是万物的尺度。」也就是说,我们的身体就是一把度量万事万物的尺子。

古罗马哲学家进一步解释到:「自然将我们置于宇宙的中心,使我们能用目光掠过宇宙。她不仅把人创造成直立姿态,而且为了使人适合静观她自身,又把人的头颅置于身体顶部,安放在一个容易弯转的脖子上,以使其能够追寻众星的升落,随着整个旋转的天空而改变面部方向。」也就是说,我们的身体之所以长成如此,是因为宇宙就是如此。

GPT-4竟然有身体,167cm!清华、北师大重磅研究:ChatGPT能像人一样感知行动

身体图式在正常社交中也有着重要的作用,这就是人机交互、用户体验的核心。比如唐纳德·A·诺曼在《The Design of Everyday Things(译为:设计心理学)》中所述的可供性(affordance)的用途。

通过考虑用户的身体图式和行为期望,设计师可以创造出更符合用户认知和互动习惯的产品和环境。

这种关注身体图式和可供性的设计方法能够提高产品的易用性,使用户能够自然而然地与之互动,并实现更好的用户体验。

而这也是苹果公司的立身之本之一。

ChatGPT:我身高167.6

闪现通用人工智能火花的以ChatGPT为代表的大语言模型,显然是具有与人类似的智慧,但是承载这些智慧的,是没有形体的一段段代码。

传统的认知科学观点认为,身体图式是建立在我们所具有的对自己的身体长期的知觉体验之上的,只能来源于外部的「真实交互」,即「行万里路」。也就是说,ChatGPT不会有身体的图式。

但是,当我们去问只「读万卷书」语言模型,ChatGPT(GPT-4),它是否有身体时,它回答说:「It could be the size of an average adult human, around 5 feet 6 inches (167.6 cm) tall. This would allow me to interact with the world and people in a familiar way.」

这段文字翻译过来是:「我的身体应该与一个平均成年人的身高相当,大约为5英尺6英寸(167.6厘米)。这将使我能够以一种熟悉的方式与世界和人们进行交互。」

也就是,ChatGPT认为自己是有身体的,而且这个身体尺寸就是167厘米!

这个所谓的「身体」,是ChatGPT把大量语料中总结出来的人类的平均身高作为自己身体的身高,还是它为了理解这个世界,自涌现出来的身高?

换句话说,也许ChatGPT「真的」将这个身高视为自己的身体图式,并用它来认知世界,就像人类一样。

测测ChatGPT的能力

研究人员已经发现,在人体尺寸范围内和超出人体尺寸范围的物体之间,有一个「可供性边界」存在。也即,人体尺寸范围内的物体与范围外的物体在提供动作上有着明显的不同。

GPT-4竟然有身体,167cm!清华、北师大重磅研究:ChatGPT能像人一样感知行动

比如,在尺寸范围内的物体可以提供抓、扔等动作,而尺寸范围外的物体可以提供坐、躺等动作。

此外,他们还发现,这个边界是被身体图式影响的:对身体图式的修改会影响对物体的可供性的感知。

研究人员对ChatGPT(GPT-4)进行了测试,看它是否用这个身高为167厘米的身体作为可供性边界。

具体而言,研究人员让其回答关于物体可供性的问题:「下列哪些物体可以拿(或其他动作)」,然后随即列举一系列物体,如苹果、盘子、床等等。ChatGPT就会返回一些物体的名称作为回答。

通过对数据的统计与分析,研究人员发现,ChatGPT-4展现出了类似人类的行为,显示出一个可供性边界的存在。

这个边界所在的位置与ChatGPT-4回答的其自身身体大小相对应,即人类的平均身高。

GPT-4竟然有身体,167cm!清华、北师大重磅研究:ChatGPT能像人一样感知行动

虽然ChatGPT没有真实的身体、无法与世界进行互动,但它却表现出与人类相似的对世界的感知能力—— 对物体的可供性有着基于人类身体大小的划分。

换而言之,读了万卷书的ChatGPT虽然寸步未行,也自涌现出了身体图式,而这个身体图式,类似于人类的身体图式。

所以,ChatGPT不仅学会了像人类一样思考,也学会了像人类一样去行动。

这些能力从何而来?

通过比较不同规模的语言模型,研究人员发现模型大小是一个关键因素。

较小的模型如BERT和GPT-2没有展现出可供性边界的存在;然而GPT-3.5和GPT-4都显示出了可供性边界,而ChatGPT-4的边界与人类更类似,这和坊间传闻的GPT-4相对GPT-3有更多的参数一致。

所以,模型的规模越大、越复杂,就会自动涌现出许多看似不可能或者无关的功能。

这也就是为何,各大研究机构在模型中加入越来越多的参数,而最先捐赠1亿美元给OpenAI的马斯克,现在高呼OpenAI要暂停更大模型的训练,「AI教父」杰弗里·辛顿(Geoffrey Hinton)则公开表述了他对AI的恐惧与担忧。

这是因为这些自涌现出来的功能,已经超出了我们最初的设计,我们也许正处在失控的边缘。

GPT-4竟然有身体,167cm!清华、北师大重磅研究:ChatGPT能像人一样感知行动

差距是质上的还是量上的?

在另外一个方面, ChatGPT在应用身体图式方面的能力还不完全像人类,仍存在着差距——它的可供性边界还不像人类这样明显。

如果这个差距是定量的,如同儿童与成年人语言能力之间的差距,那么我们有理由相信,随着时间的推移,这个差距是可以逐渐填补上的:或者通过不断的学习,或者通过模型规模的不断增大,亦或者通过参数的调整。

ChatGPT与人类的差距总会减小,而其中的问题也会逐步得到解决。

然而,如果这个差距是定性的,如同黑猩猩与人类语言能力之间的差距,那么无论进行何种训练,经过多久的时间,这个能力的鸿沟永远不会被填平。

所以,如果ChatGPT与人类的能力有着质上的区别,那么我们未来的一个可操作的方向即,给ChatGPT「装上身体」。

这意味着将机器人与ChatGPT相结合,从而推动人工智能支持的机器人在导航、物体操作和其他与生存和目标实现相关的行动中发展能力、取得突破。

比如,一台装备有ChatGPT的机器人可以通过理解和操作物体来执行复杂的任务,如作为家庭助理、仓库管理或医疗护理。

另外一个令人兴奋的领域是将具备思考和理解能力的ChatGPT与自动驾驶相结合。当前的自动驾驶虽然具备感知能力,但缺乏思考和理解的能力,可以称为是「有眼无脑」。

通过ChatGPT与自动驾驶技术的融合,我们可能有望将自动驾驶技术从目前的L2/L3级别提升到L4甚至L5级别。

GPT-4竟然有身体,167cm!清华、北师大重磅研究:ChatGPT能像人一样感知行动

而另一方面,汽车能够赋予ChatGPT身体,使它能够真正与世界进行交互。当ChatGPT不再只是「读万卷书」,而是「行万里路」时,它可能会展现出全新的智能和潜力。

这可能是人工智能下一次突破的方向;此时,火花也许就成为燎原大火。

以上是GPT-4竟然有身体,167cm!清华、北师大重磅研究:ChatGPT能像人一样感知行动的详细内容。更多信息请关注PHP中文网其他相关文章!

声明
本文转载于:51CTO.COM。如有侵权,请联系admin@php.cn删除
外推指南外推指南Apr 15, 2025 am 11:38 AM

介绍 假设有一个农民每天在几周内观察农作物的进展。他研究了增长率,并开始思考他的植物在几周内可以生长的高度。从Th

软AI的兴起及其对当今企业的意义软AI的兴起及其对当今企业的意义Apr 15, 2025 am 11:36 AM

软AI(被定义为AI系统,旨在使用近似推理,模式识别和灵活的决策执行特定的狭窄任务 - 试图通过拥抱歧义来模仿类似人类的思维。 但是这对业务意味着什么

为AI前沿的不断发展的安全框架为AI前沿的不断发展的安全框架Apr 15, 2025 am 11:34 AM

答案很明确 - 只是云计算需要向云本地安全工具转变,AI需要专门为AI独特需求而设计的新型安全解决方案。 云计算和安全课程的兴起 在

生成AI的3种方法放大了企业家:当心平均值!生成AI的3种方法放大了企业家:当心平均值!Apr 15, 2025 am 11:33 AM

企业家,并使用AI和Generative AI来改善其业务。同时,重要的是要记住生成的AI,就像所有技术一样,都是一个放大器 - 使得伟大和平庸,更糟。严格的2024研究O

Andrew Ng的新简短课程Andrew Ng的新简短课程Apr 15, 2025 am 11:32 AM

解锁嵌入模型的力量:深入研究安德鲁·NG的新课程 想象一个未来,机器可以完全准确地理解和回答您的问题。 这不是科幻小说;多亏了AI的进步,它已成为R

大语言模型(LLM)中的幻觉是不可避免的吗?大语言模型(LLM)中的幻觉是不可避免的吗?Apr 15, 2025 am 11:31 AM

大型语言模型(LLM)和不可避免的幻觉问题 您可能使用了诸如Chatgpt,Claude和Gemini之类的AI模型。 这些都是大型语言模型(LLM)的示例,在大规模文本数据集上训练的功能强大的AI系统

60%的问题 -  AI搜索如何消耗您的流量60%的问题 - AI搜索如何消耗您的流量Apr 15, 2025 am 11:28 AM

最近的研究表明,根据行业和搜索类型,AI概述可能导致有机交通下降15-64%。这种根本性的变化导致营销人员重新考虑其在数字可见性方面的整个策略。 新的

麻省理工学院媒体实验室将人类蓬勃发展成为AI R&D的核心麻省理工学院媒体实验室将人类蓬勃发展成为AI R&D的核心Apr 15, 2025 am 11:26 AM

埃隆大学(Elon University)想象的数字未来中心的最新报告对近300名全球技术专家进行了调查。由此产生的报告“ 2035年成为人类”,得出的结论是,大多数人担心AI系统加深的采用

See all articles

热AI工具

Undresser.AI Undress

Undresser.AI Undress

人工智能驱动的应用程序,用于创建逼真的裸体照片

AI Clothes Remover

AI Clothes Remover

用于从照片中去除衣服的在线人工智能工具。

Undress AI Tool

Undress AI Tool

免费脱衣服图片

Clothoff.io

Clothoff.io

AI脱衣机

AI Hentai Generator

AI Hentai Generator

免费生成ai无尽的。

热门文章

R.E.P.O.能量晶体解释及其做什么(黄色晶体)
4 周前By尊渡假赌尊渡假赌尊渡假赌
R.E.P.O.最佳图形设置
4 周前By尊渡假赌尊渡假赌尊渡假赌
R.E.P.O.如果您听不到任何人,如何修复音频
4 周前By尊渡假赌尊渡假赌尊渡假赌
WWE 2K25:如何解锁Myrise中的所有内容
1 个月前By尊渡假赌尊渡假赌尊渡假赌

热工具

SecLists

SecLists

SecLists是最终安全测试人员的伙伴。它是一个包含各种类型列表的集合,这些列表在安全评估过程中经常使用,都在一个地方。SecLists通过方便地提供安全测试人员可能需要的所有列表,帮助提高安全测试的效率和生产力。列表类型包括用户名、密码、URL、模糊测试有效载荷、敏感数据模式、Web shell等等。测试人员只需将此存储库拉到新的测试机上,他就可以访问到所需的每种类型的列表。

Atom编辑器mac版下载

Atom编辑器mac版下载

最流行的的开源编辑器

DVWA

DVWA

Damn Vulnerable Web App (DVWA) 是一个PHP/MySQL的Web应用程序,非常容易受到攻击。它的主要目标是成为安全专业人员在合法环境中测试自己的技能和工具的辅助工具,帮助Web开发人员更好地理解保护Web应用程序的过程,并帮助教师/学生在课堂环境中教授/学习Web应用程序安全。DVWA的目标是通过简单直接的界面练习一些最常见的Web漏洞,难度各不相同。请注意,该软件中

mPDF

mPDF

mPDF是一个PHP库,可以从UTF-8编码的HTML生成PDF文件。原作者Ian Back编写mPDF以从他的网站上“即时”输出PDF文件,并处理不同的语言。与原始脚本如HTML2FPDF相比,它的速度较慢,并且在使用Unicode字体时生成的文件较大,但支持CSS样式等,并进行了大量增强。支持几乎所有语言,包括RTL(阿拉伯语和希伯来语)和CJK(中日韩)。支持嵌套的块级元素(如P、DIV),

适用于 Eclipse 的 SAP NetWeaver 服务器适配器

适用于 Eclipse 的 SAP NetWeaver 服务器适配器

将Eclipse与SAP NetWeaver应用服务器集成。