吊打90%人类，Meta首个「AI外交模型」登上Science！网友：请把小扎送上法庭

吊打90%人类，Meta首个「AI外交模型」登上Science！网友：请把小扎送上法庭

WBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWB

Apr 14, 2023 pm 05:13 PM

ai外交

几十年来，外交一直被认为是「AI绝不可能接管的工作」。

因为它要求玩家掌握、理解他人的观点以及背后的动机，制定复杂的计划并及时调整，然后应用语言与他人达成合作，最后说服他们建立伙伴关系和联盟等。

对沟通、信任和背叛的关注，使外交与围棋和国际象棋等更注重规则的「游戏」截然不同。

然而Meta的最新研究表明：外交官的活儿，AI也很可能能干了！

在2022年8月至10月进行的线上外交游戏比赛中，CICERO在所有「选手」中高居前10%。它的平均得分为25.8%，是其82名对手平均得分（12.4%）的两倍还多。

更加值得一提的是，在实际的比赛过程中，没有一名玩家——发现是人工智能在打比赛！

如今，这项最新成果也以论文的形式发表在了Science上。

CICERO的推出，必将成为自然语言处理领域的一项重大成就。

因为这预示着人工智能有潜力「更好、更自然地与人类合作」，代表着人类向AGI迈进的一大步。

吊打90%人类，无人发现AI参与

《外交》是一款七人制经典策略游戏，可以说是棋盘游戏Risk、纸牌游戏扑克和电视节目Survivor的结合，由美国著名玩具公司孩之宝（Hasbro）于1950年代开发。

通过对20世纪初欧洲七大国的「角色扮演」，玩家需要与其他选手建立信任、谈判和合作，并尽可能多地占领领土。

为避免因对手的反击而被阻止，玩家会私下交流、讨论潜在的协调行动，然后将他们的行动付诸纸上，遵守或违反对其他参与者的承诺。

这样一款充满欺骗与权术的游戏，也被一些玩家视为失去朋友的理想方式，堪称「友尽赛」！

正如上文所言，与国际象棋和围棋等游戏不同，外交是一种更关乎于「人」而不是「规则」的游戏。

如果模型无法识别某人可能在虚张声势，或者精准识别其他玩家某步棋中的进攻性，它显然会很快输掉比赛。

同样，如果它不像一个真人那样说话，表现出同理心、建立关系、谈论游戏，它就不会找到其他愿意与它一起工作的玩家。

在过去的几十年里，研究人员一直在构建一种自然语言交流能力的「AI外交官」。然而因为这一重大挑战已经远远超出了现有AI的能力范畴，因此从来没有一名研究员成功过。

直到近期CICERO的横空出世，才彻底颠覆了这个事实。

CICERO本质上是一台「聊天机器人」，可以与其他外交玩家沟通，从而在游戏中采取有效行动。

西塞罗则是一名古罗马著名政治家、哲学家、演说家，诞生于公元前106年1月3日，以善于雄辩而闻名于罗马政界。

Meta将在这款AI模型取名于此，意义不言而喻。

2022年8月至10月，CICERO在webDiplomacy组织的线上《外交》比赛中，共参加了40场比赛，在所有参与者中成绩高居前10%；在打了五场或更多比赛的19人中，西塞罗则排名第二。

40场比赛中，CICERO的平均得分为25.8%，是其他82名对手平均得分（12.4%）的两倍还多，并将其战略对话和游戏能力展现得淋漓尽致。

会思考又能表述，如此AI谁能不爱？

CICERO基于一个27亿参数的类BART语言模型，该模型根据来自互联网的文本进行预训练，并使用 webDiplomacy.net上在线玩的4万多场外交游戏的数据集进行了扩充。

这些数据中还包含玩家之间交流时产生的超过1200万条消息。

CICERO的模型主要由两部分组成，分别是「战略推理」和「自然语言处理」。

两项技术的整合使CICERO能够针对玩家的动机进行推理并制定策略，然后使用自然语言进行交流，达成一致以实现共同目标，形成联盟并协调计划，主要体现在「合作」、「谈判」和「协调」三方面。

例如，CICERO可以推断在游戏的后期，它将需要某个特定玩家的支持，然后制定策略来赢得此人的青睐——甚至识别该玩家的风险和机会。

对话感知策略模块能够帮助CICERO预测其他玩家可能采取的行动，以及别的玩家认为CICERO可能采取的行动，给定他们过去的对话和游戏板的状态。

由此，CICERO将根据这些预测为自己和其他参与者制定互惠互利的计划。这些规划不仅能让CICERO找到互利合作的机会，也能帮助它在无法合作的时候找到有效的举措。

CICERO中有一个可控对话模型，它与控制对话生成的战略推理算法相结合。

可控对话模型允许CICERO在一组精心选择的计划中进行对话，通常是对CICERO和其他玩家都有利的计划。

CICERO的对话深深植根于正在进行的游戏中的自由形式对话中生成的。

例如，CICERO可能会与另一位玩家协商战术计划，向盟友保证其意图，讨论游戏中更广泛的战略动态，甚至只是进行随意的闲聊——包括几乎任何人类玩家可能会讨论的内容。

「西塞罗在使用自然语言与外交人员谈判方面非常有效，以至于他们往往更喜欢与西塞罗合作，而不是其他人类参与者。」Meta在自家的Twitter中表示。

Meta AI副总裁兼首席人工智能科学家严乐存则认为，「能够在像外交这样战略极其复杂的游戏中上演人类级别的表现，预示了人类与人工智能合作的巨大潜力」。

虽然CICERO只能玩外交，但这项成就背后的技术却与许多现实世界的应用息息相关，例如通过规划和RL控制自然语言的生成，可以缓解人类与人工智能模型之间的沟通障碍。

例如，今天的人工智能助手只能进行简单的问答，比如告诉你今天的天气等，但如果他们通过长期对话教你一项新技能呢？

亦或者想象一个视频游戏，其中的非玩家角色 (NPC) 可以像人们一样自由计划和交谈——了解你的动机并相应调整对话，从而帮助你完成攻城掠地的任务。

当然，就连Meta自己也承认「CICERO还不够完美」——在游戏的某些重要时刻，CICERO经常会出现十分离谱的错误。

因此，Meta选择将CICERO的代码开源发布，希望借助AI开发者社区的力量进一步完善它。

网友：请把小扎送上法庭！

全球首款与人类同等水平的「AI外交官」的发布，也引发了网友们的热议。

不少网友纷纷表示：

「实在太期待这项研究接下来的发展了。」

「击败人类可以说是最人性化的游戏。这简直太迷人了…」

虽然CICERO初出茅庐，却也有人对这项「AI黑科技」在现实生活中的应用前景进行了展望：

「它能构建一个版本来帮助应对集体行动挑战吗，比如#COP28？」

该网友所言的「COP28」，应该是指第28届联合国气候大会。

在刚刚结束的27届气候大会上，经过持续数天的紧张谈判，各国代表最终同意设立一个基金机制，以补偿因气候变化引发的损失和损害。

此外，CICERO的推出也引发了不少网友的担心，「这将直接激励研究人员建立擅长欺骗的模型」。

「以模仿人类行为的方式欺骗并赢得外交游戏，可爱又有趣。」

「真不知道它还能用来做什么？我们需要警觉此类工具的发展。」

「人工智能很擅长创作艺术等。但现在，它的说服能力被『激活』了。」

「如果你能说服一个人，就能控制他们的选择，从而控制他们的生活。」

「因此最终结局会是——AI通过说服来奴役人类！」

最后，也有不少人逗比的网友调侃道：

「这东西靠谱吗？西塞罗最终可是被砍了头的！」

「请将小扎送到海牙（国际法庭）！」

就在前两天，因为将谎言陈述为事实，由Meta AI推出的大型语言模型Galactica上线仅3天便仓皇下架。如今CICERO的推出，可谓是再一次在AI科技圈掀起了层层波澜。

以上是吊打90%人类，Meta首个「AI外交模型」登上Science！网友：请把小扎送上法庭的详细内容。更多信息请关注PHP中文网其他相关文章！

声明

本文转载于：51CTO.COM。如有侵权，请联系admin@php.cn删除

Gemma范围：Google＆＃039;用于凝视AI的显微镜

Gemma范围：Google＆＃039;用于凝视AI的显微镜Apr 17, 2025 am 11:55 AM

使用Gemma范围探索语言模型的内部工作了解AI语言模型的复杂性是一个重大挑战。 Google发布的Gemma Scope是一种综合工具包，为研究人员提供了一种强大的探索方式

谁是商业智能分析师以及如何成为一位？

谁是商业智能分析师以及如何成为一位？Apr 17, 2025 am 11:44 AM

解锁业务成功：成为商业智能分析师的指南想象一下，将原始数据转换为驱动组织增长的可行见解。这是商业智能（BI）分析师的力量 - 在GU中的关键作用

如何在SQL中添加列？ - 分析Vidhya

如何在SQL中添加列？ - 分析VidhyaApr 17, 2025 am 11:43 AM

SQL的Alter表语句：动态地将列添加到数据库在数据管理中，SQL的适应性至关重要。需要即时调整数据库结构吗？ Alter表语句是您的解决方案。本指南的详细信息添加了Colu

业务分析师与数据分析师

业务分析师与数据分析师Apr 17, 2025 am 11:38 AM

介绍想象一个繁华的办公室，两名专业人员在一个关键项目中合作。业务分析师专注于公司的目标，确定改进领域，并确保与市场趋势保持战略一致。 simu

什么是Excel中的Count和Counta？ - 分析Vidhya

什么是Excel中的Count和Counta？ - 分析VidhyaApr 17, 2025 am 11:34 AM

Excel 数据计数与分析：COUNT 和 COUNTA 函数详解精确的数据计数和分析在 Excel 中至关重要，尤其是在处理大型数据集时。Excel 提供了多种函数来实现此目的，其中 COUNT 和 COUNTA 函数是用于在不同条件下统计单元格数量的关键工具。虽然这两个函数都用于计数单元格，但它们的设计目标却针对不同的数据类型。让我们深入了解 COUNT 和 COUNTA 函数的具体细节，突出它们独特的特性和区别，并学习如何在数据分析中应用它们。要点概述理解 COUNT 和 COU

Chrome在这里与AI：每天都有新事物！

Chrome在这里与AI：每天都有新事物！Apr 17, 2025 am 11:29 AM

Google Chrome的AI Revolution：个性化和高效的浏览体验人工智能（AI）正在迅速改变我们的日常生活，而Google Chrome正在领导网络浏览领域的负责人。本文探讨了兴奋

AI的人类方面：福祉和四人底线

AI的人类方面：福祉和四人底线Apr 17, 2025 am 11:28 AM

重新构想影响：四倍的底线长期以来，对话一直以狭义的AI影响来控制，主要集中在利润的最低点上。但是，更全面的方法认识到BU的相互联系

您应该知道的5个改变游戏规则的量子计算用例

您应该知道的5个改变游戏规则的量子计算用例Apr 17, 2025 am 11:24 AM

事情正稳步发展。投资投入量子服务提供商和初创企业表明，行业了解其意义。而且，越来越多的现实用例正在出现以证明其价值超出

See all articles

热AI工具

Undresser.AI Undress

Undresser.AI Undress

人工智能驱动的应用程序，用于创建逼真的裸体照片

AI Clothes Remover

AI Clothes Remover

用于从照片中去除衣服的在线人工智能工具。

Undress AI Tool

Undress AI Tool

免费脱衣服图片

Clothoff.io

Clothoff.io

AI脱衣机

AI Hentai Generator

AI Hentai Generator

免费生成ai无尽的。

热门文章

R.E.P.O.能量晶体解释及其做什么（黄色晶体）

1 个月前By尊渡假赌尊渡假赌尊渡假赌

R.E.P.O.最佳图形设置

1 个月前By尊渡假赌尊渡假赌尊渡假赌

刺客信条阴影：贝壳谜语解决方案

2 周前ByDDD

R.E.P.O.如果您听不到任何人，如何修复音频

1 个月前By尊渡假赌尊渡假赌尊渡假赌

R.E.P.O.聊天命令以及如何使用它们

1 个月前By尊渡假赌尊渡假赌尊渡假赌

热工具

EditPlus 中文破解版

EditPlus 中文破解版

体积小，语法高亮，不支持代码提示功能

WebStorm Mac版

WebStorm Mac版

好用的JavaScript开发工具

安全考试浏览器

安全考试浏览器

Safe Exam Browser是一个安全的浏览器环境，用于安全地进行在线考试。该软件将任何计算机变成一个安全的工作站。它控制对任何实用工具的访问，并防止学生使用未经授权的资源。

SublimeText3 英文版

SublimeText3 英文版

推荐：为Win版本，支持代码提示！

禅工作室 13.0.1

禅工作室 13.0.1

功能强大的PHP集成开发环境

热门话题

gmail邮箱登陆入口在哪里

7542

15

1381

52

steam的账户名称是什么格式

83

11

win11激活密钥永久

55

19

NYT连接提示和答案

21

87