吊打90%人類，Meta首個「AI外交模型」登上Science！網友：請把小扎送上法庭-人工智慧-PHP中文網

首頁

科技週邊

人工智慧

吊打90%人類，Meta首個「AI外交模型」登上Science！網友：請把小扎送上法庭

WBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWB

Apr 14, 2023 pm 05:13 PM

ai外交

幾十年來，外交一直被認為是「AI絕不可能接管的工作」。

因為它要求玩家掌握、理解他人的觀點以及背後的動機，制定複雜的計劃並及時調整，然後應用語言與他人達成合作，最後說服他們建立夥伴關係和聯盟等。

對溝通、」信任背叛的關注，使外交與圍棋和西洋棋等更注重規則的「遊戲」截然不同。

然而Meta的最新研究顯示：外交官的活兒，AI也很可能能幹了！

在2022年8月至10月進行的線上外交遊戲比賽中，CICERO #在所有「選手」中高居前10%。它的平均得分為25.8%，是其82名對手平均得分（12.4%）的#兩倍還多。

更值得一提的是，在實際的比賽過程中，沒有一個玩家－發現是人工智慧在打比賽！

如今，這項最新成果也以論文的形式發表在了Science#上。

吊打90%人類，Meta首個「AI外交模型」登上Science！網友：請把小扎送上法庭

CICERO的推出，必將成為自然語言處理領域的重大成就。

因為這預示著人工智慧有潛力「更好、更自然地與人類合作」，代表著人類向AGI邁進的一大步。

吊打90%人類，無人發現AI參與

《外交》是一款七人制經典策略遊戲，可以說是棋盤遊戲Risk、紙牌遊戲撲克和電視節目Survivor的結合，由美國著名玩具公司孩之寶（Hasbro）於1950年代開發。

透過對20世紀初歐洲七大國的「角色扮演」，玩家需要與其他選手建立信任、談判和合作，並盡可能佔領領土。

為避免因對手的反擊而被阻止，玩家會私下交流、討論潛在的協調行動，然後將他們的行動付諸紙上，遵守或違反對其他參與者的承諾。

這樣一款充滿欺騙與權術的遊戲，也被一些玩家視為失去朋友的理想方式，堪稱「友盡賽」！

如上文所言，與西洋棋和圍棋等遊戲不同，外交是一種更關乎於「人」而不是「規則」的遊戲。

如果模型無法辨識某人可能在虛張聲勢，或精準辨識其他玩家某步棋中的進攻性，它顯然會很快輸掉比賽。

同樣，如果它不像一個真人那樣說話，表現出同理心、建立關係、談論遊戲，它就不會找到其他願意與它一起工作的玩家。

在過去的幾十年裡，研究人員一直在建構一種自然語言溝通能力的「AI外交官」。然而因為這項重大挑戰已經遠遠超出了現有AI的能力範疇，因此從來沒有一位研究員成功過。

直到近期CICERO的橫空出世，才徹底顛覆了這個事實。

吊打90%人類，Meta首個「AI外交模型」登上Science！網友：請把小扎送上法庭

CICERO本質上是一台「聊天機器人」，可以與其他外交玩家溝通，從而在遊戲中採取有效行動。

西塞羅則是古羅馬著名政治家、哲學家、演說家，誕生於西元前106年1月3日，以善於雄辯而聞名於羅馬政界。

Meta將在這款AI模型取名於此，意義不言而喻。

2022年8月至10月，CICERO在webDiplomacy組織的線上《外交》比賽中，共參加了40場比賽，在所有參與者中成績高居前10% ；在打了五場或更多比賽的19人中，西塞羅則排名第二。

40場比賽中，CICERO的平均得分為25.8%，是其他82名對手平均得分（12.4%）的兩倍還多，並將其戰略對話和遊戲能力展現得淋漓盡致。

會思考又能表達，如此AI誰能不愛？

CICERO基於一個27億參數的類BART語言模型，該模型根據來自互聯網的文本進行預訓練，並使用webDiplomacy.net上在線玩的4萬多場外交遊戲的數據集進行了擴充。

這些資料中也包含玩家之間交流時產生的超過1200萬個訊息。

CICERO的模型主要由兩部分組成，分別是「策略推理」#和「自然語言處理”。

兩項技術的整合使CICERO能夠針對玩家的動機進行推理並製定策略，然後使用自然語言進行交流，達成一致以實現共同目標，形成聯盟並協調計劃，主要體現在「合作」、「談判」和「協調」

#三方面。

例如，CICERO可以推斷在遊戲的後期，它將需要某個特定玩家的支持，然後製定策略來贏得此人的青睞——甚至識別該玩家的風險和機會。

對話感知策略模組能夠幫助CICERO預測其他玩家可能採取的行動，以及別的玩家認為CICERO可能採取的行動，給定他們過去的對話和遊戲板的狀態。

由此，CICERO將根據這些預測為自己和其他參與者制定互惠互利的計畫。這些規劃不僅能讓CICERO找到互利合作的機會，也能幫助它在無法合作的時候找到有效的措施。

CICERO中有一個可控對話模型，它與控制對話產生的策略推理演算法結合。

吊打90%人類，Meta首個「AI外交模型」登上Science！網友：請把小扎送上法庭

可控對話模型允許CICERO在一組精心挑選的計畫中進行對話，通常是對CICERO和其他玩家都有利的計畫。

CICERO的對話深深植根於正在進行的遊戲中的自由形式對話中所產生的。

例如，CICERO可能會與另一位玩家協商戰術計劃，向盟友保證其意圖，討論遊戲中更廣泛的戰略動態，甚至只是進行隨意的閒聊——包括幾乎任何人類玩家可能會討論的內容。

吊打90%人類，Meta首個「AI外交模型」登上Science！網友：請把小扎送上法庭

「西塞羅在使用自然語言與外交人員談判方面非常有效，以至於他們往往更喜歡與西塞羅合作，而不是其他人類參與者。」Meta在自家的Twitter中表示。 ######

Meta AI副總裁兼首席人工智慧科學家嚴樂存則認為，「能夠在像外交這樣戰略極其複雜的遊戲中上演人類級別的表現，預示了人類與人工智慧合作的巨大潛力」。

雖然CICERO只能玩外交，但這項成就背後的技術卻與許多現實世界的應用息息相關，例如透過規劃和RL控制自然語言的生成，可以緩解人類與人工智慧模型之間的溝通障礙。

例如，今天的人工智慧助理只能進行簡單的問答，例如告訴你今天的天氣等，但如果他們透過長期對話教你一項新技能呢？

也或想像一個電玩遊戲，其中的非玩家角色(NPC) 可以像人們一樣自由地規劃和交談－了解你的動機並相應調整對話，從而幫助你完成攻城掠地的任務。

當然，就連Meta自己也承認「CICERO還不夠完美」──在遊戲的某些重要時刻，CICERO常常會出現十分離譜的錯誤。

因此，Meta選擇將CICERO的程式碼開源發布，希望藉助AI開發者社群的力量進一步完善它。

網友：請把小札送上法庭！

全球首款與人類同等程度的「AI外交官」的發布，也引發了網友們的熱議。

不少網友紛紛表示：

「實在太期待這項研究接下來的發展了。」

#「打敗人類可以說是最人性化的遊戲。這簡直太迷人了…」

吊打90%人類，Meta首個「AI外交模型」登上Science！網友：請把小扎送上法庭

雖然CICERO初出茅廬，卻也有人對這項「AI黑科技」在現實生活中的應用前景進行了展望：

吊打90%人類，Meta首個「AI外交模型」登上Science！網友：請把小扎送上法庭

「它能建構一個版本來幫助應對集體行動挑戰嗎，例如#COP28？」

#該網友所言的「COP28」，應該是指第28屆聯合國氣候大會。

吊打90%人類，Meta首個「AI外交模型」登上Science！網友：請把小扎送上法庭

在剛結束的27屆氣候大會上，經過持續數天的緊張談判，各國代表最終同意設立一個基金機制，以補償因氣候變遷引發的損失和損害。

此外，CICERO的推出也引發了不少網友的擔心，「這將直接激勵研究人員建立擅長欺騙的模式」。

「以模仿人類行為的方式欺騙並贏得外交遊戲，可愛又有趣。」

########################################################### #「真不知道它還能用來做什麼？我們需要警覺這類工具的發展。」#####################「人工智慧很擅長創作藝術等。但現在，它的說服能力被『激活』了。」############「如果你能說服一個人，就能控制他們的選擇，從而控制他們的生活。」############「因此最終結局會是－AI透過說服來奴役人類！」######

吊打90%人類，Meta首個「AI外交模型」登上Science！網友：請把小扎送上法庭

最後，也有不少人逗比的網友調侃道：

「這東西可靠嗎？西塞羅最後可是被砍了頭的！」

「請將小扎送到海牙（國際法庭）！」

吊打90%人類，Meta首個「AI外交模型」登上Science！網友：請把小扎送上法庭

#就在前兩天，因為將謊言陳述為事實，由Meta AI推出的大型語言模型Galactica上線僅3天便倉皇下架。如今CICERO的推出，可謂再一次在AI科技圈掀起了層層波瀾。 ######

以上是吊打90%人類，Meta首個「AI外交模型」登上Science！網友：請把小扎送上法庭的詳細內容。更多資訊請關注PHP中文網其他相關文章！

陳述

本文轉載於：51CTO.COM。如有侵權，請聯絡admin@php.cn刪除

及時工程中的思想圖是什麼Apr 13, 2025 am 11:53 AM

介紹在迅速的工程中，“思想圖”是指使用圖理論來構建和指導AI的推理過程的新方法。與通常涉及線性S的傳統方法不同

優化您的組織與Genai代理商的電子郵件營銷Apr 13, 2025 am 11:44 AM

介紹恭喜！您經營一家成功的業務。通過您的網頁，社交媒體活動，網絡研討會，會議，免費資源和其他來源，您每天收集5000個電子郵件ID。下一個明顯的步驟是

Apache Pinot實時應用程序性能監視Apr 13, 2025 am 11:40 AM

介紹在當今快節奏的軟件開發環境中，確保最佳應用程序性能至關重要。監視實時指標，例如響應時間，錯誤率和資源利用率可以幫助MAIN

Chatgpt擊中了10億用戶？ Openai首席執行官說：'短短幾週內翻了一番Apr 13, 2025 am 11:23 AM

“您有幾個用戶？”他扮演。阿爾特曼回答說：“我認為我們上次說的是每週5億個活躍者，而且它正在迅速增長。” “你告訴我，就像在短短幾週內翻了一番，”安德森繼續說道。 “我說那個私人

pixtral -12b：Mistral AI＆＃039;第一個多模型模型 - 分析VidhyaApr 13, 2025 am 11:20 AM

介紹 Mistral發布了其第一個多模式模型，即Pixtral-12b-2409。該模型建立在Mistral的120億參數Nemo 12B之上。是什麼設置了該模型？現在可以拍攝圖像和Tex

生成AI應用的代理框架 - 分析VidhyaApr 13, 2025 am 11:13 AM

想像一下，擁有一個由AI驅動的助手，不僅可以響應您的查詢，還可以自主收集信息，執行任務甚至處理多種類型的數據（TEXT，圖像和代碼）。聽起來有未來派？在這個a

生成AI在金融部門的應用Apr 13, 2025 am 11:12 AM

介紹金融業是任何國家發展的基石，因為它通過促進有效的交易和信貸可用性來推動經濟增長。交易的便利和信貸

在線學習和被動攻擊算法指南Apr 13, 2025 am 11:09 AM

介紹數據是從社交媒體，金融交易和電子商務平台等來源的前所未有的速度生成的。處理這種連續的信息流是一個挑戰，但它提供了

See all articles

熱AI工具

Undresser.AI Undress

人工智慧驅動的應用程序，用於創建逼真的裸體照片

AI Clothes Remover

用於從照片中去除衣服的線上人工智慧工具。

Undress AI Tool

免費脫衣圖片

Clothoff.io

AI脫衣器

AI Hentai Generator

免費產生 AI 無盡。

熱工具

SAP NetWeaver Server Adapter for Eclipse

將Eclipse與SAP NetWeaver應用伺服器整合。

禪工作室 13.0.1

強大的PHP整合開發環境

SecLists

SecLists是最終安全測試人員的伙伴。它是一個包含各種類型清單的集合，這些清單在安全評估過程中經常使用，而且都在一個地方。 SecLists透過方便地提供安全測試人員可能需要的所有列表，幫助提高安全測試的效率和生產力。清單類型包括使用者名稱、密碼、URL、模糊測試有效載荷、敏感資料模式、Web shell等等。測試人員只需將此儲存庫拉到新的測試機上，他就可以存取所需的每種類型的清單。