長期以來,遊戲一直是AI 進步的試驗場——從深藍戰勝國際象棋大師Garry Kasparov,到AlphaGo 對圍棋的精通程度超越人類,再到Pluribus 在撲克比賽中擊敗最厲害的玩家。但真正有用的、全能的智能體不能只完成棋盤遊戲、移動移動棋子。有人不禁會問:我們能否建立一個更有效、更靈活的智能體,使其能夠像人類一樣使用語言進行談判、說服並與人合作,以實現戰略目標?
在遊戲的歷史上,存在著一款經典的桌上遊戲Diplomacy,許多人在第一次看到該遊戲時,都會被它地圖式的棋盤嚇一跳。以為它是一個複雜的戰爭遊戲。其實不然,這是一款需要調動語言爭取盟友的遊戲,遷涉到決策與談判協商,玩者之間有大量的交流,贏得遊戲的關鍵在人與人之間的互動。
現在 Meta 向這一遊戲發起了挑戰,他們構建的智能體 CICERO,成為首個在 Diplomacy 中達到人類水平的 AI。 CICERO 透過在線上版本 webDiplomacy.net 上證明了這一點,其中 CICERO 的平均得分是人類玩家的兩倍多,並且在玩過不止一場遊戲的參與者中排名前 10%。
- #論文網址:https://www.science.org/doi/10.1126/ science.ade9097
- 主頁網址:https://ai.facebook.com/research/cicero/diplomacy/
幾十年來,Diplomacy 一直被視為AI 領域中不可逾越的巨大挑戰,因為這款遊戲要求玩家理解他人的動機和觀點,需要製定複雜計劃,調整策略,並在此基礎上使用自然語言與他人達成協議,說服別人結成夥伴關係和聯盟等。這些對智能體來說還是比較困難的,而 CICERO 在使用自然語言與 Diplomacy 玩家進行談判方面還是非常有效的。
與西洋棋和圍棋不同的是,Diplomacy 是一款關於人而不是棋子的遊戲。如果智能體無法辨識對手是在虛張聲勢,還是真正的發起破壞,它就會很快輸掉比賽。同樣,如果智能體不能像人一樣交流,表現出同理心,與別人建立關係,對遊戲侃侃侃談——它就找不到其他願意與它合作的玩家。
Meta 的這項研究將策略推理(如AlphaGo、Pluribus)與自然語言處理( 例如GPT-3、 BlenderBot 3、LaMDA、 OPT-175B)進行了結合。例如,在遊戲後期,CICERO 推斷它將需要一個特定玩家的支持,然後 CICERO 會制定一個策略來贏得這個人的青睞。
如何建構 CICERO
#CICERO 的核心是一個可控的對話模型和一個策略推理引擎。在遊戲的每一點,CICERO 都會查看 game board 及其對話歷史,並對其他玩家可能採取的行動進行建模。然後製定計劃來控制語言模型,將它的計劃告知其他玩家,並為與他們協調良好的其他玩家提出合理的行動建議。
可控對話
#為了建立一個可控對話模型,Meta 從一個具有27 億參數的類BART 語言模型開始,並在來自互聯網的文本上進行了預訓練,還在webDiplomacy.net 上對40000 多個人類遊戲進行了微調。
實作過程主要分為以下步驟:
#Step 1:根據board state 和目前對話,CICERO 對每個人將做出什麼給出初步預測。
Step 2:CICERO 迭代地改進初步預測,然後使用改進預測為自己和合作夥伴形成一個意圖。
Step 3:根據 board state、對話和意圖產生多個候選訊息。
Step 4:過濾候選訊息,最大化值,並確保彼此之間的意圖一致。
研究者利用一些過濾機制進一步提高對話質量,例如用訓練過的分類器來區分人類和模型產生的文本以確保——對話是合理的,與當前遊戲狀態和以前的信息一致,並且在戰略上是合理的。
對話意識策略與規劃
#在涉及合作的遊戲中,智能體需要學會模擬人類在現實生活中實際上會做什麼,而不是將人類看作機器,讓智能體指揮他們應該做什麼。因此,Meta 希望 CICERO 制定的計劃與其他參與者的對話保持一致。
人類建模的經典方法是監督學習,即用標記的資料(如過去遊戲中人類玩家的行動資料庫)來訓練智能體。然而,純粹依靠監督學習來選擇基於過去對話的行動,會導致智能體相對較弱,而且很容易被利用。例如,一個玩家可以告訴智能體「我很高興我們同意你將把你的部隊從巴黎移走!」由於類似的資訊只有在達成協議時才會出現在訓練資料中,因此智能體可能真的會將其部隊調離巴黎,即使這樣做是一個明顯的戰略失誤。
為了解決這個問題,CICERO 運行一個迭代規劃演算法,以平衡對話的一致性和合理性。智能體首先根據它與其他玩家的對話預測每個人在當前回合的策略,同時也預測其他玩家認為智能體的策略將會是什麼。然後,它將運行名為「piKL」的規劃演算法,該演算法透過嘗試選擇在其他玩家預測的策略下具有更高期望值的新策略,來迭代改進這些預測,同時也嘗試使新的預測接近原始策略預測。研究者發現,與單純的監督學習相比,piKL 能更好地模擬人類遊戲,並為智慧體帶來更好的策略。
#產生自然的、目的型的對話
在Diplomacy 中,玩家如何與他人交談甚至比他們如何移動棋子更重要。 CICERO 在與其他玩家製定策略時,能夠清楚、有說服力地溝通。例如,在一個 demo 中,CICERO 要求一個玩家立即在棋盤的某個部分提供支持,同時向另一個玩家施加壓力讓其在遊戲的後期考慮結盟。
交流中,CICERO 試圖透過向三個不同的玩家提出行動建議來執行其策略。在第二次對話中,智能體能夠告訴其他玩家為什麼他們應該合作,以及它將如何對雙方有利。在第三次對話中,CICERO 既在徵求訊息,也在為未來的行動打下基礎。
不足
必須承認,CICERO 有時也會產生不一致的對話,從而破壞其目標。在下面的例子中,CICERO 扮演的是奧地利,但智能體要求義大利轉移到威尼斯,與它的第一個訊息相矛盾。
讓「Diplomacy」推進人類與AI 互動的沙盒
在一個既涉及合作在又涉及競爭的遊戲中,出現了以目標為導向的對話系統,對於使AI 與人類的意圖和目標一致方面,這提出了重要的社會和技術挑戰。 「Diplomacy」為研究這個問題提供了一個特別有趣的環境,因為玩這個遊戲需要與衝突的目標搏鬥,並將這些複雜的目標轉化為自然語言。舉個簡單的例子,玩家可能會選擇在短期利益上做出妥協來維持和一個盟友的關係,因為這個盟友有可能在下一回合幫助他們進入一個更好的位置。
雖然Meta 在這項工作中取得了重大進展,但將語言模型與具體意圖有力地結合起來的能力,以及決定這些意圖的技術(和規範)挑戰仍然是重要的問題。透過開源 CICERO 程式碼,Meta 希望 AI 研究人員能夠以負責任的方式繼續在這項工作基礎上發展。團隊表示:「透過使用對話模型進行零樣本分類,我們已經在這個新領域中邁出了檢測和刪除有害資訊的早期步驟。我們希望「Diplomacy」可以作為一個安全的沙盒來推進人與AI 互動的研究。 」
未來方向
雖然目前 CICERO 只能夠玩 Diplomacy 遊戲,但這項成就背後的技術與許多現實世界的應用有關。例如,透過規劃和 RL 控制自然語言的生成,可以緩解人類和 AI 驅動的智能體之間的溝通障礙。
例如,今天的人工智慧助理擅長回答簡單的問題,例如告訴你天氣,但如果他們能保持長期的對話,以教你一個新技能為目標呢?
另外,想像一個視頻遊戲,其中 NPC 可以像人一樣計劃和交談—理解你的動機並相應地調整對話,幫助你完成攻打城堡的任務。
這些「夢想」,未來或許都能走進現實。
以上是爭取盟友、洞察人心,最新的Meta智能體是個談判高手的詳細內容。更多資訊請關注PHP中文網其他相關文章!

用Microsoft Power BI圖來利用數據可視化的功能 在當今數據驅動的世界中,有效地將復雜信息傳達給非技術觀眾至關重要。 數據可視化橋接此差距,轉換原始數據i

專家系統:深入研究AI的決策能力 想像一下,從醫療診斷到財務計劃,都可以訪問任何事情的專家建議。 這就是人工智能專家系統的力量。 這些系統模仿Pro

首先,很明顯,這種情況正在迅速發生。各種公司都在談論AI目前撰寫的代碼的比例,並且這些代碼的比例正在迅速地增加。已經有很多工作流離失所

從數字營銷到社交媒體的所有創意領域,電影業都站在技術十字路口。隨著人工智能開始重塑視覺講故事的各個方面並改變娛樂的景觀

ISRO的免費AI/ML在線課程:通向地理空間技術創新的門戶 印度太空研究組織(ISRO)通過其印度遙感研究所(IIR)為學生和專業人士提供了絕佳的機會

本地搜索算法:綜合指南 規劃大規模活動需要有效的工作量分佈。 當傳統方法失敗時,本地搜索算法提供了強大的解決方案。 本文探討了爬山和模擬

該版本包括三種不同的型號,GPT-4.1,GPT-4.1 MINI和GPT-4.1 NANO,標誌著向大語言模型景觀內的特定任務優化邁進。這些模型並未立即替換諸如

Chip Giant Nvidia週一表示,它將開始製造AI超級計算機(可以處理大量數據並運行複雜算法的機器),完全是在美國首次在美國境內。這一消息是在特朗普總統SI之後發布的


熱AI工具

Undresser.AI Undress
人工智慧驅動的應用程序,用於創建逼真的裸體照片

AI Clothes Remover
用於從照片中去除衣服的線上人工智慧工具。

Undress AI Tool
免費脫衣圖片

Clothoff.io
AI脫衣器

AI Hentai Generator
免費產生 AI 無盡。

熱門文章

熱工具

VSCode Windows 64位元 下載
微軟推出的免費、功能強大的一款IDE編輯器

DVWA
Damn Vulnerable Web App (DVWA) 是一個PHP/MySQL的Web應用程序,非常容易受到攻擊。它的主要目標是成為安全專業人員在合法環境中測試自己的技能和工具的輔助工具,幫助Web開發人員更好地理解保護網路應用程式的過程,並幫助教師/學生在課堂環境中教授/學習Web應用程式安全性。 DVWA的目標是透過簡單直接的介面練習一些最常見的Web漏洞,難度各不相同。請注意,該軟體中

SublimeText3 Linux新版
SublimeText3 Linux最新版

Dreamweaver CS6
視覺化網頁開發工具

MantisBT
Mantis是一個易於部署的基於Web的缺陷追蹤工具,用於幫助產品缺陷追蹤。它需要PHP、MySQL和一個Web伺服器。請查看我們的演示和託管服務。