爭取盟友、洞察人心，最新的Meta智能體是個談判高手-人工智慧-PHP中文網

首頁

科技週邊

人工智慧

爭取盟友、洞察人心，最新的Meta智能體是個談判高手

WBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWB

Apr 11, 2023 pm 11:25 PM

ai智慧體

長期以來，遊戲一直是AI 進步的試驗場——從深藍戰勝國際象棋大師Garry Kasparov，到AlphaGo 對圍棋的精通程度超越人類，再到Pluribus 在撲克比賽中擊敗最厲害的玩家。但真正有用的、全能的智能體不能只完成棋盤遊戲、移動移動棋子。有人不禁會問：我們能否建立一個更有效、更靈活的智能體，使其能夠像人類一樣使用語言進行談判、說服並與人合作，以實現戰略目標?

在遊戲的歷史上，存在著一款經典的桌上遊戲Diplomacy，許多人在第一次看到該遊戲時，都會被它地圖式的棋盤嚇一跳。以為它是一個複雜的戰爭遊戲。其實不然，這是一款需要調動語言爭取盟友的遊戲，遷涉到決策與談判協商，玩者之間有大量的交流，贏得遊戲的關鍵在人與人之間的互動。

現在 Meta 向這一遊戲發起了挑戰，他們構建的智能體 CICERO，成為首個在 Diplomacy 中達到人類水平的 AI。 CICERO 透過在線上版本 webDiplomacy.net 上證明了這一點，其中 CICERO 的平均得分是人類玩家的兩倍多，並且在玩過不止一場遊戲的參與者中排名前 10%。

爭取盟友、洞察人心，最新的Meta智能體是個談判高手

#論文網址：https://www.science.org/doi/10.1126/ science.ade9097
主頁網址：https://ai.facebook.com/research/cicero/diplomacy/

幾十年來，Diplomacy 一直被視為AI 領域中不可逾越的巨大挑戰，因為這款遊戲要求玩家理解他人的動機和觀點，需要製定複雜計劃，調整策略，並在此基礎上使用自然語言與他人達成協議，說服別人結成夥伴關係和聯盟等。這些對智能體來說還是比較困難的，而 CICERO 在使用自然語言與 Diplomacy 玩家進行談判方面還是非常有效的。

與西洋棋和圍棋不同的是，Diplomacy 是一款關於人而不是棋子的遊戲。如果智能體無法辨識對手是在虛張聲勢，還是真正的發起破壞，它就會很快輸掉比賽。同樣，如果智能體不能像人一樣交流，表現出同理心，與別人建立關係，對遊戲侃侃侃談——它就找不到其他願意與它合作的玩家。

爭取盟友、洞察人心，最新的Meta智能體是個談判高手

Meta 的這項研究將策略推理（如AlphaGo、Pluribus）與自然語言處理（例如GPT-3、 BlenderBot 3、LaMDA、 OPT-175B）進行了結合。例如，在遊戲後期，CICERO 推斷它將需要一個特定玩家的支持，然後 CICERO 會制定一個策略來贏得這個人的青睞。

爭取盟友、洞察人心，最新的Meta智能體是個談判高手

如何建構 CICERO

#CICERO 的核心是一個可控的對話模型和一個策略推理引擎。在遊戲的每一點，CICERO 都會查看 game board 及其對話歷史，並對其他玩家可能採取的行動進行建模。然後製定計劃來控制語言模型，將它的計劃告知其他玩家，並為與他們協調良好的其他玩家提出合理的行動建議。

可控對話

#為了建立一個可控對話模型，Meta 從一個具有27 億參數的類BART 語言模型開始，並在來自互聯網的文本上進行了預訓練，還在webDiplomacy.net 上對40000 多個人類遊戲進行了微調。

實作過程主要分為以下步驟：

#Step 1：根據board state 和目前對話，CICERO 對每個人將做出什麼給出初步預測。

爭取盟友、洞察人心，最新的Meta智能體是個談判高手

Step 2：CICERO 迭代地改進初步預測，然後使用改進預測為自己和合作夥伴形成一個意圖。

爭取盟友、洞察人心，最新的Meta智能體是個談判高手

Step 3：根據 board state、對話和意圖產生多個候選訊息。

爭取盟友、洞察人心，最新的Meta智能體是個談判高手

Step 4：過濾候選訊息，最大化值，並確保彼此之間的意圖一致。

爭取盟友、洞察人心，最新的Meta智能體是個談判高手

研究者利用一些過濾機制進一步提高對話質量，例如用訓練過的分類器來區分人類和模型產生的文本以確保——對話是合理的，與當前遊戲狀態和以前的信息一致，並且在戰略上是合理的。

對話意識策略與規劃

#在涉及合作的遊戲中，智能體需要學會模擬人類在現實生活中實際上會做什麼，而不是將人類看作機器，讓智能體指揮他們應該做什麼。因此，Meta 希望 CICERO 制定的計劃與其他參與者的對話保持一致。

爭取盟友、洞察人心，最新的Meta智能體是個談判高手

人類建模的經典方法是監督學習，即用標記的資料（如過去遊戲中人類玩家的行動資料庫）來訓練智能體。然而，純粹依靠監督學習來選擇基於過去對話的行動，會導致智能體相對較弱，而且很容易被利用。例如，一個玩家可以告訴智能體「我很高興我們同意你將把你的部隊從巴黎移走！」由於類似的資訊只有在達成協議時才會出現在訓練資料中，因此智能體可能真的會將其部隊調離巴黎，即使這樣做是一個明顯的戰略失誤。

為了解決這個問題，CICERO 運行一個迭代規劃演算法，以平衡對話的一致性和合理性。智能體首先根據它與其他玩家的對話預測每個人在當前回合的策略，同時也預測其他玩家認為智能體的策略將會是什麼。然後，它將運行名為「piKL」的規劃演算法，該演算法透過嘗試選擇在其他玩家預測的策略下具有更高期望值的新策略，來迭代改進這些預測，同時也嘗試使新的預測接近原始策略預測。研究者發現，與單純的監督學習相比，piKL 能更好地模擬人類遊戲，並為智慧體帶來更好的策略。

爭取盟友、洞察人心，最新的Meta智能體是個談判高手

#產生自然的、目的型的對話

在Diplomacy 中，玩家如何與他人交談甚至比他們如何移動棋子更重要。 CICERO 在與其他玩家製定策略時，能夠清楚、有說服力地溝通。例如，在一個 demo 中，CICERO 要求一個玩家立即在棋盤的某個部分提供支持，同時向另一個玩家施加壓力讓其在遊戲的後期考慮結盟。

爭取盟友、洞察人心，最新的Meta智能體是個談判高手

#在

交流中，CICERO 試圖透過向三個不同的玩家提出行動建議來執行其策略。在第二次對話中，智能體能夠告訴其他玩家為什麼他們應該合作，以及它將如何對雙方有利。在第三次對話中，CICERO 既在徵求訊息，也在為未來的行動打下基礎。

不足

必須承認，CICERO 有時也會產生不一致的對話，從而破壞其目標。在下面的例子中，CICERO 扮演的是奧地利，但智能體要求義大利轉移到威尼斯，與它的第一個訊息相矛盾。

爭取盟友、洞察人心，最新的Meta智能體是個談判高手

讓「Diplomacy」推進人類與AI 互動的沙盒

在一個既涉及合作在又涉及競爭的遊戲中，出現了以目標為導向的對話系統，對於使AI 與人類的意圖和目標一致方面，這提出了重要的社會和技術挑戰。「Diplomacy」為研究這個問題提供了一個特別有趣的環境，因為玩這個遊戲需要與衝突的目標搏鬥，並將這些複雜的目標轉化為自然語言。舉個簡單的例子，玩家可能會選擇在短期利益上做出妥協來維持和一個盟友的關係，因為這個盟友有可能在下一回合幫助他們進入一個更好的位置。

雖然Meta 在這項工作中取得了重大進展，但將語言模型與具體意圖有力地結合起來的能力，以及決定這些意圖的技術（和規範）挑戰仍然是重要的問題。透過開源 CICERO 程式碼，Meta 希望 AI 研究人員能夠以負責任的方式繼續在這項工作基礎上發展。團隊表示：「透過使用對話模型進行零樣本分類，我們已經在這個新領域中邁出了檢測和刪除有害資訊的早期步驟。我們希望「Diplomacy」可以作為一個安全的沙盒來推進人與AI 互動的研究。」