首頁  >  文章  >  科技週邊  >  爆火論文打造《西方世界》雛形:25個AI智能體,在虛擬小鎮自由成長

爆火論文打造《西方世界》雛形:25個AI智能體,在虛擬小鎮自由成長

WBOY
WBOY轉載
2023-04-12 09:04:14821瀏覽

我們能否創造一個世界?在那個世界裡,機器人能夠像人類一樣生活、工作、社交,去復刻人類社會的各個層面。

這個想像,曾在影視作品《西方世界》的設定中被完美地還原出來:眾多預裝了故事情節的機器人被投放到一個主題樂園內,它們可以像人類一樣行事,記得自己看到的東西、遇見的人、說過的話。每天,機器人都會被重置,回到它們的核心故事情節。

爆火論文打造《西方世界》雛形:25個AI智能體,在虛擬小鎮自由成長

《西方世界》劇照,左邊人物為預先安裝了故事情節的機器人。

再把想像力擴張一下:放在今天,如果我們想把ChatGPT 這樣的大語言模型變成西方世界的主人,又會怎麼做?

在最近爆火的一篇論文中,研究者們成功地建構了一個「虛擬小鎮」,25 個AI 智能體在小鎮上生存,它們不僅能夠從事複雜的行為(例如舉辦情人節派對),而這些行為比人類角色的扮演更真實。

  • 論文連結:https://arxiv.org/pdf/2304.03442v1.pdf
  • Demo 網址:https://reverie.herokuapp.com/arXiv_Demo/

#從《模擬市民》這樣的沙盒遊戲到認知模型、虛擬環境等應用,四十多年來,研究者們一直設想去創造能夠實現可信人類行為的智能體。在這些設想中,由計算驅動的智能體的行為會與其過往經驗一致,並對環境做出可信的反應。這種人類行為的模擬可以用現實社會現象填充虛擬空間和社區,訓練「人們」去處理罕見但困難的人際關係、測試社會科學理論、製作理論和可用性測試的人類處理器模型、提供泛在計算應用和社交機器人動力,也能為在開放世界(Open World)中駕馭複雜人類關係的NPC 角色奠定基礎。

但人類行為的空間是巨大而複雜的。儘管在大型語言模型可以模擬單一時間點上的可信人類行為,但要確保長期一致性,通用智能體需要一個架構來管理不斷增長的記憶,因為新的互動、衝突和事件隨著時間推移而出現和消退,同時也要處理多個智能體之間展開的級聯社會動態。

如果一種方法能夠在很長一段時間內檢索相關的事件和互動,對這些記憶進行反思,並歸納和得出更高層次的推論,並應用這種推理來創造對當下和長期智能體行為有意義的計劃和反應,那麼距離夢想實現就不遠了。

這篇新論文介紹了「Generative Agents」(生成式智能體),一種利用生成模型來模擬可信人類行為的智能體,並證明它們能產生可信的個人和突發群體行為的模擬:

  • 能夠對自己、其他智能體和環境進行廣泛的推論;
  • #能夠創建反映自身特點和經驗的日常計劃,執行這些計劃,做出反應,並在適當的時候重新計劃;
  • 能夠在終端用戶改變環境或用自然語言命令它們時做出反應。

爆火論文打造《西方世界》雛形:25個AI智能體,在虛擬小鎮自由成長

「Generative Agents」背後是一個新的智能體架構,能夠儲存、合成和應用相關的記憶,使用大型語言模型生成可信賴的行為。

舉個例子,「Generative Agents」如果看到它們的早餐正在燃燒,會關掉爐子;如果浴室有人,會在外面等待;如果遇到想交談的另一個智能體,會停下來聊天。一個充滿「Generative Agents」的社會是以新興的社會動態為標誌的,在這個社會中,新的關係被形成,訊息被擴散,並在智能體之間產生協調。

具體而言,研究者在這篇論文中發表了幾點重要細節: 

  • Generative Agents,是對人類行為的可信模擬,它以智能體不斷變化的經驗和環境為條件進行動態調整;
  • #一個新穎的架構,使Generative Agents 有可能記住、檢索、反思、與其他智能體互動,並透過動態演變的環境進行規劃。該架構利用了大型語言模型的強大prompt 能力,並對這些能力進行了補充,以支持智能體的長期一致性、管理動態演變的記憶能力,以及遞歸地產生更多的世代;
  • 兩項評估(對照評估和端到端評估),確定架構各組成部分的重要性的因果關係,以及確定因記憶檢索不當等原因而產生的故障;
  • #討論了互動系統中Generative Agents 的機會和倫理及社會風險。研究者認為應該對這些智能體進行調整,減輕使用者形成寄生社會關係的風險,對其進行記錄以減輕由deepfake 和定制說服所帶來的風險,並在設計過程中以補充而非取代人類利益相關者的方式進行應用。

文章一經發布,就引起了全網的熱議。本來就看好「AutoGPT」方向的Karpathy 連連讚歎,認為「Generative Agents」比之前玩概念的「Open World」高了不是一點半點:

爆火論文打造《西方世界》雛形:25個AI智能體,在虛擬小鎮自由成長

更有研究者斷言,這項研究的發布,意味著「大型語言模型實現了新的里程碑式進展」:

「Generative Agents」行為及其交互作用

為了讓「Generative Agents」更加具體化,該研究將它們實例化為沙盒世界中的角色。

25 個智能體居住在名為 Smallville 的小鎮,每個智能體由一個簡單的化身表示。所有的角色都可以:

  • 與別人和環境交流;
  • 記住並回憶它們所做的和觀察到的事情;
  • 反思這些觀察;
  • #制定每天的計畫。

爆火論文打造《西方世界》雛形:25個AI智能體,在虛擬小鎮自由成長

研究者用自然語言描述了每個智能體的身份,包括它們的職業以及與其他智能體的關係,並將這些資訊作為種子記憶。舉例來說,智能體John Lin 有以下描述(本文截取了一段):

「John Lin 是藥妝店店主,他樂於助人。他一直在尋找讓客戶更容易取得藥物的方法。John Lin 的妻子是大學教授Mei Lin ,它們和學習音樂理論的兒子Eddy Lin 住在一起;John Lin 非常愛它的家人;John Lin 認識隔壁的老夫婦Sam Moore 和Jennifer Moore 好幾年了…」

身份設定好之後,接著就是智能體如何與世界互動了。

在沙盒的每個step 內,智能體都會輸出一個自然語言語句,以描述它們當前的動作,例如語句「Isabella Rodriguez 正在寫日記」、「Isabella Rodriguez正在查看郵件”等。然後這些自然語言被轉化為影響沙盒世界的具體動作。動作以一組表情符號的形式顯示在沙盒介面上,這些表情符號提供了動作的抽象表徵。

為了實現這一點,該研究採用了一種語言模型,可以將動作轉換為一組表情符號,這些表情符號出現在每個智能體化身上方的對話框中。例如,「Isabella Rodriguez 正在寫日記」顯示為 ,「Isabella Rodriguez 正在查看郵件」顯示為 。 除此以外,透過點擊智能體頭像可以存取完整的自然語言描述。

智能體之間用自然語言進行交流,假如智能體意識到在其周圍有其他智能體,它們會思考要不要走過去進行聊天。例如Isabella Rodriguez 和Tom Moreno 就即將到來的選舉進行了對話:

爆火論文打造《西方世界》雛形:25個AI智能體,在虛擬小鎮自由成長

#除此以外,用戶還可以指定智能體扮演什麼角色,例如,指定其中一個智能體為記者,你就可以向該智能體諮詢新聞方面的內容。

智能體與環境的互動

Smallville 小鎮有許​​多公共場景,包括咖啡館、酒吧、公園、學校、宿舍、房屋和商店。此外,每個公共場景還包括自身俱有的功能以及對象,例如房子中有廚房、廚房中有爐子 (圖 2)。在智能體的生活空間中還有床、桌子、衣櫃、架子,以及浴室和廚房。

爆火論文打造《西方世界》雛形:25個AI智能體,在虛擬小鎮自由成長

智能體可以在 Smallville 內隨處走動,進入或離開一座建築,導航前行,甚至去接近另一個智能體。智能體的移動由 Generative Agents 的架構和沙盒遊戲引擎控制:當模型指示智能體移動到某個位置時,研究會計算其在 Smallville 環境中到達目的地的步行路徑,然後智能體開始移動。

此外,使用者和智能體還可以影響該環境下其他物體的狀態,例如,當智能體睡覺時床是被佔用的,當智能體用完早餐冰箱可能是空的。最終用戶還可以透過自然語言重寫智能體環境。例如使用者在 Isabella 進入浴室時將淋浴器狀態設為漏水,之後 Isabella 會從客廳找到工具並嘗試修復漏水問題。

智能體一天的生活

從一段描述開始,智能體開始規劃一天的生活。隨著時間在沙盒世界中的流逝,智能體的行為隨著彼此之間的互動以及與世界的互動、自身建立的記憶等逐漸改變。下圖為藥局店主 John Lin 一天的行為。

爆火論文打造《西方世界》雛形:25個AI智能體,在虛擬小鎮自由成長

在這個家庭中,John Lin 早上七點第一個起床,然後刷牙、洗澡、穿衣服、吃早餐,接著在客廳的餐桌旁瀏覽新聞。早上 8 點,John Lin 的兒子 Eddy 也跟著起床準備上課。他臨出門時和John 進行對話,內容為:

爆火論文打造《西方世界》雛形:25個AI智能體,在虛擬小鎮自由成長

#Eddy 出發後不久,他的媽媽Mei 也醒了過來,Mei 問起兒子,John 回想起它們剛剛的對話,然後有了下面對話

爆火論文打造《西方世界》雛形:25個AI智能體,在虛擬小鎮自由成長

社交能力

除此之外,「Generative Agents」也表現出社會行為的湧現。透過相互交互,「Generative Agents」在 Smallville 環境下交換訊息,形成新的關係。這些社會行為是自然產生的,而不是預先設定好的。例如當智能體注意到對方的存在時,可能會進行一場對話,對話訊息可以在智能體之間傳播。

讓我們來看幾個例子:

#訊息傳播。當智能體注意到對方,它們可能會進行對話。當這樣做時,訊息可以從智能體傳播到另一個智能體。例如,在Sam 和Tom 在雜貨店的對話中,Sam 告訴了Tom 他在當地選舉中的候選資格:

爆火論文打造《西方世界》雛形:25個AI智能體,在虛擬小鎮自由成長

爆火論文打造《西方世界》雛形:25個AI智能體,在虛擬小鎮自由成長

當天晚些時候,在Sam 離開後,從另一個管道聽到消息的Tom 和John 討論了Sam 贏得選舉的機會:

爆火論文打造《西方世界》雛形:25個AI智能體,在虛擬小鎮自由成長

漸漸地,Sam 的候選資格成為了鎮上的話題,有人支持他,也有人猶豫不決。

關係記憶。隨著時間的推移,小鎮上的智能體形成了新的關係,並記住了它們與其他智能體的互動。例如,Sam 一開始並不認識拉 Latoya Williams。在約翰遜公園散步時,Sam 碰到了Latoya,互相做了自我介紹,Latoya 提到自己正在進行一個攝影項目:「我在這裡為正在進行的一個項目拍攝照片。」在後來的互動中,Sam 與Latoya的互動顯示了對這件事的記憶,Sam 問道:「Latoya,你的專案進展如何?」Latoya 回答:「進展得很好!」

##協調能力。 Isabella Rodriguez 經營一家 Hobbs 咖啡館,打算在 2 月 14 日下午 5 點到 7 點舉辦一場情人節派對。從這個種子開始,當 Isabella Rodriguez 在 Hobbs 咖啡館或其他地方遇到朋友和顧客時,就會發出邀請。 13 日下午,Isabella 開始裝飾咖啡館。 Isabella 的常客和密友 Maria 來到咖啡館。 Isabella 請求 Maria 幫忙佈置派對,Maria 同意了。 Maria 的角色描述是牠喜歡 Klaus。那天晚上,Maria 邀請它的暗戀對象 Klaus 一起參加派對,Klaus 欣然接受。

情人節當天,包括 Klaus 和 Maria 在內的五名智能體在下午 5 點出現在 Hobbs 咖啡館,它們享受著慶祝活動(圖 4)。在這個場景中,終端用戶只設定了 Isabella 舉辦派對的初始意圖和 Maria 對 Klaus 的迷戀:傳播信息、裝飾、約對方、到達派對以及在派對上互動的社交行為 ,由智能體架構發起。

爆火論文打造《西方世界》雛形:25個AI智能體,在虛擬小鎮自由成長

架構

Generative Agents 需要一個框架來引導其在開放世界中的行為,旨在讓Generative Agents 能夠與其他智能體進行互動並對環境變化做出反應。

Generative Agents 將其當前環境和過去的經驗作為輸入,產生行為作為輸出。 Generative Agents 的架構將大型語言模型和合成與檢索相關資訊的機制結合在一起,以調節語言模型的輸出。

如果沒有合成與檢索機制,大型語言模型可以輸出行為,但Generative Agents 可能不會根據智能體過去的經驗做出反應,以至於無法做出重要的推理,也可能無法維持長期的連貫性。即使使用當前表現最好的模型(例如 GPT-4),長期規劃和連貫性方面的挑戰仍然存在 。

由於Generative Agents 會產生大量必須保留的事件和記憶流(memory stream),因此其架構的核心挑戰是確保在需要時檢索和合成智能體記憶中最相關的部分。

爆火論文打造《西方世界》雛形:25個AI智能體,在虛擬小鎮自由成長#

Generative Agents 的架構中心是記憶流 —— 一個全面記錄智能體經驗的資料庫。智能體會從記憶流中檢索相關記錄,以規劃智能體的動作行為並對環境做出適當反應,並且每次行為都會被記錄以遞歸合成更高級別的行為指導。 Generative Agents 架構中所有的內容都被記錄下來並以自然語言描述的形式來進行推理,使智能體能夠利用大型語言模型的推理功能。

目前,研究實作了使用 ChatGPT 的 gpt3.5-turbo 版本。研究團隊預計 Generative Agents 的架構基礎 —— 記憶、規劃和反思 —— 可能會保持不變。較新的語言模型(例如 GPT-4)具有更好的表達能力和效能,這會進一步擴展 Generative Agents。

記憶與檢索

Generative Agents 的架構實現了一個檢索功能,該功能將智能體的當前情況作為輸入並返回記憶流的子集以傳遞給語言模型。檢索功能有多種可能的實現方式,取決於智能體在決定如何行動時所考慮的重要因素。

反思

該研究也引入了第二種類型的記憶,稱為「反思」。反思是由智能體生成的更高層次、更抽象的想法。反思是週期性產生的,在該研究中,只有當智能體對最近事件的重要性分數總和超過某個閾值,智能體才會開始反思。

爆火論文打造《西方世界》雛形:25個AI智能體,在虛擬小鎮自由成長

#實際上,該研究提出的 Generative Agents 每天大約反思兩到三次。反思的第一步是讓智能體確定要反思的內容,方法是根據智能體最近的經驗來確定可以提出的問題。

規劃與反應

規劃被用來描述智能體未來行動的順序,並幫助智能體隨著時間的推移維持行為一致。規劃應該包含地點、開始時間和持續時間。

為了創建合理的規劃,Generative Agents 會從上而下遞歸地產生更多細節。第一步是製定一個計劃,粗略地概述當天的「日程」。為了創建初始規劃,該研究向語言模型 prompt 智能體的總體描述(例如,姓名、特徵和它們最近經歷的摘要等等)。

在執行規劃的過程中,Generative Agents 會感知周圍環境,感知到的觀察結果會儲存在它們的記憶流中。該研究用這些觀察 prompt 語言模型來決定智能體是否應該繼續它們的現有規劃,還是做出其他反應。

實驗及評估

該研究對Generative Agents 進行了兩項評估:一項是控制評估,以測試智能體是否能獨立地產生可信的個體行為;另一項是端到端評估,其中多個Generative Agents 在兩天的遊戲時間內開放式交互,這是為了了解智能體的穩定性和湧現(emergent)社會行為。

例如,伊莎貝拉計畫舉辦情人節派對。她傳播了這個訊息,在模擬結束時,12 個角色已經知道了這件事。其中 7 個人「猶豫不決」——3 個人已有其他計劃,4 個人沒有表露想法,這和人類的相處一樣。

爆火論文打造《西方世界》雛形:25個AI智能體,在虛擬小鎮自由成長

在技術評估層面,研究透過以自然語言「訪談」智能體,來評估智能體維持「性格」、記憶、規劃、反應和準確反思的能力,並進行了消融實驗。實驗結果表明,這些組成部分中的每一個對於智能體在任務中的出色表現都至關重要。

爆火論文打造《西方世界》雛形:25個AI智能體,在虛擬小鎮自由成長

#

在實驗評估中,智能體出現的最常見錯誤包括:

  • #其未能檢索相關記憶;

####################################### ####對智能體記憶進行捏造修飾;############從語言模型中「繼承」過於正式的言語或行為。 ###############有興趣的讀者可以閱讀論文原文,了解更多研究細節。 ######

以上是爆火論文打造《西方世界》雛形:25個AI智能體,在虛擬小鎮自由成長的詳細內容。更多資訊請關注PHP中文網其他相關文章!

陳述:
本文轉載於:51cto.com。如有侵權,請聯絡admin@php.cn刪除