#資訊革命產生了數位世界,數字世界為大模型的誕生提供了數據,也最容易實現通用人工智慧(AGI)。
向數位世界AGI 邁進,北京智源人工智慧研究院、新加坡南洋理工大學、北京大學攜手提出通用電腦控制General Computer Control (GCC) ,即智能體需要像人一樣看螢幕,透過鍵盤、滑鼠完成電腦上的所有任務。 在過去很長一段時間裡,人工智慧研究以遊戲為場景,而GCC 將為通用人工智慧研究提供場景,也將進一步促進大模型和AI Agents 的落地與產業化。 為此,研究團隊提出通用電腦控制智能體框架Cradle,使智能體不依賴任何內部API 直接控制鍵盤、滑鼠和任何軟體交互,無論開源或閉源,甚至能玩《荒野大鏢客2》這樣的商業3A 遊戲大作!
- 論文標題:Towards General Computer Control: A Multimodal Agent for Red Dead Redemption II as a Case Study
- #論文連結:https://arxiv.org/abs/2403.03186
- 專案首頁:https://baai-agents.github.io/Cradle/
- #程式碼連結:https://github.com/BAAI-Agents/Cradle
隨著大模型的發展,越來越多的智能體(AI Agents)研究關注電腦控制,包括瀏覽網頁、操作智慧型手機、玩遊戲等。然而,已有研究依賴內部 API 取得輸入,並輸出預先定義好的動作。要建構能完成電腦上一切任務的通用智能體,必須使用最通用和最標準的輸入輸出與電腦互動。因此,通用電腦控制使用統一的輸入和輸出,從而讓智慧體的通用性變為可能。 但通用性帶來了操作上的難度:(1)使用電腦螢幕作為輸入對智能體的視訊理解能力提出了更高的要求,例如由於沒有內部API,需要透過視覺資訊判斷動作是否執行成功;(2)使用鍵盤和滑鼠操作作為輸出使得智能體需要更高的時空操作精確度,例如鍵盤按鍵和滑鼠點擊通常額外涉及時間維度。如何解決這些難題是建構通用電腦控制智能體 (GCC Agents) 的挑戰!
#「電腦指任何以使用者為中心的計算設備,包括PC、智慧型手機和平板電腦等。儘管Cradle 著重於鍵盤和滑鼠操作,但可以輕鬆擴展到控製手柄和觸控螢幕等」##通用電腦控制智能體架構Cradle 主要由6 個模組組成:資訊收集、自我反思、任務推論、技能管理、行動計畫、記憶模組。 Cradle 高度的通用性來自於其對和電腦互動過程中的原始輸入輸出的合理封裝和抽象。以從螢幕中顯示的視訊作為輸入,提取其中的文字和視覺資訊進行決策,並且輸出底層作業系統中控制鍵盤和滑鼠的訊號去和電腦交互,使得其可以不依賴任何假設與所有軟體進行交互。
「Cradle 主要由資訊收集、自我反思、任務推論、技能管理、行動計畫以及記憶模組等6 個模組組成,其強大的決策推理來自於「反思過去,總結現在,規劃未來」」同時Cradle 強大的決策推理模組讓其得以自發和軟體進行交互並且完成任務,這個過程可以被簡單地總結為:反思過去,總結現在,規劃未來。
- 反思過去:使用執行過往動作過程的影片作為輸入,分別擷取其中關鍵的文字和視覺訊息,透過反思來判斷上一步動作是否執行成功、任務是否完成、如何改進。
- 總結現在:反思完之後,總結當前情況,並且以此為依據來決定是否更換任務目標或是修改任務內容。
- 規劃未來:最後根據當前任務和現狀生成或更新技能,並且從已學會的技能中檢索與當前任務相關的技能作為備選,然後從中選取適當的技能實例化為動作去執行。
在決策推理的同時,Cradle 會週期性地總結和維護儲存在情境記憶中的歷史資訊以及儲存在長期記憶中的技能。這個過程的大腦是多模態大模型,如GPT-4V,但是Cradle 為其添加了總結、反思以及記憶等功能,形成了完整的面向通用計算機控制的智能框架,有效解決了通用性所帶來的難題。 為了證明框架的通用性和強大的決策能力,研究團隊選擇將Cradle 部署到最為困難以及鮮有人探索的的商業3A 遊戲大作《荒野大鏢客2》。他們認為作為操作最困難的軟體,如果 Cradle 能夠在 3A 遊戲上自由探索甚至完成主線劇情,那麼說明該框架有巨大潛力泛化到其他遊戲和軟體上。
「與Minecraft 這樣的開源遊戲不同,大多數商業遊戲特別是3A 遊戲並不提供內部API 接口,使得類似Voyager 這樣的依賴內部API 獲取輸入並輸出預定義動作的框架無法遷移到其他遊戲中」以GPT-4V 為基礎,Cradle 能直接根據遊戲內的提示和教程產生對應的可執行程式碼作為技能,一步步豐富自己的技能庫, 並在之後的遊戲中重複使用這些技能。
在執行了錯誤動作之後,Cradle 能夠有效地透過反思來發現並且修正錯誤。
Cradle 不僅能從頭開始跟隨遊戲指引生成相應技能,完成長達40 分鐘時的主線劇情,還能在開放世界自由探索,騎馬,打獵,戰鬥,與NPC 對話,使用道具,操作地圖,甚至商店購物,均不在話下。這是第一個能長時間遊玩商業 3A 遊戲的智能體。
開源的Cradle 程式碼可以輕鬆擴展到其他軟體和遊戲。研究團隊表示,為了能夠實現真正的通用電腦控制,後續 Cradle 也將移植到更多軟體和遊戲上,也鼓勵相關研究團隊 / 工業界進行進一步研究與探索。目標是讓智能體可以與無論是開源還是閉源的所有軟體進行互動並持續自我提升,實現通用性,最終成為通用人工智慧
誕生的搖籃。
"GCC is a cradle for AGI." ###
—The Cradle team
##One more thing:Cradle 技術解讀直播
##3 月14 日14:30- 15:30,論文一作新加坡南洋理工大學博士生譚偉豪進行線上解讀報告。掃描下圖二維碼報名。 以上是向數位世界AGI邁進!智能體已經從頭開玩「荒野大鏢客 2」了的詳細內容。更多資訊請關注PHP中文網其他相關文章!