搜尋
首頁科技週邊人工智慧向數位世界AGI邁進!智能體已經從頭開玩「荒野大鏢客 2」了

向数字世界AGI迈进!智能体已经从头开玩「荒野大镖客 2」了

通用電腦控制

#資訊革命產生了數位世界,數字世界為大模型的誕生提供了數據,也最容易實現通用人工智慧(AGI)。

向数字世界AGI迈进!智能体已经从头开玩「荒野大镖客 2」了

向數位世界AGI 邁進,北京智源人工智慧研究院、新加坡南洋理工大學、北京大學攜手提出通用電腦控制General Computer Control (GCC) ,即智能體需要像人一樣看螢幕,透過鍵盤、滑鼠完成電腦上的所有任務。 在過去很長一段時間裡,人工智慧研究以遊戲為場景,而GCC 將為通用人工智慧研究提供場景,也將進一步促進大模型和AI Agents 的落地與產業化。

為此,研究團隊提出通用電腦控制智能體框架Cradle,使智能體不依賴任何內部API 直接控制鍵盤、滑鼠和任何軟體交互,無論開源或閉源,甚至能玩《荒野大鏢客2》這樣的商業3A 遊戲大作!

向数字世界AGI迈进!智能体已经从头开玩「荒野大镖客 2」了

  • 論文標題:Towards General Computer Control: A Multimodal Agent for Red Dead Redemption II as a Case Study
  • #論文連結:https://arxiv.org/abs/2403.03186
  • 專案首頁:https://baai-agents.github.io/Cradle/
  • #程式碼連結:https://github.com/BAAI-Agents/Cradle

隨著大模型的發展,越來越多的智能體(AI Agents)研究關注電腦控制,包括瀏覽網頁、操作智慧型手機、玩遊戲等。然而,已有研究依賴內部 API 取得輸入,並輸出預先定義好的動作。要建構能完成電腦上一切任務的通用智能體,必須使用最通用和最標準的輸入輸出與電腦互動。因此,通用電腦控制使用統一的輸入和輸出,從而讓智慧體的通用性變為可能。

但通用性帶來了操作上的難度:(1)使用電腦螢幕作為輸入對智能體的視訊理解能力提出了更高的要求,例如由於沒有內部API,需要透過視覺資訊判斷動作是否執行成功;(2)使用鍵盤和滑鼠操作作為輸出使得智能體需要更高的時空操作精確度,例如鍵盤按鍵和滑鼠點擊通常額外涉及時間維度。如何解決這些難題是建構通用電腦控制智能體 (GCC Agents) 的挑戰!

Cradle:操控一切軟體

向数字世界AGI迈进!智能体已经从头开玩「荒野大镖客 2」了

#「電腦指任何以使用者為中心的計算設備,包括PC、智慧型手機和平板電腦等。儘管Cradle 著重於鍵盤和滑鼠操作,但可以輕鬆擴展到控製手柄和觸控螢幕等」

##通用電腦控制智能體架構Cradle 主要由6 個模組組成:資訊收集、自我反思、任務推論、技能管理、行動計畫、記憶模組。 Cradle 高度的通用性來自於其對和電腦互動過程中的原始輸入輸出的合理封裝和抽象。以從螢幕中顯示的視訊作為輸入,提取其中的文字和視覺資訊進行決策,並且輸出底層作業系統中控制鍵盤和滑鼠的訊號去和電腦交互,使得其可以不依賴任何假設與所有軟體進行交互。

向数字世界AGI迈进!智能体已经从头开玩「荒野大镖客 2」了

「Cradle 主要由資訊收集、自我反思、任務推論、技能管理、行動計畫以及記憶模組等6 個模組組成,其強大的決策推理來自於「反思過去,總結現在,規劃未來」」

同時Cradle 強大的決策推理模組讓其得以自發和軟體進行交互並且完成任務,這個過程可以被簡單地總結為:反思過去,總結現在,規劃未來

  • 反思過去:使用執行過往動作過程的影片作為輸入,分別擷取其中關鍵的文字和視覺訊息,透過反思來判斷上一步動作是否執行成功、任務是否完成、如何改進。
  • 總結現在:反思完之後,總結當前情況,並且以此為依據來決定是否更換任務目標或是修改任務內容。
  • 規劃未來:最後根據當前任務和現狀生成或更新技能,並且從已學會的技能中檢索與當前任務相關的技能作為備選,然後從中選取適當的技能實例化為動作去執行。

在決策推理的同時,Cradle 會週期性地總結和維護儲存在情境記憶中的歷史資訊以及儲存在長期記憶中的技能。這個過程的大腦是多模態大模型,如GPT-4V,但是Cradle 為其添加了總結、反思以及記憶等功能,形成了完整的面向通用計算機控制的智能框架,有效解決了通用性所帶來的難題。

Cradle:帶你從頭開始探索《荒野大鏢客2》

為了證明框架的通用性和強大的決策能力,研究團隊選擇將Cradle 部署到最為困難以及鮮有人探索的的商業3A 遊戲大作《荒野大鏢客2》。他們認為作為操作最困難的軟體,如果 Cradle 能夠在 3A 遊戲上自由探索甚至完成主線劇情,那麼說明該框架有巨大潛力泛化到其他遊戲和軟體上。

向数字世界AGI迈进!智能体已经从头开玩「荒野大镖客 2」了

「與Minecraft 這樣的開源遊戲不同,大多數商業遊戲特別是3A 遊戲並不提供內部API 接口,使得類似Voyager 這樣的依賴內部API 獲取輸入並輸出預定義動作的框架無法遷移到其他遊戲中」

以GPT-4V 為基礎,Cradle 能直接根據遊戲內的提示和教程產生對應的可執行程式碼作為技能,一步步豐富自己的技能庫, 並在之後的遊戲中重複使用這些技能。

向数字世界AGI迈进!智能体已经从头开玩「荒野大镖客 2」了

在執行了錯誤動作之後,Cradle 能夠有效地透過反思來發現並且修正錯誤。

向数字世界AGI迈进!智能体已经从头开玩「荒野大镖客 2」了

Cradle 不僅能從頭開始跟隨遊戲指引生成相應技能,完成長達40 分鐘時的主線劇情,還能在開放世界自由探索,騎馬,打獵,戰鬥,與NPC 對話,使用道具,操作地圖,甚至商店購物,均不在話下。這是第一個能長時間遊玩商業 3A 遊戲的智能體。

向数字世界AGI迈进!智能体已经从头开玩「荒野大镖客 2」了

向数字世界AGI迈进!智能体已经从头开玩「荒野大镖客 2」了

向数字世界AGI迈进!智能体已经从头开玩「荒野大镖客 2」了

向数字世界AGI迈进!智能体已经从头开玩「荒野大镖客 2」了

開源的Cradle 程式碼可以輕鬆擴展到其他軟體和遊戲。研究團隊表示,為了能夠實現真正的通用電腦控制,後續 Cradle 也將移植到更多軟體和遊戲上,也鼓勵相關研究團隊 / 工業界進行進一步研究與探索。目標是讓智能體可以與無論是開源還是閉源的所有軟體進行互動並持續自我提升,實現通用性,最終成為通用人工智慧

誕生的搖籃。

"GCC is a cradle for AGI."        ###

 —The Cradle team

##One more thing:Cradle 技術解讀直播

##3 月14 日14:30- 15:30,論文一作新加坡南洋理工大學博士生譚偉豪進行線上解讀報告。掃描下圖二維碼報名。

以上是向數位世界AGI邁進!智能體已經從頭開玩「荒野大鏢客 2」了的詳細內容。更多資訊請關注PHP中文網其他相關文章!

陳述
本文轉載於:机器之心。如有侵權,請聯絡admin@php.cn刪除
大多數使用的10個功率BI圖 - 分析Vidhya大多數使用的10個功率BI圖 - 分析VidhyaApr 16, 2025 pm 12:05 PM

用Microsoft Power BI圖來利用數據可視化的功能 在當今數據驅動的世界中,有效地將復雜信息傳達給非技術觀眾至關重要。 數據可視化橋接此差距,轉換原始數據i

AI的專家系統AI的專家系統Apr 16, 2025 pm 12:00 PM

專家系統:深入研究AI的決策能力 想像一下,從醫療診斷到財務計劃,都可以訪問任何事情的專家建議。 這就是人工智能專家系統的力量。 這些系統模仿Pro

三個最好的氛圍編碼器分解了這項代碼中的AI革命三個最好的氛圍編碼器分解了這項代碼中的AI革命Apr 16, 2025 am 11:58 AM

首先,很明顯,這種情況正在迅速發生。各種公司都在談論AI目前撰寫的代碼的比例,並且這些代碼的比例正在迅速地增加。已經有很多工作流離失所

跑道AI的Gen-4:AI蒙太奇如何超越荒謬跑道AI的Gen-4:AI蒙太奇如何超越荒謬Apr 16, 2025 am 11:45 AM

從數字營銷到社交媒體的所有創意領域,電影業都站在技術十字路口。隨著人工智能開始重塑視覺講故事的各個方面並改變娛樂的景觀

如何註冊5天ISRO AI免費課程? - 分析Vidhya如何註冊5天ISRO AI免費課程? - 分析VidhyaApr 16, 2025 am 11:43 AM

ISRO的免費AI/ML在線課程:通向地理空間技術創新的門戶 印度太空研究組織(ISRO)通過其印度遙感研究所(IIR)為學生和專業人士提供了絕佳的機會

AI中的本地搜索算法AI中的本地搜索算法Apr 16, 2025 am 11:40 AM

本地搜索算法:綜合指南 規劃大規模活動需要有效的工作量分佈。 當傳統方法失敗時,本地搜索算法提供了強大的解決方案。 本文探討了爬山和模擬

OpenAI以GPT-4.1的重點轉移,將編碼和成本效率優先考慮OpenAI以GPT-4.1的重點轉移,將編碼和成本效率優先考慮Apr 16, 2025 am 11:37 AM

該版本包括三種不同的型號,GPT-4.1,GPT-4.1 MINI和GPT-4.1 NANO,標誌著向大語言模型景觀內的特定任務優化邁進。這些模型並未立即替換諸如

提示:chatgpt生成假護照提示:chatgpt生成假護照Apr 16, 2025 am 11:35 AM

Chip Giant Nvidia週一表示,它將開始製造AI超級計算機(可以處理大量數據並運行複雜算法的機器),完全是在美國首次在美國境內。這一消息是在特朗普總統SI之後發布的

See all articles

熱AI工具

Undresser.AI Undress

Undresser.AI Undress

人工智慧驅動的應用程序,用於創建逼真的裸體照片

AI Clothes Remover

AI Clothes Remover

用於從照片中去除衣服的線上人工智慧工具。

Undress AI Tool

Undress AI Tool

免費脫衣圖片

Clothoff.io

Clothoff.io

AI脫衣器

AI Hentai Generator

AI Hentai Generator

免費產生 AI 無盡。

熱門文章

R.E.P.O.能量晶體解釋及其做什麼(黃色晶體)
1 個月前By尊渡假赌尊渡假赌尊渡假赌
R.E.P.O.最佳圖形設置
1 個月前By尊渡假赌尊渡假赌尊渡假赌
R.E.P.O.如果您聽不到任何人,如何修復音頻
1 個月前By尊渡假赌尊渡假赌尊渡假赌
R.E.P.O.聊天命令以及如何使用它們
1 個月前By尊渡假赌尊渡假赌尊渡假赌

熱工具

SAP NetWeaver Server Adapter for Eclipse

SAP NetWeaver Server Adapter for Eclipse

將Eclipse與SAP NetWeaver應用伺服器整合。

Safe Exam Browser

Safe Exam Browser

Safe Exam Browser是一個安全的瀏覽器環境,安全地進行線上考試。該軟體將任何電腦變成一個安全的工作站。它控制對任何實用工具的訪問,並防止學生使用未經授權的資源。

Atom編輯器mac版下載

Atom編輯器mac版下載

最受歡迎的的開源編輯器

Dreamweaver CS6

Dreamweaver CS6

視覺化網頁開發工具

Dreamweaver Mac版

Dreamweaver Mac版

視覺化網頁開發工具